Tải bản đầy đủ (.pdf) (3 trang)

DSpace at VNU: Tìm hiểu hàm nhân trong máy vector hỗ trợ và ứng dụng trong nhận dạng chữ số viết tay Researching Kernels of Support Vector Machine and Their Applications in Handwriting

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (250.77 KB, 3 trang )

Tìm hiểu hàm nhân trong máy vector hỗ trợ và
ứng dụng trong nhận dạng chữ số viết tay
Researching Kernels of Support Vector Machine and Their Applications in Handwriting
Recognition
NXB H. : ĐHCN, 2014 Số trang 52 tr. +

Chu văn Vinh
Đại học Công nghệ
Luận văn ThS ngành: Kỹ thuật Phần mềm; Mã số: 60 48 01 03
Người hướng dẫn: TS. Nguyễn Văn Vinh
Năm bảo vệ: 2014
Keywords: Kỹ thuật phần mềm; Hàm nhân; Máy vector hỗ trợ; Phương pháp học máy
Content
1. Đặt vấn đề, giới thiệu bài toán
Ngày nay với sự phát triển mạnh mẽ của khoa học kỹ thuật, đặc biệt là sự phát triển của
mạng máy tính toàn cầu, một lượng lớn dữ liệu được tạo ra thường xuyên hàng ngày nhằm đáp
ứng nhu cầu không thể thiếu của con người đó là thông tin. Chúng ta đang được sống trong một
xã hội bùng nổ thông tin, các ứng dụng công nghệ thông tin đã và đang đi vào từng lĩnh vực của
đời sống xã hội. Thông tin được thể hiện dưới rất nhiều dạng khác nhau như: văn bản, hình ảnh,
âm thanh... cần được nhận dạng, sắp xếp, phân loại để con người có thể dễ dàng nhận biết và tìm
kiếm.
Học máy là một lĩnh vực của trí tuệ nhân tạo, liên quan đến việc nghiên cứu và xây dựng
các kỹ thuật cho phép hệ thống có thể học tự động từ dữ liệu để giải quyết những vấn đề cụ thể.
Phương pháp học máy thường được áp dụng trong các bài toán như: nhận dạng, phân lớp dữ liệu,
xử lý ngôn ngữ, tin sinh học... Các phương phương pháp học máy thường được sử dụng rộng rãi
là Mạng nơ-ron nhân tạo, máy vector hỗ trợ, k-láng giềng gần nhất, Naive Bayes, mô hình hỗn
hợp Gauss... Trong đó, thuật toán máy vector hỗ trợ (Support Vector Machine) là phương pháp
mới và tiên tiến, đang được đánh giá rất cao do tính hiệu quả trong việc nhận dạng và phân lớp dữ
liệu của nó. Nội dung chính của thuật toán máy vector hỗ trợ là tìm ra một siêu phẳng phân cách
tối ưu để có thể phân chia dữ liệu tuyến tính ra làm hai lớp khác nhau.
Trong thuật toán máy vector hỗ trợ, các hàm nhân và các tham số của nó đóng vai trò rất


quan trọng, ảnh hưởng đến tốc độ xử lý huấn luyện và tính chính xác của thuật toán với các bài
toán phân lớp dữ liệu không tuyến tính. Bài toán lựa chọn hàm nhân và tham số tốt nhất vẫn còn
là một vấn đề mở, là một bài toán khó trong thuật toán máy vector hỗ trợ. Trong rất nhiều các
phương pháp đề xuất, thuật toán tìm kiếm dạng lưới và thẩm định chéo là một trong những
phương pháp cơ bản và thông dụng để tìm ra hàm nhân và tham số tốt nhất trong một khoảng giá
trị được xác định trước.
Trên thực tế, máy vector hỗ trợ đã được cài đặt và kiểm chứng cho ra kết quả nhận dạng,
phân loại rất tốt với các bài toán như: nhận dạng hình ảnh, nhận dạng chữ viết tay, phân loại văn
bản, nhận dạng âm thanh... Bài toán nhận dạng chữ viết tay vẫn đang là một vấn đề kinh điển

1


trong công nghệ thông tin do sự đa dạng của thông tin đầu vào và thuật toán vẫn còn đang trong
quá trình hoàn thiện để đi đến kết quả chính xác nhất.
2. Mục tiêu của luận văn
Trên cơ sở về tính cấp thiết và tính thực tiễn của các vấn đề nêu trên, tôi đã chọn đề tài
“Tìm hiểu hàm nhân trong máy vector hỗ trợ và ứng dụng trong nhận dạng chữ số viết tay”
làm đề tài cho luận văn của mình. Mục đích chính của luận văn là tìm hiểu các hàm nhân trong
máy vector hỗ trợ, các phương pháp lựa chọn tham số tốt nhất cho hàm nhân trong một khoảng
giá trị xác định trước. Từ những phương pháp đó, tôi sẽ tìm hiểu bài toán nhận dạng chữ viết tay,
các bước áp dụng hàm nhân trong bài toán nhận dạng chữ số viết tay để thực hiện cài đặt và đánh
giá kết quả thử nghiệm với các hàm nhân, thử nghiệm phương pháp lựa chọn tham số cho hàm
nhân.
3. Phương pháp và phạm vi nghiên cứu của luận văn
Để đạt được mục tiêu của luận văn, tôi đã tìm hiểu và tổng hợp các kiến thức liên quan
đến máy vector hỗ trợ, các hàm nhân thường sử dụng trong máy vector hỗ trợ, các phương pháp
đánh giá để tìm ra giá trị tốt nhất cho tham số của hàm nhân trong một khoảng giá trị được xác
định trước. Sau đó, tìm hiểu bài toán nhận dạng chữ viết tay, quá trình áp dụng hàm nhân để giải
quyết bài toán nhận dạng chữ số viết tay để xây dựng chương trình thử nghiệm đánh giá các kết

quả đã nghiên cứu. Bên cạnh đó, để có thể đánh giá tốt các kết quả nghiên cứu, độ lớn và độ chính
xác của tập dữ liệu thử nghiệm cũng rất quan trọng, tôi đã tìm hiểu các tập dữ liệu đang sử dụng
phổ biến hiện nay và lấy tập dữ liệu MNIST để thử nghiệm chương trình cài đặt.
4. Nội dung của luận văn
Nội dung chính của luận văn được chia thành 4 chương có nội dung như sau:
Chương 1: Thuật toán máy vector hỗ. Chương này trình bày các lý thuyết cơ bản về học
máy, máy vector hỗ trợ, các phương pháp cải tiến của máy vector hỗ trợ để làm tiền đề cho quá
trình huấn luyện và nhận dạng dữ liệu.
Chương 2: Các hàm nhân trong máy vector hỗ trợ. Chương này giới thiệu các vấn đề
liên quan đến hàm nhân thường được áp dụng trong máy vector hỗ trợ để giải quyết các bài toán
phân lớp dữ liệu không tuyến tính.
Chương 3: Ứng dụng của hàm nhân trong nhận dạng chữ số viết tay. Chương này
giới thiệu bài toán nhận dạng chữ viết tay, các bước áp dụng thuật toán máy vector hỗ trợ và hàm
nhân để giải quyết bài toán nhận dạng chữ số viết tay.
Chương 4: Cài đặt và thử nghiệm chương trình. Chương này giới thiệu về chương trình
cài đặt, thử nghiệm với 7000 chữ số viết tay mẫu, từ đó đánh giá hiệu quả của phương pháp tìm
kiếm dạng lưới và thẩm định chéo khi lựa chọn hàm nhân cũng như tham số cho hàm nhân trong
một khoảng giá trị xác định trước.
Phần kết luận: Tổng kết những kết quả đã đạt được của luận văn và hướng nghiên cứu,
phát triển tiếp theo.
References
Tiếng Việt
[1]

Trần Uyên Trang, Giáo trình Trí tuệ nhân tạo, 2013

[2]
Nguyễn Thị Thảo, Phương pháp phân lớp sử dụng máy vector hỗ trợ ứng dụng trong tin
sinh học, Tạp chí Khoa học và Phát triển, 2011.
[3]

Phạm Anh Phương, “Nghiên cứu ứng dụng phương pháp máy véc tơ tựa trong nhận dạng
chữ Việt viết tay rời rạc”, Luận án Tiến sĩ, 2010.

2


Tiếng Anh
[4]

Henok Girma, “A tutorial on Support Vector Machine”, 2009.

[5]
Cesar de Souza, “Handwriting Recognition Revisited: Kernel Support Vector Machine”,
2012.
[6]

Colin Campbell, “Kernel methods: a survey of current techniques”, 2001.

[7]
Alexandros Karatzoglou, David Meyer, Kurt Hornik “Support Vector Machines in R”,
Journal of Statistical Software, 2006.
[8]
Olivier Chapelle, Vladimir Vapnik, “Choosing Multiple Parameters for Support Vector
Machines”, 2001.
[9]
Ching-Yinn Lee, Shuh-Gi Chern, “Application of a support vector machine for
liquefaction assessment”, Journal of Marine Science and Technology, Vol.21, No.3, pp.318-324,
2013.
[10] Chih-Wei Hsu, Chih-Chung Chang, and Chih-Jen Lin, “A Practical Guide to Support
Vector Classification”, 2010.

[11] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. "Gradient-based learning applied to
document recognition.", Proceedings of the IEEE, 86(11): 2278-2324, 1998.

3



×