Nhận dạng chữ nôm bằng máy véc tơ hỗ trợ (SVM)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (231.55 KB, 6 trang )

Nhận dạng chữ Nôm bằng máy véc - tơ hỗ trợ
(SVM)

Trần Nghi Phú

Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội
Luận văn ThS. Công nghệ thông tin : 60 48 10
Người hướng dẫn : PGS.TS. Nguyễn Ngọc Bình
Năm bảo vệ: 2013
74 tr .

Abstract. Nghiên cứu bước trích chọn đặc trưng và nhận dạng trong sơ đồ hệ thống
nhận dạng chữ Nôm tổng thể do LES-Nom xây dựng. Trong bước trích chọn đặc trưng
chọn phương pháp trích chọn đặc trưng trọng số vùng (Zoning). Trong bước nhận
dạng đề tài tìm hiểu kỹ thuật Máy véc-tơ hỗ trợ (SVM) và đưa mô hình ứng dụng
SVM trong nhận dạng chữ Nôm từ đó đưa ra những đánh giá và đề xuất các hướng
nghiên cứu cải tiến
Keywords. Công nghệ phần mềm; Nhận dạng chữ nôm; Máy Véc tơ; Nhận dạng ký tự
Content.
1. Tính cấp thiết
Chữ Nôm là một di sản văn hoá minh chứng cho truyền thống văn hiến lâu dài
của dân tộc Việt Nam. Nghiên cứu chữ Nôm góp phần khẳng định tự hào dân tộc,
khám phá những nét văn hóa, lịch sử, khoa học đặc sắc qua từng thờ kỳ của dân tộc.
Do đó việc phục hồi và phát triển chữ Nôm đang được xã hội ngày càng qua tâm qua
nhiều hoạt động, công trình nghiên cứu ở nhiều phương diện ngôn ngữ học, lịch sử,
văn hóa… Song nghiên cứu chữ Nôm vẫn đang còn nhiều nhiệm vụ khó khăn, một
trong đó là nhiệm vụ của công nghệ thông tin - xây dựng bộ nhận dạng ký tự quang
học cho chữ Nôm hay Nôm-OCR.
Với tất cả các chữ viết phổ biến trên thế giới, việc xây dựng OCR cho các chữ
viết đó trở thành một trong những nhiệm vụ nghiên cứu quan trọng. Với những nỗ lực

nghiên cứu đó đã mang lại những thành tựu to lớn, góp phần quan trọng làm chủ chữ
viết của con người bằng khoa học công nghệ. Khi xây dựng thành công bộ OCR cho
ngôn ngữ, rào cản để máy hiểu chữ viết đó được tháo bỏ bớt. Khi đó, ta hoàn toàn có
thể xử lý ngôn ngữ, chữ viết hay sâu hơn là kho tri thức biểu thị bằng ngôn ngữ đó với
tốc độ của máy, bằng những tiến bộ của khoa học máy tính. Xét về mặt công nghệ
thông tin cũng như ngôn ngữ học, đó là được xem là những đóng góp khổng lồ.
Thực trạng ngày nay, số người biết chữ Nôm ngày càng ít càng làm cho những
tri thức chữ Nôm ngày càng mai một. Ngược lại chúng ta lại đang sở hữu những kho
tàng tri thức khổng lồ về chữ Nôm về nhiều phương diện như sách, gia phả, ấn
phong… và đặc biệt là một hệ thống đồ sộ các bia đá, câu đối trong các công trình di
tích, là chứng cứ sống của lịch sử, là biểu tượng của văn hóa, lịch sử Việt với thế giới.
Nếu không có một sự hỗ trợ mạnh mẽ của khoa học để khai thác kho tri thức Nôm
khổng lồ này, chúng ta sẽ ngày càng mù chính chữ của dân tộc mình, và dần sau sẽ trở
nên tan biến. Việc xây dựng được Nôm-OCR sẽ tạo điều kiện khai thác số tri thức
Nôm khổng lồ, ứng dụng vào trong tìm hiểu các công trình, bia, câu đối cổ bằng các
ứng dụng tích hợp trên các thiết bị di động máy tính, hay nói cách khác chúng ta có thể
làm mọi thiết bị biết giải thích chữ Nôm và từ đó góp phần ý nghĩa trong khảo cổ,
khám phá văn hóa, khám phá du lịch.
2. Tình hình nghiên cứu
Nghiên cứu chữ Nôm đã được nhiều nhóm gần đây quan tâm cả về phương diện
ngôn ngữ học và công nghệ thông tin. Một trong những thành tựu đầu tiên là việc hình
thành các từ điển chữ Nôm, hình thành các kho chữ Nôm được số hóa, số hóa và giải
mã nhiều tài liệu chữ Nôm như truyện Kiều của Hán Nôm Foundation. Tiếp tới, sau
những nỗ lực trong thời gian dài, chữ Nôm đã được xác lập vị trí trong bộ ký tự thế
giới Unicode và ISO 10646, trong đó có 5067 ký tự trùng hình với chữ Trung Quốc,
4232 chữ thuần Nôm và hiện đang đề nghị đưa vào thêm 2200. Kế tiếp bước đi đó,
nhiều bộ font Nôm, bộ gõ chữ Nôm đã được xây dựng. Và một trong những bước đi
tiếp của lộ trình trên là xây dựng OCR-Nôm, nhưng hiện tại vẫn chưa có kết quả
nghiên cứu nào đề cập đến vấn đề trên, có thể do có những khó khăn nhất định và một
trong những khó khăn thường gặp là vấn đề về dữ liệu để nghiên cứu.

Các bộ OCR tượng hình như tiếng Trung, Nhật đã được nghiên cứu nhiều và
đạt được những kết quả khả quan, được ứng dụng rộng rãi trong thực tế có thể kể đến
sản phẩm nguồn mở Tesseract, KanjiPad - phần mềm nhận dạng chữ viết tay Nhật
Bản, Readiris Pro 11 Corporate Edition - phần mềm nhận dạng chữ Trung Quốc đạt tới
độ chính xác 98%, HWPen - phần mềm nhận dạng chữ viết tay Trung Quốc tích hợp
trên iPhone và đặc biệt sản phẩm thương mại ABBY… đạt độ chính xác gần như tuyệt
đối với ký tự in các ngôn ngữ.
Nói tóm lại, các chủ đề liên quan đến chữ Nôm cũng như OCR đã được quan
tâm và đạt nhiều thành quả cao, riêng lĩnh vực nghiên cứu kết hợp 2 yếu tố này vẫn là
bài toán mở, cần những nghiên cứu mới.
3. Đối tượng và phạm vi nghiên cứu
Chúng tôi tập trung nghiên cứu bài toàn nhận dạng chữ Nôm nhằm xây dựng bộ
phần mềm nhận dạng chuyển đổi từ ảnh của một ký tự Nôm về mã Unicode của ký tự
đó tiến hành tra cứu nghĩa căn cứ trên từ điển hoặc kết hợp với các hệ thống khác.
Hệ thống OCR bao gồm nhiều thành phần như tiền xử lý, trích chọn đặc trưng,
nhận dạng, hậu xử lý. Đề tài tập trung nghiên cứu bước trích chọn đặc trưng và nhận
dạng. Với tập dữ liệu đầu vào để huấn luyện và nhận dạng là kho mẫu NOM-DB0
chứa 495 chữ Nôm, mỗi chữ 24 mẫu, mỗi chữ trên 1 ảnh đã được cắt bó sát.
4. Mục đích và nhiệm vụ nghiên cứu
Đề tài tập trung nghiên bước trích chọn đặc trưng và nhận dạng trong sơ đồ hệ
thống nhận dạng chữ Nôm tổng thể do LES-Nom xây dựng. Trong bước trích chọn đặc
trưng chọn phương pháp trích chọn đặc trưng trọng số vùng (Zoning). Trong bước
nhận dạng đề tài tìm hiểu kỹ thuật Máy véc-tơ hỗ trợ (SVM) và đưa mô hình ứng dụng
SVM trong nhận dạng chữ Nôm từ đó đưa ra những đánh giá và đề xuất các hướng
nghiên cứu cải tiến.
5. Những nội dung nghiên cứu
Chúng tôi tìm hiểu tổng quan về chữ Nôm và bài toán nhận dạng chữ Nôm
nhằm mục đích để xây dựng bộ nhận dạng Nôm-OCR. Để tiến hành các nghiên cứu
đánh giá, nhóm tác giả cùng nghiên cứu về chữ Nôm trong LES-Nôm tiến hành xây
dựng bộ dữ liệu mẫu Nôm-DB0. Trên cơ sở những kết quả về nhận dạng đã áp dụng

cho các bộ OCR khác, đặc biệt là OCR chữ tượng hình, luận văn tiến hành nghiên cứu,
đề xuất thuật toán nhận dạng KSVM, tiến hành cài đặt thuật toán, tiến hành thực
nghiệm đánh giá độ chính xác của KSVM.
6. Kết cấu luận văn
Ngoài phần mở đầu, kết luận, phụ lục và danh mục tài liệu tham khảo, luận văn
gồm 5 chương. Trong chương 1, chúng tôi tìm hiểu tổng quan chữ Nôm, trong đó tập
trung các yếu tố liên quan đến nhận dạng như cấu trúc chữ Nôm, số lượng từ Nôm
không có hình trong bộ chữ tượng hình khác. Tiếp đó, trong chương 2, những nội dung
về bài toán nhận dạng chữ Nôm được nêu ra trên cơ sở tìm hiểu các OCR nói chung và
OCR dành cho chữ tượng hình về phương diện kết quả đạt được, mô hình và các giải
thuật cần được tiếp tục nghiên cứu. Trong chương 3, chúng tôi tập trung tìm hiểu ý
tưởng của SVM và đi sâu làm rõ nội dung liên quan nhiều đến luận văn là áp dụng
SVM cho bài toán phân đa lớp, vốn là một trong những chủ để đang được quan tâm
nhiều, đặc biệt khi áp dụng cho chữ Nôm có số chữ lớn. Trên cơ sở những kiến thức có
được từ 3 chương đầu, chương 4 trình bày giải thuật KSVM cho bài toán nhận dạng
chữ Nôm do tác giả đề xuất. Để thực hiện đánh giá hiệu quả của KSVM, trong chương
5, chúng tôi đã trình bày các bước tiến hành xây dựng thực nghiệm và đánh giá
KSVM. Do không được kế thừa từ kết quả nghiên cứu nào với chữ Nôm, nên luận văn
tiến hành thực nghiệm từ bước đầu tiên là tự xây dựng kho cơ sở dữ liệu mẫu, đến
phần mềm tách chữ, tiền xử lý cơ bản sau đó xây dựng kịch bản và tiến hành đánh giá.

TÀI LIỆU THAM KHẢO
Tiếng việt
1. Phan Anh Dũng. 2004. Một số kết quả ứng dụng công nghệ thông tin phục vụ nghiên
cứu chữ Nôm, Hội nghị Quốc tế về chữ Nôm lần thứ nhất, Hà Nội.
2. Phan Anh Dũng, Dương Văn Việt, Hoàng Thị Ngọc Dung (2006), Đưa Chư
̃
Ha
́
n -

Nôm Va
̀
o Thiết Bi
̣
Cầm Tay.
3. Phạm Văn Huởng, Trần Minh Tuấn, Nguyễn Thị Ngọc Hương, Bùi Thị Hồng Hạnh,
Lê Hồng Trang, Vũ Thanh Nhân, Trương Anh Hoàng, Vũ Quang Dũng, Nguyễn
Ngọc Bình (2008), “Một số phương pháp nhận dạng chữ Nôm”, Hội thảo Khoa học
Quốc gia Lần thứ IV về CNTT-TT (ICT.rda’2008), Hà Nội.
4. Tống Phước Khải & Lê Anh Minh (2004), HaNoSoft Tool 2004 (for Windows
2000/XP), Kỷ yếu Hội nghị Quốc tế về chữ Nôm lần thứ nhất, Hà Nội.
5. Phòng Nhận dạng và Xử lý ảnh - Viê
̣
n công nghê
̣
thông tin (1998), Phần mềm nhâ
̣
n
dạng chữ Việt in.
6. Trần Thị Thanh(2007), Vài nét về cách cấu tạo chữ Nôm qua tác phẩm Thanh hóa
quan phong, Trường ĐH Khoa học Huế.
7. Ngô Trung Việt & Ngô Thanh Nhàn(2004), Một cách nhìn về tương lại của chữ
Nôm, Hội nghị Chữ Nôm Quốc tế, Hà Nội, Việt Nam.
8. Trần Nguyên Hoàng (2013), Nhận dạng chữ Nôm bằng mạng nơ-ron, Luận văn thạc
sĩ, Đại học Công nghệ - Đại học quốc gia Hà Nội, Hà Nội.
9.
Nguyễn Triệu Tuấn (2013), Trích chọn đặc trưng trong nhận dạng chữ
Nôm,
Luận văn thạc sĩ, Đại học Công nghệ - Đại học quốc gia Hà Nội, Hà Nội.
Tiếng Anh

10. Sargur N.Srihari, Tao Hong and Zhixin Shi (1997), CherryBlossom:A System for
Japanese Character Recognition, Symposium on Document Image Understanding
Technologies.
11. Heliński, Marcin (2012), Report on the comparison of Tesseract and ABBYY
FineReader OCR engines, Poznan.
12. Ning Wang (2008), Printed Chinese Character Recognition Based on Pixel
Distribution Probability of Character Image, Intelligent Information Hiding and
Multimedia Signal Processing, 08. IIHMSP apos;08 International Conference,
Volume 00, 15-17 Aug. 2008 Page(s):1403 – 1407.
13. Divind Due Trier, Anil K Jain, Torfinn Taxt (1996), Feature Extraction Methods
For Character Recognition - A Survey, Pattern Recognition, Vol. 29.
14. Laura Marshall (2008), Japanese Printed and Handwritten Character Recognition
Based on Pixel Distribution Probability of the Character Image.
15. Cortes, Corinna; Vapnik, Vladimir (1995), Support-Vector Networks, Machine
Learning.
16. Kai-Bo Duan, S. Sathiya Keerthi (2005), Which Is the Best Multiclass SVM
Method? An Empirical Study, Springer-Verlag Berlin Heidelberg.
17. John C. Platt, Nello Cristianini, John Shawe-Taylor(1999), Large Margin DAGs
for Multiclass Classification, NIPS.
18. Ray Smith(2007), “An Overview of the Tesseract OCR Engine”, OSCON.
19. Stephen V. Rice, Frank R. Jenkins, Thomas. A. Nartker (1995), “The Fourth
Annual Test of OCR Accuracy, Technical Report 95-03”, Information Science
Research Institute, University of Nevada, Las Vegas.
20. Sargur N. Srihari, Xuanshen Yang, Gregory R. Ball (2007), Offline Chinese
Handwriting Recognition: A Survey, Frontiers of Computer Science in.
21. Cheng-Lin Liu, Hiromichi Fujisawa (2008), Classification and Learning Methods
for Character Recognition: Advances and Remaining Problems, Machine
Learning in Document Analysis and Recognition Studies in Computational
Intelligence Volume 90, pp 139-161
22. Marcin Heliński, Miłosz Kmieciak, Tomasz Parkola (2008), Report on the

comparison of Tesseract and ABBYY FineReader OCR engines, National Library
of the Netherlands.
23. T.K. Ho, J.J. Hull, S.N. Srihari (1994), Decision combination in multiple classifier
systems, IEEE Trans. PAMI 16 (1) (1994) 66 75
24. C L. Liu, R. Mine, M. Koga (2005), Building compact classifier for large
character set recognition using discriminative feature extraction, Proceedings of
the Eighth ICDAR, Seoul, Korea, 2005, pp. 846-850
25. Hiromichi Fujisawa (2008), Forty years of research in character and document
recognition—an industrial perspective, Pattern Recognition, Volume 41, Issue 8,
Pages 2435–2446
26. Truyen Van Phan, Bilan Zhu and Masaki Nakagawa(2012), Collecting
Handwritten Nom Character Patterns from Historical Document Pages, IAPR
International Workshop on Document Analysis Systems.
Tiếng Pháp
27. Dương Quảng Hàm (1942), Extrait du Bulletin général de l’Instruction publique,
No 7, Mars 1942 – pp. 227-286: Le Chữ Nôm ou écriture démotique, son
importance dans l’étude de l’ancienne litérature annamite.

Nhận dạng chữ nôm bằng máy véc tơ hỗ trợ (SVM)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về