Tải bản đầy đủ (.docx) (78 trang)

Nhận dạng chữ nôm bằng máy véc tơ hỗ trợ (SVM)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.52 MB, 78 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN NGHI PHÚ

NHẬN DẠNG CHỮ NÔM BẰNG MÁY VÉC-TƠ HỖ TRỢ (SVM)

Ngành:Công nghệ thông tin
Chuyên ngành:Công nghệ phần mềm
Mã số:60 48 10

LUẬN VĂN THẠC SĨ

Hà Nội – 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI


TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN NGHI PHÚ

NHẬN DẠNG CHỮ NÔM BẰNG MÁY VÉC-TƠ HỖ TRỢ (SVM)

Ngành:

Công nghệ thông tin

Chuyên ngành: Công nghệ phần mềm
Mã số:

LUẬN VĂN THẠC SĨ



NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN NGỌC BÌNH

Hà Nội – 2013



MỤC LỤC
MỞ ĐẦU........................................................................................................................................1
Chƣơng 1. TỔNG QUAN CHỮ NÔM......................................................................................4
1.1. Lịch sử và một số đặc điểm của chữ Nôm..................................................................4
1.2. Cấu tạo chữ Nôm............................................................................................................5
1.2.1. Chữ Nôm mượn nguyên dạng chữ Hán................................................................. 5
1.2.2. Chữ Nôm được tạo trên cơ sở kết hợp hai chữ Hán..............................................5
1.2.3. Chữ Nôm được tạo trên cơ sở kết hợp chữ Hán và chữ Nôm................................6
1.3. Một số thống kê về chữ Nôm........................................................................................7
Tổng kết chƣơng 1...............................................................................................................10
Chƣơng 2. NHẬN DẠNG CHỮ NÔM....................................................................................11
2.1. Nhận dạng ký tự quang học.........................................................................................11
2.2.1. CherryBlossom......................................................................................................12
2.2.2. Tesseract................................................................................................................13
2.3. Mô hình OCR chữ Trung Quốc..................................................................................16
2.3.2. Phân đoạn............................................................................................................. 18
2.3.3. Chuẩn hóa ký tự.................................................................................................... 19
2.3.4. Nhận dạng............................................................................................................. 19
2.3.5. Các kết quả đạt được và những vấn đề đặt ra...................................................... 20
2.4. Bài toán nhận dạng chữ Nôm.....................................................................................21
Tổng kết chƣơng 2...............................................................................................................23
Chƣơng 3. MÁY VÉC-TƠ HỖ TRỢ (SVM).........................................................................24
3.1. Tổng quan về SVM.......................................................................................................24

3.2. SVM tuyến tính..............................................................................................................24
3.2. Lề mềm...........................................................................................................................26
3.3. SVM phi tuyến...............................................................................................................26
3.4. SVM cho bài toán phân đa lớp....................................................................................28
Tổng kết chƣơng 3...............................................................................................................30
Chƣơng 4. GIẢI THUẬT KSVM CHO NHẬN DẠNG CHỮ NÔM..................................31
4.1. Giải thuật KSVM cho nhận dạng chữ Nôm..............................................................31
4.2. Phƣơng pháp trích chọn đặng trƣng trọng số vùng (Zoning)..............................32
4.3. Huấn luyện (trainning)................................................................................................33
3.2.1. Xây dựng bộ nhận dạng OVOF...........................................................................34
3.2.2. Tạo mẫu đại diện................................................................................................ 34
3.2.3. Phân cụm bằng K-Mean..................................................................................... 35
4.4. Nhận dạng (Recognition)............................................................................................36
Tổng kết chƣơng 4...............................................................................................................37
Chƣơng 5. THỰC NGHIỆM, ĐÁNH GIÁ.............................................................................38
5.1. Quy trình thực nghiệm.................................................................................................38
5.2. Xây dựng bộ dữ liệu thực nghiệm...............................................................................39
5.3. Tiến hành thực nghiệm.................................................................................................42
5.3.1. Mục tiêu.................................................................................................................42
5.3.2.Cách thực hiện....................................................................................................... 43
5.4. Kết quả thực nghiệm....................................................................................................43


5.5. Đánh giá kết quả............................................................................................................44
Tổng kết chƣơng 5...............................................................................................................45
KẾT LUẬN.................................................................................................................................46
TÀI LIỆU THAM KHẢO.........................................................................................................48
PHỤ LỤC A.................................................................................................................................50
PHỤ LỤC B.................................................................................................................................62



DANH MỤC CÁC TỪ VIẾT TẮT
STT

Từ
1

A

2

B

3
4
5

6

J

7

k

8

K

9


O

10
11

O

12

O

13

14
15
16

P

17
18

S

DANH MỤC BẢNG BIỂU


Bảng 1.1. Một số hình thức chữ Nôm mượn nguyên dạng chữ Hán
Bảng 1.2. Một số bộ thủ dùng trong chữ Nôm

Bảng 1.3. Tỷ lệ chữ Nôm vay mượn qua các thời kỳ


Bảng 2.1. Kết quả đánh giá độ chính xác của Tesseract tại UNLV 1995
Bảng 2.2. Kết quả so sánh khả năng nhận dạng giữa FineReader và Tesseract
Bảng 3.1. So sánh độ chính xác một số phương pháp SVM đa lớp Bảng 5.1.
Kết quả thực nghiệm KSVM với bộ dữ liệu NOM-DB0


DANH MỤC HÌNH VẼ
Hình 1.1. Tỉ lệ tài liệu chữ Nôm trong các lĩnh vực.
Hình 1.2. Phân bố tài liệu chữ Nôm theo các thời kỳ.
Hình 2.1. Ứng dụng tự động chụp ảnh và dịch trên di động và bút chuyên
dụng Hình 2.2. Framework nhận dạng chữ tượng hình của JOCR. Hình 2.3.
Kiến trúc tổng quát của Tesseract.
Hình 2.4. Các bước trong nhận dạng chữ Trung Quốc
Hình 2.5. Quy trình nhận dạng đệ quy
Hình 2.6. Quá trình phần đoạn tiếng Trung Quốc
Hình 2.7. Sơ đồ các bước trong nhận dạng chữ Hán
Hình 2.8. Sơ đồ tổng thể mô hình nhận dạng chữ Nôm đề xuất.
Hình 2.9. Mô hình nhận dạng chữ Nôm trong luận văn
Hình 3.1. Tìm siêu phẳng có lề cực đại
Hình 3.2. Xác định lề, tham số phạt trong SVM
Hình 3.3. Ánh xạ không gian đặc trưng 2 chiều sang 3 chiều.
Hình 3.4. Khả năng phân lớp khi kết hợp SVM với hàm
nhân Hình 3.5. Minh họa các bước nhận dạng bằng OVO
Hình 4.1. Giải thuật trích chọn đặc trưng trọng số vùng (Zoning)
Hình 4.2. Ảnh nhị phân của một ký tự tiếng Trung Quốc
Hình 4.3. Số điểm đen theo lưới 3x3
Hình 4.4. Mật độ số điểm đen theo lưới 3x3

Hình 4.5. Lưu đồ huấn luyện trong giải thuật KSVM
Hình 4.6. Lưu đồ thuật toán K-Mean Hình 4.7.
Nhận dạng trong KSVM
Hình 5.1. Quy trình tiến hành thực nghiệm
Hình 5.2. Giao diện chính của chương trình thực nghiệm
Hình 5.3. Bản số hóa và dịch nghĩa của một trong trong truyện Kiều
Hình 5.4. Kết quả phân tích để thu dược mã chữ Nôm trong truyện kiều từ kho nomna.org
Hình 5.5. Tách chữ Nôm từ ảnh.
Hình 5.6. Một số mẫu chữ Nôm trong cơ sở dữ liệu NomDB0.


MỞ ĐẦU
1. Tính cấp thiết
Chữ Nôm là một di sản văn hoá minh chứng cho truyền thống văn hiến lâu dài của dân
tộc Việt Nam. Nghiên cứu chữ Nôm góp phần khẳng định tự hào dân tộc, khám phá những nét
văn hóa, lịch sử, khoa học đặc sắc qua từng thờ kỳ của dân tộc. Do đó việc phục hồi và phát
triển chữ Nôm đang được xã hội ngày càng qua tâm qua nhiều hoạt động, công trình nghiên
cứu ở nhiều phương diện ngôn ngữ học, lịch sử, văn hóa… Song nghiên cứu chữ Nôm vẫn
đang còn nhiều nhiệm vụ khó khăn, một trong đó là nhiệm vụ của công nghệ thông tin - xây
dựng bộ nhận dạng ký tự quang học cho chữ Nôm hay Nôm-OCR.
Với tất cả các chữ viết phổ biến trên thế giới,việc xây dựng OCR cho các chữ viết đó
trở thành một trong những nhiệm vụ nghiên cứu quan trọng. Với những nỗ lực nghiên cứu đó
đã mang lại những thành tựu to lớn, góp phần quan trọng làm chủ chữ viết của con người
bằng khoa học công nghệ. Khi xây dựng thành công bộ OCR cho ngôn ngữ, rào cản để máy
hiểu chữ viết đó được tháo bỏ bớt. Khi đó, ta hoàn toàn có thể xử lý ngôn ngữ, chữ viết hay
sâu hơn là kho tri thức biểu thị bằng ngôn ngữ đó với tốc độ của máy, bằng những tiến bộ của
khoa học máy tính. Xét về mặt công nghệ thông tin cũng như ngôn ngữ học, đó là được xem
là những đóng góp khổng lồ.
Thực trạng ngày nay, số người biết chữ Nôm ngày càng ít càng làm cho những tri thức
chữ Nôm ngày càng mai một. Ngược lại chúng ta lại đang sở hữu những kho tàng tri thức

khổng lồ về chữ Nôm về nhiều phương diện như sách, gia phả, ấn phong… và đặc biệt là một
hệ thống đồ sộ các bia đá, câu đối trong các công trình di tích, là chứng cứ sống của lịch sử, là
biểu tượng của văn hóa, lịch sử Việt với thế giới. Nếu không có một sự hỗ trợ mạnh mẽ của
khoa học để khai thác kho tri thức Nôm khổng lồ này, chúng ta sẽ ngày càng mù chính chữ
của dân tộc mình, và dần sau sẽ trở nên tan biến. Việc xây dựng được Nôm-OCR sẽ tạo điều
kiện khai thác số tri thức Nôm khổng lồ, ứng dụng vào trong tìm hiểu các công trình, bia, câu
đối cổ bằng các ứng dụng tích hợp trên các thiết bị di động máy tính, hay nói cách khác chúng
ta có thể làm mọi thiết bị biết giải thích chữ Nôm và từ đó góp phần ý nghĩa trong khảo cổ,
khám phá văn hóa, khám phá du lịch.
2. Tình hình nghiên cứu
Nghiên cứu chữ Nôm đã được nhiều nhóm gần đây quan tâm cả về phương diện ngôn
ngữ học và công nghệ thông tin. Một trong những thành tựu đầu tiên là việc hình thành các từ
điển chữ Nôm, hình thành các kho chữ Nôm được số hóa, số hóa và giải mã nhiều tài liệu chữ
Nôm như truyện Kiều của Hán Nôm Foundation. Tiếp tới, sau những nỗ lực trong thời gian
dài, chữ Nôm đã được xác lập vị trí trong bộ ký tự thế giới Unicode và ISO 10646, trong đó
có 5067 ký tự trùng hình với chữ Trung Quốc, 4232 chữ thuần Nôm và hiện đang đề nghị đưa
vào thêm 2200. Kế tiếp bước đi đó, nhiều bộ font Nôm, bộ gõ chữ Nôm đã được xây dựng. Và
một trong những bước đi tiếp của lộ trình trên là xây dựng OCR-Nôm, nhưng hiện tại vẫn
chưa có kết quả nghiên cứu nào đề cập đến vấn đề trên, có thể do có những khó khăn nhất
định và một trong những khó khăn thường gặp là vấn đề về dữ liệu để nghiên cứu.
Các bộ OCR tượng hình như tiếng Trung, Nhật đã được nghiên cứu nhiều và đạt được
những kết quả khả quan, được ứng dụng rộng rãi trong thực tế có thể kể đến sản phẩm nguồn
mở Tesseract, KanjiPad - phần mềm nhận dạng chữ viết tay Nhật Bản, Readiris Pro 11


Corporate Edition - phần mềm nhận dạng chữ Trung Quốc đạt tới độ chính xác 98%, HWPen
- phần mềm nhận dạng chữ viết tay Trung Quốc tích hợp trên iPhone và đặc biệt sản phẩm
thương mại ABBY… đạt độ chính xác gần như tuyệt đối với ký tự in các ngôn ngữ.
Nói tóm lại, các chủ đề liên quan đến chữ Nôm cũng như OCR đã được quan tâm và
đạt nhiều thành quả cao, riêng lĩnh vực nghiên cứu kết hợp 2 yếu tố này vẫn là bài toán mở,

cần những nghiên cứu mới.
3. Đối tƣợng và phạm vi nghiên cứu
Chúng tôi tập trung nghiên cứu bài toàn nhận dạng chữ Nôm nhằm xây dựng bộ phần
mềm nhận dạng chuyển đổi từ ảnh của một ký tự Nôm về mã Unicode của ký tự đó tiến hành
tra cứu nghĩa căn cứ trên từ điển hoặc kết hợp với các hệ thống khác.
Hệ thống OCR bao gồm nhiều thành phần như tiền xử lý, trích chọn đặc trưng, nhận
dạng, hậu xử lý. Đề tài tập trung nghiên cứu bước trích chọn đặc trưng và nhận dạng. Với tập
dữ liệu đầu vào để huấn luyện và nhận dạng là kho mẫu NOM-DB0 chứa 495 chữ Nôm, mỗi
chữ 24 mẫu, mỗi chữ trên 1 ảnh đã được cắt bó sát.
4.

Mục đích và nhiệm vụ nghiên cứu
Đề tài tập trung nghiên bước trích chọn đặc trưng và nhận dạng trong sơ đồ hệ thống
nhận dạng chữ Nôm tổng thể do LES-Nom xây dựng. Trong bước trích chọn đặc trưng chọn
phương pháp trích chọn đặc trưng trọng số vùng (Zoning). Trong bước nhận dạng đề tài tìm
hiểu kỹ thuật Máy véc-tơ hỗ trợ (SVM) và đưa mô hình ứng dụng SVM trong nhận dạng chữ
Nôm từ đó đưa ra những đánh giá và đề xuất các hướng nghiên cứu cải tiến.
5. Những nội dung nghiên cứu
Chúng tôi tìm hiểu tổng quan về chữ Nôm và bài toán nhận dạng chữ Nôm nhằm mục
đích để xây dựng bộ nhận dạng Nôm-OCR. Để tiến hành các nghiên cứu đánh giá, nhóm tác
giả cùng nghiên cứu về chữ Nôm trong LES-Nôm tiến hành xây dựng bộ dữ liệu mẫu NômDB0. Trên cơ sở những kết quả về nhận dạng đã áp dụng cho các bộ OCR khác, đặc biệt là
OCR chữ tượng hình, luận văn tiến hành nghiên cứu, đề xuất thuật toán nhận dạng KSVM,
tiến hành cài đặt thuật toán, tiến hành thực nghiệm đánh giá độ chính xác của KSVM.
6.

Kết cấu luận văn
Ngoài phần mở đầu, kết luận, phụ lục và danh mục tài liệu tham khảo, luận văn gồm 5
chương. Trong chương 1, chúng tôi tìm hiểu tổng quan chữ Nôm, trong đó tập trung các yếu
tố liên quan đến nhận dạng như cấu trúc chữ Nôm, số lượng từ Nôm không có hình trong bộ
chữ tượng hình khác. Tiếp đó, trong chương 2, những nội dung về bài toán nhận dạng chữ

Nôm được nêu ra trên cơ sở tìm hiểu các OCR nói chung và OCR dành cho chữ tượng hình về
phương diện kết quả đạt được, mô hình và các giải thuật cần được tiếp tục nghiên cứu. Trong
chương 3, chúng tôi tập trung tìm hiểu ý tưởng của SVM và đi sâu làm rõ nội dung liên quan
nhiều đến luận văn là áp dụng SVM cho bài toán phân đa lớp, vốn là một trong những chủ để
đang được quan tâm nhiều, đặc biệt khi áp dụng cho chữ Nôm có số chữ lớn. Trên cơ sở
những kiến thức có được từ 3 chương đầu, chương 4 trình bày giải thuật KSVM cho bài toán
nhận dạng chữ Nôm do tác giả đề xuất. Để thực hiện đánh giá hiệu quả của KSVM, trong
chương 5, chúng tôi đã trình bày các bước tiến hành xây dựng thực nghiệm và đánh giá
KSVM. Do không được kế thừa từ kết quả nghiên cứu nào với chữ Nôm, nên luận văn tiến


hành thực nghiệm từ bước đầu tiên là tự xây dựng kho cơ sở dữ liệu mẫu, đến phần mềm tách
chữ, tiền xử lý cơ bản sau đó xây dựng kịch bản và tiến hành đánh giá.


Chƣơng 1. TỔNG QUAN CHỮ NÔM

1.1. Lịch sử và một số đặc điểmcủa chữ Nôm
Sau khi Việt Nam thoát khỏi ách đô hộ của Trung Quốc vào năm 939, chữ Nôm lần
đầu tiên thành chữ quốc ngữ để diễn đạt tiếng Việt qua mẫu tự biểu ý. Hơn 1.000 năm sau đó,
từ thế kỷ 10 cho đến thế kỷ 20, một phần lớn các tài liệu văn học, triết học, sử học, luật pháp,
y khoa, tôn giáo và hành chính được viết bằng chữ Nôm. Suốt 24 năm (từ 1788 đến 1802)
dưới triều đại nhà Tây Sơn, toàn bộ các văn kiện hành chính được viết bằng chữ Nôm. Nói
cách khác, chữ Nôm là công cụ duy nhất hoàn toàn Việt Nam ghi lại lịch sử văn hoá của dân
tộc trong khoảng 10 thế kỷ.
Chữ Nôm là loại văn tự được người Việt sáng tạo ra trên cơ sở một loại văn tự khác,
đó là chữ Hán, nhằm mục đích để ghi tiếng nói của người Việt.Chữ “Nôm‖có nghĩa là
―Nam‖, ý chỉ chữ của người Nam Việt. Trước khi chữ Nôm ra đời, chúng ta mượn chữ Hán
để ghi lại âm tiếng Việt. Tiếng Hán chỉ có 4 thanh, tiếng việt có 6 thanh, do đó việc đơn thuần
mượn chữ Hán không đủ để phản ánh hết các thanh của tiếng Việt. Ví dụ các âm như: eo, ăn,

ươi, on… Do đó, yêu cầu tất yếu cần bổ sung một hệ thống chữ để đáp ứng các yêu cầu ghi
âm trong các hoạt động thi cử, văn hóa, pháp luật, xã hội….
Mặc dù được phát triển trong thời gian dài đến tận thế kỷ XX, song chữ Nôm không
hoạt động độc lập mà được sử dụng đồng thời với những kiểu văn tự khác có trong cộng đồng
người Việt, đặc biệt là chữ Hán. Chữ Nôm hình thành trên cơ sở mượn chữ Hán, do đó mang
trong mình những đặc điểm của chữ Hán và cũng có những đặc trưng riêng, có thể khái quát
cơ bản những đặc điểm như sau:
Về mặt hình thức, chữ Nôm là một loại văn tự khối vuông tương tự như chữ Hán. Đây
là loại văn tự mà mỗi chữ là một chỉnh thể vừa thể hiện và được phát âm như một âm tiết
hoàn chỉnh, đồng thời bao giờ mỗi chữ như thế cũng có "nghĩa" xác định. Mặc dù về mặt hình
thức, mỗi chữ khối vuông (chữ Hán, chữ Nôm) là một chỉnh thể hoàn chỉnh bao gồm nhiều
nét kí hiệu được coi là kí hiệu gốc, trong đó có thể có những nét kí hiệu biểu âm, nhưng hầu
như chúng chưa được nhiều người coi là loại chữ thuần tuý ghi âm.
Về mặt cấu trúc bên trong, khi phân tích loại chữ khối vuông này, người nghiên cứu
vẫn có thể nhận ra rằng, về đại thể, mỗi một chữ thường có hai bộ phận hợp thành: bộ phận
thể hiện ý nghĩa (còn gọi là nghĩa phù) và bộ phận thể hiện âm thanh (còn gọi là thanh phù).
Chúng tôi nói về đại thể là vì trong thực tế không phải chữ Nôm nào cũng tuân thủ điều đó mà
có những chữ chỉ có thanh phù hoặc chỉ có nghĩa phù.Và điều quan trọng là tính "cố định" của
những yếu tố đó mang tính tương đối, nó phụ thuộc vào thời gian lịch sử, vào tính địa phương
và đôi khi phụ thuộc vào cá nhân người sử dụng chữ viết. Một vài ví dụ sau đây cho thấy
những đặc điểm cấu tạo ấy của chữ:
Chữ

máy ("máy móc")

gồm có

mộc (ý)

+


mãi (âm)


may ("may vá")

y (ý)

mai (âm)

sông ("sông ngòi")

thuỷ (ý)

long (âm)

Vấn đề hoàn toàn rõ ràng rằng chữ Nôm là một loại văn tự được xây dựng trên cơ sở
chữ Hán, thậm chí từ chất liệu (các yếu tố cấu tạo là nghĩa phù và âm phù) cho đến phương
thức cấu tạo. Nhưng điều quan trọng đối với chúng ta là chất liệu Hán ở đây là chất liệu Hán
Việt. Tính Hán Việt biểu hiện rõ nét nhất là âm đọc của thứ văn tự này là âm Hán Việt, hay nói
một cách khác là âm đọc chữ Hán của người Việt chứ không phải âm đọc chữ Hán theo kiểu
người Hán. Có lẽ chính nhờ đặc điểm quan trọng này mà chữ Nôm mới là thứ chữ ghi lại
được tiếng nói của dân tộc ta ở vào thời kì tiếng Việt chưa có thứ chữ ghi âm.
Như vậy, với những đặc điểm cơ bản như đã trình bày ở trên của chữ Nôm, chúng ta
nhận thấy rõ ràng đó là một thứ chữ của người Việt dùng để biểu thị chuỗi lời nói của tiếng
Việt trong giai đoạn trước đây. Để làm được điều đó, như rất nhiều công trình nghiên cứu về
chữ Nôm đã xác nhận, nó cần phải có một điều kiện tiên quyết là cách đọc chữ Hán của người
Việt mà chúng ta quen gọi là cách đọc Hán Việt (hay âm Hán Việt). Đặc điểm ngôn ngữ ấy
đến lượt nó sẽ quy định thời điểm xuất hiện của chữ Nôm trong lịch sử tiếng Việt.
1.2. Cấu tạo chữ Nôm

Hiện chưa có thống kê đầy đủ về các hình thức cấu tạo của chữ Nôm, trước đây có
một số ý kiến cho rằng chữ Nôm là chữ bình dân nên không có quy tắc rõ ràng, chặt chẽ
nhưng điều này không đúng sau nhiều nghiên cứu thống kê cho thấy chữ Nôm có quy tắc cấu
tạo, hợp thành. Theo [27] thì chữ Nôm gồm 3 loại: Chữ Nôm mượn nguyên dạng chữ Hán,
chữ Nôm được tạo trên cơ sở kết hợp hai chữ Hán, chữ Nôm được tạo trên cơ sở kết hợp một
chữ Hán và một chữ Nôm.
1.2.1. Chữ Nôm mượn nguyên dạng chữ Hán.
Trong nhóm này, xét về mặt hình thì một chữ Nôm tương tự một chữ Hán, song có thể
chia thành nhiều nhóm con do có thể khác nhau về âm đọc hoặc ý nghĩa. Kết quả thể thống kê
sơ bộ trong Bảng 1.1.
Bảng 1.1. Một số hình thức chữ Nôm mượn nguyên dạng chữ Hán
STT
1

Hình thức
Đồng âm và đồng nghĩa với
chữ Hán
Đồng nghĩa nhưng khác âm

2

theo nhiều mức độ: khác ít,
khác nhiều và khác hẳn

3

Đồng âm nhưng khác nghĩa

1.2.2. Chữ Nôm được tạo trên cơ sở kết hợp hai chữ Hán
Theo nguyên tắc này, mỗi chữ Nôm gồm có hai thành tố: một thành tố chỉ ý nghĩa và

một thành tố chỉ âm đọc, âm đọc phải thật đúng hay gần đúng chữ dùng để chỉ âm.
- ba (số 3) = (phần chỉ âm 巴 (ba)) + (phần chỉ nghĩa 巴 (tam = ba));


-

巴 tay = (phần chỉ nghĩa 巴 (thủ = tay)) + (phần chỉ âm 巴 (tây));


-

巴 trăm (số 100) = (phần chỉ nghĩa 巴(bách = trăm)) + (phần chỉ âm 巴 (lâm))

-

tháng = nguyệt 巴 (biểu ý) + thượng 巴 (biểu âm)

-

巴 mắt = mục 巴 (biểu ý) + mạt 巴 (biểu âm)

-

trời= thượng 巴 (biểu ý) + thiên 巴 (biểu âm)

-

năm (5) = ngũ (巴 biểu ý) + nam (巴 biểu âm)

-


năm (năm tháng) = niên (巴 biểu ý) + nam (巴 biểu âm)

Những ví dụ trên cho ta kết luận về vị trí của phần chỉ nghĩa thay đổi, không cố định có
thể.Trong một số trường hợp người ta sử dụng phần chỉ nghĩa là một bộ thủ, các bộ thủ thường
gặp
trong
cấu
tạo
chữ
Nôm
là:
巴巴巴巴巴巴巴巴巴巴巴,
巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴
巴巴巴巴巴巴巴巴巴巴

巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴巴.
Bảng 1.2. Một số bộ thủ dùng trong chữ Nôm
STT
1

Bộ thủ
巴 hoặc 巴(nhân / nhơn )

2

巴 (băng )

3


巴 (khẩu)

4

巴 nữ

5

巴 hoặc 巴 tâm

6

巴 hoặc 巴 thủ = tay

7

巴 nhật / nhựt

8

巴 mộc = cây

9

巴 hoả = lửa

Qua các ví dụ trên ta cũng nhận thấy, vị trí bộ thủ thay đổi ở nhiều vị trí, lúc thì ở bên
trái (như 巴, nói), ở trên (như 巴, nong).Và quy tắc kết hợp ý và thanh cũng nhiều trường hợp
ngoại lệ là cả hai đều chỉ ý nghĩa.
1.2.3. Chữ Nôm được tạo trên cơ sở kết hợp chữ Hán và chữ Nôm

Ví dụ như chữ “ 巴 mành = màn để che” viết đúng là “ cân 巴(ý) + manh 巴 (âm)”
nhưng phần chỉ ý bị bỏ sót chỉ còn có phần chỉ âm 巴.
Tóm lại, chữ Nôm được tạo trên cơ sở chữ Hán, nhưng có nhiều sự thay đổi phù hợp để
thể hiện âm và nghĩa. Do trong suốt quá trình hình thành và phát triển chưa có một lần nào được
chuẩn hóa nên các hình thức thể hiện sự tạo chữ Nôm rất phong phú và đa dạng. Theo [6] thì theo
tiến trình phát triển của lịch sử, càng vềsaucáctácphẩmviết bằngchữNômcàngcóxuthế tăng
dầnloạichữ tự tạovà giảm dầnloạichữnômvay mượnchữHán. Dựavàothànhquảnghiên cứu
củanhững người đitrước, Bộmôn Hán Nôm - Khoa VăntrườngĐại họcTổngHợp HàNội (nay là
TrườngĐH Khoa học xã hội nhân văn quốc gia) đã đưara bảngthống kê, tỷlệ chữ Nôm vay


mượn chữ Hán các thời kỳnhư Bảng 1.3.
Bảng 1.3. Tỷ lệ chữ Nôm vay mượn qua các thời kỳ

Nhằm bổ sung vào kết quả đánh giá những tác phẩm từ thế kỷ XV-XIX, các kết quả ở
[6] cũng đưa ra nhận định về tỉ lệ chữ Nôm tự tạo trong thế kỷ XX trên cơ sở nghiên cứu tác
phẩm nổi tiếng “ThanhHoáquanphong”.Kết quả thống kê trong tác phẩm trên, có
khoảng55,7%chữNômvaymượnchữHán,còn44,3%là chữ Nômtựtạo. Như vậy, có thể thấy,
càng về sau này sự sáng tạo ra các chữ Nôm mới hay xu thế sử dụng các chữ Nôm tự tạo gia
tăng rất nhiều. Những số liệu cung cấp ở phần tiếp theo cũng sẽ làm rõ thêm những nhận xét
này.
1.3. Một số thống kê về chữ Nôm
Hiện nay số lượng đầu sách, các tư liệu chữ Nôm đến nay còn lưu giữ được gần 800
tên sách Nôm (Việt), có thể xen lẫn chữ Hán. Số tài liệu này chủ yếu lưu trữ tại Viện nghiên
cứu Hán Nôm.Văn chương, Tâm linh, Y học đã chiếm 66% tổng số tên sách như minh họa
trong Hình 1.1.

Hình 1.1. Tỉ lệ tài liệu chữ Nôm trong các lĩnh vực.
Xét về phân bố về mặt thời gian tài liệu nôm qua các niên đại của gần 800 tên sách,
chỉ mới có khoảng 300 tên sách đã xác định được niên đại chính xác, phân bố niên đại như

biểu đồ trong Hình 1.2.


Hình 1.2. Phân bố tài liệu chữ Nôm theo các thời kỳ.
Xét về mặt số lượng chữ Nôm, có nhiều thông tin xác định và chưa thống nhất với
nhau, do có nhiều tài liệu vẫn chưa khai thác hết. Để xác định số lượng chữ chủ yếu căn cứ
trên các từ điển, nhưng việc tạo ra các từ điển cũng có nhiều vấn đề chưa rõ ràng, nhiều từ
điển không ghi rõ nguồn gốc văn bản do đó không thể kiểm chứng. Hiện nay, có khoảng 20
cuốn từ điển chữ Nôm, xuất hiện từ 1651-2009, trong đó có ghi nguồn văn bản (2 cuốn từ
điển): Nguyễn Quang Hồng (2006) có trên12.000 chữ căn cứ trên 50 văn bản và Viện Việt học
(Mĩ) biên soạn (2009) có trên10.000 chữ căn cứ trên 51 văn bản.
Trên cơ sở kết hợp với nhiều nguồn tư liệu, các nhà nghiên cứu ước lượng về số lượng
chữ Nôm như sau:
- Số chữ sử dụng trong văn bản Nôm (Việt):25.000
- Số chữ Nôm (Việt) tự tạo, không trùng Hán: 10.000
Xét trên quan điểm nhận dạng, chữ Trung Quốc bao gồm xấp xỉ 50.000 ký tự, trong đó
chỉ khoảng vài nghìn là thường được sử dụng. Chẳng hạn99,65% sử dụng là chỉ dùng 3775 ký
tự phổ biến, 99,99% sử dụng là chỉ dùng 6763 ký tự và 99,999% sử dụng là chỉ dùng 8500 ký
tự. Các câu được viết theo chiều ngang từ trái sang phải và từ trên xuống dưới giống như tiếng
Anh được gọi là dạng đơn giản; hoặc viết theo chiều thẳng đứng, từ trên xuống dưới, các dòng
từ phải sang trái được gọi là dạng truyền thống. Chữ Trung Quốc truyền thống ngày nay ít
được sử dụng khi viết tay, ngoại trừ Đài Loan và Hồng Kông. Có rất nhiều nét trong ký tự
Trung Quốc truyền thống, trung bình khoảng 16,03 nét trên một ký tự. Để giảm độ phức tạp,
từ năm 1956 tới 1964, 2235 ký tự tiếng Trung đơn giản được xem xét để thay thế cho các ký
tự truyền thống tương ứng. Trung bình số nét giảm xuống còn 10,3 nét trên một ký tự. Số
lượng ký tự lớn, mỗi ký tự lại được tạo nên từ khoảng 500 thành phần con (gọi là radical)
trong cách xác định vị trí và thứ tự viết. Thứ tự nét viết có thể được sử dụng trong các giải
thuật nhận dạng trực tuyến, nhận dạng ngoại tuyến thực sự là thách thức do thông tin này
không còn nữa. Do số lượng ký tự lớn, chiều dài của từ tiếng Trung thường ngắn bao gồm từ



2 đến 4 ký tự. Hơn nữa, các ký tự luôn được viết theo dạng „như in‟, không dính. Do đó việc
tách từ thường dễ hơn trong các ngôn ngữ khác, tuy nhiên đôi khi rất khó để xác định hai
radical thuộc về hai ký tự khác nhau hay thuộc về cùng một ký tự. Khó khăn lớn nhất vẫn là
nhận dạng một số lượng lớn các ký tự và các nghiên cứu chính đều nhằm mục đích vượt qua
khó khăn này. Hơn nữa sự thay đổi cách viết ở từng người cũng là một vấn đề. Nhiều phương
pháp đã được phát triển cho nhận dạng các ký tự riêng lẻ. Các nghiên cứu khác về các đề tài
như nhận dạng từ hoặc địa chỉ và sự khác biệt ngôn ngữ chẳng hạn như xác định xem một
phần văn bản có chứa các ký tự đơn giản hay các ký tự truyền thống hay không. Công nghệ
nhận dạng chữ Trung Quốc thường chia làm 3 công đoạn chính: xử lý tài liệu, nhận dạng ký
tự và nhận dạng từ[20].
Những thành tựu và vấn đề đặt ra trong nghiên cứu chữ Nôm.
Với sự dày công của nhiều nhóm nghiên cứu, việc nghiên cứu chữ Nôm đã đạt được
nhiều kết quả đáng khích lệ song lộ trình để nhằm khôi phục, khai thác kho báu về chữ Nôm
vẫn đặt ra nhiều vấn đề khó khăn. Theo [7]: “Để có được những kết quả như ngày hôm nay
chúng ta thấy đối với chữ Nôm, chúng ta đã phải mất nhiều công sức và lao động, tiền bạc.
Những đầu tư đó vào chữ Nôm không bao giờ phí hoài, trái lại nó đã thúc đẩy sự quan tâm
của cả cộng đồng với vốn văn hoá chữ Nôm mà có thời đã từng bị coi là không còn giá trị sử
dụng gì nữa.” Trên cơ sở tổng kết những kết quả đạt được, các tác giả trong [7] cũng đưa ra
những thành quả chính trong nghiên cứu chữ Nôm đã đạt được:
Về vấn đề mã hóa chữ Nôm tức đưa chữ Nôm vào bộ Font quốc tế để khẳng định sự
tồn tại, phục vụ sử dụng và nghiên cứu chữ Nôm. Có thể nói đây là bước đi cực kỳ sáng suốt
và cũng cực kỳ vất vả. Suốt 12 năm từ 1992-2004 các nhà nghiên cứu đã kiên trì theo đuổi các
kì họp quốc tế để đấu tranh yêu cầu đưa chữ Nôm vào bộ kí tự thế giới Unicode và ISO
10646. Kết quả, đã có 5067 chữ trùng hình với chữ Trung Quốc-Nhật-Hàn Quốc trong mặt
phẳng cơ sở BMP, 4232 chữ trong mặt phẳng 2 và hiện đang tiếp tục đề nghị đưa vào thêm
2200 chữ nữa. Như vậy, số chữ Nôm có nguồn gốc đã được đăng kí với tổ chức tiêu chuẩn thế
giới là khoảng trên 11.000 chữ.
Vấn đề phát triển font chữ Nôm trên máy tính đã hiện thực hóa. Thực tế trong sử dụng
hiện nay trên các máy tính, mới chỉ có bộ phông Arial Unicode MS chứa khoảng hơn 5.000

chữ Nôm trùng hình chữ Hán. Viện Mojikyo tại Nhật Bản đã làm ra phông chữ truetype cho
9.299 chữ Nôm mà Việt Nam đã đề nghị với quốc tế. Công ti DynaLab Đài Loan có trụ sở tại
Thượng Hải và Hồng Kông đã xây dựng bộ font DFSongLight_Vietnam2.ttf cũng cho 9.299
chữ Nôm này. Nhóm Đạo Uyển (Đỗ Quốc Bảo (Đức) và Thiền viện Viên Chiếu) đã phát triển
bộ font HanNom (trên 30.000 chữ) có thể sử dụng trên mạng. Nhóm Nôm Nađã phát triển bộ
phông đầy đủ True Type NomNaTongLight.ttf (trên 15.000 chữ).
Đến năm 2000, trong phiên bản 11.1, tổng số chữ được lựa chọn và cấp mã Unicode là
70.205 chữ (trong đó có 9.229 chữ do Việt Nam đề nghị, nếu trừ đi số chữ trùng lặp thì có
4.232 chữ Nôm Việt tự tạo). Tổng số chữ trên nằm trong 2 tập Extension A và Extension B.
Tập Extension C đang biên soạn sẽ có thêm khoảng 2.300 chữ Nôm tự tạo nữa (trong đó sẽ có
gần 400 chữ Nôm Tày tự tạo). Vậy nếu tính cả 3 tập Extension A, B, C, thì tổng số mã
Unicode dành cho chữ Nôm Việt (tự tạo) là khoảng 6150 chữ.
Vấn đề về phần mềm hỗ trợ khai thác và sử dụng chữ Nôm đã phát triển phần mềm tra
cứu chữ Nôm NLT được sử dụng rộng rãi trên mạng cả trong nước và trên thế giới. Các phần


mềm gõ chữ Nôm và phần mềm từ điển đã được một số nhóm chuyên gia tin học trong nước
phát triển: các nhóm của Phan Anh Dũng (Huế) [1]và Tống Phước Khải-Lê Anh Minh (TP Hồ
Chí Minh)[4].
Về việc in ấn đã thực hiện việc in ấn chữ Nôm từ máy tính cho một số bộ từ điển chữ
Nôm. Nhiều tác phẩm chữ Nôm đã và đang được in ấn trực tiếp từ máy tính và tra cứu trên
mạng.
Với những kết quả đã đạt được thể hiện một bước nhảy lớn trong việc nghiên cứu chữ
Nôm. Có một vấn đề lớn đặt ra không chỉ đối với chữ Nôm mà với tất cả các chữ viết khác đó
là vấn đề nhận dạng tự động trên máy vi tính. Việc nhận dạng tự động trên máy góp phần
nhanh chóng giải mã các tài liệu, tiến hành số hóa phục vụ nghiên cứu và thực sự mang lại giá
trị lớn trong văn hóa, du lịch, khảo cổ. Hiện số người biết thông thạo chữ Nôm rất hạn chế,
ngược lại các tác phẩm chữ Nôm còn tồn lại rất nhiều, nhiều tác phẩm chưa được khai thác,
dịch nghĩa.
Tổng kết chƣơng 1

Chương một đã làm rõ một số vấn đề về nguồn gốc lịch sử, đặc điểm chữ Nôm, đặc
trưng về mặt cấu tạo đề từ đó rút ra nhận định chữ Nôm hình thành trên cơ sở chữ Hán nhưng
có nhiều thay đổi về cấu trúc và nghĩa, và sáng tạo ra nhiều chữ mới cho riêng mình. Từ đặc
điểm này rút ra các nhận định quan trọng cho việc nghiên cứu bài toán nhận dạng chữ Nôm
mà đề tài đang nghiên cứu:
Chữ Nôm có cấu tạo phức tạp hơn chữ Hán do nhiều từ được tạo trên cơ sở cấu tạo
từ 2 từ chữ Hán.
Việc xây dựng bộ nhận dạng chữ Nôm là cần thiết, do nhiều hình mới của chữ Nôm
không có trong kho hình của chữ Hán, và cấu tạo chữ Nôm xét tổng thể phức tạp hơn chữ Hán
nên một số kỹ thuật có thể có hiệu quả tốt trên chữ Hán nhưng không hoàn áp dụng tốt cho
chữ Nôm.


Chƣơng 2. NHẬN DẠNG CHỮ NÔM
2.1. Nhận dạng ký tự quang học
Nhận dạng ký tự quang học(OCR)là loại phần mềmmáy tínhcó chức năng chuyển các
hình ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét bằng máy scanner, chụp ảnh)
thành các văn bản tài liệu. OCR được hình thành trên cơ sởcác lĩnh vực nghiên cứu về nhận
dạng mẫu, trí tuệ nhận tạo.
Lịch sử của OCR đã có từ hơn nửa thế kỷ, nó xuất hiện đầu tiên để giải quyết bài toán
đọc mã số trong bưu điện, tiếp đó phát triển để tự động đọc các địa chỉ và thông tin trong các
mẫu đơn, văn bản. OCR ban đầu ứng dụng mạnh trong các lĩnh vực như bưu điện sau đó đến
ngân hàng bằng những máy chuyên dụng. Ngày nay, với sự phát triển mạnh mẽ, OCR trở nên
phổ biến và là một phần mềm thông dụng chạy trên máy tính để bàn (Desktop). OCR không
chỉ đơn giản đọc các số và một số chữ hạn chế, các khả năng của nó dần tiệm cận với thị giác
con người về độ chính xác, sự thông minh và sẽ nhanh hơn nhờ năng lực xử lý tốc độ của của
máy vi tính. Một xu hướng đã xuất hiện và sẽ phát triển mạnh trong thời gian tới là đưa OCR
lên thiết bị di động, thiết bị đọc và dịch trực tiếp từ tài liệu như minh họa trong Hình 2.1 [20].

Hình 2.1. Ứng dụng tự động chụp ảnh và dịch trên di động và bút chuyên dụng

Về nguyên tắc hoạt động, hệ thống nhận dạng phải được “học”tức được huấn luyện
với các mẫu của các ký tự cụ thể. Ngày nay, với thành tựu trong nghiên cứu OCR, các hệ
thống "thông minh" tích hợp với độ chính xác nhận dạng cao đối với hầu hết các phông đã trở
nên phổ biến. Một số hệ thống không chỉ có khả năng nhận dạng 1 loại ký tự mà có khả năng
phát hiện và nhận dạng nhiều loại ký tự khác nhau, thêm vào đó còn có khả năng tái tạo lại


các định dạng của tài liệu gần giống với bản gốc bao gồm: cấu trúc, hình ảnh, các cột, bảng
biểu, các thành phần không phải là văn bản.
Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt in VnDOCR cho kết quả nhận
dạng với độ chính xác cao. Một dự án khác là VietOCR, được phát triển dựa trên nền tảng mã
nguồn mở tesseract-ocr do Google tài trợ. VietOCR có khả năng nhận dạng chữ Việt rất tốt.
Đây là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF,
JPEG, GIF, PNG…
Bài toán nhận dạng chính xác ký tự Latin đánh máy được xem là vấn đề đã được giải
quyết. Tỷ lệ chính xác thực tế đạt tới 99% và tỷ lệ chính xác cao hơn nữa cần phải có sự phối
hợp của con người để kiểm tra lại lỗi. Nhưng việc nhận dạng chữ in bằng tay, chữ thảo bằng
tay, và thậm chí những phiên bản đánh máy được in ra của một số chữ có số lượng lớn và cấu
trúc phức tạp (tiếng Trung Quốc, Nhật) vẫn còn là một vấn đề lớn của các nghiên cứu.
Trong thời gian gần đây, bài toán nhận dạng ký tự viết tay cũng đã đạt được những
thành công lớn về mặt thương mại. Các ứng dụng này phát triển nhiều trênthiết bị hỗ trợ cá
nhân (PDA) như các phần mềm chạy trên Palm OS, tiêu biểu cho lĩnh vực này phải kể đến
hãngApple Newton. Lớp ứng dụng này yêu cầu những giải thuật có ưu điểm về tốc độ, tài
nguyên tính toán và xử lý trong điều kiện ràng buộc hạn chế ví dụ như hạn chế loại chữ, số
chữ hay trong điều kiện ánh sáng tốt, ít nhiễu… Tất nhiên khi so sánh với nhận diện ký tự in
thì nhận dạng chữ chiết tay đang có những giới hạn khá xa về độ chính xác. Hiện tại, độ chính
xác mới chỉ dừng lại ở mức khoảng 90%, những ký tự in bằng tay sạch sẽ có thể được nhận
ra, nhưng độ chính xác đó vẫn tạo ra hàng tá lỗi mỗi trang, khiến cho công nghệ này hiện chỉ
hiệu quả trong vài trường hợp nào đó. Sự đa dạng của OCR hiện nay được biết đến trong công
nghiệp là ICR (Intelligent Character Recognition - Nhận dạng ký tự thông minh).

2.2. Một số công nghệ nhận dạng chữ tượnghình
2.2.1. CherryBlossom
Mô hình nhận dạng chữ Nhật được phát triển đánh giá có chất lượng, hiệu quả với số
lượng lớn. Đặc biệt, với công nghệ này, có thể áp dụng với chữ tiếng Hán, Hàn Quốc vẫn
mang lại hiệu quả cao[10]. Trong mô hình này, tác giả sử dụng kết hợp một số phương pháp
trích chọn đặc trưng và thuật toán nhận dạng theo nhiều lớp để tăng độ chính xác và tốc độ
nhận dạng. Mô hình tổng quan được mô tả như Hình 2.2.


Hình 2.2. Framework nhận dạng chữ tượng hình của JOCR.
2.2.2. Tesseract
Tesseract [18] là một chương trình nhận dạng chữ (OCR) được phát triển từnăm 1984
tới 1994 bởi HP.Tesseract được biên dịch và chạy trên cả 2 môi trường Linux và Windows.
Năm 1995 Tesseract là một trong ba bộ nhận dạng chữ có độ chính xác cao nhất tại cuộc thi
được tổ chức tại Đại học Nevada, Las Vegas [19]. Cuối năm 2005, Tesseract được công bố
dưới dạng bản quyền mã mở (Apache License 2.0) và được Google tiếp tục phát triển
( Hiện nay Tesseract nhận dạng được hầu hết các chữ
viết và cho độ chính xác khá cao, một phần lý do nằm ở việc nguồn mở hóa và chuyển giao
công nghệ để các nhóm nghiên cứu có thể tự tạo mẫu, huấn luyện và tạo ra bộ nhận dạng cho
loại chữ cần nhận dạng.
Trong kiến trúc của Tesseract được mô tả trong [18], so với các kiến trúc OCR đầy đủ,
thì Tesseract không có phân tích trang do đó chỉ có thể nhận diện được những tài liệu theo
những chuẩn nhất định, những tài liệu xen kẽ ảnh và nhiều loại biểu tượng thì chưa có khả
năng phân tách phần ký tự do đó dẫn đến nhận dạng sai, còn với trường hợp chỉ gồm ký tự thì
cho kết quả nhận dạng chính xác. Các tài liệu thiết kế về chi tiết các lớp, các hàm ở trang web
/>

Ảnh đầu

vào

Các đường bao ký
tự được tổ chức
thành các từ

Hình 2.3. Kiến trúc tổng quát của Tesseract.
Tesseract bao gồm: bộ phận tiền xử lý; bộ phân đoạn (phân tách dòng, tách chữ); bộ
nhận dạng các thành phần và nhận dạng thích nghi. Trong bước huấn luyện, đầu vào là một
ảnh chứa các ký tự hoặc đoạn văn bản cần để huấn luyện, Tesseract sẽ áp dụng các thuật toán
xử lý ảnh để phân tích ảnh đầu vào thành các dòng, các từ rồi đến các ký tự riêng biệt. Tiếp đó
sẽ trích xuất ra các đặc trưng tương ứng với các ký tự rời rạc. Đặc trưng các ký tự được trích
xuất theo phương pháp Prototype, gồm các phân đoạn xấp xỉ theo đa giác và những đặc trưng
này được xem như là các khuôn mẫu của dữ liệu huấn luyện và được lưu vào cấu trúc dữ liệu
cây k-d (k-d tree). Tesseract được đánh giá cao về khả năng chịu lỗi, đặc biệt với các chữ bị
vỡ do nhiễu. Tesseract dùngkỹ thuật k-NN để thực hiện phân lớp đối tượng[18]. Với một
vector có n đặc trưng: (A1(x), A2(x), …, An (x)),công thức tính khoảng cách từ đối tượng x tới
y được xác định như sau:
n

D(x, y) = (Ai(x)Ai(y))2
i

1

Bảng 2.1. Kết quả đánh giá độ chính xác của Tesseract tại UNLV 1995.


2.2.3. ABBYY FineReader
ABBYY là phần mềm OCR thông minhđược đánh giá là tốt nhất hiện nay. ABBYY
FineReader thế hệ mới nhất (phiên bản 11) là thế hệ đầu tiên hỗ trợ nhận dạng hầu hết các loại
chữ, trong đó với Việt Nam cũng cho kết quả cao. ABBYY FineReader 11 có khả năng giữ

nguyên định dạng và dàn trang của tài liệu gốc tốt. Tuy nhiên, nó chưa có khả năng nhận dạng
chữ Nôm và do đó là một phần mềm thương mại nên các công nghệ, thuật toán trong đó
không được công bố để có thể kế thừa cho các nghiên cứu cho chữ Nôm.
2.2.4. So sánh ABBYY với Tesseract
Qua thời gian nghiên cứu sâu Tesseract, kết hợp một số nhận xét của các chuyên gia
nghiên cứu về Tesseract tác giả nhận thấy: do phương pháp trích chọn đặc trưng của Tesseract
đơn giản, số đặc trưng không đủ lớn để mô tả cấu trúc phức tạp của các chữ tượng hình. Ưu
điểm của Tesseract là khả năng sửa lỗi hay nhiễu, khi áp dụng với chữ viết có số chữ cái ít sẽ
cho kết quả cao. Do đó, kết quả của nó với nhận dạng ký tự Latinh đạt tương đối cao, nhưng
với chữ tượng hình thì không thực sự hiệu quả về tốc độ và độ chính xác. Một số thực nghiệm
so sánh trên các tập dữ liệu của các loại chữ viết khác nhau cho thấy, ABBYY và Tesseract
thực sự là những OCR có độ chính xác cao, Tesseract vượt qua ABBYY trong một số ít
trường hợp.

Bảng 2.2. Kết quả so sánh khả năng nhận dạng giữa FineReader và Tesseract


×