Tải bản đầy đủ (.docx) (122 trang)

Nghiên cứu phương pháp nhận dạng chữ hán nôm dựa trên gốc từ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.07 MB, 122 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THANH BÌNH
NGHIÊN CỨU PHƯƠNG PHÁP
NHẬN DẠNG CHỮ HÁN - NÔM DỰA TRÊN GỐC TỪ
Ngành:

Công nghệ thông tin

Chuyên ngành: Kỹ thuật phần mềm
Mã số:

60480103

LUẬN VĂN THẠC SĨ

Hà Nội – 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THANH BÌNH
NGHIÊN CỨU PHƯƠNG PHÁP
NHẬN DẠNG CHỮ HÁN - NÔM DỰA TRÊN GỐC TỪ
Ngành:

Công nghệ thông

tin Chuyên ngành: Kỹ thuật phần


mềm Mã số:

60480103

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN NGỌC

Hà Nội – 2015

BÌNH


LỜI CAM ĐOAN
Tên tôi là Nguyễn Thanh Bình, học viên cao học K19, chuyên ngành Kỹ
thuật phần mềm, khoá 2012-2014. Tôi xin cam đoan luận văn thạc sĩ “Nghiên
cứu phương pháp nhận dạng chữ Hán - Nôm dựa trên gốc từ” là công trình
nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực
và chưa từng được ai công bố trong bất kỳ công trình nào khác.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn
gốc một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận
văn, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà
không chỉ rõ về tài liệu tham khảo.
Hà Nội, ngày 02 tháng 7 năm 2015
Tác giả

Nguyễn Thanh Bình


LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn sâu sắc tới PGS. TS Nguyễn Ngọc Bình, đã định
hướng cho tôi nội dung nghiên cứu rất thiết thực, có ý nghĩa lớn về khoa học
cũng như văn hóa dân tộc, cũng như những ý tưởng gợi mở trong nghiên cứu và
sự hỗ trợ của thầy trong quá trình tìm và giải thích các công trình nghiên cứu về
chữ tượng hình vốn rất hiếm và được viết bằng tiếng Trung, Nhật. Xin cảm ơn
thầy hết lòng giúp đỡ, động viên và tạo mọi điều kiện thuận lợi cho tôi trong
suố t quá trinh
văn tố t nghiêp p .
̀ nghiên cứu và hoaǹ thaǹ h
luân
Tôi xin gửi lời cảm ơn thân mến đến nhóm nghiên cứu LES-Nôm, đặc
biệt là NCS Phạm Văn Hưởng đã giúp đỡ tôi nhiều kiến thức và kinh nghiệm
quý báu để tôi hoàn thành luận văn này.
Tôi xin gửi lời cảm ơn tới thầy Nguyễn Đình Kế - Nguyên giảng viên
trường Đại học Ngoại ngữ - ĐHQGHN, cô Trân Minh Thùy – Giảng viên khoa
ngoại ngữ trường Cao đẳng Hải Dương là những người đã giúp tôi hiểu thêm về
chữ Nôm cũng như giúp tôi trong việc xây dựng bộ dữ liệu gốc từ của chữ Nôm
Tôi xin được gửi lời cảm ơn đến các tác giả, nhóm tác giả của những giáo
trình, những công trình khoa học và những bài báo khoa học mà tôi tham khảo
để hoàn thiện luận văn này.
Tác giả


MỤC LỤC
MỞ ĐẦU...............................................................................................................1
1. Tính cấp thiết.................................................................................................1
2. Tình hình nghiên cứu.................................................................................... 1
3. Đối tượng và phạm vi nghiên cứu.................................................................2
4. Mục đích và nhiệm vụ nghiên cứu................................................................ 2
5. Những nội dung nghiên cứu..........................................................................2

6. Kết cấu luận văn............................................................................................3
Chương 1: TỔNG QUAN VỀ CHỮ NÔM...........................................................4
1.1. Giới thiệu về chữ Nôm...............................................................................4
1.1.1. Lịch sử hình thành và phát triển..........................................................4
1.1.2. Cấu trúc chữ Nôm............................................................................... 5
1.3. Tin học hóa và ứng dụng chữ Nôm............................................................7
1.4. Xu hướng phát triển của chữ Nôm............................................................. 9
1.4.1..........................................Phổ cập đại trà chữ Nôm qua máy tính
9
1.4.2. Phát triển phương pháp luận làm việc mới với chữ Nôm dựa trên CNTT. 10
1.4.3. Giải quyết vấn đề số hóa chữ Nôm................................................... 10
1.4.4. Cách tiếp cận toàn diện tới nghiên cứu về chữ Nôm và tiếng Việt .. 11
TỔNG KẾT CHƯƠNG 1 .......................................................................... 11
Chương 2. NHẬN DẠNG CHỮ NÔM...............................................................12
2.1. Nhận dạng ký tự quang học......................................................................12
2.2. Bài toán nhận dạng chữ Nôm...................................................................14
2.3. Các phương pháp nhận dạng chữ Nôm.................................................... 15
2.3.1. Nhận dạng sử dụng thư viện Tesseract..............................................15
2.3.2. Phương pháp mạng Nơron.................................................................17
2.3.3. Phương pháp Kmean, SVM...............................................................21


2.3.4. Phương pháp nhận dạng dựa trên khoảng cách soạn thảo.................23
2.3.5. So sánh, đánh giá các phương pháp..................................................27
TỔNG KẾT CHƯƠNG 2....................................................................................28
Chương 3. NHẬN DẠNG CHỮ NÔM BẰNG PHƯƠNG PHÁP GỐC TỪ......30
3.1. Mô tả phương pháp.................................................................................. 30
3.1.1. Ý tưởng..............................................................................................30
3.1.2. Quy trình và các kỹ thuật sử dụng.....................................................30
3.2. Lấy khung xương..................................................................................... 32

3.2.1. Lấy khung xương theo phương pháp Hit-or-Miss.................32
3.2.2. Hiệu chỉnh khung xương..............................................................34
3.3. Nhận dạng gốc từ..................................................................................... 36
3.3.1. Tách gốc từ........................................................................................36
3.3.2. Cơ sở dữ liệu gốc từ.......................................................................... 45
3.3.3. Nhận dạng gốc từ...............................................................................48
3.3. Nhận dạng chữ Nôm dựa trên gốc từ....................................................... 54
3.3.1...............................................Tập đặc trưng dựa trên gốc từ
54
3.3.2. Nhận dạng dựa trên so khớp gốc từ...................................................55
3.3.3. Nhận dạng dựa trên đặc trưng gốc từ và mô hình Entropy cực đại .. 58 TỔNG
KẾT CHƯƠNG 3 .............................................................................................. 59
Chương 4. THỰC NGHIỆM...............................................................................60
4.1. Mô hình thực nghiệm............................................................................... 60
4.2. Xây dựng chương trình thực nghiệm....................................................... 61
4.3. Bộ dữ liệu thực nghiệm............................................................................ 62
4.4. Kết quả thực nghiệm và đánh giá.............................................................62
TỔNG KẾT CHƯƠNG 4....................................................................................64
KẾT LUẬN.........................................................................................................65


DANH MỤC TÀI LIỆU THAM KHẢO............................................................ 66
PHỤ LỤC A........................................................................................................ 68
PHỤ LỤC B........................................................................................................ 84
PHỤ LỤC C........................................................................................................ 84
C.1. Chương trình phân tích, nhận dạng và trích xuất đặc trưng gốc từ.........84
C.2. Chương trình nhận dạng chữ Nôm theo gốc từ và MEM........................85


DANH MỤC CÁC TỪ VIẾT TẮT


STT

Từ viết
tắt

1

FC

First Class

ISO

International Organization for Tổ chức chuẩn hóa quốc tế
Standardization

2

3

Từ đầy đủ

Tiếng Việt

Lớp thứ nhất

K-Mean & Support Vector
Machine


K cụm và máy véc-tơ hỗ
trợ

OCR

Optical Character
Recognition

Nhận dạng ký tự quang
học

5

OS

Operating System

Hệ điều hành

6

OVO

One Versus One

Một với một

7

OVR


One Versus The Rest

Một với phần còn lại

PD

Probability Distribution of
Black Pixels

Phân bố xác suất điểm đen

9

PDA

Personal Digital Asisstant

Thiết bị số cá nhân

10

PDF

Portable Document Format

Định dạng tài liệu di động

11


SC

Second Class

Lớp thứ 2

12

SVM

Support Vector Machine

Máy véc-tơ hỗ trợ

4

8

KSVM


DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1 Kết quả nhận dạng bằng phương pháp mạng nơ-ron...........................20
Bảng 2.2. Kết quả thực nghiệm KSVM với bộ dữ liệu NOM-DB0....................22
Bảng 2.3. Mô tả giá trị chuyển đổi giữa hai chữ Nôm........................................25
Bảng 2.4. Kết quả thực nghiệm theo khoảng cách soạn thảo văn bản................26
Bảng 2.5. So sánh kết quả nhận dạng giữa các phương pháp.............................28
Bảng 3.1 Cấu tạo gốc từ các ký tự chữ Nôm.......................................................30
Bảng 3.2. Ví dụ về các kiểu ký tự trong chữ Nôm..............................................38
Bảng 3.3. Thống kê gốc từ của các chữ Nôm trong Nom-DB0..........................45

Bảng 3.4. Thông tin gốc từ được tạo ra từ Nom-DB0.........................................46
Bảng 3.5. Ví dụ về thống kê các gốc từ theo vị trí..............................................47
Bảng 3.6. Bảng tra cứu nét và điểm....................................................................56
Bảng 4.1. Kết quả thực nghiệm...........................................................................63
Bảng 4.2. So sánh kết quả nhận dạng giữa các phương pháp.............................63


DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Sơ đồ cấu trúc chữ Nôm của Dương Quảng Hàm................................5
Hình 1.2 Sơ đồ cấu trúc chữ Nôm của Đào Duy Anh.........................................6
Hình 1.3. 9 kiểu đồ hình kiến trúc chữ Nôm.......................................................6
Hình 2.1. Ứng dụng tự động chụp ảnh và dịch trên di động và bút chuyên dụng
............................................................................................................................. 12
Hình 2.2. Sơ đồ tổng thể mô hình nhận dạng chữ Nôm đề xuất.......................14
Hình 2.3. Phạm vi nghiên cứu của luận văn......................................................15
Hình 2.4. Kiến trúc tổng quát của Tesseract.....................................................16
Hình 2.5. Kiến trú c maṇ g nơ-ron.....................................................................17
Hình 2.6.Sơ đồ lấy
đăc

trưng củ a ảnh chữ Nôm.................................................18

Hình 2.7. Lưu đồ huấn luyện mạng nơ-ron.........................................................20
Hình 2.8. Nhận dạng trong KSVM......................................................................22
Hình 3.1 Mô hình nhận dạng chữ Nôm dựa trên gốc từ......................................31
Hình 3.2. Ví dụ khung xương chữ Nôm..............................................................32
Hình 3.3. Minh họa phép biến đổi “Hit-or-Miss”...............................................33
Hình 3.4. Khung xương của chữ Nôm................................................................34
Hình 3.5. Ví dụ các nét của khung xương chữ Nôm...........................................35
Hình 3.6. Ví dụ về loại bỏ các nét thừa của khung xương chữ Nôm..................35

Hình 3.7. Ví dụ về khung xương loại bỏ nét ngắn sau khi xấp xỉ cạnh..............36
Hình 3.8. Quá trình tách gốc từ từ ký tự đơn......................................................37
Hình 3.9. Các loại kiểu ký tự chữ Nôm...............................................................38
Hình 3.10. Đặc trưng của ký tự kiểu 10 với thành phần

...........................

40 Hình 3.11. Đặc trưng của kiểu ký tự kiểu 8 .................................................. 40
Hình 3.12. Tách thành phần của ký tự dựa vào đường cắt..................................42


Hình 3.13. Đường cắt sau khi xác định khoảng cách theo chiều dọc hoặc chiều
ngang.................................................................................................................. 42
Hình 3.13. Phân cụm nét cho ký tự kiểu trên-dưới và trái-phải..........................44
Hình 3.14. Ví dụ về kết quả tách gốc từ..............................................................45
Hình 3.15. Cấu trúc cơ sở dữ liệu tri thức của gốc từ.........................................48
Hình 3.15. Nhận dạng gốc từ dựa trên mô hình Entropy cực đại........................52
Hình 3.16. Biểu diễn đặc trưng của gốc từ trong chữ Nôm................................53
Hình 3.17. Ví dụ một số chữ Nôm được nhận dạng............................................53
Hình 3.18. Kết quả tách gốc từ............................................................................54
Hình 3.19. Các gốc từ có cùng số nét và số điểm giao........................................55
Hình 3.20. Nhận dạng chữ Nôm dựa trên gốc từ................................................56
Hình 3.21. Kết quả so sánh dựa vào vị trí và đặc điểm của gốc từ.....................58
Hình 3.22. Đặc trưng gốc từ................................................................................59
Hình 3.23. Đặc trưng gốc từ kết hợp với tọa độ điểm ảnh..................................59
Hình 4.1. Quy trình tiến hành thực nghiệm.........................................................60
Hình 4.2. Giao diện chương trình tạo gốc từ và lưu đặc trưng gốc từ.................62
Hình 4.3. Giao diện chương trình huấn luyện.....................................................62
Hình C.1. Các thành phần chính trong chương trình phân tách, nhận dạng và
trích chọn đặc trưng gốc từ ................................................................................ 84

Hình C.2. Minh họa mã nguồn hàm tìm gốc từ...................................................85
Hình C.3. Các thành phần chính trong chương trình nhận dạng chữ Nôm theo
MEM và các đặc trưng dựa trên gốc từ ............................................................. 85
Hình C.4. Minh họa mã nguồn nhận dạng theo MEM và đặc trưng gốc từ........86


1
2
MỞ ĐẦU
1. Tính cấp thiết
Chữ Nôm là một di sản văn hoá minh chứng cho truyền thống văn hiến
lâu dài của dân tộc Việt Nam. Nghiên cứu chữ Nôm góp phần khẳng định tự hào
dân tộc, khám phá những nét văn hóa, lịch sử, khoa học đặc sắc qua từng thời kỳ
của dân tộc. Do đó việc phục hồi và phát triển chữ Nôm đang được xã hội ngày
càng qua tâm qua nhiều hoạt động, công trình nghiên cứu ở nhiều phương diện
ngôn ngữ học, lịch sử, văn hóa… Song nghiên cứu chữ Nôm vẫn đang còn nhiều
nhiệm vụ khó khăn, một trong đó là nhiệm vụ của công nghệ thông tin - xây
dựng bộ nhận dạng ký tự quang học cho chữ Nôm hay Nôm-OCR.
Thực trạng ngày nay, số người biết chữ Nôm ngày càng ít càng làm cho
những tri thức chữ Nôm ngày càng mai một. Ngược lại chúng ta lại đang sở hữu
những kho tàng tri thức khổng lồ về chữ Nôm về nhiều phương diện như sách,
gia phả, ấn phong… và đặc biệt là một hệ thống đồ sộ các bia đá, câu đối trong
các công trình di tích, là chứng cứ sống của lịch sử, là biểu tượng của văn hóa,
lịch sử Việt với thế giới. Nếu không có một sự hỗ trợ mạnh mẽ của khoa học để
khai thác kho tri thức Nôm khổng lồ này, chúng ta sẽ ngày càng mù chính chữ
của dân tộc mình, và dần sau sẽ trở nên tan biến. Việc xây dựng được NômOCR sẽ tạo điều kiện khai thác số tri thức Nôm khổng lồ, ứng dụng vào trong
tìm hiểu các công trình, bia, câu đối cổ bằng các ứng dụng tích hợp trên các thiết
bị di động máy tính, hay nói cách khác chúng ta có thể làm mọi thiết bị biết giải
thích chữ Nôm và từ đó góp phần ý nghĩa trong khảo cổ, khám phá văn hóa,
khám phá du lịch.

2. Tình hình nghiên cứu
Nghiên cứu chữ Nôm đã được nhiều nhóm gần đây quan tâm cả về
phương diện ngôn ngữ học và công nghệ thông tin. Một trong những thành tựu
đầu tiên là việc hình thành các từ điển chữ Nôm, hình thành các kho chữ Nôm
được số hóa, số hóa và giải mã nhiều tài liệu chữ Nôm như truyện Kiều của Hán
Nôm Foundation. Tiếp tới, sau những nỗ lực trong thời gian dài, chữ Nôm đã
được xác lập vị trí trong bộ ký tự thế giới Unicode và ISO 10646, trong đó có
5067 ký tự trùng hình với chữ Trung Quốc, 4232 chữ thuần Nôm và hiện đang
đề nghị đưa vào thêm 2200 [4]. Kế tiếp bước đi đó, nhiều bộ font Nôm, bộ gõ


chữ Nôm đã được xây dựng. Và một trong những bước đi tiếp của lộ trình trên
là xây dựng OCR-Nôm, nhưng hiện tại vẫn chưa có kết quả nghiên cứu nào đề
cập đến vấn đề trên, có thể do có những khó khăn nhất định và một trong những
khó khăn thường gặp là vấn đề về dữ liệu để nghiên cứu.
Các bộ OCR tượng hình như tiếng Trung, Nhật đã được nghiên cứu nhiều
và đạt được những kết quả khả quan, được ứng dụng rộng rãi trong thực tế có
thể kể đến sản phẩm nguồn mở Tesseract, KanjiPad - phần mềm nhận dạng chữ
viết tay Nhật Bản, Readiris Pro 11 Corporate Edition - phần mềm nhận dạng chữ
Trung Quốc đạt tới độ chính xác 98%, HWPen - phần mềm nhận dạng chữ viết
tay Trung Quốc tích hợp trên iPhone và đặc biệt sản phẩm thương mại ABBY…
đạt độ chính xác gần như tuyệt đối với ký tự in các ngôn ngữ.
Nói tóm lại, các chủ đề liên quan đến chữ Nôm cũng như OCR đã được
quan tâm và đạt nhiều thành quả cao, riêng lĩnh vực nghiên cứu kết hợp 2 yếu tố
này vẫn là bài toán mở, cần những nghiên cứu mới.
3. Đối tượng và phạm vi nghiên cứu
Chúng tôi tập trung nghiên cứu bài toàn nhận dạng chữ Nôm nhằm xây
dựng bộ phần mềm nhận dạng chuyển đổi từ ảnh của một ký tự Nôm về mã
Unicode của ký tự đó tiến hành tra cứu nghĩa căn cứ trên từ điển hoặc kết hợp
với các hệ thống khác.

Hệ thống OCR bao gồm nhiều thành phần như tiền xử lý, trích chọn đặc
trưng, nhận dạng, hậu xử lý. Đề tài tập trung nghiên cứu bước trích chọn đặc
trưng và nhận dạng theo phương pháp gốc từ với tập dữ liệu là kho mẫu NOMDB0 chứa 495 chữ Nôm.
4. Mục đích và nhiệm vụ nghiên cứu
Đề tài tập trung nghiên cứu bước trích chọn đặc trưng và nhận dạng trong
sơ đồ hệ thống nhận dạng chữ Nôm tổng thể do LES-Nom xây dựng, sử dụng
phương pháp tách gốc từ (radical).
5. Những nội dung nghiên cứu
Nghiên cứu cấu trúc chữ Nôm và các thành phần của nó để từ đó đưa ra
phương pháp tách chữ, lấy khung xương và tách các thành phần gốc từ trong chữ
Nôm. Từ bộ dữ liệu Nom-DB0 thống kê các gốc từ và tạo cơ sở dữ liệu gốc từ
RaNom-DB0. Đề xuất phương pháp nhận dạng gốc từ bằng mô hình Entropy


1
4
cực đại. Trên cơ sở kết quả phân tích gốc từ đề xuất phương pháp nhận dạng chữ
Nôm dựa trên gốc từ.
6. Kết cấu luận văn
Ngoài phần mở đầu, kết luận, phụ lục và danh mục tài liệu tham khảo,
luận văn gồm 4 chương. Trong chương 1, chúng tôi tìm hiểu tổng quan chữ
Nôm, trong đó tập trung các yếu tố liên quan đến nhận dạng trên cơ sở tách gốc
từ như cấu trúc chữ Nôm, số lượng từ Nôm không có hình trong bộ chữ tượng
hình khác. Trong chương 2, gồm những nội dung về bài toán nhận dạng chữ
tượng hình nói chung và bài toán nhận dạng chữ Nôm nói riêng, các phương
pháp nhận dạng chữ Nôm đã được nghiên cứu. Trong chương 3, chúng tôi tập
trung tìm hiểu, nghiên cứu phương pháp tách gốc ký tự trong chữ tượng hình để
từ đó áp dụng cho nhận dạng chữ Nôm. Để thực hiện đánh giá hiệu quả của
phương pháp nhận dạng chữ Nôm dựa trên gốc từ, trong chương 4, chúng tôi đã
trình bày các bước tiến hành xây dựng thực nghiệm và đánh giá.



Chương 1: TỔNG QUAN VỀ CHỮ NÔM
1.1. Giới thiệu về chữ Nôm
1.1.1. Lịch sử hình thành và phát triển
Trong suốt hàng ngàn năm, kể từ đầu thời Bắc thuộc, chữ Hán được sử
dụng ở Việt Nam như một văn tự chính thống. Người Hán ngày càng mở rộng
quy mô sử dụng chữ Hán ở Giao Châu, lúc đầu trong cơ quan hành chính giữa
một số người Hán và người Việt trong tầng lớp thống trị, sau mở rộng ra một số
trường học. Sau thời Sĩ Nhiếp, chữ Hán được khuyến khíc học tập trong mọi
tầng lớp. Nhiều trí thức bình dân đã có thế dùng chữ Hán để ghi chép về địa chí,
phong tục, hương ước các vùng. Cùng với tình hình này , việc ghi tên người, tên
đất địa phương cũng trở thành một nhu cầu. Đầu tiên người ta dùng chữ Hán để
ghi tên Việt, nhưng giữa cách đọc một âm tiết Hán với một âm tiết Việt lúc ấy
có một khoảng cách nhất định, nên âm Hán chỉ có thể đọc na ná âm Việt. Như
vậy giữa chữ Hán ghi âm Hán với chữ Hán ghi na ná âm Việt đã có sự khác
nhau về chất, nó ghi lại hệ thống ngữ âm khác nhau, hai ngôn ngữ khác nhau.
Lần đầu tiên, chữ Hán đã được dùng để ghi âm Việt và như vậy là đã xuất hiện
những chữ Nôm ban đầu. Cùng với sự phát triển của nhu cầu ghi chép nền văn
hóa Việt, chữ Nôm cũng ngày càng phát triển và tự hoàn thiện để việc ghi chép
tiếng Việt được hữu hiệu hơn.
Trải qua thời gian phát triển theo lịch sử khi kết thúc thời kỳ chịu ách đô
hộ của Trung Quốc vào năm 939 chữ Nôm đã được lựa chọn trở thành chữ quốc
ngữ như một tất yếu. Trong một thời gian dài khoảng 10 thế kỷ hầu hết các tài
liệu trong các lĩnh vực văn học, triết học, sử học, luật pháp, y khoa, tôn giáo và
hành chính được viết bằng chữ Nôm. Đặc biệt trong chiều đại nhà Tây Sơn (từ
năm 1788 đến 1802) chữ Nôm được sử dụng trong toàn bộ văn kiện hành chính
[7].
Từ thế kỷ 15 với Quốc âm thi tập của Nguyễn Trãi, kế đến thế kỷ 16 với
Bạch Vân Am thi tập của Nguyễn Bỉnh Khiêm, chữ Nôm đã chứng tỏ có nhiều

khả năng diễn tả không những tình cảm mà còn tư tưởng của người Việt. Chỉ
tính riêng ở lĩnh vực văn học, chữ Nôm đã có vai trò đặc biệt quan trọng trong
việc tạo nên một nền văn học Việt nam rực rỡ xuyên suốt nhiều thế kỷ. Từ chữ


Nôm, nền văn học Việt nam sinh ra ba thể loại độc đáo của riêng Việt nam
là Truyện thơ Nôm Lục Bát, Ngâm Khúc (song thất lục bát) và Hát Nói (trong
ca trù). Sự sáng tạo đó đã để lại cho đời sau những di sản thơ Nôm vô giá.
Từ thế kỷ 16 các giáo sỹ truyền giáo từ châu Âu đến Việt Nam để truyền
giáo. Để thuận lợi cho việc truyền giáo họ đã sáng tạo ra một loại ngôn ngữ dựa
trên chữ Latin nhưng phát âm Việt. Đến Thế kỷ 19 khi pháp đô hộ Việt Nam, để
thuận lợi cho việc cai trị, thực dân Pháp đã tuyên truyền khuyến khích sử dụng
chữ quốc ngữ, từ đây chữ viết dựa theo chữ Latin mà ngày nay chúng ta gọi là
chữ Quốc ngữ dần thay thế chữ Nôm. Thực tế là hiện nay, trên thế giới có chưa
đến 100 người đọc được chữ Nôm. Một phần to tát của lịch sử Việt Nam như thế
nằm ngoài tầm tay của trên 90 triệu người nói tiếng Việt.
1.1.2. Cấu trúc chữ Nôm
Xét về cấu trúc chữ Nôm thì có nhiều cấu trúc do nhiều nhà nghiên cứu
chữ Nôm đưa ra. Theo [1] có thể kể đến các sơ đồ cấu trúc chữ Nôm như sau:
- Sơ đồ cấu trúc chữ Nôm của Dương Quảng Hàm (1943)

Hình 1.1 Sơ đồ cấu trúc chữ Nôm của Dương Quảng Hàm

- Sơ đồ cấu trúc chữ Nôm của Đào Duy Anh


Hình 1.2 Sơ đồ cấu trúc chữ Nôm của Đào Duy Anh

Xét theo kiến trúc chữ, theo [2] qua nghiên cứu chữ Nôm từ thế kỷ 17 đến
đầu thế kỷ 20 nhà nghiên cứu Đặng Đức và Trần Xuân Ngọc Lan nhận thấy có 9

kiểu đồ án kiến trúc thường gặp:

Hình 1.3. 9 kiểu đồ hình kiến trúc chữ Nôm

Ở đồ hình 1, chữ thuộc đồ hình này chỉ gồm một hình tố âm hoặc một
hình tố nghĩa. Chữ thuộc đồ hình 2 gồm hai hình tố âm và nghĩa hợp lại, hình tố
âm ở trên, hình tố nghĩa ở dưới, hoặc ngược lại hình tố âm ở dưới hình tố nghĩa
ở trên. Đây gọi là cấu trúc trên dưới. Chữ thuộc đồ hình 3 gồm hai hình tố âm và
nghĩa hợp thành, hình tố âm viết bên trái hình tố nghĩa hoặc ngược lại. Đây gọi
là cấu trúc phải trái. Chữ thuộc đồ hình 4 cũng gồm hai hình tố âm và nghĩa.


Hình tố âm bao bên trái bên trên và bên phải hình tố nghĩa hoặc ngược lại hình
tố nghĩa là hình tố bao. Gọi là cấu trúc bao trái bên phải. Chữ thuộc đồ hình 5
cũng là cấu trúc bao nhưng ngược hướng với đồ hình 4. Hình tố âm bao trái dưới
và phải hình tố nghĩa. Kiểu đồ hình này rất ít gặp. Chữ thuộc đồ hình 6 cũng là
cấu trúc bao gồm hai hình tố âm và nghĩa. Hình tố âm bao bên trên, bên trái và
bên dưới hình tố nghĩa hoặc ngược lại hình tố nghĩa là hình tố bao. Đây gọi là
cấu trúc bao trên trái dưới. Chữ thuộc đồ hình 7 gồm hai hình tố âm và nghĩa.
Hình tố âm bao bên phải và bên trên hình tố nghĩa hoặc ngược lại hình tố nghĩa
bao bên phải và bên trên hình tố âm - gọi là kiểu cấu trúc bao phải trên. Chữ
thuộc đồ hình 8 cũng gồm hai hình tố âm và nghĩa. Hình tố âm bao bên trái và
bên dưới hình tố nghĩa hoặc ngược lại hình tố nghĩa bao hình tố âm gọi là cấu
trúc bao trái dưới. Chữ thuộc đồ hình 9 gồm hình tố âm và hình tố nghĩa. Hình
tố âm bao bên trái và trên hình tố nghĩa, hoặc ngược lại hình tố nghĩa bao hình
tố âm. Đây gọi là cấu trúc bao trái trên.
1.3. Tin học hóa và ứng dụng chữ Nôm
Có lẽ đối với không ít người thì chữ Nôm là thứ văn tự của quá khứ, và
ngày nay chỉ cần đào tạo một số chuyên gia để tiếp xúc với nó, với các văn bản
Hán Nôm do người xưa để lại, là đủ rồi. Do đó, việc tin học hoá chữ Nôm phải

chăng là cần thiết phải đặt ra? Câu hỏi này trên thực tế đã được nêu ra hơn mười
năm trước đây, và đến nay, đã có được những bước đi ban đầu của nhiều chuyên
gia trong lĩnh vực Hán Nôm và lĩnh vực Công nghệ Thông tin theo hướng khẳng
định sự cần thiết của Tin học hoá chữ Nôm nhằm đáp ứng một loạt các nhu cầu
mới trong đời sống xã hội ngày nay.
Theo [3] có nhiều khía cạnh trong vấn đề tin học hoá và ứng dụng chữ
Nôm qua công nghệ thông tin. Tại đây, tác giả chỉ xin đề cập đến một vài khía
cạnh có liên quan mang tính chất nghiên cứu cơ bản thuộc lĩnh vực ngữ văn Hán
Nôm mà thôi.
(a) Bước đi đầu tiên trong tiến trình tin học hoá chữ Nôm là phải xác lập kho chữ
Nôm và thực hiện việc mã hoá chúng. Từ hơn mười năm qua, các chuyên gia ở
Viện Nghiên cứu Hán Nôm cùng phối hợp với các chuyên gia tin học trong và
ngoài nước, đã thực hiện công việc này trong chương trình chung của Nhóm
công tác về chữ biểu ý (IRG - Ideographic Raporteur Group) thuộc tổ


1
9
chức ISO quốc tế. Đến cuối năm 2000, trong bảng tổng hợp kho chữ biểu ý của
nhóm IRG đã có mặt 9229 chữ của Việt Nam [3], với mã quốc tế Unicode. Khi
xác lập các danh sách chữ Nôm để cung cấp cho IRG, các chuyên gia Việt Nam
đã tuân theo hai nguyên tắc cơ bản: Một là, tôn trọng thực trạng đa dạng của chữ
Nôm thể hiện qua các văn bản khác nhau, chỉ bước đầu thực hiện chuẩn hoá các
nét bút và hình thể các thành tố của đơn vị chữ mà thôi. Hai là, ưu tiên cung cấp
những chữ Nôm "thuần Việt". Trong số những chữ Nôm thuần Việt, cũng có
một số ngẫu nhiên trùng hình với chữ Hán và các hệ văn tự khác trong khu vực.
Hiện nay còn có danh sách gồm 2286 chữ nữa (trong đó có cả chữ Nôm Tày)
đang được đăng ký để cấp mã quốc tế [3]. Trong các tập chữ Nôm kể trên, vẫn
có thể phát hiện một số ít trường hợp có sự lầm lẫn về hình chữ và không ăn
khớp giữa hình chữ với ký mã của chữ và cần được tiếp tục điều chỉnh.

(b) Công việc tiếp theo là thực hiện việc nghiên cứu mối tương quan giữa hình chữ
và âm đọc, xác lập tương đối đầy đủ quan hệ đối ứng giữa hai bên. Trên cơ sở
đó mới có thể tạo ra các phần mềm chữ Nôm được cài đặt theo khoá âm đọc
(qua chữ Quốc ngữ). Hiện nay Viện Nghiên cứu Hán Nôm cũng đang thực hiện
chương trình nghiên cứu đối chiếu này.
(c)Để có thể vẽ phông chữ Nôm, cần xúc tiến việc nghiên cứu cấu trúc chữ Nôm
theo các thành tố trực tiếp, đồng thời thực hiện chuẩn hoá các thành tố đó theo
các phong cách viết chữ khác nhau. Từ đó xác lập sự tương đồng và tương dị
giữa các thành tố về hình thể, về vị trí trong thể thức ô vuông của chữ Nôm.
Nhóm Nôm Na thuộc Hội Bảo tồn Chữ Nôm (Hoa Kỳ) và một số nhóm khác ở
Huế, Tp Hồ Chí Minh đã và đang thực hiện những chương trình nghiên cứu này
và thu được những kết quả khả quan.
(d) Một trong những hướng ứng dụng các phần mềm chữ Nôm là làm chế bản và in
lại các tác phẩm chữ Nôm của người xưa để cung cấp cho độc giả ngày nay một
loại hình văn bản mới của tác phẩm cũ - văn bản chữ Nôm in ấn điện tử. Giá trị
thực sự của một ấn phẩm Nôm hiện đại như vậy trước hết không phải là ở khía
cạnh kỹ thuật, ở chỗ chữ Nôm in ra có đẹp không, mà ở tư cách văn bản học của
ấn phẩm đã được xác định như thế nào. Đối với những tác phẩm có nhiều truyền
bản, như Truyện Kiều chẳng hạn, thì đây là một vấn đề khá phức tạp. Những
vấn đề văn bản học đặt ra ở đây về căn bản cũng như


2
0
những gì đã nói đến ở điểm (a) trên đây. Có thể tìm thấy một số nét tương tự và
khác biệt nào đó giữa hai chặng đường làm nên các truyền bản Hán Nôm: từ các
truyền bản chép tay đến các truyền bản khắc in, rồi từ các truyền bản khắc in (và
có thể cả chép tay) đến các văn bản in ấn điện tử theo công nghệ thông tin hiện
đại. Trong mọi trường hợp đều không tránh khỏi vấn đề có thực hiện việc chuẩn
hoá văn tự trong ấn phẩm mới hay không.

1.4. Xu hướng phát triển của chữ Nôm
Theo [4] trên cơ sở những kết quả đã đạt được, chúng ta có thể chỉ ra một
số xu hướng phát triển của chữ Nôm và để định hướng cho các hoạt động nghiên
cứu, triển khai trong tương lai.
1.4.1. Phổ cập đại trà chữ Nôm qua máy tính
Chữ Nôm từ xưa tới nay không phải là thứ chữ được phổ cập rộng rãi, lí
do chính nằm ở chỗ nó khó học, phải nhớ nhiều, và cần có vốn chữ hán nào đó.
Hiện nay, số người biết và có thể dạy được chữ Nôm ngày càng ít đi, nhưng bù
lại, công nghệ phát triển đã tạo khả năng có được các phương pháp và công cụ
có thể giúp cho mọi người học được chữ Nôm qua máy tính. Và giới trẻ rất
nhanh nhẹn, tháo vát trong việc tiếp thu những tri thức, kĩ năng mới, cũng không
thấy khó khăn gì khi cần học chữ Nôm trên máy tính. Do đó song song với quá
trình phổ cập tin học, phổ cập máy tính trong cả nước, việc tạo ra khả năng để
các em nhỏ được tiếp xúc và học hỏi chữ Nôm trên máy tính sẽ tạo điều kiện
làm cho chữ Nôm sống lại trong tâm trí các thế hệ trẻ. Việc đào tạo những thế hệ
trẻ biết sử dụng chữ Nôm và CNTT trong thực tế là điều quan trọng và cần thiết.
Và việc bảo tồn, duy trì vốn văn hoá chữ Nôm này ngay trong những người
sống, những người trẻ, chính là cách thức bảo tồn hữu hiệu nhất và không mất đi
được.
Để thực hiện được tầm nhìn phổ biến đại trà này, ngoài những cố gắng về
mặt công nghệ, những cố gắng phát triển phần mềm khai thác và xử lí chữ Nôm
trên máy tính, cần thúc đẩy triển khai các ứng dụng CNTT liên quan tới thư viện
và lĩnh vực bảo tồn di sản chữ Nôm. Khi xuất hiện thêm các nhu cầu triển khai
ứng dụng cho chữ Nôm trên máy tính và mạng, thì đó sẽ lại là động lực thúc đẩy
thêm nữa các nhà sản xuất phần mềm đưa ra thị trường các sản phẩm phần mềm
xử lí tốt hơn cho các ứng dụng đặc thù chữ Nôm.


21
1.4.2. Phát triển phương pháp luận làm việc mới với chữ Nôm dựa trên CNTT

Một nhu cầu lớn hiện nay là cần xác định phương pháp luận nghiên cứu
mới đối với các vấn đề liên quan tới chữ Nôm. Phương pháp luận nghiên cứu
này dựa trên việc sử dụng tiến bộ CNTT giúp cho nghiên cứu về chính bản thân
chữ Nôm, các văn bản cổ và sự phát triển của tiếng Việt qua các văn tự. Với khả
năng của máy tính có thể tích trữ vào trong nó rất nhiều tư liệu, gần như có thể
vét cạn cả kho tư liệu sách vở thông thường, người nghiên cứu giờ đây có thể có
con mắt bao quát, xuyên suốt nhiều tư liệu để rút ra các đặc trưng của ngôn ngữ,
của cách viết. Nếu như các học giả trước đây thường phải tự mình lưu trữ các
kho tư liệu riêng để soạn sách, viết bài, thì ngày nay, với phương pháp làm việc
mới, máy tính có thể hỗ trợ trong việc quản lí kho tư liệu chung này. Do đó các
phương pháp luận lưu giữ và trích rút thông tin tổng quát từ kho tư liệ u số thức
hoá trên máy tính sẽ trở thành cực kì có ích cho giới nghiên cứu. Nói riêng, với
những người ít có khả năng truy nhập trực tiếp vào các kho tư liệu này, thì có
thể cần tới một đội ngũ các kĩ thuật viên giúp cho họ truy nhập và lấy ra thông
tin cần thiết.
Dựa trên công nghệ hiện đại, cần xác định ra các qui trình nghiên cứu và
làm việc mới có liên quan tới chữ Nôm và CNTT để tạo ra nề nếp và thói quen
nghiên cứu mới. Các nghiên cứu này thường bao giờ cũng phải bắt đầu bằng
việc tổng hợp mọi thông tin có được trong kho theo các chủ đề nghiên cứu, để
rồi từ đó người nghiên cứu rút ra các nhận định, các ý kiến riêng của mình.
Nhưng thông tin mới về chữ nôm, những phát kiến mới về việc thiết lập tương
ứng giữa hình chữ và âm đọc cần được đưa vào máy tín lưu giữ theo những qui
trình thống nhất để có thể phục vụ được cho nhiều người khác cùng tham khảo
và nghiên cứu. Do đó, việc xây dựng các chuẩn về tư liệu, về biểu diễn văn bản
chữ Nôm trở thành quan trọng và cần thiết.
1.4.3. Giải quyết vấn đề số hóa chữ Nôm
Vấn đề tư liệu và văn bản học đối với chữ Nôm từ xưa tới nay đã là vấn
đề khó giải quyết vì chúng ta phải chấp nhận một quá khứ không có khái niệm
bản quyền, một quá khứ mà mọi tác phẩm kinh điển đều có sự tham gia nhuận
sắc của nhiều người, kể cả của chính người tổ chức việc in khắc. Giải quyết triệt

để vấn đề tư liệu và văn bản học chỉ có thể được thực hiện nếu chúng ta có công


22
cụ lưu giữ tất cả các dị bản và có công cụ trích rút ra những thông tin từ mọi dị
bản đó. Các nghiên cứu sẽ được chính xác hơn khi mà mọi ý kiến và suy luận
được xem xét một cách tổng thể trên mọi dị bản chứ không bị phụ thuộc vào
mỗi một bản. Việc xây dựng kho dữ liệu điện tử về tất cả các tư liệu hiện có, từ
tận gốc, và hình thành kho tư liệu nghiên cứu chung cho giới Nôm học thực sự
là một nhu cầu cấp thiết và hữu ích. Đây sẽ là nền tảng để giới Nôm học đi tới
những nhận định thống nhất, toàn diện về các vấn đề tranh cãi, không bị buộc
phải dựa vào những nhận định bắt nguồn từ một số tư liệu riêng lẻ.
Kho dữ liệu điện tử này sẽ có hai tầng: tầng chữ và tầng tác phẩm. Kho dữ
liệu chữ Nôm sẽ chứa tất cả các dạng chữ Nôm đã xuất hiện trong bất kì tài liệu
nào, và ngoài những thông tin nội tại của nó, còn có các thông tin liên quan tới
sự xuất hiện của chúng trong mọi tài liệu khác. Kho dữ liệu các tác phẩm chữ
Nôm lưu giữ tất cả các tác phẩm chữ Nôm hiện có dưới dạng điện tử. Nó cho
phép người nghiên cứu có thể trích đoạn, rút ra các câu chữ cần thiết minh hoạ
cho nghiên cứu của mình.
1.4.4. Cách tiếp cận toàn diện tới nghiên cứu về chữ Nôm và tiếng Việt
Có thể coi chữ Nôm như nơi chôn giấu của nhiều chứng tích cổ của tiếng
Việt: những cách nói cổ, những cách diễn đạt ý ngày xưa trong các tác phẩm cổ.
Những tác phẩm đó đã được cố định lại trong các hình chữ Nôm đó, gần như
một dạng hoá thạch cho các quan niệm, tư tưởng, cách nghĩ, văn hoá của người
Việt. Nay với công cụ xử lí thông tin hiện đại, với việc bỏ công sức đưa tất cả
vốn văn hoá cổ của cha ông vào lưu trữ dưới dạng điện tử, các nhà nghiên cứu
về sau sẽ có khả năng vẽ lại, hình dung lại các thời lịch sử ngày xưa thông qua
ngôn ngữ.
Mặt khác, với việc đã mã hoá được hầu hết các âm tiết của tiếng Việt qua
chữ Nôm, có thể đặt vấn đề nghiên cứu tiếng Việt không chỉ dưới dạng chữ viết

mà còn là dưới dạng mã hoá cho các âm tiết tiếng nói.
TỔNG KẾT CHƯƠNG 1
Chương 1 đã sơ lược về lịch sử hình thành và phát triển của chữ Nôm, cấu
tạo của chữ Nôm cũng như vai trò của chữ Nôm trong lịch sử văn hóa Việt Nam
xưa và nay, các thành tựu nghiên cứu và xu hướng phát triển của chữ Nôm đặc
biệt là áp dụng CNTT vào lĩnh vực nghiên cứu này.


Chương 2. NHẬN DẠNG CHỮ NÔM
2.1. Nhận dạng ký tự quang học
Nhận dạng ký tự quang học OCR là loại phần mềm máy tính có chức năng
chuyển các hình ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét
bằng máy scanner, chụp ảnh) thành các văn bản tài liệu. OCR được hình thành
trên cơ sở các lĩnh vực nghiên cứu về nhận dạng mẫu, trí tuệ nhận tạo.
Lịch sử của OCR đã có từ hơn nửa thế kỷ, nó xuất hiện đầu tiên để giải
quyết bài toán đọc mã số trong bưu điện, tiếp đó phát triển để tự động đọc các
địa chỉ và thông tin trong các mẫu đơn, văn bản. OCR ban đầu ứng dụng mạnh
trong các lĩnh vực như bưu điện sau đó đến ngân hàng bằng những máy chuyên
dụng. Ngày nay, với sự phát triển mạnh mẽ, OCR trở nên phổ biến và là một
phần mềm thông dụng chạy trên máy tính Desktop. OCR không chỉ đơn giản
đọc các số và một số chữ hạn chế, các khả năng của nó dần tiệm cận với thị giác
con người về độ chính xác, sự thông minh và sẽ nhanh hơn nhờ năng lực xử lý
tốc độ của của máy vi tính. Một xu hướng đã xuất hiện và sẽ phát triển mạnh
trong thời gian tới là đưa OCR lên thiết bị di động, thiết bị đọc và dịch trực tiếp
từ tài liệu [12].

Hình 2.1. Ứng dụng tự động chụp ảnh và dịch trên di động và bút chuyên dụng

Về nguyên tắc hoạt động, hệ thống nhận dạng phải được “học” tức là
được huấn luyện với các mẫu của các ký tự cụ thể. Ngày nay, với thành tựu

trong nghiên cứu OCR, các hệ thống "thông minh" tích hợp với độ chính xác
nhận dạng cao đối với hầu hết các phông đã trở nên phổ biến. Một số hệ thống
không chỉ có khả năng nhận dạng 1 loại ký tự mà có khả năng phát hiện và nhận


dạng nhiều loại ký tự khác nhau, thêm vào đó còn có khả năng tái tạo lại các
định dạng của tài liệu gần giống với bản gốc bao gồm: cấu trúc, hình ảnh, các
cột, bảng biểu, các thành phần không phải là văn bản.
Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt in VnDOCR cho
kết quả nhận dạng với độ chính xác cao. Một dự án khác là VietOCR, được phát
triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ. VietOCR
có khả năng nhận dạng chữ Việt rất tốt [7]. Đây là một chương trình nguồn mở
Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và
BMP.
Bài toán nhận dạng chính xác ký tự Latin đánh máy được xem là vấn đề
đã được giải quyết. Tỷ lệ chính xác thực tế đạt tới 99% và tỷ lệ chính xác cao
hơn nữa cần phải có sự phối hợp của con người để kiểm tra lại lỗi. Nhưng việc
nhận dạng chữ in bằng tay, chữ thảo bằng tay, và thậm chí những phiên bản
đánh máy được in ra của một số chữ có số lượng lớn và cấu trúc phức tạp (tiếng
Trung Quốc, Nhật) vẫn còn là một vấn đề lớn của các nghiên cứu.
Trong thời gian gần đây, bài toán nhận dạng ký tự viết tay cũng đã đạt
được những thành công lớn về mặt thương mại. Các ứng dụng này phát triển
nhiều trên thiết bị hỗ trợ cá nhân (PDA) như các phần mềm chạy trên Palm OS,
tiêu biểu cho lĩnh vực này phải kể đến hãng Apple Newton. Lớp ứng dụng này
yêu cầu những giải thuật có ưu điểm về tốc độ, tài nguyên tính toán và xử lý
trong điều kiện ràng buộc hạn chế ví dụ như hạn chế loại chữ, số chữ hay trong
điều kiện ánh sáng tốt, ít nhiễu… Tất nhiên khi so sánh với nhận diện ký tự in
thì nhận dạng chữ viết tay đang có những giới hạn khá xa về độ chính xác. Hiện
tại, độ chính xác mới chỉ dừng lại ở mức khoảng 90%, những ký tự viết tay rõ
ràng có thể được nhận ra, nhưng độ chính xác vẫn còn hạn chế khiến cho công

nghệ này hiện chỉ hiệu quả trong vài trường hợp nào đó. Sự đa dạng của OCR
hiện nay được biết đến trong công nghiệp là ICR (Intelligent Character
Recognition - Nhận dạng ký tự thông minh).


25
2.2. Bài toán nhận dạng chữ Nôm

Hình 2.2. Sơ đồ tổng thể mô hình nhận dạng chữ Nôm đề xuất.

Xây dựng phần mềm nhận dạng chữ Nôm (Nôm-OCR) là một yêu cầu tất
yếu như với các ngôn ngữ khác. Nôm-OCR sẽ đóng vai trò một động lực mạnh
thúc đẩy việc nghiên cứu chữ Nôm, khai phá nguồn tư liệu quý giá của dân tộc
hàng ngàn năm về chính trị, văn hóa, xã hội… Hệ thống nhận dạng chữ Nôm về
mặt kỹ thuật có thể tham khảo các mô hình kỹ thuật của các OCR khác, đặc biệt
là các OCR chữ tượng hình như tiếng Hán, tiếng Nhật. Trên cơ sở nghiên cứu
các mô hình về OCR, nhóm nghiên cứu của tác giả đưa ra mô hình tổng thể cho
bài toán nhận dạng chữ Nôm như Hình 2.2.
Trong sơ đồ trên, nguồn tài liệu có thể là ảnh, file PDF… Trong nguồn
đầu vào của hệ thống OCR có thể bao gồm nhiều loại thông tin ví dụ hình ảnh,
các loại ngôn ngữ khác nhau. Do đó, cần được tiến hành thao tác phân tích
trang, nhận diện phần ký tự. Sau khi tách phần ký tự khỏi trang, ta tiến hành các
bước tiền xử lý cần thiết, tách thành các khối, tách các khối thành các dòng, tách
dòng thành các ký tự rời rạc. Từ các ký tự rời rạc, ta tiến hành trích chọn đặc
trưng của ký tự để đưa vào tiến hành nhận dạng. Kết quả của bước nhận dạng có


×