Tải bản đầy đủ (.pdf) (68 trang)

Nghiên cứu ứng dụng mạng Nơron trong nhận dạng chữ Hán-Nôm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.58 MB, 68 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

TRƢƠNG THỊ HƢƠNG
TRƢƠNG THỊ HƢƠNG

NGHIÊN CỨU ỨNG DỤNG MẠNG NƠ RON TRONG
NGHIÊN CỨU ỨNG DỤNG MẠNG NƠ RON TRONG
NHẬN DẠNG CHỮ HÁN-NÔM
NHẬN DẠNG CHỮ HÁN-NÔM

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2014
Hà Nội – 2014


ĐẠI HỌC
HỌC QUỐC
QUỐC GIA
GIA HÀ
HÀ NỘI
NỘI
ĐẠI
TRƢỜNG ĐẠI
ĐẠI HỌC
HỌC CÔNG
CÔNG NGHỆ


NGHỆ
TRƢỜNG

TRƢƠNG THỊ HƢƠNG

NGHIÊN CỨU ỨNG DỤNG MẠNG NƠ RON TRONG
NHẬN DẠNG
DẠNG CHỮ
CHỮ HÁN-NÔM
HÁN-NÔM
NHẬN

Ngành:
Ngành: Công
Công nghệ
nghệthông
thông tin
tin
Chuyên
Chuyên ngành:
ngành:Kỹ
Kỹthuật
thuật phần
phần mềm
mềm

Mãsố:
số: 60480103
60480103


LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG
KHOA
HỌC:
PGS.TS.
NGƢỜI DẪN
HƢỚNG
DẪN
KHOA
HỌC:NGUYỄN
NGỌC BÌNH
PGS.TS. NGUYỄN
NGỌC BÌNH

Hà Nội – 2014

Hà Nội – 2014


LỜI CAM ĐOAN
Tên tôi là Trƣơng Thị Hƣơng, học viên cao học K18, chuyên ngành
Công nghệ phần mềm, khoá 2011-2013. Tôi xin cam đoan luận văn thạc
sĩ “Nghiên cứu ứng dụng mạng Nơ ron trong nhận dạng chữ Hán-Nôm” là
công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận
văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình
nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn
này đã đƣợc cảm ơn và các thông tin trích dẫn trong Luận văn đã đƣợc
chỉ rõ nguồn gốc.

Học viên thực hiện Luận văn

Trƣơng Thị Hƣơng


LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc tới Phó giáo sƣ - Tiến sĩ Nguyễn
Ngọc Bình, ngƣời thầy kính mến đã hết lòng giúp đỡ tạo mọi điều iện
thuận lợi cho tôi trong suốt quá trình học tập và hoàn thành luận văn tốt
nghiệp
Tôi xin gửi lời cảm ơn tới Tiến sĩ Nguyễn Tuấn Cƣờng, Tiến sĩ
Nguyễn Đức D ng đã giúp giới thiệu cho tôi về chữ Nôm, lịch sử hình
thành và phát triển, các thành phần cấu tạo của chữ Nôm, chia s cho tôi
những inh nghiệm nghiên cứu và các công nghệ nhận dạng.
Tôi xin gửi lời cảm ơn đến NCS. Phạm Văn Hƣởng, ngƣời đã có
nhiều kinh nghiệm làm việc trong vấn đề nhận dạng chữ Nôm, và đã chia
s với tôi nhiều kiến thức và kinh nghiệm quý báu để tôi hoàn thành luận
văn này.
Tôi c ng xin đƣợc gửi lời cảm ơn đến các bạn trong nhóm nghiên
cứu nhận dạng chữ Nôm của trƣờng Đại học Công nghệ, Đại học Quốc
gia Hà Nội, những ngƣời đã cùng tôi chia s kết quả nghiên cứu, đóng
góp cho tôi những ý kiến quý báu và chia s những kinh nghiệm hay cho
tôi trong mỗi muổi semina hàng tuần.
Tôi xin đƣợc gửi lời cảm ơn đến các tác giả, nhóm tác giả của những
giáo trình, những công trình khoa học và những bài báo khoa học mà tôi
tham khảo để hoàn thiện luận văn này.
Tác giả


DANH MỤC BẢNG BIỂU

Bảng 2.1 Một số hàm truyền thông dụng ............................................................ 15
Bảng 4.1 Kết quả khảo sát sự hội tụ của mạng nơ-ron ....................................... 47
Bảng 4.2 Kết quả thực nghiệm với mạng GANN ............................................... 54
Bảng 4.3 Kết quả thực nghiệm với mạng ANN .................................................. 55


DANH MỤC HÌNH VẼ
Hình 1.1 Mô hình nhận dạng chữ Hán - Nôm .................................................... 10
Hình 2.1 Cấu tạo của tế bào nơ-ron sinh học ...................................................... 13
Hình 2.2 Nơ-ron nhân tạo ................................................................................... 14
Hình 2.3 Mạng tự kết hợp ................................................................................... 17
Hình 2.4 Mạng kết hợp khác kiểu ....................................................................... 17
Hình 2.5 Mạng truyền thẳng ............................................................................... 18
Hình 2.6 Mạng hồi quy ....................................................................................... 18
Hình 2.7 Mối liên hệ giữa sai số và ích thƣớc mẫu .......................................... 21
Hình 2.8 Cấu trúc của SAINT ............................................................................. 31
Hình 4.1 Sơ đồ thuật toán GANN ....................................................................... 48
Hình 4.2 Quy trình tiến hành thực nghiệm ..................................................... 49
Hình 4.3 một số mẫu chữ Nôm trong bộ dữ liệu thực nghiệm ................... 50
Hình 4.4 Giao diện cấu hình mạng...................................................................... 52
Hình 4.5 Giao diện lựa chọn tham số cho GA .................................................... 52
Hình 4.6 Giao diện huấn luyện mạng và nhận dạng ........................................... 53


MỤC LỤC
MỞ ĐẦU ............................................................................................................... 1
Chƣơng 1. TỔNG QUAN ..................................................................................... 3
1.1. Lịch sử ra đời chữ Nôm [1, 3] .................................................................... 3
1.2. Cấu tạo của chữ Nôm ................................................................................. 5
1.2.1 Mƣợn cả âm và nghĩa của chữ Hán...................................................... 5

1.2.2 Mƣợn nghĩa chữ Hán, hông mƣợn âm. .............................................. 5
1.2.3 Mƣợn âm chữ Hán, không nhất thiết mƣợn nghĩa ............................... 6
1.2.4 Ghép hai chữ Hán với nhau.................................................................. 6
1.2.5 Thêm, bớt các nét ................................................................................. 7
1.3. Các nghiên cứu về chữ Nôm ...................................................................... 8
1.4 Mô hình nhận dạng tổng thể và phạm vi nghiên cứu .................................. 9
Chƣơng 2. MẠNG NƠ-RON .............................................................................. 12
2.1 Nơ-ron sinh học ......................................................................................... 12
2.2 Mạng nơ-ron nhân tạo ............................................................................... 13
2.3 Các kiểu mô hình mạng Nơ-ron ................................................................ 16
2.4 Huấn luyện và xây dựng mạng Nơ-ron ..................................................... 18
2.4.1 Các phƣơng pháp học ......................................................................... 18
2.4.2 Các vấn đề trong xây dựng mạng nơ-ron ........................................... 20
2.5 Đánh giá các nhân tố của quá trình học .................................................... 25
2.5.1 Khởi tạo các trọng số ......................................................................... 25
2.5.2 Bƣớc học α ......................................................................................... 25
2.5.3 Hằng số quán tính............................................................................... 26
2.6 Một số ứng dụng của mạng Nơ-ron trong nhận dạng chữ tƣợng hình ..... 26
2.6.1 Back-Propagated Neural Network [5, 6, 9] ....................................... 26
2.6.2 Mạng nơ-ron xác suất (ProbabilisticNeural Networks – PNN). [8] .. 28
2.6.3 Mạng nơ-ron thông minh tự thích nghi (structurally adaptive
intelligent neural tree - SAINT) [12] .......................................................... 31
Chƣơng 3: GIẢI THUẬT DI TRUYỀN ............................................................. 34


3.1 Cơ sở thực tiễn của giải thuật di truyền .................................................... 34
3.2 Cơ chế thực hiện giải thuật di truyền ........................................................ 35
3.3 Các thành phần trong giải thuật di truyền ................................................. 37
3.4 Các toán tử di truyền ................................................................................. 39
3.4.1 Toán tử chọn lọc ................................................................................. 39

3.4.2 Toán tử lai ghép.................................................................................. 40
3.4.3 Toán tử đột biến ................................................................................. 43
3.5 Các tham số trong giải thuật di truyền ...................................................... 44
Chƣơng 4. NHẬN DẠNG CHỮ HÁN-NÔM DỰA TRÊN MẠNG NƠ-RON
KẾT HỢP GA ..................................................................................................... 46
4.1 Khảo sát sự hội tụ của mạng nơ-ron ......................................................... 46
4.2 Thuật toán GANN ..................................................................................... 47
4.3 Thực nghiệm ............................................................................................. 49
4.3.1 Quy trình thực nghiệm ....................................................................... 49
4.3.2 Xây dựng bộ dữ liệu thực nghiệm...................................................... 50
4.3.3 Tiến hành thực nghiệm....................................................................... 51
4.4 Đánh giá ết quả........................................................................................ 53
KẾT LUẬN ......................................................................................................... 57


1
MỞ ĐẦU
Chữ Nôm đƣợc hình thành và phát triển từ thế kỷ X tới thế kỷ XX. Là
một di sản văn hóa, có vai trò đặc biệt quan trọng trong việc tạo nên một nền
văn học rực rỡ xuyên suốt nhiều thế kỷ. Viện Nghiên cứu Hán Nôm Việt Nam
hiện đang lƣu giữ hàng trăm ngàn đơn vị tƣ liệu chữ Nôm rất có giá trị trong
việc nghiên cứu đời sống của ngƣời Việt thời xa xƣa ở nhiều mảng lĩnh vực: văn
học, tƣ tƣởng, triết học, ngôn ngữ, luật pháp, đạo đức… Tuy nhiên số ngƣời có
thể đọc và viết chữ Nôm ở nƣớc ta hiện nay còn không nhiều, do đó việc đƣa
chữ Nôm vào máy tính, xây dựng từ điển chữ Nôm, nhận dạng, đoán nhận và
khôi phục chữ Nôm lỗi, thiếu là lĩnh vực nghiên cứu có ý nghĩa thực tiễn quan
trọng.
Mạng nơ-ron là một trong những công cụ nhận dạng tốt nhất vì các đặc
trƣng sau: Khả năng học từ kinh nghiệm (khả năng đƣợc huấn luyện), khả năng
xử lý song song với tốc độ xử lý nhanh, khả năng học thích nghi, khả năng hái

quát hoá cho các đầu vào không đƣợc huấn luyện, ví dụ dựa vào cách học mạng
có thể sẽ tiên đoán đầu ra từ đầu vào không biết trƣớc [15, 16].
Tuy nhiên một nhƣợc điểm khi dùng mạng nơ-ron là chƣa có phƣơng
pháp luận chung khi thiết kế cấu trúc mạng cho các bài toán nhận dạng và điều
khiển mà phải cần tới kiến thức của chuyên gia. Mặt khác khi xấp xỉ mạng nơron với một hệ phi tuyến sẽ hó hăn hi luyện mạng vì có thể không tìm đƣợc
điểm tối ƣu toàn cục... Vì vậy tồn tại lớn nhất gặp phải là tìm nghiệm tối ƣu toàn
cục, đặc biệt áp dụng cho các bài toán lớn, các hệ thống điều khiển quá trình.
Trong luận văn tôi trình bày hoàn chỉnh một phƣơng pháp ứng dụng
mạng nơ-ron trong nhận dạng chữ Hán-Nôm với mong muốn đƣa ra một
phƣơng pháp nhận dạng tốt, góp phần xây dựng một công cụ có thể nhận
dạng, chuyển đổi các văn bản chữ Hán-Nôm thành chữ Quốc ngữ nhằm
làm sáng tỏ những giá trị văn hóa lƣu trữ trong nó. Cấu trúc luận văn
gồm các phần nhƣ sau:
Chương 1. Tổng quan: Nội dung chƣơng 1 trình bày tổng quan về
chữ Nôm, lịch sử hình thành và phát triển chữ Nôm, mô hình tổng quan
của hệ thống nhận dạng chữ Nôm.
Chương 2. Mạng Nơ-ron: Nội dung chƣơng này trình bày tổng
quan về mạng Nơ-ron, cách xây dựng mạng, đánh giá các yếu tố trong


2
quá trình huấn luyện mạng và tổng hợp một số phƣơng pháp nhận dạng
chữ tƣợng hình dựa trên mạng Nơ-ron.
Chương 3. Giải thuật di truyền: Chƣơng này giới thiệu về giải thuật
di truyền, các thành phần của giải thuật di truyền.
Chương 4. Nhận dạng chữ Hán-Nôm dựa trên mạng nơ-ron kết
hơn GA: Chƣơng này đề xuất một phƣơng pháp ết hợp giải thuật di
truyền trong quá trình huấn luyện mạng Nơ-ron nhằm tìm ra bộ trong số
tối ƣu cho mạng. Trình bày kết quả thực nghiệm nhận dạng 2970 chữ
Hán-Nôm.

Phần kết luận: Phần này trình bày những đóng góp của luận văn,
những tồn tại, hạn chế chƣa đƣợc giải quyết và hƣớng giải quyết tiếp
theo.


3

Chƣơng 1. TỔNG QUAN
1.1. Lịch sử ra đời chữ Nôm [1, 3]
Cách cấu tạo chữ Nôm "có thể" đã manh nha ló dạng từ những năm đầu
khi ngƣời Trung Hoa chinh phục đất Giao Chỉ(Miền Bắc Việt Nam) và đặt nền
đô hộ trên các bộ lạc ngƣời Việt vào đầu Công nguyên. Vì ngôn ngữ khác biệt,
những "chữ Nôm" đầu tiên xuất hiện vì nhu cầu ghi địa danh, tên ngƣời hoặc
những khái niệm hông có trong Hán văn. Song chứng cứ còn lƣu lại hết sức ít
ỏi, khó kiểm chứng đƣợc một cách chính xác. Phạm Huy Hổ trong "Việt Nam ta
biết chữ Hán từ đời nào?" thì cho rằng chữ Nôm có từ thời Hùng Vƣơng. Văn
Đa cƣ sĩ Nguyễn Văn San lại cho rằng chữ Nôm có từ thời Sĩ Nhiếp cuối
đời Đông Hán thế kỷ thứ 2. Nguyễn Văn Tố dựa vào hai chữ "bố cái" trong danh
xƣng "Bố Cái đại vƣơng" do nhân dân Việt Nam suy tôn Phùng Hƣng mà cho
rằng chữ Nôm có từ thời Phùng Hƣng thế kỷ thứ 8. Ý kiến khác lại dựa vào chữ
"cồ" trong quốc hiệu "Đại Cồ Việt" để cho rằng chữ Nôm có từ thời Đinh Tiên
Hoàng. Trong một số nghiên cứu vào thập niên 1990, các học giả căn cứ vào đặc
điểm cấu trúc nội tại của chữ Nôm, dựa vào cứ liệu ngữ âm lịch sử tiếng Hán và
tiếng Việt, so sánh đối chiếu hệ thống âm tiếng Hán và tiếng Hán Việt đã đi tới
kết luận rằng âm Hán Việt (âm của ngƣời Việt đọc chữ Hán) ngày nay bắt nguồn
từ thời nhà Đƣờng-nhà Tống thế kỷ 8-9. Và nếu âm Hán Việt có từ thời Đƣờng,
Tống thì chữ Nôm không thể ra đời trƣớc khi cố định cách đọc Hán Việt (nếu
xét chữ Nôm với tƣ cách hệ thống văn tự) và chỉ có thể ra đời sau khoảng thế kỷ
thứ 10 hi ngƣời Việt thoát khỏi nghìn năm Bắc thuộc với chiến thắng của Ngô
Quyền vào năm 938.

Mặc dù lịch sử hình thành chữ Nôm còn không ít vấn đề cần làm sáng tỏ,
nhƣng về ý nghĩa của sự ra đời của chữ Nôm, các nhà nghiên cứu đều thống
nhất nhận định rằng: trong suốt quãng thời gian tồn tại, chữ Nôm là công cụ duy


4
nhất, hoàn toàn Việt Nam, ghi lại lịch sử, văn hóa của dân tộc Việt. Sự hình
thành và phát triển của chữ Nôm là bƣớc ngoặt trong lịch sử ngôn ngữ văn tự
của ngƣời Việt và c ng là một bƣớc ngoặt trong lịch sử văn hóa Việt nam, chữ
Nôm ra đời đáp ứng đòi hỏi của việc trực tiếp ghi chép hoặc diễn đạt lời ăn tiếng
nói cùng tâm tƣ, suy nghĩ và tình cảm của bản thân ngƣời Việt bắt nguồn từ ý
thức phản vệ của dân tộc chống lại xu hƣớng Hán hóa của ngƣời phƣơng Bắc,
khẳng định tinh thần dân tộc của ngƣời Việt.
Chữ Nôm là cách viết biểu ý ngày xƣa của tiếng Việt. Sau khi Việt Nam
thoát khỏi ách đô hộ của Trung Quốc vào năm 939, chữ Nôm lần đầu tiên thành
chữ quốc ngữ để diễn đạt tiếng Việt qua mẫu tự biểu ý. Hơn 1000 năm sau đó từ thế kỷ 10 cho đến thế kỷ 20 - chữ Nôm đã tạo nên những thành tựu rực rỡ làm
phong phú ho tàng văn hóa Việt: văn học, triết học, sử học, luật pháp, y khoa,
tôn giáo, điều mà trƣớc nó chữ Hán trên đất Việt không hề có đƣợc.
Bắt đầu từ thế kỷ 15 với Quốc âm thi tập của Nguyễn Trãi, kế đến thế kỷ
16 với Bạch Vân Am thi tập của Nguyễn Bỉnh Khiêm, chữ Nôm đã chứng tỏ có
nhiều khả năng diễn tả không những tình cảm mà còn tƣ tƣởng của ngƣời Việt.
Chỉ tính riêng ở lĩnh vực văn học, chữ Nôm đã có vai trò đặc biệt quan trọng
trong việc tạo nên một nền văn học Việt nam rực rỡ xuyên suốt nhiều thế kỷ. Từ
chữ Nôm, nền văn học Việt nam sinh ra ba thể loại độc đáo của riêng Việt nam
là Truyện thơ Nôm Lục Bát, Ngâm Khúc (song thất lục bát) và Hát Nói (trong
ca trù). Sự sáng tạo đó đã để lại cho đời sau những di sản thơ Nôm vô giá.
Tuy nhiên việc dùng chữ Nôm song song với chữ Hán chỉ đƣợc duy trì
cho đến thế kỷ 16. Khi các nhà truyền đạo phƣơng Tây vào Việt Nam, họ đã
dùng kí tự La Tinh để phiên âm tiếng Việt, và chữ Quốc ngữ dựa trên kí tự La
Tinh đƣợc hình thành. Mặc dù dễ học, dễ nhớ, việc dùng chữ Quốc ngữ sau đó

chỉ phổ biến trong cộng đồng giáo dân trong phạm vi ghi chép Kinh Thánh chứ
hông đƣợc sử dụng nhiều trong việc làm phƣơng tiện trứ tác hay truyền đạt
thông tin.
Chữ Nôm vì vậy vẫn là văn tự chính trong nền văn chƣơng Việt Nam mãi
cho tới hết thế kỷ 19. Sang đầu thế kỷ 20 chính quyền Pháp cho giải thể phép thi
cử chữ Nho (1915 ở Bắc Kỳ và 1919 ở Trung Kỳ) và đƣa chữ Quốc ngữ lên
hàng văn tự chính thức. Bắt đầu từ năm 1908 chữ Quốc ngữ mới bắt đầu thay
thế chữ Nôm. Phong trào Đông Kinh Nghĩa Thục (1907) và Hội Truyền bá Quốc
ngữ (1938) c ng nhƣ sự phát triển báo chí vào đầu thế kỷ 20 đã góp phần trong


5
việc thâu nhận chữ Quốc ngữ là văn tự chính đáng của ngƣời Việt, khép lại thời
kỳ dùng chữ Nôm để truyền đạt tƣ duy cùng những cảm hứng của dân tộc Việt.
Sau khi chữ quốc ngữ đƣợc phổ biến vào đầu thế kỷ 20, chữ Nôm dần dần
mai một. Chính quyền thực dân Pháp có chính sách cấm dùng chữ Nôm. Điều
đó hiến cho di sản này hiện nay có nguy cơ tiêu vong. Thực tế là hiện nay, trên
thế giới có chƣa đến 100 ngƣời đọc đƣợc chữ Nôm. Một phần to tát của lịch sử
Việt Nam nhƣ thế nằm ngoài tầm tay của 80 triệu ngƣời nói tiếng Việt.
1.2. Cấu tạo của chữ Nôm
Dựa vào chữ Hán, chữ Nôm đã đƣợc hình thành bằng nhiều cách khác
nhau. Trong đó, có thể tóm tắt thành 5 loại dựa vào ba yếu tố hình-âm-nghĩa nhƣ
sau:
1.2.1 Mượn cả âm và nghĩa của chữ Hán
Chữ Hán đƣợc mƣợn cả âm và nghĩa để ghi lại các âm gốc Hán. Âm đọc
có ba loại là:
- Âm Hán Việt tiêu chuẩn: bắt nguồn từ ngữ âm tiếng Hán thời Đƣờng. Ví
dụ: "thành" 城, "hoa" 花, "thuyền" 船, "ngọc" 玉.
- Âm Hán Việt cổ: bắt nguồn từ ngữ âm tiếng Hán trƣớc thời Đƣờng. Ví
dụ: "mùa" 務 (âm Hán Việt tiêu chuẩn là "vụ), "bay" 飛 (âm Hán Việt tiêu

chuẩn là "phi"), "buồng" 房 (âm Hán Việt tiêu chuẩn là "phòng"), "xe" 車 (âm
Hán Việt tiêu chuẩn là "xa").
- Âm Hán Việt Việt hoá: là các âm gốc Hán bị biến đổi cách đọc do ảnh
hƣởng của quy luật ngữ âm tiếng Việt. Ví dụ: "thêm" 添 (âm Hán Việt tiêu
chuẩn là "thiêm"), "nhà" 家 (âm Hán Việt tiêu chuẩn là "gia"), "khăn" 巾 (âm
Hán Việt tiêu chuẩn là "cân"), "ghế" 几 (âm Hán Việt tiêu chuẩn là "kỉ"),
1.2.2 Mượn nghĩa chữ Hán, không mượn âm.
Mƣợn chữ Hán đồng nghĩa hoặc cận nghĩa để ghi lại âm tiếng Việt.


6
1.2.3 Mượn âm chữ Hán, không nhất thiết mượn nghĩa
Mƣợn chữ Hán đồng âm hoặc cận âm để ghi âm tiếng Việt. Âm mƣợn có
thể là âm Hán Việt tiêu chuẩn, âm Hán Việt cổ hoặc âm Hán Việt Việt hoá. Khi
đọc có thể đọc giống với âm mƣợn hoặc đọc chệch đi. Ví dụ:
-

Đọc chính xác âm Hán Việt tiêu chuẩn: chữ "một" 沒 có nghĩa là "chìm"

đƣợc mƣợn dùng để ghi từ "một" trong "một mình", chữ "tốt" 卒 có nghĩa là
"binh lính" đƣợc mƣợn dùng để ghi từ "tốt" trong "tốt xấu", chữ "xƣơng" 昌 có
nghĩa là "hƣng thịnh" đƣợc mƣợn dùng để ghi từ "xƣơng" trong "xƣơng thịt",
chữ "qua" 戈 là tên gọi của một loại binh hí đƣợc mƣợn dùng để ghi từ "qua"
trong "hôm qua".
-

Đọc chệch âm Hán Việt tiêu chuẩn: "gió" 這 (mƣợn âm "giá"), "cửa" 舉

(mƣợn âm "cử"), "đêm" 店 (mƣợn âm "điếm"), "chạy" 豸 (mƣợn âm "trãi").
-


Đọc chính xác âm Hán Việt cổ: chữ "vạn" 萬 đọc là "muôn", chữ "tuế" 歲

đọc là "tuổi"
1.2.4 Ghép hai chữ Hán với nhau.
Loại này hết sức phổ biến và thƣờng ghép một thành tố biểu âm với một
thành tố biểu ý (giống nhƣ chữ hình-thanh trong Lục thƣ). Ví dụ:tháng = nguyệt
月 (biểu ý) + thƣớng 尚 (biểu âm); mắt = mục 目 (biểu ý) + mạt 末 (biểu
âm); năm (con số) = ng (五 biểu ý) + nam (南 biểu âm); năm (năm tháng) =
niên (年 biểu ý) + nam (南 biểu âm).
Ngoài ra thỉnh thoảng c ng có những chữ ghép hai chữ Hán nhƣng cả hai
đều biểu ý nhƣ trời= thiên 天 + thƣợng 上; sáng=quang 光 + minh 明. Những
chữ này hông nhiều.
Thêm nét và thêm chữ Hán
Ví dụ: Bố (đối lập với mẹ) = vƣơng 王 + bố 布 + nét giản lƣợc của 司)


7
Thêm bộ thủ khác
Ví dụ: 渃 nước (thủy 氵+ nhƣợc 若); 扜 vo [vo tròn] (thủ 扌+ vu 于);
Phật (nhân イ+ thiên 天). Các bộ thủ thƣờng đƣợc dùng là: 亠, 刂, イ, 厂, 广,
氵, 忄, 辶, 土, 寸, 口, 巾, 山, 犭, 子, 小, 女, 礻, 灬, 木, 艹, 日, 月, 牛, 毛, 片,
牙, 疒, 瓦, 石, 衤, 白, 目, 皮, 田, 米, 耳, 竹, 舟, 羽, 雨, 色, 耒, 糸, 貝, 走, 足,
車, 角, 酉, 金, 風, 食, 髟, 馬, 魚, 赤.
1.2.5 Thêm, bớt các nét
Ví dụ: 女< nỡ, nợ, nữa (bằng dấu < cộng với chữ 女 nữ); 馬< mỡ, mựa
(dấu < cộng với chữ 馬 mã). “朱< cho (dấu < cộng với 朱 chu); “貝< buổi (dấu
< cộng với 貝 bối)
" hệnh hạng" (đều dùng chữ "cộng" 共 bớt nét, trong đó chữ " hệnh" bỏ
nét phảy ノ, chữ " hạng" ヽ bỏ nét mác). " hề hà" (đều dùng chữ " ỳ" 其, chữ

" hề" bỏ nét phảy ノ, chữ " hà" bỏ nét mác ヽ).
Ngoài ra còn một số chữ đƣợc viết tắt từ chữ Hán gốc và hông đổi cả âm
lẫn nghĩa. Những chữ này tƣơng đƣơng với chữ Giản thể của Trung Quốc,
nhƣng c ng có nhiều chữ hông trùng với chữ Giản thể do đƣợc viết tắt theo lối
Nôm. Ví dụ: 渃 phong (viết tắt chữ 風 phong); 乙 v (viết tắt 雨 v , hông phải
là "ất"); り tiền (viết tắt chữ 錢 tiền).
Ngoài ra một vài dân tộc thiểu số hác nhƣ Tày, Dao, Ngạn, v.v. c ng tạo
ra chữ Nôm dựa trên chữ Hán để lƣu lại ngôn ngữ của họ.
Qua cách cấu tạo của chữ Nôm nhƣ vậy, có thể nhận thấy rằng: chữ Nôm
thƣờng có nhiều nét hơn, phức tạp hơn chữ Hán (do phần lớn là những chữ buộc
phải ghép 2 chữ Hán lại) nên khó nhớ hơn cả chữ Hán vốn c ng đã hó nhớ.
Cách đọc c ng có hi hông thống nhất hoặc một chữ có thể có nhiều cách đọc,
cách viết, nên có ngƣời nói rằng "chữ Nôm phải vừa đọc vừa đoán". Ngoài ra,


8
việc "tam sao thất bản" là khó tránh khỏi, phần vì trình độ ngƣời thợ khắc chữ
ngày xƣa, phần vì khâu in mộc bản có chất lƣợng không cao (chữ bị nhòe, mất
nét).
1.3. Các nghiên cứu về chữ Nôm
Chúng ta có thể khẳng định rằng Việt Nam có hai thứ chữ viết ghi lại
tiếng Việt, một là chữ latinh(quốc ngữ), và hai là Hán-Nôm thuộc loại chữ biểu
ý. Và chúng ta có hai lựa chọn: một là để mất hiểu biết chữ Hán Nôm, nghĩa là
mất đi một phần lớn truyền thống và tri thức quá khứ của dân tộc, hai là dùng
mọi loại kỹ thuật tiên tiến nhất để phục hồi và bảo tồn truyền thống văn hoá dân
tộc ghi lại bằng chữ Hán Nôm. Với mục đích bảo tồn di sản Hán – Nôm, ngày
13/9/1979 Viện nghiên cứu Hán Nôm đƣợc thành lập trên cơ sở ban Hán Nôm,
theo quyết định số 326/CP của hội đồng Chính phủ và đƣợc tái khẳng định thuộc
trung tâm Khoa học xã hội và Nhân văn Quốc gia trong Nghị định số 23/CP
ngày 22/5/1993 của Chính phủ. Đây là cơ quan duy nhất ở Việt Nam vừa là

trung tâm bảo tồn vừa là trung tâm hai thác các tƣ liệu chữ Hán và chữ Nôm.
Với mục đích bảo tồn di sản Hán Nôm bằng công nghệ, bao gồm:
1. Chia s các cơ sở dữ liệu có liên quan tới Hán Nôm.
2. Truy nhập công cộng vào các bản lƣu trữ và di sản Hán Nôm.
3. Giáo dục Hán Nôm bằng công nghệ: học tập và nghiên cứu Hán Nôm dựa
trên các tƣ liệu đã số hóa.
Với những nỗ lực bảo tồn di sản của dân tộc, hiện nay đã có bộ phông
Arial Unicode MS chứa khoảng hơn 5.000 chữ Nôm trùng hình chữ Hán. Viện
Mojikyo tại Nhật Bản đã làm ra phông chữ truetype cho 9.299 chữ Nôm mà Việt
Nam đã đề nghị với quốc tế. Công ti DynaLab Đài Loan có trụ sở tại Thƣợng
Hải và Hồng Kông đã xây dựng bộ font DFSongLight_Vietnam2.ttf c ng cho
9.299 chữ Nôm này. Nhóm Đạo Uyển (Đỗ Quốc Bảo (Đức) và Thiền viện Viên
Chiếu) đã phát triển bộ font HanNom (trên 30.000 chữ) có thể sử dụng trên
mạng. Nhóm Nôm Na đã phát triển bộ phông đầy đủ True Type
NomNaTongLight.ttf (trên 15.000 chữ).
Đến năm 2000, trong phiên bản 11.1, tổng số chữ đƣợc lựa chọn và cấp
mã Unicode là 70.205 chữ (trong đó có 9.229 chữ do Việt Nam đề nghị, nếu trừ
đi số chữ trùng lặp thì có 4.232 chữ Nôm Việt tự tạo). Tổng số chữ trên nằm
trong 2 tập Extension A và Extension B. Tập Extension C đang biên soạn sẽ có
thêm khoảng 2.300 chữ Nôm tự tạo nữa (trong đó sẽ có gần 400 chữ Nôm Tày


9
tự tạo). Vậy nếu tính cả 3 tập Extension A, B, C, thì tổng số mã Unicode dành
cho chữ Nôm Việt (tự tạo) là khoảng 6150 chữ.
Vấn đề về phần mềm hỗ trợ khai thác và sử dụng chữ Nôm đã phát triển
phần mềm tra cứu chữ Nôm NLT đƣợc sử dụng rộng rãi trên mạng cả trong
nƣớc và trên thế giới. Các phần mềm gõ chữ Nôm và phần mềm từ điển đã đƣợc
một số nhóm chuyên gia tin học trong nƣớc phát triển: các nhóm của Phan Anh
D ng (Huế) và Tống Phƣớc Khải-Lê Anh Minh (TP Hồ Chí Minh).

Về việc in ấn đã thực hiện việc in ấn chữ Nôm từ máy tính cho một số bộ
từ điển chữ Nôm. Nhiều tác phẩm chữ Nôm đã và đang đƣợc in ấn trực tiếp từ
máy tính và tra cứu trên mạng.
1.4 Mô hình nhận dạng tổng thể và phạm vi nghiên cứu
Xây dựng phần mềm nhận dạng chữ Nôm (Nôm-OCR) là một yêu cầu tất
yếu nhƣ với các ngôn ngữ khác. Nôm-OCR sẽ đóng vai trò một động lực mạnh
thúc đẩy việc nghiên cứu chữ Nôm, khai phá nguồn tƣ liệu quý giá của dân tộc
hàng ngàn năm về chính trị, văn hóa, xã hội… Hệ thống nhận dạng chữ Nôm về
mặt kỹ thuật có thể tham khảo các mô hình kỹ thuật của các OCR hác, đặc biệt
là các OCR chữ tƣợng hình nhƣ tiếng Hán, tiếng Nhật. Trên cơ sở nghiên cứu
các mô hình về OCR, nhóm nghiên cứu của tác giả đƣa ra mô tổng thể cho bài
toán nhận dạng chữ Nôm nhƣ hình 1.1. [2]


10

Hình 1.1 Mô hình nhận dạng chữ Hán - Nôm
Trong sơ đồ trên, nguồn tài liệu có thể là ảnh, tệp PDF…. Trong nguồn
đầu vào của hệ thống OCR có thể bao gồm nhiều loại thông tin ví dụ hình ảnh,
các loại ngôn ngữ hác nhau. Do đó, cần đƣợc tiến hành thao tác phân tích
trang, nhận diện phần ký tự. Sau khi tách phần ký tự khỏi trang, ta tiến hành các
bƣớc tiền xử lý cần thiết, tách thành các khối, tách các khối thành các dòng, tách
dòng thành các ký tự rời rạc. Từ các ký tự rời rạc, ta tiến hành trích chọn đặc
trƣng của ký tự để đƣa vào tiến hành nhận dạng. Kết quả của bƣớc nhận dạng có
thể chƣa phải là bƣớc cuối cùng, mà sẽ đƣợc qua bƣớc hậu xử lý, có thể kiểm tra
trên cơ sở từ điển, ngữ pháp… để quyết định kết quả cuối cùng.
Tổng kết chƣơng 1
Chƣơng 1 đã trình bày tổng quan về chữ Nôm, từ lịch sử ra đời tới đặc
điểm cấu tạo của chữ, tình hình nghiên cứu về chữ Hán-Nôm và bài toán nhận
dạng chữ Nôm. Mặc dù đƣợc hình thành trên cơ sở là chữ Hán nhƣng chữ Nôm

phức tạp hơn rất nhiều do ông cha ta không chỉ mƣợn âm và nghĩa của chữ Hán
mà đã thay đổi rất nhiều về cấu trúc, tạo ra các chữ nhiều nét hơn. Do đó cần
thiết phải xây dựng bộ nhận dạng mới cho chữ Nôm trên cơ sở nghiên cứu các
kỹ thuật nhận dạng chữ Hán c ng nhƣ các chữ tƣợng hình khác.


11


12

Chƣơng 2. MẠNG NƠ-RON
2.1 Nơ-ron sinh học
Theo các nhà nghiên cứu sinh học về bộ não, hệ thống thần kinh của con
ngƣời bao gồm khoảng 100 tỷ tế bào thần inh, thƣờng gọi là các nơ-ron. Mỗi tế
bào nơ-ron gồm ba phần:
- Thân nơ-ron với nhân bên trong (gọi là soma), là nơi tiếp nhận hay phát ra
các xung động thần kinh.
- Một hệ thống dạng cây các dây thần kinh vào (gọi là dendrite) để đƣa tín
hiệu tới nhân nơ-ron. Các dây thần kinh vào tạo thành một lƣới dày đặc xung
quanh thân nơ-ron, chiếm diện tích khoảng 0,25 mm2.
- Đầu dây thần kinh ra (gọi là sợi trục axon) phân nhánh dạng hình cây, có
thể dài từ một cm đến hàng mét. Chúng nối với các dây thần kinh vào hoặc trực
tiếp với nhân tế bào của các nơ-ron khác thông qua các khớp nối (gọi là
synapse). Thông thƣờng mỗi nơ-ron có thể có từ vài chục cho tới hàng trăm
ngàn khớp nối để nối với các nơ-ron khác. Có hai loại khớp nối, khớp nối kích
thích (excitatory) sẽ cho tín hiệu qua nó để tới nơ-ron còn khớp nối ức chế
(inhibitory) có tác dụng làm cản tín hiệu tới nơ-ron. Ngƣời ta ƣớc tính mỗi nơron trong bộ não của con ngƣời có khoảng 104 khớp nối (hình 2.1).
Chức năng cơ bản của các tế bào nơ-ron là liên kết với nhau để tạo nên hệ
thống thần inh điều khiển hoạt động của cơ thể sống. Các tế bào nơ-ron truyền

tín hiệu cho nhau thông qua các dây thần kinh vào và ra, các tín hiệu đó có dạng
xung điện và đƣợc tạo ra từ các quá trình phản ứng hoá học phức tạp. Tại nhân
tế bào, hi điện thế của tín hiệu vào đạt tới một ngƣỡng nào đó thì nó sẽ tạo ra
một xung điện dẫn tới trục dây thần kinh ra. Xung này truyền theo trục ra tới các
nhánh rẽ và tiếp tục truyền tới các nơ-ron khác.


13

Hình 2.1 Cấu tạo của tế bào nơ-ron sinh học
Nhƣ vậy nơ-ron sinh học hoạt động theo cách thức sau: nhận tín hiệu đầu
vào, xử lý các tín hiệu này và cho ra một tín hiệu output. Tín hiệu output này sau
đó đƣợc truyền đi làm tín hiệu đầu vào cho các nơ-ron khác. Dựa trên những
hiểu biết về nơ-ron sinh học, con ngƣời xây dựng nơ-ron nhân tạo với hy vọng
tạo nên một mô hình có sức mạnh nhƣ bộ não.
2.2 Mạng nơ-ron nhân tạo
Định nghĩa: Mạng nơ-ron nhân tạo (Artificial Neural Network-ANN)gọi
tắt là mạng nơ-ron (neural network), là một mô hình xử lý thông tin phỏng theo
cách thức xử lý thông tin của các hệ nơ-ron sinh họcvới mong muốn có thể thực
hiện đƣợc những nhiệm vụ thông minh nhƣ bộ não của con ngƣời. Nó đƣợc tạo
nên từ một số lƣợng lớn các phần tử (gọi là phần tử xử lý hay nơ-ron) kết nối
với nhau thông qua các liên kết (gọi là trọng số liên kết) làm việc nhƣ một thể
thống nhất để giải quyết một vấn đề cụ thể nào đó.
Một mạng nơ-ron nhân tạo đƣợc cấu hình cho một ứng dụng cụ thể (nhận
dạng mẫu, phân loại dữ liệu,...) thông qua một quá trình học từ tập các mẫu huấn
luyện. Về bản chất học chính là quá trình hiệu chỉnh trọng số liên kết giữa các
nơ-ron.
Cấu trúc: Cấu trúc của một mạng nơ-ron đƣợc mô tả trên hình 2.2



14

Hình 2.2 Nơ-ron nhân tạo
- Tập các đầu vào: Là các tín hiệu vào (input signals) của mạng, các tín
hiệu này thƣờng đƣợc đƣa vào dƣới dạng một vector N chiều.
- Tập các liên kết: Mỗi liên kết đƣợc thể hiện bởi một trọng số (gọi là trọng
số liên kết – Synaptic weight). Trọng số liên kết giữa tín hiệu vào thứ j với nơron thƣờng đƣợc kí hiệu là wkj. Thông thƣờng, các trọng số này đƣợc khởi tạo
một cách ngẫu nhiên ở thời điểm khởi tạo mạng và đƣợc cập nhật liên tục trong
quá trình học mạng.
- Hàm tổng(Summing function): Thƣờng dùng để tính tổng của tích các đầu
vào với trọng số liên kết của nó.
- Ngƣỡng: Ngƣỡng này thƣờng đƣợc đƣa vào nhƣ một thành phần của hàm
truyền.
- Hàm truyền (Transfer function) : Hàm này đƣợc dùng để giới hạn phạm vi
đầu ra của mỗi nơ-ron. Nó nhận đầu vào là kết quả của hàm tổng và ngƣỡng đã
cho. Thông thƣờng, phạm vi đầu ra của mỗi nơ-ron đƣợc giới hạn trong đoạn
[0,1] hoặc [-1, 1]. Các hàm truyền rất đa dạng, có thể là các hàm tuyến tính hoặc
phi tuyến. Việc lựa chọn hàm truyền nào là tuỳ thuộc vào từng bài toán và kinh
nghiệm của ngƣời thiết kế mạng. Một số hàm truyền thƣờng sử dụng trong các
mô hình mạng nơ-ron đƣợc đƣa ra trong bảng 2.1.
- Đầu ra: Là tín hiệu đầu ra của một nơ-ron, với mỗi nơ-ron sẽ có tối đa là
một đầu ra.


15

Bảng 2.1 Một số hàm truyền thông dụng
Hàm tru ền

Đồ thị


Định nghĩa

Symmetrical Hard
Limit (hardlims)

 1 khi x  0
y  sgn(x)  
 1 khi x  0

Linear (purelin)

y=x

Saturating Linear
(satlin)

x 1
1 khi

y  sgn(x)   x khi 0  x  1
0 khi
x0


Log-Sigmoid (logsig)

y

1

1  e  x

với λ>0

Mạng nơ-ron có hả năng rút ra ý nghĩa từ dữ liệu phức tạp hoặc không
chính xác, có thể đƣợc sử dụng để trích xuất các mẫu và phát hiện ra các xu
hƣớng quá phức tạp. Một mạng lƣới thần inh đƣợc đào tạo có thể đƣợc coi nhƣ
một "chuyên gia" trong danh mục của thông tin đã đƣợc đƣa ra để phân tích.
Chuyên gia này sau đó có thể đƣợc sử dụng để cung cấp dự đoán của tình hình
mới. Ngoài ra mạng nơ-ron còn có hả năng:
- daptive learning (học thích nghi): có thể biết đƣợc làm thế nào để thực
hiện nhiệm vụ dựa trên các dữ liệu đƣa ra cho đào tạo hoặc từ inh nghiệm ban
đầu.


16
- Self-Organization (Tự tổ chức): Một ANN có thể tạo ra các tổ chức của
mình hoặc đại diện của các thông tin mà nó nhận đƣợc trong suốt thời gian học
tập.
- Real Time Operation (hoạt động thời gian thực): hệ thống sử dụng NN
có thể đƣợc thực hiện song song với các thiết bị phần cứng đặc biệt đƣợc thiết
kế và sản xuất mà tận dụng khả năng này.
- Fault Tolerance via Redundant Information Coding (Dung sai lỗi thông
qua thông tin dự phòng): sự phá hủy từng phần của một mạng dẫn đến sự suy
thoái tƣơng ứng về hiệu suất. Tuy nhiên, một số khả năng của mạng có thể đƣợc
giữ lại ngay cả với những thiệt hại mạng lớn.
Ứng dụng: mạng nơ-ron ngày càng đƣợc ứng dụng nhiều trong thực tế.
Đặc biệt là các bài toán nhận dạng mẫu, xử lý, lọc dữ liệu, và điều khiển. Ứng
dụng của mạng nơ-ron đƣợc chia thành các loại sau:
- Xử lý ngôn ngữ

o Xử lý ngôn ngữ tự nhiên
- Nhận dạng mẫu
o Nhận dạng ảnh
o Nhận giọng nói
o Nhận dạng chữ viết
- Xử lý tín hiệu
o Điều khiển tự động
- Lọc và phân loại dữ liệu
o Chuẩn đoán bệnh
o Tìm kiếm
2.3 Các kiểu mô hình mạng Nơ-ron
Cách thức kết nối các nơ-ron trong mạng xác định kiến trúc (topology)
của mạng. Các nơ-ron trong mạng có thể kết nối đầy đủ (fully connected) tức là
mỗi nơ-ron đều đƣợc kết nối với tất cả các nơ-ron khác, hoặc kết nối cục bộ


17
(partially connected) chẳng hạn chỉ kết nối giữa các nơ-ron trong các tầng khác
nhau. Ngƣời ta chia ra hai loại kiến trúc mạng chính:
- Tự kết hợp (autoassociative): là mạng có các nơ-ron đầu vào c ng là các
nơ-ron đầu ra. Mạng Hopfield là một kiểu mạng tự kết hợp(Hình 2.3).

Hình 2.3 Mạng tự kết hợp
- Kết hợp khác kiểu (heteroassociative): là mạng có tập nơ-ron đầu vào và
đầu ra riêng biệt. Perceptron, các mạng Perceptron nhiều tầng (MLP:
MultiLayer Perceptron), mạng Kohonen, … thuộc loại này(hình 2.4).

Hình 2.4 Mạng kết hợp khác kiểu
Ngoài ra tùy thuộc vào mạng có các kết nối ngƣợc (feedback connections)
từ các nơ-ron đầu ra tới các nơ-ron đầu vào hay hông, ngƣời ta chia ra làm 2

loại kiến trúc mạng.
- Mạng truyền thẳng (feedforward architechture): là kiểu kiến trúc mạng
không có các kết nối ngƣợc trở lại từ các nơ-ron đầu ra về các nơ-ron đầu
vào; mạng hông lƣu lại các giá trị output trƣớc và các trạng thái kích
hoạt của nơ-ron. Các mạng nơ-ron truyền thẳng cho phép tín hiệu di
chuyển theo một đƣờng duy nhất; từ đầu vào tới đầu ra, đầu ra của một


×