Phương pháp trích chọn đặc trưng cho bài toán nhận dạng chữ nôm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (335.3 KB, 6 trang )

Phương pháp trích chọn đặc trưng cho bài toán
nhận dạng chữ Nôm

Nguyễn Triệu Tuấn

Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội
Luận văn ThS. Công nghệ thông tin : 60 48 10
Người hướng dẫn : PGS.TS. Nguyễn Ngọc Bình
Năm bảo vệ: 2013
76 tr .

Abstract. Trình bày nội dung tổng quát và về quy trình nhận dạng chữ Nôm. Trình
bày một số phương pháp nhận dạng chữ tượng hình. Trình bày một số phương pháp
lấy đặc trưng phục vụ cho huấn luyện, nhận dạng chữ tượng hình. Trình bày phương
pháp nhận dạng chữ Nôm bằng kỹ thuật tính chi phí hiệu chỉnh chuỗi đặc trưng (string
edit-distance). Chi tiết các bước huấn luyện: lấy giả khung và khung xương ảnh của
chữ; tạo histogram cho giả khung và khung xương; mã hóa histogram thành chuỗi mã
được trình bày chi tiết. Các bước nhận dạng bằng string edit-distance cũng được trình
bày chi tiết. Xây dựng phần mềm nhận dạng chữ Nôm bằng string edit-distance dựa
trên phương pháp mã hóa histogram của khung xương, giả khung.
Keywords. Công nghệ phần mềm; Bài toán nhận dạng; Phương pháp trích chọn; Cán
bộ y tế; Chữ Nôm
Content.
Lịch sử của dân tộc gắn liền với những nền văn hóa khác nhau trải dài
qua nhiều thế kỷ từ thế kỷ thứ 6 đến cuối thế kỷ thứ 18. Những giá trị văn hóa
này minh chứng cho truyền thống văn hiến lâu dài của dân tộc Việt Nam ta.
Những giá trị văn hóa đó của dân tộc được lưu truyền dưới dạng truyền miệng
và văn bản chữ (khắc trên đá, trên gỗ, gốm và trên giấy). Từ thế kỷ thứ 6 dân
tộc ta đã sử dụng một loại chữ gọi là chữ Nôm ở dạng sơ khai, trải qua một

khoảng thời gian dài chữ Nôm được hoàn thiện dần, từ thế kỷ thứ 11 đến thế
kỷ thứ 18 chữ Nôm được sử dụng rộng rãi, và là chữ viết chính thức của dân
tộc. Trong suốt khoảng thời gian từ thế kỷ thứ 6 đến thế kỷ thứ 18, rất nhiều
giá trị văn hóa của dân tộc được thể hiện bằng chữ Nôm, trong số đó rất nhiều
văn tự chữ Nôm được lưu truyền đến ngày nay. Đến thế kỷ thứ 19, thực dân
Pháp xâm lược nước ta Sự phát triển mạnh mẽ của chữ Quốc ngữ đã dần thay
thế chữ Nôm, hệ quả là ngày nay rất ít người có thể đọc được các văn bản chữ
Nôm, kéo theo đó là rất nhiều giá trị văn hóa trong suốt chiều dài hàng mấy thế
kỷ của dân tộc ta bị bỏ quên. Nhiều văn tự chữ Nôm của người xưa để lại vẫn
được bảo quản trong kho, trong các chùa chiền để đợi được thế hệ ngày nay và
mai sau tìm hiểu, khám phá.
Ngày nay với sự phát triển mạnh mẽ của công nghệ thông tin, máy tính có
thể làm thay con người rất nhiều việc, trong đó có nhận dạng chữ viết. Chữ
Latin đã được các quốc gia ứng dụng công nghệ thông tin vào nhận dạng và xử
lý từ rất sớm, những bộ công cụ nhận dạng chữ in, chữ viết và từ điển cho chữ
Latin đã rất phổ biến, những công cụ này có thể nhận dạng, dịch xuôi, dịch
ngược giữa các ngôn ngữ trong hệ chữ Latin với nhau với độ chính xác rất cao.
Ở một số quốc gia và vùng lãnh thổ sử dụng chữ tượng hình như Trung Quốc,
Nhật Bản, Hàn Quốc và Đài Loan cũng đã ứng dụng rất hiệu quả Công nghệ
thông tin vào nhận dạng chữ viết của họ. Điều này giúp ích rất nhiều cho người
dân họ trong các hoạt động hàng ngày và trong giao lưu văn hóa, khoa học,
giáo dục với các nước khác…
Chữ Nôm tuy không còn là chữ viết chính của nước ta hiện nay, không
được đưa vào đào tạo phổ thông, nhưng theo lịch sử nó lưu giữ một khối lượng
lớn các giá trị văn hóa của dân tộc trong suốt thế kỷ thứ 6 đến thế kỷ thứ 19.
Những giá trị văn hóa này hầu hết nằm im trong kho lưu chữ và trong các di
sản văn hóa khác như đình, chùa, miếu… vì hiện nay rất ít người có thể đọc
được chúng. Do đó ngày nay giới trẻ đã không nắm được một cách đầy đủ
những giá trị văn hóa, lịch sử của dân tộc trong một khoảng thời gian rất dài
phát triển của lịch sử dân tộc. Với tầm quan trọng như vậy, cùng với khả năng

đáp ứng của công nghệ thông tin ngày nay, chúng ta cần cấp thiết xây dựng
một hệ thống nhận dạng chữ Nôm nhằm phục vụ cho nghiên cứu tìm hiểu lịch
sử dân tộc và giáo dục giới trẻ về truyền thống hào hùng của dân tộc, làm sống
dậy một thời gian dài lịch sử bị lãng quên của dân tộc ta.
Từ rất sớm người Việt đã số hóa chữ viết của mình để ứng dụng trong
công nghệ thông tin. Ngoài chữ Quốc ngữ, chữ Nôm cũng được nhiều tổ chức,
cá nhân khác nhau tham gia xử lý số hóa. Kết quả là ngày nay đã có từ điển
chữ Nôm, nhiều tác phẩm trong kho tàng văn học đã được số hóa như truyện
Kiều của Nguyễn Du, truyện Lục Vân Tiên của Nguyễn Đình Chiểu, và nhiều
tác phẩm thơ của Hồ Xuân Hương [7]. Chữ Nôm đã được quốc tế hóa, trở
thành một di sản trong kho tàng chữ viết của thế giới. Trong bộ mã chuẩn
Unicode chữ Nôm đã được đưa vào với 5067 chữ trùng hình với chữ Trung
Quốc, 4232 chữ thuần Nôm, 2200 chữ đang được đề nghị đưa thêm. Theo đó
nhiều bộ font và bộ gõ chữ Nôm được xây dựng, tạo điều kiện thuận lợi trong
việc sử dụng chữ Nôm trong máy tính nói riêng và trong lĩnh vực công nghệ
thông tin nói chung. Như vậy vấn đề số hóa chữ Nôm đã được quan tâm, nhiều
công cụ hỗ trợ đã ra đời, tuy nhiên vấn đề nhận dạng chữ Nôm nhằm xây dựng
những công cụ thông minh, phục vụ cho mục đích tra cứu, nghiên cứu, phổ
biến chữ Nôm, đặc biệt là phát triển các công cụ này trên thiết bị di động để
giúp người không biết chữ Nôm vẫn đọc được chữ Nôm, qua đó đưa chữ Nôm
trở lại cuộc sống, đưa kho tàng văn hóa chữ Nôm đến với mọi người vẫn chưa
được quan tâm đúng mức và chưa đạt được nhiều thành tựu.
Trong luận văn này chúng tôi trình bày tổng quan bài toán nhận dạng chữ
Nôm một số phương pháp trích chọn đặc trưng và một số phương pháp nhận
dạng chữ tượng hình. Trong luận văn tôi còn trình bày hoàn chỉnh một phương
pháp nhận dạng chữ Nôm với mong muốn đưa ra một phương pháp nhận dạng
chữ Nôm, góp phần xây dựng một công cụ có thể nhận dạng được chữ Nôm,
chuyển đổi các văn bản chữ Nôm thành chữ Quốc ngữ nhằm làm sáng tỏ
những giá trị văn hóa lưu trữ trong nó. Cấu trúc luận văn gồm các phần như
sau:

Phần mở đầu:
Nội dung phần mở đầu nêu khái quát quá trình phát triển
của chữ Nôm, lịch sử phát triển dân tộc Việt Nam gắn liền với chữ Nôm. Sự
phát triển của công nghệ thông tin và khả năng ứng dụng Công nghệ thông tin
vào nhận dạng chữ Nôm, tầm quan trọng trong việc xây dựng hệ thống nhận
dạng chữ Nôm.
Chương 1. Tổng quan:
Nội dung chương một trình bày tổng quan về chữ
Nôm, lịch sử hình thành và phát triển chữ Nôm, mô hình tổng quan của hệ
thống nhận dạng chữ Nôm và các khái niệm liên quan như: chuẩn hóa, trích
chọn đặc trưng, huấn luyện….
Chương 2. Một số kỹ thuật nhận dạng chữ tượng hình:
Nội dung
chương này tổng hợp và giới thiệu một số kỹ thuật nhận dạng chữ tượng hình
đã được được thực nghiệm.
Chương 3. Giới thiệu một số phương pháp trích chọn đặc trưng:
Nội
dung chương này giới thiệu một số phương pháp trích chọn đặc trong nhận
dạng chữ tượng hình.
Chương 4. Nhận dạng chữ Nôm theo khoảng cách soạn thảo dựa trên
khung xương và giả khung:
Nội dung chương này trình bày đầy đủ phương
pháp nhận dạng thông qua tính chi phí hiệu chỉnh chuỗi (string edit-distance)
theo hai phương pháp lấy đặc trưng khác nhau là lấy đặc trưng từ histogram
của giả khung và lấy đặc trưng từ histogram của khung xương. Mục đích của
chương này nhằm ứng dụng lý thuyết trình bày ở chương 2 và chương 3 xây
dựng nên một phương pháp nhận dạng mới. Chi tiết từng bước thực hiện gồm:
lấy khung xương, lấy giả khung; tạo histogram và mã hóa thành chuỗi mã; sử
dụng string edit-distance được trình bày chi tiết, rõ ràng.
Chương 5. Thực nghiệm.

Nội dung chương này trình bày kết quả thực
nghiệm chương trình cài đặt các thuật toán trình bày ở chương 4. So sánh kết
quả nhận dạng của hai phương pháp lấy đặc trưng áp dụng trong cùng một
phương pháp nhận dạng.
Phần
kết luận: Phần này trình bày những đóng góp của luận văn, những tồn tại,
hạn chế chưa được giải quyết và hướng giải quyết tiếp theo.

TÀI LIỆU THAM KHẢO
[1].

Nguyễn Tuấn Cường, “Thời điểm xuất hiện chữ Nôm và sơ đồ cấu trúc
chữ Nôm”, 2009
[2].

Đặng Đức, Trần Xuân Ngọc Lan, “Nghiên cứu diến biến chữ NOM theo
phương pháp hình thể”,

[3].

Phạm Văn Huởng, Trần Minh Tuấn, Nguyễn Thị Ngọc Hương, Bùi Thị
Hồng Hạnh, Lê Hồng Trang, Vũ Thanh Nhân, Trương Anh Hoàng, Vũ
Quang Dũng, Nguyễn Ngọc Bình, “Một số phương pháp nhận dạng chữ
NÔM”, Hội thảo Khoa học Quốc gia Lần thứ IV về CNTT-TT
(ICT.rda’2008)
[4].

Đỗ Năng Toàn, TS. Phạm Việt Bình (2007), “Giáo trình sử lý ảnh TS”,
khoa CNTT Đại học Thái Nguyên.
[5].

Ngô Trung Việt, Ngô Thanh Nhàn, “Một cách nhìn về tương lai của” chữ
NÔM, Hội nghị Chữ NÔM Quốc tế 2004
[6].

[7].

[8].

Adam L.Berger, “A Maximum entropy Approach to Natural Language
Processing”
[9].

Belur V. Dasarathy, “Nearest Neighbor (NN) Norms: NN Pattern
Classification Techniques”, 1991, ISBN 0-8186-8930-7.
[10].

Ben Krose and Patrick van der Smagt (1996), “An introduction to Neural
Networks”, Eighth edition November 1996
[11].

Eric Sven Ristad, Member, IEEE, and Peter N. Yianilos, Senior Member
IEEE, “Learning String-Edit Distance”, IEEE transactions on pattern
analysis and machine intelligence, vol. 20, no. 5, may 1998
[12].

Juan Diego Rodrıguez, Aritz Perez, Jose Antonio Lozano, Member, IEEE,
“Sensitivity Analysis of k-Fold Cross Validation in Prediction Error

Estimation”, IEEE Transactions on pattern analysis and machine
intelligence, Vol. 32, No. 3, March 2010
[13].

Kai Yu, Jiangqin Wu, Yueting Zhuang, “Skeleton-Based Recognition of
Chinese Calligraphic Character Image”,

College of Computer Science,
Zhejiang University Hangzhou, 310027, P. R. China
[14].

Lê Hồng Trang, “Nôm Optical Character Recognition using Pseudo-
Skeleton feature”, Luận văn thạc sĩ đại học Công nghệ, đại học Quốc gia
Hà Nội 2009.
[15].

Lifeng Shang, Zhang Yi, Luping Ji (2007), “Binary Image Thinning
Using Autowaves Generated by PCNN”, Neural processing letters (2007)
25:49-62 DOI 10.007/s11063-006-9030-9
[16].

Ming Gang Wen, Kuo Chin Fan, Chin Chuan Han, “Classification of
Chinese Characters Using Pseudo Skeleton Features”, Journal of
information science and engineering 20, 903-922 (2004)
[17].

Ning Li, “An Implementation of OCR System”, Computing Laboratory
University of Kent at Canterbury United Kingdom, August 1991
[18].

Tom M. Mitchell, “Machine learning”, McGraw-Hill
Science/Engineering/Math; (March 1, 1997).

Phương pháp trích chọn đặc trưng cho bài toán nhận dạng chữ nôm

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về