Tải bản đầy đủ (.pdf) (70 trang)

Nghiên cứu phương pháp cắt chữ dính viết tay tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.06 MB, 70 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

ĐÀO MINH THẮNG

NGHIÊN CỨU PHƯƠNG PHÁP CẮT CHỮ DÍNH
VIẾT TAY TIẾNG VIỆT

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2016


ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

ĐÀO MINH THẮNG

NGHIÊN CỨU PHƯƠNG PHÁP CẮT CHỮ DÍNH
VIẾT TAY TIẾNG VIỆT
Chuyên ngành: Khoa học máy tính
Mã số: 60480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: PGS. TS. NGÔ QUỐC TẠO

THÁI NGUYÊN - 2016


i



LỜI CẢM ƠN
Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động
viên, giúp đỡ và hướng dẫn tận tình của Thầy giáo hướng dẫn PGS.TS Ngô
Quốc Tạo, luận văn với đề tài “Nghiên cứu phương pháp cắt chữ dính viết
tay tiếng Việt” đã hoàn thành.
Tôi xin bày tỏ lòng biết ơn sâu sắc đến:
Thầy giáo hướng dẫn PGS.TS. Ngô Quốc Tạo đã tận tình chỉ dẫn, giúp
đỡ tôi hoàn thành luận văn này.
Đề tài “Hệ thống đeo tay hỗ trợ đọc sách tiếng Việt dành cho người
khiếm thị” Mã số VAST01.07/15-16 hỗ trợ trong thực hiện luận văn.
Khoa sau Đại học Trường Đại học công nghệ thông tin và truyền thông
đã giúp đỡ tôi trong quá trình học tập cũng như thực hiện luận văn.
Tôi xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động
viên, khích lệ, tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, thực hiện
và hoàn thành luận văn này.
HỌC VIÊN

Đào Minh Thắng


ii

LỜI CAM ĐOAN
Tên tôi là: Đào Minh Thắng
Sinh ngày: 09/12/1987
Học viên lớp cao học CK13A –Trường Đại học Công nghệ thông tin và
Truyền thông – Đại học Thái Nguyên.
Hiện đang công tác tại: Trường Cao đẳng Cơ khí – Luyện kim – Thái Nguyên.
Tôi xin cam đoan luận văn “Nghiên cứu phương pháp cắt chữ dính

viết tay tiếng Việt ” là do tôi nghiên cứu và hoàn thành dưới sự hướng dẫn của
PGS.TS Ngô Quốc Tạo.
Các kết quả đạt được trong quá trình nghiên cứu là hoàn toàn trung thực
và khách quan.
Tôi xin chịu trách nhiệm về những lời cam đoan trên.

Thái Nguyên, ngày

tháng

Người cam đoan

Đào Minh Thắng

năm 2016


iii

MỤC LỤC

LỜI CẢM ƠN ................................................................................................. i
LỜI CAM ĐOAN .......................................................................................... ii
MỞ ĐẦU ....................................................................................................... 1
Chương 1:TỔNG QUAN VỀ CHỮ VIẾT TIẾNG VIỆT VÀ NHẬN DẠNG
CHỮ VIẾT ..................................................................................................... 3
1.1. Khái quát về Chữ viết tiếng Việt ......................................................... 3
1.1.1. Tóm lược lịch sử phát triển của tiếng Việt .................................. 3
1.1.2. Đặc điểm của tiếng Việt ........................................................... 11
1.1.3. Khả năng nắm chính tả tiếng Việt một cách có hệ thống........... 13

1.2. Trình bày về lịch sử của nhận dạng chữ viết tay ................................ 16
1.3. Giới thiệu các hướng tiếp cận trong việc nhận dạng chữ viết .............. 17
1.3.1. Nhận dạng chữ in...................................................................... 17
1.3.2. Nhận dạng chữ viết tay ............................................................. 18
1.3.3. Một số Hệ thống nhận dạng chữ viết tay tiếng Việt .................. 19
Chương 2: MỘT SỐ PHƯƠNG PHÁP TÁCH CÁC NÉT CHỮ VIẾT TAY
TIẾNG VIỆT ............................................................................................... 23
2.1. Phương pháp tách nét chữ sử dụng Histgram dọc .................................. 23
2.1.1. Cân bằng histogram ........................................................................ 24
2.1.2. Một số thuật toán phát hiện và hiệu chỉnh góc nghiêng văn bản ..... 25
2.1.2.1 Thuật toán dựa vào phân tích hình chiếu (Projection Profile) ..... 25
2.1.2.2. Các thuật toán dựa vào biến đổi Hough (Hough Transform) ...... 28
2.2. Phương pháp tách nét dựa trên cấu trúc nét chữ. .................................... 34
2.2.1. Lược đồ phương pháp cắt chữ dính tiếng Việt ................................ 34
2.2.2. Làm mảnh..................................................................................... 35
2.2.2.1. Một số khái niệm cơ bản trong các thuật toán làm mảnh.......... 35


iv

2.2.2.2. Thuật toán làm mảnh song song ............................................... 39
2.2.3. Xác định điểm nối ......................................................................... 42
2.2.4. Tìm các đường cắt ứng viên............................................................ 44
2.2.5. Quyết định chọn đường cắt từ các đường cắt ứng viên …………..47
Chương 3: CÀI ĐẶT VÀ THỬ NGHIỆM ................................................... 48
3.1. Giới thiệu bài toán ................................................................................. 48
3.2. Phân tích lựa chọn công cụ .................................................................... 49
3.3. Một số kết quả thử nghiệm và đánh giá ................................................. 54
3.3.1. Phương pháp thử nghiệm ............................................................ 54
3.3.2. Dữ liệu thử nghiệm ..................................................................... 55

3.3.3. Kết quả và đánh giá .................................................................... 57
KẾT LUẬN VÀ ĐỀ NGHỊ .......................................................................... 60
TÀI LIỆU THAM KHẢO ............................................................................ 61


v

DANH MỤC HÌNH ẢNH

Hình 1.1: Chữ dính viết tay .......................................................................... 17
Hình 1.2. Các giai đoạn trong quá trình xử lý và nhận dạng ảnh................... 19
Hình 1.3: VnDOCR và một ví dụ nhận dạng ................................................ 20
Hình 2.1 Lược đồ xám của ảnh..................................................................... 23
Hình 2.2: Xác định khoảng cách giữa hai kí tự và giữa hai từ dựa trên
histogram theo chiều dọc. ............................................................................. 24
Hình 2.3. Cấu trúc của dòng văn bản. ........................................................... 25
Hình 2.4. Phép chiếu ngang và chiếu dọc của trang tài liệu ........................... 26
Hình 2.5. Phép chiếu dọc của dòng văn bản. ................................................. 27
Hình 2.6. Phép chiếu ngang của dòng văn bản. ............................................. 27
Hình 2.7. Đường thẳng Hough trong tọa độ cực. .......................................... 32
Hình 2.8. Biến đổi Hough phát hiện góc nghiêng.......................................... 33
Hình 2.9: Lược đồ phương pháp tách nét chữ viết tay .................................. 35
Hình 2.10: Điểm ảnh p và các láng giềng ..................................................... 36
Hình 2.11: Các điểm biên liên kết ................................................................ 37
Hình 2.12: Kết quả ảnh sau khi áp dụng thuật toán Zang-Suen..................... 42
Hình 2.13: Ảnh gốc - Ảnh xương ................................................................. 42
Hình 2.14: Minh họa các điểm nối ............................................................... 43
Hình 2.15: Các trường hợp xác định điểm nối chính xác .............................. 43
Hình 2.16: Trường hợp mà định nghĩa về điểm nối của chúng tôi không phù
hợp. .............................................................................................................. 43

Hình 2.17: Ví dụ các điểm nối, các vùng trắng. ............................................ 44
Hình 2.18: Lựa chọn các đường cắt tốt nhất. ................................................ 44
Hình 2.19: Ba đường cắt ứng viên ................................................................ 45
Hình 2.20: Trường hợp cắt ........................................................................... 46


vi

Hình 2.21: Tất cả ba đường cắt không thể tách kí tự “o” và “a” ................... 46
Hình 2.22: Hai điểm nối (màu xám) ............................................................. 46
Hình 2.23: Hai đường cắt sử dụng đường gẫy cùng tách kí tự “o” và “a”. .... 47
Hình 3.1: Sơ đồ xử lý và nhận dạng chữ viết tay .......................................... 49
Hình 3.2: Giao diện Visual Studio ................................................................ 49
Hình 3.3: Generate code Visual stidio .......................................................... 51
Hình 3.4 : Công cụ Break Point Visual studio ............................................. 52
Hình 3.5: Giao diện hệ thống cắt chữ dính viết tay tiếng Việt....................... 52
Hình 3.6: Chọn dữ liệu ảnh đầu vào ............................................................. 53
Hình 3.7: Chuyển đổi ảnh nhị phân .............................................................. 53
Hình 3.8: Ảnh trước và sau khi làm mảnh .................................................... 54
Hình 3.9: Các đường cắt ứng viên ................................................................ 54
Hình 3.10: Thử nghiệm ................................................................................ 55


1

MỞ ĐẦU

Nhận dạng chữ viết, đặc biệt là chữ viết tay, là bài toán rất quan trọng,
có nhiều ứng dụng thực tiễn khác nhau như trong tình báo, kỹ thuật robot,…
Bài toán nhận dạng chữ viết đã và đang được nhiều nhà nghiên cứu trên thế

giới quan tâm giải quyết trong những năm gần đây. Tuy nhiên hiện nay chưa
có phương pháp nào hoàn chỉnh cho bài toán này do tính phức tạp và sự biến
dạng của dữ liệu đầu vào.
Đối với việc nhận dạng chữ viết tiếng Việt, trong những năm gần đây
đã được các nhà khoa học trong nước quan tâm nghiên cứu. Với bài toán nhận
dạng chữ viết tay tiếng Việt là khó vì các vấn đề về nét chữ của tiếng Việt.
Trong bối cảnh của chữ viết tay Việt Nam, không chỉ hai kí tự có nét chữ với
nhau gây ra tình huống khó mà các trọng âm cũng có thể gây ra tình huống
phức tạp hơn.
Để có thể giải quyết tốt bài toán nhận dạng chữ viết tay tiếng Việt, thì một
trong những giai đoạn quan trọng đó là phân đoạn các ký tự viết tay tiếng Việt.
Từ lý do trên, em đã chọn luận văn: “Nghiên cứu phương pháp cắt
chữ dính viết tay tiếng Việt”.
Mục tiêu của đề tài: Nghiên cứu Tổng quan về chữ viết tiếng Việt và
Hệ thống nhận dạng chữ viết tay để nắm những kiến thức cơ bản liên quan
đến chữ viết tiếng Việt và hiểu được các giai đoạn trong Hệ thống nhận dạng
chữ viết tay nói chung, làm cơ sở cho những bước nghiên cứu tiếp theo;
Nghiên cứu Tổng quan về xử lý ảnh và làm mảnh ảnh, nắm được một số
phương pháp làm mảnh ảnh cơ bản; Nghiên cứu đưa ra phương pháp tách các
nét chữ viết tay tiếng Việt, chúng tôi sử dụng cấu trúc nét để đưa ra phương
pháp tách. Cuối cùng, chúng tôi tiến hành cài đặt và đưa ra kết quả thử


2

nghiệm đối với phương pháp mà chúng tôi đưa ra để tách các nét chữ viết tay
tiếng Việt.
Cấu trúc của luận văn được chia thành 3 chương cụ thể như sau:
Chương 1
TỔNG QUAN VỀ CHỮ VIẾT TIẾNG VIỆT VÀ NHẬN DẠNG

CHỮ VIẾT
Trình bày những kiến thức cơ bản liên quan đến tiếng Việt như lịch sử
của tiếng Việt,… cũng như Chữ viết tiếng Việt. Trình bày Khái quát về Hệ
thống nhận dạng chữ viết tay và đưa ra một số Hệ thống nhận dạng chữ viết
tay tiếng Việt đã được các nhà nghiên cứu xây dựng.
Chương 2
MỘT SỐ PHƯƠNG PHÁP TÁCH CÁC NÉT CHỮ
VIẾT TAY TIẾNG VIỆT
Trình bày các phương pháp làm mảnh song song và đưa ra một số
phương pháp làm mảnh cơ bản. Trình bày chi tiết phương pháp tách các nét
Chữ viết tay tiếng Việt mà chúng tôi đưa ra, cụ thể: chúng tôi sử dụng cấu trúc
nét để tách các ký tự viết tay tiếng Việt.
Chương 3
CÀI ĐẶT VÀ THỬ NGHIỆM
Xây dựng Hệ thống tách các nét chữ viết tay tiếng Việt bằng phương
pháp mà chúng tôi đưa ra và tiến hành thử nghiệm, đưa ra kết quả của Hệ
thống mà chúng tôi xây dựng.


3

Chương 1
TỔNG QUAN VỀ CHỮ VIẾT TIẾNG VIỆT
VÀ NHẬN DẠNG CHỮ VIẾT
Trong chương này, chúng tôi sẽ tập trung nghiên cứu và trình bày
những kiến thức cơ bản liên quan đến tiếng Việt như lịch sử phát triển của
tiếng Việt, đặc điểm của tiếng Việt và chữ viết tiếng Việt. Đồng thời, chúng tôi
cũng sẽ nghiên cứu và trình bày Khái quát về Hệ thống nhận dạng chữ viết
tiếng Việt. Các kiến thức dưới đây được tham khảo từ: [1], [2], [3].
1.1. Khái quát về Chữ viết tiếng Việt

1.1.1. Tóm lược lịch sử phát triển của tiếng Việt
Tiếng Việt có nguồn gốc rất cổ xưa và đã trải qua một quá trình phát
triển lâu dài, đầy sức sống. Sức sống đó biểu hiện tinh thần dân tộc mạnh mẽ
và sáng tạo của nhân dân Việt Nam trong cuộc đấu tranh anh dũng vì tiền đồ
của đất nước, trong sự phấn đấu bền bỉ để xây dựng và phát triển một nền
quốc ngữ, quốc văn, quốc học Việt Nam.
 Nguồn gốc tiếng Việt
Tiếng Việt thuộc họ Nam Á. Đây là ý kiến phổ biến được trình bày
trong nhiều công trình nghiên cứu về nguồn gốc các ngôn ngữ ở Đông Dương
và châu Á.
Họ Nam Á là một họ ngôn ngữ đã có từ rất xưa, trên một khu vực rộng
của vùng Đông Nam châu Á. Vùng này, thời cổ, vốn là một trung tâm văn
minh trên thế giới.
Đến ngày nay, vẫn còn nhiều dấu vết về mối quan hệ họ hàng gần gũi
giữa tiếng Việt với tiếng Mường, và mối quan hệ họ hàng tương đối xa hơn,
giữa tiếng Việt với nhóm tiếng Mon-Khmer ở dọc Trường Sơn, ở miền Tây
Nguyên, ở trên đấy Campuchia, Miến Điện (Mianma)... Rõ nhất là những dấu


4

vết trong lớp từ căn bản, tức là những từ thông thường đã có từ lâu đời. Ví dụ:
Trong tiếng Việt, có từ tay thì từ tương đương trong tiếng Mường nghe như
"thay"; tiếng Ba Na, tiếng Mơ Nông, nghe như "ti"; trong tiếng Môn, tiếng
Khmer, nghe như "tai"...
Trong tiếng Việt, lại còn tìm thấy những chứng cứ về mối quan hệ giữa
nó với nhóm tiếng khác, đặc biệt là với nhóm tiếng Thái. Nếu những từ như
chim, rú (rừng rú), sông... được xác nhận là cùng gốc với những từ tương
đương trong nhóm Mon-Khmer, thì những từ như gà, vịt, đồng, rẫy... lại được
chứng minh là cùng gốc với những từ tương đương trong nhóm Thái.

Mối quan hệ này là do có họ hàng, hay chỉ do tiếp xúc với nhau mà sinh ra?
Công việc nghiên cứu nguồn gốc tiếng Việt và các tiếng khác ở Việt
Nam còn tiếp tục, nhưng theo những căn cứ đã tìm thấy, có thể nghĩ rằng phần
lớn những ngôn ngữ của các dân tộc thuộc khối cộng đồng người Việt Nam
đều sinh ra từ một cội nguồn chung xa xưa. Từ cội nguồn ấy, tiếng Việt đã có
quá trình phát triển riêng trong xã hội của người Việt – một xã hội sớm đạt tới
trình độ tổ chức khá cao, với một nền văn minh nông nghiệp tương đối hoàn
chỉnh. Trải qua giai đoạn này, tiếng Việt đã thành một ngôn ngữ thống nhất và
có bản sắc của nó.
Bản sắc ấy khá vững bền. Nó sẽ tiếp tục phát huy tác dụng ở giai đoạn
sau, giai đoạn của sự tiếp xúc ngôn ngữ giữa Việt Nam và Trung Quốc.
 Tiếng Việt ở giai đoạn dùng chữ Nôm
Sự tiếp xúc ngôn ngữ Việt – Hán đã diễn ra cả nghìn năm dưới chế độ
đô hộ của phong kiến Trung Quốc, trong khuôn khổ một chính sách đồng hoá
quyết liệt, tàn bạo; rồi sau đó, còn diễn ra cả nghìn năm tiếp theo, dưới chính
quyền của vua quan trong nước. Suốt giai đoạn này, chữ Hán giữ vị trí rất
quan trọng. Nó được dùng trong hành chính, tế lễ, học thuật, thơ văn.


5

Nhưng tiếng Việt, trong giai đoạn ấy, vẫn không ngừng phát triển, và
đã phát triển càng ngày càng mạnh.
Nền văn học dân gian, với những câu chuyện thần thoại, truyền thuyết,
cổ tích, những ca dao, tục ngữ, chứng tỏ quá trình phát triển sinh động, phong
phú của tiếng Việt văn học truyền miệng. Tuy vậy, chữ viết là điều kiện cần
thiết để cho một ngôn ngữ văn học có thể phát triển tới trình độ cao. Chữ viết
của tiếng Việt, ở giai đoạn này, là chữ Nôm – một thứ chữ được tạo ra theo
nguyên tắc và cơ sở của chữ Hán. Theo những tài liệu còn lại hiện được biết,
có thể nghĩ rằng chữ Nôm đã xuất hiện vào khoảng các thế kỉ IX-X, nhưng

đến các thế kỉ XIII-XV mới có thơ phú "quốc âm", "quốc ngữ" viết bằng chữ
Nôm, của những người như Nguyễn Thuyên (Hàn Thuyên), Nguyễn Sĩ Cố,
Chu An, Nguyễn Trãi.
Đáng chú ý hơn cả là Quốc âm thi tập của Nguyễn Trãi. Tập thơ này là
một thành công đầu trong nền văn học viết của tiếng Việt. Nhà thơ là một vị
anh hùng có công đuổi giặc, cứu nước, đồng thời là một nhà văn hoá đã nhận
rõ được ý nghĩa vô cùng quan trọng của sự nghiệp xây dựng và phát triển
ngôn ngữ văn học dân tộc.
Từ thế kỉ XV về sau, đặc biệt là ở các thế kỉ XVIII, XIX, trào lưu văn
học chữ Nôm phát triển mỗi thời một mạnh hơn, với nhiều tác phẩm hơn,
những tác phẩm được lưu truyền rộng rãi trong nhân dân, trước thái độ tiêu
cực của triều đình và tầng lớp khá đông những nhà nho quá sùng bãi chữ Hán.
Trào lưu này đã đưa tiếng Việt đến những bước tiến rõ rệt. Kho từ vựng
tăng lên, giàu có hơn. Bộ phận nền tảng của nó là những từ gốc Việt. Đó là
những từ một âm tiết, như: đất, người, trăng, đẹp, vui... và những từ hai tiếng
được cấu tạo theo quy tắc phối hợp âm thanh như: long lanh, ngậm ngùi...
hoặc quy tắc phối hợp nghĩa, như: vuông tròn, mây gió... Nó cũng tiếp nhận
và đồng hoá nhiều từ gốc Hán. Có những từ một tiếng gốc Hán đã được đưa


6

vào tiếng Việt từ rất xưa, và được Việt hoá hoàn toàn, như: tuổi vốn là gốc ở
âm của chữ Hán "tuế"; buông gốc ở âm cổ của chữ Hán "phóng"... Ngoài ra,
còn có những từ một tiếng hay hai tiếng gốc Hán đã đi vào tiếng Việt ở thời kì
sau và chủ yếu theo con đường sách vở. Đó là những từ thi ca, như: phong,
hoa, tuyết, nguyệt, tài tử, giai nhân... và những từ văn hoá, chủ yếu về đạo lí,
triết lí, như: nhân, nghĩa, trung, hiếu, bạc mệnh, tang thương... Nói về cách đặt
câu, cách làm thơ, thì qua trào lưu văn học chữ Nôm, rõ ràng là tiếng Việt đã
đạt tới trình độ điêu luyện hơn, mà vẫn bền vững, nhuần nhuyễn tính cách

Việt Nam.
Những tác phẩm như Chinh phụ ngâm, Truyện Kiều... chứng tỏ rằng
tính cách ấy ngày càng đậm đà và có tác dụng sâu sắc. Người Việt Nam chúng ta
yêu mến, quý trọng nó là yêu mến và quý trọng bản sắc của ngôn ngữ, của văn hoá
dân tộc. Tư tưởng và tình cảm này có hiệu lực đặc biệt quan trọng trong sự bồi
dưỡng và phát huy tinh thần dân tộc của nhân dân Việt Nam.
 Tiếng Việt ở giai đoạn dùng "chữ quốc ngữ"
Từ đầu thế kỉ 20 về sau, tiếng Việt dần dần được dùng trong mọi thể
loại văn học, mọi địa hạt văn hoá, khoa học, kĩ thuật. Nó phát triển thành ngôn
ngữ văn học toàn diện. Đây là giai đoạn hiện đại của tiếng Việt.
Ở giai đoạn này, sự phát triển của tiếng Việt diễn ra mạnh và nhanh,
cùng một đà với quá trình biến đổi sâu sắc của xã hội Việt Nam trải qua cuộc
đấu tranh giải phóng dân tộc khỏi ách thực dân, đặc biệt dưới sự lãnh đạo của
Đảng Cộng sản Việt Nam.
Đó cũng là sự phát triển đã diễn ra với một lợi khí mới về chữ viết:
"chữ quốc ngữ".
Chữ quốc ngữ là một thứ chữ được xây dựng theo nguyên tắc ghi âm,
bằng chữ cái Latin. Loại chữ này đã được dùng phổ biến từ rất lâu, ở châu Âu.
Đến thế kỉ 17, một số giáo sĩ phương Tây đem nguyên tắc ấy dùng vào việc


7

ghi âm tiếng Việt, tạo ra một thứ chữ thuận lợi hơn đối với mục đích truyền
đạo. Điều kiện quyết định sự thành công của việc ghi âm như vậy là cách phát
âm về cơ bản giống nhau giữa các địa phương. Điều kiện ấy đã có ở thế kỉ 17.
Quả vậy, tiếng Việt trên toàn đất nước, như chính bản thân chữ quốc ngữ của
thời kì này đã ghi lại, đã có, tự bấy giờ, một trình độ thống nhất rất cao.
Mấy thế kỉ tiếp theo, chữ quốc ngữ chỉ có phạm vi sử dụng hạn chế
trong kinh bổn đạo Thiên Chúa. Một số trí thức sớm theo đạo này và sớm có

"tây học", nhất là từ khi thực dân Pháp chiếm "Nam Kì", đã ra sức cổ động
cho nó. Nhưng lời hô hào của họ không được hưởng ứng rộng rãi. Đó là do ý
đồ của những người trí thức ấy không đi ra ngoài khuôn khổ của toàn bộ
chính sách thống trị của kẻ xâm lược.
Thái độ lạnh nhạt đối với chữ quốc ngữ thay đổi kể từ khi hình thành
các phong trào đấu tranh văn hoá có ý nghĩa chính trị, như phong trào Đông
kinh nghĩa thục, ở đầu thế kỉ XX. Những người lãnh đạo phong trào là một số
nhà nho yêu nước, chống Pháp. Họ nêu việc dùng chữ quốc ngữ lên hàng đầu
trong sáu biện pháp của bản sách lược gọi là Văn minh tân học sách (1907),
và lên tiếng kêu gọi đồng bào vì tương lai của đất nước mà nên dùng thứ chữ
tiện lợi ấy. Những tài liệu văn hoá bằng chữ quốc ngữ, do phong trào này phát
hành, đã được phổ biến khá rộng.
Sách báo chữ quốc ngữ được xuất bản nhiều là từ khoảng 1920 trở về
sau. Không những sách báo công khai mà cả sách báo bí mật. Công khai là
những tờ "nhật trình", những "tuần san", "nguyệt san", những tiểu thuyết dịch
từ Hán văn, Pháp văn lưu hành chủ yếu trong giới trí thức và tiểu tư sản ở các
thành phố, các thị trấn. Bí mật là những tờ báo nhỏ, những tài liệu chính trị do
các tổ chức như "Nông hội đỏ" chủ trương, phần lớn in bằng phương tiện thô
sơ, được truyền tay nhau trong giới thợ thuyền ở những thành phố có ít nhiều
cơ sở công nghiệp như Hải Phòng, Hà Nội, Nam Định, Vinh, Sài Gòn,... và


8

trong giới dân cày, ở những nơi có hình thức tổ chức "Nông hội đỏ". Những
tài liệu chính trị quan trọng, như "Đường cách mệnh" (1925) của đồng chí
Nguyễn Ái Quốc, "Luận cương chính trị" (1930) của Ban Chấp hành Trung
ương Đảng Cộng sản Việt Nam, đã được truyền đi, trong thời kì này.
Qua thời kì ấy, văn xuôi tiếng Việt đã thực sự ra đời và được luyện dần
trong thể loại nghị luận chính trị, xã hội. Cách đặt câu đổi mới, coi trọng tính

chất rõ ràng, khúc chiết, hơn là tính chất đối xứng, nhịp nhàng. Những tri thức
mới về chính trị, về khoa học đòi hỏi nhiều từ mới phải đưa vào tiếng Việt.
Những từ như kinh tế, xã hội, văn hoá, tư tưởng, giai cấp,... xuất hiện trong
tiếng Việt tự bấy giờ. Văn xuôi nghệ thuật cũng dần trở thành phổ biến. Lúc
đầu còn là văn dịch, rồi khoảng từ 1930 trở về sau, lớp văn sĩ "tân học", ngày
càng đông, đã sáng tác theo những thể loại mới: truyện ngắn, truyện dài, kịch
nói,... Cuối cùng, văn xuôi rời bỏ hẳn lối đặt câu biền ngẫu, có xu hướng gần
gũi hơn với lời nói bình thường. "Thơ mới" lại càng mạnh dạn hơn: nó phá bỏ
những luật lệ khắt khe, xích tới gần văn xuôi. Trong phạm vi từ vựng thì thơ
hay văn xuôi, thuộc xu hướng hiện thực hay lãng mạn, đều dựa vào lớp từ
thuần Việt và đã làm cho lớp từ này tỏ rõ hiệu lực nghệ thuật của nó.
Trong khoa học tự nhiên và kĩ thuật thì số lượng thuật ngữ mới hoặc
gốc Hán như: tâm, bán kính, ẩn số,...; hoặc gốc Pháp như: a-xít, ô-xy, mêtan,... đã tăng lên nhiều, và bắt đầu được truyền bá qua một số công trình dịch
thuật và biên soạn có tính chất giáo khoa phổ thông. Đó là những công trình
có ý nghĩa quan trọng, do những nhà trí thức yêu nước chủ trương, để chứng
minh hiệu lực khoa học của tiếng Việt trong địa hạt những khoa học chính xác
– địa hạt mà chính quyền thực dân và những học giả bảo thủ cho rằng tiếng
Việt là "bất cập". Cũng qua những công trình đó mà văn xuôi khoa học tiếng
Việt hình thành và phát triển nhanh chóng.


9

Nhìn lại khoảng thời gian từ 1920, đặc biệt từ 1930, đến Cách mạng
Tháng Tám, có thể nhận thấy rằng không khí đấu tranh chính trị, văn hoá rất
sôi nổi đã có tác động rõ ràng tới sự phát triển của tiếng Việt. Nhưng từ các xu
hướng khác nhau, cũng đã hiện ra những quan niệm không giống nhau về chuẩn
mực của tiếng Việt: có quan niệm "hồi cổ", không thừa nhận những đổi mới đã
thành phổ biến; có quan niệm "bình dân" muốn ghi chép lời nói thông thường,
không theo những nền nếp của ngôn ngữ văn học, chuẩn hoá; có quan niệm

"logic", muốn làm cho tiếng Việt gần gũi với cái logic chung, không cần chú ý tới
mặt tâm lí của nhân dân đối với đặc điểm có tính chất dân tộc trong ngôn ngữ...
Đề cương văn hoá Việt Nam (1943) của Đảng Cộng sản Đông Dương
ra đời trong hoàn cảnh đó. Xác định phương châm chung của cuộc đấu tranh
vì một nền văn hoá cách mạng, bản đề cương rất chú ý tới vấn đề ngôn ngữ và
đã đề cao giá trị khoa học, đồng thời rất coi trọng sự giữ gìn bản sắc dân tộc,
cũng như tính nhân dân của tiếng Việt. Công việc nghiên cứu và biên soạn
ngữ pháp tiếng Việt cũng đã được bản đề cương nêu lên thành một nhiệm vụ
quan trọng.
 Từ Cách mạng tháng Tám đến nay
Cách mạng Tháng Tám thành công. Ngày 2 tháng 9 năm 1945, trước
nhân dân Việt Nam và toàn thế giới, Chủ tịch Hồ Chí Minh công bố bản
Tuyên ngôn độc lập. Đó là một văn kiện lịch sử đối với lịch sử của dân tộc
Việt Nam, đối với cả lịch sử của tiếng Việt. Những lời văn sáng sủa, hùng
tráng của bản đại cáo ấy chính thức tuyên bố quyền độc lập, tự do thiêng liêng
của dân tộc Việt Nam, đồng thời chính thức xác định vị trí của tiếng Việt đối
với nước Việt Nam đã tự mình làm chủ vận mệnh của mình.
Từ đó, tiếng Việt đảm nhiệm một vai trò mới.
Chính phủ Việt Nam Dân chủ Cộng hoà, ngay từ khi thành lập, đã
quyết định dùng tiếng Việt ở mọi cấp học, bậc học, ở mọi ngành hoạt động.


10

Trong vai trò này, tiếng Việt tỏ ra dồi dào khả năng. Một trong những ý nghĩa
của các thành tựu văn hoá, khoa học, giáo dục, hơn ba mươi lăm năm qua của
nước Việt Nam, là minh chứng rõ ràng cho những khả năng đó của tiếng Việt.
Trong nghệ thuật, giá trị của tiếng Việt được tiếp tục phát huy. Một đặc
điểm của nền văn học hiện thực xã hội chủ nghĩa hiện nay là chất liệu ngôn
ngữ lấy từ cuộc sống của nhân dân. Đó là một chất liệu rất phong phú vốn

được xây dựng nên từ các nguồn văn học truyền miệng và văn học viết cổ
điển; qua sự nảy nở những tư tưởng và tình cảm cách mạng của nhân dân
trong cuộc sống chiến đấu và lao động, chất liệu đó lại càng phong phú hơn.
Cũng từ khi Cách mạng Tháng Tám thành công, vai trò ngôn ngữ
chung của tiếng Việt đối với các thành phần dân tộc anh em lại càng được đề
cao. Mỗi thành phần dân tộc có ngôn ngữ riêng với vai trò quan trọng của nó
ở mặt sinh hoạt vật chất và tinh thần của nhân dân thuộc thành phần dân tộc
đó. Chính sách của Đảng và Chính phủ là tôn trọng quyền của mỗi thành phần
dân tộc trong việc sử dụng ngôn ngữ riêng của mình, vào tạo điều kiện thuận
lợi cho ngôn ngữ của tất cả các thành phần đều phát triển. Song, tiếng Việt là
ngôn ngữ chung, dùng trong địa hạt giao lưu giữa các thành phần dân tộc, và
đặc biệt, trong sự xây dựng và phát triển nền văn hoá và khoa học-kĩ thuật
chung của khối cộng đồng dân tộc Việt Nam xã hội chủ nghĩa. Sự có mặt
ngày một nhiều của những tác gia thuộc các thành phần dân tộc khác nhau
trên văn đàn nghệ thuật và khoa học của tiếng Việt đang biểu hiện một cách
sâu sắc cho vai trò ngôn ngữ chung của tiếng Việt, và đồng thời cho khối đoàn
kết vững chắc của toàn thể dân tộc Việt Nam.
Ngày nay, trong nước Cộng hoà Xã hội Chủ nghĩa Việt Nam, tiếng Việt
có vị trí đầy vinh dự và vai trò ngày càng quan trọng. Đó là công cụ đấu tranh
của hơn năm mươi triệu người Việt Nam đang tiến hành đồng thời cách mạng


11

về quan hệ sản xuất, cách mạng tư tưởng và văn hoá, cách mạng khoa học-kĩ
thuật, đang xây dựng chủ nghĩa xã hội trên cả nước.
Vị trí và vai trò ấy đặt ra yêu cầu chuẩn hoá nó về mặt chữ viết, từ
vựng, ngữ pháp, và ngữ âm. Chuẩn hoá tiếng Việt là xác định tính chất đúng
đắn và thống nhất của các quy tắc trong ý thức "giữ gìn sự trong sáng của
tiếng Việt", tức là giữ gìn cái bản sắc đẹp đẽ, cái bản lĩnh độc đáo của tiếng

Việt, đồng thời xác nhận những hiện tượng mới nảy sinh trong quá trình phát
triển mạnh mẽ của tiếng Việt, nhằm mục đích nâng cao hiệu lực của nó đối
với "tư duy chính trị, tư duy kinh tế, tư duy nghệ thuật, tư duy khoa học" của
người Việt Nam trong giai đoạn mới của sự nghiệp cách mạng, như đồng chí
Phạm Văn Đồng – Chủ tịch Hội đồng Bộ trưởng – đã phát biểu.
1.1.2. Đặc điểm của tiếng Việt
Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được
phát âm tách rời nhau và được thể hiện bằng một chữ viết. Đặc điểm này thể
hiện rõ rệt ở tất cả các mặt ngữ âm, từ vựng, ngữ pháp.
Đặc điểm ngữ âm: Trong tiếng Việt có một loại đơn vị đặc biệt gọi là
"tiếng". Về mặt ngữ âm, mỗi tiếng là một âm tiết. Hệ thống âm vị tiếng Việt
phong phú và có tính cân đối, tạo ra tiềm năng của ngữ âm tiếng Việt trong
việc thể hiện các đơn vị có nghĩa. Nhiều từ tượng hình, tượng thanh có giá trị
gợi tả đặc sắc. Khi tạo câu, tạo lời, người Việt rất chú ý đến sự hài hoà về ngữ
âm, đến nhạc điệu của câu văn.
Đặc điểm từ vựng: Mỗi tiếng, nói chung, là một yếu tố có nghĩa. Tiếng
là đơn vị cơ sở của hệ thống các đơn vị có nghĩa của tiếng Việt. Từ tiếng,
người ta tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng..., chủ
yếu nhờ phương thức ghép và phương thức láy.
Việc tạo ra các đơn vị từ vựng ở phương thức ghép luôn chịu sự chi
phối của quy luật kết hợp ngữ nghĩa, ví dụ: đất nước, máy bay, nhà lầu xe hơi,


12

nhà tan cửa nát... Hiện nay, đây là phương thức chủ yếu để sản sinh ra các đơn
vị từ vựng. Theo phương thức này, tiếng Việt triệt để sử dụng các yếu tố cấu
tạo từ thuần Việt hay vay mượn từ các ngôn ngữ khác để tạo ra các từ, ngữ
mới, ví dụ: tiếp thị, karaoke, thư điện tử (e-mail), thư thoại (voice mail), phiên
bản (version), xa lộ thông tin, siêu liên kết văn bản, truy cập ngẫu nhiên, v.v.

Việc tạo ra các đơn vị từ vựng ở phương thức láy thì quy luật phối hợp
ngữ âm chi phối chủ yếu việc tạo ra các đơn vị từ vựng, chẳng hạn: chôm
chỉa, chỏng chơ, đỏng đa đỏng đảnh, thơ thẩn, lúng lá lúng liếng, v.v.
Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết (một âm
tiết, một tiếng). Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một
cách dễ dàng đã tạo điều kiện thuận lợi cho sự phát triển vốn từ, vừa phong
phú về số lượng, vừa đa dạng trong hoạt động. Cùng một sự vật, hiện tượng,
một hoạt động hay một đặc trưng, có thể có nhiều từ ngữ khác nhau biểu thị.
Tiềm năng của vốn từ ngữ tiếng Việt được phát huy cao độ trong các phong
cách chức năng ngôn ngữ, đặc biệt là trong phong cách ngôn ngữ nghệ thuật.
Hiện nay, do sự phát triển vượt bậc của khoa học-kĩ thuật, đặc biệt là công
nghệ thông tin, thì tiềm năng đó còn được phát huy mạnh mẽ hơn.
Đặc điểm ngữ pháp: Từ của tiếng Việt không biến đổi hình thái. Đặc
điểm này sẽ chi phối các đặc điểm ngữ pháp khác. Khi từ kết hợp từ thành các
kết cấu như ngữ, câu, tiếng Việt rất coi trọng phương thức trật tự từ và hư từ.
Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để biểu
thị các quan hệ cú pháp. Trong tiếng Việt khi nói "Anh ta lại đến" là khác với
"Lại đến anh ta". Khi các từ cùng loại kết hợp với nhau theo quan hệ chính
phụ thì từ đứng trước giữ vai trò chính, từ đứng sau giữ vai trò phụ. Nhờ trật
tự kết hợp của từ mà "củ cải" khác với "cải củ", "tình cảm" khác với "cảm
tình". Trật tự chủ ngữ đứng trước, vị ngữ đứng sau là trật tự phổ biến của kết
cấu câu tiếng Việt.


13

Phương thức hư từ cũng là phương thức ngữ pháp chủ yếu của tiếng
Việt. Nhờ hư từ mà tổ hợp "anh của em" khác với tổ hợp "anh và em", "anh vì
em". Hư từ cùng với trật tự từ cho phép tiếng Việt tạo ra nhiều câu cùng có
nội dung thông báo cơ bản như nhau nhưng khác nhau về sắc thái biểu cảm.

Ví dụ, so sánh các câu sau đây:
- Ông ấy không uống bia.
- Bia, ông ấy không uống.
- Bia, ông ấy cũng không uống.
Ngoài trật tự từ và hư từ, tiếng Việt còn sử dụng phương thức ngữ điệu.
Ngữ điệu giữ vai trò trong việc biểu hiện quan hệ cú pháp của các yếu tố trong
câu, nhờ đó nhằm đưa ra nội dung muốn thông báo. Trên văn bản, ngữ điệu
thường được biểu hiện bằng dấu câu. Chúng ta thử so sánh 2 câu sau để thấy
sự khác nhau trong nội dung thông báo:
- Đêm hôm qua, sông nước dâng.
- Đêm hôm, qua sông nước dâng.
Qua một số đặc điểm nổi bật mà chúng tôi trình bày ở trên, chúng ta có
thể hình dung được phần nào bản sắc và tiềm năng của tiếng Việt.
1.1.3. Khả năng nắm chính tả tiếng Việt một cách có hệ thống
 Do với từng phương ngữ chỉ có một số lượng âm tiết nhất định là có
vấn đề chính tả, nên muốn nắm chính tả tiếng Việt, không cần phải nắm chính
tả của mỗi từ ngữ như thông thường đối với chữ viết của nhiều ngôn ngữ, mà
chỉ cần nắm chính tả của một số lượng âm tiết cụ thể nhất định, khác nhau đối
với từng phương ngữ. Lấy ví dụ với người nói phương ngữ miền Bắc, có vấn
đề chính tả: viết CH- hay TR-? Có tất cả 575 âm tiết CH-/TR-, trong đó có
343 âm tiết CH- và 232 âm tiết TR- đối lập (nói cách khác, có 181 cặp âm tiết
đối lập CH-/TR-); có 162 trường hợp chỉ có âm tiết CH-, không có âm tiết
TR- đối lập, trong khi chỉ có 51 trường hợp ngược lại, chỉ có âm tiết TR-,


14

không có âm tiết CH- đối lập. Như vậy, âm tiết TR- ít hơn nhiều so với âm
tiết CH-. Nắm chính tả của số ít 232 âm tiết TR- này (chỉ chiếm 40% tổng số
âm tiết CH-/TR-), chú ý đặc biệt 181 trường hợp có cặp âm tiết đối lập CHvà TR-, thì khi cần thiết chúng ta có thể suy ra biết một trường hợp cụ thể nào

đó, vì không viết TR-, nên chỉ có thể viết CH-; sự suy đoán này chỉ có thể
không đúng trong trường hợp hãn hữu nằm ngoài bảng thống kê chúng ta có.
 Trên thực tế, với mỗi người, số lượng âm tiết cần nắm chính tả ít
hơn nhiều, một phần vì do không ít từ ngữ chúng ta thường đọc thấy hoặc
thường phải viết hằng ngày, chính tả đối với chúng ta đã quá quen thuộc, ví
dụ trong những người nói phương ngữ miền Bắc có lẽ không mấy ai phân vân
không biết chanh chua nên viết CHANH CHUA hay "TRANH TRUA", trai
trẻ nên viết TRAI TRẺ hay "CHAI CHẺ"; một phần vì có một số âm tiết-hình
vị hoàn toàn mới lạ đối với chúng ta, được sử dụng trong những từ chúng ta
không hiểu nghĩa, thí dụ trấp (dưỡng trấp), trẩu (đầu trẩu) đối với một số người;
hoặc vì có một số âm tiết-hình vị chỉ dùng trong cấu tạo của những từ phương
ngữ khác, mà bản thân chúng ta (nói phương ngữ miền Bắc) thực tế không biết,
không dùng bao giờ, năm thì mười hoạ mới đọc thấy trên sách báo, ví dụ tràu (cá
tràu = cá quả), trộng (nuốt trộng = nuốt chửng), xuổng (= thuổng), sớn sác (=
nhớn nhác), thì thực tế cũng không cần nắm chính tả. Loại đi ba loại âm tiết nói
trên, mỗi người chúng ta có được một danh sách những âm tiết cụ thể cần nắm
chính tả, danh sách này có bao nhiêu âm tiết là tuỳ theo trình độ hiểu biết tiếng
Việt của mỗi người, nhưng nói chung không nhiều.
 Trong vấn đề chính tả tiếng Việt có vấn đề chính tả các âm tiết HánViệt (sau đây gọi tắt là âm tiết HV), tức là những âm tiết-hình vị trong cấu tạo
từ Hán-Việt đa tiết (sau đây gọi tắt là hình vị HV), cần được đặc biệt chú ý.
Trong tổng số 6.178 âm tiết của tiếng Việt đã thống kê, có 1.536 âm tiết HV,
chiếm một tỉ lệ không lớn (23%). Vì có hiện tượng đồng âm, tương ứng với


15

một âm tiết HV có thể có nhiều hình vị HV (thường viết bằng những chữ Hán
khác nhau), hiện tượng này khá phổ biến, nên tương ứng với 1.536 âm tiết HV
có 2.976 hình vị HV, tạo ra tất cả 12.668 từ ngữ Hán-Việt thường dùng, chỉ
tính những từ ngữ nói chung đã được thu thập trong TĐTV. Hình vị HV phần

lớn không được sử dụng như từ đơn tiết, nghĩa của hình vị HV lắm khi không
thật rõ, nghĩa đã không rõ thì chính tả cũng khó nắm. Nhưng trong tổng số
1.536 âm tiết HV, thì đối với người nói phương ngữ miền Bắc, chẳng hạn, chỉ
có 121 âm tiết HV CH-/TR- + 197 âm tiết HV S-/X- + 73 âm tiết HV D- hoặc
GI (không có âm tiết HV R-) + 53 âm tiết HV -IU hoặc -ƯU, -IÊU hoặc ƯƠU (không kể những âm tiết có phụ âm đầu CH-/TR-, S-/X-, D-/GI-) = 334
âm tiết HV là có vấn đề chính tả. Người nói phương ngữ miền Bắc chỉ cần
nắm chính tả của 334 âm tiết HV này là thực tế nắm được chính tả của trên
12.500 từ ngữ Hán-Việt thường dùng.
 Có những quy tắc chính tả, mà dựa vào đó có thể nắm được tương đối
dễ dàng chính tả một số âm tiết nhất định. Ví dụ, với các âm tiết D-/GI-/R-:
- Trong âm tiết HV, chỉ có âm tiết D- và âm tiết GI-, không có âm tiết R-.
- Hình vị HV d-/gi- có âm chính /a/ phần lớn viết bằng GI-, và ngược
lại, các âm tiết HV GI-, chỉ trừ giới, đều viết những hình vị HC d-/gi- có âm
chính /a/: gia, già, giả, giá, giác, giai, giải, giam, giảm, giám, gian, giản, gián,
giang, giảng, giáng, giao, giảo, giáo, giáp (20 âm tiết); viết D- chỉ có dã, dạ,
dạng, danh, dao.
- Hình vị HV d-/gi- có âm chính là những nguyên âm khác, không phải
là /a/ đều viết D-: dâm, dân, dần, dẫn, dật, di, dĩ, dị, dịch, diêm, diễm, diệm,
diên, diễn, diện, diệp, diệt, diêu, diệu, dinh, dĩnh, do, doanh, dõng, du, dụ,
dục, duệ, dung, dũng, dụng, duy, duyên, duyệt, dư, dực, dược, dương, dưỡng
(40 âm tiết); viết GI- chỉ có giới – một trường hợp ngoại lệ hoàn toàn có lí do.


16

Như vậy, nắm hai quy tắc b) và c) trên đây, đồng thời nắm chính tả của
giới, dã, dạ, dạng, danh, dao, chú ý phân biệt DAO và GIAO, trường hợp duy nhất
có âm tiết D- và âm tiết GI- đối lập, là thực tế nắm được chính tả của toàn bộ 66
âm tiết HV D-/GI-. Cũng có thể chú ý thêm là hình vị HV d-/gi- thanh hỏi và
thanh sắc đều viết bằng GI-, thanh ngã và thanh nặng đều viết bằng D-, cho nên

giả, giá, giáng viết với GI-, trong khi dã, dạ, dạng viết với D-.
- Từ tượng thanh, tượng hình hầu hết là âm tiết (không phải HV) r-: ra
rả, rầm rập, róc rách, rộn rịp, rời rạc, rù rờ, rũ rượi, v.v...
 Dựa trên những nhận xét trên đây, có thể rút ra mấy kết luận có ý
nghĩa thực tiễn:
- Chính tả tiếng Việt có thể nắm một cách có hệ thống với một phương
pháp thích hợp, điều này có thể thực hiện trong một thời gian tương đối ngắn.
Hoàn toàn có thể dạy cho học sinh viết đúng chính tả khi học xong cấp trung
học cơ sở.
- Dạy và học tiếng Việt, trong điều kiện có thể, nên dạy và học lối phát
âm phản ánh trên chữ viết, điều này giúp rất nhiều cho việc nắm chính tả.
1.2. Trình bày về lịch sử của nhận dạng chữ viết tay
Ngày nay khoa học công nghệ phát triển mạnh cũng không ngoài mục
đích khác là để đáp ứng nhu cầu ngày càng cao của con người. Mỗi quốc gia
đều phải có ít nhất một ngôn ngữ, chữ viết để giao tiếp, từ năm 1922 khái
niệm nhận dạng chữ đã được hình thành cho đến năm 1950, khi máy tính lần
đầu tiên được giới thiệu tính năng mới về nhập và lưu trữ dữ liệu hai chiều
bằng cây bút viết trên một tấm bảng cảm ứng. Công nghệ mới này cho phép
các nhà nghiên cứu làm việc trên các bài toán nhận dạng chữ viết tay online.
Mô hình nhận dạng chữ viết được đề xuất từ năm 1951 do phát minh của
M.Sheppard được gọi là GISMO, một robot đọc-viết. Năm 1954, máy nhận
dạng chữ đầu tiên đã được phát triển bởi J.Rainbow dùng để đọc chữ in hoa


17

nhưng rất chậm. Năm 1967, Công ty IBM đã thương mại hóa hệ thống nhận
dạng chữ. Từ năm 1980-1990, với sự phát triển của các thiết bị phần cứng
máy tính và các thiết bị thu nhận dữ liệu, các phương pháp luận nhận dạng
được phát triển trong giai đoạn trước đã có được môi trường lý tưởng để triển

khai các ứng dụng nhận dạng chữ. Các hướng tiếp cận theo cấu trúc và đối
sánh được áp dụng trong nhiều hệ thống nhận dạng chữ. Từ 1990 đến nay,
các kỹ thuật nhận dạng kết hợp với các phương pháp luận trong lĩnh vực học
máy (Machine Learning) được áp dụng rất hiệu quả, một số công cụ học máy
hiệu quả như mạng Nơ ron, mô hình Markov ẩn và SVM (Support
Vector Machines)…
Chữ dính viết tay
Một cơ sở dữ liệu chữ viết tay được gọi là chữ dính của một hat nhiều
chữ cái nếu như nó là thành phần liên thông:
- Nếu bỏ đi một số điểm thì sẽ được các chữ cái.
- Có chung một số pixel

Hình 1.1: Chữ dính viết tay
1.3. Giới thiệu các hướng tiếp cận trong việc nhận dạng chữ viết
1.3.1. Nhận dạng chữ in
Phục vụ cho công việc tự động hóa đọc tài liệu, tăng tốc độ và chất


×