Tải bản đầy đủ (.pdf) (70 trang)

Nhận dạng tiếng Việt trên các thiết bị cầm tay (Báo cáo tổng hợp đề tài nghiên cứu khoa học cấp Đại học Quốc gia do Trường Đại học Công nghệ quản lý

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (20.4 MB, 70 trang )

ĐẠI HỌC QUÓC GIA HÀ NỘI
NHẶN DẠNG TIÉNG VIỆT TRÊN CÁC THIẾT BỊ CẦM TAY
( Báo cáo tổng hợp đề tài nghiên cứ',1 khoa học cấp Đại học OUOC oi.a
do Trường Đại học Công nghệ quản lý )
Mã sổ: ỌC.06.02
Chủ nhiệm đề tài: PGS. TS. 1 lồ Sĩ Đàm
ĐAI HOC QUỐC GIA HÀ NỘI
TRUNG I AM thong tin thư viện
OOOỐOOOOO V
l
H à N ộ i - 2 0 0 6
MỤC LỤC
Danh sách những nguòi tham gia đề tài 1
Danh mục bảng biểu, hình vẽ 2
Tóm tất kết quà nghiên cứu chính của đề tài 3
Tóm tắt kết quả nghiên cứu chinh của đề tài (tiếng A nh)

4
Báo cảo tổng họp 5
1 Giới thiệu 5
2 Hệ thống nhập dữ liệu cùa các Thiết bị số hỗ trợ cá nhân

7
3 Thể hiện Cosin cùa dữ Ịịệu chừ viết tay trực tuyển 9
3.1 Thẻ hiện cosin của một nét trong dữ liệu viết tay trực tuyển

9
3.2 Thề hiện cosin của nhiều nét 11
4 Hệ thống nhận dạng 14
5 Thực nghiệm và kết quà ] 5
6 Kết luận 17


Phụ lụ c 21
DANH SÁCH NHỮNG NGƯỜI THAM GIA ĐỀ TÀI
STT
Họ tên
Học hàm, hục vị, nơi công tác
1
Hô Sĩ Đàm
PGS.TS.
Khoa CNTT - ĐH Công Nghệ
2
Bùi Thê Duy
TS. Khoa CNTT - DH Công Nghệ
■5
Nguyên Việt Hà
TS.
Khoa CNTT - ĐH Công Nghệ
4 Đào Minh Thư
ThS.
Khoa CNTT -• ĐH Công Nghệ
5
Ma Thị Châu
Th.s.
Khoa CNTT - ĐH Công Nghệ
6 Nguyên Thị Nhật Thanh
Th.s.
Khoa CNTT - ĐH Công Nghệ
7
Lê Thi Hơi I NCS.

.

i

.
.

Khoa CNTT - DH Cône Nuhê
DANH MỤC BẢNG BIÊU, HÌNH VẼ
[ linh 1. Nét vẽ gốc của chừ số 0 với 49 điểm lấy mẫu (trái) và nét xấp xi thu dược
bởi quá trình biến đồi DCT ngược 16 điểm từ hiểu diễn cosin của nó (phải).
Biển diễn cosin của nét vẽ gốc được chỉ ra ở bảng phía dưới
11
Hình 2. Mai nét bút gốc cùa ký tự 4 với 34 và 16 điểm lấy mẫu (trái) và nét bút xấp
xi thu được bởi quá trinh bicn đổi DCT ngược 16 điểm từ biểu điền cosin cùa
chúng (phái). Biển diễn cosin cùa nét vẽ tiổc dược chi ra ở bảng phía dưới 13
Hình 3. Chừ “à” với 2 nét bút (trái) và hai nét bút xấp xi thu dược bởi quá trình
biến dổi DCT ngược 64 đicm từ biểu diễn cosin của chúng (phủi)

14
Minh 4. I lệ thống nhận cỉạng gồm n-bộ phân biệt, mồi hộ phân biệt cho một ký tự 14
Mình 5. Mỗi bộ phân biệt là một mạng Perception da tầng 15
Hình 6. Một sổ mầu nhận sai bởi hộ thống cùa chúng tỏi. Từ trái sang phái: Mầu của
số 5, 0 và 8 được nhận thanh 3, 2 và 0 16
Bảng I. Kèt quà nhận dạng trên tập kiểm tra (5317 mẫu) chửa một phần ba cúa
phần la (chữsố rời rạc) cùa tập dữ liệu Unipen 16
2
BÁO CÁO TỐNG HỢP
1 Giới thiệu
Khái niệm các Thiết bị sổ hỗ trợ cá nhân (Personal Digital Assistants - PDAs), hay
các thiêt bị cầm tay. bat đâu xuất hiện từ những năm 1970, và thuật ngữ này ngày
câng trớ nên phò biên trong lĩnh vực công nghệ. Đen nay, sau hơn 3 thập kỷ, công

nuhộ cho PDA đã phát triển rất cao về tốc độ, đồ hoạ, diao diện sứ dụng, các công
nghệ ket noi, .v.v. và PDA đã trờ thành một thiết bị mạnh có khả năng ứng dụng
ngày càng lớn và rộng rãi.
PDA được phát triển dựa trên V tướng “tối da hoá việc hồ trợ tính toán và tối thiểu
hoá không gian”. Cho đến nay PDA vẫn lủ loại máy tính nhỏ nhát trên thế giới.
PDA là mội lliiếl bị kỳ thuật số có kích thước thiết kế cỡ khoảng bàn lay, có thể
hoại dộng một cách dộc lập mà không cần đến phích cắm diện hay thiết bị phụ trợ
nguồn điện vật lý cồng kềnh. Kích thước màn hình không lớn, sổ lượng phím cứng
ít và tài nguyên không dược dồi dào nhu máy tính để bàn hay máy tính xách tay.
loé nhập dữ liệu vào các Thiết bị số hồ trợ cá nhàn, bên cạnh các sứ dụng bàn phím
ào trên màn hình, ihi cách tự nhiên bàng chữ viết tay vẫn được ưu chuộng hơn. Chữ
viết tay là cách thức nhập dừ liệu hiệu quà nhất bởi vỉ các Thiết bị so hỗ trợ cá nhân
quá nhỏ đê có thể chứa cá bàn phím với tất cả các kí tự. Một ví dự khác là sẽ dễ
dàng hơn nhiều khi nhập dữ liệu bàng chữ viết tay trong một sổ ngôn ngữ mà có rât
nhiều kí tự như tiếng Trung Quốc, Nhật Bản, A-rập, Trong những trường hợp
này, sử dụna, bàn phím còn phức tạp hơn rất nhiều.
Tuy nhiên, nhân dạng chữ viết tay không phải là một công việc đơn giản với máy
tính. Rât nhiều loại vấn de trono nhận đạnạ, chữ viết tay được đira ra cho cộng đông
nghiên cứu dựa trên hình thức dừ liệu được biểu diễn như thế nào trong hệ thong
nhận dạng, hay việc nhận dạna có phụ thuộc vào người viết không. Thay vi cô găng
giải quyết tất cà các vấn dề, một hệ thống nhận dạng chữ viết tay thường tập trung
vào một tập con cùa tập các kí tự [6, 16, i 7],
Dựa vào sự biêu diễn cua dữ liệu, nhận dạng chữ viết lay chia làm hai loại: trực
tuyến (online) và ngoại tuyến (offline) [15]. Dữ liệu nhận dạng ngoại tuyến là dừ
liệu ckrợc thê hiện dưới dạng các điếm ảnh dược chiếu chụp hay quét từ văn bản.
Ngược lại, dữ liệu nhận dạng trực tiếp là một số các nét hút mà chúng được ghi lại
khi đang viết với một thiết bị riêng biệt nào đó như màn hình cảm ứng cùa các thiết
bị cầm tay. Mồi nét bút một dãy các diêm được lấy mẫu và lưu lại cách nhau các
khoảng thời gian hang nhau. Những nét bút cùa dữ liệu viết tay trực tuyến dược có
thê dược sứ dụng dể xây dựng dừ liệu của ảnh được dùng trong nhận dạng chữ viếi

lay ngoại tuyến f 171. Tuy nhiên, điểm thuận lợi chính cùa dữ liệu trực tuyên là biết
đươc nhữnu nét bút và thứ tự viết thay vi chi biết các điếm ảnh như trong dữ liệu
ngoại tuycn. Nêu tận dụng dưực thông tin này có thể đạt được ti lệ nhận dạng đúng
cao hơn [2,3,111.
Một hướng tiếp cận tận dụng các nét bút là sứ dụng biếu diễn hình học rnừ (fuzzy
ueometric) cho nhận dạng các kí tự dơn Ic [9,12]. Sự biểu diễn dó dạt được nhờ sự
phân tích nét bút được xấp xi bởi một dãy các cung tròn, như dược miêu lả (rong
[10|. Sự biểu diễn này được dưa ra bởi Gagne và Pari/eau với thuật toán lập trình
tiên hóa (Genetic Programming) để thu được kết quà nhận dạng cao [6]. Một cách
tiếp cận khác là sừ dụng biến đổi thông tin dộng cùa dữ liệu viết tay thành một tập
íỉiển hình cùa những đặc trưng độc lập tương hồ nhau. Polyakov và Ryleev 113] đã
kết hợp hiếu diễn Cosin (Cosine Descriptors) với sự tham số hỏa biến đổi lặp lại dể
Cling cấp một cách biêu diễn hiệu quá đối một nét bút đơn cùa dữ liệu chữ viêl tay
bang một vector gồm các đặc trưng cùa nó. Biểu diễu này được gọi là biêu diễn
cosin thu gọn (Optimized Cosine Descriptor), thể hiện một tập các đặc trưng hữu
hiệu cho việc nhận dạng. Tuy nhicn, một số ki tự trên thực tế không được viết bời
một nét mà banụ nhiêu nét. Hơn nữa một nét không đù dể nhận biết một ki lự. Và
người ta đã cố gang nhận dạng một kí tự thông qua một nét bằng nối các net dược
nhận dạng đó thành kí tự hoàn chinh [4, 5], Đây là không phái một hirớnạ, tiếp cận
hiệu quá khi những lồi nhận dạng xual hiện hai lần hay tích tụ.
6
Trong đê tài nàv, chúng tôi mờ rộng phương pháp được đưa ra trona, [13] dê biểu
diễn nhiêu nét cùa một kí tự thông qua một tập tính chất đặc trưng bang biến dồi
cosin. Sử dụng biêu diễn này, chúng tôi đã phát triên một hệ thống nhận dạng kí tự
trực tuyến dộc lập với người viết với các bộ phân biệt sử dụng mạng Nơ-ron da tầng
(MuhiLayer Perception classifiers), mỗi bộ phân biệt cho một kí tự. Chúng tôi dã
thủ nghiệm hệ thống trên một số tập dừ liệu, trong đó có tập dữ liệu Unipen và đã
dạt được kết qua rất đáng chú ý so với các phương pháp khác. Ngoài ra chúng tôi
cũng tiến hành thừ nghiệm với dữ liệu tieng Việt nhò và đạt được kết quà tương đối
kha quan.

Nội dung chính cùa báo cáo đề tài được bố trí như sau: Phần 2 trinh bày vổ hệ thôim
nhập dữ liệu của các thiết bị cẩm tay. Phần 3 miêu lã cách thức thu ctưực biểu diễn
cosin cùa một dữ liệu thô của chừ viết tay trực luyến. Sau đỏ, chúng tôi miêu tả hệ
tliốns nhận dạng 0 Phần 4. Một số thử nghiệm và kết quà được nói đen trong Phân
5.
2 Hệ thống nhập dữ liệu của các Thiết bị số hỗ trợ cá
nhản
Việc nhập dữ liệu là một vấn đề đối với Thiết bị số hỗ trợ cá nhàn bởi kích thước
cùa chúng không đủ lớn đẻ thiết kế gắn kèm máy nhữnạ, hệ thống nhập dử liệu dạng
bàn phím hay con chuột máy lính. Thay vào dó, người ta thường sử dụng phương
thức nhập dừ liệu trực tiếp trên màn hình cám ứng hoặc lừ một sỏ phím cứng được
thiết kế sẵn trên máy.
1 lầu hếi các Thiết bị số hỗ trợ cá nhân sir dụng màn hình tinh the lònu (LCD). Màn
hình này dược cấu thành bởi 3 lớp. I.ứp trên cùng thường là lớp kính với một lớp
bao phú dặc biệt bôn dưới. Lớp kính này thực sự là một phẩn cùa màn hình khi ta
chạm vào. Dưới lớp kính này là mánh kính đặc. chuyên biệt, không dẫn điện. Lớp
cuối cùng là lớp uron« tự như lớp đầu licn. Mỗi khi màn hình dược nhàn, lớp kính
di chuyển xuyên qua lóp không dẫn điện và tiếp xúc với lớp dưới cùiìỉi. Dây là
7
nguyên nhân cùa các trường diện lừ đã dược tạo ra giữa các lớp kinh bị ngắt quãng
trong một khoảng thời gian rất ngan. Điểm này dược chương trình điểu khiển nhận
biết và quyết định vị trí nào trên màn hình đã được nhấn, từ đó gửi các thông tin cho
hộ diều hành xử lý. Các thông tin này tương tự như thông lin vị tri cùa chuột khi
dang di chuyên. Lưu trữ các thông tin sẽ tạo ra các nét bút trong dữ liệu viết lay trực
luyến đế phục vụ cho công việc nhận dạng.
Các thiết bị số hỗ trợ cá nhân thường có số lượng giới hạn các phím cứng trên máy.
Các phím cứng này tỏ ra rất hữu dụng dối với một số chương trình cân kích (hước
màn hình tối da. khi mà sự hiển thị cùa bàn phím mềm trên màn hình sẽ làm khuât
một số dổi tượng cùa chương trinh, hoặc sử dụng các phím này (tê thao tác nhanh
như gợi điện thoại, iruy cập hòm ilnr điện tử, trinh duvệt, chụp tinh hav dóng các

ứng dụng Thực tế, các thiết bị số hồ trợ cá nhân hiện nay thường có 6 phím; 4
phím cửne, đồ kích hoạt các chươnẹ trình thao tác mặc định như: lịch biểu, danh bạ
điện thoại, danh sách công việc (To do list) và bàng ghi nhớ. Hai phim còn lại là
phím cuộn màn hình lèn hoặc xuống.
Trong tươne lai. ngoài sự phát triển của nhập liệu bang chừ viết tay, hệ thônu nhập
dừ liệu thòng qua giọni> sẽ được phát triển cho các thiết bị sỏ hồ trợ cá nhân. Lúc dó
việc nhập dữ liệu ihône qua bíu cảm ứng chưa chắc dã là hình thức nhập liệu thích
hợp nhất. Ngoài ra, đối với một sổ chươne trinh trò chai, sự phát triển joystick
không chi dừng lại cho các máy tính, nó phát triển cho cà các thiếl bị số hồ trợ cá
nhân và kêt nòi với các thiêt bị này thông qua cổng serial.
3 Thể hiện Cosin của dữ liệu chữ viết tay trực tuyến
3.1 Thể hiện cosin của một nét trong dữ liệu viết tay trực
tuyến
Một dicu dã dược biết đen một cách rộng rãi rang việc nhận dạng có che thu dược
hiệu quà với việc sừ dụng chi một tập nhò các đặc trima tương hồ độc lập. Polyakov
và Ryleev [13] dà kết nối biêu diễn cosin (Cosine Descriptors) với sự tham sô hóa
biến đổi lặp lại để dưa ra một cách biều diễn hiệu quà của một nót bíu đơu cùa dữ
liệu chừ viòt tay trực tuyến bằng một vec-tơ là một tập các tính chát đặc trưng. Vec
tor dó được gọi lá một biếu diễn cosin thu gọn (Optimized Cosine Descriptor), the
hiện một lập các tlậc trung rắt hữu dụng trong nhận dạng. Quá trình dó bao gồm hai
bước chính, ờ bước dầu tiên, thổ hiện thô ban dầu (vcc-tơ iliểin) dược biến dồi
thành một tập hệ so với biến đổi Cosin rời rạc (Discrete Cosine Transformation II]).
Ớ bước ihử hai, tập các hệ số đó được xử lý để thu dược sự chuẩn hóa không thay
dôi đôi theo đơn vị do, sự di chuyển, sự xoay vòng, và cà doi với vị trí cùa điếm bắt
đầu khi viết.
Một nét bút cùa dữ liệu chữ viết tay là một dãy các dicm được lay theo thời uian. Sự
chuvên dôi của nét này bất đầu với một tham so khởi nhận dược hăng sụ lây mầu lại
với những diêm mẫu cùa dừ liệu han đầu và theo những khoảng cách bang nhau:
( w . ) (/ = 1 , /V).
Trong đó, diem dâu tiên (.lồng thòi là đính bắt dầu của nét bút, vá diêm thứ N là dinh

kểt thúc của nét nút.
Sau dó, biếu (lien lham so ban dầu này được chuyên dối sang miên tán số xuát hiện
thu được bicu điền Cosine, nó là một tập các hộ sô
■ 9
F« = j j L , K-
I v
Go = - ^ L ny»
= ^ x „ (* n « > s (k tn))
G* = v ^ " (jV '0S(ktJ)
7T . 1
n = 0 , . . . , yv - 1
£ = 0, ,P-1
Những hệ sổ cao hơn của thể hiện Cosine được giảm đi phù hợp với một thứ lự
đưực quyết định trước của phép toán xấp xi. Biến đổi ngược cùa biểu diễn Cosin sẽ
suy ra những điểm của mẫu ban đầu { *,>>}:
= I . C A o s f k t J )
n 1
= — («+_)
" /V 2
/7 = 0

N - 1
it =0

P-\
Nét bút được tính xấp xi sau đó sẽ được tham số hóa lại, chuẩn hóa và áp dụng để
đối với nét bút gốc để thu dược thể hiện có tính tham số tiếp theo, rồi được biến đổi
theo miền tần sổ để thu được biểu điễn cosin kế tiếp. Sự lặp lại cho đến khi phép
xấp xì với dữ liệu gốc đạt được kết quả tốt hoặc đã tiến đến điểm hội tụ. Cuối cùng,
biếu diễn tập cosin dược cắt bỏ dựa theo thứ tự xác định trước của phép xấp xỉ và

trờ thanh đầu vào mô tá dừ liệu ban đầu dùng cho nhận dạng. Hình 1 cho thấy một
10
nét cùa chữ số 0 và xấp xi cùa nó bằng 16 điểm DCT nmrợc của thê hiện cosin cuối
cùng.
1
(}
1 -
' í 4
s
6
'
-Ị
1 Ỉ-<J»
OOíHHhi
||(IÌ7 Ì'Ì >
-0 541 í.X'' ị -íi.an ụiiu 1' 0.05:62 IS II »5s/iVI'
.(MHII 2<i2í\7
j ( i» t 1
0 iHHKKHt
■IMIiỉXIKI
0 M .')><•>?
(1(154.55' -0.155S5I
.(1 d ' 4 1N4
-II OMI'H'X
Hình I. Nét vẻ gốc cù a chữ số 0 với 49 điếm lấy m ẫu ( trá i) và nét xấp xi th u đirụ c l)òi qu á Irìn h biến
đối D C T n gư ợc 16 cliểin lù' b iều diễn cosin của nó (p hả i). Biền diễn cosin c ùa nét vê gốc dirợc chỉ ra ừ
bàn g pltín dư ới.
Cách biểu diễn này được đề xướng bởi Polyakov và Ryleev [13], tuy nhiên, vẫn
chưa thực sự đủ dể dùng cho nhận dạng. Trên thực tế, rất nhiều kí tự được viết bời
nhiều nét. Khi đó, bất ki một nét nào các nét đó cũng không đù đề thê hiện dược kí

tự đó. Hơn thế nữa, nhận dạng mồi nét rồi sau đó toàn bộ kí tự bằng việc sơ khớp
những nét được nhân dạng với những khuôn dạne cho trước có thể không phải là
hướnu tiếp cận hiệu quả khi những lỗi nhận dạng bị tích lũy.
3.2 Thể hiện cosin của nhiều nét
Sau đây, chúng tôi sỗ trình bày plurơny, pháp của chúng tôi để thu được biểu diễn
cosin cùa lất cả các nét bút hợp nhất cùa một kí tự chi trong một tập các thuộc tính
đặc trưng. Thay vì xử lý mỗi một nét bút riêng biệt, chúng tôi cùng một lúc xem xét
tất cả những nét bút của một kí tự theo thứ tự viết như một dãy các điểm. Toàn bộ
dày các điểm bây giờ xử lý giống như miêu tả ờ trên, ngoại trừ một luật được thêm
vào. đó là cà điềm bắt đầu và điểm kết thúc cùa nét bút sẽ đều phái dược giữ lại.
11
Quá trinh xử lý tham số hỏa lại cần được thực hiện theo quy trình sau. Những điểm
dược lây làm mầu cùa những nét trong suốt quá trinh sự tham số hỏa bày giờ sẽ là:
Trong đó, M là số các nét. và:
\ = 0
•V,.I = ‘-Ml với i = 1 M - 1
Điểm (.V,, V,)trùng với điểm bắt đầu của cùa nét thứ i với / = 0
A/-I; và điềm
(.V ,, y t. ) trùng với diêm kết thúc cùa nét thứ i, các điềm ờ giữa vẫn lây theo các
khoảng cách cách đều.
Hỉnh 2 thế hiện một mẫu của chữ số 4 với 2 nét và xấp xi những nét của chúng thu
dược bởi quá trình biến đồi DCT ngược 16 điềm từ biểu diễn cosin của chúng. Khi
nhin vào hình vẽ, những nét bút xấp xì này vẫn thể hiện đúng kí tự đó. Hình 3 thể
hiện một mầu của chữ “ả” với 2 nét và xấp xi cùa những nét cùa chúng thu được bới
quá trình biến đổi DCT ngược 64 điểm từ biểu diễn cosin cùa chúng. Hình nàv cho
chúng ta thấy với chừ tiếng Việt có dấu, chúng ta phải dùng nhiều điểm lấy mẫu
hon dề có thê thê hiện được đúng các dấu ở phía trên các ký tự vi độ dài các dấu này
thường ngắn so với ký tự.
1
1 0 1 2

3
4
5
6
7
F,
OOOOỮO
•0.341623
0 0201457
0 459502
-0 0444733 -0 0984359
-0 0024615
-0.0419637
G,
0.000000
0 457684
-0 0337452
0614717
-0.210409
0.00164553
0 0390867
-0 15498
Hinh 2. Hai n ét bút gốc cùa ký tự 4 với 34 và 16 điềm lấy m ẫu (trái) và nét bút xấp xỉ thu
đư ợc bời quả trinh biến đồi DC T ngư ợc 16 điểm từ biểu diển cosin của chúng (phài). Biển
diển cosin cúa nét vẽ gốc du’O’c chi ra ờ bàng phía dướ i.
13
Hình 3. Chủ “á” vói 2 net bút (trái) và hai n ét bút xếp xỉ thu đưọ'C bới quá trinh biên đổi DCT
ngược 64 điểm tử biểu diền cosin của chú ng (phải).
4 Hệ thống nhận dạng
Hệ thống nhận dạng cùa chúng tôi bao gồm nhiều bộ phân biệt, mỗi bộ phân biệt đế

nhận dạng một kí tự (xem ỉ lình 6). Mồi một bộ phân biệt cùa hệ thống được thiết kế
cho xác định một kí tự bang cách đưa ra kết quả thích hợp cao hơn và loại trừ các kí
tự khác bang cách đưa ra kết quả thấp hơn. Khi một mẫu ký tự được lấy từ các thiết
bị cầm tay hay các thiết bị đặc biệt khác dưới dạng dữ liệu chữ viết tay trực luyến,
dừ liệu này được biến đồi cosin theo cách đã nói ớ trên và sau dó dưa vào các bộ
phân biệt. Mỗi bộ phân biệt sẽ trả về một giá trị tương ứng với mức độ mẫu ký tự
thuộc về bộ phân biệt đó. Ỉ3Ộ phân biệt trà về giá trị lớn nhất sẽ đirợc coi !à nhận
được mầu ký tự đó, và ký tự lương ứng được đưa ra.
Hình 4. Hệ thống Iihận dạng gồm n-bộ phân biệt, mỗi bộ phân biệt cho một ký tự
14
Mỗi bộ phân biệt là một mạng Perceptron đa tầng (Multi-Layer Perceptron
Network) và được huấn luyện với phươno pháp lan truyền ngược (back-
propagation) có momentum (Xem Hình 5). Chúng tôi đã thử xây dựng hệ thống
nhận dạng chi gồm một bộ phân biệt với nhiều nút kết quả nhưng khône, tốt bằng sừ
dụng nhiều bộ phân biệt như trên.
Hình 5. Mỗi bộ phân biệt là một mạng Pcrceptron đa tầng
5 Thực nghiệm và kết quả
Chúng tôi đã tiến hành thực nghiệm với một số dữ liệu trong đó có phần dừ liệu 1 a
(gồm các chữ số) của tập dừ liệu Ưnipen (ưnipen data set [7]). Phần dữ liệu này bao
gồm 15953 mẫu. Đây là dữ liệu khó với nhiều mẫu dữ liệu xấu. Hình 6 chỉ ra một
số dữ liệu xấu mà không được nhận dạng bởi hệ thống. Những mẫu này khó nhận
biết ngay cả đối với con người.
15
H inh 6. M ột số m ẫu nh ận sai hời hệ th ốn g cù a ch ún g tôi. Tù trá i san g phái: M ầu củ a số 5, 0 và 8 duự c
nhậ n th an h 3, 2 vả 0.
Chúng tôi chia ngẫu nhiên tập dữ liệu đó thành ba tập: 1 tập để huyến luyện gồm
7000 mẫu, 1 tập dể thẩm định gồm 3000 mẫu và 1 tập đẻ kiểm tra gồm 5300 mẫu.
Chúng tôi đã huấn luyện mỗi phân biệt với toàn bộ dữ liệu dùng dể huấn luyện, với
mục tiêu đạt đến 0.99 đối những mẫu huấn luyện này cho chữ số cần nhận biết, và
0.01 cho những chừ sổ không cần loại trừ. Giá trị của tỉ lộ học (learning rate) và

momentum được gán cố định bằng 0.1 và 0.2. Chúng tôi cũng sử dụng kỹ thuật
dừng sớm khi thấy kết quả thầm định không tốt hơn.
Sau nhiều lần thực nghiệm, chúng tôi nhận thấy ràng một tang ân gôm 20 na-ron
cho những phân biệt nhiều tầng cho ra kết quà tốt nhất. Đồng thời, hệ thong cho ket
quả tốt nhất đối với bậc cùa DTC là 8 và kích thước lấy mẫu là 16 trong biến đôi
cosin.
Divỉii
Maximum Recognition Rale
((A )
Average Recognition Rale ('/< 1
0
92.23
92.01
1
%.54
%. 14
">
94.73
94.62
ĩ
«>7.20 ‘>7.16
4 *>7.63
‘J7.NI
5
90.49
‘JO. 3 7
6
%.80
%.62
7

‘J7.ni
% .%
s
%.6'J
%.5>
9
93.34
93.: 1
All
%.()]
95.77
Bàng 1. Kết quá nhận tiạng trên tập kiếm tra (5317 mẩu) chứa một phần ba của phân
la (chửsố ròi rạc) của tập dữ liệu Ưnipen.
Bảng 1 tóm tắt kết quả mà chúng tôi đã đạt được. Chúng tôi đạt dược cao nhât với ti
lệ là 96.01%, và ti lệ trung bình là 95.77% cho toàn bộ chữ số. Đây là kết quà rất tốt
16
so với các phương pháp khác, vì vậy nó minh chứng tính hiệu quà cùa biểu diễn
cosin trong nhận dạniĩ chừ viết tay trực tuyến.
Chúng tôi cũng tiến hành lấy mẫu đề thừ nghiệm phươna; pháp của chúng tôi với
một số chừ cái tiếng Việt có dấu. Cụ thế chúng tôi thứ nghiệm với 5 chừ cái “a”,
“á”, “ả”, “â'\ và ‘‘à" và thư được kết quả nhận dạng trung bình là 88%. Đây là kết
quà tương đối tốt khi sổ lượng mẫu để học mà chủng tôi tiến hành lấy chưa nhiều.
Thêm vào, không giống như phân biệt các chữ trong bảng chừ cái tiếng Anh, hay
phân biệt các chừ số, 5 chừ cái tiếng Việt mà chủng tôi thử nghiệm rất giống nhau,
phần khác biệt chỉ ờ các dấu. Bản thân các dấu cũng không khác biệt nhau nhiều,
dặc biệt khi vicí iay. Đe có thể tăng tỉ lệ nhận dạng, trong tương lai, chúng tôi dự
định sẽ tách riêng phần dấu để tiến hành nhận dạng.
6 Kết luận
Đề tài đà tập trung nghiên cứu một số vấn đề như sau:
o Hệ thống hóa những vấn đề lý về nhận dạng chữ viết tay trực tuyến.

o Đưa ra một phươne. pháp biểu diễn của một kí tự viết tay trực tuyến đành
cho các thiết bị cầm tay gồm nhiều nét trong một tập đơn những đặc
trưng bằng, việc sừ dụng biến đôi cosin.
o Phát triển hệ thống nhận dạng chừ viết tay trực tuyến không phụ thuộc
vào người viết với bộ phân biệt nơ-ron đa tầng (MultiLayer Perceptron).
Việc thực hiện đề tài đã thu được một số kết quả:
• Kết quà khoa học: 02 báo cáo khoa học tại các hội nghị quốc tế (trong đó có 1
báo cáo đãn£ tại kỷ yếu xuất bàn bởi IEEE Computer Society).
• Kết quả ứng dụng:
o Bộ công cụ trợ giúp nhận dạng chữ viết tay tiếng Việt trên các thiêt bị
cẩm tay
_
ĐAI HOC QUỐC GIA HẢ NỘI
TRUNG TẦM THONG TIN ỈHƯ VIỆN
0 0 0 6 0 0 0 0 0 4 2 .
• Kẻt quà đào tạo
o 02 cử nhân
Trong tương lai, chúng tôi sẽ tiến hành thu thập dữ liệu chữ viết tay trực tuyến dầy
đù cho tiếng Việt và tiến hành thừ nghiệm và đánh giá. Ngoài ra, chúng tôi cũng sẽ
cố gang thừ biêu diễn cosin với các phươne pháp phân biệt khác như lập trình tiến
hóa (Genetic programming).
18
TÀI LIỆU THAM KHẢO
[I] N. Ahmed. T. Natarajan, and K. R. Rao. Discrete cosine transform. ỈEEE Trans.
Computers, C-23(l). January 1974. [2] p. w. Becker and K. A. Nielsen. Pattern recognition
using dynamic pictorial information. IEEE Transaction in System, Man, Cybernetics, SMC-
2, July 1972.
[3J J. R. Bellegarda, D. Nahamoo, and K. s. Nathan. Automatic handwriting recognition
using both static and dynamic parameters. United States Patent number 5,491,758, February
1996.

[4] S. Connell and A. Jain. Template-based online character recognition. Pattern
Recognition, 34(1), January 2001.
[51 S. D. Connell and A. K. Jain. Learning prototypes for online handwritten digits. In
Proceedings o f the I4lh International Conference on Pattern Recognition-Volume I, 1998.
[6Ị c. Gagne andM. Parizeau. Genetic engineering of hierarchical fuzzy regional
representations for handwritten character recognition. International Journal o f Document
Analysis and Recognition, 8(4):223“231, September 2006.
[7J I. Guyon, L. Schomaker, R. Pỉamondon, M. Liberman, and s. Janet. Unipen project of
on-line data exchange and recognizer benchmarks. In Proceedings o f the 14th International
Conference on Pattern Recognition (ICPR), 1994.
[8] M. Hagan, H. Demuth, and M. Beale. Neural Network Design. PWS Publishing
Company, 1995.
[9j J. F. Hebert, M. Parizeau, and N. Ghazzali. A new fuzzy geometric representation for
on-line isolated character recognition. In Proceedings o f the 14th International Conference
on Pattern Recognition, 1998.
[10] X. Li,M. Parizeau, and R. Plamondon. Segmentation and reconstruction of on-line
handwritten scripts. Pattern Recognition, 31(6), 1998.
[II] E. Mandler, R. Oed, and w. Doster. Experiments in online script recognition. In
Proceedings o f 4th Scandinvian Conference in Image Analysis, June 1985.
[12] M. Parizeau, A. Lemieux, and c. Gagne. Character recognition experiments using
unipen data. In Proceedings o f 6th International Conference on Document Analysis and
Recognition (1CDAR'), 2001.
[13] V. G. Polyakov and M. A. Ryleev. Method and apparatus for representing image data
using polynomial approximation method and iterative transformation-reparametrization
technique. United Stales Patent number 5,473,742, December 1995.
[ 14J c. Suen. Computational Studies o f the Most Frequent Chinese Words and Sounds.
Word Scientific. Singapore, 1986.
19
[15] c. c. Tappert, c. Y. Suen, and T.Wakahara. The state of the art in on-line handwriting
recognition. IEEE Transaction on Pattern Analysis and Machine Intelligence, 12(8), 1990.

116] A. Teredesai and V. Govindaraju. issues in evolving gp based classifiers for a pattern
recognition task. In Congress for Evolutionary Computation 04 (CEC 04), 2004.
[17] A. Teredesai, E. Ratzlaf, J. Subrahmonia, and V. Govindaraju. On-line digit
recognition using off-line features. In Proceedings o f Indian Conference on Computer
Vision, Graphics and Image Processing, 2002.
20
PHỤ LỤC
Đề tài mã số: QC.06.02
Bài báo "Classifying Online Handwriting Characters under Cosine Representation "
Bài báo "Towards building up an m-W ord"
Các lúp cùa công cụ tạo biểu diễn cosin cùa dữ liệu trữ viết tay trực tuyến
Mã cùa công cụ ho trợ nhận dạng viết bang MATLAB
Bìa khoá luận tốt nghiệp của Trần Minh Quăn, Trần Mai Hạnh
Ban sao Hợp đong vù Đe cương nghiên cứu của đề tài QC. 06.02
Phiếu đăng ký kết quả nghiên cửu để tài KHCN QC.06.2I
21
6th International Conference on Advanced Language Processing and Web Information Technology
Proceedings of The 6,h
International Conference
on Advanced Language Processing
and Web Information Technology
Editors
Cheoi Young Ock
Jeong Yong Byun
Yu De Bi
CfMki, t'N'tJCO WiifU tUnuịt
Luoyang, Henan, China
August 22-24, 2007
ALPIT, V o lum e 6, A ug ust 2007
C o m p ute r

SOCIETY
ẠIEEE
Classifying Online Handwriting Characters under Cosine Representation
The Duy Bui
College of Technology
Vietnam National University, Hanoi

Abstract
The na tural way o f handwriting to en ter (laid into com 
p uter is still preferable in many tasks. However, han dw rit
ing c ha racte r recognition is not a trivial task fo r computer.
B ased on th e presentation o f the input, handw riting recog
nition can be divided into two classes: offline and online.
The m ain advanta ge o f online handw ritten data ov er of-
(line (laid is the a vaila bility o f stroke segm entation Olid or
de r o f writing. U tilizing this inform ation rather ilian sia 
lic image Drily can obta in h ig her recognition rale 1111- In
this paper, w e extend the metho d prop osed in II3Ị 1 0 repre
se nt m ultiple strokes o f a character together
III
a single set
o f fe atu re s using cosine transform ation. UsiniỊ this repre
sentation, we have develop ed an online writer-independ ent
cha racter recognition system with M ultiL ayer Perception
(X1LP) classifiers, one classifier f o r each single character.
We have teste d o ur system on Section la (isola ted digits} o f
the U nipen da ta set / 7 I and have ob ta ined very competitive
results.
1. Introduction
In orde r to enter data into com puter, besid es the way of

usin g the keyboard, ill many tasks, the natural way o f hand-
V, ruing is still preferable. For exam ple, handw riting is prob 
ably the m ost effective data entry method for Personal Dig
ital A ssistan ts (PDA s) because their small size would noi
allow full sized keyboards o r even noi any keyboard at all.
A nother exam ple is entering data in som e natural languages
contain in g a very large num ber o f sym bols like C hinese (3
500 0 ch aracters) [ 14 1, Kanji and A rabic. Keyboard eniry in
(his case is even a m ore difficult task.
N ev ertheless, h andw riting ch aracter recognition is not
a trivial task for computer. M any types o f prob lem s with
within hand writing recognition are posed to the research
com m unity bused on how the data is presented to Ihe recog
nition system , w hether (he recognition is w riter-dependent
or writer-ind ependent, and so on. Instead o f trying 10 solve
all the problem s, a sm art han dw riting recognition system
w ould focus on a subset of them (6, 16, 17Ị.
Based on the presen tation of (he input, handw riting
recognition can be divided into Iwo classes: offline and on 
line [15]. The input in offline handw riting recognition is
in tile form of scanned im age of (he paper docum ent while
the input in online handw riting recognition is a num ber of
strokes which are captured as being wrilten with special
equipm ent such as digitizing tablet. Each stroke is a se
quence o f sam pling points at equally spaced time intervals.
The strokes o f online hand writin g data can be used to build
an input o f scanned im age (hat can be used with offline
recognition techniques, e.g. I ! 7], H owever, the main advan
tage of online handwritten data over offline data is the avail
ability of stroke segm entation and order o f writing. Utiliz

ing this inform ation rather than static im age only can obtain
higher recognition rale [2, 3, 1 11.
An approach o f utilizing stroke segm entation is to use
fuzzy geom etric representation for online isolated character
recognition [9, 12], T he representation is obtained with a
stroke decom position approxim ated by a sequence o f circu 
lar arcs, as described in [10). The representation is then im
proved by G agne and Parizeau with Genetic Program m ing
to obtain higher recognition rate Ị6Ị. A nother approach is
to transform the dynam ic inform ation of o nline handw riting
data into a representative set of m utually independent fea
tures. Polyakov and Ryleev [ 13 1 have com bin ed Cosine De
scriptors with iterative transform ation reparam eterization 10
provid e an efficient way o f representing a single stroke o f
online handw ritten data by a vector of just a sm all num ber
o f features. The vector is called Optim ized C osine D escrip
tor (O CD ), which represents one type o f feature set usable
for recognition. T his representation, how ever, is not co m 
pletely ready for recognition. Many characters are actually
not written in a single stroke but in several ones. O nly one
stroke am ong several strokes of a character is not enough
to recognize (he character. O ne can try to recognize each
stroke by supervised or unsupervised learning then to recog
nize each ch aracter by matching the recognized strokes with
different possible com bin ations o f strokes m aking up that
i 1 0
1
2
3
4

5 6 7
F(i) ] 0.0 000 0
0.465586
0.0373233 -0.541683 -0.00903413
0.0526218
-0.0586912 -0.00120267
G(i> 0.000000
-0.0338181 0.669567
0.054353
-0.155851
-0.034184
-0.0631968
0.0157974
Figure 1. The o riginal stroke of the digit 0 with 49 sa mpling poin ts(left) and its ap proxim ate stroke
by 16 -point inverse D CT of the final Co sine representation (right). Th e final C osine represe ntation of
the orig in al stroke is presen te d in the table below .
ch aracter [4, 5]. T his is not an effective approach as recog
nition errors appear iw ice and cum ulatively.
In this paper, we extend the m ethod proposed in [13]
to represent m ultiple strokes o f a ch aracter togeth er in a
single set o f features using cosine transform ation. Using
this representation, we have developed an online writer-
independent chara cter recognition system w ith M uliiLayer
Perception ( M U ’) classifiers, one classifier for each single
character. We have tested ou r system on Section la (iso
lated digits) o f the U nipen data set |7] and have obtained
very com petitiv e results.
The rest o f the paper is siructurcd us follow s. Sec
tion 2 describes how to obtain cosine representation o f o n
line han dw ritten data. We then present our recognition sy s

tem in Section 3. Som e experim ents and results are pre
sented in Section 4.
2 Cosine Representation of Online Hand
written Data
It is w ide know n that recognition in general can be
achieved effectively with the use o f a sm all rep resenta
tive set o f m utually independent features. Polyakov and
Ryleev [13] have com bined Cosine D escriptors w ith iter
ative transform ation reparam eterization to provide an effi
cient wav o f representing a single stroke o f online han d
written data by a vector of ju st a small number of features.
The vector is called O ptim ized C osine D escriptor (O CD ),
which rep resents one lype o f feature set usable for recog
nition. The process consists of tw o m ain steps. At the
first step, the raw representation of handw ritten characters
is converted into a set o f C osine coefficients (O CD s) with
Discrete C osine T ransform ation [ I ]. A( the second step, the
set of OCD is processed 10 obtain invariance 10 scale, trans
lation and rotation of the object, and to position of the point
used to start the tracing.
A single stroke of online handw ritten data is a sequence
o f tim e-sam pling points. T he transform ation o f this stroke
starts with an initial param eterization which is obtained by
re-sam plin g the stroke wilh a fixed num ber o f sam pling
points and equivalent distances:
( x ,,y .) i - ỉ

N
where the first point coincides with the starting vertex o f the
stroke, and the N-th point co incides wilh the ending vertex

o f the stroke.
The initial param etric representation is then transform ed
into the frequency dom ain to obtain an initial Cosine repre
sentation. which is a set o f cosinc coefficients (F it.c * ):
Fo = ( i / A ') E „ (* «).
Fk = (2 / N ) E n
( *»
cos(ktu)),
Go = ( l / . V ) £ „ (»n).
Gk
= (2
m
E„
{VnCos(ktn)Y

×