Tải bản đầy đủ (.pdf) (2 trang)

041_Nghiên cứu và ứng dụng mạng Neutron trong nhận dạng chữ viết tay tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (311.85 KB, 2 trang )

- 8 -
NGHIÊN CỨU VÀ ỨNG DỤNG MẠNG NEUTRON TRONG NHẬN DẠNG
CHỮ VIẾT TAY TIẾNG VIỆT

Nguyễn Thị Minh Ánh
MSV: 0121792
Email:


Cán bộ hướng dẫn: TS. Nguyễn Việt Hà
1. Giới thiệu
Nhận dạng chữ viết tay tiếng Việt là một bài
toán khó và cho tới nay chưa có một lời giải
trọn vẹn nào. Trong bài toán này, chúng ta
không những phải đương đầu với những khó
khăn chung của chữ viết tay mà còn phải giải
quyết những khó khăn riêng đặc thù của tiếng
Việt, đó là: số lượng kí tự rất lớn do hệ thống
dấu tiếng Việt đem lại và việ
c hình thành nhiều
nhóm kí tự rất giống nhau, khó phân biệt. Để
khắc phục những khó khăn này, em đề xuất giải
pháp: chia tập hợp kí tự tiếng Việt thành nhiều
nhóm và xây dựng mô hình đa mạng neuron
tương ứng để nhận dạng.
2. Tổng quan về mạng neuron
Mạng neuron (neural network) là mạng các
phần tử (neuron) kết nối với nhau thông qua
các liên kết (trọng số liên kết) để thực hiện một
công việc cụ thể nào đó.
Để mạng thực hiện được nhiệm vụ này


chúng ta cần huấn luyện nó bằng cách hiệu
chỉnh bộ tham số mạng (trọng số liên kết và
ngưỡng tại mỗi neuron) trong quá trình mạng
học sao cho phù hợ
p với yêu cầu của bài toán.
Mạng neuron được ứng dụng nhiều trong
các bài toán phân loại mẫu (điển hình là nhận
dạng) bởi ưu điểm nổi trội của nó là dễ cài đặt
cùng với khả năng học và tổng quát hoá rất cao.
3. Phân nhóm kí tự
Việc phân nhóm kí tự có thể dựa trên trực
quan: những kí tự nào mà mắt thường dễ nhầm
lẫn, khó phân biệt thì cho vào cùng một nhóm.
Tuy nhiên, nếu làm như vậy, vô tình chúng ta
đã áp đặt mạng neuron phải phân biệt theo cách
nhìn nhận của con người. Cho nên tốt nhất là để
mạng neuron tự thực hiện công việc này. Ý
tưởng phân nhóm này có thể thực hiện được
theo phương pháp sau:
• Dùng một mạng neuron để nhận dạng tất cả

các kí tự.
• Trong quá trình huấn luyện và test mạng,
ghi lại số lần mạng phân biệt nhầm từng cặp
hai kí tự với nhau.
• Nếu số lần nhầm lẫn lớn hơn một ngưỡng
nào đó thì xếp hai kí tự này vào cùng một
nhóm.
• Sau khi phân nhóm lần thứ nhất, chúng ta
có thể tiếp tục chia nhỏ hơn đối với những

nhóm có số lượng phần tử lớ
n bằng cách
lấy một ngưỡng khác (lớn hơn ngưỡng ở lần
phân nhóm trước).
4. Mô hình đa mạng neuron áp dụng cho
bài toán
Cấu trúc của hệ thống đa mạng neuron
được xác định dựa trên cấu trúc của bảng phân
nhóm kí tự. Mỗi mạng neuron tương ứng với
một nhóm có nhiều hơn một kí tự. Hệ thống đa
mạng gồm một vài lớp mạng, mỗi lớp lại có thể
gồm nhiều mạng. Trong đó, lớp thứ nhất có duy
nhất một mạng, mạng này có nhiệm v
ụ phân
loại kí tự đầu vào về một trong các nhóm tương
ứng. Ứng với mỗi nhóm kí tự có nhiều hơn một
phần tử ở lớp thứ nhất là một mạng neuron ở
lớp mạng thứ hai. Tương tự như vậy, chúng ta
xác định được các mạng neuron ở lớp thứ ba,…
cho đến khi không còn nhóm kí tự nào có nhiều
hơn một phần tử. Như vậy một cách đệ
quy
chúng ta có thể xây dựng được hệ thống đa
mạng tương ứng với một phân nhóm kí tự cho
trước.
Hệ thống đa mạng làm việc theo quy trình
nhận dạng
sau: Ảnh của kí tự (đầu vào) được
đưa qua mạng neuron ở lớp đầu tiên. Mạng này
sẽ thực hiện việc phân loại (lan truyền xuôi tín

hiệu đầu vào lần lượt qua các lớp neuron của
mạng) để xác
định xem đầu vào thuộc nhóm kí
tự con nào. Nếu nhóm này chỉ gồm một kí tự
thì kết thúc việc nhận dạng và trả kết quả (là kí
tự đó) ra đầu ra. Ngược lại, nếu nhóm này có
nhiều hơn một kí tự thì mạng neuron ứng với
nhóm kí tự đó sẽ được kích hoạt. Nhiệm vụ của
mạng này tương tự như mạng trước và quá trình
tiếp tục cho tới khi nhận
được kết quả ở đầu ra.
- 9 -
Việc
huấn luyện hệ thống
có thể thực hiện
theo hai phương pháp là huấn luyện tuần tự
(huấn luyện theo lô) và huấn luyện song song.
Huấn luyện tuần tự: sau khi có bảng phân
nhóm kí tự, xây dựng hệ thống đa mạng tương
ứng với sự phân nhóm đó. Với mỗi mẫu trong
tập mẫu học, dạy mạng thứ nhất sao cho nó
phân loại đúng mẫ
u đấy. Sau đó huấn luyện
mạng tương ứng ở lớp mạng thứ hai để nó cũng
phân loại đúng mẫu này. Tiếp tục như vậy với
tất cả các mạng liên quan tới mẫu đầu vào cho
tới khi ta nhận được kết quả mong muốn ở đầu
ra.
Huấn luyện song song: sau khi có bảng
phân nhóm kí tự, tiến hành cài đặt và huấn

luyện song song các mạng đơn ứ
ng với từng
nhóm để mạng phân loại đúng các kí tự thuộc
nhóm này. Sau khi huấn luyện xong các mạng
(thu được bộ tham số phù hợp cho từng mạng),
ta cần ghép các mạng lại theo đúng cấu trúc của
phân nhóm kí tự để có hệ thống đa mạng cuối
cùng. Đây là hệ thống đã được huấn luyện.
Nhận xét: với phương pháp huấn luyện theo
lô, tuy thời gian tiến hành có lâu hơn như
ng
chúng ta không cần phải chọn ra những tập mẫu
học riêng cho từng mạng và cũng không phải
ghép các mạng lại sau khi huấn luyện. Hơn thế
nữa, khi có mẫu kí tự mới, việc học mẫu mới
này sẽ đơn giản hơn so với phương pháp huấn
luyện song song. Do đó, khi cài đặt hệ thống
thực nghiệm, em chọn phương pháp huấn luyện
theo lô.
5. Thực nghiệm
Do chưa có cơ sở dữ liệu kí tự viết tay tiếng
Việt chuẩn nào nên cùng với việc xây dựng hệ
thống thực nghiệm, chúng em đã tiến hành thu
thập cơ sở dữ liệu theo các tiêu chuẩn sau (đây
cũng chính là phạm vi của bài toán mà chúng
em đang giải quyết):
• Kiểu chữ “đứng” theo nghĩa không quá
nghiêng về bên trái hoặc phải.
• Chữ viết không thiếu hoặc thừa nét, dấu
được đặt chuẩn theo quy định của tiếng

Việt.
Thực nghiệm đầu tiên là phân nhóm kí tự
theo phương pháp được nêu trong mục 3 để đề
xuất một vài bảng phân nhóm kí tự ở các lần
học khác nhau của mạng neuron. Sau đó xây
dựng hệ thống đa mạng tương ứng với các bảng
phân nhóm kí tự này và tiến hành thực nghiệm
để tìm ra phân nhóm tốt nhất (theo nghĩa: tỷ lệ
nhận dạ
ng đúng của hệ thống đa mạng tương
ứng là cao nhất). Bảng dưới đây cho thấy tỷ lệ
nhận dạng đúng khi không phân nhóm kí tự (1)
và khi có phân nhóm kí tự (2) trong thực
nghiệm với 10.000 mẫu ở tập mẫu học và 5.000
mẫu ở tập thử nghiệm.
Hệ nhận dạng % train đúng % test đúng
(1) 80.47 76.40
(2) 96.42
91.62
Kết quả ở bảng trên chứng tỏ giải pháp mà
em đề xuất là giải pháp hiệu quả đối với bài
toán nhận dạng chữ viết tay tiếng Việt (91.62%
là rất lớn so với 76.40%). Ngoài ra, sau khi lựa
chọn phương pháp trích chọn đặc trưng phù
hợp cho từng nhóm kí tự, tỷ lệ nhận dạng đúng
của hệ thống tăng từ 91.62% lên tới 95.20%
(đây là giải pháp nhằm nâng cao hi
ệu quả nhận
dạng của hệ thống đa mạng do một thành viên
khác trong nhóm đề xuất khi chúng em thực

hiện đề tài chung Nhận dạng đoạn văn bản viết
tay tiếng Việt nét liền).
Bên cạnh đó, chúng em đã cài đặt được hệ
thực nghiệm chung Nhận dạng đoạn văn bản
viết tay tiếng Việt nét liền và thu được những
kết quả ban đầu rất khả quan.
6. Kết luận
Sau quá trình nghiên cứu về mạng neuron và
bài toán nhận dạng chữ viết tay tiếng Việt, em
đã đề xuất một giải pháp khắc phục được những
khó khăn của bài toán và cài đặt được hệ thực
nghiệm nhận dạng chữ viết tay tiếng Việt bằng
mô hình đa mạng neuron với tỷ lệ nhận dạng
đúng khá cao (95.20%). Đây là một tỷ lệ cao so
với các hệ nhận dạ
ng chữ viết tay ở Việt Nam
hiện nay.
Tuy nhiên, vẫn còn những hạn chế đối với
hệ thống này đó là tiêu chuẩn thu thập cơ sở dữ
liệu huấn luyện còn khắt khe. Do đó, để hệ
thống có thể ứng dụng trong thực tế cần phải
nới lỏng hơn nữa các tiêu chuẩn này.
Trong thời gian tới em sẽ tiếp tục mở rộng
ph
ạm vi của bài toán và hướng tới phát triển
các ứng dụng thực tế như nhận dạng các bảng
kê khai tiếng Việt.
Tài liệu tham khảo
[1] Jain , Artificial Neural Networks A Tutorial,
IEEE 1996.

×