(Luận văn thạc sĩ) một phương pháp nhận dạng văn bản tiếng việt nghiên cứu các phép xử lý và nhận dạng văn bản, ứng dụng mô hình markov ẩn trong nhận dạng cấu trúc chữ việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (32.33 MB, 86 trang )

LỜ I CẨM Ơ N

Vui mừng khi hoàn thành 6ản Cuận văn, tôi kịiông quên công Cao to (ơn của (anfi đạo,
của các thầy cơ giáo, của g ia đình và 6ạn bè ấồng nghiệp.
T oi JQU g h i nhận và chân thành biết on các thầy cô giáo đã quan tâm tẩ cíiức chỉ đạo
và tíiự c hành giảng dạy íịíio ả cao Học tíiuộc íịíio a Cơng N gfiêj (Đại học Quốc g ia J{à N ộ i; (Đặc
biệt cảm ơn các thầy fvuxmg ẩẫn: Ts. Luxrng c h i 94a i và Ts. N gô Quốc Tạo, níiừ rig chuyên
g ia g ià u k in íi nghiêm & V iện Công nghệ Tíiông tin , đã (fin fi íiưóng nghiên cứu và tfieo cíõị c íiỉ
dẫn từng bước; cảm 071 Ç StfSTtyC J ỉổ Tủ (Bảo, V iện % Ịioa học và Công nghệ tiên tiên N íiậ t
(Bản, trong th ị i g ia n ngắn ngủi ở V iệ t Nam củng đã nghe phần báo cáo tóm tắ t và cho những
ý kịển g ợ i mer quý 6áu. ^Tất cả những người thầy đó ngồi việc tận tu y truyền thụ kiến thức,
cịn íả tấm gưong sáng về những đức tín h cần có trong nghiên cứu ^hoa fiọc.
T ơi củng jỗin chõn thnh 6it 071 ớó n ới o trng (Đại học Sư phạm ‘H à N ộ i, mà trực
tiếp íằ (K jio a Tốn—T ín Học, củng như g ia đình, bạn Sè đổng nghiệp đã dành cho tơ i nhiều ưu
ả i trong suốt q trìn h học tập củng như trong th ò i g ia n thực hiện ấề tà i.
Tuy nhiên, (ÍO bản thân m ói bắt đầu trên con đưịtig nghiên cứu khoa Học đầy thách
thức, nên chắc chắn 6ản Cuận văn còn nhiều thiếu sót, 6ất cập mà tơ i chưa đủ k ịiả năng nfiân
tíiâ ỳ Hoặc ít nhiều nhận thấy níim ig chưa ấủ sức vư ợt qua . cRẠt mong đĩtxỵc các thầy cơ tiếp
tục chí giáo.

Jfà N ộ i, thảng 12 - 2001

Lẽ CMinfi ĩío à n g

Lc M inh Hoàng

Một phương pháp nhận dạng văn bản tiéng Việt «£*

IV. Kết luận...................................................................................................................68
Chương V: Xử lý và nhận dạng văn b ả n ....................................................................... 70

I. Tiền xử lý văn b ản.................................................................................................... 70
II. Tách dòng..................................................................................................................73
III. Tách tò ..................................................................................................................... 73
IV. Nhận dạng............................................................................................................... 74
V. Hậu xử lý ..................................................................................................................74
Kết luận..............................................................................................................................75
I. Đánh giá tóm tắt kết quả đạt được...........................................................................75
II. Nhừng vấn đề cịn chưa khắc phục được và đề xuất cách giải quyết................76
III. Hướng nghiên cứu tiếp theo của đề tà i................................................................78
Phụ lục: Cài đặt thử nghiệm............................................................................................ 80
I Các chức năng của hệ thống thử nghiệm..............................................................80
11. Một số kết quả thử nghiệm .....................................................................................83
Tài liệu tham khao............................................................................................................85

Luận vãn tốt nghiệp cao học

Lê M inh H oàng

M ột phương pháp nhận dạng văn ban tiếng Việt SÉ*

---------------------------------------------------------------------------

LỜI NĨI ĐẢU

> « P | à từ lâu, nhân loại mơ ước có thể chế tạo ra được các máy móc có một số
khả năng của con người, như khả năng nghe, hiểu tiếng nói hay nhìn và
nhận định được các vật thề xung quanh. Nhưng mãi tới gần đây khi những tiến bộ
công nghệ cho phép cùng với sự phát triển của những lý thuyết trong lĩnh vực xử lý
thơng tin, mơ ước đó mới đang dần trở thành hiện thực.

Chúng ta biết rằng, con người nhận thức được thế giới khách quan bằng các giác
quan và tư duy của mình. Hiện nay, chúng ta đã có nhiều thiết bị cảm nhận (sensor)
có khả năng thu nhận thông tin của môi hường xung quanh giống với chức năng
cua các giác quan con người. Đơn giản như một chiếc micro để có thể thu nhận âm
thanh cho đến những chiếc camera có khả năng thu nhận hình ảnh. v ấn đề tiếp đó là
phải xử lý các thông tin thu được như thế nào.
Đối với con người thì q trình xử lý thơng tin là quá trình tư duy dựa trên cơ chế
hoạt động của bộ não. Đây là một quá trình rất phức tạp mà cho đến ngày nay,
chúng ta mới chỉ nắm bắt được một phần nhỏ cơ chế hoạt động của nó. Có lẽ sẽ
chăng bao giờ máy móc mới đạt tới khả năng tư duy của con người, nhưng trong sự
nồ lực từng bước của mình, các nhà khoa học đã phân tách các mảng thông tin ra
từng phần nhất định và xử lý riêng trong những khn khổ đó. Chính sự xử lý riêng
biệt này đã tạo ra được những thành công nhất định trong việc tạo ra những hệ
thống kỳ thuật có một số năng lực "tư duy" gần với con người.
Việc tạo ra các hệ thống có khả năng nhận định thông tin là một trong những hướng
nghiên cứu đã có những thành cơng. Trong các hệ thống này, từ một dạng thông tin
thu nhận được, hệ thống sẽ phân tách ra thành các mẫu thông tin riêng biệt, sau đó
biểu diễn các mẫu thơng tin này, sắp xếp, phân loại chúng, và dùng những kỹ thuật
xu lý để nhận ra ý nghĩa của các thơng tin đó. Đây chính là tư tưởng chủ đạo của bài
tốn nhận dạnu mầu (Pattern Recognition). Phạm vi ứng dụng của lý thuyết nhận

------ J-------Luận văn tôt nghiệp cao học

Lơ Minh Hồng

Một phương pháp nhận dạng văn bán tiéng Việt «é*

dạng mẫu đã được áp dụng cho các lĩnh vực như: Nhận dạng tín hiệu, nhận dạng
tiếng nói, nhận dạng ảnh v.v...

Nhận dạng anh có thể coi là cơng đoạn cuối cùng của quá trình xử lý ảnh. Rất nhiều
lý thuyết và kỹ thuật xử lý ảnh đã được phát triển với mục đích để nhận dạng tốt
hơn các đối tượng trong bức ảnh thu được. Kỹ thuật nhận dạng ảnh cơ bản dựa vào
việc phân tích và biến đổi các mẫu để rút ra được những đặc trưng của đối tượng
cần nhận dạng. Việc gán ý nghĩa cho các lớp mẫu cũng chính là việc nhận dạng
được các mẫu sẽ xếp vào lóp đó.
Nhận dạng chữ (chữ in và chữ viết tay) là một trong những vấn đề nhận dạng ảnh
nhằm mục đích tự động hố q trình thu nhận các thông tin dạng chữ. Trên thế giới
đà có một số hệ thống nhận dạng chữ viết cỡ lớn có độ chính xác tương đối cao.
Ngồi yếu tố bí mật cơng nghệ, chữ viết của mỗi dân tộc có những đặc thù riêng,
địi hỏi những người con của dân tộc đó phải quan tâm nghiên cứu, khai thác triệt đế
các yếu tố đặc thù của tiếng mẹ đẻ nhằm phát triển các hệ thống nhận dạng chữ viết
phù hợp.
Cách thức thu thập thông tin bằng phương pháp nhận dạng tự động chữ viết mang
nhiều ý nghĩa thực tiễn. Có thể kể ra đây một số ứng dụng dựa trên khả năng nhận
dạng chữ đã được nghiên cứu và đưa vào sử dụng như: Tự động đọc văn bản chữ in,
hệ thống kiểm tra các thông số ghi tiên sản phẩm, hệ thống số liệu hoá bản đồ, hệ
thống tự động phân loại các thư từ và bưu kiện, hệ thống thống kê tự động các phiếu
điều tra v.v...
Nghiên cứu vấn đề này, ngay từ đầu tôi đã thấy có nhiều khó khăn, bởi ngay cả với
những hệ thống nhận dạng chữ viết cỡ lớn trên thế giới, thành cơng mới chỉ đạt
được trên một số bộ kí tự phổ biến. Mặt khác, chữ viết của dân tộc ta, ngồi các
ngun âm ă, â, ê, ơ ơ, ư cịn có các dấu thanh đặc trưng. Song vì nhu cầu khám phá
đẽ có thêm hiểu biết, sau khi tham khảo một số tài liệu đã được nghiên cứu trong và
ngoài nước, tơi mạnh dạn hồn thành luận văn với đề tài: "Một phương pháp nhận
dạng văn bản Tiếng Việt" sử dụng mơ hình Markov ấn trong nhận dạng chữ in và

Luận văn tốt nghiệp cao học

Lê M inh H oàng

<*& M ột phương pháp nhận dạng văn bản tiếng Việt SP*

chừ viết tay có ràng buộc, với mong muốn trưởng thành hơn trên con đường nghiên
cứu khoa học và hiểu rõ hơn ngôn ngữ của dân tộc mình.
Luận văn được trình bày cụ thề qua 6 nội dung chính:
•

Tơng quan.

• Trình bày cơ sở lý thuyết tốn học cho vấn đề cần nghiên cứu
• Xây dụng các mơ hình nhận dạng cấu trúc chữ Việt
• Xây dựng mơ hình nhận dạng từ Tiếng Việt
• Xử lý văn bản và nhận dạng văn bản
•

Ket quả cài đặt thử nghiệm

Luận văn tô i nghiệp cao h ọc

Lê M inh Hoàng

Một phương pháp nhặn dạng văn bán tiếng Việt «é*

Chương I:

TỎNG QUAN

I. MỤC ĐÍCH NGHIÊN c ứ u CỦA ĐÈ TÀI
Xử lý ảnh ngày nay đã trở thành một ngành khoa học lớn và có mặt ứong nhiều lĩnh
vực của cuộc sống. Điều này hồn tồn có thể lý giải được từ một định nghĩa đơn
giản về ngành khoa học này: X ử lý ảnh là ngành khoa học nghiên cứu các q
trình x ử lý thơng tin dạng hình ảnhịBí\ mà hình ảnh là một trong những dạng thông
tin phong phú nhất đối với chúng ta.
Bamera
Bcaner
Kensor

Khử nhiễu

Hiệu chỉnh các
đặc tính của ảnh

Nhận dạng

Lưu trữ, hiển thị
và truyền dẫn

Hình 1: Phân cấp các hoạt dộng của quá trình xử lý ảnh số

Luận văn tốt nghiệp cao học

Lê Minh Hoàng

Một phương pháp nhận dạng văn bàn tiếng Việt SP*

Khi quan sát một bức ảnh, ngoài sự cảtn nhận về kích thước và màu sắc thì các đối

tượng trong bức ảnh đó cũng mang lại những ý nghĩa nhận thức nào đó cho người
quan sát. Vì thế xử lý ảnh không phải chỉ dừng lại ở việc nâng cao chất lượng ảnh,
lưu trữ ảnh hay phân tích kết cấu của nó mà cịn thêm một bước nữa là tự động nhận
dạng các đối tượng trong ảnh để rút ra được các thông tin mà chúng chứa đựng.
Nhận dạng ảnh (image recognition) có thể được nhìn nhận một cách đơn giản là
việc gán tên cho các đối tượng trong ảnh. Ví dụ đối với nhận dạng chữ viết, các đối
tượng trong ảnh cần nhận dạng là các mẫu chừ, ta cần tách riêng các mẫu chữ đó ra
và tìm cách gán đúng các ký tự của bảng chữ cái tương ứng cho các mẫu chữ thu
được trong ảnh.
Đe tài "Một phương pháp nhận dạng văn bản tiếng Việt" thuộc về vấn đề nhận dạng
chừ viết (Optical Character Recognition - OCR), với mục đích xây dựng một hệ
thống nhận dạng văn bản tiếng Việt sử dụng mơ hình Markov ẩn - một kỹ thuật
nhận dạng mẫu đă giữ vị trí thống lĩnh trong suốt 15 năm qua.

II. MỌT
SỐ KHÁI NIỆM
■
■
II. 1. Mẩu và Ió’p mẫu
Người ta mơ tả tất cả những vật thể có kích thước vật lý thu nhận được trong thế
giới xung quanh bằng các mẫu. Nhận dạng mẫu chính là việc xử lý, mơ tả và diễn
dịch các mẫu. Các mẫu thường được mô tả bằng tập các thuộc tính đặc trưng của
đối tượng. Vì đối tượng ở đây là hình ảnh nên những thuộc tính đó có thể là đặc
trưng về đường nét, mảng, khối, màu sắc....
Tập tất cả các mẫu tạo nên không gian mẫu. Nhờ vào q trình phân lóp
(classification) của bài tốn nhận dạng mà các mẫu được nhóm lại thành các lóp
mẫu riêng biệt. Mồi lóp mẫu chứa các mẫu đồng dạng với nhau, tính đồng dạng ở
đây được xét trên tập các đặc tính biếu diễn mẫu. Mỗi lớp mẫu sẽ được gán một tên,
tập các tên gọi của các đối tượng lập thành một không gian diễn dịch và việc nhận

Luận văn tỏt nghiệp cao học

Lc Minh H oàng

Một phương pháp nhận dạng văn bàn tiếng Việt «é*

dạng trở thành q trình gán một tên trong không gian diễn dịch cho một mẫu cần
nhận dạng.

II.2. Khoảng cách mẫu và hàm phân biệt
Khoang cách là một cơng cụ tốt đế đánh giá các đối tượng có ở "gần nhau" hay
không. Khi khoang cách nhỏ hơn một ngưỡng nào đó thì có thể coi hai đối tượng là
đồng dạng với nhau, tức là được xếp vào cùng một lóp.
Hàm đo khống cách có thể coi là hàm đo mức tương tự. Trong trường hợp ta có
một số mẫu chuân đủ lớn đã được phân lớp một cách họp lý thì khi cần nhận dạng
một mẫu, ta chỉ cần tìm lóp chuẩn gần với mẫu đó nhất và xếp ln mẫu đó vào lớp
này. Chính vì vậy hàm khoảng cách có ý nghĩa quyết định tới tính chính xác của
quá trình nhận dạng.
Với khái niệm khoảng cách Iĩiẫu, người ta xây dựng khái niệm hàm phân biệt: Hàm
phân biệt là một hàm có đối số là mẫu, dùng đế phân lớp mầu. Mỗi lớp có một hàm
phân biệt đặc trưng riêng và hàm này luôn cho giá trị "tốt" hơn đối với các mẫu
thuộc lớp của nó.

------,-------Luận văn tôt nghiệp cao học

Lê Minh Hoàng

Một phương pháp nhận dạng văn bản tiéng Việt «£*

11.3. Tiến trình nhận dạng ảnh
ảnh

Hình 2: Lưu dồ tiến trình nhận dạng ảnh

'r

Thu thập dữ liệu (Data Collection): Đây là công đoạn đầu tiên, quyết định
nhiều đến kết quả nhận dạng. Việc lựa chọn thiết bị thu nhận ảnh sẽ phụ thuộc
vào đặc tính của các đối tượng cần nhận dạng. Ví dụ, nếu đối tượng là chữ viết
thì kích cỡ của các chữ sẽ quyết định độ phân giải cần thiết cho camera hay máy
quét. Các thông số quan trọng ở bước này là độ phân giải, chất lượng màu, dung
lượng bộ nhớ và tốc độ thu nhận ảnh. Cuối cùng, ảnh phải được lưu trữ theo một
định dạng phù hợp với các bước xử lý sau này.

> Tiền xử lý (Preprocessing): Đẻ nâng cao khả năng nhận dạng chính xác, các
bước tiền xử lý được yêu cầu với vai trò nâng cao chất lượng ảnh trước khi đem
phân tích và nhận dạng. Cơng việc của bước này thường là khử nhiễu, biến đổi
anh và nâng cao một số đặc tính quan trọng của ảnh. Với nhận dạng chữ thì cơng
đoạn này thường thực hiện các cơng việc như lọc bỏ nhiễu đốm, tăng độ tương
phản, làm trơn biên chữ, làm đầy/mảnh chữ v.v... Quá trình tiền xử lý thường
được thực hiện bởi các bộ lọc

Luận văn tôt nghiệp cao học

Lê Minh Hồng

«X Một phương pháp nhận dạng văn bàn tiếng Việt Sỉ*

'r Phân đoạn (Segmentation): Quá trinh này sẽ chia ảnh ra các vùng con khác
nhau mà trong mồi vùng chứa các thực thế có ý nghĩa cho việc phân lớp. Với
nhận dạng chữ, việc phân tách sẽ là xác định các vùng chữ rồi tách ra thành các
chữ đơn.
r

Chuẩn hố (Normalization): Sự biến đổi là thuộc tính vốn có của mọi đối tượng
trong tự nhiên và cũng là sự đa dạng về hình thức của một đối tượng. Câu hỏi
chính đặt ra cho bài tốn nhận dạng là những biến đổi đó có thế giải quyết như
thế nào. Có những đặc trưng của đối tượng là bất biến đối với những tác động
bên ngồi nên q trình trích chọn đặc trưng có thể vẫn hoạt động tốt nhưng
cũng có những đặc trưng rất khó nắm bắt được khi đối tượng biến đổi. Chính vì
vậy mà bước chuẩn hố này thường có trong các hệ thống nhận dạng. Nó thực
hiện việc giảm bớt những hiệu ứng xấu do ảnh hưởng của những biến đổi. Ví dụ
như trong nhận dạng chữ viết tay, các chữ có thể quá nghiêng hoặc bị lệch hàng
do bản chụp và bước tiêu chuẩn hoá phải đánh giá được độ nghiêng và xoay
chúng lại cho thẳng đứng. Q ưình tiêu chuẩn hố này cần được tính tốn để
những thơng tin bị loại bỏ sẽ khơng ánh hưởng nhiều đến các đặc trưng cần trích
chọn.

r- Trích chọn đặc trưng (Feature Extraction): Đây chính là bước biểu diễn các
mẫu bằng các đặc trưng của đối tượng. Trong quá trình này số liệu ảnh sẽ được
thu gọn lại. Điều này hết sức cần thiết vì sẽ giảm nhỏ được dung lượng bộ nhớ
cần dùng và thời gian tính tốn. Một phương pháp trích chọn đặc trưng tốt nếu
như nó duy trì và làm nổi bật được các nét đặc trưng của đối tượng mà những
đặc trưng đó sẽ giúp cho việc phân biệt được các lóp mẫu khác nhau, đồng thời
nó cũng miễn trừ được những biến đổi do các thiết bị thu nhận ảnh tạo ra.
> Phân lóp (Classification): Đây là bước quyết định trong quá ừinh nhận dạng.
Tất cả các bước xử lý trước đều nhằm mục đích cho việc phân lớp các mẫu một

cách thành cơng. Q trình phân lóp có thể hiểu một cách đơn giản là quá trình
biến đối các số liệu định lượng ở đầu vào sang các số liệu định tính ở đầu ra .

Luận văn tốt nghiệp cao học

Lê Minh Hoàng

Một phương pháp nhận dạng văn bản tiéng Việt SP*

Đầu ra của bộ phân lớp có thể là sự chọn lựa rời rạc một lớp trong số các lóp đã
được định nghĩa trước. Cũng có thế là một dãy số biểu diễn các giá trị có thể
thừa nhận mẫu đó được hỉnh thành từ lớp tương ứng. Trong nhận dạng chữ,
thuật toán phân lớp chủ yếu được chia thành hai phương pháp chính, đó là
phương pháp thống kê (staticstical) và phương pháp cú pháp (syntactic). Bộ
phân lóp có thể gửi các thông tin hồi tiếp về bộ phân tách và bộ ữích chọn đặc
trưng đề hiệu chỉnh nhũng sai lệch của hai tiến trình này.

r- Hậu xử lý (Postprocessing): Có một số hệ thống nhận dạng mà kết quả nhận
dạng cần được xử lý tiếp đê thu được nhiều thơng tin hữu ích hơn. Các đối
tượng đã được phân tách ra thành các mẫu để nhận dạng và quá trình phân lớp
đã gán được ý nghĩa cho các mẫu này, nhưng các đối tượng lại có những mối
quan hệ với nhau và những mối quan hệ này có thế mang những thơng tin hữu
ích. Q trình hậu xử lý có thể xem xét các mối quan hệ này để phát hiện ra các
lỗi của việc phân lóp và chữa lỗi này hoặc yêu cầu lại bộ phân lớp thực hiện một
số sửa đổi đề ưánh lỗi đó. Đối với hệ thống nhận dạng chữ viết thì bước hậu xử
lý chính là bước ghép nối các ký tự nhận dạng được thành các từ, các đoạn văn,
tái hiện lại văn bản, đồng thời kiểm tra chính tả, ngữ nghĩa từng tò trong văn
cảnh đê phát hiện ra lỗi nhận dạng.

II.4. Chữ viết trực tuyến và ngoại tuyến
Các dữ liệu viết tay thường được số hoá bằng cách quét văn bản hoặc bằng cách
viết trực tiếp lên các thiết bị cảm nhận. Điều này làm nảy sinh hai kiểu tín hiệu vào
và hai phương pháp tiếp cận trong nhận dạng chữ viết đó là nhận dạng chữ viết
ngoại tuyến (Off-line) và trực tuyến (On-Line)[plamondonl.
Chừ viết ngoại tuyến được đưa vào máy tính dưới dạng một ảnh hai chiều thuần
t: có độ phân giải ngang, dọc, màu sắc hay mức xám v.v... Cịn chữ viết trực
tuyến thỉ ngồi những thơng tin ừên, cịn có cả những thơng tin về sự di chuyến nét
bút khi viết chừ, những thông tin này được ghi nhận bằng cách đọc vị trí của bút
viết tại những khoảng chia thời gian. Chính vì vậy vấn đề nhận dạng đối với hai

Luận văn tôt nghiệp cao học

Lc Minh Hoàng

Một phương pháp nhận dạng văn bản tiéng Viột «£*

kiêu dù liệu vào này hồn tồn khác nhau. Chữ viết trực tuyến dễ đặc tả cấu trúc
hơn chữ viết ngoại tuyến nhưng lại có phạm vi ứng dụng hẹp, bởi khi đã có bàn
phím, nhũng thiết bị như digitizer chủ yếu dùng để vẽ hình chứ khơng dùng để viết
chừ.

a ) Off-Line

b) On-Linc

Hình 3: Chữ viết ngoại tuyến (a) và chữ viết trục tuyến (b)

Nói chung, nếu tín hiệu vào là chữ viết trực tuyến thì ta có thế chuyển nó thành chữ

viết ngoại tuyến. Thực hiện cơng việc ngược lại khó khăn hơn nhiều và đơi khi
khơng cho kết quả đúng. Chinh vì vậy, trong những vấn đề nghiên cứu sau này, tơi
chỉ nói đến việc nhận dạng chữ viết ngoại tuyến (Off-line OCR) để thích hợp cho cả
chữ in và chữ viết tay.

Ili. VÀI NÉT LỊCH s ử VÀ HƯỞNG NGHIÊN c ứ u TRONG NHẬN
■

DẠNG CHỮVIÉT
Năm 1929, Tausheck đã được cấp một bằng sáng chế về nhận dạng chữ viết tại Đức
và năm 1933, Handel cũng được cấp bằng tại Mỹ[Monl. Đây là những ý tưởng đầu
tiên về nhận dạng chữ viết. Những kỳ vọng về một cỗ máy có khả năng đọc các chữ
và số thì chi có thể trở thành hiện thực và những năm 50 của thế kỷ 20 - khi nhân
loại bước vào kỷ nguyên của máy tính.
Những sản phẩm nhận dạng chữ viết mang tính thương mại bắt đầu xuất hiện từ
những năm 1960. Một vài phương pháp nhận dạng đơn giản đã được đưa vào áp
dụng. Có thể kể ra một vài sản phẩm tiêu biểu là: IBM 1418, IBM 1428, IBM 1285,
IBM 1287 của IBM, Facom 6399A của Fujitsu và H-852 của Hitachi. Kỹ thuật chủ
yếu được sử dụng là phương pháp đối sánh mẫu.
Vào những năm 1970, phần mềm nhận dạng chữ viết có hiệu suất cao và giá rẻ
được Hitachi đưa ra thị trường gọi là H8959. Cũng trong thời kỳ này, những tiến bộ

Luận văn tốt nghiệp cao học

Lc M inh Hoàng

M ột phương pháp nhận dạng văn bản tiéng Việt «é*

cơng nghệ cho phép chế tạo các máy quét laser giá rẻ và chất lượng cao, một số

phần mềm khác cũng được giới thiệu, được viết chủ yếu trên nền FORTRAN, sản
phẩm nâng cấp H8959 của Hitachi đã đạt tới độ chính xác 100% nếu được huấn
luyện bằng mẫu chừ của một người và thử nghiệm lại bằng chính chữ của người đó.
Những kỳ thuật phân tích cấu trúc đơn giản đã được tích hợp vào các hệ thống nhận
dạng thời kỳ này.
Tù giữa những năm 1970 đến những năm 1980, bắt đầu vào kỷ nguyên của PC, máy
tính giờ đây nhở hơn, nhanh hơn, và rẻ hơn. Những sản phẩm nhận dạng chữ viết
klìơnt» ngừng được nàng cao chất lượng. Hệ thống ASPET/71 của ETL và Toshiba
và hệ thống IBM 1975 đã được thừa nhận và đưa vào sử dụng trong cơng tác văn
phịng. Tháng 9/1975, trung tâm thị trường lao động - Bộ lao động Nhật Bản quyết
định sử dụng hệ thống nhận dạng chữ viết Katakana trong tất cả các hệ thống bảo
hiêm của họ.
Tù những năm 1980 trở lại đây, với những cải tiến lớn trong cơng nghệ chế tạo
phần cứng máy tính, với những tiến bộ trong lĩnh vực xử lý thông tin, những bước
đột phá trong việc ứng dụng công nghệ tri thức, các hệ thống nhận dạng chữ viết
đang ngày một hướng tới sự hồn thiện. Với sự đóng góp của nhiều ngành khoa
học, đặc biệt là Toán học và Khoa học máy tính, nhận dạng chừ viết tập trung
nghiên cứu phát triển nhằm mục tiêu nâng cao tính ốn định và tính linh hoạt, có khả
năng tự thích nghi với các dạng chừ viết khác lạ.
Người ta quan tâm tới lĩnh vực nhận dạng chữ viết khơng chỉ vì nhu cầu cuộc sống,
mà cịn vì ham muốn hiểu rõ hơn quá trình nhận thức của mình. Những phương
pháp tiếp cận khác nhau trong nhận dạng chữ viết cũng được nảy sinh từ những
cách hiểu khác nhau về cách con người đọc chữ. Theo nhận thức của con người, E
và E là có cùng một ý nghĩa ừong cảm nhận khi nhìn thấy hai mẫu chữ đó. Vậy thì
liệu có hay không một nguyên lý về sự tương đương giữa những mẫu của cùng một
chừ? Cho tới tận bây giờ, vẫn khơng có một đáp án chung nào cho ngun lý đó cả
và bài tốn này vần là vấn đề trung tâm trong lĩnh vực nhận dạng mẫu|Mon|. Tất cả

------»-------Luận ván tôt nghiệp cao học

Lê Minh Hoàng

Một phương pháp nhận dạng văn bân tiéng Việt ss*

những cố gắng từ trước tới nay bằng các phương pháp tiếp cận khác nhau chỉ có thể
giải quyết được một phần vấn đề tuỳ theo ngôn ngừ cụ thể. Những phương pháp
tiếp cận đó có thể chia làm hai hướng chính: Phương pháp đối sánh mẫu (template matching method) và phương pháp phân tích cấu trúc (structure analysis)

III. 1. Phương pháp đối sánh mẫu
Tên gọi phương pháp đối sánh mẫu|Mon| xuất phát từ các phương pháp nhận dạng
chữ in dựa trên một quan sát đơn giản: Với một chữ được đúc trên khn in thì khi
in ra tại những chỗ khác nhau, những chữ đó phải có những nét tương đồng phụ
thuộc vào khn đó giống như các con dấu vậy. Tất nhiên sẽ có những sai lệch nhất
định do mực in, giấy in v.v...nhưng do tính chất của khn, sẽ có những chỗ ít khi
bị nh, có thể tạm coi là bất biến. Nội dung của phương pháp đối sánh mẫu là dựa
vào nhũng đặc điểm ít biến đổi đó để trích chọn lấy đặc trưng cho một mẫu chữ
hoặc vẫn sử dụng tất cả các thông tin nhưng với độ tin cậy (ưọng số) khác nhau đê
làm đặc trưng.
a) Phương pháp dùng dãy điểm đặc trưng.
Trong phương pháp này, mỗi mẫu chừ chuẩn được coi là một ảnh đen trắng, ảnh
này sẽ được co về một khung kích thước cố định, thường dùng là khung 16x16,
32x32 đối VỚI bộ ký tự Latin, hay 64x64 đối với chữ tượng hình. Trên khung cố
định này, người ta lấy một số điểm làm đặc trưng. Khi cần so sánh một mẫu cần
nhận dạng với một mẫu chuẩn, ta lấy dãy điểm đặc trưng trên mẫu chuẩn đối sánh
với dãy điểm cùng vị trí trên mẫu cần nhận dạng để xác định mức độ giống nhau
giữa hai mẫu và từ đó ra quyết định xem mẫu nhận dạng tương ứng với chữ cái nào.
Việc chọn dãy điếm đặc trưng như thế nào là tuỳ thuộc vào ngơn ngữ, khơng có quy
chuấn nào cụ thể. Nói chung khơng nên chọn dãy điểm đặc trưng là tất cả các điểm
trên khung. Ví dụ ta có khoảng 10 mẫu số "2" khá giống nhau thì dãy điếm đặc

trưng tốt nhất nên chọn là những vị trí có màu giống nhau trên cả 10 mẫu số 2 này.
b) Pỉiương pháp lưới.

Luận văn tôt nghiệp cao học

Lê M inh Hoàng

Một phương pháp nhận dạng văn bản tiếng Việt «é*

Một lưới ỏ vng chuẩn được trùm lên đối tượng, số lượng điểm cắt của mỗi nan
lưới dọc và ngang với đối tượng sẽ là đặc trưng của đối tượng. Đồng thời số lượng ô
chứa một phần của đối tượng cũng được sử dụng làm đặc trưng của đối tượng. Mỗi
đường dọc và ngang của lưới sẽ được gán một trọng số nhất định.
Khi đó dựa vào các thơng số và trọng số kể trên, ta có thể xây dựng được một hàm
đặc trưng cho đối tượng và việc đối sánh hai đối tượng được quy về đối sánh các
hàm đặc trung.
Với phương pháp này, việc chuẩn hoá đối tượng là rất quan trọng vì nó sẽ giúp cho
việc xác định kích thước của lưới chuân được sử dụng. Hơn thế độ nghiêng của đối
tượng cần nhận dạng cũng có ảnh hưởng rất lớn đến kết quả của phương pháp này.

Hình 4: Phương pháp lưới

c) Phương pháp cung
Có thể loại bỏ ảnh hưởng của độ nghiêng trong phương pháp lưới bằng cách thay
thế lưới ô vuông chuấn bằng lưới hình vành khăn: các nan lưới là các đường trịn
đồng tâm và các đường thẳng qua tâm. Có thể coi đây là phương pháp lưới ứong toạ
độ cực. Tâm cực là trọng tâm của đối tượng. Những vấn đề xác định đặc trưng còn
lại tương tự như phương pháp lưới.

Luận văn tỏt nghiệp cao học

Lc M inh Hoàng

Một phương pháp nhận dạng văn bản ticng Việt «£*

Hình 5: Phương pháp cung

d) Phương pháp chia miền và đo mật độ
Trong phương pháp này, mỗi ảnh tương ứng với một mẫu chừ được chia thành
Iihừng miền tách biệt và trên mỗi miền người ta đo mật độ những vùng thuộc chữ.
Những số đo này được dùng làm đặc trưng cho mẫu và được dùng làm tham số tính
tốn cho hàm phân biệt. Phương pháp này rất nhạy cảm với độ nghiêng, độ đậm của
nét chừ

Hình 6: Mẩu chữ được chia làm 9 miền và bản đồ mật độ

II 1.2. Phương pháp phân tích cấu trúc
Đặc trưng của phương pháp phân tích cấu trúc là nhìn nhận mỗi mầu chữ như được
cấu thành từ những đối tượng hình học, quan tâm tới các nét, hướng, thứ tự tôpô và
đặc tả những đối tượng cũng như mối quan hệ giữa chúng để làm đặc trưng cho

Luận văn tôt nghiệp cao học

Lê M inh Hồng

«*v Một phương pháp nhận dạng văn bán tiéng Việt SÊ*

mẫu|Monl. Phương pháp phân tích cấu trúc thích họp với nhận dạng chừ viết tay, khi
mà các chữ được viết có thể coi là khơng theo một khn mẫu nào cả.
a) Phương pháp phân tích đường đơn
Năm 1960, Sherman đề xuất cách mô tả cấu trúc chữ bằng các đường mảnh (có thể
coi như khung xương của chữ được tạo thành nhờ các thuật toán làm mảnh). Với
cách mô ta này, mỗi mẫu chừ được tiệm cận bằng tập các đoạn thẳng đôi một không
cắt nhau (nhưng được phép trùng nhau ở đầu mút). Từ đó ơng xây dựng một đồ thị
phăng tương ứng với tập các cạnh là các đoạn thẳng và tập các đỉnh là tập các đầu
mút. Trên đồ thị này, ông bỏ qua các đỉnh bậc 2, chỉ giữ lại những đỉnh đặc trưng là:
đỉnh treo, đinh rẽ nhánh, đỉnh cắt và coi những thơng số đó là đặc trưng đế phân biệt
các chữ. Tuy nhiên trong trường hợp này, góc nhìn tơpơ là rất quan trọng bởi nếu
chi dựa vào những thông số kế trên sẽ khơng tránh khỏi sự sai lầm.

Hình 7: Ví dụ tồi tệ đối với cách phân tích cấu trúc của Sherman

Cách thứ nhất, để khắc phục nhược điểm này là ngoài những đỉnh treo, đỉnh rẽ
nhánh, đỉnh cắt, nhừng phần còn lại của đồ thị sẽ được mô tả đưới dạng các đoạn
thắng và các cung. Phương pháp này cho phép đặc tả cấu trúc chặt chẽ hơn nhưng
lại hết sức khó khăn khi cài đặt.
Cách thứ hai, có thể áp dụng được trong trường hợp này dựa vào nhận xét: Neu bở
đi các đỉnh rẽ nhánh, đỉnh cắt và đỉnh treo thì mồi phần rời cịn lại có thể vẽ chỉ
bằng một nét đơn. Khi đó những nét đơn này có thể mã hố bằng xích hướng hay
còn gọi là mã Freeman. Các mã Freeman cùng với những điểm đặc trưng trong
phương pháp của Sherman sẽ được dùng đế đặc tả cấu trúc chữ

;?iA HA NO * ;

Luận văn tốt nghiệp cao học

Lê M inh Hoàng

Một phương pháp nhặn dạng văn ban tiếng Việt

3

2

X3> 1
Freeman code: 3, 3, 2, 2, 1

6

7

8

Hình 8: Mã Freeman

b) Phương pháp phân tích hình học
Trong phương pháp này, mỗi đối tượng được đặt trong không gian Euclide 2 chiều
và được đặc ta bằng các khái niệm hình học cơ bản: đoạn thẳng, đường trịn, ellipse,
thậm chí cả các đường Bezier và B-Spline. Mỗi đối tượng hình học này được viết
phương trình toạ độ và được ưích ra một số đặc trưng như hướng, độ cong, điểm
uốn v.v... Và những đặc trưng này được dùng làm tham số cho hàm phân biệt của
mồi lớp.
Cách tiếp cận này khá chặt chẽ về mặt lý thuyết, chẳng hạn có thế mơ tả chữ o là
X2 V 2
I1 ci
một hình ellipse có phương trình — + —T = 1 với —< —< 3. Nhưng vấn đề phân

a
b
3 b
tích hình học khi cài đặt trên máy tính nói chung là rất khó bởi như vậy gần như
phải xây dựng lại cách thiết kế font TrueType từ một ảnh.
c) Phương pháp phân tích đường biên
Trong phương pháp phân tích đường biên, từ một mẫu chữ, người ta tìm đường biên
(contour) của chữ và các đường biên của: bao lồi (convex hull), miền lõm
(concavity), các lỗ hống (hole) và vị trí tương đối giữa các lồ hổng.

------,-------Luận văn tôt nghiệp cao học

Lc M inh Hoàng

Một phương pháp nhận dạng văn bản tiếng V iệt ss*

9• y •
a)

b)

c)

d)

e)

Hình 9: Mau chữ (a), Bao lồi (b), Miền lõm (c), Lỗ hổng (d) và các dường biên (c)

Khi đó mỗi mẫu chừ sẽ được đặc tả bởi một bộ các đường biên. Mồi đường biên có
the được mơ tả bằng mã Freeman, bằng đường cong nội suy...
Có thể nhận thấy rằng nếu việc phân lóp các đường biên được thực hiện tốt thì việc
sử dụng quá nhiều yếu tố như tiên là quá chặt. Đối với chữ Việt, theo tôi chỉ cần lấy
đường biên của chừ và vị trí tương đối của các lỗ hổng là đủ. Bởi hình dạng của lỗ
hống cũng như bao lồi, miền lõm khơng mang tính chất quyết định tới việc nhận
dạng chừ Việt.
Phương pháp phân tích đường biên rất nhạy cảm trong trường hợp chữ bị dính nét
hay đứt nét, chính vì vậy cần phải có những giải pháp tiền xử lý đúng đắn trước khi
thực hiện việc dị biên.
d) Phương pháp sử dụng hình chiếu
Phai nói rằng đây là một phương pháp khơng

có

độ chính xác cao, nhưng vẫn được

nhiều tài liệu đề cập đến, bởi các hệ thống nhận dạng sử dụng phương pháp này có
tốc độ tốt và tận dụng được những ưu điểm của hình chiếu so với bản thân mẫu chữ.
Phương pháp này đặc biệt hiệu quả trong trường hợp chỉ cần nhận dạng trong một
tập hợp nhở các ký hiệu khó gây nên sự nhập nhằng (chẳng hạn như các chữ "Y" và
"N", "C" và "K",...) và cho phép một số sai sót nhất định. Thống kê các phiếu điều
tra là một ví dụ ứng dụng cho phương pháp sử dụng hình chiếu.

Luận văn tốt nghiệp cao học

Lê Minh Hoàng

Một phương pháp nhận dạng văn bản tiéng Việt

Phương pháp sư dụng hình chiếu tức là sử dụng biểu đồ mật độ thay cho chừ.
Thông thường người ta sử dụng bốn loại biểu đồ mật độÍParkI995).
•

Biêu đồ mật độ ngang (HRPCT): Là lược đồxám ngang của chữ

•

Biêu đồ mật độ dọc (VRPCT): Là lược đồ xám dọc

•

Biểu đồ mật độ chiếu ngang dọc (HVRPCT)

•

Biểu đồ mật độ chiếu chéo (DDRPCT)

của chữ

Chi tiết về 4 phép chiếu này được trình bày trong hình 10:
\f

liX

— ►s▼
. ▼ \ỵ<--vỷr
<--—►XV4--a
-- ►>/

/ I V -aM —►/1
V k
—
/ í

N

Phép chiếu lên truc ngang
(HRPCT)

a

Phép chiếu lên trục dọc
(VRPCT)

*
ảnh gốc

ỉ
HRPCT

Phép chiếu lên hai trục
ngang dọc (HVRPCT)

*
VRPCT

Phép chiếu lên hai trục
chéo (DDRPCT)

*
HVRPCT

DDRPCT

Hình 10: Một số loại hình chiếu của mẫu chữ gốc

Một số ưu điểm nổi trội của các hình chiếu so với mẫu chừ ban đầu có thế kể ra là:
Hình chiếu khơng có lỗ hổng (miền đơn liên) nên chỉ có một đường biên. Đe dị
đường biên của hình chiếu khơng cần phải dùng các kỹ thuật của xử lý ảnh mà có
thể thực hiện ngay trong khi đo mật độ. Hình chiếu ít bị ảnh hưởng khi chữ bị dính
hay đứt nét.
Tuy nhiên phương pháp sử dụng hình chiếu cũng có nhược điểm: nó phụ thuộc vào
độ dày của nét chữ (nếu làm mảnh nét sẽ khiến cho hình chiếu khơng rõ ràng). Mặc
dù trong các chừ in tiếng Việt, khơng có hai ký tự nào giống nhau trên cả 4 loại hình
chiếu nhung đối với chữ viết tay, rất có thể 4 loại hình chiếu kể trên là chưa đủ đế
phân biệt.

Luận văn tôt nghiệp cao học

Lc Minh Hoàng

Một phương pháp nhận dạng văn bần tiếng Việt S5*

Việc đưa phương pháp sử dụng hình chiếu vào lớp các phương pháp phân tích cấu
trúc là chưa thật hợp lý, mà nên coi đây chỉ là một giải pháp để thay việc nhận dạng
mẫu chữ về việc nhận dạng các hình chiếu, cịn việc nhận dạng như thế nào hồn
tồn có thể sử dụng phương pháp đối sánh mẫu. Tuy nhiên để tận dụng được các ưu
điểm cua hình chiếu, người ta vẫn thường dùng phương pháp phân tích đường biên.

Trong cơng trinh nhận dạng bộ ký tự Hangul (Hàn Quốc), Hee-Seon Park và SeongWhan Lee đã inã hố đường biên các hình chiếu dưới dạng mã Freeman và sừ dụng
mơ hình Markov ẩn để nhận dạng đạt độ chính xác 96.7%, đây là một hiệu suất cao
trong nhận dạng chữ tượng hình.

IV. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN c ứ u CỦA ĐÊ TÀI
Đề tài này trình bày phương pháp sử dụng mơ hình Markov ẩn (Hidden Markov
Models - HMM) trong nhận dạng chừ viết tay hạn chế dựa theo cấu trúc biên cua
chữ. Tư tưởng chính là sử dụng các tiến trình ngẫu nhiên đề mơ hình hố q trình
nhận dạng chữ viết bằng cách sử dụng xác suất để ưích chọn những đặc trưng cấu
trúc của đường biên. Đề tài nghiên cứu chuyên sâu vào các vấn đề:
•

Đặc tả cấu trúc chữ: Phân tích các miền liên thơng, biểu diễn đường biên theo
mã xích, phân lớp các mẫu huấn luyện...

•

Sử dụng HMM để loại bỏ nhiễu và trích chọn đặc trưng cấu trúc đường biên.
Phân tích tính hữu hiệu của phương pháp khi xử lý những thơng tin khơng chắc
chắn hoặc khơng đầy đủ.

•

Phương pháp nhận dạng từ Việt và các kỹ thuật xử lý văn bản.

Phạm vi nghiên cứu của đề tài là Tiếng Việt, vì vậy nội dung đề tài chỉ đề cập đến
các cách thức xử lý trong nhận dạng chữ và từ Tiếng Việt, những ký hiệu và từ
không phải tiếng Việt (Các bộ kí tự tượng hình, Sanskrit, Hy Lạp hay CnobeHufl...)
không thuộc phạm vi nghiên cứu của đề tài.

--------------- J---------------------

Luận vãn tôt nghiệp cao học

Lc Mi nil Hoàng

Một phương pháp nhận dạng văn bản tiếng V iệt «p»

Chương II:

C ơ SỞ LÝ THUYẾT

I.TÍNH MARKOV
Gia thiết chúng ta nghiên cứu sự tiến triển theo thời gian của một hệ vật lý hoặc
sinh thái nào đó. Ký hiệu X(t) là trạng thái của hệ tại thời điểm t. Tập họp tất cả các
trạng thái có thế gọi là không gian trạng thái. Giả sử trước thời điểm s, hệ ở trạng
thái nào đó, cịn tại thời điếm s hệ ở trạng thái i. Ta cần biết tại thời điểm t trong
tương lai (t > s) hệ ở trạng thái j với xác suất là bao nhiêu?. Nếu xác suất này chỉ
phụ thuộc vào s, t, i và j thì điều này có nghĩa là. sự tiến triển của hệ trong tương

lai chỉ phụ thuộc vào hiện tại và độc lập vói q khứ. Đó chính là tính Markov.
Hệ có tính chất này được gọi là q trình Markov1T‘enl[TienYenl.
( 'hăng hạn, nếu gọi X(t) là dân sổ tại thời điểm t trong tương lai thì có thể xem như
Xít) chì phụ thuộc vào dân sổ hiện tại và độc lập VỚI q khứ. Nói chung những hệ
khơng cỏ sức ỳ là những hệ có tính Markov.
Ta kí hiệu tập E là tập các giá trị của X(t) và gọi E là không gian trạng thái của X(t).
Nếu X(t) có tính Markov và E là tập khơng q đếm được thì X(t) được gọi là xích
M arkov (Markov chain). Thêm vào đó, nếu t = 0, 1, 2, ... thì ta có khái niệm xích
Markov với thịi gian rời rạc, cịn nếu t e [0, +oo) thì ta có khái niệm xích Markov

với thời gian liên tục.

về phương diện tốn học, tính Markov có thể định nghĩa như sau:
Ta nói rằng X(t) có tính Markov nếu:
P{X(tn+1) = j I X(to) = i o , X ( t n.,) =

X(tn) = i} = P{X(tn+i) = j I X(tn) = i}

Với bất kỳ to < t| < ...< tn < t n+i và io, i i , i „ - i , i,j e E.
Ta xem tn là hiện tại, tn+i là tương lai và (to, t],
trên thể hiện tính Markov của X(t).

ỉ Mận văn tôi nghiệp cao học

tn_i) là quá khứ. Vì thế biểu thức

Lc Minh Hoàng

Một phương pháp nhận dạng văn bản tiéng Việt

Đặt p(s, i, t, j) = P{X(t) = j I X(s) = i}, (s < t) đó là xác suất có điều kiện để hệ tại
thời điểm s ở trạng thái i đến thời điếm t chuyển sang trạng thái J. Ta gọi đây là

xác

suất chuyển cua hệ. Nếu xác suất chuyển chỉ phụ thuộc vào t - s, tức là:
p(s, i, t, j) = p(s + À, i, t + À, j)
thỉ ta nói q trình Markov này là thuần nhất theo thời gian.

II. XÍCH MARKOV RỜI RẠC VÀ THUẦN NHẤT
■

Giả sử (Xn); n = 0, 1, 2, ... là xích Markov rời rạc và thuần nhất. Nói một cách chính
xác là: Giả su (Q, A, P) là khơng gian xác suất, x n: Q —»E là biến ngẫu nhiên nhận
giá trị trong tập không quá đếm được E. E là không gian trạng thái mà các phần tử
của nó có thể đánh số 1, 2, ... Khi đó tính Markov và tính thuần nhất của (Xn) có
nghĩa là:
Pij —P(Xn+Ị —J Ix n —ì) —P(Xn+1 —J IXo —l o , x n_!

ln-lj Xn —l)

không phụ thuộc vào n.
Trong trường hợp này, ta dùng ký hiệu a,j thay cho

Pij

để đặc trưng riêng cho xích

Markov rời rạc và thuần nhất.
Chú ý rằng từ công thức xác suất đầy đủ, ta suy ra:
Vi, j e E : 0 < ay < 1 và

=1
je E

Xác suất chuyến sau n bước được định nghĩa theo công thức:
ai/n) = P(Xn+m = j Ix m= i) = P(Xn = j IXo = i)

Đây là xác suất để hệ đang ở trạng thái i, sau n đơn vị thời gian (n bước) chuyển

sang trạng thái J. Rõ ràng a,j(1}= ay. Ta quy ước:
•

Ẵ
a,j(0) _= 11 nêu
i =J

•

aịJ(0) = 0 nếu i * j

Luận vãn tốt nghiệp cao học

Le M inh Hồng

<*ì* Một phương pháp nhận dạng văn bàn tiéng Việt «é*

l a sẽ chứng minh cơng thức

sau:

*v24ss>“

Vn = 0, 1,2,
(n)

,(n + l)

^ĩk ^kj

.5

keE

Ta lập luận như sau: Để hệ xuất phát ở trạng thái i, sau n + 1 bước chuyển sang
trạng thái J là kết quả của việc hệ xuất phát từ trạng thái i, sau 1 bước chuyển sang
trạng thái k nào đó, để rồi sau n bước tiếp theo chuyển tới trạng thái j. Từ đó suy ra:
= P (X n+1= j|X 0 = i)

S P ( X n+, = j | x 0 = i,x , = k).P(X, = k|x„ = i)
keE
£ P (X n+1 = j|Xj = k).P(X , = k|X 0 = i)

(Do tính Markov)

keE

P (X n = j X 0 = k).P(X j = k|X 0 = i)

(Do tính thuần nhất)

I

keE

Tổng qt hơti, ta có phương trình Chapman - Kolmogorov:
( m+n)

a ij

V

a ( m ) Q (n)

~ Zi ik

kj

keE

Trường hợp E = {1, 2,

D} thì các giá trị

a j/n)

có thể viết dưới dạng ma trận vng

A(n) cấp D. Khi đó phương trình Chapman - Kolmogorov có thể viết dưới dạng ma
trận:
Ạ ( m +n) _ ^ ( m ) ^ ( n )

Điều đó có nghĩa là:
A (n) = A n

------ f-------Luận văn tôt nghiệp cao học

Một phương pháp nhận dạng văn bản tiéng Việt «£*

Le Minh Hồng

III. M ơ HÌNH XÍCH MARKOV
Có nhiều loại mơ hình xích Markov: Mơ hình kiểm kê, mơ hình bình, mơ hình phục
vụ đám đơng v.v. .. Tuy nhiên dưới đây ta chỉ xét tới một ví dụ quan trọng liên quan
tới việc xây dựng lý thuyết về mơ hình Markov ẩn.
Trị chơi nhặt bóng (Urns and balls model|Rabmerl[Ponlzl): Có N cái bình đánh số 1,2,
N. Trong mỗi bình có chứa một số quả bóng, mỗi quả bóng có một trong M màu:
{V],

VM}. Trò chơi diễn ra như sau: Người ta chọn ngẫu nhiên một bình, trong

bình đó chọn ngẫu nhiên một quả bóng, ghi nhận lại màu của quả bóng đó rồi trả lại
q bóng vào bình. Sau T lần như vậy dãy màu ghi nhận được có dạng 0], 0 2,
Or
Gia sư 71i là xác suất để bình thứ

1

được chọn đầu tiên,

a¡j

là xác suất tại thời điểm

t+1 chọn bình thứ j trong điều kiện tại thời điểm t đã chọn bình thứ i.

a,j

khơng phụ

thuộc vào t (nó chỉ phụ thuộc vào khoảng cách giữa hai bình chẳng hạn), và cuối
cùng ta biết được số bóng trong mỗi bình cũng như màu của các quả bóng đó, hay
rõ hơn, ta biết được

b j(vk)

là xác suất để chọn được quả bóng màu

vk

trong bình j.

Một trong những vấn đề đặt ra là cho trước một dãy màu o = (Oi, O2 ,

Or), hãy

tính xác suất để người chơi chọn được dãy màu đó.
Đê tính xác suất này, ta thử xét xem nếu dãy bình được chọn là Q = (qi, q2 ,
thì xác suất nhận được dãy o = (Oi, 0 2,

0 T) là bao nhiêu. Dễ thấy rằng:

P (0 |Ọ ) = bqi(0 ,).b q2( 0 2).... bqT( 0 T)
Ngoài ra, xác suất để chọn được dãy bình Q = (q]; q2, q - r ) là:

P(Q) = ^qj-^q\C\2‘^2^3

^T-lqT

Vậy xác suất để chọn được dãy bình ọ và dãy màu o là:
P(0, Q) = P(0 I Q).P(Q) = 7iqi.bqi(0i).aqiq2.bq2(02).aq2q3

------ 7-------Luận văn tỏt nghiệp cao học

aq.r iqT.bqT( 0 T).

q-r)

(Luận văn thạc sĩ) một phương pháp nhận dạng văn bản tiếng việt nghiên cứu các phép xử lý và nhận dạng văn bản, ứng dụng mô hình markov ẩn trong nhận dạng cấu trúc chữ việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về