Tải bản đầy đủ (.pdf) (86 trang)

Một phương pháp nhận dạng văn bản tiếng việt nghiên cứu các phép xử lý và nhận dạng văn bản, ứng dụng mô hình markov ẩn trong nhận dạng cấu trúc chữ việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (32.33 MB, 86 trang )

LỜI CẨM Ơ N
Vui mừng khi hoàn thành 6ản Cuận văn, tôi kịiông quên công Cao to (ơn của (anfi đạo,
của các th ầ y cô g iá o , của g ia đìn h và 6ạn bè ấồng nghiệp.
T o i JQU g h i nhận và chân th à nh b iế t on các th ầ y cô g iá o đã quan tâm tẩ cíiứ c c h ỉ đạo

và tíiự c hà nh g iả n g dạ y íịíio ả cao Học tíiu ộ c íịíio a Công N g fiê j (Đ ạ i học Quốc g ia J {à N ộ i; (Đặc

b iệ t cảm ơn các th ầ y fvuxmg ẩẫn : T s. Luxrng c h i 94a i và T s. N g ô Quốc Tạo, n íiừ rig chuyên

g ia g ià u k in íi nghiêm & V iệ n Công nghệ T íiô n g tin , đã (fin fi íiư óng n ghiên cứu và tfie o c íõ ị c íiỉ

dẫ n từ ng bước; cảm 071 Ç S tfSTtyC J ỉổ Tủ (Bảo, V iệ n % Ịioa học và Công nghệ tiê n tiê n N íiậ t

(Bản, trong th ò i g ia n ngắn n g ủ i ở V iệ t N am củng đã nghe phầ n báo cáo tóm tắ t và cho những

ý kịển g ợ i mer qu ý 6áu. ^Tất cả những ngư ời th ầ y đó ng oà i việ c tậ n tu y truyề n th ụ kiến thức,

còn íả tấm gưong sáng về những đức tín h cần có tro n g nghiên cứu

^hoa fiọ c.
T ô i củng jç in chân th ành 6 iế t 071 íã n íi đạo trư ờ n g (Đ ại học S ư phạm ‘H à N ộ i, mà trự c

tiế p íằ (K jio a Toán—T ín Học, củng n hư g ia đình , bạn Sè đổng n ghiệp đã d à nh cho tô i nhiều ưu

ả i tro n g s u ố t quá trìn h học tậ p củng n hư tro n g th ò i g ia n thự c hiệ n ấề tà i.
T u y n hiê n, (ÍO bản th â n m ói b ắ t đầu trê n con đ ư ò tig nghiên cứu khoa Học đ ầy thách

thức, nên chắc chắn 6ản Cuận v ăn còn nhiề u th iế u s ót, 6 ấ t cập mà tô i chưa đủ k ịiả năng nfiâ n

tíiâ ỳ Hoặc í t n hiề u n hận th ấ y n íim ig chưa ấ ủ sức vư ợ t qua
.


cRẠt mong đĩtxỵc các th ầ y cô tiế p

tụ c c h í g iáo.
J fà N ộ i, th ả n g 12 - 2001
Lẽ CMinfi ĩío à n g
Lc Minh Hoàng Một phương pháp nhận dạng văn bản tiéng Việt «£*
IV. Kết luận 68
Chương V: Xử lý và nhận dạng văn bản
70
I. Tiền xử lý văn bản 70
II. Tách dòng 73
III. Tách tò 73
IV. Nhận dạng 74
V. Hậu xử lý 74
Kết luận 75
I. Đánh giá tóm tắt kết quả đạt được 75
II. Nhừng vấn đề còn chưa khắc phục được và đề xuất cách giải quyết 76
III. Hướng nghiên cứu tiếp theo của đề tài 78
Phụ lục: Cài đặt thử nghiệm 80
I Các chức năng của hệ thống thử nghiệm 80
11. Một số kết quả thử nghiệm 83
Tài liệu tham khao 85
Luận vãn tốt nghiệp cao học
Lê M inh Hoàng
Một phương pháp nhận dạng văn ban tiếng Việt SÉ*
LỜI NÓI ĐẢU
> « P | à từ lâu, nhân loại mơ ước có thể chế tạo ra được các máy móc có một số
khả năng của con người, như khả năng nghe, hiểu tiếng nói hay nhìn và
nhận định được các vật thề xung quanh. Nhưng mãi tới gần đây khi những tiến bộ
công nghệ cho phép cùng với sự phát triển của những lý thuyết trong lĩnh vực xử lý

thông tin, mơ ước đó mới đang dần trở thành hiện thực.
Chúng ta biết rằng, con người nhận thức được thế giới khách quan bằng các giác
quan và tư duy của mình. Hiện nay, chúng ta đã có nhiều thiết bị cảm nhận (sensor)
có khả năng thu nhận thông tin của môi hường xung quanh giống với chức năng
cua các giác quan con người. Đơn giản như một chiếc micro để có thể thu nhận âm
thanh cho đến những chiếc camera có khả năng thu nhận hình ảnh. vấn đề tiếp đó là
phải xử lý các thông tin thu được như thế nào.
Đối với con người thì quá trình xử lý thông tin là quá trình tư duy dựa trên cơ chế
hoạt động của bộ não. Đây là một quá trình rất phức tạp mà cho đến ngày nay,
chúng ta mới chỉ nắm bắt được một phần nhỏ cơ chế hoạt động của nó. Có lẽ sẽ
chăng bao giờ máy móc mới đạt tới khả năng tư duy của con người, nhưng trong sự
nồ lực từng bước của mình, các nhà khoa học đã phân tách các mảng thông tin ra
từng phần nhất định và xử lý riêng trong những khuôn khổ đó. Chính sự xử lý riêng
biệt này đã tạo ra được những thành công nhất định trong việc tạo ra những hệ
thống kỳ thuật có một số năng lực "tư duy" gần với con người.
Việc tạo ra các hệ thống có khả năng nhận định thông tin là một trong những hướng
nghiên cứu đã có những thành công. Trong các hệ thống này, từ một dạng thông tin
thu nhận được, hệ thống sẽ phân tách ra thành các mẫu thông tin riêng biệt, sau đó
biểu diễn các mẫu thông tin này, sắp xếp, phân loại chúng, và dùng những kỹ thuật
xu lý để nhận ra ý nghĩa của các thông tin đó. Đây chính là tư tưởng chủ đạo của bài
toán nhận dạnu mầu (Pattern Recognition). Phạm vi ứng dụng của lý thuyết nhận

J

Luận văn tôt nghiệp cao học
Lô Minh Hoàng Một phương pháp nhận dạng văn bán tiéng Việt «é*
dạng mẫu đã được áp dụng cho các lĩnh vực như: Nhận dạng tín hiệu, nhận dạng
tiếng nói, nhận dạng ảnh v.v
Nhận dạng anh có thể coi là công đoạn cuối cùng của quá trình xử lý ảnh. Rất nhiều
lý thuyết và kỹ thuật xử lý ảnh đã được phát triển với mục đích để nhận dạng tốt

hơn các đối tượng trong bức ảnh thu được. Kỹ thuật nhận dạng ảnh cơ bản dựa vào
việc phân tích và biến đổi các mẫu để rút ra được những đặc trưng của đối tượng
cần nhận dạng. Việc gán ý nghĩa cho các lớp mẫu cũng chính là việc nhận dạng
được các mẫu sẽ xếp vào lóp đó.
Nhận dạng chữ (chữ in và chữ viết tay) là một trong những vấn đề nhận dạng ảnh
nhằm mục đích tự động hoá quá trình thu nhận các thông tin dạng chữ. Trên thế giới
đà có một số hệ thống nhận dạng chữ viết cỡ lớn có độ chính xác tương đối cao.
Ngoài yếu tố bí mật công nghệ, chữ viết của mỗi dân tộc có những đặc thù riêng,
đòi hỏi những người con của dân tộc đó phải quan tâm nghiên cứu, khai thác triệt đế
các yếu tố đặc thù của tiếng mẹ đẻ nhằm phát triển các hệ thống nhận dạng chữ viết
phù hợp.
Cách thức thu thập thông tin bằng phương pháp nhận dạng tự động chữ viết mang
nhiều ý nghĩa thực tiễn. Có thể kể ra đây một số ứng dụng dựa trên khả năng nhận
dạng chữ đã được nghiên cứu và đưa vào sử dụng như: Tự động đọc văn bản chữ in,
hệ thống kiểm tra các thông số ghi tiên sản phẩm, hệ thống số liệu hoá bản đồ, hệ
thống tự động phân loại các thư từ và bưu kiện, hệ thống thống kê tự động các phiếu
điều tra v.v
Nghiên cứu vấn đề này, ngay từ đầu tôi đã thấy có nhiều khó khăn, bởi ngay cả với
những hệ thống nhận dạng chữ viết cỡ lớn trên thế giới, thành công mới chỉ đạt
được trên một số bộ kí tự phổ biến. Mặt khác, chữ viết của dân tộc ta, ngoài các
nguyên âm ă, â, ê, ô ơ, ư còn có các dấu thanh đặc trưng. Song vì nhu cầu khám phá
đẽ có thêm hiểu biết, sau khi tham khảo một số tài liệu đã được nghiên cứu trong và
ngoài nước, tôi mạnh dạn hoàn thành luận văn với đề tài: "Một phương pháp nhận
dạng văn bản Tiếng Việt" sử dụng mô hình Markov ấn trong nhận dạng chữ in và
Luận văn tốt nghiệp cao học
Lê Minh Hoàng <*& Một phương pháp nhận dạng văn bản tiếng Việt SP*
chừ viết tay có ràng buộc, với mong muốn trưởng thành hơn trên con đường nghiên
cứu khoa học và hiểu rõ hơn ngôn ngữ của dân tộc mình.
Luận văn được trình bày cụ thề qua 6 nội dung chính:
• Tông quan.

• Trình bày cơ sở lý thuyết toán học cho vấn đề cần nghiên cứu
• Xây dụng các mô hình nhận dạng cấu trúc chữ Việt
• Xây dựng mô hình nhận dạng từ Tiếng Việt
• Xử lý văn bản và nhận dạng văn bản
• Ket quả cài đặt thử nghiệm
Luận văn tôi nghiệp cao học
Lê Minh Hoàng Một phương pháp nhặn dạng văn bán tiếng Việt «é*
Chương I:
TỎNG QUAN
I. MỤC ĐÍCH NGHIÊN cứu CỦA ĐÈ TÀI
Xử lý ảnh ngày nay đã trở thành một ngành khoa học lớn và có mặt ứong nhiều lĩnh
vực của cuộc sống. Điều này hoàn toàn có thể lý giải được từ một định nghĩa đơn
giản về ngành khoa học này: Xử lý ảnh là ngành khoa học nghiên cứu các quá
trình xử lý thông tin dạng hình ảnhịBí\ mà hình ảnh là một trong những dạng thông
tin phong phú nhất đối với chúng ta.
Bamera
Bcaner
Kensor
Hình 1: Phân cấp các hoạt dộng của quá trình xử lý ảnh số
Khử nhiễu
Hiệu chỉnh các
đặc tính của ảnh
Lưu trữ, hiển thị
và truyền dẫn
Nhận dạng
Luận văn tốt nghiệp cao học
Lê Minh Hoàng
Một phương pháp nhận dạng văn bàn tiếng Việt SP*
Khi quan sát một bức ảnh, ngoài sự cảtn nhận về kích thước và màu sắc thì các đối
tượng trong bức ảnh đó cũng mang lại những ý nghĩa nhận thức nào đó cho người

quan sát. Vì thế xử lý ảnh không phải chỉ dừng lại ở việc nâng cao chất lượng ảnh,
lưu trữ ảnh hay phân tích kết cấu của nó mà còn thêm một bước nữa là tự động nhận
dạng các đối tượng trong ảnh để rút ra được các thông tin mà chúng chứa đựng.
Nhận dạng ảnh (image recognition) có thể được nhìn nhận một cách đơn giản là
việc gán tên cho các đối tượng trong ảnh. Ví dụ đối với nhận dạng chữ viết, các đối
tượng trong ảnh cần nhận dạng là các mẫu chừ, ta cần tách riêng các mẫu chữ đó ra
và tìm cách gán đúng các ký tự của bảng chữ cái tương ứng cho các mẫu chữ thu
được trong ảnh.
Đe tài "Một phương pháp nhận dạng văn bản tiếng Việt" thuộc về vấn đề nhận dạng
chừ viết (Optical Character Recognition - OCR), với mục đích xây dựng một hệ
thống nhận dạng văn bản tiếng Việt sử dụng mô hình Markov ẩn - một kỹ thuật
nhận dạng mẫu đă giữ vị trí thống lĩnh trong suốt 15 năm qua.
II. MỌT SỐ KHÁI NIỆM
■ ■
II. 1. Mẩu và Ió’p mẫu
Người ta mô tả tất cả những vật thể có kích thước vật lý thu nhận được trong thế
giới xung quanh bằng các mẫu. Nhận dạng mẫu chính là việc xử lý, mô tả và diễn
dịch các mẫu. Các mẫu thường được mô tả bằng tập các thuộc tính đặc trưng của
đối tượng. Vì đối tượng ở đây là hình ảnh nên những thuộc tính đó có thể là đặc
trưng về đường nét, mảng, khối, màu sắc
Tập tất cả các mẫu tạo nên không gian mẫu. Nhờ vào quá trình phân lóp
(classification) của bài toán nhận dạng mà các mẫu được nhóm lại thành các lóp
mẫu riêng biệt. Mồi lóp mẫu chứa các mẫu đồng dạng với nhau, tính đồng dạng ở
đây được xét trên tập các đặc tính biếu diễn mẫu. Mỗi lớp mẫu sẽ được gán một tên,
tập các tên gọi của các đối tượng lập thành một không gian diễn dịch và việc nhận
Luận văn tỏt nghiệp cao học
Lc Minh Hoàng
Một phương pháp nhận dạng văn bàn tiếng Việt «é*
dạng trở thành quá trình gán một tên trong không gian diễn dịch cho một mẫu cần
nhận dạng.

II.2. Khoảng cách mẫu và hàm phân biệt
Khoang cách là một công cụ tốt đế đánh giá các đối tượng có ở "gần nhau" hay
không. Khi khoang cách nhỏ hơn một ngưỡng nào đó thì có thể coi hai đối tượng là
đồng dạng với nhau, tức là được xếp vào cùng một lóp.
Hàm đo khoáng cách có thể coi là hàm đo mức tương tự. Trong trường hợp ta có
một số mẫu chuân đủ lớn đã được phân lớp một cách họp lý thì khi cần nhận dạng
một mẫu, ta chỉ cần tìm lóp chuẩn gần với mẫu đó nhất và xếp luôn mẫu đó vào lớp
này. Chính vì vậy hàm khoảng cách có ý nghĩa quyết định tới tính chính xác của
quá trình nhận dạng.
Với khái niệm khoảng cách Iĩiẫu, người ta xây dựng khái niệm hàm phân biệt: Hàm
phân biệt là một hàm có đối số là mẫu, dùng đế phân lớp mầu. Mỗi lớp có một hàm
phân biệt đặc trưng riêng và hàm này luôn cho giá trị "tốt" hơn đối với các mẫu
thuộc lớp của nó.
,

Luận văn tôt nghiệp cao học
Lê Minh Hoàng
Một phương pháp nhận dạng văn bản tiéng Việt «£*
11.3. Tiến trình nhận dạng ảnh
ảnh
Hình 2: Lưu dồ tiến trình nhận dạng ảnh
'r
Thu thập dữ liệu (Data Collection): Đây là công đoạn đầu tiên, quyết định
nhiều đến kết quả nhận dạng. Việc lựa chọn thiết bị thu nhận ảnh sẽ phụ thuộc
vào đặc tính của các đối tượng cần nhận dạng. Ví dụ, nếu đối tượng là chữ viết
thì kích cỡ của các chữ sẽ quyết định độ phân giải cần thiết cho camera hay máy
quét. Các thông số quan trọng ở bước này là độ phân giải, chất lượng màu, dung
lượng bộ nhớ và tốc độ thu nhận ảnh. Cuối cùng, ảnh phải được lưu trữ theo một
định dạng phù hợp với các bước xử lý sau này.
> Tiền xử lý (Preprocessing): Đẻ nâng cao khả năng nhận dạng chính xác, các

bước tiền xử lý được yêu cầu với vai trò nâng cao chất lượng ảnh trước khi đem
phân tích và nhận dạng. Công việc của bước này thường là khử nhiễu, biến đổi
anh và nâng cao một số đặc tính quan trọng của ảnh. Với nhận dạng chữ thì công
đoạn này thường thực hiện các công việc như lọc bỏ nhiễu đốm, tăng độ tương
phản, làm trơn biên chữ, làm đầy/mảnh chữ v.v Quá trình tiền xử lý thường
được thực hiện bởi các bộ lọc
Luận văn tôt nghiệp cao học
Lê Minh Hoàng «X Một phương pháp nhận dạng văn bàn tiếng Việt Sỉ*
'r Phân đoạn (Segmentation): Quá trinh này sẽ chia ảnh ra các vùng con khác
nhau mà trong mồi vùng chứa các thực thế có ý nghĩa cho việc phân lớp. Với
nhận dạng chữ, việc phân tách sẽ là xác định các vùng chữ rồi tách ra thành các
chữ đơn.
r
Chuẩn hoá (Normalization): Sự biến đổi là thuộc tính vốn có của mọi đối tượng
trong tự nhiên và cũng là sự đa dạng về hình thức của một đối tượng. Câu hỏi
chính đặt ra cho bài toán nhận dạng là những biến đổi đó có thế giải quyết như
thế nào. Có những đặc trưng của đối tượng là bất biến đối với những tác động
bên ngoài nên quá trình trích chọn đặc trưng có thể vẫn hoạt động tốt nhưng
cũng có những đặc trưng rất khó nắm bắt được khi đối tượng biến đổi. Chính vì
vậy mà bước chuẩn hoá này thường có trong các hệ thống nhận dạng. Nó thực
hiện việc giảm bớt những hiệu ứng xấu do ảnh hưởng của những biến đổi. Ví dụ
như trong nhận dạng chữ viết tay, các chữ có thể quá nghiêng hoặc bị lệch hàng
do bản chụp và bước tiêu chuẩn hoá phải đánh giá được độ nghiêng và xoay
chúng lại cho thẳng đứng. Quá ưình tiêu chuẩn hoá này cần được tính toán để
những thông tin bị loại bỏ sẽ không ánh hưởng nhiều đến các đặc trưng cần trích
chọn.
r- Trích chọn đặc trưng (Feature Extraction): Đây chính là bước biểu diễn các
mẫu bằng các đặc trưng của đối tượng. Trong quá trình này số liệu ảnh sẽ được
thu gọn lại. Điều này hết sức cần thiết vì sẽ giảm nhỏ được dung lượng bộ nhớ
cần dùng và thời gian tính toán. Một phương pháp trích chọn đặc trưng tốt nếu

như nó duy trì và làm nổi bật được các nét đặc trưng của đối tượng mà những
đặc trưng đó sẽ giúp cho việc phân biệt được các lóp mẫu khác nhau, đồng thời
nó cũng miễn trừ được những biến đổi do các thiết bị thu nhận ảnh tạo ra.
> Phân lóp (Classification): Đây là bước quyết định trong quá ừinh nhận dạng.
Tất cả các bước xử lý trước đều nhằm mục đích cho việc phân lớp các mẫu một
cách thành công. Quá trình phân lóp có thể hiểu một cách đơn giản là quá trình
biến đối các số liệu định lượng ở đầu vào sang các số liệu định tính ở đầu ra .
Luận văn tốt nghiệp cao học
Lê Minh Hoàng
Một phương pháp nhận dạng văn bản tiéng Việt SP*
Đầu ra của bộ phân lớp có thể là sự chọn lựa rời rạc một lớp trong số các lóp đã
được định nghĩa trước. Cũng có thế là một dãy số biểu diễn các giá trị có thể
thừa nhận mẫu đó được hỉnh thành từ lớp tương ứng. Trong nhận dạng chữ,
thuật toán phân lớp chủ yếu được chia thành hai phương pháp chính, đó là
phương pháp thống kê (staticstical) và phương pháp cú pháp (syntactic). Bộ
phân lóp có thể gửi các thông tin hồi tiếp về bộ phân tách và bộ ữích chọn đặc
trưng đề hiệu chỉnh nhũng sai lệch của hai tiến trình này.
r- Hậu xử lý (Postprocessing): Có một số hệ thống nhận dạng mà kết quả nhận
dạng cần được xử lý tiếp đê thu được nhiều thông tin hữu ích hơn. Các đối
tượng đã được phân tách ra thành các mẫu để nhận dạng và quá trình phân lớp
đã gán được ý nghĩa cho các mẫu này, nhưng các đối tượng lại có những mối
quan hệ với nhau và những mối quan hệ này có thế mang những thông tin hữu
ích. Quá trình hậu xử lý có thể xem xét các mối quan hệ này để phát hiện ra các
lỗi của việc phân lóp và chữa lỗi này hoặc yêu cầu lại bộ phân lớp thực hiện một
số sửa đổi đề ưánh lỗi đó. Đối với hệ thống nhận dạng chữ viết thì bước hậu xử
lý chính là bước ghép nối các ký tự nhận dạng được thành các từ, các đoạn văn,
tái hiện lại văn bản, đồng thời kiểm tra chính tả, ngữ nghĩa từng tò trong văn
cảnh đê phát hiện ra lỗi nhận dạng.
II.4. Chữ viết trực tuyến và ngoại tuyến
Các dữ liệu viết tay thường được số hoá bằng cách quét văn bản hoặc bằng cách

viết trực tiếp lên các thiết bị cảm nhận. Điều này làm nảy sinh hai kiểu tín hiệu vào
và hai phương pháp tiếp cận trong nhận dạng chữ viết đó là nhận dạng chữ viết
ngoại tuyến (Off-line) và trực tuyến (On-Line)[plamondonl.
Chừ viết ngoại tuyến được đưa vào máy tính dưới dạng một ảnh hai chiều thuần
tuý: có độ phân giải ngang, dọc, màu sắc hay mức xám v.v Còn chữ viết trực
tuyến thỉ ngoài những thông tin ừên, còn có cả những thông tin về sự di chuyến nét
bút khi viết chừ, những thông tin này được ghi nhận bằng cách đọc vị trí của bút
viết tại những khoảng chia thời gian. Chính vì vậy vấn đề nhận dạng đối với hai
Luận văn tôt nghiệp cao học
Lc Minh Hoàng
Một phương pháp nhận dạng văn bản tiéng Viột «£*
kiêu dù liệu vào này hoàn toàn khác nhau. Chữ viết trực tuyến dễ đặc tả cấu trúc
hơn chữ viết ngoại tuyến nhưng lại có phạm vi ứng dụng hẹp, bởi khi đã có bàn
phím, nhũng thiết bị như digitizer chủ yếu dùng để vẽ hình chứ không dùng để viết
chừ.
a) Off-Line b) On-Linc
Hình 3: Chữ viết ngoại tuyến (a) và chữ viết trục tuyến (b)
Nói chung, nếu tín hiệu vào là chữ viết trực tuyến thì ta có thế chuyển nó thành chữ
viết ngoại tuyến. Thực hiện công việc ngược lại khó khăn hơn nhiều và đôi khi
không cho kết quả đúng. Chinh vì vậy, trong những vấn đề nghiên cứu sau này, tôi
chỉ nói đến việc nhận dạng chữ viết ngoại tuyến (Off-line OCR) để thích hợp cho cả
chữ in và chữ viết tay.
Ili. VÀI NÉT LỊCH sử VÀ HƯỞNG NGHIÊN cứ u TRONG NHẬN
■ ■
DẠNG CHỮVIÉT
Năm 1929, Tausheck đã được cấp một bằng sáng chế về nhận dạng chữ viết tại Đức
và năm 1933, Handel cũng được cấp bằng tại Mỹ[Monl. Đây là những ý tưởng đầu
tiên về nhận dạng chữ viết. Những kỳ vọng về một cỗ máy có khả năng đọc các chữ
và số thì chi có thể trở thành hiện thực và những năm 50 của thế kỷ 20 - khi nhân
loại bước vào kỷ nguyên của máy tính.

Những sản phẩm nhận dạng chữ viết mang tính thương mại bắt đầu xuất hiện từ
những năm 1960. Một vài phương pháp nhận dạng đơn giản đã được đưa vào áp
dụng. Có thể kể ra một vài sản phẩm tiêu biểu là: IBM 1418, IBM 1428, IBM 1285,
IBM 1287 của IBM, Facom 6399A của Fujitsu và H-852 của Hitachi. Kỹ thuật chủ
yếu được sử dụng là phương pháp đối sánh mẫu.
Vào những năm 1970, phần mềm nhận dạng chữ viết có hiệu suất cao và giá rẻ
được Hitachi đưa ra thị trường gọi là H8959. Cũng trong thời kỳ này, những tiến bộ
Luận văn tốt nghiệp cao học
Lc Minh Hoàng
Một phương pháp nhận dạng văn bản tiéng Việt «é*
công nghệ cho phép chế tạo các máy quét laser giá rẻ và chất lượng cao, một số
phần mềm khác cũng được giới thiệu, được viết chủ yếu trên nền FORTRAN, sản
phẩm nâng cấp H8959 của Hitachi đã đạt tới độ chính xác 100% nếu được huấn
luyện bằng mẫu chừ của một người và thử nghiệm lại bằng chính chữ của người đó.
Những kỳ thuật phân tích cấu trúc đơn giản đã được tích hợp vào các hệ thống nhận
dạng thời kỳ này.
Tù giữa những năm 1970 đến những năm 1980, bắt đầu vào kỷ nguyên của PC, máy
tính giờ đây nhở hơn, nhanh hơn, và rẻ hơn. Những sản phẩm nhận dạng chữ viết
klìônt» ngừng được nàng cao chất lượng. Hệ thống ASPET/71 của ETL và Toshiba
và hệ thống IBM 1975 đã được thừa nhận và đưa vào sử dụng trong công tác văn
phòng. Tháng 9/1975, trung tâm thị trường lao động - Bộ lao động Nhật Bản quyết
định sử dụng hệ thống nhận dạng chữ viết Katakana trong tất cả các hệ thống bảo
hiêm của họ.
Tù những năm 1980 trở lại đây, với những cải tiến lớn trong công nghệ chế tạo
phần cứng máy tính, với những tiến bộ trong lĩnh vực xử lý thông tin, những bước
đột phá trong việc ứng dụng công nghệ tri thức, các hệ thống nhận dạng chữ viết
đang ngày một hướng tới sự hoàn thiện. Với sự đóng góp của nhiều ngành khoa
học, đặc biệt là Toán học và Khoa học máy tính, nhận dạng chừ viết tập trung
nghiên cứu phát triển nhằm mục tiêu nâng cao tính ốn định và tính linh hoạt, có khả
năng tự thích nghi với các dạng chừ viết khác lạ.

Người ta quan tâm tới lĩnh vực nhận dạng chữ viết không chỉ vì nhu cầu cuộc sống,
mà còn vì ham muốn hiểu rõ hơn quá trình nhận thức của mình. Những phương
pháp tiếp cận khác nhau trong nhận dạng chữ viết cũng được nảy sinh từ những
cách hiểu khác nhau về cách con người đọc chữ. Theo nhận thức của con người, E
và E là có cùng một ý nghĩa ừong cảm nhận khi nhìn thấy hai mẫu chữ đó. Vậy thì
liệu có hay không một nguyên lý về sự tương đương giữa những mẫu của cùng một
chừ? Cho tới tận bây giờ, vẫn không có một đáp án chung nào cho nguyên lý đó cả
và bài toán này vần là vấn đề trung tâm trong lĩnh vực nhận dạng mẫu|Mon|. Tất cả
»

Luận ván tôt nghiệp cao học
Lê Minh Hoàng Một phương pháp nhận dạng văn bân tiéng Việt ss*
những cố gắng từ trước tới nay bằng các phương pháp tiếp cận khác nhau chỉ có thể
giải quyết được một phần vấn đề tuỳ theo ngôn ngừ cụ thể. Những phương pháp
tiếp cận đó có thể chia làm hai hướng chính: Phương pháp đối sánh mẫu (template -
matching method) và phương pháp phân tích cấu trúc (structure analysis)
III. 1. Phương pháp đối sánh mẫu
Tên gọi phương pháp đối sánh mẫu|Mon| xuất phát từ các phương pháp nhận dạng
chữ in dựa trên một quan sát đơn giản: Với một chữ được đúc trên khuôn in thì khi
in ra tại những chỗ khác nhau, những chữ đó phải có những nét tương đồng phụ
thuộc vào khuôn đó giống như các con dấu vậy. Tất nhiên sẽ có những sai lệch nhất
định do mực in, giấy in v.v nhưng do tính chất của khuôn, sẽ có những chỗ ít khi
bị nhoè, có thể tạm coi là bất biến. Nội dung của phương pháp đối sánh mẫu là dựa
vào nhũng đặc điểm ít biến đổi đó để trích chọn lấy đặc trưng cho một mẫu chữ
hoặc vẫn sử dụng tất cả các thông tin nhưng với độ tin cậy (ưọng số) khác nhau đê
làm đặc trưng.
a) Phương pháp dùng dãy điểm đặc trưng.
Trong phương pháp này, mỗi mẫu chừ chuẩn được coi là một ảnh đen trắng, ảnh
này sẽ được co về một khung kích thước cố định, thường dùng là khung 16x16,
32x32 đối VỚI bộ ký tự Latin, hay 64x64 đối với chữ tượng hình. Trên khung cố

định này, người ta lấy một số điểm làm đặc trưng. Khi cần so sánh một mẫu cần
nhận dạng với một mẫu chuẩn, ta lấy dãy điểm đặc trưng trên mẫu chuẩn đối sánh
với dãy điểm cùng vị trí trên mẫu cần nhận dạng để xác định mức độ giống nhau
giữa hai mẫu và từ đó ra quyết định xem mẫu nhận dạng tương ứng với chữ cái nào.
Việc chọn dãy điếm đặc trưng như thế nào là tuỳ thuộc vào ngôn ngữ, không có quy
chuấn nào cụ thể. Nói chung không nên chọn dãy điểm đặc trưng là tất cả các điểm
trên khung. Ví dụ ta có khoảng 10 mẫu số "2" khá giống nhau thì dãy điếm đặc
trưng tốt nhất nên chọn là những vị trí có màu giống nhau trên cả 10 mẫu số 2 này.
b) Pỉiương pháp lưới.
Luận văn tôt nghiệp cao học
Lê Minh Hoàng
Một phương pháp nhận dạng văn bản tiếng Việt «é*
Một lưới ỏ vuông chuẩn được trùm lên đối tượng, số lượng điểm cắt của mỗi nan
lưới dọc và ngang với đối tượng sẽ là đặc trưng của đối tượng. Đồng thời số lượng ô
chứa một phần của đối tượng cũng được sử dụng làm đặc trưng của đối tượng. Mỗi
đường dọc và ngang của lưới sẽ được gán một trọng số nhất định.
Khi đó dựa vào các thông số và trọng số kể trên, ta có thể xây dựng được một hàm
đặc trưng cho đối tượng và việc đối sánh hai đối tượng được quy về đối sánh các
hàm đặc trung.
Với phương pháp này, việc chuẩn hoá đối tượng là rất quan trọng vì nó sẽ giúp cho
việc xác định kích thước của lưới chuân được sử dụng. Hơn thế độ nghiêng của đối
tượng cần nhận dạng cũng có ảnh hưởng rất lớn đến kết quả của phương pháp này.
Hình 4: Phương pháp lưới
c) Phương pháp cung
Có thể loại bỏ ảnh hưởng của độ nghiêng trong phương pháp lưới bằng cách thay
thế lưới ô vuông chuấn bằng lưới hình vành khăn: các nan lưới là các đường tròn
đồng tâm và các đường thẳng qua tâm. Có thể coi đây là phương pháp lưới ứong toạ
độ cực. Tâm cực là trọng tâm của đối tượng. Những vấn đề xác định đặc trưng còn
lại tương tự như phương pháp lưới.
Luận văn tỏt nghiệp cao học

Lc Minh Hoàng Một phương pháp nhận dạng văn bản ticng Việt «£*
Hình 5: Phương pháp cung
d) Phương pháp chia miền và đo mật độ
Trong phương pháp này, mỗi ảnh tương ứng với một mẫu chừ được chia thành
Iihừng miền tách biệt và trên mỗi miền người ta đo mật độ những vùng thuộc chữ.
Những số đo này được dùng làm đặc trưng cho mẫu và được dùng làm tham số tính
toán cho hàm phân biệt. Phương pháp này rất nhạy cảm với độ nghiêng, độ đậm của
nét chừ
Hình 6: Mẩu chữ được chia làm 9 miền và bản đồ mật độ
II 1.2. Phương pháp phân tích cấu trúc
Đặc trưng của phương pháp phân tích cấu trúc là nhìn nhận mỗi mầu chữ như được
cấu thành từ những đối tượng hình học, quan tâm tới các nét, hướng, thứ tự tôpô và
đặc tả những đối tượng cũng như mối quan hệ giữa chúng để làm đặc trưng cho
Luận văn tôt nghiệp cao học
Lê Minh Hoàng «*v Một phương pháp nhận dạng văn bán tiéng Việt SÊ*
mẫu|Monl. Phương pháp phân tích cấu trúc thích họp với nhận dạng chừ viết tay, khi
mà các chữ được viết có thể coi là không theo một khuôn mẫu nào cả.
a) Phương pháp phân tích đường đơn
Năm 1960, Sherman đề xuất cách mô tả cấu trúc chữ bằng các đường mảnh (có thể
coi như khung xương của chữ được tạo thành nhờ các thuật toán làm mảnh). Với
cách mô ta này, mỗi mẫu chừ được tiệm cận bằng tập các đoạn thẳng đôi một không
cắt nhau (nhưng được phép trùng nhau ở đầu mút). Từ đó ông xây dựng một đồ thị
phăng tương ứng với tập các cạnh là các đoạn thẳng và tập các đỉnh là tập các đầu
mút. Trên đồ thị này, ông bỏ qua các đỉnh bậc 2, chỉ giữ lại những đỉnh đặc trưng là:
đỉnh treo, đinh rẽ nhánh, đỉnh cắt và coi những thông số đó là đặc trưng đế phân biệt
các chữ. Tuy nhiên trong trường hợp này, góc nhìn tôpô là rất quan trọng bởi nếu
chi dựa vào những thông số kế trên sẽ không tránh khỏi sự sai lầm.
Cách thứ nhất, để khắc phục nhược điểm này là ngoài những đỉnh treo, đỉnh rẽ
nhánh, đỉnh cắt, nhừng phần còn lại của đồ thị sẽ được mô tả đưới dạng các đoạn
thắng và các cung. Phương pháp này cho phép đặc tả cấu trúc chặt chẽ hơn nhưng

lại hết sức khó khăn khi cài đặt.
Cách thứ hai, có thể áp dụng được trong trường hợp này dựa vào nhận xét: Neu bở
đi các đỉnh rẽ nhánh, đỉnh cắt và đỉnh treo thì mồi phần rời còn lại có thể vẽ chỉ
bằng một nét đơn. Khi đó những nét đơn này có thể mã hoá bằng xích hướng hay
còn gọi là mã Freeman. Các mã Freeman cùng với những điểm đặc trưng trong
phương pháp của Sherman sẽ được dùng đế đặc tả cấu trúc chữ
Hình 7: Ví dụ tồi tệ đối với cách phân tích cấu trúc của Sherman
;?iA HA NO* ;
Luận văn tốt nghiệp cao học
Lê Minh Hoàng
Một phương pháp nhặn dạng văn ban tiếng Việt
3
2
X3> 1
Freeman code: 3, 3, 2, 2, 1
6
7
8
Hình 8: Mã Freeman
b) Phương pháp phân tích hình học
Trong phương pháp này, mỗi đối tượng được đặt trong không gian Euclide 2 chiều
và được đặc ta bằng các khái niệm hình học cơ bản: đoạn thẳng, đường tròn, ellipse,
thậm chí cả các đường Bezier và B-Spline. Mỗi đối tượng hình học này được viết
phương trình toạ độ và được ưích ra một số đặc trưng như hướng, độ cong, điểm
uốn v.v Và những đặc trưng này được dùng làm tham số cho hàm phân biệt của
mồi lớp.
Cách tiếp cận này khá chặt chẽ về mặt lý thuyết, chẳng hạn có thế mô tả chữ o là
2 2 1
X V I ci
một hình ellipse có phương trình — + —T = 1 với — < — < 3. Nhưng vấn đề phân

a b 3 b
tích hình học khi cài đặt trên máy tính nói chung là rất khó bởi như vậy gần như
phải xây dựng lại cách thiết kế font TrueType từ một ảnh.
c) Phương pháp phân tích đường biên
Trong phương pháp phân tích đường biên, từ một mẫu chữ, người ta tìm đường biên
(contour) của chữ và các đường biên của: bao lồi (convex hull), miền lõm
(concavity), các lỗ hống (hole) và vị trí tương đối giữa các lồ hổng.
,

Luận văn tôt nghiệp cao học
Lc Minh Hoàng Một phương pháp nhận dạng văn bản tiếng Việt ss*
9 • y •
a) b) c) d)
e)
Hình 9: Mau chữ (a), Bao lồi (b), Miền lõm (c), Lỗ hổng (d) và các dường biên (c)
Khi đó mỗi mẫu chừ sẽ được đặc tả bởi một bộ các đường biên. Mồi đường biên có
the được mô tả bằng mã Freeman, bằng đường cong nội suy
Có thể nhận thấy rằng nếu việc phân lóp các đường biên được thực hiện tốt thì việc
sử dụng quá nhiều yếu tố như tiên là quá chặt. Đối với chữ Việt, theo tôi chỉ cần lấy
đường biên của chừ và vị trí tương đối của các lỗ hổng là đủ. Bởi hình dạng của lỗ
hống cũng như bao lồi, miền lõm không mang tính chất quyết định tới việc nhận
dạng chừ Việt.
Phương pháp phân tích đường biên rất nhạy cảm trong trường hợp chữ bị dính nét
hay đứt nét, chính vì vậy cần phải có những giải pháp tiền xử lý đúng đắn trước khi
thực hiện việc dò biên.
d) Phương pháp sử dụng hình chiếu
Phai nói rằng đây là một phương pháp không c ó độ chính xác cao, nhưng vẫn được
nhiều tài liệu đề cập đến, bởi các hệ thống nhận dạng sử dụng phương pháp này có
tốc độ tốt và tận dụng được những ưu điểm của hình chiếu so với bản thân mẫu chữ.
Phương pháp này đặc biệt hiệu quả trong trường hợp chỉ cần nhận dạng trong một

tập hợp nhở các ký hiệu khó gây nên sự nhập nhằng (chẳng hạn như các chữ "Y" và
"N", "C" và "K", ) và cho phép một số sai sót nhất định. Thống kê các phiếu điều
tra là một ví dụ ứng dụng cho phương pháp sử dụng hình chiếu.
Luận văn tốt nghiệp cao học
Lê Minh Hoàng Một phương pháp nhận dạng văn bản tiéng Việt
Phương pháp sư dụng hình chiếu tức là sử dụng biểu đồ mật độ thay cho chừ.
Thông thường người ta sử dụng bốn loại biểu đồ mật độÍParkI995).
• Biêu đồ mật độ ngang (HRPCT): Là lược đồ xám ngang của chữ
• Biêu đồ mật độ dọc (VRPCT): Là lược đồ xám dọc của chữ
• Biểu đồ mật độ chiếu ngang dọc (HVRPCT)
• Biểu đồ mật độ chiếu chéo (DDRPCT)
Chi tiết về 4 phép chiếu này được trình bày trong hình 10:
\f




s. ▼
vỷr
—►X
liX
\ỵ<

<



— V
—► /1 k
/ í

> /
a
/
V4

I V

aM
-
N
Phép chiếu lên truc ngang Phép chiếu lên trục dọc Phép chiếu lên hai trục Phép chiếu lên hai trục
(HRPCT) (VRPCT) ngang dọc (HVRPCT) chéo (DDRPCT)
a * ỉ * *
ảnh gốc HRPCT VRPCT HVRPCT DDRPCT
Hình 10: Một số loại hình chiếu của mẫu chữ gốc
Một số ưu điểm nổi trội của các hình chiếu so với mẫu chừ ban đầu có thế kể ra là:
Hình chiếu không có lỗ hổng (miền đơn liên) nên chỉ có một đường biên. Đe dò
đường biên của hình chiếu không cần phải dùng các kỹ thuật của xử lý ảnh mà có
thể thực hiện ngay trong khi đo mật độ. Hình chiếu ít bị ảnh hưởng khi chữ bị dính
hay đứt nét.
Tuy nhiên phương pháp sử dụng hình chiếu cũng có nhược điểm: nó phụ thuộc vào
độ dày của nét chữ (nếu làm mảnh nét sẽ khiến cho hình chiếu không rõ ràng). Mặc
dù trong các chừ in tiếng Việt, không có hai ký tự nào giống nhau trên cả 4 loại hình
chiếu nhung đối với chữ viết tay, rất có thể 4 loại hình chiếu kể trên là chưa đủ đế
phân biệt.
Luận văn tôt nghiệp cao học
Lc Minh Hoàng
Một phương pháp nhận dạng văn bần tiếng Việt S5*
Việc đưa phương pháp sử dụng hình chiếu vào lớp các phương pháp phân tích cấu
trúc là chưa thật hợp lý, mà nên coi đây chỉ là một giải pháp để thay việc nhận dạng

mẫu chữ về việc nhận dạng các hình chiếu, còn việc nhận dạng như thế nào hoàn
toàn có thể sử dụng phương pháp đối sánh mẫu. Tuy nhiên để tận dụng được các ưu
điểm cua hình chiếu, người ta vẫn thường dùng phương pháp phân tích đường biên.
Trong công trinh nhận dạng bộ ký tự Hangul (Hàn Quốc), Hee-Seon Park và Seong-
Whan Lee đã inã hoá đường biên các hình chiếu dưới dạng mã Freeman và sừ dụng
mô hình Markov ẩn để nhận dạng đạt độ chính xác 96.7%, đây là một hiệu suất cao
trong nhận dạng chữ tượng hình.
IV. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN cứ u CỦA ĐÊ TÀI
Đề tài này trình bày phương pháp sử dụng mô hình Markov ẩn (Hidden Markov
Models - HMM) trong nhận dạng chừ viết tay hạn chế dựa theo cấu trúc biên cua
chữ. Tư tưởng chính là sử dụng các tiến trình ngẫu nhiên đề mô hình hoá quá trình
nhận dạng chữ viết bằng cách sử dụng xác suất để ưích chọn những đặc trưng cấu
trúc của đường biên. Đề tài nghiên cứu chuyên sâu vào các vấn đề:
• Đặc tả cấu trúc chữ: Phân tích các miền liên thông, biểu diễn đường biên theo
mã xích, phân lớp các mẫu huấn luyện
• Sử dụng HMM để loại bỏ nhiễu và trích chọn đặc trưng cấu trúc đường biên.
Phân tích tính hữu hiệu của phương pháp khi xử lý những thông tin không chắc
chắn hoặc không đầy đủ.
• Phương pháp nhận dạng từ Việt và các kỹ thuật xử lý văn bản.
Phạm vi nghiên cứu của đề tài là Tiếng Việt, vì vậy nội dung đề tài chỉ đề cập đến
các cách thức xử lý trong nhận dạng chữ và từ Tiếng Việt, những ký hiệu và từ
không phải tiếng Việt (Các bộ kí tự tượng hình, Sanskrit, Hy Lạp hay CnobeHufl )
không thuộc phạm vi nghiên cứu của đề tài.

J

Luận vãn tôt nghiệp cao học
Lc Mi nil Hoàng
Một phương pháp nhận dạng văn bản tiếng Việt «p»
Chương II:

Cơ SỞ LÝ THUYẾT
I.TÍNH MARKOV
Gia thiết chúng ta nghiên cứu sự tiến triển theo thời gian của một hệ vật lý hoặc
sinh thái nào đó. Ký hiệu X(t) là trạng thái của hệ tại thời điểm t. Tập họp tất cả các
trạng thái có thế gọi là không gian trạng thái. Giả sử trước thời điểm s, hệ ở trạng
thái nào đó, còn tại thời điếm s hệ ở trạng thái i. Ta cần biết tại thời điểm t trong
tương lai (t > s) hệ ở trạng thái j với xác suất là bao nhiêu?. Nếu xác suất này chỉ
phụ thuộc vào s, t, i và j thì điều này có nghĩa là. sự tiến triển của hệ trong tương
lai chỉ phụ thuộc vào hiện tại và độc lập vói quá khứ. Đó chính là tính Markov.
Hệ có tính chất này được gọi là quá trình Markov1T‘enl[Tien Yenl.
( 'hăng hạn, nếu gọi X(t) là dân sổ tại thời điểm t trong tương lai thì có thể xem như
Xít) chì phụ thuộc vào dân sổ hiện tại và độc lập VỚI quá khứ. Nói chung những hệ
không cỏ sức ỳ là những hệ có tính Markov.
Ta kí hiệu tập E là tập các giá trị của X(t) và gọi E là không gian trạng thái của X(t).
Nếu X(t) có tính Markov và E là tập không quá đếm được thì X(t) được gọi là xích
Markov (Markov chain). Thêm vào đó, nếu t = 0, 1, 2, thì ta có khái niệm xích
Markov với thòi gian rời rạc, còn nếu t e [0, +oo) thì ta có khái niệm xích Markov
với thời gian liên tục.
về phương diện toán học, tính Markov có thể định nghĩa như sau:
Ta nói rằng X(t) có tính Markov nếu:
P{X(tn+1) = j I X(to) = io,X(tn.,) = X(tn) = i} = P{X(tn+i) = j I X(tn) = i}
Với bất kỳ to < t| < <tn < tn+i và io, ii,i„-i, i,j e E.
Ta xem tn là hiện tại, tn+i là tương lai và (to, t], tn_i) là quá khứ. Vì thế biểu thức
trên thể hiện tính Markov của X(t).
ỉ Mận văn tôi nghiệp cao học
Lc Minh Hoàng Một phương pháp nhận dạng văn bản tiéng Việt
Đặt p(s, i, t, j) = P{X(t) = j I X(s) = i}, (s < t) đó là xác suất có điều kiện để hệ tại
thời điểm s ở trạng thái i đến thời điếm t chuyển sang trạng thái J. Ta gọi đây là xác
suất chuyển cua hệ. Nếu xác suất chuyển chỉ phụ thuộc vào t - s, tức là:
p(s, i, t, j) = p(s + À, i, t + À, j)

thỉ ta nói quá trình Markov này là thuần nhất theo thời gian.
II. XÍCH MARKOV RỜI RẠC VÀ THUẦN NHẤT

Giả sử (Xn); n = 0, 1, 2, là xích Markov rời rạc và thuần nhất. Nói một cách chính
xác là: Giả su (Q, A, P) là không gian xác suất, x n: Q —»E là biến ngẫu nhiên nhận
giá trị trong tập không quá đếm được E. E là không gian trạng thái mà các phần tử
của nó có thể đánh số 1, 2, Khi đó tính Markov và tính thuần nhất của (Xn) có
nghĩa là:
Pij — P(Xn+Ị — J I x n — ì) — P(Xn+1 — J I Xo — l o , x n_! ln-lj Xn — l)
không phụ thuộc vào n.
Trong trường hợp này, ta dùng ký hiệu a,j thay cho Pij để đặc trưng riêng cho xích
Markov rời rạc và thuần nhất.
Chú ý rằng từ công thức xác suất đầy đủ, ta suy ra:
Vi, j e E : 0 < ay < 1 và =1
je E
Xác suất chuyến sau n bước được định nghĩa theo công thức:
ai/n) = P(Xn+m = j I x m = i) = P(Xn = j I Xo = i)
Đây là xác suất để hệ đang ở trạng thái i, sau n đơn vị thời gian (n bước) chuyển
sang trạng thái J. Rõ ràng a,j( 1} = ay. Ta quy ước:
(0) _ 1 Ẵ
• a,j = 1 nêu i = J
• aịJ(0) = 0 nếu i * j
Luận vãn tốt nghiệp cao học
Le Minh Hoàng <*ì* Một phương pháp nhận dạng văn bàn tiéng Việt «é*
*v24ss>“
l a sẽ chứng minh công thức sau: Vn = 0, 1,2,
,(n + l)
. 5
keE
(n)

^ĩk ^kj
Ta lập luận như sau: Để hệ xuất phát ở trạng thái i, sau n + 1 bước chuyển sang
trạng thái J là kết quả của việc hệ xuất phát từ trạng thái i, sau 1 bước chuyển sang
trạng thái k nào đó, để rồi sau n bước tiếp theo chuyển tới trạng thái j. Từ đó suy ra:
= P (X n+1= j|X 0 = i)
S P ( X n+, = j | x 0 = i,x, = k).P(X, = k|x„ = i)
keE
£ P(X n+1 = j|Xj = k).P(X, = k|X0 = i) (Do tính Markov)
keE
P(X n = j X 0 = k).P(Xj = k|X0 = i) (Do tính thuần nhất)
I
keE
Tổng quát hơti, ta có phương trình Chapman - Kolmogorov:
(m+n) V a (m)Q(n)
a ij ~ Zi ik kj
keE
Trường hợp E = {1, 2, D} thì các giá trị aj/n) có thể viết dưới dạng ma trận vuông
A(n) cấp D. Khi đó phương trình Chapman - Kolmogorov có thể viết dưới dạng ma
trận:
Ạ (m + n) _ ^ ( m ) ^ ( n )
Điều đó có nghĩa là:
A (n) = A n

f

Luận văn tôt nghiệp cao học
Le Minh Hoàng
Một phương pháp nhận dạng văn bản tiéng Việt «£*
III. Mô HÌNH XÍCH MARKOV
Có nhiều loại mô hình xích Markov: Mô hình kiểm kê, mô hình bình, mô hình phục

vụ đám đông v.v. Tuy nhiên dưới đây ta chỉ xét tới một ví dụ quan trọng liên quan
tới việc xây dựng lý thuyết về mô hình Markov ẩn.
Trò chơi nhặt bóng (Urns and balls model|Rabmerl[Ponlzl): Có N cái bình đánh số 1,2,
N. Trong mỗi bình có chứa một số quả bóng, mỗi quả bóng có một trong M màu:
{V], VM}. Trò chơi diễn ra như sau: Người ta chọn ngẫu nhiên một bình, trong
bình đó chọn ngẫu nhiên một quả bóng, ghi nhận lại màu của quả bóng đó rồi trả lại
quà bóng vào bình. Sau T lần như vậy dãy màu ghi nhận được có dạng 0], 0 2,
Or
Gia sư 71 i là xác suất để bình thứ 1 được chọn đầu tiên, a¡j là xác suất tại thời điểm
t+1 chọn bình thứ j trong điều kiện tại thời điểm t đã chọn bình thứ i. a,j không phụ
thuộc vào t (nó chỉ phụ thuộc vào khoảng cách giữa hai bình chẳng hạn), và cuối
cùng ta biết được số bóng trong mỗi bình cũng như màu của các quả bóng đó, hay
rõ hơn, ta biết được bj(vk) là xác suất để chọn được quả bóng màu v k trong bình j.
Một trong những vấn đề đặt ra là cho trước một dãy màu o = (Oi, O2 , Or), hãy
tính xác suất để người chơi chọn được dãy màu đó.
Đê tính xác suất này, ta thử xét xem nếu dãy bình được chọn là Q = (qi, q2 , q-r)
thì xác suất nhận được dãy o = (Oi, 0 2, 0 T) là bao nhiêu. Dễ thấy rằng:
P (0|Ọ ) = bqi(0,).bq2(02)

bqT(0 T)
Ngoài ra, xác suất để chọn được dãy bình Q = (q]; q2,q-r) là:
P(Q) = ^qj-^q
\C\2
‘^2^3 ^T-lqT
Vậy xác suất để chọn được dãy bình ọ và dãy màu o là:
P(0, Q) = P(0 I Q).P(Q) = 7iqi.bqi(0i).aqiq2.bq2(02).aq2q3 aq.r iqT.bqT(0 T).

7

Luận văn tỏt nghiệp cao học

×