Tải bản đầy đủ (.docx) (19 trang)

báo cao xư lý ngôn ngữ tự nhiên gán nhãn từ loại tiếng anh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (553.85 KB, 19 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NÔI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
BỘ MÔN HỆ THỐNG THÔNG TIN
BÀI TẬP LỚN
XỬ LÝ NGÔN NGỮ TỰ NHIÊN
ĐỀ TÀI:
Gán nhãn từ loại Tiếng Anh
Giáo viên hướng dẫn :
PGS.Lê Thanh Hương
Sinh viên thực hiện:
1.Lê Xuân Tùng 20083004
2.Nguyễn Hán Luân 20081642
3.Ngô Quang Vịnh 20083571
4.Lương Thành Công 20080314
5.Đỗ Duy Quang 20082051
Lớp : HTTT-K53
Hà Nội,tháng 4 năm 2012
1
MỤC LỤC
Gán nhãn từ loại Tiếng Anh Trang 2
NỘI DUNG
I.KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI.
1. Khái niệm về gán nhãn từ loại.
Gán nhãn từ loại là một vấn đề rất quan trọng trong lĩnh vực xử lý ngôn ngữ
tự nhiên, đây là bước tiền xử lý của nhiều bài toán và một số hệ thống thông minh
khác. Mỗi từ trong một ngôn ngữ nói chung đôi khi có thể gắn với nhiều từ loại và
việc giải thích đúng nghĩa một từ phụ thuộc vào việc nó có được xác định đúng từ
loại hay không dựa trên ngữ cảnh cho trước. Công việc gán nhãn từ loại cho một
văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loại
các từ thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ. Việc gán nhãn
từ loại thường được thể hiện bằng cách gán cho mỗi từ một “nhãn” có sẵn theo tập


nhãn cho trước.
Từ loại là những lớp từ có cùng bản chất ngữ pháp, được phân chia theo ý
nghĩa khái quát, theo khả năng kết hợp với các từ ngữ khác trong ngữ lưu và thực
hiện những chức năng ngữ pháp nhất định ở trong câu.
Mô tả bài toán:
+ Input: Một chuỗi các từ và tập nhãn từ loại ( Ví dụ như chuỗi các từ “Book
that flight.” và tập nhãn từ loại Penn Treebank của tiếng Anh. )
+ Output: Một nhãn tốt nhất cho từng từ trong chuỗi từ đã được đưa ra ( Ví
dụ: đối với chuỗi từ “Book that flight.” thì nhãn thích hợp tương ứng cho từng từ
sẽ là Book/VB that/DT flight/NN./ ).
Quá trình gán nhãn từ loại
Thường được chia làm 3 bước như sau:
+ Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các từ. Giai đoạn
này có thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ
vựng. Chẳng hạn đối với tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn là
dựa vào các ký hiệu trắng. Tuy nhiên vẫn có những từ ghép hay những cụm từ gây
tranh cãi về cách xử lý.
+ Khởi tạo gán nhãn, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó
có thể có. Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho ngữ liệu
đã gán nhãn bằng tay. Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu thì
có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn. Trong các
Gán nhãn từ loại Tiếng Anh Trang 3
ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán nhận lớp
từ loại tương ứng của từ đang xét.
+ Quyết định kết quả gán nhãn, đó là giai đoạn loại bỏ nhập nhằng, tức là
lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo
nói trên. Có nhiều phương pháp để thực hiện việc này, trong đó người ta phân biệt
chủ yếu các phương pháp dựa vào quy tắc ngữ pháp và các phương pháp xác suất.
Ngoài ra còn có các hệ thống sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết
hợp tính toán xác suất và ràng buộc ngữ pháp, gán nhãn nhiều tầng …

2. Ứng dụng của bài toán gán nhãn từ loại.
Gán nhãn từ loại là một công việc quan trọng và bắt buộc phải có đối với
hầu hết các ứng dụng xử lý ngôn ngữ tự nhiên. Nếu coi quá trình xử lý ngôn ngữ tự
nhiên gồm các bước: Tiền xử lý văn bản, phân tích hình thái, phân tích cú pháp và
phân tích ngữ nghĩa thì gán nhãn từ loại thuộc vào bước phân tích hình thái. Bước
này có nhiệm vụ phân tích câu thành một bảng các từ (hay cụm từ) riêng biệt, đồng
thời kèm theo tất cả các thông tin về từ đó, như là: Từ loại (part-of-speech), phạm
trù ngữ pháp (category), các biến cách của từ, tiền tố, hậu tố của từ.
Một số ứng dụng quan trọng của gán nhãn từ loại:
+ Thành công của việc gán nhãn từ loại tiếng Việt sẽ là cơ sở cho việc giải
quyết các bài toán xử lý ngôn ngữ tự nhiên khác như tóm tắt văn bản, phân cụm,
phân loại văn bản …
+ Khi hệ thống văn bản đã được gán nhãn, hay nói cách khác là đã được chú
thích từ loại thì nó sẽ được ứng dụng rộng rãi trong các hệ thống tìm kiếm thông
tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng
như trong các hệ thống dịch máy …
+ Một trong những ứng dụng thường được nhắc đến nhiều nhất của gán nhãn
từ loại là trong hệ thống dịch máy. Có ba cách để thực hiện bài toán dịch máy là:
dịch trực tiếp, dịch thông qua ngôn ngữ trung gian và dịch dựa trên chuyển đổi.
Trong đó phương pháp dịch dựa trên chuyển đổi tỏ ra là có hiệu quả nhất. Nếu cây
cú pháp bị gán nhãn từ loại sai dẫn đến cây cú pháp của câu cũng bị sai. Giả sử như
hệ thống tiến hành dịch câu sau đây từ tiếng Anh sang tiếng Việt: “Jet planes fly
about nine miles high”, nếu không có sự trợ giúp của công cụ gán nhãn từ loại, hệ
thống dịch máy chỉ dịch từ từ sang từ thì ta sẽ có được kết quả tiếng Việt là “Phản
lực các phi cơ bay khoảng chín dặm cao”
Jet planes fly about nine miles high.

Gán nhãn từ loại Tiếng Anh Trang 4

Phản lực các phi cơ bay khoảng chín dặm cao.

Trong khi đó, nếu các từ đã được gán nhãn từ loại một cách chính xác, ta sẽ
có khả năng cao nhận được một câu tiếng Việt hợp lý hơn rất nhiều: “Các phi cơ
phản lực bay cao khoảng chín dặm”
Jet planes fly about nine miles high.


Các phi cơ phản lực bay cao khoảng chín dặm.
3. Các khó khăn của bài toán gán nhãn từ loại.
Giả sử mỗi từ chỉ có một nhãn từ loại và chúng ta có thể xây dựng được một
từ điển hữu hạn các từ và nhãn tương ứng của nó thì chắc chắn chúng ta có thể giải
quyết được bài toán gán nhãn từ loại với kết quả tối ưu. Tuy nhiên, trong thực tế
một từ đôi khi có thể có nhiều hơn một nhãn từ loại thích hợp, và ta cũng không
thể kiểm soát được toàn bộ các từ có thể xuất hiện trong văn bản, điều này dẫn đến
hai vấn đề mà bài toán gán nhãn từ loại phải đối mặt: Nhập nhằng từ loại và từ
mới. Thực tế thì vấn đề chủ yếu của bài toán gán nhãn từ loại thực chất là việc loại
bỏ nhập nhằng về từ loại, tức là khi một từ có nhiều từ loại, nhưng trong một ngữ
cảnh cụ thể, nó chỉ có thể có một từ loại đúng mà thôi.
Nhìn chung, các nhập nhằng từ loại thường được giải quyết bằng cách xét
đến ngữ cảnh mà từ đó xuất hiện, tuy nhiên trong một số trường hợp, ngay cả khi
có thông tin về ngữ cảnh mà một số từ vẫn còn sự nhập nhằng về từ loại. Một vấn
đề khác mà bài toán gán nhãn từ loại cần phải xử lý là khi gặp những từ mới mà bộ
gán nhãn không thể giải quyết được bằng những cách thông thường. Trong trường
hợp này, thường thì hệ thống sẽ để nguyên và đánh dấu một từ loại đặc biệt để
chuyển sang phần xử lý tên riêng ( proper name ) hay từ mới ( unknown word ).
II. CƠ SỞ LÝ THUYẾT.
1. Tập nhãn trong gán nhãn từ loại.
Gán nhãn từ loại Tiếng Anh Trang 5
Các tập nhãn sử dụng cho việc gán nhãn từ loại thường được xây dựng và
phát triển từ các lớp cơ bản là các lớp từ đóng ( Closed word class, function word
class, còn được gọi là các từ chức năng, là một tập cố định và không thể mở rộng,

các lớp này thường chỉ chứa một số lượng ít các từ có liên quan. Ví dụ: Giới từ,
mạo từ, đại từ, số đếm ) và các lớp từ mở ( Open class, là các lớp từ có khả năng
mở rộng bằng cách tạo thêm từ mới hoặc “mượn” từ các ngôn ngữ khác. )
Các lớp từ đóng gồm có:
+ Giới từ (Prepositions): on, under, over,…
+ Tiểu từ (Particles): abroad, about, around, before, in, instead, since, without,…
+ Mạo từ (Articles): a, an, the
+ Liên từ (Conjunctions): and, or, but, that,…
+ Đại từ (Pronouns): you, me, I, your, what, who,…
+ Trợ động từ (Auxiliary verbs): can, will, may, should…
Gán nhãn từ loại Tiếng Anh Trang 6
Lớp từ mở trong Tiếng Anh:
Proper noun: IBM, Colorado…
Noun Common noun Count nouns : book, cat…
Mass noun: snow, sand
Verb Auxiliaries: go, run, eat…

Adjectives Color: red, green, blue…
Age: old, young…
Openclass Value: good, bad…
Locatives adverbs: home, here…
Adverb Degree adverbs: extremely, very…
Manner adverbs: slowly, delicately…
Temporal adverbs: yesterday, Monday…
Đối với tiếng Anh thì hiện nay đã có rất nhiều tập từ loại khác nhau được
xây dựng:

Gán nhãn từ loại Tiếng Anh Trang 7
Một số tập nhãn từ loại cho tiếng Anh.
Có thể kể đến một số tập từ nhãn điển hình như:

+ Brown corpus: 87 nhãn.
+ Penn Treebank: 45 nhãn. Các nhãn của tập nhãn từ loại Penn Treebank
được cho trong bảng dưới đây.
+ Lancaster UCREL C5 (Dùng để gán nhãn BNC – British National
Corpus): 61 nhãn.
+ Lancaster C7: 145 nhãn.
Nhãn Ý nghĩa Nhãn Ý nghĩa
CC Coordinating conjunction SYM Symbol
CD Cardinal number TO “to”
DT Determiner UH Interjection
EX Existential there VB Verb, base form
FW Foreign word VBD Verb, past tense
IN Preposition/sub- conjunction VBG Verb, gerund,present participle
JJ Adjective VBN Verb, past participle
JJR Adjective, comparative VBP Verb, non-3rd person singular
present
JJS Adjective, superlative VBZ Verb, 3rd person singular
present
LS List item marker WT
D
Wh-determiner
MD Modal WP Wh-pronoun
NN Noun, singular or mass WP$ Possessive wh-pronoun
NNS Noun, plural WR
B
Wh-adverb
NNP Proper noun, singular $ Dollar sign
NNP
S
Proper noun, plural # Pound sign

PDT Predeterminer “ Left quote
POS Possessive ending ” Right quote
PP Personal pronoun ( Left parenthesis
PP$ Possessive pronoun ) Right parenthesis
RB Adverb , Comma
Gán nhãn từ loại Tiếng Anh Trang 8
RBR Adverb, comparative . Sentence-final punc
RBS Adverb, superlative : Mid-sentence punc
Bảng Penn Treebank.
Ví dụ:
The grand jury commented on a number of other topics.
=> The/DT grand/JJ jury/NN commented/VBD on/IN a/DT number/NN
of/IN other/JJ topics/NNS ./.
2.Học máy và xử lý ngôn ngữ tự nhiên.
Các phương pháp máy học được áp dụng trong lĩnh vực xử lý ngôn
ngữ tự nhiên được phân loại như sau:
+ Hướng tiếp cận theo thống kê (stochastic approach).
+ Hướng tiếp cận theo biểu trưng ( symbolic approach ): học theo ví dụ ( instance –
based learning ), cây quyết định ( decision tree ), logic quy nạp ( inductive logic ),
phân tách tuyến tính theo ngưỡng ( threshold linear separator ) Trong các phương
pháp này, đáng chú ý nhất là phương pháp học dựa trên các luật chuyển đổi ( TBL
– Transformation Based Learning ). Phương pháp này cho phép đưa ra tập các
khung luậttổng quát có thể giải quyết các vấn đề nhậpnhằng tương tự nhau ( như
trong bài toán gán nhãn từ loại ).
+ Hướng tiếp cận theo biểu trưng thay thế (sybsymbolic approach): mạng nơ-ron
(neural network), thuật toán di tuyền (genetic algorithm)
Ở đây chúng ta tập trung vào hướng tiếp cận thống kê và mô hình Markov ẩn.
3.Hướng tiếp cận thống kê.
Hướng tiếp cận thống kê được xem là một hướng tiếp cận mô tả quá trình
thế giới thực tạo ra dữ liệu quan sát được. Các mô hình trong hướng tiếpcậnthống

kê thường được thể hiện dưới dạng một mạng thống kê các mối quan hệ phụ thuộc
giữa các biến ngẫu nhiên. Mỗi nút của mạng có một phân phối, và từ những phân
phối này chúng ta cố gắng tìm ra các phân phối chung của dữ liệu quan sát. Các
hướng tiếp cận khác nhau của phương pháp này xuất phát từ cách tạo ra mạng
thống kê và cách kết hợp các phân phối của mỗi nút.
Gán nhãn từ loại Tiếng Anh Trang 9
Có khá nhiều môhình trong hướng tiếp cận này được áp dụng trong lĩnh vực
xử lý ngôn ngữ tự nhiên. Ví dụ như mô hình phân loại Bayes ( Naive Bayes
classifier ), nguyên lý hỗn loạn cực đại ( Maximum Entropy Principle ), mô hình
Markov ẩn ( Hidden Markov model ). Các mô hình này được áp dụng để giải quyết
nhiều bài toán trong xử lý ngôn ngữ tự nhiên như: sửa lỗi chính tả theo ngữ cảnh,
gán nhãn từ loại, nhận dạng mệnh đề, nhận dạng tiếng nói… Hiện nay trong bài
toán gán nhãn từ loại thì hướng tiếp cận thống kê được xem là một trong những
hương tiếp cận có kết quả cao.
III. MÔ HÌNH MARKOV ẨN.
1.Khái niệm
Mô hình markov ẩn là mô hình thống kê trong đó hệ thống được mô hình
hóa được cho là một quá trình Markov với các tham số không biết trước và nhiệm
vụ là xác định các tham số ẩn từ các tham số quan sát được, dựa trên sự thừa nhận
này. Các tham số của mô hình được rút ra sau đó có thể sử dụng để thực hiện các
phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu.
Trong một mô hình Markov điển hình, trạng thái được quan sát trực tiếp bởi người
quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham số duy nhất. Mô
hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất phân bổ trên các
biểu hiện đầu ra có thể. Vì vậy, nhìn vào dãy của các biểu hiện được sinh ra bởi
HMM không trực tiếp chỉ ra dãy các trạng thái.
Đây là một mô hình toán thống kê có ứng dụng rộng rãi trong sinh tin học.
Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất phân bổ trên
các biểu hiện đầu ra có thể. Vì vậy, nhìn vào dãy của các biểu hiện được sinh ra bởi
HMM không trực tiếp chỉ ra dãy các trạng thái.

Nhiều bài toán thực tế được biểu diễn dưới mối quan hệ nhân quả, nhưng chỉ quan
sát được phần quả còn phần nhân thì ẩn.
• HMM dùng để giải quyết các bài toán xác lập mối nhân quả cục bộ
(Fragmentation,Classification, Similarity Search).
Cơ chế của mô hình Markov ẩn là sử dụng tất cả những thông tin đã có và đoán.
Gán nhãn dựa trên xác suất theo mô hình Markov ẩn:
Gán nhãn từ loại Tiếng Anh Trang 10
Chọn thẻ từ loại làm tối đa xác suất.
P(từ|từ loại).P(từ loại| n từ loại phía trước)
Ví dụ:
The/DT grand/JJ jury/NN commented/VBD on/IN a/DT number/NN of/IN
other/NNS
 P(jury|NN)=1/2
Công thức Bigram HMM: chọn t cho w có nhiều khả năng nhất khi biết t
i
và w
i
:
t
i
= argmax
j
P(t
j
|t
i-1
,w
i
)
Giả thiết đơn giản hóa HMM: Vấn đề có thể giải quyết bằng cách dựa trên các từ

và thẻ từ bên cạnh nó:
t
i
=argmax
j
P(t
j
|t
j-1
).P(w
i
|t
j
)
xschuỗi thẻ xs thường xuất hiện với thẻ t
j
Một mô hình Markov ẩn bao gồm các thông số sau:
1) Số trạng thái ‘state’ N có trong mô hình và các trạng thái này là ẩn. Các trạng
thái này sẽ được biểu thị tương ứng với giá trị S=(S1, …., SN) gọi là tập tất cả các
trạng thái ẩn.
2) M, Số symbol trên mỗi dãy quan sát trong một ‘State’. Các symbol này sẽ được
biểu thị tương ứng bởi các giá trị V=(V¬1, …, VM) gọi là tập tất cả các ký hiệu
quan sát được.
3) A= [aij] xác suất chuyển trạng được xác định theo biểu thức sau:
Trong trường hợp đặc biệt, khi các trạng thái là như nhau in a single step , ta có aij
> 0 đối với tất cả các giá trị i và j. Trong một vài loại hình khác của HMM, ta chi
aij = 0 cho một vài căp (i,j).
4) B=[bij] xác suất sinh ký hiệu.
5) p= [pi] xác suất khởi trạng
6) qt - Trạng thái ở thời điểm t.

7) Ot= (ký hiệu) Quan sát tại thời điểm t.
Cho các giá trị N, M, A, B và π thích hợp, mô hình HMM sẽ cho ra một chuỗi quan
sát như sau:
O = O1 O2 … OT
(Trong đó, mỗi giá trị Ot là một trong số các symbol của tập các ký hiệu quan sát
được V và T là số lượng chuỗi quan sát.)
- Chọn trạng thái khởi đầu là q1 = S1 tuỳ thuộc vào xác xuất khởi trạng π.
- Cho t = 1
- Chọn Ot = Vk theo xác suất nhả ký tự bi(k) của tập các trạng thái ẩn Si
Gán nhãn từ loại Tiếng Anh Trang 11
- Và chuyển sang trạng thái mới qt+1 = Sj tuỳ theo xác suất chuyển trạng aij của
tập các trạng thái ẩn.
- Thiết lập t = t +1 và sau đó quay lại thực hiện lần lược như bước (3). Nếu t < T thì
kết thúc thuật toán.
.Ứng dụng của mô hình Markov ẩn: Mô hình này được ứng dụng nhiều trong các
lĩnh vực như:
• Nhận dạng tiếng nói.
• Nhận dạng chữ viết tay.
• Xử lý ngôn ngữ thống kê.
• Dịch máy.
• Tin sinh học:
– Khớp xấp xỉ nhiều chuỗi.
– Tìm Motif.
_Tìm kiếm tương tự.
Thuộc tính Markov
Một dãy trạng thái ngẫu nhiên gọi là có thuộc tính Markov nếu như xác suất
chuyển sang trạng thái tiếp theo chỉ phụ thuộc vào trạng thái hiện tại và quá khứ.
– Dãy chuyển trạng quan sát được → Xích Markov.
– Dãy chuyển trạng không quan sát được → Mô hình Markov ẩn.
Mô hình Markov ẩn – HMM

Dưới đây là mô hình đồ thị chuyển trạng. Trong đó:
• Các node là các trạng thái.
• Các cung là các chuyển trạng có gắn xác suất.
• Các node “sinh” các ký hiệu theo xác suất.
• Các kỹ hiệu “sinh” quan sát được trong khi dãy chuyển trạng là ẩn.
2.Cách chuyển trạng thái trong mô hình Markov ẩn
Gán nhãn từ loại Tiếng Anh Trang 12
3.Sự tiến hóa của mô hình Markov ẩn
Biểu đồ trên đây làm nổi bật các chuyển tiếp trạng thái của mô hình Markov ẩn.
Nó cũng có ích để biểu diễn rõ ràng sự tiến hóa của mô hình theo thời gian, với các
trạng thái tại các thời điểm khác nhau t
1
và t
2
được biểu diễn bằng các tham biến
khác nhau, x(t
1
) và x(t
2
).
Trong biểu đồ này, nó được hiểu rằng thời gian chia cắt ra (x(t), y(t)) mở rộng tới
các thời gian trước và sau đó như một sự cần thiết. Thông thường lát cắt sớm nhất
là thời gian t=0 hay t=1.
4.Sử dụng các mô hình Markov
Có ba vấn đề cơ bản để giải quyết bằng HMM:
• Cung cấp cho mô hình các tham số, tính xác suất của dãy đầu ra cụ thể. Giải
bằng thuật toán sy diễn tiến.
Gán nhãn từ loại Tiếng Anh Trang 13
• Cung cấp cho mô hình các tham số, tìm dãy các trạng thái (ẩn) có khả năng
lớn nhất mà có thể sinh ra dãy đầu ra đã cung cấp. Giải bằng thuật toán

Vieterbi.
• Cung cấp dãy đầu ra, tìm tập hợp có khả năng nhất của chuyển tiếp trạng
thái và các xác suất đầu ra. Giải bằng thuật toán Balum Welch.
Ví dụ cụ thể
• Giả sử tôi có một người bạn sống ở rất xa. Hàng ngày chúng tôi gọi điện
thoại cho nhau và anh ta kể cho tôi nghe anh ta đã làm gì trong ngày. Người
bạn tôi chỉ có 3 công việc mà anh thích làm là 1) đi dạo, 2) đi chợ và 3) dọn
phòng. Hiển nhiên là sự lựa chọn phải làm gì thì phụ thuộc trực tiếp vào thời
tiết hôm đấy thế nào. Như vậy, tôi không nhận được thông tin cụ thể về thời
tiết nơi anh bạn tôi sống nhưng tôi lại biết về xu hướng chung. Dựa vào lời
kể của công việc hàng ngày của anh ta, tôi có thể đoán về thời tiết hôm đó.
• Như vậy, thời tiết được vận hành như một chuỗi Markov cụ thể. Có 2 trạng
thái thời tiết, "Mưa" và "Nắng", nhưng tôi không quan sát trực tiếp, do đó,
chúng là ẩn đối với tôi. Vào mỗi ngày, anh bạn tôi sẽ làm một trong các việc
sau phụ thuộc vào thời tiết hôm đó là "đi dạo", "đi chợ" và "dọn phòng". Vì
anh bạn tôi đã tường thuật lại hoạt động của mình, đó là các dữ liệu quan
sát. Toàn bộ hệ thống này là một mô hình Markov ẩn (HMM).
Trong đoạn câu lệnh trên, khả_năng_ban_đầu cho thấy tôi không chắc về trạng thái
HMM khi người bạn đầu tiên gọi điện cho tôi (tất cả cái tôi biết là trời có vẻ mưa).
khả_năng_chuyển_dịch cho thấy những thay đổi về thời tiết trong chuỗi Markov.
Trong ví dụ này, chỉ có 30% khả năng ngày mai trời sẽ nắng nếu hôm nay trời
mưa. Khả_năng_loại_bỏ cho thấy anh bạn thích làm những việc gì mỗi ngày. Nếu
Gán nhãn từ loại Tiếng Anh Trang 14
trời mưa thì có đến 50% khả năng anh bạn này sẽ dọn phòng, trong khi trời nắng
thì 60% khả năng anh ta sẽ đi dạo.
Ví dụ này được xem xét tỉ mỉ hơn trong trang Viterbi
Các ứng dụng
• Sự nhận biết lời nói hay ký tự quan học.
• Quy trình ngôn ngữ tự nhiên.
• Tin sinh học và hệ gen học.

o Dự đoán các vùng mang mã khung đọc mở trên một trình tự gen.
o Xác định các họ gen hoặc họ proteinliên quan.
o Mô phỏng cấu trúc không gian của protein từ trình tự amino acid.
• Vvv….
Gán nhãn từ loại Tiếng Anh Trang 15
DEMO CHƯƠNG TRÌNH
Sau đây là chương trình demo.
Sau khi chạy chương trình sẽ ra giao diện như sau:
Dữ liệu trong chương trình đã được lưu ở file test.pos
Tập học là test.pos đây là một văn bản đã chứa sẵn hơn 60000 câu đã gán nhãn từ
loại. Giữa hai câu được ngăn cách bằng ký hiêu. <s><s>
Ta sẽ load đến file dữ liệu có trong chương trình sẽ như sau.
Gán nhãn từ loại Tiếng Anh Trang 16
Sau đây chúng ta gõ câu tiếng anh “Have a nice day” sẽ cho kết quả như sau:
Gán nhãn từ loại Tiếng Anh Trang 17
Gán nhãn từ loại Tiếng Anh Trang 18
TÀI LIỆU THAM KHẢO
1.Wikipedia-mô hinh markov ẩn
2. Lawrence Rabiner, 1989. A Tutorial on Hidden Markov Models and Selected
Applications in Speech Recognition.
/>%20applications.pdf
3. Kristie Seymore, Andrew McCallum, and Roni Rosenfeld. Learning Hidden
Markov Model Structure for Information Extraction. AAAI 99 Workshop on
Machine Learning for Information Extraction, 1999.
4. />5.Bài giảng xử lý ngôn ngữ tự nhiên –cô Lê Thanh Hương
Gán nhãn từ loại Tiếng Anh Trang 19

×