Tải bản đầy đủ (.pdf) (49 trang)

Xử lý nhập nhằng ngữ nghĩa trong hệ dịch anh việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.54 MB, 49 trang )

Báo cáo:

Xử lý nhập nhằng ngữ nghĩa trong hệ dịch
Anh – Việt


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

Mục Lục
CHƯƠNG I ................................................................................................................................... 5
GIỚI THIỆU ĐỀ TÀI ................................................................................................................... 5
1.1

Nhập nhằng : .................................................................................................................... 5

1.2

Lịch sử : ........................................................................................................................... 6

1.3

Các khó khăn trong xử lý nhập nhằng : ........................................................................... 7

1.3.1 Sự khác biệt giữa các từ điển: ...................................................................................... 7
1.3.2 Gán nhãn ngữ liệu (Part of speech tagging): ................................................................ 7
1.3.3 Kiến thức đời thường ( common sense ): ..................................................................... 7
1.3.4 Nghĩa trừu tượng/nghĩa bóng : ..................................................................................... 7
1.4

Ứng dụng : ....................................................................................................................... 8


CHƯƠNG 2 ................................................................................................................................... 9
CÁC PHƯƠNG PHÁP XỬ LÝ NHẬP NHẰNG ......................................................................... 9
2.1

Xử lý nhập nhằng dựa trên định nghĩa : .......................................................................... 9

2.1.1 Từ điển : ....................................................................................................................... 9
2.1.2 Thuật toán Lesk (1986) : ............................................................................................ 10
2.1.3 Lesk phiên bản đơn giản: .......................................................................................... 11
2.1.4 Chọn tham chiếu : ...................................................................................................... 13
2.1.5 Các thuật tốn heuristic : ............................................................................................ 15
2.2

Xử lý nhập nhằng có giám sát: ...................................................................................... 17

2.2.1 Có giám sát là gì ? ...................................................................................................... 17
2.2.2 Phương pháp phân loại Bayes : .................................................................................. 20
2.2.3 Cây quyết định ( Decision Tree) : .............................................................................. 23
2.3

Xử lý nhập nhằng không giám sát : ............................................................................... 27

2.3.1 Không giám sát là gì ? ................................................................................................ 27
2.3.2 Type-based : ............................................................................................................... 28
2.3.3 Token-based : ............................................................................................................. 30

2|Page


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt


2.4

Xử lý nhập nhằng bán giám sát (giám sát một cách tối thiểu) : .................................... 31

2.4.1 Bán giám sát ( giám sát một cách tối thiểu) ? ............................................................ 31
2.4.2 Tự huấn luyện (self-training) : ................................................................................... 32
2.4.3 Cùng huấn luyện (co-training): .................................................................................. 34
2.4.4 Thuật toán Yarowsky : ............................................................................................... 35
CHƯƠNG 3 ................................................................................................................................. 39
MƠ HÌNH VÀ GIẢI THUẬT ..................................................................................................... 39
3.1 Mơ hình : ........................................................................................................................... 39
3.2 Giải thuật : ......................................................................................................................... 40
CHƯƠNG 4 ................................................................................................................................. 42
CHƯƠNG TRÌNH THỰC NGHIỆM ......................................................................................... 42
4.1 Giao diện : ......................................................................................................................... 42
4.2 Cơ cấu hoạt động :............................................................................................................. 43
4.3 Khó khăn và hạn chế : ....................................................................................................... 47
CHƯƠNG 5 ................................................................................................................................. 48
KẾT QUẢ VÀ HƯỚNG PHÁT TRIỄN ..................................................................................... 48
5.1 Công việc và kết quả : ....................................................................................................... 48
5.2 Hướng phát triễn : ............................................................................................................. 48
TÀI LIỆU THAM KHẢO ........................................................................................................... 49

3|Page


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

CÁC TỪ VIẾT TẮT

POS
XLNNTN
WSD
AI
PAC

Part of Speech
Xử Lý Ngôn Ngữ Tự Nhiên
Word Sense disambiguation
Artificial Intelligence
Probably Approximately Correct

4|Page


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

CHƯƠNG I
GIỚI THIỆU ĐỀ TÀI
1.1 Nhập nhằng :
Trong bất kỳ ngơn ngữ nào thì một từ thường có khá nhiều nghĩa khác nhau (hay cịn
gọi là từ nhiều nghĩa) chính vì vậy khi ta muốn chuyển từ một ngôn ngữ này sang một ngôn
ngữ khác sẽ mắc phải vấn đề làm thế nào để chọn đúng nghĩa của từ đó trong mỗi ngữ cảnh
khác nhau.
Ví dụ: từ bank trong tiếng anh có 2 nghĩa chính khi dịch sang tiếng Việt:
 Ngân hàng
 Bờ (sông, hồ)
Hai nghĩa này mang ý nghĩa hoàn toàn khác nhau và được sử dụng trong 2 câu khác nhau
như sau :
 He is fishing at the bank – Anh ấy đang câu cá ở bờ sông.

 There are some robbers at the bank. – Có vài tên cướp tại ngân hàng.
Việc khử nhập nhằn (disambiguation) chính là xác định đâu là nghĩa chính xác của từ trong
một ngữ cảnh nhất định. Nó địi hỏi 2 thứ khơng thể nào thiếu được là :
 Từ điển (dictionary): để xác định các nghĩa của từ.
 Ngữ liệu (corpus of language).
Xử lý nhập nhằng là một công việc thiết yếu trong dịch máy, thế nhưng nó khơng phải là
một vấn đề riêng của dịch máy mà gần như có liên quan hầu hết các cơng việc của xử lý ngơn
ngữ tự nhiên. Có thể nói nó là một trong những bậc thềm cơ bản trong xử lý ngôn ngữ tự nhiên.

5|Page


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

1.2 Lịch sử :
Xử lý nhập nhằng được xác định là một trong những công việc quan trọng của dịch máy
vào những năm đầu 1940, là một trong những vấn đề xa xưa nhất của ngôn ngữ học ngữ liệu.
Sự hình thành và phát triễn có thể tóm gọn như sau :
 1949 : Warren Weaver đưa nhập nhằng ngữ nghĩa của từ ra thành một vấn đề riêng biệt
chứ không gắn chung vào dịch máy nữa.
 1960 : Bar-Hillel sử dụng một ví dụ như sau :
o Little John was looking for his toy box. Finally, he found it. The box was in the
pen. John was very happy.
o “Pen” ở đây mang ý nghĩa là gì ? Một dụng cụ để viết hay là hàng rào nơi trẻ em
tụ tập để vui chơi.
o Ông cho rằng vấn đề này không thể nào giải quyết được và rời bỏ dịch máy.
 1970: phương thức đầu tiên để xử lý nhập nhằng ra đời đó là phương pháp sử dụng luật
dựa trên bộ ngữ liệu được xây dựng bằng tay .
 1980 : đánh dấu một bước ngoặc lớn trong xử lý nhập nhằng với sự ra đời của bộ từ ngữ
liệu “Oxford Advanced Learner’s Dictionary of Current English” (OALD) dẫn đến sự

hình thành của phương pháp Lesk (1986)
 1990 : có ba bước phát triển lớn đó là :
o Sự ra đời của WordNet.
o Áp dụng giám sát vào xử lý nhập nhằng.
o Senseval ( đánh giá nhận định kết quả đạt được của tất cả các chương trình xử lý
nhập nhằng từ thời điểm khởi đầu đến năm 1998) diễn ra.
 2000 : các phương pháp lai tạo dựa trên xử lý nhập nhằng có giám sát tạo nên sự ra đời
của :
o Xử lý nhập nhằng không giám sát.
o Xử lý nhập nhằng bán giám sát
o Các phiên bản kết hợp các phương pháp
o Tuy nhiên xử lý nhập nhằng có giám sát vẫn cho ra kết quả tốt nhất.

6|Page


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

1.3 Các khó khăn trong xử lý nhập nhằng :
1.3.1 Sự khác biệt giữa các từ điển:
Như đã nói bên trên nhập nhằng phụ thuộc rất lớn vào từ điển, chính vì vậy từ điển cũng trở
thành một vấn đề lớn cần phải xử lý. Trong các trường hợp như từ “bank” đề cập ở trên ta thấy
được rằng 2 nghĩa đó là hồn tồn khác xa nhau nên cũng có thể xử lý dễ dàng nhưng đối với
các từ tối nghĩa có các nghĩa gần như tương tự nhau ví dụ như “watch” vừa có nghĩa là “xem”
vừa có nghĩa là “quan sát/theo dõi” trong các trường hợp này việc chọn lựa chính xác nghĩa của
từ trở nên vơ cùng khó khăn. Các từ điển khác nhau sẽ đưa ra các nghĩa và kết quả khác nhau.
Một cách giải quyết mà nhiều nhà nghiên cứu đã sử dụng cho vấn đề này là chỉ sử dụng một từ
điển đặc thù (WordNet được sử dụng bởi hầu hết các nhà nghiên cứu WSD của tiếng anh).
1.3.2 Gán nhãn ngữ liệu (Part of speech tagging):
Gán nhãn ngữ liệu có thể nói đơn giản hơn là phân loại từ (danh từ - Noun , động từ - verb ,

tính từ - adjective , …) có nhiều điểm khá tương đồng với gán nghĩa từ . Ví dụ: “watch” vừa là:
 Danh từ : đồng hồ.
 Động từ : xem, nhìn, quan sát v.v.
1.3.3 Kiến thức đời thường ( common sense ):
Là những kiến thức căn bản thông thường trong cuộc sống cần thiết đối với con người, để
làm cho máy tính thơng minh và giống người hơn thì địi hỏi máy tính phải có những kiến thức
này. Ví dụ :
 Jill and Mary are sisters. – Jill và Mary là chị em với nhau.
 Jill and Mary are mothers – Jill và Mary là những người mẹ.
Vậy làm sao để máy học được những kiến thức cơ bản đó ? Câu hỏi này đến nay vẫn chưa
hề được giải quyết và trở thành những khó khăn lớn cho AI (Artificial Intelligence) nói chung
và xử lý nhập nhằng nói riêng.
1.3.4 Nghĩa trừu tượng/nghĩa bóng :
Một từ ngồi các nghĩa thơng thường ngồi ra cịn có thể mang một nghĩa bóng gió nào đó.
Nhưng ở đây từ thì khơng được phân loại ra giữa nghĩa chính và nghĩa phụ nên cũng gây nhiều
khó khăn cho xử lý nhập nhằng.

7|Page


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

1.4 Ứng dụng :
Xử lý nhập nhằng từ lâu đã là một phần quan trọng trong XLNNTN vì vậy hầu hết các phần
mềm liên quan đến XLNNTN đều có sử dụng xử lý nhập nhằng. Đáng chú ý nhất là các phần
mềm sau :
-Dịch máy : xử lý nhập nhằng cần cho việc xác định chính xác nghĩa của từ khi chuyển từ
một ngôn ngữ này sang ngơn ngữ khác.
 Ví dụ : từ tiếng anh look có thể dịch sang tiếng việt là vẻ bề ngồi hoặc cái nhìn.
-Rút trích thơng tin : khi sử dụng từ khóa để tiếm kiếm, việc loại trừ được các nghĩa khơng

tương thích với ngữ cảnh có thể giảm thiểu khá nhiều thời gian và tăng xác suất của chương
trình.
 Ví dụ : tìm các trang web về “cricket” . “Cricket” ở đây là một lồi cơn trùng hay
một mơn thể thao ?
-Phân tích văn phạm : xử lý nhập nhằng là cần thiết trong việc xử lý văn phạm, nó có thể
được sử dụng để gán nhãn ngữ liệu hay kiểm tra lỗi văn phạm .

8|Page


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

CHƯƠNG 2
CÁC PHƯƠNG PHÁP XỬ LÝ NHẬP NHẰNG
2.1 Xử lý nhập nhằng dựa trên định nghĩa :
2.1.1 Từ điển :
Từ điển là một phần không thể thiếu nêu muốn xử lý nhập nhằng dựa theo phương pháp sử
dụng định nghĩa. Vào những năm gần đây, đã có khá nhiều bộ từ điển ra đời để phục vụ cho
phương pháp này. Từ điển có thể chia ra làm 3 loại :
-Từ điển thuần túy : là từ điển đáp ứng các nhu cầu sau : mỗi từ có một danh sách các
nghĩa., mỗi nghĩa được xác định và giải thích rõ ràng, ứng với mỗi nghĩa sẽ có một số ví dụ
minh họa cụ thể. Một số từ điển thuần túy phổ biến hiện nay là :
 Oxford English Dictionary
 Collins
 Longman Dictionary of Ordinary Contemporary English (LDOCE)
Ví dụ : với từ plant ta sẽ có các định nghĩa sau
1. buildings for carrying on industrial labor; “they built a large plant to manufacture
automobiles“
2. a living organism lacking the power of locomotion
3. something planted secretly for discovery by another; “the police used a plant to trick

the thieves”; “he claimed that the evidence against him was a plant”
4. an actor situated in the audience whose acting is rehearsed but seems spontaneous to
the audience.
-Bộ toàn thư (từ điển các từ đồng nghĩa) : chứa các từ có ý nghĩa tương tự nhau. Sử dụng
phổ biến nhất hiện nay là bộ tồn thư Roget
Ví dụ : các từ đồng nghĩa với từ plant là trong bộ toàn thư Roget là :
1. plant, works, industrial plant
2. plant, flora, plant life

9|Page


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

-Từ điển mạng ngữ nghĩa : chứa các mạng ngữ nghĩa như Hypernymy/hyponymy (IS-A),
meronymy/holonymy (PART-OF), antonymy, entailnment v.v.
Ví dụ : trong WordNet “plant life” có các từ và nghĩa liên quan như sau :
{plant, flora, plant life}





hypernym:
hypomym:
meronym:
holonym:

{organism, being}
{house plant}, {fungus}, …

{plant tissue}, {plant part}
{Plantae, kingdom Plantae, plant kingdom}

2.1.2 Thuật toán Lesk (1986) :
Thuật toán Lesk (1986) là một trong những thuật toán đầu tiên ra đời trong xử lý nhập
nhằng ngữ nghĩa của từ,chỉ cần tới một bộ từ điển chứa đầy đủ thông tin về nghĩa với những ví
dụ rõ ràng của nghĩa đó. Thuật tốn có thể được giải thích đơn giản như sau :
 Lấy trong từ điển tất cả các nghĩa có thể có của các từ cần xử lý nhập nhằng.
 Xác định sự trùng lặp giữa tất cả các khả năng có thể có khi kết hợp từng cặp nghĩa
với nhau.
 Chọn các nghĩa có sự trùng lặp cao nhất.
Mã giả :

for each sense i of W1
for each sense j of W2
compute Overlap(i,j), the number of word in common
between the definitions of sense i and sense j
find i and j for which Overlap(i,j) maximized
assign sense i for W1 and sense j for W2

10 | P a g e


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

Ví dụ thường sử dụng cho thuật toán Lesk là hai từ “PINE” và “CONE”.
-“PINE” mang các nghĩa sau :
1. kinds of evergreen tree with needle-shaped leaves - cây thông.
2. waste away through sorrow or illness - tiều tụy.
-“CONE” mang các nghĩa sau :

1. solid body which narrows to a point – vật hình nón.
2. a shape whose base is a circle and whose sides taper up to a point - có hình nón .
3. fruit of certain evergreen trees – một loại trái .
-Lúc này áp dụng thuật toán Lesk kết hợp tất cả các trường hợp ta có :







Pine#1  Cone#1 = 0
Pine#2  Cone#1 = 0
Pine#1  Cone#2 = 1
Pine#2  Cone#2 = 0
Pine#1  Cone#3 = 2
Pine#2  Cone#3 = 0

-Theo kết quả của thuật tốn thì ta chọn nghĩa Pine thứ nhất và nghĩa Cone thứ ba. Vậy
“PINE CONE” ở đây nghĩa là “trái cây thông”
2.1.3 Lesk phiên bản đơn giản:
Vào năm 2000, Kilgarriff và Rosensweig đã đưa ra một phiên bản đơn giản hơn của thuật
toán Lesk. Đơn giản hơn và rút gọn được quá trình thời gian tìm kiếm của thuật toán khá nhiều.
Thuật toán ban đầu của Lesk là : đo độ trùng lặp về nghĩa của tất cả các từ trong đoạn, kết
hợp tất cả các nghĩa lại với nhau và tìm ra sự trường hợp có sự trùng lặp cao nhất.
Phiên bản đơn giản Lesk : đo độ trùng lặp của một từ trong đoạn văn bản với định nghĩa và
ví dụ của nó trong từ điển. Sau đó lấy nghĩa có sự trùng lặp nhiều nhất.

11 | P a g e



Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

Ví dụ ta có hai định nghĩa của từ ash như sau:
 A tree of the olive family - Một loại cây thuộc họ ôliu
 The solid residue left when combustible material is burned - Lượng chất rắn còn lại
khi một vật dễ cháy bị đốt hết.
Nếu có từ tree nằm cùng đoạn văn bản với ash, nhiều khả năng từ ash sẽ thuộc định nghĩa 1,
tương tự nếu có từ burn nằm cùng đoạn văn bản với từ ash, nhiều khả năng từ ash sẽ thuộc định
nghĩa thứ 2.
Giả sử D1, D2,…, Dk là định nghĩa từ điển mang nghĩa s1, s2,….,sk của từ nhập nhằng w,
tượng trưng cho nhóm các từ cần định nghĩa, và Evj là định nghĩa từ điển của từ vj xuất hiện
trong phần văn bản chứa từ w (Nếu sj1,…sji là nghĩa của vj thì Evj = Uji Dji . Ta sẽ có thuật tốn
như sau:
Comment : Given: context c
For all senses sk of w do
Score(sk) = overlap (Dk , Uvj inc Evj )
End
Choose s’s.t.s’ = argmax , score (sk)

Với công thức overlap, ta sẽ đếm số lượng từ thông dụng thường đi với từng nghĩa trong
mỗi định nghĩa của từ nhập nhằng cần xét. Quay lại với ví dụ từ ash, ta sẽ có bảng sau:
Score
s1 s2
0 1 This cigar burns slowly and creates a stiff ash.
1 0 The ash is one of the last trees to come into leaf.

12 | P a g e



Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

Sử dụng thuật toán Lesk để khử nhập nhằng cho từ ash. Điểm được cho bởi số lượng từ
thông dụng thường đi với từng định nghĩa của từ ash. Trong câu thứ nhất thì từ khử nhập nhằng
là từ burn vì nó có liên quan đến định nghĩa từ điển thứ 2 của từ ash, và đồng thời xung quanh
khơng có từ liên quan đến định nghĩa từ điển thứ 1 của từ ash nên từ ash sẽ có kết quả cuối
cùng là “The solid residue left when combustible material is burned”. Tương tự vậy, ở câu số
hai, nhờ từ tree mà từ ash sẽ mang nghĩa là “A tree of the olive family”.
Tuy nhiên, thông tin chỉ dựa trên một cuốn từ điển thì thường không đủ để việc khử nhập
nhằng từ đạt kết quả tốt. Lesk cho biết thuật tốn này có độ chính xác trong khoảng từ 50% đến
70% khi được áp dụng cho một vài ví dụ các từ nhập nhằng. Lesk cũng đề nghị những phương
án tối ưu hoá khác nhau để cải thiện kết quả. Như cho chạy thuật toán nhiều lần trên cùng văn
bản, thay vì sử dụng tất cả những từ Evj xuất hiện trong định nghĩa của vj, ta có thể chỉ sử dụng
các từ trong định nghĩa của nghĩa thích hợp đối với văn bản. Ta có thể hi vọng rằng việc chạy
thuật tốn lặp đi lặp lại nhiều lần sẽ có thể mang tới nghĩa chính xác cho từng từ nhập nhằng
trong văn bản.
2.1.4 Chọn tham chiếu :
Một trong các thuật toán ra đời sớm nhất trong xử lý nhập nhằng dựa vào việc chọn các
tham chiếu để giới hạn lại nghĩa có thể có của từ. Chọn tham chiếu sẽ thu thập các thông tin về
các quan hệ có thể có giữa các lớp từ.
Ví dụ : “wash a dish” và “cook a dish” sẽ có các tham chiếu như sau :

 Wash – object.
 Cook – food .
Đây là phương pháp sử dụng các thơng tin có liên quan giữa các từ có trong mạng ngữ
nghĩa. Theo như ở trên wash object và cook food là một trong các kiến thức cơ bản trong xã hội
loài người. Tuy vậy các kiến thức này đối với ta có thể là khá dễ dàng nhưng khi đưa vào cho
máy xử lý lại hết sức khó khăn. Vấn đề chủ yếu vẫn là sự xoay vòng giữa chọn tham chiếu và
xử lý nhập nhằng, việc chọn tham chiếu đòi hỏi phải sử dụng xử lý nhập nhằng và ngược lại áp
dụng chọn tham chiếu có thể tăng xác suất chính xác của việc xử lý nhập nhằng lên cao đáng

kể. Một trong những cách thường được sử dụng và đã khắc phục được sự xoay vòng nói ở trên
là dựa vào :

13 | P a g e


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

 Độ phổ biến .
 Đo đạt các thông tin giả thuyết.
 Các mối quan hệ giữa các lớp.
Cách tính mối quan hệ giữa từ với từ :
o Tính độ phổ biến của hai từ :

Count(W1 ,W2 , R)
o Khả năng xuất hiện của từ :

P(W1 | W2 , R) 

Count (W1 ,W2 , R)
Count (W2 , R )

Cách tính các quan hệ giữa từ và lớp dựa vào tất cả các thơng tin có được từ lớp đó.

P(C 2 | W1 , R )
P (C 2 )
A(W1 , C 2 , R) 
P(C 2 | W1 , R )
P (C 2 | W1 , R) log


P (C 2 )
C2
P(C 2 | W1 , R) log

Với

P (C 2 | W1 , R ) 

Count(W1 , C 2 , R )
Count(W1 , R )

Count(W1 , C 2 , R ) 

Count(W1 , W2 , R )
Count(W2 )
W2 C 2



Một số cách khác có thể kể đến là áp dụng Bayesian (Ciaramita and Johnson,2000) hoặc mơ
hình phân nhánh cây (Li and Abe, 1998).

14 | P a g e


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

Thuật toán chọn tham chiếu cho xử lý nhập nhằng có thể được mơ tả như sau :
-Mỗi tham chiếu sẽ có một giá trị R biểu thị mối quan hệ giữa chúng với nhau.
-Cho một cặp từ W1 và W2 liên kết bởi giá trị R.

-Tìm tất cả các tham chiếu W1 – C ( từ - lớp) hoặc C1 – C2 ( lớp – lớp) có liên quan.
-Chọn nghĩa của W1 và W2 dựa trên các lớp ngữ nghĩa.
Ví dụ : khi xác định nghĩa của từ “coffee” trong “drink coffee” ta có các nghĩa sau

1. (đồ uống) một loại thức uống.
2. (cây) cây café.
3. (màu) màu café.
 Chọn “ drink + (đồ uống) ” : coffee#1.
2.1.5 Các thuật tốn heuristic :
-Chọn nghĩa thơng dụng nhất : trong tất cả các nghĩa có thể có của từ thì lúc nào cũng sẽ
có một nghĩa được sử dụng nhiều hơn tất cả các nghĩa còn lại, phương pháp này sẽ gán nghĩa
đó cho từ một cách mặc định. Do vậy thuật tốn thường thiếu chính xác, năm 2004 McCarthy
đưa ra một số sửa đổi dựa trên sự giống nhau trong phân bố :
1. Given a word w, find the top k distributionally similar words
Nw = {n1, n2, …, nk}, with associated similarity scores {dss(w,n1), dss(w,n2), …
dss(w,nk)}
2. For each sense wsi of w, identify the similarity with the words nj, using the sense of
nj that maximizes this score
3. Rank senses wsi of w based on the total similarity score

Score( wsi ) 

 dss(w,n

n j N w

j)

wnss( wsi , n j )


 wnss(ws ' , n )

wsi 'senses ( w )

i

,

j

Với :

wnss( wsi , n j ) 

max

ns xsenses ( n j )

( wnss( wsi , nsx ))

15 | P a g e


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

Ví dụ từ “pipe” có các nghĩa :
o pipe #1 = tobacco pipe
o pipe #2 = tube of metal or plastic
Các từ giống nhau trong phân bố là :
o N = {tube, cable, wire, tank, hole, cylinder, fitting, tap, …}

Với mỗi từ trong N tìm các từ tương tự nghĩa pipe#i ( sử dụng nghĩa tương tự nhau
nhất ) :
o pipe#1 – tube (#3) = 0.3
o pipe#2 – tube (#1) = 0.6
Tính điểm cho mỗi nghĩa của pipe#i :
o score (pipe#1) = 0.25
o score (pipe#2) = 0.73
Kết quả sẽ phụ thuộc rất lớn vào ngữ liệu để tìm từ giống nhau trong phân bố.
-Một nghĩa mỗi diễn thuyết : một từ thường có xu hướng mang một nghĩa nhất định trong
một bài diễn thuyết ( phát biểu bởi Gale, Church, Yarowksy -1992 ) . Một ví dụ rõ ràng hơn
như sau : từ “plant” xuất hiện trong một đoạn diễn thuyết n lần thì lần nào cũng có cùng một ý
nghĩa như nhau. Thuật tốn này được đánh giá là chính xác lên đến 98% đối với các từ có hai
nghĩa. Tuy nhiên năm 1998, Krovetz đã thử sử dụng phương pháp này với các từ có nhiều hơn
2 nghĩa và thu được kết quả gần 70% .
-Một nghĩa mỗi tập hợp từ (Collocation) : về thuật tồn thì nó khá giống với “một nghĩa
mỗi diễn thuyết” nhưng khác về phạm vi. Thuật toàn này được Yarowsky đưa ra vào năm 1993.
Có tính chính xác cao đối với các cụm từ gần sát nhau, giảm dần khi khoảng cách giữa các từ
tăng lên. Cũng với ví dụ “ plant” ta sẽ có plant mang cùng một ý nghĩa với tất cả các cụm từ
“industrial plant”. Thuật tốn được đánh giá là có độ chính xác 97% đối với các từ có hai nghĩa.
Năm 2000, Martinez và Agirre đã thử nghiệm thuật toán này dựa vào WordNet trên bộ ngữ liệu
của SemCor và thấy rằng độ chính xác của thuật tốn chỉ cịn 70%. Tuy nhiên sau nhiều lần thử
nghiệm với các bộ ngữ liệu khác họ nhận định rằng thuật toán này tùy thuộc lớn vào bộ ngữ
liệu thử nghiệm vì các ngữ liệu đơn lẽ thường có rất ít các tập hợp từ đi với nhau.

16 | P a g e


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

2.2 Xử lý nhập nhằng có giám sát:

2.2.1 Có giám sát là gì ?
Học có giám sát là một kĩ thuật của ngành học máy để xây dựng một hàm từ dữ liệu huấn
luyện. Dữ liệu huấn luyện bao gồm các cặp gồm đối tượng đầu vào (thường dạng vec-tơ), và
đầu ra mong muốn. Đầu ra của một hàm có thể là một giá trị liên tục, hay có thể là dự đốn một
nhãn phân loại cho một đối tượng đầu vào (phân loại). Nhiệm vụ của chương trình học có giám
sát là dự đốn giá trị của hàm cho một đối tượng bất kì là đầu vào hợp lệ, sau khi đã xem xét
một số ví dụ huấn luyện (nghĩa là, các cặp đầu vào và đầu ra tương ứng). Để đạt được điều này,
chương trình học phải tổng qt hóa từ các dữ liệu sẵn có để dự đốn được những tình huống
chưa gặp phải theo một cách "hợp lí".
Học có giám sát trong xử lý nhập nhằng là cách sử dụng các lớp phương thức để xử lý nhập
nhằng dựa vào máy học sau khi đã được huấn luyện với một bộ ngữ liệu mẫu đã có gắn sẵn các
nghĩa của từ.
Các thứ cần có trong xử lý nhập nhằng có giám sát là :
 Dữ liệu mẫu đã có sẵn nghĩa.
 Từ điển ( WordNet, Longhorn v.v.)
 Phân tích văn phạm (POS, Parser,Chunker, …)
Trong phương thức khử nhập nhằng có giám sát, chúng ta sẽ tạo ra các mẫu mà với mỗi từ
nhập nhằng xuất hiện đều sẽ được gán nhãn ngữ nghĩa (thường sẽ gán nhãn là một nghĩa chấp
nhận được của nó). Việc thiết kế này làm cho phương pháp khử nhập nhằng có giám sát trở
thành một ví dụ của phương pháp phân loại thống kê. Nhiệm vụ của chúng ta là xây dựng hệ
thống phân loại đúng các trường hợp mới dựa trên nội dung của chúng.
Ví dụ với một số ngữ liệu mẫu của từ bank :
Bonnie and Clyde are two really famous criminals, I think they were bank/1 robbers.
My bank/1 charges too much for an overdraft.
I went to the bank/1 to deposit my check and get a new ATM card.
The University of Minnesota has an East and a West Bank/2 campus right on the Mississippi River.

My grandfather planted his pole in the bank/2 and got a great big catfish!
The bank/2 is pretty muddy, I can’t walk there.


17 | P a g e


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

“Bank” ở đây mang hai ý nghĩa đó là :
FINANCIAL_BANK_BAG
a an and are ATM Bonnie card charges check Clyde criminals deposit famous for get I much My
new overdraft really robbers the they think to too two went were
RIVER_BANK_BAG
a an and big campus cant catfish East got grandfather great has his I in is Minnesota Mississippi
muddy My of on planted pole pretty right River The the there University walk West

Khử nhập nhằng có giám sát một cách đơn giản như sau :
Given a sentence S containing “bank”:

For each word Wi in S
If Wi is in FINANCIAL_BANK_BAG then
Sense_1 = Sense_1 + 1;
If Wi is in RIVER_BANK_BAG then
Sense_2 = Sense_2 + 1;

If Sense_1 > Sense_2 then print “Financial”
else if Sense_2 > Sense_1 then print “River”
else print “Can’t Decide”;

18 | P a g e


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt


Thuật toán :
 Tạo bộ ngữ liệu mẫu trong đó chứa các từ cần được xử lý nhập nhằng với nghĩa đã
được xác định trước.
 Áp dụng POS , cặp từ , từ có quan hệ v.v. vào bộ ngữ liệu mẫu.
 Biến đổi bộ ngữ liệu mẫu sang vector.
 Áp dụng máy học.
 Biến đổi kết quả từ máy học trở lại dang vector.
 Áp dụng kết quả này cho từ cần xử lý nhập nhằng.
Việc biến đổi từ ngữ liệu văn bản sang vector như sau :
 S1 - My/pronoun grandfather/noun used/verb to/prep fish/verb along/adv the/det
banks/SHORE of/prep the/det Mississippi/noun River/noun.
 S2 - The/det bank/FINANCE issued/verb a/det check/noun for/prep the/det
amount/noun of/prep interest/noun.
Với S1 và S2 ta lập bảng như sau :

S1
S2

P-2

P-1

P+1

P+2

fish

check


river

interest

SENSE TAG

Adv

det

Prep

det

Y

N

Y

N

SHORE

det

Verb

det


N

Y

N

Y

FINANCE

Khi dữ liệu được convert sang vector ta có thể áp dụng các thuật tốn sau :





Decision Trees
Decision Lists
Nạve Bayesian Classifiers
Neural Networks

19 | P a g e


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

2.2.2 Phương pháp phân loại Bayes :
Trong rất nhiều phương pháp khử nhập nhằng về nghĩa,phương pháp phân loại Bayes (thuật
toán được đưa ra bởi Gale vào năm 1992) chứng minh rằng những nguồn thông tin khác nhau

đều có thể sử dụng tốt cho việc khử nhập nhằng. Phương pháp phân loại Bayes coi nội dung
của văn bản như một túi các từ khơng có cấu trúc, và nó tích hợp thơng tin từ rất nhiều từ trong
văn bản.
Ý tưởng của phương pháp phân loại Bayes là chúng ta sẽ xem xung quanh phạm vi từ nhập
nhằng cần xét. Mỗi từ nằm trong phạm vi sẽ chứa một lượng thông tin cần thiết về từ nhập
nhằng để cho ta biết được từ đó đang được sử dụng với nghĩa gì. Việc phân loại khơng dựa vào
các đặc trưng của những từ tìm được mà nó kết hợp tất cả các đặc trưng đó lại với nhau, từ đó
xác định nghĩa chính xác của từ nhập nhằng cần xét.
Mơ hình thuật tốn có thể xem như sau :

p ( S | F 1, F 2, F 3,..., Fn )

p ( F 1, F 2, F 3,...,Fn|S )* p ( S )
p ( F 1, F 2, F 3,...,Fn )

Hình 2.2.2.1: Sơ đồ minh họa thuật tốn Bayes
Phương pháp phân loại Bayes dùng luật quyết định Bayes khi lựa chọn, với luật xác định là
làm giảm tối đa các lỗi nhận được.

20 | P a g e


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

Luật quyết định bayes :
Decide’ if P(s’|c) > P(sk|c) for sk ≠ s’
Luật quyết định Bayes là tối ưu vì nó giảm tối đa khả năng xuất hiện lỗi. Thật vậy, vì với
mỗi từ riêng lẻ trong các trường hợp thì nó đều chọn nghĩa có tỉ lệ đúng cao nhất và từ đó tạo ra
tỉ lệ lỗi thấp nhất. Tỉ lệ lỗi tạo ra trong suốt q trình do đó cũng là thấp nhất.
Chúng ta thường sẽ không biết được giá trị P(sk|c), nhưng giá trị này có thể tính được thơng

qua cơng thức:

P( sk | c) 

P ( c|sk )
 P( sk )
P(c)

P(sk) là tỉ lệ ban đầu của nghĩa sk, tỉ lệ của nghĩa sk đối với từ nhập nhằng trong trường
hợp ta hồn tồn khơng có thơng tin gì khác.
P(c|sk)/P(c) là các đặc trưng tìm được trong văn bản.
Nếu ta chỉ quan tâm đến việc chọn nghĩa đúng của từ, ta có thể đơn giản phép tính bằng
cách loại bỏ P(c) ( đây là biến constant nên hồn tồn khơng ảnh hưởng đến độ lớn của kết quả).
Ta cũng có thể biến đổi cơng thức một chút để việc tính tốn đơn giản hơn. Ví dụ nếu ta muốn
gán từ w cho nghĩa s’ :

S’

= argmaxsk P(sk|c)
= argmaxsk P(c |sk)/P(c) – P(sk)
= argmaxsk P(c|sk) P(sk)
= argmaxsk [logP(c|sk) + logP(sk)]

Phương pháp phân loại Gale là một ví dụ điển hình của phương pháp phân loại Bayes, hay
còn gọi là phương pháp phân loại Naïve Bayes. Naïve Bayes được sử dụng rộng rãi trong máy

21 | P a g e


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt


học nhờ tính hữu dụng của nó cũng như khả năng kết hợp nhiều đặc trưng từ một số lượng lớn
thơng tin. Nó có thể được áp dụng nếu như chúng ta dựa trên việc phân loại thơng qua một loạt
các thuộc tính. Trong trường hợp này, chúng ta mô tả nội dung nghĩa của từ w dựa vào những
từ vj xuất hiện trong văn bản.
Giả thiết Nạve Bayes với các thuộc tính dùng để mơ tả độc lập:

NaiveBayes  Assumption :
P ( c | s k )  P ({ v j | v j  c} | s k ) 

 v j  c P ( v j |sk )

Trong trường hợp này, giả thiết Nạve Bayes có hai hậu quả. Đầu tiên là cấu trúc cũng như
thứ tự xuất hiện từ xuất hiện trong văn bản đều sẽ bị bỏ quả. Thứ hai là sự tồn tại của từng từ
trong văn bản là độc lập với nhau. Điều này rõ ràng là sai. Ví dụ như từ president sẽ thường
xuất hiện trong đoạn văn bản có từ election hơn là xuất hiện trong đoạn văn bản có từ poet.
Nhưng trong hầu hết các trường hợp khác, một giả thiết đơn giản như thế này lại tỏ ra rất hiệu
quả. Đương nhiên, giả thiết Naive Bayes thường khó chấp nhận được nếu trong đoạn văn tồn
tại những thuộc tính có liên quan mật thiết với nhau. Nhưng thật đáng ngạc nhiên là trong rất
nhiều trường hợp giả thiết Naïve Bayes lại đạt được kết quả rất cao, đôi khi lại là kết quả tối ưu.
Với giả thiết Nạve Bayes, chúng ta có được luật quyết định để phân loại sau:
Decide’ s’ if s’ = argmaxsk [logP(sk) + ∑vj∩clogP(vj|sk)]
P(vj|sk), P(sk) có thể được tính theo công thức :

P(v j | sk ) 

C ( v j | sk )
C ( sk )

P( sk ) 


C ( sk )
C ( w)

C(vj|sk) là số lần xuất hiện của vj trong nội dung nghĩa của sk khi nhận dạng ngữ liệu.
C(sk) là số lần xuất hiện của sk khi nhận dạng ngữ liệu. C(w) là số lần xuất hiện của từ
nhập nhằng w.

22 | P a g e


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

2.2.3 Cây quyết định ( Decision Tree) :
Là một công cụ dùng cho việc quyết định đưa ra kết quả bằng cách sử dụng mơ hình dạng
cây, trong đó có bao hàm các kết quả, sự kiện có thể xảy ra, chi phí tài ngun và ích lợi của
quyết định đó. Cây quyết định thường dùng trong việc tìm kiếm và đặc biệt trong việc phân
tích các quyết định và đưa ra kết quả.
Một cây quyết định thường bao gồm 3 loại node :
 Decision node : thường được thể hiện bằng hình vng.
 Chance node : thường được thể hiện bằng hình trịn.
 End node : thường được thể hiện bằng hình tam giác.

Hình 2.2.3.1 : Sơ đồ cây quyết định đơn giản
Trong xử lý nhập nhằng có giám sát, cây quyết định là một trong những thuật toán của máy
học được sử dụng nhiều nhất. Nó đóng vai trị chủ chốt trong việc tìm kiếm các thuộc tính và
thêm vào các thuộc tính mang nhiều thơng tin nhất. Mục đích là để lựa chọn ra các thuộc tính
có hiệu quả cao một cách ít nhất và sắp xếp nó vào một cây. Ở trường hợp của xử lý nhập
nhằng thì các thuộc tính của chúng ta là các nghĩa của từ và sự phân nhánh chính là các nghĩa
khác nhau có thể được sử dụng.


23 | P a g e


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

Mỗi thuộc tính được chọn ra sau quá trình tìm kiếm được thể hiện bằng một node trong cây
quyết định, mỗi nốt thể hiện một chọn chỉ đến các giá trị khác nhau của thuộc tính. Việc học sẽ
diễn ra cho đến khi tất cả các ngữ liệu luyện tập đã được cây quyết định xét qua hết.
Cách xây dựng một cây quyết định :
 Rời rạc hố các thuộc tính phi số.
 Các mẫu huấn luyện được nằm ở gốc cây.
 Chọn một thuộc tính để phân chia thành các nhánh. (Thuộc tính được chọn thông qua
các độ đo thống kê)
 Xây dựng cây quyết định cho các nhánh con.
Lưu ý là cây quyết định luôn được xây dựng từ trên xuống dưới.
Điều kiện dừng :
 Tất cả các giá trị rơi vào một node thuộc về cùng một thuộc tính.
 Khơng cịn thuộc tính nào để phân chia nhánh.
Cách lựa chọn thuộc tính : sử dụng độ đo, độ đo để lựa chọn thuộc tính là chỉ số thể hiện sự
có lợi nhất của thuộc tính để thuộc tính được chọn trong q trình phân nhánh (nhằm tạo ra cây
nhỏ nhất ).
Có 2 độ đo thường dùng là :
- Chỉ số Gini (Gini impurity) : là độ đo xác định thông thường một thuộc tính bất kỳ sẽ
bị gán nhãn sai lệch khi nó được gán nhãn một cách ngẫu nhiên tuỳ theo sự phân bổ thuộc tính
trong một tập hợp. Chỉ số Gini có thể được tính bằng tần suất (f) của giá trị j trong lớp thuộc
tính t tất cả bình phương.
m

IG ( f ) 


m

 fi (1 fi )   ( fi  fi
i 1

m

2

) 

i 1

m

 f i  f i
i 1

i 1

2

1

m

 fi 2
i 1


Hay ta có thể viết như sau :

GINI ( t )  1 

 p ( j|t )2
j

24 | P a g e


Xử lý nhập nhằng về ngữ nghĩa của từ trong hệ dịch Anh - Việt

Khi phân chia thuộc tính p thành k nhánh chất lượng của phép chia được tính như sau :
k

GINI chia 

 nni GINI (i )
i 1

Trong đó :
 ni là giá trị trong thuộc tính i.

 n là số giá trị trong thuộc tính p.
Sau đó chọn thuộc tính có Gini nhỏ nhất để phân nhánh và phân thành các nhánh :

Hình 2.2.3.2 : Sơ đồ mình họa mơ hình GINI
-Độ lời thơng tin : thơng tin cần thiết để phân lớp một thuộc tính. Nó được tính như
sau :


Abs (log

p ( S 1| Fi Collocationi )

p ( S 2| Fi Collocationi )

)

Ví dụ : với 2000 mẫu huấn luyện của từ “bank”, như ví dụ ở tren Bayes ta có 1500 cho
bank#1(ngân hàng) và 500 cho bank#2 (bờ hồ/sông)

 P(S=1) = 1,500/2,000 = .75
 P(S=2) = 500/2,000 = .25
Với sự xuất hiện của từ “credit” 200 lần trong bank#1 và 4 lần trong bank#2 ta có :
 P(F1=“credit”) = 204/2,000 = .102
 P(F1=“credit”|S=1) = 200/1,500 = .133

 P(F1=“credit”|S=2) = 4/500 = .008

25 | P a g e


×