Tải bản đầy đủ (.pdf) (7 trang)

Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 5(tt) - Lê Thanh Hương

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (576.7 KB, 7 trang )

<span class='text_page_counter'>(1)</span><div class='page_container' data-page=1>

<b>Ngh</b>

<b>ĩ</b>

<b>a t</b>

<b>ừ</b>

<b> v</b>

<b>ự</b>

<b>ng và phân </b>



<b>gi</b>

<b>ả</b>

<b>i nh</b>

<b>ậ</b>

<b>p nh</b>

<b>ằ</b>

<b>ng t</b>

<b>ừ</b>



<b>Lê Thanh Hương</b>


1


<b>g</b>
<b>Bộ môn Hệ thống Thông tin</b>
<b>Viện CNTT &TT – Trường ĐHBKHN</b>
<b>Email: </b>


<b>T</b>

<b>ừ</b>

<b>đồ</b>

<b>ng âm</b>



z Từđồng âm (Homonymy): là những từ trùng
nhau về hình thức ngữ âmnhưng khácnhau về


<b>nghĩa</b>


z Từđồng âm, đồng tự (Homograph) : các từ với cùng
cách viết nhưng có nghĩa khác nhau. Ví dụ:


d di i hi bi d


zdove - dive into water, white bird
zsaw


z Từđồng âm, không đồng tự (Homophone): các từ có
cách viết khác nhau nhưng có cùng âm. Ví dụ:



zsee, sea; meat, meet


2


<b>Phân lo</b>

<b>ạ</b>

<b>i t</b>

<b>ừ</b>

<b>đồ</b>

<b>ng âm ti</b>

<b>ế</b>

<b>ng Vi</b>

<b>ệ</b>

<b>t</b>



z Đồng âm từ với từ, gồm:


z Đồng âm từ vựng: Tất cả các từđều thuộc cùng một từ loại. Ví dụ:


z <i>đường</i>1(đắp đường) -<i>đường</i>2(đường phèn).


z <i>đường kính</i><sub>1</sub>(đường đểăn) -<i>đường kính</i><sub>2</sub>(…của đường trịn).
z <i>cất</i>1(cất vó) -<i>cất</i>2(cất tiền vào tủ) -<i>cất</i>3(cất hàng) -<i>cất</i>4(cất rượu)


ồ ồ


z Đồng âm từ vựng-ngữ pháp: Các từ trong nhóm đồng âm với nhau chỉ


khác nhau về từ loại. Ví dụ:


z <i>chỉ</i><sub>1</sub>(cuộn chỉ) -<i>chỉ</i><sub>2</sub>(chỉ tay năm ngón) -<i>chỉ</i><sub>3</sub>(chỉ cịn có dăm đồng).
z <i>câu</i>1(nói vài câu) -<i>câu</i>2(rau câu) -<i>câu</i>3(chim câu) -<i>câu</i>4(câu cá)


z Đồng âm từ với tiếng: các đơn vị khác nhau về cấp độ; kích


thước ngữ âm của chúng đều khơng vượt q một tiếng. Ví dụ:


z Con trai Văn <i>Cốc</i>lên dốc bắn <i>cò</i>, đứng lăm <i>le</i>cười khanh <i>khách</i>. Con gái



Bát <i>Chàng</i>bán hàng thịt <i>ếch</i>ngồi châu <i>chẫu</i>nói ương <i>ương</i>.


3


<b>T</b>

<b>ừ</b>

<b>đ</b>

<b>a ngh</b>

<b>ĩ</b>

<b>a, </b>

<b>đồ</b>

<b>ng ngh</b>

<b>ĩ</b>

<b>a</b>



z Từđa nghĩa (Polysemy): một từ nhiều nghĩa,
biểu thị những đặc điểm, thuộc tính khác nhau
của một đối tượng, hoặc biểu thị những đối
tượng khác nhau của thực tại. Ví dụ


z <i><b>đ</b><b>i</b></i>chỉ việc dịch chuyển bằng hai chi dưới hoặc chỉ


ột ời à đóđã hết
một người nào đó đã chết


z Đồng nghĩa (Synonymy): là những từ tương


đồng với nhau về nghĩa, khác nhau về âm
thanh. Ví dụ


z cố, gắng
z car, automobile


4


<b>Ngh</b>

<b>ĩ</b>

<b>a t</b>

<b>ừ</b>

<b> v</b>

<b>ự</b>

<b>ng</b>



z Ngữ nghĩa nghiên cứu ý nghĩa của các phát biểu dạng



ngôn ngữ


z Nghĩa từ vựng (Lexical semantics) nghiên cứu:


z (quan hệ từ vựng) sự liên hệ về mặt ngữ nghĩa giữa các từ
z (ràng buộc về lựa chọn) cấu trúc liên hệ ngữ nghĩa bên


trong của từng từ


z bao gồm lý thuyết về phân loại và phân rã nghĩa của từ, sự


giống và khác trong cấu trúc từ vựng – ngữ nghĩa giữa các
ngôn ngữ, và quan hệ nghĩa của từ với cú pháp và ngữ


nghĩa của câu.


5


<b>Ràng bu</b>

<b>ộ</b>

<b>c v</b>

<b>ề</b>

<b> l</b>

<b>ự</b>

<b>a ch</b>

<b>ọ</b>

<b>n: Mã hóa </b>


<b>ng</b>

<b>ữ</b>

<b> ngh</b>

<b>ĩ</b>

<b>a trong v</b>

<b>ă</b>

<b>n ph</b>

<b>ạ</b>

<b>m</b>



z

Vị từ biểu diễn các ràng buộc qua tham số



z read (human subject, textual object)
z eat (animate subject)


z kill (animate object)
z kill (animate object)


z

Sử dụng vị từ để phân giải nhập nhằng



z

Ví dụ "dish":



z cái đĩa đểăn
z món ăn


z phương tiện liên lạc


</div>
<span class='text_page_counter'>(2)</span><div class='page_container' data-page=2>

<b>Ví d</b>

<b>ụ</b>

<b> v</b>

<b>ề</b>

<b> t</b>

<b>ừ</b>

<b> “dish”</b>



z Not unexpectedly, wives, whether working or


non-working, did by far the most - about 80% of the shopping,
laundry and cooking, and about two-thirds of


housecleaning, washing<i>dishes, </i>child care, and family
paper work.


p p


z In her tiny kitchen at home, Ms. Chen works efficiently,


stir-frying several simple <i>dishes, </i>including braised pig's
ears and chicken livers with green peppers.


z Installation of satellite <i>dishes, </i>TVs and videocassette


equipment will cost the company about $20,000 per
school, Mr Whittle said.


7



<b>Ràng bu</b>

<b>ộ</b>

<b>c l</b>

<b>ự</b>

<b>a ch</b>

<b>ọ</b>

<b>n</b>



zVPPNC có thểđưa vào các ràng buộc lựa chọn


z tạo ontology (ví dụ, người, động vật)
z ràng buộc về luật


z vd. VP →V<sub>gi</sub><sub>ế</sub><sub>t</sub>NP<sub>độ</sub><sub>ng v</sub><sub>ậ</sub><sub>t</sub>


z ràng buộc về dịch nghĩa


z vd. ăn([sinh vật sống], [thức ăn])


zNhược điểm: Cách viết này không tổng quát


z không đủ thông tin


z không sử dụng được với các trường hợp không liệt kê
trong văn phạm


8


<b>Khai thác quan h</b>

<b>ệ</b>

<b> t</b>

<b>ừ</b>

<b> v</b>

<b>ự</b>

<b>ng</b>



Xác định quan hệ từ vựng giữa các từ trong


đoạn sau



<i>Tôi yêu </i>

<i>y</i>

<i>độ</i>

<i>ộ</i>

<i>ng v</i>

<i>g</i>

<i>ậ</i>

<i>ậ</i>

<i>t nuôi trong nhà. Tơi </i>

<i>g</i>

<i>đặ</i>

<i>ặ</i>

<i>c bi</i>

<i>ệ</i>

<i>ệ</i>

<i>t </i>


<i>thích mèo vì chúng là lồi </i>

<i>độ</i>

<i>ng v</i>

<i>ậ</i>

<i>t r</i>

<i>ấ</i>

<i>t </i>

<i>độ</i>

<i>c </i>



<i>l</i>

<i>ậ</i>

<i>p. Ng</i>

<i>ượ</i>

<i>c l</i>

<i>ạ</i>

<i>i, chó thì khá l</i>

<i>ắ</i>

<i>m nhu c</i>

<i>ầ</i>

<i>u. Ví </i>


<i>d</i>

<i>ụ</i>

<i>, b</i>

<i>ạ</i>

<i>n ph</i>

<i>ả</i>

<i>i d</i>

<i>ắ</i>

<i>t chúng </i>

<i>đ</i>

<i>i d</i>

<i>ạ</i>

<i>o hàng ngày. </i>



9


<b>Khai thác quan h</b>

<b>ệ</b>

<b> t</b>

<b>ừ</b>

<b> v</b>

<b>ự</b>

<b>ng</b>


z

Từ điển đồng nghĩa:



z gồm từđồng nghĩa (Synonyms) và trái nghĩa
(Antonyms)


z

Wordnet:



z Từđồng nghĩa và trái nghĩa
z Từ lớp cha và từ lớp con
z …


10


<b>Nh</b>

<b>ậ</b>

<b>p nh</b>

<b>ằ</b>

<b>ng và các ràng bu</b>

<b>ộ</b>

<b>c </b>


<b>l</b>

<b>ự</b>

<b>a ch</b>

<b>ọ</b>

<b>n</b>



z Nhập nhằng:


z Các vị từ khác nhau ứng với các nghĩa khác nhau


zwash the dishes (theme : washable-thing)
z Tham số cũng có thể giải quyết nhập nhằng cho vị từ


serve vegetarian dishes (theme : food-type)



Phân tích ngữnghĩa


z Phân tích ngữ nghĩa:


z Luật có gắn thơng tin ngữ nghĩa được sử dụng với các câu đã
được phân tích cú pháp


“I wanna eat somewhere close to CSSE”


Ngoại động từ: VỈeat <theme> {theme:food-type} (VP --> V
NP)


Nội động từ: VỈeat <no-theme> (VP --> V)


z Xung đột ràng buộc lựa chọn: loại trừ cú pháp


11


z Vấn đề:


z Đôi khi ràng buộc lựa chọn không đủ chặt (khi 1 từ


có nhiều nghĩa)


z Đơi khi ràng buộc q chặt – khi vị từ sử dụng


phép ẩn dụ. Vd, I’ll eat my hat!


p p ụ , y



</div>
<span class='text_page_counter'>(3)</span><div class='page_container' data-page=3>

CSDL từ vựng


z Lấy ý tưởng từ lý thuyết về tâm lý ngôn ngữ về khả năng


nhớ từ vựng của con người


Xâ d ột khổ lồ á từ à hệtừ


<b>WordNet: Gi</b>

<b>ớ</b>

<b>i thi</b>

<b>ệ</b>

<b>u</b>



z Xây dựng một mạng khổng lồ các từ vựng và quan hệ từ


vựng


z Wordnet tiếng Anh


z4 lớp: danh từ, động từ, tính từ, trạng từ


zDanh từ: 120,000; Động từ: 22,000; Tính từ: 30,000;
Trạng từ: 6,000


13


CSDL từ vựng


z Wordnet cho các ngôn ngữ khác
[www.globalwordnet.org]


<b>WordNet: Gi</b>

<b>ớ</b>

<b>i thi</b>

<b>ệ</b>

<b>u</b>




zCó wordnet cho các ngơn ngữ: Tây Ban Nha, Tiệp, Hà
Lan, Pháp, Đức, Ý, BồĐào Nha, Thụy Điển, Basque,
Estonian


zWordnets đang được làm cho các tiếng: Bulgary, Đan
mạch, Hy lạp, Hebrew, Hindi, Cannada, Latvian,
Moldavy, Romany, Nga, Slovenian, Tamil, Thái lan, Thổ


Nhĩ Kỳ, Ireland, Nauy, Ba tư, Iran


14


<b>T</b>

<b>ậ</b>

<b>p t</b>

<b>ừ</b>

<b>đồ</b>

<b>ng ngh</b>

<b>ĩ</b>

<b>a</b>



<b>Synonym Sets - Synsets</b>


z Từ có nhập nhằng


z Các nút trong Wordnet biểu diễn tập từđồng
nghĩa “synonym sets”, hoặc <i>synsets. </i>Ví dụ:


z Fool: 1 người dễbịlợi dụng
z Fool: 1 người dễ bị lợi dụng


z {chump, fish, fool, gull, mark, patsy, fall guy, sucker,
schlemiel, shlemiel, soft touch, mug}


z Synset = tập khái niệm


15



<b>Các quan h</b>

<b>ệ</b>

<b> khác trong WordNet</b>



•Các từ nối theo chiều dọc biểu diễn quan hệ rộng (holonymy)
-hẹp (hypernymy), theo chiều ngang biểu diễn quan hệ bộ phận
meronymy (part_of) và holonymy (has_part) .


•Mỗi nghĩa của từđược biểu diễn bằng 1 số synset


16


<b>Phân gi</b>

<b>ả</b>

<b>i nh</b>

<b>ậ</b>

<b>p nh</b>

<b>ằ</b>

<b>ng s</b>

<b>ử</b>

<b> d</b>

<b>ụ</b>

<b>ng </b>


<b>quan h</b>

<b>ệ</b>

<b> t</b>

<b>ừ</b>

<b> v</b>

<b>ự</b>

<b>ng</b>



<b>Supplement</b> <b>Vitamin_Pill</b>


<b>Publication</b> <b>Dietary </b>


<b>Pill</b>


<b>SENSE OF WORD</b>
<b>KIND-OF (HYPONYMY)</b>
<b>HAS-PART (HOLONYMY)</b>
<b>PART-OF (MERONYMY)</b>


<b>Nutriment</b>
<b>Nutriment</b>


<b>Medicine</b>
<b>Textual </b>



<b>Matter</b>


WordNet Similarity Metrics:


</div>
<span class='text_page_counter'>(4)</span><div class='page_container' data-page=4>

<b>Đ</b>

<b>o quan h</b>

<b>ệ</b>

<b> t</b>

<b>ừ</b>

<b> v</b>

<b>ự</b>

<b>ng</b>



z Đếm số cạnh/đỉnh trên đồ thị:


z khoảng cách giữa 2 từ tỉ lệ nghịch với quan hệ ngữ nghĩa


giữa chúng


z Nếu giữa 2 từ có nhiều đường đi, chọn đường ngắn nhất


số cạnh = 3
số nút = 4


19


<b>C</b>

<b>ặ</b>

<b>p t</b>

<b>ừ</b>

<b> nào g</b>

<b>ầ</b>

<b>n nhau h</b>

<b>ơ</b>

<b>n?</b>


z

cá heo và cá?



z

cá và cá h

i?



WordNet Similarity Metrics:


/>


20



21 22


<b>Phân gi</b>

<b>ả</b>

<b>i nh</b>

<b>ậ</b>

<b>p nh</b>

<b>ằ</b>

<b>ng và </b>

<b>đế</b>

<b>m c</b>

<b>ạ</b>

<b>nh</b>



zwhale#n#1


z 1 người rất lớn (về kích thước hoặc phẩm chất)


zfish#n#3


z (thiên văn học) người được sinh khi mặt trời ở vì
sao Pisces


sao Pisces


<b>person</b>


<b>Pisces (fish)</b>
<b>Giant (whale)</b>


<b>tall/large person</b>


<b>Path Length = 4</b>


23


<b>Phân gi</b>

<b>ả</b>

<b>i nh</b>

<b>ậ</b>

<b>p nh</b>

<b>ằ</b>

<b>ng và </b>

<b>đế</b>

<b>m c</b>

<b>ạ</b>

<b>nh</b>


<b>vertebrate</b>


<b>fish</b>


<b>aquatic </b>
<b>vertebrate</b>
<b>mammal</b>


<b>placental</b>
<b>aquatic </b>


<b>whale</b>
<b>animal</b>


<b>cetacean</b>


<b>Path length = 8</b>


</div>
<span class='text_page_counter'>(5)</span><div class='page_container' data-page=5>

<b>Nh</b>

<b>ượ</b>

<b>c </b>

<b>đ</b>

<b>i</b>

<b>ể</b>

<b>m c</b>

<b>ủ</b>

<b>a WordNet trong tính </b>


<b>quan h</b>

<b>ệ</b>

<b> ng</b>

<b>ữ</b>

<b> ngh</b>

<b>ĩ</b>

<b>a </b>



z Độđo quan hệ ngữ nghĩa WordNet dựa trên các giả


thiết sau:


z Mọi cạnh trong đồ thị có độ dài bằng nhau
z Các nhánh trong gđồ thị có cùng gđộđậm đặc
z Tồn tại tất cả các quan hệ ngoại động từ


¾ không đáng tin cậy


25


<b>Cách ti</b>

<b>ế</b>

<b>p c</b>

<b>ậ</b>

<b>n d</b>

<b>ự</b>

<b>a trên t</b>

<b>ừ</b>

<b>đ</b>

<b>i</b>

<b>ể</b>

<b>n</b>



z Các từđiển điện tử (Lesk ‘86)


z Cho biết ý nghĩa của các từ trong ngữ cảnh cụ thể nội
dung (vd., I’ve often caught bass while out at sea)
z So sánh sự chồng chéo cg ủa các định nghg ĩa về nghg ĩa


của từ (bass2<sub>: a type of fish that lives in the sea)</sub>


z Chọn nghĩa trùng nhau nhiều nhất


z Hạn chế: đường dẫn đến từ ngắn Ỉmở rộng
cho các từ liên quan


26


<b>Cách ti</b>

<b>ế</b>

<b>p c</b>

<b>ậ</b>

<b>n h</b>

<b>ọ</b>

<b>c máy</b>



z Học việc phân loại để gán từ với một trong các
nghĩa của nó


z Tích lũy tri thức từ tập ngữ liệu có hoặc khơng gán nhãn
z Con người chỉ can thiệp vào tập ngữ liệu gán nhãn và lựa


ử ấ


chọn tập đặc trưng sử dụng trong việc huấn luyện


z Vào: vectơđặc trưng


z đích (từ cần phân giải nhập nhằng)



z nội dung (các đặc trưng có thể dùng để tiên đốn nghĩa


đúng)


z Ra: các luật phân loại cho văn bản mới


27


<b>Các </b>

<b>đặ</b>

<b>c tr</b>

<b>ư</b>

<b>ng s</b>

<b>ử</b>

<b> d</b>

<b>ụ</b>

<b>ng trong </b>


<b>WSD</b>



z Các thẻ POS của từ và các từ lân cận
z Các từ lân cận (có thể lấy gốc từ hoặc khơng)
z Dấu chấm, viết hoa, định dạng


z PTCP bộộ php ậận để xác địịnh vai trò ngg p pữ pháp và quan q


hệ giữa chúng


z Các thông tin vềđồng xuất hiện:


z Từ và các từ lân cận của nó có thường đồng xuất hiện không


z Đồng xuất hiện của các từ láng giềng


z Ví dụ: seacó thường xun xuất hiện với bass khơng


28



<b>Ví d</b>

<b>ụ</b>



Tơi ăn cơm với cá.


z DT ĐgT DT GT DT


z (C (CN (ĐaT Tôi)) (VN (ĐgN (ĐgN (ĐgT ăn) (DT cơm)) (GN (GT
với) (DT cá)))))


Em bé chỉ thích ăn kẹẹo thơi.


z DT TT TT ĐgT DT PT


z (C (CN (DT Em bé)) (VN (TN (TN (TT chỉ) (TN (TT thích) (ĐgN (ĐgT


ăn) (DT kẹo)))) (PT thơi))))
Nó ăn nhiều hoa hồng quá.


z ĐaT ĐgT TT DT TT


z (C (CN (ĐaT Nó)) (VN (ĐgN (ĐgN (ĐgT ăn) (TT nhiều) (DT hoa
hồng)) (TT quá))))


z Tôi tên là Hoa.


29


<b>Các ki</b>

<b>ể</b>

<b>u phân lo</b>

<b>ạ</b>

<b>i</b>



z Nạve Bayes: Nghĩa tốt nhất là nghĩa có khả năng xảy ra



nhất với 1 đầu vào cho trước


z ŝ= p(s|V), hoặc


z trong đó s là 1 trong các nghĩa và V là vector đầu vào của các


đặc trưng


)
(
)
(
)
|
(
max
arg
<i>V</i>
<i>p</i>
<i>s</i>
<i>p</i>
<i>s</i>
<i>V</i>
<i>p</i>
<i>S</i>
<i>s</i>∈
max
arg
<i>S</i>


<i>s</i>∈


đặc trưng


z Chỉ có ít dữ liệu có thơng tin vector kết hợp với nghĩa
z Giả sử các đặc trưng là độc lập, p(V|s) là tích xác suất của các


đặc trưng


z p(V) là giống nhau với mọi ŝ (không ảnh hưởng đến xếp hạng


cuối cùng)


)
|
1
(
)
|


( <i>n</i> <i>s</i>


</div>
<span class='text_page_counter'>(6)</span><div class='page_container' data-page=6>

<b>Các ki</b>

<b>ể</b>

<b>u phân lo</b>

<b>ạ</b>

<b>i</b>



z

Naïve Bayes:

: Nghĩa tốt nhất là nghĩa có khả


năng xảy ra nhất với 1 đầu vào cho trước
z Khi đó


)



|


(


)


(


max


arg



ˆ

<i>p</i>

<i>s</i>

<i>n</i>

<i>p</i>

<i><sub>v j</sub></i>

<i>s</i>



<i>s</i>

=



z P(s) là xác suất tiền nghiệm của mỗi nghĩa = xác
suất của mỗi nghĩa trong tập dữ liệu gán nhãn
z P(v,s) = đếm số lần xuất hiện của bassđi với sea


)


|


1


(


)


(


max


arg

<i>s</i>


<i>j</i>


<i>v j</i>


<i>p</i>


<i>s</i>


<i>p</i>


<i>S</i>


<i>s</i>



<i>s</i>


=



=


31


<b>WSD và IR</b>



z IR (Information Retrieval) : tìm kiếm thơng tin
z Motivation


z Đồng âm = Bank (ngân hàng, sông)


z Đa nghĩa = Bat ((câu lạc bộ chơi cricket), (cây vợt nhỏ có tay
cầm dàiđểchơi bóng ))


cầm dài để chơi bóng ))


z Đồng nghĩa = doctor, doc, physician, MD, medico


z Những vấn đề trên ảnh hưởng đến IR như thế nào?


z Đồng âm và đa nghĩa có xu hướng giảm độ chính xác


z Đồng nghĩa: giảm độ phủ


32


<b>2 </b>

<b>ứ</b>

<b>ng d</b>

<b>ụ</b>

<b>ng c</b>

<b>ủ</b>

<b>a WSD trong IR</b>




z Tìm kiếm dựa trên câu truy vấn (Voorhees, 1998):


z Sử dụng WSD để mở rộng câu truy vấn: phân giải nhập nhằng câu


query và bổ sung vào các từ có nghĩa rộng hơn.


z Sử dụng WSD đểđánh chỉ số khái niệm: phân giải nhập nhằng tập tài


liệu và xây dựng chỉ số cho tập synset thay vì cho tập từ gốc


z Mơ hình khơng gian vector: tìm độ tương đồng cosin giữa câu truy vấn


và mỗi vector tài liệu


z Đánh chỉ số khái niệm


z Trong các thí nghiệm, vector dựa trên nghĩa thực hiện kém hơn vector
dựa trên từ gốc


z Lý do: lỗi phân giải nhập nhằng
ztrong thu thập văn bản, và
zcác câu query ngắn do thiếu nội dung


33


<b>2 </b>

<b>ứ</b>

<b>ng d</b>

<b>ụ</b>

<b>ng c</b>

<b>ủ</b>

<b>a WSD trong IR</b>



z Mở rộng query



z Không khả quan


z Nhưng, phân giải nhập nhằng và mở rộng truy vấn thủ
cơng đem lại kết quả tốt


z Ví dụ:
z Ví dụ:


z <i>furniture</i>: table, chair, board, refectory(specialisations)
z “Chỉ có một vài từ vựng liên quan là có ích trong việc


mở rộng câu truy vấn, vì đường dẫn lớp cha giữa các
từ trong WordNet không phải lúc nào cũng đem lại 1
mở rộng truy vấn 1 cách hữu ích


34


<b>Độ</b>

<b> chính xác c</b>

<b>ủ</b>

<b>a WSD và IR</b>



z Tập dữ liệu đánh giá WSD: SensEval và SemCor
z Cách khác để tạo ra dữ liệu gán nhãn: Pseudowords


z Lấy 2 từ (ngẫu nhiên) có cùng từ loại, và thay thế cả 2 bằng 1 từ


nhân tạo. Ví dụ, 'door' và 'banana' có thể thay thế trong tập ngữ


liệu bằng từ'donana'
liệu bằng từ donana .


z Độ chính xác của WSD: xác định được mỗi trường hợp của



donana cụ thể là 'door‘ hay 'banana'. (Yarowsky, 1993)


z (Sanderson, 1997) công bố: thêm nhập nhằng vào các


query và kết quả ít có ảnh hưởng đến độ chính xác của
việc tìm kiếm so với ảnh hưởng của lỗi phân giải nhập
nhằng trong tập kết quả


z chỉ có lỗi phân giải nhập nhằng mức thấp ( < 10%) mới tốt hơn


phiên bản IR đơn giản dựa trên từ gốc. 35


<b>Độ</b>

<b> chính xác c</b>

<b>ủ</b>

<b>a WSD và IR</b>



z Tại sao đa nghĩa/đồng âm không phải vấn đề lớn như ta


nghĩ:


z Tác động của sựđồng xuất hiện từ truy vấn: các từ trong


câu truy vấn tự nó đã phân giải nhập nhằng
S hâ bố ữ hĩ á d h á iề ứ d


z Sự phân bố ngữ nghĩa: áp dụng cho các miền ứng dụng


cụ thể


</div>
<span class='text_page_counter'>(7)</span><div class='page_container' data-page=7>

<b>Độ</b>

<b> chính xác c</b>

<b>ủ</b>

<b>a WSD và IR</b>


z Từđồng nghĩa có ảnh hưởng lớn hơn:


z Gonzalo et al. (1998; 1999): sử dụng SemCor (tập ngữ liệu
Brown với các thẻ nghĩa của WordNet) cho thấy nếu phân
giải nhập nhằng có độ cx = 100%


z Đánh chỉsốnghĩa (vd synset number) cóđộcx IR = 62%
z Đánh chỉ số nghĩa (vd synset number) có độ cx IR = 62%
z Đánh chỉ số nghĩa của từ (vd canine1) có độ cx IR = 53.2%


z Đánh chỉ số từ gốc có độ cx IR = 48%


z Gonzalo et al. cho thấy độ cx tối thiểu 90% với WSD cho
IR là quá cao. Gần 60% từ giả không hoạt động giông như


từ có nhập nhằng thật.


</div>

<!--links-->

×