Tải bản đầy đủ (.pdf) (66 trang)

Kết nối từ điển với wikipedia

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.17 MB, 66 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƢỜNG ĐẠI HỌC BÁCH KHOA
--------------------------

TRẦN QUANG VINH

KẾT NỐI TỪ ĐIỂN VỚI WIKIPEDIA

Chuyên ngành: Khoa Học Máy Tính
Mã số: 60.48.01

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 07 năm 2014


CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI
TRƢỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG – HCM
Cán bộ hƣớng dẫn khoa học : GS.TS. Cao Hoàng Trụ .................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Cán bộ chấm nhận xét 1 : TS. Võ Thị Ngọc Châu ........................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Cán bộ chấm nhận xét 2 : TS. Hồ Bảo Quốc .................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Luận văn thạc sĩ đƣợc bảo vệ tại: Trƣờng Đại học Bách Khoa, ĐHQG Tp.
HCM ngày 17 tháng 07 năm 2014.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. GS. TS. Cao Hoàng Trụ ..............


2. TS. Võ Thị Ngọc Châu ...............
3. TS. Nguyễn Văn Minh Mẫn .......
4. TS. Nguyễn Đức Thái .................
5. TS. Hồ Bảo Quốc ........................
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trƣởng Khoa quản lý
chuyên ngành sau khi luận văn đã đƣợc sửa chữa (nếu có).

CHỦ TỊCH HỘI ĐỒNG

TS. Nguyễn Đức Thái

TRƢỞNG KHOA…………


ĐẠI HỌC QUỐC GIA TP.HCM
TRƢỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập -Tự do -Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: TRẦN QUANG VINH .......................... MSHV: 11071002.................
Ngày, tháng, năm sinh: 01/10/1987 ....................................... Nơi sinh: QUẢNG NGÃI .....
Chuyên ngành: KHOA HỌC MÁY TÍNH ............................ Mã số: 604801 ......................

I. TÊN ĐỀ TÀI: KẾT NỐI TỪ ĐIỂN VỚI WIKIPEDIA ..................................................
..................................................................................................................................................
II. NHIỆM VỤ VÀ NỘI DUNG: ............................................................................................
..................................................................................................................................................
III. NGÀY GIAO NHIỆM VỤ: 20/01/2014……...……..……...............................................

IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 20/06/2014.….……………….............................
V. CÁN BỘ HƢỚNG DẪN: GS.TS. CAO HOÀNG TRỤ
TP. HCM, ngày . . . . tháng .. . . năm 20…
CÁN BỘ HƢỚNG DẪN

(Họ tên và chữ ký)

GS.TS. CAO HOÀNG TRỤ

TRƢỞNG KHOA….…………….

(Họ tên và chữ ký)


LỜI CẢM ƠN
Đầu tiên, tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến GS.TS. Cao
Hoàng Trụ, ngƣời đã ln tận tình chỉ dẫn, động viên, khích lệ tơi trong suốt q
trình làm luận văn này. Sự hƣớng dẫn tận tình, những lời khuyên quý báu cũng nhƣ
những sự động viên, khích lệ từ thầy là động lực để tơi có thể hồn thành đƣợc luận
văn này.
Tơi cũng xin gửi lời cảm ơn đến gia đình, bạn bè và đồng nghiệp, những ngƣời
luôn ủng hộ, cổ vũ và tạo điều kiện tốt nhất cho tôi trong công việc học tập và
nghiên cứu.
Xin chân thành biết ơn sự tận tình giảng dạy và giúp đỡ của tất cả quý thầy cô
tại trƣờng Đại học Bách khoa, đặc biệt là các thầy cô trong khoa Khoa học và Kỹ
thuật Máy tính.


TĨM TẮT
Trong từ điển, một từ có thể có nhiều nghĩa khác nhau và từng nghĩa đƣợc miêu

tả bởi một chú thích. Nhƣng các chú thích vẫn cịn đơn giản và đơi lúc gây khó hiểu
cho ngƣời sử dụng. Vì vậy, để hỗ trợ một cách trực quan hơn cho ngƣời sử dụng,
từng nghĩa trong từ điển sẽ đƣợc kết nối đến các khái niệm tƣơng ứng trong
Wikipedia.
Trong luận văn này, hai phƣơng pháp khác nhau đƣợc đề xuất để kết nối các
nghĩa trong từ điển với các khái niệm tƣơng ứng trong Wikipedia: dựa trên luật và
học máy. Tiến hành các thử nghiệm trên hai bộ từ điển Wiktionary và Oxford tiếng
Anh, hiệu suất của hai phƣơng pháp đề xuất đạt đƣợc là : với phƣơng pháp dựa trên
luật, độ chính xác và độ đầy đủ là 73.0% cho từ điển Wiktionary, 77.2 % cho từ
điển Oxford ; với phƣơng pháp học máy, độ chính xác và độ đầy đủ là 67 % cho từ
điển Wiktionary, 69.8% cho từ điển Oxford.

ABSTRACT
In the dictionary, a word can have different senses, and each sense is described
by a gloss. But the gloss remains simple and sometimes confusing for users. To
support a more intuitive way for the users, the dictionary senses will be linked to the
appropriate Wikipedia articles.
In this thesis, two different methods are proposed to link the dictionary senses
with the appropriate Wikipedia articles: Rule-based and Machine Learning. The
results of experiments on English Oxford dictionary and Wiktionary are: with
Rules-based method, precision and recall of 73.0% on Wiktionary, 77.2% on the
Oxford dictionary; with Machine Learning method, precision and recall of 67% on
the Wiktionary, 69.8% on the Oxford dictionary.


LỜI CAM ĐOAN
Tôi xin cam đoan rằng, ngoại trừ các kết quả tham khảo từ các cơng trình khác
nhƣ đã ghi rõ trong luận văn, các nội dung trình bày trong luận văn này là do chính
tơi thực hiện và chƣa có phần nội dung nào của luận văn này đƣợc nộp để lấy bằng
cấp ở một trƣờng khác.

TP.HCM, ngày ….. tháng ….. năm 20….

Trần Quang Vinh


MỤC LỤC
MỤC LỤC ................................................................................................................... i
DANH MỤC HÌNH .................................................................................................. iii
DANH MỤC BẢNG ...................................................................................................v
CHƢƠNG 1 TỔNG QUAN ........................................................................................1
1.1. Giới thiệu..........................................................................................................1
1.2. Bài toán và phạm vi nghiên cứu .......................................................................3
1.3. Các cơng trình liên quan ..................................................................................3
CHƢƠNG 2 CƠ SỞ LÝ THUYẾT ............................................................................6
2.1. Wikipedia .........................................................................................................6
2.2. WordNet .........................................................................................................10
2.3. Wiktionary......................................................................................................12
2.4. Từ điển Oxford ...............................................................................................14
2.5. Học máy .........................................................................................................15
2.6. Các độ đo căn bản ..........................................................................................18
CHƢƠNG 3 PHƢƠNG PHÁP ĐỀ XUẤT ...............................................................20
3.1. Phƣơng pháp nền của Fernando và Stevenson (2012) ...................................20

3.2. Phƣơng pháp nền của Milne và Witten (2008) ..............................................23
3.3. Phƣơng pháp kết nối dựa trên luật .................................................................26
3.4. Phƣơng pháp kết nối bằng học máy ...............................................................30
CHƢƠNG 4 ĐÁNH GIÁ PHƢƠNG PHÁP.............................................................35
4.1. Tập đánh giá ...................................................................................................35
4.2. Phƣơng pháp đánh giá ....................................................................................41
4.3. Kết quả thí nghiệm. ........................................................................................44

CHƢƠNG 5 TỔNG KẾT..........................................................................................50
5.1. Các đóng góp..................................................................................................50

i


5.2. Hƣớng phát triển ............................................................................................51
TÀI LIỆU THAM KHẢO .........................................................................................52

ii


DANH MỤC HÌNH
Hình 1.1:

Kết nối các nghĩa của từ "plant" trong Wikationary đến Wikipedia... ....2

Hình 2.1:

Một phần trang thực thể "Mouse (computing)" đƣợc trích từ
Wikipedia.. .............................................................................................. 8

Hình 2.2:

Một phần trang thể loại "Category:Computing input devices" đƣợc
trích từ Wikipedia. ................................................................................... 8

Hình 2.4:

Một phần của hai trang chuyển hƣớng "U.S.", "USA" và trang thực

thể "United States" đƣợc trích từ Wikipedia.. ......................................... 9
Một phần của trang phân giải nhập nhằng "Server (Disambiguation)"
và hai trang hai thực thể "Waiting staff", "Server (computing)" trích từ
Wikipedia. ............................................................................................. 10

Hình 2.5:
Hình 2.6:
Hình 2.7:

Định nghĩa của danh từ "father" đƣợc trích từ Wiktionary. ..................13
Định nghĩa của từ "server" trích từ Oxford online. ...............................15
Một ví dụ về giải thuật C4.5. .................................................................18

Hình 3.1:

Nhiều synset cùng kết nối đến một trang Wikipedia theo Fernando và
Stevenson (2012).. ................................................................................. 22
Tinh lọc với liên kết hai chiều theo Fernando và Stevenson (2012). .... 23
Phân giải nhập nhằng cho từ "tree" theo Milne và Witten (2008). .......25
Mơ hình cho phƣơng pháp kết nối dựa trên luật.... ...............................26

Hình 2.3:

Hình 3.2:
Hình 3.3:
Hình 3.4:
Hình 3.5:
Hình 3.6:

Liên kết trong trang phân giải nhập nhằng "Client (Disambiguation)"

trích từ Wikipedia.. ................................................................................ 27
Giải thuật xác định các trang Wikipedia ứng viên.. ..............................29

Hình 3.7:
Hình 3.8:

Giải thuật lựa chọn các trang Wikipedia kết quả... ...............................30
Kết quả sau khi áp dụng phƣơng pháp Milne và Witten (2008) cho
một nghĩa của từ "client" trong từ điển Wiktionary.. ............................ 32
Hình 3.9: Kết quả sau khi áp dụng phƣơng pháp Milne và Witten (2008) cho
một nghĩa của từ "address" trong từ điển Wiktionary. .......................... 33
Hình 3.10: Kết quả sau khi áp dụng Heuristic cho một nghĩa của từ "address"
trong từ điển Wiktionary.. ..................................................................... 34
Hình 4.1: So sánh định nghĩa của "waiter" trong WordNet, từ điển Wiktionary
Hình 4.2:

và từ Oxford tiếng Anh.......................................................................... 36
Tạo ánh xạ cho một nghĩa của từ "waiter" trong từ điển Wikitionary...38

iii


Hình 4.3:
Hình 4.4:
Hình 4.5:

Các nghĩa của từ điển Wiktionary trích từ tập tin WiktionaryData.txt. 38
Một số ánh xạ đƣợc trích từ tập tin WiktionaryResult.txt... ................. .39
Tạo ánh xạ cho một nghĩa của từ "waiter" trong từ điển Oxford... .......40


Hình 4.6:

Các nghĩa của từ điển Oxford đƣợc trích từ tập tin OxfordData.txt... ..40

Hình 4.7:
Hình 4.8:

Một số ánh xạ đƣợc trích từ tập tin OxfordResult.txt.. .........................41
Đánh giá một ánh xạ mà hệ thống trả về khơng tính ánh xạ Nil... ........42

Hình 4.9:

Đánh giá một ánh xạ mà hệ thống trả về có tính ánh xạ Nil. ................44

Hình 4.10: Hiệu suất của phƣơng pháp kết nối dựa trên luật trên Wiktionary. ......45
Hình 4.11: Hiệu suất của phƣơng pháp kết nối dựa trên luật trên từ điển Oxford. .46

iv


DANH MỤC BẢNG
Bảng 2.1:

Số lƣợng từ, synset trong WordNet 3.1.. ...............................................11

Bảng 3.1:
Bảng 3.2:

Tiêu đề của 20 trang kết quả trả về đầu tiên cho từ khoá "client".........28
Độ tƣơng quan ngữ cảnh của các trang ứng viên cho một nghĩa của từ

"client" trong từ điển Wiktionary. ......................................................... 34

Bảng 4.1:

Tập đánh giá cho từ điển Wiktionary và Oxford...................................41

Bảng 4.2:
Bảng 4.3:
Bảng 4.4:
Bảng 4.5:
Bảng 4.6:

Kết quả khơng tính đến ánh xạ Nil cho từ điển Wiktionary.. ...............45
Kết quả có tính đến ánh xạ Nil cho từ điển Wiktionary. . .....................46
Kết quả khơng tính đến ánh xạ Nil cho từ điển Oxford. . .....................47
Kết quả có tính đến ánh xạ Nil cho từ điển Oxford. .............................47
So sánh kết quả thí nghiệm của hai phƣơng pháp. . ..............................47

Bảng 4.7:

Đánh giá kết quả của phƣơng pháp dựa trên luật. . ...............................49

v


CHƢƠNG 1

TỔNG QUAN

1.1. Giới thiệu

Cùng với việc phát triển của Internet và công nghệ thông tin, các bộ từ điển
cũng đƣợc số hố và tích hợp trên các trang Web để hỗ trợ trực tuyến. Một số từ
điển hỗ trợ sử dụng trực tuyến với nhiều ngôn ngữ khác nhau đã đƣợc sử dụng rộng
rãi trên khắp thế giới, chẳng hạn nhƣ Wiktionary1 hay Oxford2. Vì vậy, việc tra cứu
và sử dụng các từ điển cho các nhu cầu hàng ngày của con ngƣời đƣợc thực hiện
một cách nhanh chóng và tiện lợi hơn.
Với các từ điển ngôn ngữ trực tuyến trên Web, khi tra cứu một từ hoặc một
cụm từ thì các nghĩa khác nhau của nó sẽ đƣợc thể hiện. Mỗi nghĩa khác nhau của
từ hoặc cụm từ đƣợc trình bảy bởi một chú thích ngắn gọn, các ví dụ minh hoạ cho
việc sử dụng của nghĩa trong ngữ cảnh cụ thể, các từ có mối quan hệ ngữ nghĩa
(đồng nghĩa, tƣơng phản,…) với nó.
Việc trình bày bằng những chú thích ngắn ngọn là dễ hình dung và phân biệt
các nghĩa khác nhau của một từ hoặc một cụm từ đối với các chuyên gia về ngôn
ngữ. Tuy nhiên, đối với những ngƣời sử dụng bình thƣờng khơng hiểu rõ về ngơn
ngữ, đơi khi họ khó có thể hình dung và phân biệt những nghĩa khác nhau bằng
những chú thích đơn giản.
Vì vậy, để cải thiện thêm chất lƣợng của các từ điển và hỗ trợ tốt hơn cho ngƣời
sử dụng, chúng ta có thể kết nối từng nghĩa trong từ điển đến các khái niệm tƣơng

1
2

/> />
1


ứng trong một cơ sở tri thức, chẳng hạn nhƣ Wikipedia3. Và khi ngƣời dùng sử
dụng từ điển họ có thể truy cập trực tiếp đến các khái niệm trong Wikipedia để hiểu
rõ hơn về các nghĩa. Ví dụ trong hình 1.1 trình bày cho việc kết nối hai nghĩa của từ
"plant" trong từ điển Wiktionary với các khái niệm tƣơng ứng trong Wikipedia.

Trong đó, nghĩa 1 ("An organism that is not an animal, especially an organism
capable of photosynthesis. Typically a small or herbaceous organism of this kind,
rather than a tree.") đƣợc kết nối đến khái niệm "Plant" (cây xanh) trong Wikipedia.
Và nghĩa 5 ("A factory or other industrial or institutional building or facility.") đƣợc
kết nối đến khái niệm "Factory" (nhà máy) trong Wikipedia.

Hình 1.1: Kết nối các nghĩa của từ "plant" trong Wikationary đến Wikipedia.

3

/>
2


1.2. Bài toán và phạm vi nghiên cứu
Nhƣ đã đặt vấn đề trong phần giới thiệu, hiện nay các chú thích cho nghĩa trong
các từ điển vẫn cịn đơn giản. Vì vậy để hỗ trợ tốt hơn cho ngƣời sử dụng hiểu một
cách rõ ràng từng nghĩa của từ khi sử dụng các từ điển, chúng tôi sẽ liên kết từng
nghĩa đến khái niệm tƣơng ứng trong một cơ sở tri thức. Và Wikipedia là một cở sở
tri thức hữu dụng và chất lƣợng với việc cung cấp mô tả chi tiết cho các khái niệm
trong các trang thực thể.
Bởi vì một từ hay một cụm từ trong từ điển có thể mang nhiều nghĩa khác nhau,
vì vậy việc xác định chính xác khái niệm tƣơng ứng trong cơ sở tri thức cho từng
nghĩa cơ bản cũng chính là bài toán phân giải nhập nhằng nghĩa của từ (Word Sense
Disambiguation) dựa vào ngữ cảnh miêu tả cho nghĩa đó (chú thích, các ví dụ minh
hoạ cho việc sử dụng, các từ có mối quan hệ ngữ nghĩa tƣơng ứng).
Để giải quyết cho bài toán phân giải nhập nhằng nghĩa của từ, chúng tôi đã dựa
trên hai phƣơng pháp tiếp cận cơ bản là: dựa trên luật (Rule-based) và học máy
(Machine Learning). Trong luận văn này, chúng tôi tiến hành nghiên cứu và đề xuất
hai phƣơng pháp để kết nối nghĩa của các danh từ tiếng Anh trong các từ điển đến

các khái niệm tƣơng ứng trong Wikipedia. Để đánh giá các phƣơng pháp đề xuất,
chúng tôi tiến hành hiện thực, thử nghiệm và đánh giá trên hai bộ từ điển
Wiktionary và Oxford.

1.3. Các cơng trình liên quan
Hiện nay, đã có một số nghiên cứu trƣớc đây sử dụng cơ sở tri thức Wikipedia
để làm giàu ngữ nghĩa cho các văn bản khơng có cấu trúc hoặc các nguồn cơ sở tri
thức từ vựng khác, chẳng hạn nhƣ mạng từ vựng WordNet. Để lựa chọn đúng các
khái niệm tƣơng ứng trong Wikipedia, phƣơng pháp đề xuất cho các nghiên cứu này
dựa trên hai hƣớng tiếp cận: dựa trên luật và học máy.
Có nhiều cơng trình nghiên cứu trƣớc đây đã tiến hành kết nối mạng từ vựng
WordNet với cơ sở tri thức Wikipedia, chẳng hạn nhƣ Ruiz-Casado (2005),
Suchanek (2008), Ponzetto và Navigli (2010), Fernando và Stevenson (2012). Các
nghiên cứu này định nghĩa giải thuật với các luật hoặc heuristic khác nhau để lựa
chọn khái niệm tƣơng ứng trong Wikipedia cho các WordNet synset. Ruiz-Casado
(2005) đã sử dụng việc so sánh mức độ tƣơng tự văn bản giữa các synset và trang
Wikipedia để kết nối WordNet và Simple Wikiepdia tiếng Anh.
3


Suchanek (2008) đã sử dụng các phƣơng pháp heuristic để kết nối các trang thể
loại của Wikipedia với các WordNet synset. Ponzetto và Navigli (2010) sử dụng
các phƣơng pháp giao nhau văn bản để lựa chọn trang Wikipedia phù hợp nhất cho
từng WordNet synset, tuy nhiên khi tìm kiếm các trang Wikipedia ứng viên tác giả
chỉ sử dụng tiêu đề của trang Wikipedia mà không sử dụng nội dung của nó.
Nghiên cứu gần đây nhất của việc kết nối WordNet và Wikipedia là cơng trình
của Fernando và Stevenson (2012). Tác giả đã đề xuất một phƣơng pháp tự động
kết nối các WordNet synset đến các trang Wikipedia với ba bƣớc: xác định tập các
trang ứng viên cho từng WordNet synset (Generation of Candidate Articles), lựa
chọn các kết nối tốt nhất (Selecting the Best Mappings) và tinh lọc các kết nối

(Refining the Mappings).
Trong phƣơng pháp của Fernando và Stevenson, mục tiêu của bƣớc thứ nhất là
thu giảm khơng gian tìm kiếm trang Wikipedia kết nối cho từng synset. Với bƣớc
thứ hai, mục tiêu là giải quyết nhập nhằng để xác định trang Wikipedia phù hợp
nhất và tác giả đã sử dụng hai độ đo: tƣơng tự văn bản (Text Similarity) và tƣơng tự
tiêu đề (Title Similarity). Cuối cùng, một phƣơng pháp đánh giá toàn cục và các liên
kết trong Wikipedia đƣợc sử dụng để tinh lọc những kết nối tốt nhất.
Ngoài ra, cũng có một số nghiên cứu khác đã tiến hành kết nối các văn bản
khơng có cấu trúc với Wikipedia, chẳng hạn nhƣ Mihalcea và Csomai (2007), Milne
và Witten (2008). Các nghiên cứu này sử dụng phƣơng pháp học máy để phân giải
nhập nhằng cho các cụm từ trong văn bản. Mihalcea và Csomai (2007) đã đề xuất
phƣơng pháp Wikify để làm giàu ngữ nghĩa cho các văn bản khơng có cấu trúc với
hai bƣớc chính: rút trích từ khoá (Keyword Extraction) và giải quyết nhập nhằng
(Word Sense Disambiguation).
Rút trích từ khố là xác định các từ và các cụm từ quan trọng trong văn bản,
chúng là các thuật ngữ kỹ thuật (Technical Terms), các thực thể đƣợc định danh
(Named Entities), các thuật ngữ mới (New Terminology). Để rút trích các từ khố
trong văn bản, đầu tiên tác giả tiến hành xây dựng một từ điển với các tiêu đề của
các trang Wikipedia, sau đó văn bản sẽ đƣợc phân tích và rút trích ra các từ và cụm
từ nếu chúng nằm trong từ điển.
Tiếp theo để đánh giá các từ và cụm từ nào quan trọng, một hàm xếp hạng
(ranking) dựa trên truy hồi thông tin (IR), xác suất, hoặc độc lập tuyến tính đƣợc sử
dụng. Ví dụ, với văn bản "A tree is a large, perennial, woody plant [...] The earliest
4


trees were tree ferns and horsetails, which grew in forests in the Carboniferous
Period." thì các từ khố đƣợc rút trích là: "perennial", "plant", "tree ferns",
"horsetails", "Carboniferous".
Sau khi rút trích đƣợc các từ khoá trong văn bản, Mihalcea và Csomai sử dụng

giải thuật học máy dựa trên việc phân tích các liên kết trong Wikipedia để giải
quyết nhập nhằng cho các từ khoá và liên kết chúng đến các trang Wikipedia tƣơng
ứng. Trong đoạn văn bản của ví dụ trên, từ "plant" có một vài nghĩa khác nhau,
chẳng hạn "green plant" (cây xanh) hay "industrial plant" (nhà máy công nghiệp),
nhƣng nghĩa đúng của từ "plant" trong đoạn văn bản nên là "green plant" (cây
xanh).
Milne và Witten (2008) đề xuất một phƣơng pháp cải tiến cho phƣơng pháp
Wikify trong việc kết nối các văn bản không câu trúc với Wikipedia. Và để giải
quyết nhập nhằng cho các từ khoá, Milne và Witten đã sử dụng phƣơng pháp học
máy dựa trên ba nhân tố chính: độ phổ biến (Commoness), độ tƣơng quan ngữ cảnh
(Semantic Relatedness) và chất lƣợng của ngữ cảnh (Context Quality).
Ngoài các nghiên cứu kết nối WordNet và các văn bản đến Wikipedia, cịn có
một số nghiên cứu khác kết nối các cơ tri thức từ vựng lại với nhau. Chẳng hạn nhƣ,
Meyer và Gurevych (2011) đã đề xuất một phƣơng pháp kết nối các WordNet
synset với các nghĩa tƣơng ứng trong Wiktionary.
Ví dụ, synset {plant, works, industrial plant -- (buildings for carrying on
industrial labor; "they built a large plant to manufacture automobiles")} trong
WordNet sẽ đƣợc kết nối với nghĩa "A factory or other industrial or institutional
building or facility" của từ "plant" trong Wiktionary. Phƣơng pháp của Meyer và
Gurevych bao gồm hai bƣớc chính: rút trích các ứng viên (Candidate Extraction) và
giải quyết nhập nhằng các ứng viên (Candidate Disambiguation).
Rút trích các ứng viên nghĩa là xác định một tập các nghĩa ứng viên trong
Wiktionary cho từng WordNet synset. Với từng WordNet synset, tác giả lấy tất cả
các nghĩa trong Wiktionary của các từ đồng nghĩa và thêm vào tập các nghĩa ứng
viên. Sau khi xác định đƣợc tập các nghĩa ứng viên, tác giả sử dụng hai hàm đánh
giá COS (Cosine Similarity) và PPR (Personalized PageRank Based Measure) để
giải quyết nhập nhằng và xác định những kết nối đúng cho từng WordNet synset
đến từng nghĩa trong Wiktionary.

5



CHƢƠNG 2

CƠ SỞ LÝ THUYẾT

2.1. Wikipedia
Wikipedia4 là một nguồn tri thức mở to lớn của con ngƣời, đƣợc đƣa vào hoạt
động chính thức vào ngày 15 tháng 1 năm 2001 nhờ hai ngƣời sáng lập Jimmy
Wales và Larry Sanger, cùng với vài ngƣời cộng tác nhiệt thành. Trong những năm
gần đây, Wikipedia đã phát triển rất nhanh nhờ sự đóng góp tích cực của đơng đảo
cộng đồng ngƣời sử dụng trên tồn thế giới và trở thành nguồn thơng tin đáng tin
cậy.
Tính đến tháng 5 năm 2014, cơ sở dữ liệu của Wikipedia bao gồm hơn 31,6
triệu trang Web, hơn 46 triệu ngƣời sử dụng, bao quát nhiều lĩnh vực khác nhau, hỗ
trợ trên 287 ngôn ngữ khác nhau5. Theo Alexa6, hiện nay Wikipedia là một website
phổ biến đứng hàng thứ sáu trên thế giới. Và theo comScore7, mỗi tháng có trung
bình khoảng 495 triệu lƣợt truy cập đến Wikipedia trên tồn thế giới, trong đó 85
triệu lƣợt truy cập đến từ Mỹ.
Xét về mức độ tin cậy thông tin của Wikipedia, nhiều nghiên cứu trƣớc đây đã
chỉ ra rằng độ chính xác của Wikipedia có thể tƣơng đƣơng với các nguồn tri thức
đóng khác. Giles (2005) đã so sánh Wikipedia và từ điển bách khoa toàn thƣ
Britannica8 bằng việc thu thập ngẫu nhiên 41 bài viết có chủ đề liên quan đến khoa
học, và kết quả có 162 lỗi trên các bài viết của Wikipedia so với 123 lỗi của các bài
4

/>http:// en.wikipedia.org/wiki/History_of_Wikipedia
6
/>7
/>8

/>5

6


viết lấy từ Britannica. Weaver và Strickland (2006) đánh giá mức độ chính xác của
liên kết giữa các bài viết trong Wikipedia đạt 97%. Điều này có thể khẳng định rằng
Wikipedia có mức độ tin cậy cao và là nguồn tri thức đáng giá.
Trong phạm vi luận văn này, chúng tôi sử dụng phiên bản Wikipedia vào ngày
22 tháng 7 năm 2011 làm cơ sở tri thức với số lƣợng trang cho mỗi loại đƣợc thống
kê nhƣ sau:
-

Trang thực thể: 3,573,789 trang.

-

Trang phân giải nhập nhằng: 148,818 trang.

-

Trang thể loại: 739,980 trang.
Trang chuyển hƣớng: 5,001,026 trang.

Sau đây, chúng tôi sẽ trình bày sơ lƣợc các thành phần cơ bản của Wikipedia.
Trang thực thể
Trang thực thể là thành phần quan trọng nhất của Wikipedia, mô tả chi tiết
thông tin về một thực thể mà nó đề cập tới và đƣợc xác định bằng một tiêu đề (title),
cũng là định danh của thực thể. Trong trƣờng hợp tiêu đề bị nhập nhằng thì sẽ có
một phần văn bản phân giải nhập nhằng đi kèm phía sau và nhận diện bằng ký hiệu

đóng mở ngoặc "()" hay ký hiệu dấu phẩy ",".
Ví dụ, trong hình 2.1 là một phần nội dung của trang thực thể "Mouse
(computing)" đƣợc trích từ Wikipedia tiếng Anh. Tiêu đề của trang thực thể này bao
gồm hai phần: tiêu đề chính "Mouse" và phần văn bản phân giải nhập nhằng
"computing". Và phần văn bản phân giải nhập nhằng này giúp xác định trang thực
thể đang đề cập đến chuột máy tính, chứ khơng phải là chuột sinh học.
Ngồi tiêu đề, trang thực thể cịn có một số thành phần khác nhƣ infobox, liên
kết vào (in-going link), liên kết ra (out-going link)… Infobox là nội dung tóm tắt
quan trọng về thực thể hoặc chứa liên kết đến các thực thể có liên hệ mật thiết;
Infobox thƣờng đƣợc biểu diễn dƣới dạng một bảng (table) nằm ở góc phải ngồi
cùng của một trang thực thể.
Liên kết vào là tập hợp những liên kết trỏ vào trang thực thể hiện tại có điểm
xuất phát từ nội dung các trang thực thể khác. Ví dụ, trang thực thể "Mouse
(computing)" ở hình 2.1 đƣợc liên kết đến từ nội dung của trang thực thể "Pointing
device". Ngƣợc lại, liên kết ra là liên kết xuất phát từ nội dung của trang thực thể

7


hiện tại đến những thực thể khác. Ví dụ, trong nội dung của trang thực thể "Mouse
(computing)" ở hình 2.1 có liên kết đến trang thực thể "Computing".

Hình 2.1: Một phần trang thực thể "Mouse (computing)" đƣợc trích từ Wikipedia.
Trang thể loại
Mỗi thực thể trong Wikipedia đều thuộc một hoặc nhiều thể loại khác nhau.
Các thể loại này đƣợc phân cấp theo quan hệ cha con và thƣờng xuất hiện trong
phần cuối các trang thực thể. Mỗi trang thể loại chứa các liên kết trỏ đến trang thể
loại con của nó. Tiêu đề của trang thể loại có dạng: Category: + tên thể loại. Ví dụ
trong hình 2.2 là một phần nội dung của trang thể loại "Category:Computing input
devices" đƣợc trích từ Wikipedia tiếng Anh với các liên kết đến các trang thể loại

con của nó "Computer keyboards", "Joysticks", "Touchscreens".

Hình 2.2: Một phần trang thể loại "Category:Computing input devices" đƣợc trích
từ Wikipedia.
8


Trang chuyển hƣớng
Với những thực thể trong Wikipedia, ngoài một tên gọi chính thức, đơi khi
chúng cũng có thể nhiều tên gọi hoặc bí danh khác. Nếu tên gọi chính thức của một
thực thể là tiêu đề cho trang thực thể gốc thì các bí danh và các tên gọi khác của
thực thể đó đƣợc biểu hiện dƣới dạng các trang chuyển hƣớng. Một điểm thú vị là
theo thời gian, tên gọi chính thức (hay tiêu đề của trang thực thể) có thể bị thay đổi
bởi ngƣời dùng, và những tên gọi cũ của thực thể sẽ trở thành những trang chuyển
hƣớng.
Ví dụ trong hình 2.3 là một phần nội dung của các trang chuyển hƣớng là
"U.S.", "USA" và trang thực thể chính "United States" đƣợc trích từ Wikipedia
tiếng Anh. Trong nội dung của các trang chuyển hƣớng "U.S." và "USA" có những
liên kết đến trang thực thể chính "United States". Khi ngƣời sử dụng tìm kiếm với
"U.S.", "USA" thì Wikipedia sẽ tự động chuyển hƣớng đến trang thực thể chính
"United States" và hiển thị nội dung của trang này đến ngƣời sử dụng.

Hình 2.3: Một phần của hai trang chuyển hƣớng "U.S.", "USA" và trang thực thể
"United States" đƣợc trích từ Wikipedia.
Trang phân giải nhập nhằng
Trang thực thể là trang có tiêu đề mơ tả về một thực thể duy nhất. Trong khi đó,
trang phân giải nhập nhằng là trang chứa những liên kết của những thực thể có tên
gọi giống nhau nhƣng lại mang nghĩa khác nhau. Tiêu đề của trang phân giải nhập
nhằng có dạng: tên thực thể nhập nhằng + (disambiguation).


9


Ví dụ trong hình 2.4 là một phần nội dung của trang phân giải nhập nhằng
"Server (Disambiguation)" và trang hai thực thể "Waiting staff", "Server
(computing)" đƣợc trích từ Wikipedia tiếng Anh. Trong nội dung của trang phân
giải nhập nhằng "Server (Disambiguation)" có chứa các liên kết đến hai trang thực
thể " Waiting staff " và " Server (computing)".

Hình 2.4: Một phần của trang phân giải nhập nhằng "Server (Disambiguation)" và
hai trang hai thực thể "Waiting staff", "Server (computing)" trích từ Wikipedia.

2.2. WordNet
WordNet là một hệ cơ sở tri thức khổng lồ về ngữ nghĩa của từ vựng tiếng Anh
với hơn 100,000 ý niệm khác nhau, được xây dựng bởi một nhóm nghiên cứu dẫn
đầu là Prof. George Miller ở Đại học Princeton (Mỹ) từ đầu thập niên 1980. Và cho
đến ngày nay, WordNet vẫn đang đƣợc các nhà khoa học trên tồn thế giới tiếp tục
khai thác, đóng góp để cải tiến ngày càng hoàn thiện hơn.
Ứng dụng của WordNet đƣợc các nhà nghiên cứu khoa học thực hiện trong
nhiều lĩnh vực khác nhau. Một trong những thành công của ứng dụng của WordNet
là việc sử dụng nó trong xử lý ngôn ngữ tự nhiên, chẳng hạn nhƣ truy vấn thông tin
(information retrieval), phân loại thông tin (information categorization)...

10


WordNet có rất nhiều ƣu điểm: tính khoa học, tính hệ thống, tính mở (open), dễ
sử dụng, tính phổ biến, tính phát triển,… Chính vì vậy, đến nay, đã có một số cơng
trình bản địa hóa (localization) WordNet theo ngơn ngữ của một số nƣớc, nhƣ Pháp,
Nhật, Hàn Quốc, Tây Ban Nha, Trung Quốc,… Và gần đây, ở nƣớc ta một số nhà

khoa học bắt tay vào nghiên cứu để xây dựng WordNet cho tiếng Việt.
Các từ trong Wordnet đƣợc phân loại thành danh từ, động từ, tính từ, và phó từ
và đƣợc tổ chức thành những tập các từ đồng nghĩa (synset). Các synset miêu tả,
tƣợng trƣng cho một ý niệm cơ bản và đƣợc nối với nhau bởi nhiều loại quan hệ
(relation) ngữ nghĩa khác nhau: quan hệ hypernym/hyponym, quan hệ tƣơng phản
antonym, quan hệ thành phần meronym/holonym,…
Hiện nay, WordNet đã phát triển lên đến phiên bản 3.1 bao gồm hơn 110,000
synset với hơn 150,000 từ và hệ cơ sở tri thức này miễn phí (cung cấp cả chức năng
online9 và offline) cho các công tác học tập và nguyên cứu.
Từ loại

Số từ

Số synset

Tổng số mục từ

Danh từ

117,798

82,115

146,312

Động từ

11,529

13,767


25,047

Tính từ

21,479

18,156

30,002

Phó từ

4,481

3,621

5,580

Tổng cộng

155,287

117,659

206,941

Bảng 2.1: Số lƣợng từ, synset trong WordNet 3.1.
Trong giới hạn của luận văn này, chúng tôi chỉ sử dụng các synset danh từ trong
phiên bản 3.1 của WordNet. Sau đây chúng tơi xin trình bày sơ lƣợc các quan hệ

ngữ nghĩa chính của các synset danh từ.
Quan hệ hypernym/hyponym của các synset danh từ
Quan hệ hypernym đƣợc kí hiệu là "@->", nó giống nhƣ một quan hệ tổng quát
hóa (generalization) đi từ một khái niệm cụ thể đến khái niệm tổng quát hơn. Ví dụ,
chẳng hạn nhƣ "{ robin } @-> { birb}", khái niệm "robin" là một khái niệm cụ thể,
còn khái niệm "birb" tổng quát hơn. Chúng ta có thể đọc quan hệ hypernym theo
nghĩa "IS-A" (là-một) hay "IS-A-KIND-OF" (là-một-loại). Theo ví dụ trên chúng ta
có thể hiểu là "robin" là một loại chim (bird).
9

/>
11


Quan hệ đối ngẫu của quan hệ hypernym đó là quan hệ hyponym. Nếu một
synset Ss "@->" một synset Sg khác, thì synset Ss gọi là hypernym của Sg và Sg gọi là
hyponym của Ss. Quan hệ hyponym đƣợc kí hiệu là "~->", nó giống nhƣ một quan
hệ cụ thể hóa (specialization) đi từ một khái niệm tổng quát đến một khái niệm cụ
thể hơn, chẳng hạn nhƣ "{ person } ~-> { man}". Quan hệ hyponym có thể đƣợc
đọc là "SUBSUMES" (xếp-vào).
Quan hệ meronym/holonym của các synset danh từ
Quan hệ meronym/holonym là một quan hệ giữa danh từ và danh từ, trong đó
có một danh từ đóng vai trị là chủ thể và một danh từ đóng vai trị là thành phần.
Quan hệ meronym/holonym bao gồm hai quan hệ con: quan hệ meronym và quan
hệ holonym, hai quan hệ này đối ngẫu nhau.
Nếu Wm là một phần của (A-PART-OF) Wh, thì Wm đƣợc gọi là meronym của
Wh. Ví dụ chẳng hạn nhƣ ngón tay (finger) là một phần của bàn tay (hand) thì
"{ finger }" là một meronym của "{ hand }". Nếu Wh có một thành phần (HAS-A)
là Wm, thì Wh đƣợc gọi là holonym của Wm. Ví dụ, mỗi cơ thể con ngƣời (body) có
một cái miệng (mouth) nên "{ body }" là một holonym của "{ mouth }".

Quan hệ antonym của các synset danh từ
Quan hệ antonym là quan hệ giữa các cặp danh từ mang ý nghĩa trái ngƣợc
nhau, và thông thƣờng chúng đƣợc dẫn xuất từ một cặp tính từ tƣơng phản. Chẳng
hạn, cặp danh từ "kindness - unkindness" có quan hệ antonym, và chúng đƣợc dẫn
xuất từ cặp tính từ tƣơng phản "kind-unkind". Trong WordNet, quan hệ antonym
đƣợc trình bày bởi một con trỏ giữa hai danh từ, và đƣợc kí hiệu là !->, ví dụ
"{ man } !-> { woman }", "{ woman } !-> { man }".

2.3. Wiktionary
Wiktionary10 là một từ điển mở trực tuyến, đa ngôn ngữ, đƣợc đƣa vào hoạt
động chính thức vào tháng 12 năm 2002 nhờ hai ngƣời sáng lập Daniel Alston và
Larry Sanger. Tên "Wiktionary" là một sự kết hợp giữa hai từ "wikipedia" và
"dictionary". Cũng tƣơng tự nhƣ Wikipedia, bất kỳ ngƣời sử dụng Internet nào đều
có thể chỉnh sửa nội dung các trang Web của Wiktionary.

10



12


Và nhờ đóng góp tích cực của cộng đồng ngƣời sử dụng, Wiktionary cũng phát
triển một cách nhanh chóng với hơn hàng triệu trang web trên một số lƣợng lớn các
ngơn ngữ khác nhau. Tính đến tháng 5 năm 2014, cơ sở dữ liệu của Wiktionary bao
gồm hơn 24 triệu trang Web, hơn 2,7 triệu ngƣời sử dụng, hỗ trợ trên 171 ngơn ngữ
khác nhau11.
Trong Wiktionary, một trang Web trình bày các nghĩa khác nhau của một từ
hoặc cụm từ. Cũng tƣơng tự nhƣ WordNet, từng nghĩa của từ hoặc cụm từ đƣợc thể
hiện bởi một chú thích, các ví dụ minh hoạ cho việc sử dụng của nghĩa và một tập

từ đồng nghĩa (synonyms), cũng nhƣ các từ có mối quan hệ hypernym/hyponym,
meronym/holonym, antonym tƣơng ứng.
Ví dụ, trong hình 2.5 là định nghĩa của danh từ "father" trích từ Wiktionary
tiếng Anh. Danh từ này có 7 nghĩa khác nhau, từng nghĩa đƣợc miêu tả bởi một chú
thích ngắn gọn và các nghĩa 1, 3, 5, 6 cịn có những ví dụ minh hoạ cho việc sử
dụng. Ngồi ra, các synonym và antonym cũng đƣợc định nghĩa tƣơng ứng.

Hình 2.5: Định nghĩa của danh từ "father" đƣợc trích từ Wiktionary.
Trong phạm vi luận văn này, chúng tôi sử dụng phiên bản Wiktionary tiếng anh
vào ngày 3 tháng 4 năm 2010 làm từ điển với số lƣợng 335,748 từ tiếng Anh và
421,847 nghĩa.
11

/>
13


2.4. Từ điển Oxford
Từ điển tiếng Anh Oxford (OED12) là một trong những từ điển tiếng Ạnh lâu
đời nhất trên thế giới đƣợc xuất bản bởi nhà xuất bản đại học Oxford. Công việc
biên soạn cho từ điển tiếng Anh Oxford đƣợc bắt đầu từ năm 1857 nhƣng cho đến
năm 1884, nó mới đƣợc cơng bố lần đầu tiên với tên A New English Dictionary on
Historical Principles (NED). Và đến năm 1895, tiêu đề The Oxford English
Dictionary (OED) mới bắt đầu đƣợc sử dụng rộng rãi.
Phiên bản thứ hai của từ điển tiếng Anh Oxford đƣợc xuất bản vào năm 1989
với 20 tập, bao gồm 291,500 mục trong 21,730 trang. Cho đến ngày 24 tháng 3 năm
2011, các nhà biên tập đã hoàn tất phiên bản thứ ba của từ điển tiếng Anh Oxford
với khoảng trên 750,000 từ và đƣợc đánh giá là từ điển đơn ngơn ngữ tồn diện nhất
thế giới theo sách kỷ lục Guinness13.
Phiên bản online trên web14 đầu tiên của từ điển tiếng Anh Oxford đƣợc công

bố vào ngày 14 tháng 3 năm 2000 theo Juliet New (2000). Và tính đến tháng 8 năm
2010, mỗi tháng trung bình có khoảng 2 triệu lƣợt truy cập của ngƣời sử dụng trên
khắp thế giới đến từ điển Oxford online. Với mục đích phục vụ cho việc học tập và
nghiên cứu, từ điển Oxford online hỗ trợ miễn phí cho mọi ngƣời.
Với từ điển tiếng Anh Oxford online, chúng ta có thể tìm kiếm định nghĩa của
một từ hoặc một cụm từ một cách nhanh chóng. Cũng tƣơng tự nhƣ WordNet và
Wiktionary, từng từ hoặc cụm từ trong từ điển Oxford sẽ có thể có nhiều nghĩa khác
nhau. Và mỗi nghĩa trong từ điển Oxford cũng đƣợc trình bảy bởi một chú thích,
các ví dụ minh hoạ cho việc sử dụng của nghĩa trong các ngữ cảnh cụ thể, và một
tập các từ đồng nghĩa (synonyms), antonyms,…
Ví dụ trong hình 2.6 là định nghĩa của danh từ "server" trích từ điển Oxford
tiếng Anh online. Danh từ "server" có 3 nghĩa khác nhau, và mỗi nghĩa đƣợc miêu
tả bởi chú thích và các ví dụ minh hoạ cụ thể. Trong phạm vi luận văn này, chúng
tôi đã sử dụng từ điển Oxford tiếng Anh online bản đƣợc cập nhật ngày 13 tháng 1
năm 2014.

12

/> />14
/>13

14


×