ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Nguyễn Thanh Hiên
PHÂN GIẢI NHẬP NHẰNG THỰC THỂ CÓ TÊN
DỰA TRÊN CÁC ONTOLOGY ĐÓNG VÀ MỞ
Chuyên ngành: Khoa học Máy tính
Mã số: 62.48.01.01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. CAO HOÀNG TRỤ
TP. HCM - NĂM 2010
i
LỜI CAM ĐOAN
Tôi cam đoan rằng nội dung của luận án này là kết quả nghiên cứu của bản thân. Tất
cả những tham khảo từ các nghiên cứu liên quan điều được nêu rõ nguồn gốc một cách rõ
ràng từ danh mục tài liệu tham khảo được đề cập ở phần sau của luận án. Những đóng góp
trong luận án là kết quả nghiên cứu của tác giả đã được công bố trong các bài báo của tác
giả ở phần sau của luận án và chưa được công bố trong bất kỳ công trình khoa học nào
khác.
Tác giả luận án
Nguyễn Thanh Hiên
ii
LỜI CẢM ƠN
Tôi muốn bày tỏ ở đây lời tri ân sâu sắc gởi đến thầy hướng dẫn của tôi, PGS. TS. Cao
Hoàng Trụ. Thầy đã tận tình chỉ bảo tôi từ những ngày đầu tiếp cận con đường khoa học.
Thầy đã dạy tôi từ những việc tưởng chừng đơn giản như cách thức để thu thập các tài liệu
liên quan, đến khả năng tư duy có phê phán và sự hoài nghi cần thiết trong hoạt động
nghiên cứu. Sự tận tình hướng dẫn, cộng với sự động viên, khích lệ thường xuyên của
Thầy đã thật sự đánh thức trong tôi những khả năng tiềm ẩn, nếu không luận án này đã
không thể hoàn thành. Sự cẩn thận, tỉ mỉ, kiên nhẫn và nghiêm túc trong công việc là
những đức tính mà Thầy luôn nhắc nhở tôi. Những gì Thầy dạy tôi đã ảnh hưởng sâu sắc
đến cá nhân tôi, và sẽ có tác động lâu dài đến cuộc sống, sự nghiệp và tương lai của tôi.
Tôi tin rằng, bằng những lời lẽ thông thường sẽ không đủ để chuyển tải hết lòng biết ơn
với những gì Thầy đã dạy tôi. Dù vậy, tôi cũng muốn viết ra đây, và gởi đến Thầy, lời cảm
ơn chân thành nhất. Em cảm ơn Thầy!
Tôi cũng muốn bày tỏ lòng biết ơn đối với tập thể các thầy cô Khoa Khoa học và Kỹ
thuật máy tính, Trường Đại học Bách Khoa Tp. HCM, nơi tôi học tập và gắn bó hơn mười
năm qua, tính cả thời gian tôi học đại học và làm luận văn thạc sĩ. Các thầy cô luôn tạo
điều kiện để tôi hoàn thành tốt công việc của mình, và sự dạy dỗ của quí thầy cô đã giúp
tôi trưởng thành. Xin chân thành cảm ơn quí thầy cô trong Khoa Khoa học và Kỹ thuật
máy tính. Tôi cũng chân thành cả
m ơn sự hỗ trợ và giúp đỡ nhiệt thành của Phòng Quản lý
Sau Đại học, Trường Đại học Bách Khoa Tp. HCM trong thời gian tôi thực hiện luận án
này. Cảm ơn Ban giám hiệu Trường Đại học Bách Khoa Tp. HCM, Phòng Khoa học Công
nghệ & Dự án đã xét duyệt cho tôi thực hiện đề tài nghiên cứu cấp trường, hỗ trợ tài chính
để trang trải một phần kinh phí học tập và nghiên cứu của tôi trong thời gian qua.
Tôi chân thành cảm ơn Tiến sĩ Lê Vinh Danh, Hiệu trưởng Trường Đại học Tôn Đức
Thắng, đã động viên và tạo mọi điều kiện thuận lợi cho tôi hoàn thành luận án này. Cảm
ơn các anh chị trong Phòng Điện toán và Thông tin tư liệu, Trường Đại học Tôn Đức
Thắng, đã nhiệt tình giúp đỡ tôi trong thời gian vừa qua.
Cuối cùng, chân thành cảm ơn người thân, bạn bè luôn bên cạnh động viên, hỗ trợ về
mặt tinh thần để tôi vượt qua khó khăn và hoàn thành tốt luận án.
iii
TÓM TẮT
Thực thể có tên là những thực thể có thể được tham khảo đến bằng tên riêng, như con
người, tổ chức, hoặc nơi chốn. Phân giải nhập nhằng thực thể có tên là nhằm ánh xạ mỗi
tên trong một văn bản vào một thực thể trong một nguồn tri thức cho trước. Nổi lên gần
đây như là một bài toán đầy thách thức, nhưng có nhiều ý nghĩa trong việc hiện thực hóa
Web có ngữ nghĩa, cũng như phát triển nâng cao các ứng dụng xử lý ngôn ngữ tự nhiên,
phân giải nhập nhằng thực thể có tên đã thu hút sự quan tâm của nhiều nhóm nghiên cứu
khắp thế giới. Luận án đề xuất ba phương pháp cho bài toán này, trong đó nghiên cứu sâu
ba yếu tố quan trọng ảnh hưởng đến hiệu quả phân giải nhập nhằng là các nguồn tri thức sử
dụng, đặc trưng biểu diễn thực thể, và mô hình phân giải nhập nhằng.
Các nguồn tri thức được khai thác là các ontology đóng và Wikipedia. Các ontology
đóng được xây dựng bởi các chuyên gia theo hướng tiếp cận từ trên xuống, với các khái
niệm có quan hệ thứ bậc dựa trên một tập từ vựng có kiểm soát và các ràng buộc chặt chẽ.
Wikipedia, xem như một ontology mở, được xây dựng bởi những người tình nguyện theo
hướng tiếp cận từ dưới lên, với các khái niệm được hình thành từ một tập từ vựng tự do và
các thoả thuận mang tính cộng đồng. Các đặc trưng được nghiên cứu là tên của các thực
thể đồng xuất hiện, định danh của các thực thể đã được xác định, và các từ cùng với các
cụm từ xuất hiện xung quanh tên đang được xem xét và xung quanh các tên là đồng tham
chiếu với tên đó trong văn bản. Ngoài ra luận án cũng khai thác vị trí xuất hiện, chiều dài
của các tên, và tên thường dùng của các thực thể. Luận án đề xuất ba mô hình phân giải
nhập nhằng tương ứng với ba phương pháp nói trên là: (i) mô hình dựa trên heuristic; (ii)
mô hình dựa trên thống kê; và (iii) mô hình lai - kết hợp heuristic và thống kê.
Điểm mới chung của ba phương pháp là phân giải nhập nhằng theo một quá trình lặp
cải thiện dần, trong đó bao gồm một số bước lặp. Thực thể được xác định tại mỗi bước lặp
sẽ được sử dụng để phân giải nhập nhằng các thực thể còn lại ở các bước lặp tiếp theo. Các
thí nghiệm được thực hiện để đánh giá và chứng tỏ tính hiệu quả của các phương pháp
được đề xuất. Luận án cũng nghiên cứu xử lý các trường hợp khi mà các tên trong văn bản
chỉ được nhận ra bán phần và thực thể được đề cập đến trong văn bản nằm ngoài nguồn tri
thức sử dụng, đồng thời đề xuất các độ đo hiệu quả phân giải nhập nhằng mới tương ứng.
iv
Abstract
Named entities are those that are referred to by names such as people, organizations, or
locations. Named entity disambiguation is a problem that aims at mapping entity names in
a text to the right referents in a given source of knowledge. Having been emerging in
recent years as a challenging problem, but significant to realization of the semantic web, as
well as advanced development of natural language processing applications, named entity
disambiguation has attracted much attention by researchers all over the world. This thesis
proposes three methods for disambiguating named entities, and rigoruously investigates the
three important factors affecting disambiguation performance, namely, employed
knowledge sources, named entity representation features, and disambiguation models.
The knowledge sources exploited are close ontologies and Wikipedia. Close ontolo-
gies are built by experts following a top-down approach, with a hierarchy of concepts
based on a controlled vocabulary and strict constraints. Wikipedia, considered as an open
ontology, is built by volunteers following a bottom-up approach, with concepts formed by
a free vocabulary and community agreements. The investigated features are entity names,
identifiers of resolved entities, and words together with phrases surrounding a target name
and surrounding names that are coreferential with that target name. Besides, the thesis ex-
ploits occurrence positions and lengths of names, and main alias of entities. This thesis
proposes three models corresponding to the three above-mentioned methods: (i) a heuris-
tic-based model; (ii) a statistical model; and (iii) a hybrid model, combining heuristics and
statistics.
The common novelty of the proposed methods is disambiguating named entities itera-
tively and incrementally, including several iterative steps. Those named entities that are
resolved in each iterative step will be used to disambiguate the remaining ones in the next
iterative steps. Experiments are conducted to evaluate and show the advantages of the pro-
posed methods. Besides, this thesis deals with the cases when entity names in text are par-
tially recognized and entities referred to in text are outside an employed knowledge source,
as well as proposes new corresponding disambiguation performance measures.
v
MỤC LỤC
Lời cam đoan ............................................................................................................................ i
Lời cảm ơn ............................................................................................................................... ii
Tóm tắt .................................................................................................................................... iii
Abstract................................................................................................................................... iv
Mục lục..................................................................................................................................... v
Danh mục các bảng ............................................................................................................... vii
Danh mục các hình ................................................................................................................ ix
Danh mục các giải thuật ......................................................................................................... x
Danh mục thuật ngữ viết tắt ................................................................................................. xi
Chương 1: GIỚI THIỆU ........................................................................................................ 1
1.1
Lịch sử và động cơ nghiên cứu ................................................................................. 1
1.2
Bài toán và phạm vi ................................................................................................ 15
1.3
Phương pháp luận đề xuất ....................................................................................... 17
1.4
Những đóng góp chính của luận án ........................................................................ 24
1.5
Cấu trúc của luận án................................................................................................ 26
Chương 2: NỀN TẢNG KIẾN THỨC ................................................................................ 28
2.1
Giới thiệu ................................................................................................................ 28
2.2
Ontology ................................................................................................................. 29
2.3
Wikipedia ................................................................................................................ 36
2.4
Mô hình không gian véctơ ...................................................................................... 45
2.5
Nhận dạng thực thể có tên ...................................................................................... 46
2.6
Phân giải đồng tham chiếu trong một văn bản........................................................ 51
2.7
Phân giải nhập nhằng .............................................................................................. 59
vi
2.8
Kết luận ................................................................................................................... 72
Chương 3: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN ONTOLOGY ............................. 74
3.1
Giới thiệu ................................................................................................................ 74
3.2
Phân hạng ứng viên dựa trên ontology ................................................................... 75
3.3
Các độ đo hiệu quả mới .......................................................................................... 80
3.4
Thí nghiệm và đánh giá .......................................................................................... 84
3.5
Kết luận ................................................................................................................... 91
Chương 4: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN ONTOLOGY ĐƯỢC LÀM
GIÀU ...................................................................................................................................... 93
4.1
Giới thiệu ................................................................................................................ 93
4.2
Mô hình phân hạng ứng viên dựa trên thống kê ..................................................... 95
4.3
Làm giàu ontology ................................................................................................ 106
4.4
Thí nghiệm và đánh giá ........................................................................................ 110
4.5
Kết luận ................................................................................................................. 111
Chương 5: PHÂN GIẢI NHẬP NHẰNG DỰA TRÊN WIKIPEDIA ............................ 113
5.1
Giới thiệu .............................................................................................................. 113
5.2
Phương pháp lai .................................................................................................... 116
5.3
Thí nghiệm và đánh giá ........................................................................................ 125
5.4
Kết luận ................................................................................................................. 130
Chương 6: TỔNG KẾT ...................................................................................................... 132
6.1
Tóm tắt .................................................................................................................. 132
6.2
Hướng nghiên cứu mở rộng .................................................................................. 135
CÁC CÔNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN ........................... 137
TÀI LIỆU THAM KHẢO .................................................................................................. 138
vii
DANH MỤC CÁC BẢNG
Bảng 2.1: Số liệu thống kê về các trang, thể loại và liên kết của các trang trong
Wikipedia ......................................................................................................... 45
Bảng 2.2: Các loại trả lời để đánh giá một hệ thống nhận dạng thực thể có tên ............... 49
Bảng 2.3: Kết quả phân giải đồng tham chiếu tên riêng tiếng Việt .................................. 59
Bảng 2.4: Minh họa tập dữ liệu huấn luyện của Bunescu và Paşca (2006) ...................... 66
Bảng 2.5: Minh họa đánh giá hiệu quả phân giải nhập nhằng của một phương pháp
phân giải nhập nhằng các vùng địa lý (Leidner, 2007). ................................... 71
Bảng 3.1: Định nghĩa một ánh xạ là đúng hoặc sai cho một tên trong văn bản ................ 82
Bảng 3.2: Minh hoạ cách tính độ chính xác, độ đầy đủ và độ F ánh xạ ........................... 84
Bảng 3.3: Số lần xuất hiện của (“Georgia”, Location) trong tập dữ liệu D
e1
.................... 85
Bảng 3.4: Số lần xuất hiện của (“Smith”, Person) trong tập dữ liệu D
e1
.......................... 86
Bảng 3.5: Kết quả phân giải nhập nhằng cho (“Georgia”, Location) ............................... 86
Bảng 3.6: Kết quả phân giải nhập nhằng cho (“Smith”, Person) ...................................... 87
Bảng 3.7: Kết quả phân giải nhập nhằng của OntoNEON trên tập D
v
sử dụng
ontology của VN-KIM. .................................................................................... 87
Bảng 3.8: Độ chính xác và độ đầy đủ ánh xạ của VN-KIM và OntoNEON trên tập dữ
liệu D
v
. .............................................................................................................. 88
Bảng 4.1: Thông tin về thực thể trong Wikipedia có một trong các tên “John
McCarthy”, “John Williams”, “Georgia”, hoặc “Columbia” và số lần được
đề cập đến trong tập dữ liệu D
e2
. .................................................................... 101
Bảng 4.2: Thông tin về số lần xuất hiện của các tên đề cập đến các thực thể có một
trong bốn tên “John McCarthy”, “John Williams”, “Georgia”, hoặc
“Columbia” và số lượng ánh xạ được thực hiện bởi phương pháp của chúng
tôi. ................................................................................................................... 102
viii
Bảng 4.3: Độ chính xác và độ đầy đủ ánh xạ được tính toán cho các tên “John
McCarthy” và “John Williams”. .................................................................... 103
Bảng 4.4: Độ chính xác và độ đầy đủ ánh xạ được tính toán cho các tên “Georgia” và
“Columbia”. .................................................................................................... 104
Bảng 4.5: Độ chính xác và độ đầy đủ ánh xạ được tính trung bình cho các tên “John
McCarthy”, “John Williams”, “Georgia”, và “Columbia”. ............................ 105
Bảng 4.6: Thống kê lỗi khi không sử dụng và sử dụng định danh của các thực thể như
các đặc trưng. ................................................................................................. 106
Bảng 4.7: Thông tin về số lần xuất hiện của các tên đề cập đến các thực thể có một
trong hai tên “Georgia”, hoặc “Columbia” và số lượng ánh xạ được thực
hiện bởi phương pháp NOW. ......................................................................... 110
Bảng 4.8: Kết quả thực hiện phân giải nhập nhằng của NOW trên tập dữ liệu với
“Georgia” và “Columbia”. ............................................................................. 111
Bảng 5.1: Thông tin về sự xuất hiện của các tên trong tập dữ liệu D
e3
............................ 126
Bảng 5.2: Thông tin về sự xuất hiện của các tên trong tập dữ liệu D
e31
.......................... 127
Bảng 5.3: Độ chính xác và độ đầy đủ ánh xạ sau khi thực thi Giải thuật 5.1 trên tập dữ
liệu D
e32
.......................................................................................................... 128
Bảng 5.4: Độ chính xác và độ đầy đủ ánh xạ sau khi thực thi Giải thuật 5.1 trên tập dữ
liệu D
e31
.......................................................................................................... 129
ix
DANH MỤC CÁC HÌNH
Hình 1.1: Một mô hình phân giải nhập nhằng tiêu biểu ................................................... 13
Hình 1.2: Một ví dụ của phân giải nhập nhằng thực thể có tên ........................................ 15
Hình 2.1: Một số lớp xử lý của một ứng dụng rút trích thông tin ..................................... 28
Hình 2.2: VN-KIM xử lý và chú thích các thực thể có tên trên một trang web tiếng
Việt ................................................................................................................... 33
Hình 2.3: Chú thích ngữ nghĩa .......................................................................................... 33
Hình 2.4: RDF biểu diễn mối quan hệ giữa các thực thể trong cơ sở tri thức của VN-
KIM .................................................................................................................. 34
Hình 2.5: Một mô hình xử lý của một động cơ rút trích thông tin dựa trên GATE .......... 35
Hình 2.6: Một trang thực thể trong Wikipedia tiếng Việt ................................................. 38
Hình 2.7: Minh họa các mối liên kết giữa các trang trong Wikipedia .............................. 39
Hình 2.8: Minh họa hệ thống thể loại của Wikipedia ....................................................... 40
Hình 2.9: Một phần đồ thị các thể loại của thực thể Anna Maria Mozart ............... 41
Hình 2.10: Biểu diễn thực thể China trong Wikipedia tiếng Anh .................................... 41
Hình 2.11: Minh họa một phần trang phân giải nhập nhằng cho tên “John McCarthy” .... 42
Hình 2.12: Luật nhận biết tên người bằng tiếng Anh được viết đảo ngược của GATE ..... 49
Hình 2.13: Minh họa các chuỗi đồng tham chiếu ............................................................... 51
Hình 5.1: Minh họa các đặc trưng rút trích được từ một đoạn văn bản mẫu ................... 117
Hình 5.2: Một phần trang phân giải nhập nhằng của tên “Atlanta”. ................................ 120
x
DANH MỤC CÁC GIẢI THUẬT
Giải thuật 1.1: Phân giải nhập nhằng lặp cải thiện dần ...................................................... 19
Giải thuật 2.1: Phân giải đồng tham chiếu tên tiếng Việt .................................................. 57
Giải thuật 3.1: Phân giải nhập nhằng dựa trên ontology (OntoNEON) ............................. 79
Giải thuật 4.1: Phân hạng ứng viên dựa trên thống kê ....................................................... 99
Giải thuật 4.2: Phân giải nhập nhằng lặp cải thiện dần dựa trên thống kê (NOW) ......... 100
Giải thuật 4.3: Làm giàu thông tin mô tả một thực thể trong một ontology ................ 109
Giải thuật 5.1: Phân giải nhập nhằng kết hợp heuristic và thống kê (WIN) .................... 124
xi
DANH MỤC THUẬT NGỮ VIẾT TẮT
Thuật Diễn giải tiếng Anh Diễn giải tiếng Việt
IE Information Extraction Rút trích thông tin
IR Information Retrieval Truy hồi thông tin
NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên
NE Named Entity Thực thể có tên
SW Semantic Web Web có ngữ nghĩa
KB Knowledge Base Cơ sở tri thức
NER Named Entity Recognition Nhận dạng thực thể có tên
NED Named Entity Disambiguation Phân giải nhập nhằng thực thể có tên
WPS Web People Search Tìm kiếm con người trên Web
WSD Word Sense Disambiguation Phân giải nhập nhằng ngữ nghĩa từ vựng
TR Toponym Resolution Phân giải nhập nhằng các vùng địa lý
SVM Suport Vector Machine Máy véctơ hỗ trợ
MP Mapping-Precision Độ chính xác ánh xạ
MR Mapping-Recall Độ đầy đủ ánh xạ
MF Mapping-F-Measure Độ F ánh xạ
EN Entity Name Tên thực thể
LW Local Word Từ cục bộ
CW Coreferential Word Từ đồng tham chiếu
ID Identifier Định danh thực thể
ET Title of Entity page Nhan đề trang thực thể
RT Title of Redirect page Nhan đề trang đổi hướng
CL Category Label Nhãn thể loại
OL Outgoing link label Nhãn liên kết ra
IL Ingoing link label Nhãn liên kết vào
1
Chương 1
GIỚI THIỆU
1.1 Lịch sử và động cơ nghiên cứu
Internet ngày nay đã trở thành một trong những kênh lưu trữ và truyền tải thông tin lớn
nhất của nhân loại. Sự ra đời và phát triển nhanh chóng của World Wide Web (gọi tắt là
Web) đã tạo điều kiện thuận lợi cho việc phân phối và chia sẻ thông tin trên Internet, do đó
dẫn đến bùng nổ thông tin cả về số lượng, chất lượng và các chủ đề thông tin trên đó. Tuy
nhiên, đa phần nội dung thông tin trên các trang web đều được thể hiện dưới dạng ngôn
ngữ tự nhiên và được định dạng theo ngôn ngữ HTML, một ngôn ngữ thiếu khả năng diễn
đạt ngữ nghĩa về các khái niệm và các đối tượng được trình bày trong các trang web. Do
vậy, phần lớn nội dung thông tin trên các trang web hiện nay chỉ phù hợp cho con người
đọc hiểu. Mục tiêu khai thác hiệu quả các nguồn thông tin trên Web đã thúc đẩy sự phát
triển các ứng dụng xử lý văn bản tự động, trong đó các chủ
đề nghiên cứu như Rút trích
thông tin (Information Extraction – IE), Truy hồi thông tin (Information Retrieval – IR),
Hỏi đáp (Question Answering), Dịch máy (Machine Translation), Tóm lược văn bản (Text
Summarization), và Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) nói
chung, đã thu hút sự quan tâm của nhiều nhà nghiên cứu.
Để máy tính có thể hiểu ngữ nghĩa của một văn bản, một tiếp cận hợp lý hiện nay là
thay vì cố gắng hiểu một cách đầy đủ ngữ nghĩa của văn bản, chúng ta rút trích các thực
thể và các khái niệm chính y
ếu xuất hiện trong đó dựa vào một nguồn tri thức về các thực
2 Chương 1.Giới thiệu
thể và khái niệm phổ biến trong thế giới thực, ví dụ như Wikipedia
1
. Từ các thực thể và
khái niệm rút trích được, các hệ thống khai thác dữ liệu có thể được xây dựng để khai phá
các lớp tri thức mới, ví dụ như mối quan hệ giữa các thực thể, nhằm hướng đến hiểu đầy
đủ ngữ nghĩa của văn bản.
Trong hơn một thập niên qua, cũng nhằm hướng đến giúp máy tính hiểu ngữ nghĩa của
các văn bản, các chủ đề nghiên cứu lấy thực thể có tên (Named Entity – NE) làm trung
tâm, như nhận biết và phân lớp các thực thể có tên (Nadeau và Sekine, 2007), phân giải
nhập nhằng các thực thể có tên (Bunescu và Paşca, 2006; Sarmento và CS
2
, 2009), rút trích
tự động quan hệ của các thực thể có tên (Bunescu, 2007), . . . đã nhận được sự quan tâm
nghiên cứu rộng rãi. Thực thể có tên là những thực thể có thể được tham chiếu đến bằng
tên, như con người, tổ chức, nơi chốn; kể cả biểu thức thời gian, biểu thức số, giá trị tiền tệ
và phần trăm (Chinchor và Robinson, 1997). Những năm gần đây thực thể có tên cũng đã
trở thành đối tượng chính yếu trong việc nghiên cứu phát triển Web có ngữ nghĩa (Berners-
Lee và CS, 2001). Đó là bởi vì các thực thể có tên rất phổ biến trên các trang web. Hơn
nữa, thông tin và ngữ nghĩa được chuyển tải trong nội dung của nhiều trang web tập trung
xoay quanh các thực thể có tên và các mối quan hệ ngữ nghĩa được diễn đạt tường minh
hoặc ngầm định giữa chúng.
Web có ngữ nghĩa (Semantic Web – SW) là Web mà thông tin trên đó không chỉ con
người mới có thể đọc hiểu mà máy tính cũng có thể hiểu và xử lý chúng một cách tự động.
Berners-Lee phác họa SW đầu tiên vào năm 1999 (Berners-Lee, 1999). Berners-Lee và CS
(2001) trong một bài báo trên Scientific American đã mô tả một sự tiến hóa từ Web của
các tài liệu (Web of documents) để con người đọc hiểu, sang Web của dữ liệu (Web of
data) mà thông tin trên đó đã được bổ sung ngữ nghĩa để máy có thể hiểu và thao tác.
Thật vậy, SW là một sự tiến hóa mở rộng của Web hiện tại bằng cách cung cấp các cơ
chế để thêm dữ liệu mô tả ngữ nghĩa (semantic metadata) về các thực thể và các khái niệm
trên các tài liệu web hiện tại, dưới dạng các chú thích ngữ nghĩa (semantic annotation), để
máy tính có thể tích hợp và chia sẻ thông tin và dữ liệu giữa các ứng dụng một cách tự
động. Trên tinh thần đó, xác định các thực thể có tên trên các văn bản và thêm dữ liệu mô
1
2
Chúng tôi dùng CS viết tắt cho cụm các cộng sự
1.1.Lịch sử và động cơ nghiên cứu 3
tả ngữ nghĩa về chúng trên chính các văn bản đó, sử dụng các ontology, hoặc các cơ sở tri
thức (knowledge base – KB), đóng một vai trò quan trọng trong việc đạt được mục tiêu
phát triển web có ngữ nghĩa.
Hướng đến việc hiện thực các ứng dụng web có ngữ nghĩa, SemTag là một trong
những hệ thống đầu tiên thực hiện chú thích ngữ nghĩa có qui mô lớn cho các thực thể có
tên trên các trang web (Dill và CS, 2003). Các tác giả của SemTag đã trình bày một ví dụ
cho thấy ý nghĩa của các chú thích ngữ nghĩa về các thực thể có tên trong việc phát triển
các ứng dụng web có ngữ nghĩa. Ví dụ câu “The Chicago Bulls announced yesterday that
Michael Jordan will . . .” xuất hiện với các chú thích ngữ nghĩa về các thực thể có tên khi
Chicago Bulls và Michael Jordan được xác định chính xác dựa trên ontology của TAP
(Guha và McCool, 2003) như sau:
“The<resource ref="
Chicago Bulls</resource>announced yesterday that <resource
ref=" Michael Jor-
dan</resource> will...”
Trong đó chú thích <resource ref="
_Michael"> Michael Jordan </resource> ngụ ý rằng “Michael Jordan” trong câu trên đề
cập đến thực thể có định danh (identifier) là
_Michael trong ontology của TAP. Dựa trên định danh này máy tính có thể xác định Mi-
chael Jordan là vận động viên bóng rổ người Mỹ, người sinh ngày 17 tháng 02 năm 1963
và đã về hưu. Một văn bản được bổ sung các chú thích ngữ nghĩa như thế sẽ cung cấp
nhiều thông tin hơn về các thực thể và các khái niệm được đề cập trong đó, giúp máy tính
có thể đọc hiểu một phần hoặc toàn bộ văn bản.
Hiện nay người ta mong muốn rằng các trang web sẽ được bổ sung các chú thích ngữ
nghĩa như thế để tạo tiền đề cho việc phát triển các ứng dụng web có ngữ nghĩa, cũng như
phát triển nâng cao các ứng dụng trong mảng xử lý ngôn ngữ tự nhiên nói chung. Thật vậy,
có thể hình dung một viễn cảnh là, một khi các trang web đã được bổ sung dữ liệu mô tả
ngữ nghĩa về các thực thể và các khái niệm, với một truy vấn về thành phố “Sài Gòn” sẽ
nhận được các văn bản nói về Thành phố Sài Gòn và Thành phố HCM chứ không như các
động cơ tìm kiếm hiện hành là trả về bất kì văn bản nào chứa cụm từ “Sài Gòn” mặc dù
các văn bản đó có thể đề cập đến Công ty Bánh kẹo Sài Gòn, Trường ĐHCN Sài Gòn,
người Sài Gòn, . . .
4 Chương 1.Giới thiệu
Trực quan cho thấy rằng các trang web được bổ sung dữ liệu mô tả ngữ nghĩa như trên
chưa xuất hiện rộng rãi trên Web hiện tại. Để dữ liệu mô tả đó luôn sẵn sàng trên Web, một
trong những công việc cần thiết là phải xác định đúng các thực thể có tên xuất hiện trên đó.
Nhận dạng thực thể có tên, được biết đến rộng rãi với tên Named Entity Recognition
(NER), là một công việc bước đầu hướng đến mục tiêu đó. Theo MUC-6 (Sixth Message
Understanding Conference – MUC-6, 1995), NER là nhận biết và phân lớp (hoặc xác định
thể loại) các thực thể có tên (ví dụ: con người, tổ chức, nơi chốn), các biểu thức thời gian
(ví dụ: “02/04/2006”, “1-12-97”, “10h:20’”, . . .) và các biểu thức số (ví dụ: 45%, 15m,
25kg, . . .).
Trong hơn một thập niên qua đã có nhiều nghiên cứu về nhận dạng thực thể có tên
(Nadeau và Sekine, 2007). Một số nghiên cứu tập trung vào việc nhận biết và phân lớp các
NE vào các lớp ở mức cao như con người, tổ chức và nơi chốn (Bikel và CS, 1999; Tjong
Kim Sang, 2002; Tjong Kim Sang và De Meulder, 2003). Trong khi đó một số nghiên cứu
khác quan tâm việc nhận biết và phân lớp các thực thể vào các lớp mịn hơn, dựa trên một
hệ thống phân cấp gồm hàng trăm lớp thực thể (Cimiano và Völker, 2005; Nadeau, 2007).
Tuy nhiên, NER chỉ dừng lại ở việc xác định lớp của các thực thể, mà chưa xác định được
định danh cụ thể của các thực thể. Do đó, việc tiến một bước xa hơn nhằm xác định định
danh của các thực thể là thật sự cần thiết và có ý nghĩa, như đã trình bày, trong việc thúc
đẩy sự phát triển Web có ngữ nghĩa và xử lý ngôn ngữ tự nhiên nói chung. Luận án này
giải quyết bài toán Phân giải nhập nhằng thực thể có tên (Named Entity Disambiguation –
NED), nhằm vào mục tiêu đó.
Một thách thức lớn trong th
ực tế là, một thực thể có thể có nhiều tên. Ví dụ, “Ngân
hàng Thương mại Cổ phần Á Châu”, “Ngân hàng Á Châu” và “ACB” là các tên của cùng
một ngân hàng – Ngân hàng Thương mại Cổ phần Á Châu. Hơn nữa, các thực thể khác
nhau có thể trùng tên. Ví dụ, tên “Võ Thị Sáu” cùng là tên của một con người (anh hùng
Võ Thị Sáu), một đường phố ở TP. HCM (đường Võ Thị Sáu), một trường trung học ở TP.
HCM (trường PTTH Võ Thị Sáu, Đinh Tiên Hoàng, phường 3, quận Bình Thạnh, TP. Hồ
Chí Minh). Do đó, cùng một tên, nhưng trong các lần xuất hiện khác nhau, có thể được
dùng để đề cập đến các thực thể khác nhau. Ví dụ, “John McCarthy” có thể được dùng để
đề cập đến các thực thể khác nhau trong các ngữ cảnh khác nhau, như khoa học gia máy
tính người Mỹ – nhà phát minh ngôn ngữ lập trình Lisp – hoặc nhà báo người Anh, người
bị bắt cóc bởi các phần tử Hồi giáo Jihad ở Li Băng năm 1986, hoặc nhà âm vị học người
1.1.Lịch sử và động cơ nghiên cứu 5
Mỹ – giáo sư ngôn ngữ học làm việc tại Đại học Massachusetts, Amherst. Hệ quả là, một
tên xuất hiện trong văn bản đồng thời là tên của nhiều thực thể trong thế giới thực sẽ tạo ra
sự nhập nhằng (ambiguity), và tên đó được gọi là tên nhập nhằng. Điều đó dẫn đến việc
xác định đúng các thực thể được đề cập đến trong một văn bản là thật sự khó khăn và thách
thức, và là nguyên nhân dẫn đến phân giải nhập nhằng thực thể có tên đã và đang trở thành
một chủ đề nghiên cứu quan trọng trong việc phát triển các ứng dụng web có ngữ nghĩa,
cũng như phát triển nâng cao các ứng dụng trong mảng xử lý ngôn ngữ tự nhiên nói chung.
Phân giải nhập nhằng thực thể có tên trước hết là nhằm xác định liệu hai lần xuất hiện
của cùng một tên, hoặc các cách viết khác nhau của nó, trong các tài liệu khác nhau có đề
cập đến cùng một thực thể hay hai thực thể khác nhau. Ví dụ, NED là xác định hai lần xuất
hiện của “John Smith” trên hai tài liệu khác nhau cùng đề cập đến một nguời hay đề cập
đến hai người khác nhau có cùng tên “John Smith”. Một ví dụ khác là xác định “J. Smith”
và “John Smith” xuất hiện trong hai tài li
ệu khác nhau có đề cập đến cùng một người hay
hai người khác nhau.
Cho đến nay, có hai hướng nghiên cứu chính đối với NED (Sarmento và CS, 2009).
Hướng nghiên cứu thứ nhất xem NED như là bài toán gom cụm (clustering - Cardie và
Wagstaff, 1999), trong đó mục tiêu là gom cụm các tên xuất hiện trong các tài liệu khác
nhau thành các cụm khác nhau dựa trên thông tin rút trích từ chính các tài liệu, mỗi cụm
bao gồm các tên đề cập đến cùng một thực thể (Bagga và Baldwin, 1998b; Mann và Ya-
rowsky, 2003; Han và CS, 2004; Bekkerman và McCallum, 2005; Chen và Martin, 2007;
Mayfield và CS, 2009; Sarmento và CS, 2009). Bunescu (2007) xem hướng nghiên cứu
này giải quyết bài toán Phân biệt các thực thể có tên (Named Entity Discrimination). Ví
dụ, khi “John Smith” xuất hiện trong các tài liệu khác nhau, một phương pháp theo hướng
này xác định các xuất hiện nào của “John Smith” đề cập đến cùng một thực thể, rồi gom
thành một cụm. Một trường hợp đặc biệt của hướng nghiên cứu này là bài toán Tìm kiếm
con người trên Web (Web People Search - WebPS), với mục tiêu là gom cụm các tài liệu
trong đó có xuất hiện các tên đề cập đến cùng một người thay vì gom cụm chính các tên đó
(Artiles và CS, 2007; Artiles và CS, 2009).
Hướng nghiên cứu thứ hai xem NED như là bài toán ánh xạ (mapping). Chúng tôi gọi
hướng nghiên cứu này theo đúng tên gọi Phân giải nhập nhằng thực thể có tên, với mục
tiêu là ánh xạ một tên xuất hiện trong một văn bản vào một thực thể (đối tượng tham chiếu)
6 Chương 1.Giới thiệu
trong một nguồn tri thức (bên ngoài) nào đó với một định danh duy nhất. Hướng nghiên
cứu này khai thác các thông tin không chỉ trên chính các tài liệu mà còn dựa trên các nguồn
tri thức bên ngoài các tài liệu, ví dụ như Wikipedia, để thực hiện việc phân giải nhập
nhằng (Bunescu và Paşca, 2006; Cucerzan, 2007; Hassell và CS, 2006; Volz và CS, 2007;
Buscaldi và Rosso, 2008; Overell, 2009). Khái niệm bên ngoài này hiểu theo nghĩa là khai
thác tri thức và thông tin không phải được rút trích trên chính các tài liệu. Ví dụ, khi “John
McCarthy” xuất hiện trong một văn bản (đề cập đến khoa học gia máy tính, người phát
minh ra ngôn ngữ lập trình LISP), một phương pháp theo hướng này (Cucerzan, 2007)
thực hiện việc ánh xạ “John McCarthy” vào đúng thực thể John McCarthy (com-
puter scientist) trong Wikipedia - thực thể được mô tả bởi trang có nhan đề “John
McCarthy (computer scientist)”. Luận án này nghiên cứu và đề xuất các phương pháp phân
giải nhập nhằng thực thể có tên theo hướng tiếp cận thứ hai.
Một bài toán liên quan với NED là Liên kết bản ghi (Record Linkage) trong các cơ sở
dữ liệu. Liên kết bản ghi là nhằm xác định các bản ghi trong cùng hoặc nhiều cơ sở dữ liệu
có chứa thông tin về cùng một thực thể hay không, và sau đó liên kết hoặc hợp nhất chúng
(Winkler, 2006; Elmagarmid và CS, 2007; Benjelloun và CS, 2009). Các phương pháp
được đề xuất cho bài toán Liên kết bản ghi thực hiện việc so trùng các bản ghi bằng việc
tính toán độ tương tự giữa các thuộc tính của các bản ghi. Các thuộc tính này được xác
định dựa trên lược đồ của các cơ sở dữ liệu. Bởi vì các lược đồ cơ sở dữ liệu có cấu trúc,
nên có thể dễ dàng xác định các thuộc tính của các bản ghi.
Trong khi đó, NED thực hiện việc phân giải nhập nhằng các thực thể trên các tài liệu
phi cấu trúc hoặc bán cấu trúc, trong đó thông tin liên quan đến các thực thể đang được
xem xét thay đổi tùy theo tài liệu. Nói một cách khác, NED khác Liên kết bản ghi ở chỗ:
• Mặc dù khi một số thông tin trên hai tài liệu là giống nhau, chúng ta vẫn chưa kết
luận được hai lần xuất hiện của cùng một tên trên hai tài liệu đó có cùng đề cập đến
một thực thể hay không. Ví dụ, mặc dù khi trong cả hai tài liệu đều xuất hiện “John
McCarthy” và cùng đề cập John McCarthy là công dân Mỹ, chúng ta vẫn chưa thể
kết luận rằng hai lần xuất hiện của “John McCarthy” đề cập đến cùng một người.
• Các tài liệu khác nhau chứa nhiều kiểu thông tin đa dạng, dẫn đến việc phân tích
ngữ cảnh để xác định các thực thể được đề cập đến trong tài liệu trở nên khó khăn.
Ví dụ, Georgia (đề cập đến quốc gia Gruzia) trong một tài liệu có thể cùng xuất
1.1.Lịch sử và động cơ nghiên cứu 7
hiện với Tbilisi, nhưng trong tài liệu khác có thể cùng xuất hiện với Zviad Gam-
sakhurdia (tổng thống dân cử đầu tiên của Gruzia).
NED có thể được xem như là một trường hợp đặc biệt của bài toán Phân giải nhập
nhằng ngữ nghĩa từ vựng (Word Sense Disambiguation – WSD, Ide và Véronis, 1998; Na-
vigli, 2009). Mục tiêu của WSD là nhằm xác định nghĩa nào của một từ vựng được sử
dụng trong một ngữ cảnh cụ thể, khi từ này có nhiều nghĩa khác nhau. Các kỹ thuật phân
giải nhập nhằng sử dụng các từ điển hoặc ontology (WordNet
3
là một ví dụ) như là các kho
ngữ nghĩa - định nghĩa các nghĩa có thể của mỗi từ. Gần đây Mihalcea (2007) đã chứng tỏ
rằng Wikipedia có thể được sử dụng như một nguồn tri thức thay thế cho các từ điển.
Theo chúng tôi, đặc thù của NED so với WSD là:
• Thực thể có tên khác với các từ về bản chất và ý nghĩa. Trong khi các thực thể có
tên, nói một cách nôm na, là các cá thể cụ thể trong thế giới thực, các từ diễn đạt
các khái niệm tổng quát như kiểu, thuộc tính, quan hệ. Xử lý các từ do đó chỉ yêu
cầu ngữ nghĩa từ vựng thông thường, trong khi đó, xử lý các thực thể có tên đòi hỏi
tri thức về một lĩnh vực cụ thể.
• Việc phân giải nhập nhằng ngữ nghĩa của một từ có thể dựa trên ngữ cảnh cục bộ
của từ đó, bao gồm các từ đồng xuất hiện xung quanh nó trong một cửa sổ hẹp
(thường là ba đến năm từ đứng trước và ba đến năm từ đứng sau nó). Trong khi đó,
mỗi thực thể có tên đều có các thuộc tính riêng biệt và các mối quan hệ, được phát
biểu tường minh hoặc không tường minh, với các thực thể khác đồng xuất hiện
trong cùng văn bản. Các tính chất của một thực thể có thể xuất hiện ở một vị trí bất
kỳ trong văn bản, do đó, để phân giải nhập nhằng thực thể có tên trong các văn bản
phi cấu trúc hoặc bán cấu trúc cần phải phân tích ngữ cảnh ở một bình diện rộng
hơn.
• Các phương pháp đề xuất cho WSD chủ yếu tập trung phân giải nhập nhằng ngữ
nghĩa của các từ vựng thông thường (danh từ chung, động từ, tính từ), bỏ qua các
danh từ riêng (hay tên riêng). Trong khi chỉ tồn tại một số lượng nhỏ các nghĩa có
3
(Miller, 1995)
8 Chương 1.Giới thiệu
thể của một từ vựng thông thường, thực tế lại cho thấy rằng có thể có hàng trăm
thực thể trùng tên. Ví dụ, theo Guha và Garg (2004), từ dữ liệu của cục dân số Mỹ,
có 90.000 tên được dùng để đặt tên cho 100 triệu người khác nhau.
Quay lại với hướng nghiên cứu thứ nhất đối với NED tức là phân biệt các thực thể có
tên. Công trình đầu tiên theo hướng này là của Bagga và Baldwin (1998b). Từ đó cho đến
nay, đã có nhiều nghiên cứu theo hướng này như Mann và Yarowsky (2003), Gooi và Al-
lan (2004), Malin (2005), Pedersen và CS (2005), Chen và Martin (2007), Mayfield và CS
(2009), Sarmento và CS (2009). WebPS cũng thu hút sự quan tâm nghiên cứu rộng rãi và
đã có hai hội thảo được tổ chức vào các năm 2007 và 2009 là SemEval-2007 (Artiles và
CS, 2007) và WebPS-2009 (Artiles và CS, 2009). Nhìn chung, một phương pháp phân giải
nhập nhằng theo hướng này có ba bước cơ bản như sau: (i) rút trích các đặc trưng (feature)
để tạo các hồ sơ về các thực thể được đề cập đến trong các văn bản; (ii) tính toán độ tương
tự giữa các hồ sơ sử dụng một số độ đo tương tự, như cosine, sự phân kỳ Kullback-Leibler
(Kullback-Leibler Divergence); và (iii) áp dụng các giải thuật gom cụm để gom các tên
xuất hiện trong các tài liệu thành các nhóm khác nhau, mỗi nhóm bao gồm các tên cùng đề
cập đến một thực thể. Một vấn đề quan trọng mà các phương pháp này cần phải giải quyết
là thiết lập các điều kiện dừng (Pedersen và Kulkarni, 2006) cho các giải thuật gom cụm.
Bởi vì tổng số cụm là không biết trước, nên các điều kiện dừng là rất cần thiết để bảo đảm
các giải thuật gom cụm dừng với số cụm hợp lý nhất.
Luận án này theo đuổi các phương pháp phân giải nhập nhằng thực thể có tên theo
hướng nghiên cứu thứ hai. Xuyên suốt phần còn lại của luận án, khi đề cập đến NED,
chúng tôi ngầm định hướng nghiên cứu thứ hai đối với NED, còn khi đề cập đến hướng
nghiên cứu thứ nhất chúng tôi sẽ nói rõ đó là bài toán phân biệt các thực thể có tên. Đối với
NED, mỗi tên xuất hiện trong một văn bản được ánh xạ vào một thực thể được mô tả trong
một nguồn tri thức về các thực thể có tên, do đó các điều kiện dừng như vừa được đề cập ở
đoạn trên là không cần thiết. Khi một tên trong một văn bản cần được phân giải nhập
nhằng, các thực thể trong một cơ sở tri thức mà có tên trùng với nó được gọi là các thực
thể ứng viên (candidate entity), hay nói vắn tắt là các ứng viên.
Các nghiên cứu về NED thời kì đầu tập trung chủ yếu vào phân giải nhập nhằng các
vùng địa lý, và được biết đến rộng rãi với tên Toponym Resolution (TR). Mục tiêu của bài
toán này là xác định liệu một tên trong một văn bản có phải là tên của một nơi chốn hay
1.1.Lịch sử và động cơ nghiên cứu 9
không, sau đó ánh xạ tên này vào một tọa độ duy nhất trong một mô hình không gian
(Leidner và CS, 2003) hoặc một định danh xác định duy nhất một vùng địa lý trong một cơ
sở tri thức về các vùng địa lý (Overell, 2009). Các nghiên cứu về phân giải nhập nhằng các
vùng địa lý bắt đầu từ những năm 90 của thế kỷ trước và phổ biến từ đầu thập niên này
(Leidner và CS, 2003; Li và CS, 2003; Zong và CS, 2005; Overell và Rüger, 2006; Volz và
CS, 2007; Andogah và CS, 2008; Buscaldi và Rosso, 2008; Overell và Rüger, 2008).
Các phương pháp phân giải nhập nhằng các vùng địa lý về cơ bản gồm có hai bước.
Bước thứ nhất là thực hiện xác định các tên trong một văn bản đề cập đến một vùng địa lý
nào đó. Ví dụ, xác định liệu “Paris” trong một văn bản đề cập đến một vùng địa lý (ví dụ
như thủ đô nước Pháp) hay một con người (ví dụ như Paris Hilton), vì trong thực tế “Par-
is”
4
có thể được dùng để đề cập đến nhiều thực thể thuộc nhiều thể loại khác nhau. Bước
thứ hai, sau khi đã xác định các tên nào trong văn bản đề cập đến các vùng địa lý, các
phương pháp này thực hiện một bước xa hơn là ánh xạ các tên đã được xác định vào đúng
thực thể trong một mô hình không gian hoặc một cơ sở tri thức về các vùng địa lý. Ví dụ,
sau khi xác định “Paris” đề cập đến một vùng địa lý, các phương pháp này thực hiện một
bước xa hơn là quyết định ánh xạ “Paris” vào Paris thủ đô nước Pháp, hay thành phố Paris
ở bang Texas, Mỹ, hoặc một vùng địa lý khác được mô tả trong Wikipedia. Hai luận án
tiến sĩ gần đây của Leidner (2007) và Overell (2009) đã khái quát đầy đủ các phương pháp
phân giải nhập nhằng các vùng địa lý. Trong đó, phần lớn các phương pháp sử dụng các
heuristic.
Một khảo sát đầy đủ về các phương pháp sử dụng heuristic đến đầu năm 2007 được
trình bày trong Leidner (2007). Các phương pháp phân giải nhập nhằng sử dụng heuristic
hiệu quả nhất khai thác ngữ cảnh gồm ±2 đến ±5 từ xung quanh các tên nhập nhằng. Volz
và CS (2007), Buscaldi và Rosso (2008) cũng đề xuất các heuristic để phân giải nhập
nhằng. Các heuristic áp dụng cho phân giải nhập nhằng các vùng địa lý sử dụng các đặc
trưng mang tính đặc thù chỉ có đối với các vùng địa lý, do vậy khó điều chỉnh cho các thực
thể thuộc thể loại khác, như con người hoặc các tổ chức. Garbin và Mani (2005) đề xuất
mô hình học bán giám sát (semi-supervised learning) để phân giải nhập nhằng các vùng
địa lý. Phương pháp này phân lớp các vùng địa lý trong văn bản vào ba lớp là vùng hành
4
Kiểm tra tại:
10 Chương 1.Giới thiệu
chính/dân sự, thủ đô của các quốc gia, và khu dân cư. Việc xác định đúng lớp trong nhiều
trường hợp chắc chắn giúp xác định đúng thực thể. Ví dụ như nếu biết rằng “Victoria” đề
cập đến một thành phố hoặc một tiểu bang sẽ đủ để phân biệt giữa thủ phủ của tỉnh British
Columbia của Canada, và tiểu bang Victoria của Australia. Tuy nhiên điều này không phải
luôn luôn đúng, như trong trường hợp “Paris”, “Paris” có thể là tên của một số thành phố
thuộc các tiểu bang của Mỹ như thuộc các tiểu bang Idaho, Illinois, Kentucky, hoặc Maine.
Overell và Rüger (2008) khai thác Wikipedia để xây dựng mô hình đồng xuất hiện, phục
vụ như là một tập huấn luyện, sau đó triển khai một mô hình học có giám sát (supervised
learning) để thực hiện phân giải nhập nhằng. Các tác giả khai thác ngữ cảnh bao gồm ±10
tên của các vùng địa lý xung quanh tên nhập nhằng đang được xem xét, không quan tâm
đến các từ không là một phần của các tên này.
SemTag (Dill và CS, 2003) thực hiện chú thích ngữ nghĩa về các thực thể có tên
thuộc nhiều thể loại khác nhau cho 250 triệu trang web dựa trên ontology của TAP. Để chú
thích ngữ nghĩa chính xác, SemTag cũng bao hàm việc phân giải nhập nhằng các thực thể
có tên. Với mỗi tên cần phân giải nhập nhằng, SemTag trích ngữ cảnh gồm ±10 từ xung
quanh nó, và so sánh với ngữ cảnh của các thực thể trong ontology của TAP để chọn thực
thể phù hợp cho việc tạo chú thích ngữ nghĩa. Tuy nhiên, bởi vì ưu tiên độ chính xác,
SemTag chỉ tạo ra 450 triệu chú thích ngữ nghĩa, trung bình chưa đến 2 chú thích cho một
trang web. Do đó, tỉ lệ các chú thích tạo ra trên một tài liệu là không nhiều. Hơn nữa,
không có nhiều thực thể trong ontology của TAP có cùng tên (Kyriakov và CS, 2005), cho
nên việc phân giải nhập nhằng của SemTag là khá đơn giản.
Từ năm 2006 bắt đầu xuất hiện các nghiên cứu phân gi
ải nhập nhằng các thực thể có
tên, không chỉ tập trung vào các thực thể là các nơi chốn, với mật độ chú thích ngữ nghĩa
cao hơn SemTag (Hassell và CS, 2006; Bunescu và Paşca, 2006; Cucerzan, 2007; Fernan-
dez và CS, 2007; Mihalcea và Csomai, 2007; Medelyan và CS, 2008; Milne và Witten,
2008; Fader và CS, 2009; Kulkarni và CS, 2009). Hassell và CS (2006) đề xuất phương
pháp nhận biết chính xác các ủy viên hội đồng phản biện trên các trang web hội nghị khoa
học. Phương pháp của Fernandez và CS (2007) nhận biết các thực thể có tên trên các văn
bản trong lĩnh vực tin tức. Phương pháp này là bán tự động, bởi vì k
ết quả phân giải nhập
nhằng sẽ được hiển thị cho người sử dụng điều chỉnh kết quả nếu cần và cập nhật kết quả
đã được điều chỉnh vào một cơ sở dữ liệu suy diễn phục vụ như là một tập huấn luyện.
1.1.Lịch sử và động cơ nghiên cứu 11
Nổi lên gần đây như là một từ điển bách khoa trực tuyến lớn nhất và được sử dụng
rộng rãi nhất trên Internet, Wikipedia được khai thác để giải quyết nhiều bài toán trong
mảng xử lý ngôn ngữ tự nhiên và xây dựng các ontology (Medelyan và CS, 2009). Chúng
tôi sẽ trình bày chi tiết Wikipedia trong Chương 2, tuy nhiên ở đây chúng tôi khái quát vài
nguồn thông tin quan trọng trên đó mà một số phương pháp phân giải nhập nhằng đã khai
thác. Wikipedia là từ điển bách khoa trực tuyến nội dung mở, được đóng góp bởi hàng
trăm nghìn tình nguyện viên. Thành phần cơ bản của Wikipedia là các trang (page hay ar-
ticle). Có nhiều loại trang trên Wikipedia như trang thực thể (entity page), trang đổi hướng
(redirect page), trang phân giải nhập nhằng (disambiguation page), trang thể loại (catego-
ry page) . . .
Mỗi trang thực thể định nghĩa duy nhất một thực thể hoặc một khái niệm, và được xác
định duy nhất bởi nhan đề (title) của nó. Mỗi trang thực thể thuộc một hoặc nhiều thể loại,
và có các trang đổi hướng tương ứng. Mỗi trang thực thể cũng có nhiều liên kết vào (in-
coming link) và nhiều liên kết ra (outgoing link). Các trang thể loại được tạo cho các thể
loại trong hệ thống phân loại của Wikipedia. Mỗi trang đổi hướng chỉ chứa duy nhất một
liên kết đến trang thực thể tương ứng và nhan đề của nó chứa một tên khác của thực thể
này. Mỗi liên kết ra trỏ đến một trang khác trong Wikipedia, và nhãn của liên kết chính là
nhan đề của trang đó. Một số nghiên cứu xem các liên kết ra như các nhãn ngữ nghĩa, và
xem tập các trang thực thể trong Wikipedia như là một tập huấn luyện, với mỗi trang thực
thể là một tài liệu đã được gán nhãn (Mihalcea và Csomai, 2007; Milne và Witten, 2008).
Trang phân giải nhập nhằng được tạo cho các tên nhập nhằng trong Wikipedia. Từ các
trang này chúng ta có thể xác định các thực thể
có cùng tên trong Wikipedia.
Từ năm 2006, Wikipedia đã được khai thác để phân giải nhập nhằng các thực thể có
tên. Bunescu và Paşca (2006) khai thác các nguồn thông tin nêu trên của Wikipedia để
phân giải nhập nhằng. Các véctơ đặc trưng của các thực thể trong Wikipedia được xây
dựng sử dụng các từ xuất hiện trong cửa sổ gồm 55 từ xung quanh mỗi tên thực thể. Cosine
được sử dụng để tính toán độ tương tự và phân hạng các ứng viên. Nhiều tr
ường hợp co-
sine có giá trị quá thấp, nên ngữ cảnh được mở rộng bao gồm các từ xuất hiện trong nhãn
thể loại của các thực thể nhằm khai thác mối tương quan giữa các từ trong văn bản và các
nhãn thể loại (ví dụ: “concert” có tương quan với nhãn của thể loại “Musicians” mạnh hơn
so với nhãn của thể loại “Professional Wrestlers”), sử dụng mô hình máy véctơ hỗ trợ (Su-
port Vector Machine - SVM). Cucerzan (2007) cũng khai thác các nguồn thông tin nêu trên
12 Chương 1.Giới thiệu
của Wikipedia như Bunescu và Paşca (2006). Thay vì phân giải nhập nhằng từng tên trong
văn bản, phương pháp của Cucerzan phân giải nhập nhằng cho tất cả các tên cùng lúc, dẫn
đến bài toán tối ưu cùng lúc các ánh xạ, là một bài toán NP-khó (NP-hard)(Kulkarni và CS,
2009; Pilz và CS, 2009).
Milhacea (2007) đã chứng tỏ rằng Wikipedia có thể được sử dụng như là một kho ngữ
nghĩa cho việc phân giải nhập nhằng ngữ nghĩa từ vựng hiệu quả. Mihalcea và Csomai
(2007) đã hiện thực và đánh giá hai giải thuật phân giải nhập nhằng từ vựng khác nhau
nhằm ánh xạ các từ khóa, bao gồm cả tên riêng, xuất hiện trong văn bản vào đúng các thực
thể hoặc các khái niệm trong Wikipedia. Các tác giả cho thấy mô hình học có giám sát,
trong đó các trang trong Wikipedia mà các từ khóa xuất hiện trong đó đã được gán nhãn,
được sử dụng như là tập huấn luyện, cho hiệu quả tốt nhất. Medelyan và CS (2008) phát
triển phương pháp phân giải nhập nhằng các từ khóa dựa trên mô hình của Mihalcea và
Csomai, trong đó xác suất tiên nghiệm của các khái niệm trong Wikipedia và các từ khóa
đã được phân giải nhập nhằng được khai thác để phân giải nhập nhằng. Với mỗi ứng viên,
số lượng trùng lắp giữa nhãn các liên kết ra của nó, và các từ khóa đã được xác định trong
văn bản sẽ được tính toán, sau đó nhân với xác suất tiên nghiệm của ứng viên. Ứng viên có
tích số lớn nhất sẽ được chọn. Xác suất tiên nghiệm phản ánh mức độ phổ biến (thông qua
tần suất xuất hiện) của một khái niệm trong tập huấn luyện, được tính toán thông qua tổng
số liên kết vào của chính khái niệm đó trên tổng số liên kết vào của tất cả các ứng viên.
Milne và Witten (2008) mở rộng nghiên cứu của Mihalcea và Csomai (2007) và Me-
delyan và CS (2008) bằng cách khai thác mối quan hệ ngữ nghĩa (semantic relatedness),
được tính toán dựa trên các liên kết vào, của m
ột từ khóa với các từ khóa đã được xác định
xuất hiện xung quanh nó. Ngoài ra, các tác giả cũng khai thác mức độ phổ biến như trong
Medelyan và CS (2008). Kulkarni và CS (2009) đề xuất phương pháp tương tự như Milne
và Witten (2008) với sự khác biệt là các tác giả tối ưu đồng thời các ánh xạ và giải bài toán
NP-khó bằng hai phương pháp tối ưu là qui hoạch nguyên và chiến lược leo đồi. Phương
pháp của Fader và CS (2009) lấy ý tưởng từ Bunescu và Paşca (2006), Cucerzan (2007) và
Medelyan và CS (2008).
Hình 1.1 trình bày m
ột mô hình phân giải nhập nhằng phổ quát cho nhiều phương
pháp phân giải nhập nhằng. Trong đó phần nhận dạng thực thể có tên có thể chỉ dừng lại ở
việc xác định các cụm từ đề cập đến các thực thể trong một ontology, hoặc có phân lớp các
thực thể vào các lớp ở mức cao như con người, tổ chức, nơi chốn, hoặc phân lớp các thực
1.1.Lịch sử và động cơ nghiên cứu 13
thể vào các lớp mịn hơn dựa trên hệ thống phân cấp các lớp của một ontology. Phần tiền
xử lý của nhận dạng thực thể có tên không được thể hiện trong mô hình. Mô hình cho thấy
Nhận dạng thực thể có tên và Phân giải đồng tham chiếu tên riêng là phần tiền xử lý của
Phân giải nhập nhằng thực thể có tên.
Hình 1.1: Một mô hình phân giải nhập nhằng phổ biến
Nhìn chung, NED mới nổi lên khoảng một thập niên trở lại đây như là một vấn đề đầy
thách thức và có nhiều ý nghĩa trong nhiều ứng dụng xử lý ngôn ngữ tự nhiên, đặc biệt là
đối với các ứng dụng web có ngữ nghĩa. Để có thể đánh giá và so sánh các phương pháp
phân giải nhập nhằng khác nhau, cần có một nền chung. Cụ thể là phần tiền xử lý, nguồn
tri thức được sử dụng, và tập dữ liệu dùng cho các thí nghiệm phải giống nhau. Tuy nhiên,
hiện nay chưa có một tập dữ liệu thí nghiệm chung có thể chia sẻ được, và các phương
pháp đã công bố đều triển khai các mô hình tiền xử lý khác nhau. Do vậy, các công trình
nghiên cứu cho đến thời điểm hiện tại đều tạo các tập dữ liệu thí nghiệm riêng và việc so
sánh trực tiếp các phương pháp là khó thực hiện (Kulkarni và CS, 2009).
Chúng tôi bắt đầu công việc nghiên cứu về NED từ giữa năm 2006, và đến cuối năm
2006 đã đề xuất ý tưởng khai thác mối quan hệ ngữ nghĩa của các ứng viên với các thực
thể đã được xác định trong tài liệu để phân giải nhập nhằng các thực thể có tên dựa trên
một ontology (Nguyen và Cao, 2007a). Ý tưởng này tiếp tục được phát triển trong Nguyen
Nguồn tri thức về các
thực thể có tên (ontology
hoặc cơ sở tri thức)
Phân giải nhập nhằng
thực thể có tên
Tài liệu thô
Nhận dạng
thực thể có tên
Phân giải đồng tham
chiếu tên riêng
Tiền xử lý Phân giải nhập nhằng
Tài liệu với các tên
(thực thể) đã được
chú giải
Luồng xử lý
Nguồn tri thức cung cấp thông tin cho các môđun xử lý
Các ánh xạ đến các thực thể trong nguồn tri thức