Tải bản đầy đủ (.pdf) (59 trang)

Phân giải nhập nhằng thực thể trong mạng xã hội twitter

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.1 MB, 59 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƢỜNG ĐẠI HỌC BÁCH KHOA
--------------------------

VĂN KHÁNH DUY

PHÂN GIẢI NHẬP NHẰNG THỰC THỂ
TRONG MẠNG XÃ HỘI TWITTER

Chuyên ngành: Khoa Học Máy Tính
Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 7 năm 2014


Cơng trình đƣợc hồn thành tại: Trƣờng Đại Học Bách Khoa – ĐHQG-HCM
Cán bộ hƣớng dẫn khoa học: TS. Nguyễn Thanh Hiên ......................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 1: ...................................................................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 2: ...................................................................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Luận văn thạc sĩ đƣợc bảo vệ tại: Trƣờng Đại Học Bách Khoa, ĐHQG TP. HCM
ngày …... tháng ….. năm ……
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. .......................................................................................................................................
2. .......................................................................................................................................
3. .......................................................................................................................................


4. .......................................................................................................................................
5. .......................................................................................................................................
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trƣởng Khoa quản lý chuyên ngành sau
khi luận văn đã đƣợc sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

TRƢỞNG KHOA…………


ĐẠI HỌC QUỐC GIA TP.HCM
TRƢỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: VĂN KHÁNH DUY ............................. MSHV: 12070502.................
Ngày, tháng, năm sinh: 18/02/1988 ....................................... Nơi sinh: TP. TRÀ VINH .....
Chuyên ngành: KHOA HỌC MÁY TÍNH ............................ Mã số: 60480101 ..................

I. TÊN ĐỀ TÀI: PHÂN GIẢI NHẬP NHẰNG THỰC THỂ TRONG MẠNG XÃ HỘI
TWITTER ……......................................................................................................................
NHIỆM VỤ VÀ NỘI DUNG: ................................................................................................
..................................................................................................................................................
..................................................................................................................................................
II. NGÀY GIAO NHIỆM VỤ: 20/01/2014……………..……...............................................
III. NGÀY HOÀN THÀNH NHIỆM VỤ: 20/06/2014.….……………….............................
IV. CÁN BỘ HƢỚNG DẪN: TS. NGUYỄN THANH HIÊN
TP. HCM, ngày . . . . tháng .. . . năm 20…
CÁN BỘ HƢỚNG DẪN


TRƢỞNG KHOA….………

(Họ tên và chữ ký)

(Họ tên và chữ ký)

TS. NGUYỄN THANH HIÊN


LỜI CẢM ƠN
Trƣớc hết, tôi xin gửi lời cảm ơn chân thành và sâu sắc đến thầy hƣớng dẫn của
tôi, TS. NGUYỄN THANH HIÊN. Trong suốt quá trình làm luận văn này, thầy đã
tận tình chỉ dẫn tơi từng bƣớc và thƣờng xun khích lệ, động viên tơi. Sự hƣớng
dẫn và lời khuyên quý báu từ thầy là một nhân tố khơng thể thiếu để tơi có thể hồn
thành đƣợc luận văn này.
Tôi xin gửi lời cảm ơn đến gia đình tơi, những ngƣời ln ủng hộ, cổ vũ và tạo
điều kiện tốt nhất cho việc học tập và nghiên cứu của tơi.
Xin chân thành biết ơn sự tận tình giảng dạy và giúp đỡ của tất cả quý thầy cô
tại trƣờng Đại học Bách Khoa Tp.HCM, đặc biệt là các thầy cô trong khoa Khoa
học và Kỹ thuật Máy tính.
Cuối cùng, tơi xin gửi lời cảm ơn đến ThS. Huỳnh Minh Huy, một ngƣời bạn
thân luôn ở bên cạnh động viên và cho tôi nhiều chỉ dẫn, lời khuyên thiết thực.


TÓM TẮT
Ngày nay, mạng xã hội trực tuyến nhƣ Twitter hoặc Facebook ngày càng trở
nên phổ biến và đang trở thành các kênh truyền tải và chia sẻ thông tin chính yếu.
Chính vì vậy, việc khai thác đúng cách nguồn dữ liệu trên các mạng xã hội trực
tuyến sẽ tạo ra các thơng tin có giá trị có thể sử dụng vào nhiều mục đích khác

nhau. Chúng tơi quan tâm các tin tải trên các mạng xã hội, trong đó các cụm từ có
thể bị nhập nhằng, khơng rõ ràng gây khó khăn cho các hệ thống phân tích văn bản.
Do đó, một bài tốn đang thu hút rất nhiều quan tâm nghiên cứu là làm sao xác định
đúng các thực thể trong các tin đăng tải trên các mạng xã hội trực tuyến.
Mục tiêu của luận văn này là thực hiện việc phân giải nhập nhằng thực thể
trong các mẫu tin (tweet) tải trên mạng xã hội Twitter, nhằm mục đích xác định
đúng các thực thể đƣợc đề cập đến trong các mẫu tin đó. Với đặc thù là nội dung
của tweet ngắn, nhiễu và bất quy tắc nên việc phân giải nhập nhằng thực thể trong
các tweet thật sự khó khăn và thách thức. Trong nghiên cứu này, chúng tơi dựa trên
các cơng trình nghiên cứu về liên kết thực thể trong các tài liệu tiếng Anh giàu ngữ
cảnh, nhƣ các tin tức trên các báo, để xây dựng hệ thống phân giải nhập nhằng cho
các tweet tiếng Anh và tiếng Việt. Chúng tôi xây dựng tập dữ liệu tiếng Việt bao
gồm 524 tweet tiếng Việt và sử dụng tập dữ liệu tiếng Anh đƣợc cung cấp bởi Meij
gồm 562 tweet tiếng Anh. Chúng tôi thực hiện đánh giá hệ thống và hiệu suất đạt
đƣợc tƣơng đối tốt cho cả hai ngôn ngữ.


ABSTRACT
To date, many popular online social networks (OSNs) such as Twitter and
Facebook, or social media in general, have become a channel for users to share
information with each other. The popularity of online social media together with
their diversity have drastically changed humans’ attitude towards communications
and information sharing over the internet. However, the useful information may
contain several terms (mentions) whose meanings are ambiguous and unclear, thus,
make it difficult for text analysis systems. Hence, the task of disambiguation whose
the requirements are to determine correct meaning of ambiguous terms have been
attracting attention of research over the world.
The purpose of this thesis is to develope an entity disambiguation system for
tweets on Twitter. Since, the content of postings on Twitter is noisy, irregular, short
(a message posted on Twitter has maximum 140 characters), and temporal

dynamics; entity disambiguation for tweet is a critical challenging task. In this
research, we adapt an entity linking methods for long texts in literature to tweet for
both Vietnamese and English. We build a Vietnamse dataset include 524
Vietnamese tweets and use a public English dataset by Meij include 562 English
tweets. The evaluation results show that our system performs quite well on both
datasets.


LỜI CAM ĐOAN
Tôi xin cam đoan rằng, ngoại trừ các kết quả tham khảo từ các cơng trình khác
nhƣ đã ghi rõ trong luận văn, các nội dung trình bày trong luận văn này là do chính
tơi thực hiện và chƣa có phần nội dung nào của luận văn này đƣợc nộp để lấy bằng
cấp ở một trƣờng khác.
TP.HCM, ngày ….. tháng ….. năm 20….

Văn Khánh Duy


MỤC LỤC
MỤC LỤC ................................................................................................................... i
DANH MỤC HÌNH .................................................................................................. iii
DANH MỤC BẢNG ................................................................................................. iv
CHƢƠNG 1 TỔNG QUAN ........................................................................................1
1.1. Giới thiệu..........................................................................................................1
1.2. Bài tốn và phạm vi..........................................................................................4
1.3. Các cơng trình liên quan ..................................................................................4
CHƢƠNG 2 CƠ SỞ LÝ THUYẾT ..........................................................................11
2.1. Wikipedia .......................................................................................................11
2.2. Thực thể và nhãn tham chiếu .........................................................................14
2.3. Học máy .........................................................................................................15

2.4. Đánh giá chéo .................................................................................................20
2.5. Các độ đo căn bản ..........................................................................................21
CHƢƠNG 3 PHƢƠNG PHÁP ĐỀ XUẤT ...............................................................22
3.1. Nhận diện nhãn tham chiếu ............................................................................22
3.2. Truy hồi ứng viên ...........................................................................................25
3.3. Phân giải nhập nhằng thực thể .......................................................................26
3.3.1. Phƣơng pháp nền ..............................................................................26
3.3.2. Các đặc trƣng ...................................................................................27
3.3.3. Phƣơng pháp khác ............................................................................29
3.4. Lặp cải thiện dần ............................................................................................29
CHƢƠNG 4 ĐÁNH GIÁ PHƢƠNG PHÁP.............................................................31
4.1. Tập huấn luyện ...............................................................................................31
4.2. Tập đánh giá ...................................................................................................31
4.3. Đánh giá hiệu suất và kết quả thí nghiệm ......................................................32

i


4.4. Các lỗi ảnh hƣởng đến hiệu suất của hệ thống...............................................40
CHƢƠNG 5 TỔNG KẾT..........................................................................................42
5.1. Các đóng góp..................................................................................................42
5.2. Hƣớng phát triển ............................................................................................43
TÀI LIỆU THAM KHẢO .........................................................................................44

ii


DANH MỤC HÌNH
Hình 1.1 Ví dụ phân giải nhập nhằng thực thể ...........................................................3
Hình 1.2 Ví dụ về phân giải nhập nhằng thực thể.......................................................5

Hình 1.3 Mơ tả tổng quan hệ thống của Meij .............................................................6
Hình 1.4 Mơ tả tổng quan hệ thống của Cassidy ........................................................8
Hình 1.5 Mơ tả tổng quan hệ thống của Liu ...............................................................9
Hình 1.6 Mơ hình phân giải nhập nhằng thực thể của Huỳnh Minh Huy [6] ...........10
Hình 2.1 Trang thực thể “Vịnh Hạ Long” trong Wikipedia tiếng Việt ....................13
Hình 2.2 Hai trang chuyển hƣớng “ManU” và “Manchester United FC” của trang
thực thể “Manchester United F.C.” ...........................................................................14
Hình 2.3 Trang phân giải nhập nhằng .......................................................................15
Hình 2.4 Minh họa về phân loại trong Wikipedia.....................................................16
Hình 2.5 Ví dụ về cây quyết định .............................................................................19
Hình 3.1 Giải thuật nhận dạng nhãn tham chiếu n-gram ..........................................25
Hình 3.2 Mơ hình tổng qt về hệ thống ED-Tweet .................................................26
Hình 3.3 Lặp cải thiện dần của Nguyễn Thanh Hiên [13] ........................................30

iii


DANH MỤC BẢNG
Bảng 3.1 Kết quả đánh giá của Meij [4] ...................................................................27
Bảng 4.1 Hiệu suất của giai đoạn nhận diện nhãn tham chiếu .................................32
Bảng 4.2 Hiệu suất phân giải nhập nhằng không kết hợp lặp cải thiện dần cho C4.5,
Random Forest và Bagging C4.5 ..............................................................................33
Bảng 4.3 Hiệu suất phân giải nhập nhằng có lặp cải thiện dần cho C4.5, Random
Forest và Bagging C4.5 .............................................................................................35
Bảng 4.4 Hiệu suất làm giàu ngữ cảnh, không lặp cải thiện dần cho C4.5, Random
Forest và Bagging C4.5 .............................................................................................36
Bảng 4.5 Hiệu suất hệ thống dùng Random Forest, không lặp cải thiện dần ...........38
Bảng 4.6 Hiệu suất hệ thống dùng Random Forest, có lặp cải thiện dần .................38
Bảng 4.7 So sánh hiệu suất giai đoạn phân giải nhập nhằng ....................................39
Bảng 4.8 So sánh hiệu suất toàn hệ thống.................................................................40


iv


CHƢƠNG 1

TỔNG QUAN

1.1. Giới thiệu
Ngày nay, mạng xã hội ngày càng trở nên phổ biến và đang ảnh hƣởng đến mọi
mặt của đời sống xã hội. Sự phát triển mạnh mẽ của mạng xã hội cùng với một
lƣợng lớn các thơng tin truyền tải trên đó dẫn đến một số vấn đề đƣợc quan tâm
nhƣ: phát hiện những tin tức đồn nhảm nhằm ngăn chặn kịp thời; kiểm duyệt thông
tin; phân tích hành vi, thói quen, sở thích, quan điểm của ngƣời dùng nhằm tăng
hiệu quả quảng cáo trực tuyến, và nhiều vấn đề khác.
Một trong những mạng xã hội phổ biến hiện nay là Twitter. Twitter là dịch vụ
mạng xã hội miễn phí cho phép ngƣời sử dụng đọc, nhắn và cập nhật các mẫu tin
nhỏ gọi là tweet. Giới hạn về độ dài của tweet là 140 ký tự, có tính tƣơng thích với
tin SMS (Short Message Service), mang đến cho cộng đồng mạng một hình thức tốc
ký đáng chú ý, đã đƣợc sử dụng rộng rãi đối với SMS1. Với hơn hàng triệu ngƣời
dùng và hàng trăm triệu tweet mỗi ngày [1] thì việc khai thác những thơng tin hữu
ích trên đó có thể giúp con ngƣời sử dụng vào nhiều mục đích khác nhau.
Có rất nhiều cơng trình nghiên cứu liên quan đến khai thác thơng tin trên
Twitter nhƣ: phân tích thơng tin, ý kiến ngƣời dùng, sản phẩm ƣa chuộng hay thông
tin của nhà sản xuất đƣợc ngƣời tiêu dùng ƣa chuộng; rút trích thơng tin, tìm hiểu và
khám phá chủ đề để phát hiện sở thích của ngƣời dùng [2]; tìm những sự kiện mà
ngƣời dùng quan tâm; hay theo dõi tình trạng sức khỏe của ngƣời dùng để phát hiện
và thống kê tình hình sức khỏe xã hội [3]; phát hiện thơng tin đồn nhảm,…

1


/>
1


Ví dụ 1: Một ngƣời dùng A chia sẽ trên Twitter và các bạn bè của A cũng chia
sẽ ngƣợc trở lại, nội dung nhƣ sau:
A: “Nào là Clear, Head and Shoulder, Pantene cái nào cũng ko hết gàu

, hichic ”
B: “Dove xài tốt lắm! @A ơi…”
C: “X-Men number 1, tui thử rùi nè ;-)”
B: “Ờ,… X-Men cũng ok”
A: “ok, tớ sẽ mua X-Men xài…. Hi vọng hít gàu và lẹp trai ^^”
B: “n.mai tui đi mua X-Men xài luôn!”
Phân tích ví dụ trên, ta thấy: ngƣời dùng A đang có xu hƣớng chuyển sang sử
dụng dầu gội đầu X-Men và khơng thích dầu gội Clear, Head and Shoulder và
Pantene. Hai ngƣời bạn B và C cũng sử dụng dầu gội X-Men. Với ví dụ 1, chúng ta
có thể khai thác thông tin trên phục vụ cho nhu cầu phát hiện và phân tích hành vi,
sở thích dùng cho việc quảng cáo, thu thập thông tin ý kiến ngƣời dùng. Nhƣng vấn
đề đặt ra là làm sao cho máy tính có thể hiểu đƣợc “X-Men” là một nhãn hiệu dầu
gội đầu “X-Men” hay là tên của bộ phim “X-Men”. Tƣơng tự, “Head and Shoulder”
cũng là tên của một nhãn hiệu dầu gội hay là hai đối tƣợng là “Head” và
“Shoulder”.
Đối với một tweet thì văn phong hồn tồn khơng theo một chuẩn hay quy luật
nào cả. Nó chỉ phụ thuộc vào sở thích hay theo văn phong của ngƣời viết. Cho nên,
việc phân tích ngữ nghĩa, cú pháp, nhận diện đƣợc thực thể trở nên khó khăn.
Ví dụ 2: Một tweet có nội dung nhƣ sau:
A: “Ronaldo, thần tượng của tui ^_^, huyền thoại của Brazil, anh hùng
của Real-Madrid..!”

“Ronaldo” là một nhãn tham chiếu có thể nói đến “Ronaldo Ls Nazário de”
và “Cristiano Ronaldo”. Nhƣng với ví dụ 2, thì “Ronaldo” đang đề cập trong tweet
là “Ronaldo Luís Nazário de Lima” của đội tuyển Brazil, đã từng thi đấu ở câu lạc
bộ Real Madrid. Không phải đề cập đến “Cristiano Ronaldo” của đội tuyển Bồ Đào
Nha, cũng là một cầu thủ đang thi đấu tại Real Madrid.
Vấn đề đặt ra là làm sao để máy có thể tự động nhận diện đƣợc các thực thể
đƣợc đề cập trong các tweet góp phần cho máy hiểu ngữ nghĩa của tweet. Mục tiêu
2


đặt ra là để máy tính hay các hệ thống tự động có thể phân tích và hiểu đƣợc nội
dung của tweet. Chẳng hạn nhƣ ở ví dụ trên, việc hiểu đúng nội dung của các tweet
giúp cho hệ thống phân tích đúng rằng ngƣời dùng A đang nói về “Ronaldo Luís
Nazário de Lima” và xu thế là ngƣời này rất quan tâm về những tin tức có liên quan
đến “Ronaldo Ls Nazário de Lima” (Hình 1.1 minh họa cho ví dụ 2).

Ronaldo +
Real Madrid

+
Brazil

Cristiano Ronaldo

Ronaldo Luís Nazário de Lima
(Kết quả mong muốn)

Hình 1.1 Ví dụ phân giải nhập nhằng thực thể
Ví dụ 3: Một tweet có nội dung sau:
A: “Đường lythuongkiet và 3-2 đang kẹt xe” (Lúc 16h40, tại TP. Hồ Chí

Minh)
Với ví dụ 3 này, nội dung của tweet đang đề cập đến 3 cụm từ chính là
“lythuongkiet”, “3-2” và “TP. Hồ Chí Minh”. Nhƣ vậy, “lythuongkiet” đang nói về
hai đối tƣợng là “Lý Thƣờng Kiệt” và một con đƣờng có tên là “Lý Thường Kiệt”.
Đối với “3-2” thì đang nói về 2 đối tƣợng là con đƣờng “3 tháng 2” và ngày “3
tháng 2”. Việc hiểu rõ đƣợc 2 đối tƣợng “lythuongkiet” và “3-2” đƣợc căn cứ vào
ngữ nghĩa xung quanh 2 đối tƣợng này là “kẹt xe” và “TP. Hồ Chí Minh”. Dựa trên
các yếu tố này, ta hiểu đƣợc là “lythuongkiet” là đang nói về con đƣờng “Lý Thường

3


Kiệt” và “3-2” thì đang nói về con đƣờng “3 tháng 2” (Hình1.2 minh họa cho ví dụ
3). Nhƣng trong ví dụ này, để máy tính có thể hiểu đƣợc 2 đối tƣợng “lythuongkiet”
và “3-2” là một vấn đề gây ra khơng ít khó khăn. Ngun nhân là do cụm từ
“lythuongkiet” hay “3-2” bị ảnh hƣởng bởi văn phong của ngƣời viết và ngữ cảnh
của tweet đó. Chính vì vậy, văn phong của ngƣời viết có ảnh hƣởng rất lớn đến việc
nhận diện và hiểu đúng của máy tính.

1.2. Bài tốn và phạm vi
Chúng tơi tập trung và thực hiện việc phân giải nhập nhằng thực thể trong các
tweet tải trên mạng xã hội Twitter, bao gồm cả tweet tiếng Anh và tweet tiếng Việt.
Tuy nhiên, giữa tiếng Anh và tiếng Việt lại có những đặc trƣng khác nhau, vì vậy
tùy vào ngôn ngữ mà chúng tôi thực hiện việc chọn lựa các đặc trƣng, phƣơng pháp
và thuật toán phù hợp để đạt đƣợc kết quả tốt nhất. Chúng tôi chỉ quan tâm đến các
thực thể tồn tại trong Wikipedia.

1.3. Các cơng trình liên quan
Bài tốn phân giải nhập nhằng thực thể chú trọng đến việc phân giải các thực
thể và đa số đƣợc áp dụng cho các văn bản chính quy (có nội dung dài và tƣơng đối

đầy đủ về mặt ngữ nghĩa). Đối với các văn bản tiếng Anh thƣờng đƣợc viết tuân
theo các luật nhƣ tên riêng phải viết hoa, tên phải đƣợc đặt trƣớc họ, đầu câu phải
viết hoa, khơng có các ký hiệu đặc biệt (nhƣ: ^^, ;-),…). Cịn đối với tiếng Việt thì
phải viết đúng chính tả, bỏ dấu đúng quy định, tên riêng phải viết hoa,… Cho nên,
việc phân giải nhập nhằng thực thể cho một văn bản chính quy thì khác với việc
phải phân giải nhập nhằng thực thể cho mạng xã hội. Vấn đề khác biệt mà chúng tôi
đề cập ở đây đó là q trình nhận diện các thực thể xuất hiện trong nội dung tweet
và quá trình phân giải nhập nhằng cho các thực thể đó.
Các cơng trình nghiên cứu liên kết thực thể hay phân giải nhập nhằng thực thể
cho tweet thực hiện theo nhiều hƣớng và phƣơng pháp khác nhau. Một số cơng trình
nghiên cứu gần đây và nổi bật nhƣ cơng trình của Meij, Cassidy, Liu,…

4


?
“lythuongkiet”
Lý Thường Kiệt

?

?

“3-2”

?

Đường Lý Thường Kiệt và Đường 3 tháng 2
Tại Thành phố Hồ Chí Minh


Kết quả cần đạt đƣợc

“Tp. Hồ Chí Minh”

Hình 1.2 Ví dụ về phân giải nhập nhằng thực thể
Cơng trình nghiên cứu của Meij
Cơng trình của Meij [4] chủ yếu là tìm các khái niệm có liên quan đến nội dung
của tweet tiếng Anh (Hình 1.3 mô tả về hệ thống của Meij). Các khái niệm đƣợc tác
giả đề cập ở đây là các trang thực thể trong Wikipedia.

5


Hình 1.3 Mơ tả tổng quan hệ thống của Meij
Hệ thống này sử dụng phƣơng pháp n-gram để tìm các nhãn tham chiếu có thể
trong nội dung của tweet. Một n-gram đƣợc xem là nhãn tham chiếu nếu n-gram đó
so khớp với một nhãn liên kết trong Wikipedia. Sau đó, tiến hành tìm các thực thể
ứng viên cho các nhãn tham chiếu vừa tìm đƣợc.
Giai đoạn cuối cùng là dùng học máy để cho điểm và xếp hạng cho các thực thể
ứng viên. Cho nên, mục tiêu chính của hệ thống này chủ yếu là tìm và cho điểm các
thực thể ứng viên để thu đƣợc khái niệm gần nhất cho các nhãn tham chiếu trong
tweet.
Cơng trình nghiên cứu của Cassidy
Khác với nghiên cứu của Meij, nghiên cứu của Cassidy [1] dùng một hệ thống
phân giải nhập nhằng dành cho văn bản tiếng Anh gọi là GLOW [5] để áp dụng cho
quá trình phân giải nhập nhằng thực thể cho tweet (Hình 1.4 mơ tả về hệ thống của
Cassidy). GLOW dựa trên việc sử dụng các đặc trƣng cục bộ và toàn cục nhƣ: mối
quan hệ giữa nhãn tham chiếu và thực thể, mối quan hệ giữa các thực thể với nhau
và mối quan hệ giữa các nhãn tham chiếu với nhau. Điểm khác biệt là nội dung của
tweet thì quá ngắn và quá ít thực thể, thiếu ngữ cảnh; trong khi đó hệ thống GLOW

lại dùng cho văn bản dài và giàu ngữ cảnh; cho nên nghiên cứu này lấy ý tƣởng
chính là làm giàu ngữ cảnh cho tweet. Việc làm giàu ngữ cảnh cho tweet đƣợc tác
giả thực hiện theo hai phƣơng pháp chính là: gom nhóm các tweet theo tác giả và

6


gom nhóm các tweet theo chủ đề. Thế nhƣng, với việc làm giàu ngữ cảnh nhƣ vậy
cho tweet thì gặp phải một số vấn đề cần quan tâm. Đó là:
-

Nếu gom nhóm theo tác giả thì khơng thể xác định là các tweet này có liên
quan nội dung với nhau hay không. Cho nên, ngữ cảnh đƣợc tạo ra khi gom
nhóm theo phƣơng pháp này sẽ rời rạc và mức độ liên quan về ngữ nghĩa sẽ
khơng cao.

-

Nếu gom nhóm theo chủ đề thì các tweet có thể cùng một chủ đề nhƣng về
mức độ ý nghĩa của từng tweet thì khơng rõ ràng.

Tóm lại, nghiên cứu này chủ yếu là gom nhóm các tweet thành một văn bản
theo các tiêu chí khác nhau nhằm làm giàu ngữ cảnh cho tweet và cuối cùng sử
dụng một hệ thống phân giải nhập nhằng thực thể GLOW để phân giải cho các
tweet đƣợc gom nhóm đó.
Cơng trình nghiên cứu của Liu
Cơng trình của Liu [2] sử dụng các đặc trƣng cục bộ và toàn cục để thực hiện
việc liên kết thực thể cho các tweet (Hình 1.5 mơ tả về hệ thống của Liu). Việc liên
kết thực thể cũng dựa trên các đặc điểm mối quan hệ giữa nhãn tham chiếu với thực
thể, mối quan hệ thực thể với thực thể và mối quan hệ giữa các nhãn tham chiếu với

nhau.
Chính vì đặc điểm của nội dung tweet là không phải là văn bản chính quy, xuất
hiện nhiều nội dung viết tắt hoặc có thể bị sai chính tả do ngƣời đăng tweet nên hệ
thống này chủ yếu là nhấn mạnh vào phần nhận diện các nhãn tham chiếu trong
tweet. Ở phần nhận diện nhãn tham chiếu này, tác giả xây dựng sẵn một danh sách
chứa các nhãn tham chiếu đƣợc rút trích từ Wikipedia và các thực thể (trang thực
thể trong Wikipedia) mà các nhãn tham chiếu này liên kết đến.
Khi một tweet đƣa vào hệ thống, nếu khơng tìm thấy nhãn tham chiếu từ tweet
đó thì hệ thống sẽ cố thử tìm các nhãn tham chiếu có thể dựa trên cơng thức tính
khoảng cách sửa đổi (Edit Distance) [2]. Nếu cuối cùng vẫn khơng tìm đƣợc thì sẽ
loại bỏ nhãn tham chiếu đang xét.
Ở giai đoạn phân giải nhập nhằng thực thể cho tweet thì tác giả dùng thuật tốn
leo đồi tham lam để tìm các trọng số để thu đƣợc kết quả tốt nhất để sử dụng cho
việc cho điểm và xếp hạng các thực thể ứng viên (Hình 1.5 mô tả về hệ thống của
Liu).
7


Hình 1.4 Mơ tả tổng quan hệ thống của Cassidy
Ngồi các cơng trình nghiên cứu về phân giải nhập nhằng thực thể hay liên kết
thực thể cho mạng xã hội thì chúng tơi cũng tìm hiểu thêm về các cơng trình nghiên
cứu khác về phân giải nhập nhằng thực thể trên văn bản.
Nói chung các phƣơng pháp tiếp cận cho bài toán phân giải nhập nhằng thực
thể dựa trên 3 loại đặc trƣng chính là: cục bộ (local), tồn cục (global) hoặc tập thể
(collective). Các phƣơng pháp cục bộ đều cho rằng các nhãn tham chiếu là độc lập
với nhau và phân giải dựa trên tƣơng thích ngữ cảnh cục bộ của nhãn tham chiếu và
các ứng viên.
Các phƣơng pháp tồn cục và tập thể thì cho rằng các thực thể tồn tại trong một
văn bản có liên hệ ngữ nghĩa (Semantic Relatedness) với nhau nên việc xác định
thực thể cho các nhãn tham chiếu không độc lập mà phụ thuộc lẫn nhau. Trong khi

phƣơng pháp toàn cục phân giải lần lƣợt từng nhãn tham chiếu thì phƣơng pháp tập
thể lại phân giải các nhãn tham chiếu một cách đồng thời [6].

8


Tweet
Danh sách
nhãn tham chiếu

Wikipedia

Hệ thống của Liu
Nhãn
tham chiếu

Nhãn
tham chiếu

Nhãn
tham chiếu

Thực thể

Thực thể

Thực thể

Hình 1.5 Mơ tả tổng quan hệ thống của Liu
Cơng trình nghiên cứu của Huỳnh Minh Huy:

Cơng trình nghiên cứu của Huỳnh Minh Huy [6] sử dụng phƣơng pháp học máy
để phân giải nhập nhằng thực thể trong văn bản tiếng Anh kết hợp truy hồi ứng viên
với nhãn tham chiếu đại diện (Hình 1.7 mơ tả về hệ thống của Huỳnh Minh Huy).
Với danh sách các thực thể ứng viên tìm đƣợc thì tác giả dùng heuristic để lọc và
loại bỏ các ứng viên không liên quan, đồng thời thực hiện việc gom cụm các thực
thể ứng viên nằm ngoài nguồn tri thức. Nguồn tri thức họ sử dụng là Wikipedia.
Giải thuật học máy đƣợc chọn là Bagging C4.5. Ngồi ra, cơng trình nghiên cứu
này cịn sử dụng thêm phƣơng pháp lặp cải thiện dần cho quá trình cho điểm và sắp
hạng. Phƣơng pháp lặp cải thiện dần đƣợc đề xuất bởi [7].

9


Văn bản đã đƣợc

Văn bản thô

phân giải

Truy hồi ứng viên
Nhận dạng nhãn tham
chiếu
Liên kết thực thể

Phân giải đồng tham
chiếu

Gom cụm thực thể
nằm ngoài cơ sở tri
thức

Phân giải nhập nhằng

Tiền xử lý

Hình 1.6 Mơ hình phân giải nhập nhằng thực thể của Huỳnh Minh Huy [6]

10


CHƢƠNG 2

CƠ SỞ LÝ THUYẾT

2.1. Wikipedia
Wikipedia là một bách khoa toàn thƣ mở, là kết quả của sự cộng tác của chính
những ngƣời đọc từ khắp nơi trên thế giới. Hiện đã có hơn 386,169 thành viên đăng
ký, trong đó 29 bảo quản viên, 3 hành chính viên, 211 robot2.
Wikipedia chính thức bắt đầu vào ngày 15 tháng 1 năm 2001 nhờ hai ngƣời
sáng lập Jimmy Wales và Larry Sanger cùng với vài ngƣời cộng tác tận tâm và chỉ
có phiên bản tiếng Anh. Chỉ hơn ba năm sau, vào tháng 3 năm 2004, đã có 6,000
ngƣời đóng góp tích cực cho 600,000 bài viết với 50 thứ tiếng. Cho đến hơm nay đã
có hơn 4,300,000 bài viết ở riêng phiên bản tiếng Anh, hơn 30,000,000 bài viết ở tất
cả phiên bản ngơn ngữ. Mỗi ngày hàng trăm nghìn ngƣời ghé thăm từ khắp nơi để
thực hiện hàng chục nghìn sửa đổi cũng nhƣ bắt đầu nhiều bài viết mới.
Riêng với Wikipedia tiếng Việt đƣợc thành lập vào tháng 10 năm 2003. Hiện
nay đã có 929,212 bài viết bằng tiếng Việt, với 2,369,340 trang tất cả1. Wikipedia
tiếng Anh (tiếng Anh: English Wikipedia) là phiên bản tiếng Anh của dự án
Wikipedia. Đƣợc thành lập vào ngày 15 tháng 1 năm 2001 và đạt 3,791,560 bài viết
vào đầu tháng 11 năm 2011, Wikipedia tiếng Anh đã trở thành phiên bản Wikipedia
đầu tiên và lớn nhất, gấp 3 lần số lƣợng bài viết so với phiên bản lớn thứ hai Wikipedia tiếng Đức. Đến năm 2009, khoảng 22.3% số lƣợng bài viết trên tất cả các

Wikipedia thuộc về Wikipedia tiếng Anh, nhƣng ƣu thế này cũng dần giảm bớt kể
từ giữa năm 2003, khi các dự án Wikipedia khác phát triển.
Có nhiều nghiên cứu đánh giá về Wikipedia, nhƣ nghiên cứu đánh giá về độ tin
cậy; họ đã chỉ ra rằng độ chính xác của Wikipedia có thể sánh ngang với các nguồn
tri thức đóng khác nhƣ trong nhiên cứu của Giles [7], trong đó tác giả so sánh
2

/>
11


Wikipedia và từ điển bách khoa toàn thƣ Britannica. Tác giả thu thập ngẫu nhiên 41
bài viết về các chủ đề liên quan đến khoa học trên cả hai từ điển bách khoa, kết quả
có 162 lỗi trên các bài viết của Wikipedia so với 123 lỗi của các bài viết lấy từ
Britannica. Ngồi ra, cịn có một số nghiên cứu khác của Weaver và CS [8] đánh
giá mức độ chính xác của liên kết giữa các bài viết trong Wikipedia đạt 97%. Điều
này có thể phần nào khẳng định rằng Wikipedia có mức độ tin cậy cao và là nguồn
tri thức đáng giá [6]. Trong phạm vi luận văn này, chúng tôi sử dụng Wikipedia làm
cơ sở tri thức cụ thể nhƣ sau:
Wikipedia tiếng Anh: đƣợc xử lý vào ngày 04 tháng 3 năm 2014, gồm:
- Trang thực thể: 3,843,699
- Trang phân giải nhập nhằng: 152,806
- Trang thể loại: 942,912
- Trang chuyển hƣớng: 5,480,370
Wikipedia tiếng Việt: đƣợc xử lý vào ngày 10 tháng 3 năm 2014, gồm :
-

Trang thực thể: 582,878
Trang phân giải nhập nhằng: 1,377
Trang thể loại: 67,167

Trang chuyển hƣớng: 96,780

Trang thực thể
Trang thực thể là thành phần quan trọng nhất của Wikipedia. Mỗi trang thực thể
là một bài viết biểu diễn cho một thực thể duy nhất tồn tại trong Wikipedia và đƣợc
xác định bằng một tiêu đề. Đối với những trang thực thể bị nhập nhằng thì tiêu đề
của chúng sẽ có phần làm rõ nghĩa theo sau. Ví dụ nhƣ "Tree" có thể là "Tree
(graph theory)" (là cây trong lý thuyết đồ thị) hoặc cũng có thể là "Tree (data
structure)" (là một dạng cấu trúc dữ liệu đƣợc dùng trong ngành khoa học máy
tính).
Trang chuyển hƣớng
Đối với một trang thực thể thì ngồi tiêu đề dùng để xác định trang thực thể đó
thì trang thực thể này cũng có thể có tên gọi khác hay bí danh khác. Cho nên
Wikipedia biểu diễn các tên gọi khác hay bí danh của trang thực thể đó bằng các

12


trang chuyển hƣớng. Mỗi trang chuyển hƣớng đại diện cho một tên gọi khác hay bí
danh và trang chuyển hƣớng đó sẽ tham chiếu đến trang thực thể.

Hình 2.1 Trang thực thể “Vịnh Hạ Long” trong Wikipedia tiếng Việt
Trong Hình 2.2, chúng ta thấy trang thực thể có tiêu đề là “Manchester United
F.C.” có tên gọi khác là “ManU” và “Manchester United FC” đều nói về
“Manchester United F.C.”. Do đó, hai trang chuyển hƣớng của “Manchester United
F.C.” là “ManU” và “Manchester United FC”.
Trang phân giải nhập nhằng
Trang chuyển hƣớng là tên gọi khác hay bí danh của một trang thực thể thì
Wikipedia cịn xây dựng trang phân giải nhập nhằng. Trang phân giải nhập nhằng
này đƣợc dùng khi các trang thực thể có tên gọi gần giống nhau hay tƣơng tự nhau.

Nghĩa là cùng một tên gọi nhƣng lại biểu diễn cho các trang thực thể khác. Với lý
do đó, Wikipedia xây dựng trang phân giải nhập nhằng giúp cho ngƣời đọc có thể
tìm đƣợc các trang thực thể mà họ cần.
Hình 2.3 cho thấy, Ocean (disambiguation) là trang phân giải nhập nhằng.
Trang này chứa các trang thực thể khác có tên gọi giống hoặc tƣơng đƣơng với nó.
Ví dụ này cho thấy có rất nhiều trang có cùng tên gọi gần giống với nhau. Nên
Wikipedia sử dụng trang phân giải nhập nhằng này hỗ trợ giúp ngƣời dùng tìm kiếm
trang thực thể nhanh và dễ hiểu hơn.

13


Hình 2.2 Hai trang chuyển hƣớng “ManU” và “Manchester United FC” của trang
thực thể “Manchester United F.C.”
Trang thể loại
Trang thể loại chứa các trang thể loại con của nó. Với mục tiêu là để dễ dàng
cho ngƣời dùng thì Wikipedia khuyến khích ngƣời viết bài phân loại bài viết của họ
theo một cây phân cấp thể loại cho trƣớc. Cây thể loại phân cấp này có cấu trúc rất
phức tạp.

2.2. Thực thể và nhãn tham chiếu
Thực thể
Theo KIM, thực thể (entity) là một đối tƣợng hoặc một tập các đối tƣợng nào
đó có một sự tồn tại riêng biệt, hữu hình trong thế giới thực (George W. Bush,
WTO,…) hay có thể tồn tại ở dạng vơ hình, trừu tƣợng (hình trịn, hình vng,…).

14



×