Tải bản đầy đủ (.pdf) (60 trang)

Giải pháp tìm hiếm người theo tên trên Web dựa trên phân cụm phân cập và xếp hạng cặp thứ tự và thử nghiệm vào hệ thống tìm kiếm người Tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (827.31 KB, 60 trang )




































ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ


Nguyễn Thị Kim Chi


GIẢI PHÁP TÌM KIẾM NGƯỜI THEO TÊN TRÊN
WEB DỰA TRÊN PHÂN CỤM PHÂN CẤP VÀ XẾP
HẠNG CẶP THỨ TỰ VÀ THỬ NGHIỆM VÀO HỆ
THỐNG TÌM KIẾM THỰC THỂ NGƯỜI TIẾNG
VIỆT






KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:

Công Nghệ Thông Tin















HÀ NỘI - 2011




























ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ


Nguyễn Thị Kim Chi


GIẢI PHÁP TÌM KIẾM NGƯỜI THEO TÊN TRÊN
WEB DỰA TRÊN PHÂN CỤM PHÂN CẤP VÀ XẾP
HẠNG CẶP THỨ TỰ VÀ THỬ NGHIỆM VÀO HỆ
THỐNG TÌM KIẾM THỰC THỂ NGƯỜI TIẾNG
VIỆT




KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:

Công Nghệ Thông Tin






Cán bộ hướng dẫn: ThS.Nguyễn Cm Tú







HÀ NỘI - 2011




i

Lời cảm ơn


Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo
sư Tiến sĩ Hà Quang Thụy và Thạc sĩ Nguyễn CNm Tú, những người đã tận tình chỉ
bảo và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi
học tập và nghiên cứu tại trường Đại học Công nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chị, các bạn và các em sinh viên
trong phòng nghiên cứu SIS-KTLab đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức
chuyên môn để hoàn thành tốt khoá luận. Khóa luận này nhận được sự hỗ trợ từ đề
tài QG.10.38.
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người

thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt
nghiệp.
Tôi xin chân thành cảm ơn!




Sinh viên
Nguyễn Thị Kim Chi



ii

Tóm tắt

Qua máy tìm kiếm thông dụng, người dùng đưa truy vấn về thực thể quan
tâm dưới dạng một từ khóa hoặc một cụm từ khóa và nhận kết quả trả về là một
danh sách địa chỉ các trang Web chứa từ khóa/cụm từ khóa đó. Sự phát triển không
ngừng của kỹ thuật trích chọn thông tin dẫn tới sự ra đời của máy tìm kiếm thực thể
mà kết quả trả về của nó là thực thể mà không là địa chỉ. Do thực thể người thuộc
loại được tìm kiếm nhiều nhất, vì vậy tìm kiếm thực thể người là một nội dung
nghiên cứu nhận được sự quan tâm đặc biệt hiện nay.
Khóa luận nghiên cứu các giải pháp tìm kiếm người theo tên trên Web, tập
trung vào hai vấn đề chính là phân biệt nhập nhằng tên người và xếp hạng thực thể
người cùng tên trên miền dữ liệu giáo dục tiếng Việt dựa trên các thông tin về thực
thể người. Trên cơ sở đó, khóa luận đề xuất một mô hình hệ thống tìm kiếm thực thể
người tiếng Việt thực nghiệm.
Thực nghiệm ban đầu với tập tên người Việt Nam phổ biến cho thấy mô hình
tìm kiếm người theo tên trên Web có độ chính xác tương đối cao và đạt độ đo phân

cụm ở mức 0.86 và xếp hạng thực thể ở mức 0.8. Kết quả này cho thấy mô hình tìm
kiếm người theo tên tiếng Việt trên Web dược đề xuất và triển khai là có tính khả
quan.







iii

Lời cam đoan

Tôi cam đoan giải pháp tìm kiếm người trên Web dựa trên thuật toán phân
cụm phân cấp và xếp hạng cặp thứ tự và thực nghiệm được trình bày trong khóa
luận là do tôi thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy và ThS.
Nguyễn CNm Tú.
Trong toàn bộ nội dung của khóa luận, những điều được trình bày hoặc là của
cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo
đều có xuất xứ rõ ràng và được trích dẫn hợp pháp.


















iv



MỤC LỤC

MỞ ĐẦU 1
Chương 1. Khái quát bài toán tìm kiếm người trên Web 3
1.1. Hệ thống tìm kiếm thực thể 3
1.1.1. Dữ liệu Web và vấn đề tìm kiếm thông tin trên Web 3
1.1.2. Hệ thống tìm kiếm thực thể 4
1.2. Bài toán tìm kiếm người trên Web 9
1.2.1. Đặt vấn đề 9
1.2.2. Phát biểu bài toán 9
1.2.3. Một số nội dung chính 9
1.2.4. Phương pháp đánh giá 10
Chương 2: Vấn đề phân biệt nhập nhằng tên người và xếp hạng kết quả tìm kiếm
người cùng tên 14
2.1. Vấn đề phân biệt nhập nhằng tên người 14
2.1.1. Phát biểu bài toán phân biệt nhập nhằng tên nguời 14
2.1.2. Một số phương pháp tiếp cận giải quyết vấn đề nhập nhằng tên người trên
Web 14

2.1.2.1. Hướng tiếp cận dựa trên phân cụm bán giám sát 14
2.1.2.2. Các tiếp cận dựa trên kỹ thuật phân cụm hai trạng thái 17
2.1.2.3. Các hướng tiếp cận khác 19
2.4. Một số hướng tiếp cận giải quyết vấn đề xếp hạng thực thể 20
2.4.1. Phát biểu bài toán xếp hạng thực thể 20
2.4.2. Một số hướng tiếp cận giải quyết bài toán xếp hạng thực thể 21
2.4.2.1. Hướng tiếp cận dựa trên điểm số tương đồng và liên kết 21
2.4.2.2. Hướng tiếp cận dựa trên Mô hình Impression 23
Chương 3. Mô hình giải quyết bài toán tìm kiếm người trên Web 28
3.1. Cơ sở lý thuyết 28
3.1.1. Thuật toán phân cụm HAC 28
3.1.2. Độ tương đồng cosin 31

v

3.1.3. Phương pháp PageRank 31
3.1.4. Phương pháp xếp hạng cặp thứ tự (Pairwise) 32
3.2. Mô hình giải quyết bài toán tìm kiếm người trên Web 32
3.3. Áp dụng bài toán tìm kiếm người theo tên trên Web vào hệ thống tìm kiếm thực
thể người 38
Chương 4. Thực Nghiệm và đánh giá 39
4.1. Mô tả thực nghiệm 39
4.2. Môi trường và công cụ sử dụng thực nghiệm 39
4.3. Xây dựng tập dữ liệu thực nghiệm 40
4.5. Thực nghiệm và Kết quả 41
Kết luận 48


















vi



Danh sách các bảng

Bảng 1. Danh sách các thuộc tính được đề xuất trong hội nghị WebPS-3. 34
Bảng 2. Các thuộc tính được sử dụng trong khóa luận 35
Bảng 3. Một số đặc trưng sử dụng để trích chọn 36
Bảng 3. Tập tên người thực nghiệm 41
Bảng 4. Kết quả phân cụm 43
Bảng 5. Một số kết quả xếp hạng 43
Bảng 6. Đánh giá kết quả phân cụm 45
Bảng 7. Đánh giá kết quả xếp hạng 46













vii



Danh Sách hình vẽ

Hình 1. Kết quả trả về từ google với truy vấn ” Sony VaiO FZ150F 5
Hình 2. Mô hình tìm kiếm truyền thống và tìm kiếm thực thể 5
Hình 3. Kiến trúc cơ bản hệ thống tìm kiếm thực thể 6
Hình 4. Hệ thống tìm kiếm thực thể dựa trên kỹ thuật trích rút thông tin 7
Hình 5. Hệ thống tìm kiếm người iSearch. 8
Hình 6. Mô hình hệ thống xếp hạng thực thể 21
Hình 7. Mô hình Impression 25
Hình 8. Sơ đồ thuật toán phân cụm HAC 28
Hình 9. Phân cụm với độ đo single-link 30
Hình 10. Phân cụm với độ đo complete-link 30
Hình 11. Mô hình giải quyết bài toán 33
Hình 12. Mô hình đề xuất xây dựng hệ thống tìm kiếm 338
Hình 13. Ví dụ các thuộc tính sau khi trích chọn 42












viii




Danh Sách các từ viết tắt


HAC Hierarchical Agglomerative Clustering
WWW World Wide Web
IR Information Retrieval
WebPS Web People Search






1
MỞ ĐẦU


Sự ra đời của máy tìm kiếm đã giúp cho người dùng khai thác thông tin một
cách thuận tiện hơn. Tuy nhiên, các kết quả trả về từ máy tìm kiếm vẫn còn nhiều
hạn chế, đặc biệt là khi người dùng muốn tìm kiếm thông tin về một đối tượng cụ
thể thì các kết quả trả về chỉ là tập địa chỉ các trang Web chứ không phải là các
bản ghi về đối tượng cần tìm. Một trong những loại tìm kiếm đối tượng phổ biến
nhất là tìm kiếm người nhưng thực thể người lại là một trong những loại thực thể
có độ nhập nhằng cao nhất, các kết quả trả về từ máy tìm kiếm sẽ bao gồm tập địa
chỉ các trang web liên quan tới nhiều người chia sẻ cùng một tên. Hơn thế nữa, các
thực thể người tìm kiếm được không chỉ được lấy ra từ một trang độc lập mà có
thể được tổng hợp từ nhiều trang khác nhau. Vì vậy, cần thiết một hệ thống có khả
năng gom cụm kết quả sao cho những trang Web thuộc cùng một cụm sẽ cùng trỏ
tới một người đồng thời có khả năng xếp hạng các thực thể người được trích rút từ
các cụm.
Vấn đề tìm kiếm người trên Web ngày càng nhận được sự quan tâm nghiên
cứu trên thế giới. Đặc biệt là các hội nghị khoa học về tìm kiếm người trên Web
[16].
Khóa luận tốt nghiệp với đề tài Giải pháp tìm kiếm người theo tên trên
Web dựa trên phân cụm phân cấp và xếp hạng cặp thứ tự và thử nghiệm vào hệ
thống tìm kiếm thực thể người tiếng Việt nhằm khảo sát, phân tích một số phương
pháp phân cụm và xếp hạng thực thể đang được quan tâm hiện nay. Từ đó, đưa ra
mô hình phân cụm và xếp hạng thực thể người trong hệ thống tìm kiếm thực thể
người tiếng Việt.
Khóa luận gồm các nội dung chính cơ bản sau:
Chương 1: Khái quát bài toán tìm kiếm người trên Web trình bày khái
quát nhu cầu tìm kiếm thông tin trên Web, hệ thống tìm kiếm thực thể người.
Đồng thời, khóa luận cũng trình bày khái quát và một số nội dung liên quan chính
tới bài toán tìm kiếm người trên Web, bao gồm phương pháp đánh giá giải pháp
tìm kiếm người trên Web.

2


Chương 2: Vấn đề phân biệt nhập nhằng tên người và xếp hạng kết
quả tìm kiếm người cùng tên tập trung trình bày một số hướng tiếp cận giải
quyết vấn đề nhập nhằng tên người như phân cụm bán giám sát [10], phân cụm hai
trạng thái [12], hoặc một số tiếp cận khác [9, 6]) và một số mô hình nhằm xếp
hạng thực thể người trong kết quả tìm kiếm như tính hạng theo điểm số tương
đồng và liên kết [4], theo mô hình Impression [13].
Chương 3: Mô hình giải quyết bài toán tìm kiếm người trên Web trình
bày mô hình đề xuất nhằm giải quyết phân biệt người cùng tên và xếp hạng trong
hệ thống tìm kiếm người trên Web. Khóa luận sử dụng kỹ thuật trích xuất đặc
trưng và thuật toán phân cụm phân cấp HAC để giải quyết vấn đề phân biệt nhập
nhằng tên người và dựa trên hàm tính điểm số để xếp hạng thực thể.
Chương 4: Thực nghiệm và đánh giá trình bày quá trình thử nghiệm việc
phân cụm và xếp hạng thực thể người với tập dữ liệu kiểm thử là những tên người
phổ biến, đưa ra kết quả thực nghiệm và các đánh giá sơ bộ.
Kết luận: Tóm lược các kết quả đã đạt được của khóa luận và các định
hướng phát triển trong tương lai.
















3

Chương 1. Khái quát bài toán tìm kiếm người trên Web
Nhu cầu tìm kiếm thông tin là một nhu cầu cần thiết và tất yếu trong cuộc
sống con người. Internet là một kho thông tin khổng lồ được coi là không giới hạn.
Tuy nhiên, việc khai thác thông tin trên Internet gặp phải nhiều khó khăn và thách
thức vì tính đa dạng và phi cấu trúc. Với các máy tìm kiếm thông dụng hiện nay như
Google, Yahoo, MSN…., truy vấn người dùng đưa vào là tập các từ khóa và kết quả
trả về chỉ là các địa chỉ tới các trang web trong khi người dùng mong muốn nhận
được các bản ghi về đối tượng cần tìm. Một trong những đối tượng được tìm kiếm
nhiều nhất là thực thể người. Chương này sẽ trình bày một số vấn đề và nội dung
liên quan tới bài tóan tìm kiếm người trên Web.
1.1. Hệ thống tìm kiếm thực thể
1.1.1. Dữ liệu Web và vấn đề tìm kiếm thông tin trên Web
Hiện nay, người dùng có thể truy cập nguồn tài nguyên Web mọi lúc, mọi nơi
và tìm kiếm, tổng hợp các thông tin cần thiết. Cùng với sự thay đổi và phát triển
hàng ngày hàng giờ về nội dung cũng như số lượng của các trang Web trên Internet
thì vấn đề tìm kiếm thông tin đối người dùng ngày càng trở lên khó khăn. Dữ liệu
Web mang một vài đặc điểm sau[1]:
 Web dường như quá lớn để tổ chức thành một kho dữ liệu phục vụ khai
phá dữ liệu.

Độ phức tạp của trang Web lớn hơn rất nhiều so với những tài liệu văn
bản truyền thống khác.

 Web là một nguồn tài nguyên thông tin có độ thay đổi cao.
 Web phục vụ một cộng đồng người dùng rộng lớn và đa dạng.
 Chỉ một phần rất nhỏ của thông tin trên Web là thực sự hữu ích.

Tuy nhiên, cùng với sự đa dạng và số lượng lớn thông tin như vậy đã nảy
sinh vấn đề quá tải thông tin. Người ta không thể tìm tự kiếm địa chỉ trang Web
chứa thông tin mà mình cần, do vậy đòi hỏi cần phải có một trình tiện ích thực
hiện việc quản lý nội dung trang Web, tiếp nhận yêu cầu tìm kiếm của người dùng,
cập nhật thông tin từ WWW phù hợp để cung cấp cho họ các trang Web có nội
dung đáp ứng yêu cầu tìm kiếm.

4

Máy tìm kiếm ra đời giúp cho việc tìm kiếm thông tin thuận lợi hơn, đáp ứng
phần nào nhu cầu tìm kiếm của người dùng. Kết quả trả về từ máy tìm kiếm là danh
sách các trang Web(tài liệu) có chứa từ khóa nói trên và được liệt kê theo thứ tự về
độ quan trọng hay “hạng” của chúng. Tuy nhiên, trong quá trình tìm kiếm thông tin
gặp một số khó khăn như danh sách kết quả quá dài bao gồm cả thông tin người
dùng quan tâm và cả thông tin mà họ không quan tâm. Do đó, người dùng phải mất
thời gian duyệt qua từng trang để tìm thông tin mà mình mong muốn. Ngoài ra, số
lượng từ khóa trong câu hỏi ít và đặc biệt là có ngữ nghĩa không rõ ràng cũng là một
vấn đề khó khăn trong quá trình tìm kiếm thông tin.
Tìm kiếm hướng thực thể là một trong những hướng đang ngày càng được
quan tâm nhằm giải quyết những hạn chế của các hệ thống tìm kiếm thông tin hiện
tại như google, yahoo…, đem lại chất lượng khai thác thông tin tốt hơn tới người
dùng. Hướng tìm kiếm thực thể này sẽ được trình bày ở phần tiếp theo của khóa
luận.
1.1.2. Hệ thống tìm kiếm thực thể
Người dùng thường tìm kiếm thông tin về đối tượng nào đó. Với các máy tìm
kiếm hiện nay (Google, Yahoo, MSN ) bằng cách so sánh văn bản trên từng trên
Web với truy vấn và trả về cho người dùng địa chỉ các trang mà có chứa từ khóa
trong truy vấn. Như vậy, mức độ chọn lọc thông tin phù hợp với yêu cầu người dùng
của các máy tìm kiếm thông thường vẫn chưa cao.
Ví dụ: Người dùng muốn tìm kiếm thông tin như giá cả, kích thước màn hình,

dung lượng ổ đĩa, tốc độ…. của dòng máy tính xác tay Sony VaiO FZ150F. Với
máy tìm kiếm thông thường như Google, người dùng nhập từ khóa “Sony VaiO
FZ150F”. Kết quả nhận được như sau:


5


Hình 1. Kết quả trả về từ google với truy vấn ” Sony VaiO FZ150F”.
Khác với máy tìm kiếm thông thường, kết quả trả về của máy tìm kiếm thực
thể là các thực thể của đối tượng cần tìm, mỗi thực thể được xác định không chỉ xét
trên một trang độc lập mà có thể được tổng hợp qua nhiều trang Web. Hệ thống tìm
kiếm thực thể sẽ cung cấp thông tin lọc ở mức cao hơn cho người dùng.
Sau đây là một hình ảnh minh họa hai mô hình tìm kiếm truyền thống và mô
hình tìm kiếm thực thể được đưa ra bởi nhóm tác giả Kevin Chen –Chuan ChangTao
Cheng và Kim Cuong Pham [17]

Hình 2. Mô hình tìm kiếm truyền thống và tìm kiếm thực thể[17]
Từ khóa

Kết quả
Th
ực

th


Kết quả

6


Tao Cheng, X.Yan v Kevin C.C Chang cũng đã đưa ra một kiến trúc cơ bản
của máy tím kiếm thực thể. [2] [5]

Hình 3. Kiến trúc cơ bản hệ thống tìm kiếm thực thể[5]
Kiến trúc hệ thống tìm kiếm thực thể gồm 2 bộ phận chính: bộ phận xử lý
ngoại tuyến (phần được bao bằng nét đứt) và bộ phận xử lý trực tuyến (phần được
bao bằng nét liền).
Bộ phận xử lý ngoại tuyến gồm hai pha chính là trích chọn thực thể và đánh
chỉ mục thực thể, từ khóa
 Trích chọn thực thể (Entity Extractor): thực hiện việc trích chọn các thực
thể từ các trang Web. Việc trích chọn có thể sử dụng biểu thức chính quy
để trích chọn ra địa chỉ mail hoặc sử dụng phân lớp thống kê để trích
chọn ra địa chỉ địa điểm.
 Đánh chỉ mục cho thực thể và từ khóa: thực hiện việc đánh chỉ mục và
chỉ mục ngược cho các thực thể được trích chọn từ module trích chọn
thực thể trên

7

Bộ phân xử lý trực tuyến thực hiện xếp hạng thực thể gồm hai pha chính là
xử lý truy vấn toàn cục (global) và xử lý truy vấn cục bộ (local)
 Xử lý truy vấn cục bộ: từ chỉ mục ngược của tất cả các thực thể, module
thực hiện phép ánh xạ vào tài liệu để tìm ra các tài liệu chứa các thực thể
và từ khóa thỏa mãn. Trọng số cục bộ được xác định dựa vào độ tin cậy
của thực thể đó với mối quan hệ ngữ cảnh giữa các thực thể với các từ
khóa trong từng tài liệu.
 Xử lý truy vấn toàn cục: Module thực hiện nhận truy vấn người dùng,
đNy truy vấn cho module xử lý truy vấn cục bộ và nhận kết quả trả về từ
module này. Sau khi nhận được các trọng số cục bộ, module tiến hành

tổng hợp trọng số cho từng bộ thực thể , kết hợp trọng số cục bộ và trọng
số xác định cho thực thể đó trên toàn tập tài liệu để đạt giá trị điểm cuối
cùng cho xếp hạng thực thể.
Dưới đây là kiến trúc một hệ thống tìm kiếm thực thể tiêu biểu dựa trên kỹ
thuật trích xuất thông tin[3].

Hình 4. Hệ thống tìm kiếm thực thể dựa trên kỹ thuật trích rút thông tin [3]
Mô hình hệ thống tìm kiếm thực thể dựa trên kỹ thuật trích xuất thông tin
gồm các phần chính sau[3]:

8

 Trích xuất thông tin về thực thể: thực hiện trích xuất các thông tin liên
quan đến thực thể này từ tất cả các trang Web chứa loại thực thể.
 Tổng hợp thực thể: Mỗi thực thể được trích chọn sẽ được ánh xạ tới một
đối tượng thế giới thực và lưu trữ vào trong kho dữ liệu Web. Việc tổng
hợp thực thể cần hợp nhất các thông tin liên quan tới cùng một thực thể
và phân biệt các thực thể khác nhau.
 Tìm kiếm thực thể: sau khi trích xuất các thông tin về thực thể và tổng
hợp thực thể, hệ thống cung cấp các thông tin cần thiết cho người dùng.
Ngoài ra, để đạt hiệu quả tốt hơn trong kết quả tìm kiếm, hệ thống cần
một mô hình xếp hạng hiệu quả.
Một số hệ thống tìm kiếm thực thể tiêu biểu như hệ thống Hệ thống Cazoodle
tại Việt Nam được sự hỗ trợ phát triển của nhóm nghiên cứu của Kevin Chen-Chuan
Chang

(). Ngoài ra, còn có các hệ thống như iSearch
(Spock.com) và Zoominfor (Zoominfo.com)




Hình 5. Hệ thống tìm kiếm người iSearch.



9

1.2. Bài toán tìm kiếm người trên Web
1.2.1. Đặt vấn đề
Với các máy tìm kiếm thông dụng hiện nay như Google, Yahoo, MSN, truy
vấn mà người dùng đưa vào là tập các từ khóa và kết quả trả về là danh sách các địa
chỉ tới các trang web. Do vậy để nhận được thông tin mong muốn, người dùng phải
duyệt qua từng địa chỉ web đó, và có thể phải duyệt qua nhiều trang không có thông
tin mong muốn.
Với sự phát triển của các kỹ thuật rút trích thông tin IR (Information
Retrieval ) cụ thể là rút trích các thực thể, kết quả trả về cho người dùng thay vì chỉ
là các địa chỉ web, người dùng còn nhận được các thông tin cụ thể về đối tượng
mình mong muốn tìm kiếm. Tìm kiếm người là một trong những lĩnh vực được tìm
kiếm nhiều nhất [7]: 11% đến 17% trong một truy vấn chứa một tên người, 4% truy
vấn là một tên người. Tuy nhiên, vấn đề tìm kiếm người trên Web sử dụng máy tìm
kiếm gặp phải khó khăn bởi có rất nhiều phép ánh xạ giữa các tên người với những
người riêng biệt, đặc biệt trong trường những người khác nhau có cùng tên mà người
chúng ta muốn tìm chỉ là một trong số những người cùng tên đó. Vấn đề đặt ra là
làm thế nào để phân biệt những người khác nhau có cùng tên. Ngoài ra, các thông
tin nhận được về người cần tìm không chỉ được xét trên một trang độc lập mà có thể
được tổng hợp qua nhiều trang Web. Vì vậy, một vấn đề quan trọng nữa đặt ra trong
quá trình tìm kiếm người là đưa các thực thể phù hợp với truy vấn nhất lên đầu tiên
trong danh sách trả về cho người dùng.
1.2.2. Phát biểu bài toán
Bài toán tìm kiếm người trên Web với mục đích là với mỗi tên người cho

trước, cần phải phân biệt những người khác nhau có cùng tên và đưa ra danh sách
đã được xếp hạng các thực thể người cùng tên đó trên tập các trang Web.
Miền dữ liệu của bài toán là tập các trang Web .edu hoặc .edu.vn
1.2.3. Một số nội dung chính
Trong khóa luận này, bài toán tìm kiếm người trên Web gồm hai nội dung
chính
Nội dung chính thứ nhất: Vấn đề phân biệt nhập nhằng tên người.

10

Với truy vấn của người dùng là một tên người, máy tìm kiếm sẽ trả lại danh
sách các trang Web chứa tên người đó. Tuy nhiên, không phải tất cả các trang Web
nhận được cùng trỏ tới một người mà sẽ trỏ tới nhiều người khác nhau chia sẻ
cùng tên đó. Theo thống kê điều tra dân số của Mỹ và được báo cáo tại hội nghị
WebPS-3, 2010 , tên người có độ nhập nhằng cao[7]: với 90.000 tên người khác
nhau đã được chia sẻ cho hơn 100.000.000 người. Ví dụ, với truy vấn là “Nguyễn
Hữu Đức” thì trong hàng trăm kết quả trả về từ máy tìm kiếm Google, bên cạnh
PGS.TS. Nguyễn Hữu Đức-Giám đốc Đại Học Quốc gia còn có một Nguyễn Hữu
Đức, một cố Hiệu trưởng trường Đại Học Đà Lạt hoặc là một du khách hoặc một
trưởng phòng Giáo Dục và Đào Tạo tỉnh An Giang. Vì vậy, vấn đề đặt ra là gom
cụm những người có cùng tên. Mỗi cụm chứa thông tin về một người, các cụm
khác nhau sẽ trỏ tới những người khác nhau.
Nội dung chính thứ hai: Vấn đề xếp hạng kết quả tìm kiếm người cùng
tên.
Kết quả nhận được sau bước phân biệt nhập nhằng tên người là tập các cụm
trang Web chứa tên người cho trước. Mỗi cụm sẽ trỏ tới một người. Với kỹ thuật
trích rút thực thể, thay vì tập các trang Web chứa tên người, kết quả nhận được sẽ
là danh sách các thực thể người cùng tên từ các cụm. Không chỉ tìm được thực thể
người mà vấn đề trong các máy tìm kiếm là những thực thể phù hợp nhất được đưa
lên từ những kết quả đầu tiên trả về cho người dùng. Cũng như máy tìm kiếm

thông thường xếp hạng là vấn đề quan trọng, xếp hạng thực thể là vấn đề cốt lõi
trong máy tìm kiếm thực thể.
1.2.4. Phương pháp đánh giá
Phương pháp đánh giá kết quả tìm kiếm người dựa trên hai phương pháp
đánh giá phân cụm và phương pháp đánh giá xếp hạng thực thể.
• Phương pháp đánh giá phân cụm thực thể người
Một phương pháp đánh giá điển hình được Javier Artiles và cộng sự [8]
trình bày tại hội nghị WebPS-1 (2007) dựa trên độ tinh khiết (purity), độ nghịch
đảo tinh khiết (inverse purity) và độ đo F.

11

Các ký hiệu chung:
C = {C
1
, C
2
, … } là tập các cụm cần đánh giá
L = {L
1
, L
2
, … }là tập các mục được đánh giá bằng tay
n là số lượng văn bản được phân cụm
Công thức độ tinh khiết
 Độ tinh khiết được tính bằng phương pháp lấy trung bình có trọng số
độ chính xác của việc phân cụm.

( )


=
i
ji
i
LCprecision
n
C
purity ,max

Trong đó độ chính xác của cụm C
i
ứng với mỗi cụm L
j
được định nghĩa như
sau


ijiji
CLCLCprecison /),( ∩=

 Công thức độ nghịch đảo tinh khiết

( )

=
i
ji
i
CLprecision
n

L
purityinv ,max.

 Công thức độ đo F:

purityinvpurity
F
.
1
)1(
1
1
αα
−+
=

Chúng tôi chọn và để đánh giá hệ thống.

• Phương pháp đánh giá vấn đề xếp hạng thực thể
Để đánh giá xếp hạng chất lượng một xếp hạng, các độ đo thông dụng trong
học máy như độ chính xác, độ hồi tưởng, độ đo F không sử dụng. Xếp hạng yêu
cầu các đối tượng phù hợp với tiêu chí cần được xếp ở các vị trí đầu tiên trong kết
quả tìm kiếm[3].
Các độ đo chính xác xếp hạng thường được sử dụng:
 Độ chính xác mức K: P@K

12

Độ chính xác xếp hạng ở mức K (Precisio@K) viết tắt P@K là độ chính
xác của K đối tượng đầu tiên trong bảng xếp hạng. Xác định số đối tượng đúng ở

K vị trí đầu tiên của xếp hạng Match@K. Độ chính xác mức K được tính như sau:

K
KMatch
KP
@
@ =

 Độ chính xác trung bình MAP
Độ chính xác trung bình là giá trị trung bình của các P@K tại các mức K có
đối tượng đúng.
Độ chính xác trng bình được tính theo công thức:



=
=
×
=
n
j
n
K
jI
KIKP
AP
1
1
)(
)(@


Trong đó, I(K) là hàm xác định đối tượng ở vị trí hạng K
nếu đúng I(K)=1 và ngược lại I(K) = 0.
n là số đối tượng được xét.
Giá trị trung bình của AP trên các truy vấn

m
AP
MAP
m
i
i

=
=
1

 Trung bình nghịch đảo thứ hạng: MRR
Nghịch đảo hạng RR=1/r với r là vị trí hạng của đối tượng đúng đầu tiên
trong bảng xếp hạng. Trung bình nghịch đảo thứ hạng là giá trị trung bình nghịch
đảo thứ hạng RR cả tất cả các truy vấn/ hay xếp hạng đang xét.

m
RR
MRR
m
i
i

=

=
1

Tóm tắt chương một
Trong chương một, khóa luận trình bày khái quát về hệ thống tìm kiếm thực
thể người và bài toán tìm kiếm người trên Web. Đồng thời, khóa luận cũng trình

13

bày một số nội dung chính liên quan tới bài toán và phương pháp đánh giá cho bài
toán tìm kiếm người trên Web.
Trong chương tiếp theo, khóa luận nêu ra một số phương pháp giải quyết
được áp dụng thành công đối với các vấn đề chính trong bài toán tìm kiếm người
trên Web.

14

Chương 2. Vấn đề phân biệt nhập nhằng tên người và xếp hạng kết quả
tìm kiếm người cùng tên
Trong chương này, khoá luận trình bày hai vấn đề chính trong bài toán tìm
kiếm người trên Web là vấn đề phân biệt nhập nhằng tên người và vấn đề xếp hạng
kết quả tìm kiếm người cùng tên với một số hướng tiếp cận giải quyết các vấn đề
này. Với mỗi miền dữ liệu khác nhau, các nhóm tác giả đề xuất các phương pháp
giải quyết vấn đề khác nhau. Trên thế giới, vấn đề phân biệt nhập nhằng tên người
đã được quan tâm nghiên cứu từ lâu và đã đạt được những kết quả khá tốt, điển hình
là phương pháp phân cụm dữ liệu. Bên cạnh đó, vấn đề xếp hạng thực thể cũng tồn
tại một số hướng giải quyết được đề xuất bởi một số nhóm tác giả. Trong phần này,
khoá luận sẽ trình bày một số hướng tiếp cận tiêu biểu dựa trên phương pháp phân
cụm dữ liệu để giải quyết vấn đề nhập nhằng tên người và các hướng tiếp cận cũng
như mô hình giải quyết tiêu biểu vấn đề xếp hạng thực thể.

2.1. Vấn đề phân biệt nhập nhằng tên người
2.1.1. Phát biểu bài toán phân biệt nhập nhằng tên nguời
Bài toán phân biệt nhập nhằng tên người với mục đích là phân chia các trang
Web chứa tên người cho trước thành các nhóm, sao cho các trang trong cùng một
nhóm cùng chỉ đến một người và các trang thuộc các nhóm khác nhau thì chỉ đến
những người khác nhau.
Đầu vào: tập các trang Web chứa tên người cho trước
Đầu ra: cụm các trang Web chứa trên người đó sao cho các trang Web trong
cùng một cụm sẽ cùng trỏ tới một người, các trang trong các cụm khác nhau trỏ tới
các người khác nhau.
2.1.2. Một số phương pháp tiếp cận giải quyết vấn đề nhập nhằng tên người
trên Web
2.1.2.1. Hướng tiếp cận dựa trên phân cụm bán giám sát
Năm 2007, Kazunari Sugiyama và Manabu Okumura [10] đã trình bày một
phương pháp phân cụm bán giám sát dựa trên trang “seed” để phân cụm các trang
kết quả chưa được gán nhãn.
Bước 1: xác định trang “seed”

15

Trong hệ thống này, nhóm tác giả xác định hai loại trang “seed”.(a) bài báo
trên mỗi thực thể người trong Wikipedia, (b) là trang Web được xếp hạng đầu tiên
trong tập kết quả các trang Web tìm kiếm. Trước hết, nếu một tên người được đề cập
trên Wikipedia thì nhóm tác giả sử dụng trang đó là trang seed. Nếu không, trang
seed được lấy là trang được xếp hạng đầu tiên trong tập kết quả các trang Web.
Bước 2: Biểu diễn trang Web
Với mỗi trang Web p trong tập kết quả tìm kiếm, tiến hành loại bỏ các từ
dừng dựa trên danh sách các từ dừng và các từ gốc sử dụng thuật toán porter[11].
Sau đó, biểu diễn dưới dạng vecto đặc trưng


(
)
P
t
p
t
p
t
p
m
ωωωω
, ,,
21
=

Trong đó, m là số lượng các từ khóa duy nhất trong trang Web p

k
t
(k=1,2,….,m) xác định mỗi từ khóa
Mỗi thành phần
pp
t
trong
k
ωω
được tính toán theo công thức sau:

(
)

(
)
(
)






−−=
N
tf
K
tf
N
tf
kkk
p
t
k
ααα
ω
log1

Trong đó
(
)
k
tf

α
là tần số tài liệu của từ khóa
k
t

N là số lượng các trang Web kết quả.
Ngoài ra, hệ thống xác định vecto trọng tâm của một cụm G

(
)
m
ttt
gggG , ,,
21
=

Với
k
t
g
trọng số của vecto trọng tâm của một cụm.
Bước 3: Áp dụng thuật toán phân cụm bán giám sát
Thuật toán phân cụm bán giám sát được mô tả như sau:
Đầu vào: tập các trang Web kết quả tìm kiếm
(
)
nip
i
, ,2,1=
và một trang seed

seed
p
,
{
}
seedn
ppppP ,, ,,
21
=

×