Tải bản đầy đủ (.pdf) (72 trang)

Học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.64 MB, 72 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THU TRANG
HỌC X Ế P HẠNG TRONG TÍNH HẠNG ĐỐI
TƯỢNG
VÀ TẠO NHÃN CỤM TÀI LIỆU
Ngành: Công nghệ Thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60 48 05
luận văn thạc sĩ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà
Quang Thụy
Hà Nội - 2008
Lời cam đoan
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân. Các số liệu,
kết quả trình bày trong luận văn này là trung thực và chưa từng được ai
công bố trong bất kỳ công trình luận văn nào trước đây.
Học Viên
Nguyễn Thu Trang
ii
Lời cảm ơn
Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến PGS.TS Hà Quang
Thụy - Người thầy kính yêu, người hướng dẫn, chỉ bảo em tận tình từ những
bước nghiên cứu đầu tiên vàhoàn thành luận văn.
Tôi chân thành cảm ơn các thầy cô trong bộ môn Các Hệ Thống Thông
Tin, và phòng thí nghiệm SISLAB, nhóm xemina Data Mining và đặc biệt
gửi lời cảm ơn tới ThS.Nguyễn Cẩm Tú đã giúp đỡ, hỗ trợ tôi trong quá
trình nghiên cứu, hoàn thành đề tài.
Tôi cảm ơn các thầy cô và các cán bộ của trường Công nghệ đã tạo cho
tôi những điều kiện thuận lợi để học tập và nghiên cứu.
Cuối cùng, xin gửi lời cảm ơn tới gia đình và bạn bè, đặc biệt bố, mẹ và


em trai là nguồn động viên tinh thần to lớn với tôi, luôn cổ vũ và tin tưởng
tôi.
Nguyễn Thu Trang
iii
Mục lục
MỞ ĐẦU 1
1 Xếp hạng đối tượng 2
1.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Phương pháp PageRank . . . . . . . . . . . . . . . . . . . . 3
1.3 Xếp hạng đối tượng . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Phương pháp đánh giá xếp hạng . . . . . . . . . . . . . . . . 7
1.5 Tổng kết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Học xếp hạng 10
2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Phương pháp học xếp hạng . . . . . . . . . . . . . . . . . . 12
2.2.1 Hồi quy có thứ tự vàPairwise . . . . . . . . . . . . . 12
2.2.2 Học xếp hạng danh sách Listwise . . . . . . . . . . . 13
2.3 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . 14
3 Xếp hạng trong máy tìm kiếm thực thể 15
3.1 Máy tìm kiếm thực thể . . . . . . . . . . . . . . . . . . . . . 16
iv
MỤC LỤC v
3.2 Xếp hạng thực thể . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.1 Mô hình Impression . . . . . . . . . . . . . . . . . . . 22
3.2.2 Nhận xét, đánh giá mô hình Impression . . . . . . . . 27
3.2.3 Mô hình đề xuất . . . . . . . . . . . . . . . . . . . . 29
3.3 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3.1 Công cụ sử dụng . . . . . . . . . . . . . . . . . . . . 33
3.3.2 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . 35

3.4 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . 36
4 Tạo nhãn cụm tài liệu 37
4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Phương pháp lựa chọn nhãn . . . . . . . . . . . . . . . . . . 40
4.3 Học xếp hạng nhãn cụm . . . . . . . . . . . . . . . . . . . . 42
4.3.1 Các đặc trưng . . . . . . . . . . . . . . . . . . . . . . 43
4.3.2 Học hàm tính hạng . . . . . . . . . . . . . . . . . . . 45
4.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4.1 Nguồn dữ liệu . . . . . . . . . . . . . . . . . . . . . . 46
4.4.2 Dữ liệu học . . . . . . . . . . . . . . . . . . . . . . . 47
4.4.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . 48
4.5 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . 49
Kết luận 51
Tài liệu tham khảo 52
MỤC LỤC vi
A Dữ liệu 60
A.1 Dữ liệu tìm kiếm thuốc . . . . . . . . . . . . . . . . . . . . . 60
A.2 Cây wiki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Danh sách hình vẽ 63
Danh sách bảng 64
Bảng ký hiệu và từ viết tắt
Từ viết tắt Mô tả Trang định nghĩa
IR Information Retrieval 6
SVM Suport Vector Machine 2
LTR Learning To Rank 1
MAP Mean Average Precision ??
vii
MỞ ĐẦU
Xếp hạng các đối tượng (trang Web, tác giả, chủ đề, trường đại học, công
ty ) có ý nghĩa quan trọng trong lĩnh vực khai phá dữ liệu, là trung tâm

của nhiều ứng dụng - điển hình là máy tìm kiếm. Các phương pháp tính
hạng được nghiên cứu và phát triển từ rất nhiều năm trước, nhưng khoảng
3 năm trở lại đây, hướng tiếp cận sử dụng phương pháp học máy để xếp
hạng đối tượng trở thành một vấn đề thu hút được rất nhiều sự quan tâm
như trong SIGIR 2007 và SIGIR 2008 đã tổ chức hội thảo chuyên đề về học
xếp hạng (learning to rank: LTR)[45].
Học xếp hạng đang được nhiều nhà khoa học trên thế giớ i quan tâm
nghiên cứu và ứng dụng, như cải tiến hàm tính hạng trong máy tìm kiếm
của nhóm Yuehua Xu tại ICML năm 2007 [55 ], mô hình tính hạng thực
thể trong máy tìm kiếm thực thể của nhóm các tác giả Tao Cheng, Kevin
Chang trong [15, 16, 17], và sử dụng học xếp hạng để đánh giá trọng số của
các cụm từ [61, 49].
Luận văn Học xế p hạng trong tính hạng đối tượng và tạo nhãn cụm tài
liệu thực hiện khảo sát, phân tích các phương pháp học xếp hạng đang
được quan tâm hiện nay và từ đó đưa ra mô hình xếp hạng thực thể áp
dụng vào máy tìm kiếm thực thể trong tiếng Việt, cụ thể là tìm kiếm thực
thể thuốc và học xếp hạng để tạo nhãn cho cụm tài liệu. Qua đó cho thấy
ứng dụng to lớn và ý nghĩa quan trọng của bài toán học xếp hạng.
Luận vă n này gồm bố n chương, nội dung được mô tả như dưới đây.
1
MỞ ĐẦU 2
Chương 1. Tổng quan về xếp hạng đối tượng giới thiệu những nội dung cơ
bản nhất về bài toán xếp hạng và đặt vấn đề học xếp hạng đối tượng.
Chương 2. Học xếp hạng đối tượng trình bày hai phương pháp học xếp
hạng cơ bản. Đồng thời, chương này cũng giới thiệu thuật toán học
được sử dụng nhiều trong học xếp hạng là máy véc-tơ hỗ trợ (SVM)
và hồi quy tuyến tính.
Chương 3. Học x ếp hạng trong máy tìm kiếm thực thể đưa ra mô hình
học xếp hạng đối tượng và thực nghiệm tính hạng thực thể thuốc
trong máy tìm kiếm thực thể.

Chương 4. Gán nhãn cụm tài liệu phân tích, áp dụng và báo cáo kết quả
thực nghiệm học xếp hạng từ/cụm từ để tạo nhãn cho các cụm tà i
liệu.
Phần kết luận tổng kết và tóm lược nội dung chính của luận văn.
C h ư ơ n g 1
Xếp hạng đối tượng
1.1 Giới thiệu
Trong nhiều ứng dụng cần xếp hạng các đối tượng theo tiêu chí nào đó,
đơn giản như việc xếp hạng học sinh trong một lớp theo điểm trung bình,
hay xếp hạng các trường đại học, và đặc biệt là việc xếp hạng các kết quả
trả về của máy tìm kiếm. Xếp hạng đối tượng là việc sắp xếp các đối tượng
theo độ phù hợp với tiêu chí tùy vào từng ứng dụng cụ thể. Do đó cần xác
định hàm tính giá trị về độ phù hợp để sắp xếp của các đối tượng theo tiêu
chí đã đặt ra, và hàm đó được gọi là hàm tính hạng (ranking function: RF).
Mỗi khi nói tới xếp hạng đối tượng chúng ta quan tâm tới hàm tính hạng.
Một điển hình của bài toán xếp hạng là việc xếp hạng các kết quả trả về
của máy tìm kiếm. Trong máy tìm kiếm thông thường (như G oogle, Yahoo)
độ quan trọng hay còn gọi hạng trang là đại lượng cơ sở để xếp hạng. Giá
trị này được xác định dựa vào việc phân tích đồ thị liên kết giữa các trang
2
CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 3
web. Với tập các tài liệu D = d
1
, d
n
, khi có truy vấn q của người dùng
máy tìm kiếm cần tìm những tài liệu trong D phù hợp với truy vấn q, và
sau đó sắp xếp các tài liệu theo độ phù hợp với truy vấ n và độ quan trọng
giảm dần. Đó là quá trình xếp hạng và hàm tính hạng là hàm kết hợp của
giá trị độ tương tự giữa tài liệu với truy vấn similarity(q, d

i
) và hạng trang
thành chỉ số xếp hạng được Arvind Arasu và các tác giả đề cập tới trong
[6]. Việc xác định hàm tính hạng đóng vai trò quan trọng và quyết định đối
với chất lượng của máy tìm kiếm.
Từ những năm 98, Cohen [18] đã đưa ra nhận định rằng có nhiều ứng
dụng cần sắp xếp các đối tượng hơn là cần phân lớp chúng. Mọi ứng dụng
mà kết quả trả về cho người dùng là một danh sách các đối tượng cần được
sắp xếp, xếp hạng giúp người dùng nhanh chóng tiếp cận với kết quả gần
với yêu cầu của mình nhất có thể. Thực tế chúng ta gặp rất nhiều các bảng
xếp hạng như ví dụ ở trên. Điều đó cho thấy, xếp hạng là một bài toán
quan trọng và có ý nghĩa.
Tuy nhiên khái niệm xếp hạng (ranking) ra đời ban đầu với định hướng
xếp hạng các đối tượng trên Web- cụ thể là các trang web. Các trang web
cần được sắp xếp theo độ quan trọng giảm dần. Giá trị độ quan trọng đó
gọi là hạng trang và PageRank [39] là phương pháp tính hạng đầu tiên, tính
hạng trang các trang web dựa vào phân tích mối liên kết giữa các trang
web trong đồ thị web.
1.2 Phương pháp PageRank
Page và các đồng tác giả [39] đã đưa ra ý tưởng: độ quang trọng của một
trang chịu ảnh hưởng của độ quan trọng từ các trang liên kết đến nó. Và
công thức tính PageRank cho một trang u, gọi là π
u
được tính như sau:
π
u
=

i∈B
I

(i)
π
i
N
i
(1.1)
CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 4
Với B
I
(i) là tập hợp các trang có liên kết đến trang i
và N
i
là số trang liên kết ra từ trang i.
Biểu diễn đồ thị Web bởi ma trận chuyển P, khi đó phương trình 1.1
được viết lại dưới dạng ma trận:
π = πP (1.2)
Trong đó: π = (π
1
, π
2
, . . . π
n
) là véc-tơ hạng các tra ng web, với thành
phần π
i
là hạng của trang i.
Từ 1.2 cho thấy véc-tơ hạng trang π chính là véc-tơ riêng của ma trậ n
chuyển P tương ứng với giá trị riêng λ = 1 .
Do tính chất của chuỗi Markov, để tính véc-tơ riêng của P thuật toán
giả thiết rằng đồ thị trang web là liên thông, tức với cặp hai trang web i,

j bất kì luôn có đường đi từ i tới j và ngược lại. Tuy nhiên thực tế trên
World Wide Web ( WWW) vẫn tồn tại không ít các trang web không có liên
kết đến hoặ c liên kết ra nên việc giả thiết đồ thị Web liên t hông là không
hợp lý. Và tro ng ma trận P vẫn tồn tại hàng chỉ toàn số 0, nên không tồn
tại một phân phối xác suất dừng ổn định của P hay chính là véc-tơ hạng
trang. Vì vậy cần phải biến đổi ma trận P thành P

sao cho phù hợp.
Định nghĩa véc-tơ v, được chuẩn hóa  v = 1, xác định xác suất
phân phối với v
i
là xác suất trang web i được gọi đến ở lần duyệt web
đầu tiên. véc-tơ v có vai trò trong việc hướng kết quả PageRank theo chủ
đề, lĩnh vực mong muốn. Khi không xét đến ngữ cảnh đó có thể chọn
v
i
=
1
n
với ∀i = 1, 2 n .
Gọi d là véc-tơ n × 1 xác định các trang không có liên kết ra (dangling
nút):
d
i
=

1 nếu N(i) = 0
0 ngược lại
Ma trận P


được xác định:
P

= P + dv (1.3)
CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 5
Khi thay đổi ma trận P như vậy tức thêm các liên kết ảo từ các dangling
nút tới tất cả các nút khác trong đồ thị Web theo phân phối xác suất v.
Điều đó giúp tránh việc khi duyệt các trang không có liên kết ra sẽ không
duyệt tiếp được.
Để đảm bảo phân phối dừng ổn định (duy nhất), chuỗi Markov tương
ứng với quá trình duyệt Web của người dùng cần có tính chất ergodic, tức
từ một trang web người dùng có thể chuyển tới một trang bất kì khác. Do
vậy ma trận Markov

P được xác định như sau:

P = αP

+
(1 − α )
J
(1.4)
Với: J = [1]
n×1
v
α: là hệ số hãm
Qua thực nghiệm, α thường được chọn giá trị 0.85. Với ý nghĩa, tại mỗi
bước duyệt Web người dùng có thể chuyển tới một trang trong các liên kết
ra từ trang hiện tại với xác suất α và chuyển tới các trang khác trong đồ
thị Web với xác suất (1 − α) theo phân phối v.

Khi đó, thay vì tính vector riêng của ma trận P ta tính vector riêng π
của ma trận

P :
π = π

P (1.5)
Theo tính chất của chuỗi Markov, tổng các thành phần của véc-tơ π bằng
1:

n
i=1
π
i
= 1
Vậy ta có véc-tơ hạng trang chính là véc-tơ riêng của ma trận

P .
1.3 Xếp hạng đối tượng
Hạng trang PageRank là độ đo đầu tiên để xếp hạng các trang web. Và vì
vậy, có thể coi hạng trang là hàm xếp hạng các đối tượng - cụ thể đối tượng
trong trường hợp này là các trang web. Và ngày càng có nhiều các nghiên
cứu về xếp hạng trên các đối tượng khác không chỉ là các trang web như
CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 6
xếp hạng các trường đại học [4, 3, 51], xếp hạng các nhà khoa học, bài báo
[44]
Với những xếp hạng đơ n giản như xếp hạng học sinh theo điểm trung
bình, xếp hạng các doanh nghiệp theo doanh thu năm có một tiêu chí xếp
hạng rõ ràng và hàm tính hạng "dễ dàng" xác định. Tuy nhiên trong nhiều
ứng dụng như xếp hạng các trường đại học, xếp hạng các nhà khoa học,

xếp hạng các kết quả trả về của máy tìm kiếm, mỗi loại đối tượng cần xếp
hạng có nhiều đặc trưng khác nhau, cần tìm ra mối quan hệ về độ quan
trọng của các đặc trưng đó. Và từ đó kết hợp các đặc trưng thành một hàm
gọi là tính hạng để xếp hạng các đối tượng.
Ví dụ, vấn đề xếp hạng các trường đại học đang nhận được nhiều sự
quan tâm. Webometric [51, 4] là một phương pháp xếp hạng trường đại học
dựa vào các thông tin trên web với có 4 chỉ số đặc trưng được xác định. Hàm
xếp hạng các trường là một hàm tuyến tính của 4 chỉ số đó và Webometric
cũng đưa ra hệ số cụ thể cho từng chỉ số. Việc xếp hạng các trường đại với
độ đo Webo metric vẫn đang được các nhà khoa học quan tâm nghiên cứu
[51, 4] với các nghiên cứu về các chỉ số và xác định hàm xếp hạng.
Học xếp hạng được Joachims [32, 45] đánh giá là lĩnh vực nổi lên với sự
phát triển lớn mạnh trong các nghiên cứu về truy tìm thông tin (information
retrieval )và học máy (machine learning). Nói một cách khác, học hàm tính
hạng hiện đang là vấn đề được quan tâm trong lĩnh vực học máy và có
nhiều ứng dụng trong truy tìm thông tin, theo [57]. Học xếp hạng là học
hàm của các đặc trưng để sắp xếp các đối tượng theo độ phù hợp, ưu tiên
hay độ quan trọng tùy vào từng ứng dụng cụ thể. Hiện nay nghiên cứu
các phương pháp học tính hạng đang được nhiều nhà khoa học trên thế
giới quan tâm [8, 10, 14, 23, 33, 40, 42, 41, 46], có nhiều phương pháp học
xếp hạng được đưa ra như RankSVM [], SVM-MAP [] Chương sau sẽ g iới
thiệu cụ thể các phương pháp học xếp hạng hiện nay.
CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 7
1.4 Phương pháp đánh giá xếp hạng
Để đánh giá chất lượng một xếp hạng, các độ đo thông dụng trong học máy
như độ chính xác ( precision), độ hồi tưởng (recall), độ đo F không sử dụng.
Xếp hạng yêu cầu các đối tượng "đúng" (phù hợp tiêu chí) cần được xếp ở
các vị trí đầu tiên của bảng xếp hạng càng tốt.
Giả sử 6 đối tượng tương ứng là: a, b, c, d, e
Trong đó a, b, c là các đối tượng phù hợp và d, e là các đối tượng không

phù hợp.
Một xếp hạng của các đối tượng cần đánh giá là: c, a, d, b, e.
Các độ đo về độ chính xác của xếp hạng thường được sử dụng:
Độ chính xác mức K: P@K
Độ chính xác xếp hạng ở mức K - P recision@K (P @K): độ chính xác của
K đối tượng đầu bảng xếp hạng. Xác định số đối tượng đúng ở K vị trí đầu
tiên của xếp hạng và gọi là Match@K, và độ chính xác mức K:
P @K =
Match@K
K
Với ví dụ trên ta có: P @3 = 2/3 ; P @4 = 3 /4; P@5 = 3/5;
Độ chính xác trung bình: MAP
Độ chính xác trung bình là giá trị trung bình của các P@K tại các mức K
có đối tượng đúng. Gọi I(K) là hàm xác định đối tượng ở vị trí hạng K nếu
đúng I(K) =1 và ngược lại I(K) = 0. Độ chính xác trung bình:
AP =

n
K=1
P @K × I(K)

n
j=1
I(j)
Với n là số đối tượng được xét.
CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 8
Giá trị trung bình trên m xếp hạng (với bài toán tìm kiếm thì đó là giá
trị trung bình của AP trên các truy vấn):
MAP =


m
i=1
AP
i
m
Ví dụ trên có:
MAP =
1
3
.(
1
1
+
2
2
+
3
4
)
Trung bình nghịch đảo thứ hạng: MRR
Xác định vị trí hạng của đối tượng đúng đầu tiên trong bảng xếp hạng: r,
khi đó nghịch đảo hạng: RR = 1/r. Với ví dụ trên, ta có RR = 1/1.
Trung bình nghịch đảo thứ hạng là giá trị trung bình nghịch đảo thứ
hạng RR của tất cả các truy vấn/hay xếp hạng đang xét.
MRR =

m
i=1
RR
i

m
Một số độ đo khác
Các độ đo ít được sử dụng hơn như: Số đối tượng đúng ở mức K được gọi
Match@K.
Trung bình tổng nghịch đảo thứ hạng của các đối tượng đúng (MTRR):
Với giá trị tổng nghịch đảo được xác định:
T RR =

i=1
n(
1
i
× I(i))
Trong ví dụ ta có T RR = 1/1 + 1/ 2
1.5 Tổng kết
Xếp hạng là một bài toán phổ biến, có ý nghĩa quan trọng và có nhiều ứng
dụng tro ng thực tế. Vấn đề học xếp hạng là vấn đề thời sự đang nhận được
CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 9
nhiều sự quan tâm của các nhà khoa học. Hướng tiếp cận bài toán học xếp
hạng đã được giới thiệu trong chương này. Các chương sau tiếp tục làm rõ
hơn về bài toán học xếp hạng và ứng dụng vào xếp hạng thực thể trong
máy tìm kiếm thực thể, và bài toán gán nhãn cụm tài liệu.
C h ư ơ n g 2
Học xếp hạng
2.1 Giới thiệu
Các nghiên cứu về học xếp hạng chủ yếu tập trung vào ứng dụng xếp hạng
các tài liệu trả về từ máy tìm kiếm dựa theo truy vấn. Có tập các tài liệu
D = {d
1
, d

2
, , d
n
} và với truy vấn q, cần xác định hàm xếp hạng r để sắp
xếp các tài liệu D theo độ phù hợp với truy vấn.
Tổng quát bài toán xếp hạng đối tượng nói chung, ta có: tập các đối
tượng X ⊂ R
n
của các đối tượ ng x = (x
1
, , x
n
) ∈ R
n
, với n là số đặc trưng
của đối tượng. Cần tìm hàm f(x) : X → R để sắp xếp các đối tượng x theo
độ phù hợp.
Tùy từng ứng dụng, người dùng có cách xác định độ phù hợp khác nhau
như:
• Cần xác định đối tượng có phù hợp tiêu chí đặt ra hay không
10
CHƯƠNG 2. HỌC XẾP HẠNG 11
• Đánh giá độ phù hợp của mối đối tượng với một số mức độ nhất định
như rất tốt, tốt, trung bình, kém.
• Đưa ra các so sánh độ phù hợp của từng cặp đối tượng.
Do đó ta có các phương pháp học hàm f(x) tương ứng với các kiểu ràng
buộc về xếp hạng khác nhau tùy theo cách đánh giá độ phù hợp như trên.
Các phương pháp học xếp hạng theo Chakrabarti [12] :
Hồi quy (Regression): mỗi đối tượng x xác định giá trị y tương ứng về
độ phù hợp. Cần học hàm f(x) thỏa mãn f(x) = y.

Và khi giá trị y xác định thứ tự của đối tượng x thì phương pháp gọi
là hồi quy có thứ tự.
Cặp ưu tiên (Pairwise): một cặp đối tượng được sắp thứ tự (x
i
, x
j
) có
nghĩa x
i
≺ x
j
tức x
j
được ưu tiên hơn x
i
(thứ hạng thấp hơn)
Danh sách sắp xếp (Listwise): một thứ tự sắp xếp của tất cả các đối
tượng được xác định [58]. Tuy nhiên trong nhiều ứng dụng (ví dụ máy
tìm kiếm), việc sắp xếp thứ tự tấ t cả các đối tượng là không khả thi,
thì một thứ tự xếp hạng của K đối tượng đầu tiên được xác định, và
tất cả các đối tượng khác đều có hạng cao hơn (phương pháp ListNet
[10].
Một cách chi tiết hơn, Liu [36] chia các phương pháp học xếp hạng thành:
Poinwise: tìm f(x) thỏa mãn với ∀x ∈ X có f(x) = y (tương ứng phương
pháp hồi quy)
Pairwise: f(x) thỏa mãn với ∀(x
i
, x
j
): nếu x

i
≺ x
j
thì f(x
i
) < f (x
j
)
Listwise: có bộ thứ tự (x
1
, x
k
) tìm f(x) thỏa mãn với ∀(x
i
, x
j
): nếu i > j
thì f(x
i
) > f (x
j
)
CHƯƠNG 2. HỌC XẾP HẠNG 12
2.2 Phương pháp học xếp hạng
2.2.1 Hồi quy có thứ tự vàPairwise
Trong phương pháp hồi quy có t hứ tự (ordinal regression, tập dữ dữ liệu
học là các bộ S = {(x
i
, y
i

)}
l
i=1
với y
i
∈ 1, 2, R là một tập sắp thứ tự, cần
học hàm h(x) thỏa mãn:
Với mọi cặp (x
i
, y
i
) và (x
j
, y
j
) thuộc S thì
y
i
> y
j
⇔ h(x
i
) > h(x
j
)
Gọi P là tậ p hợp tấ t cả các cặp (i, j) mà nhãn của x
i
lớn hơn của x
j
:

P = {(i, j) : y
i
> y
j
} và |P | = m. Herbrich [27] đã dựa vào phương pháp
SVM của Joachims [30] đưa ra tố i ưu trong hồi quy thứ tự gọi là ordinal
regression SVM (OR-SVM):
min
w,ξ
i,j
≥0

1
2
w
T
w +
C
m

(i,j)∈P
ξ
ij

Với ∀(i, j) ∈ P : (w
T
x
i
) ≥ (w
T

x
j
) + 1 − ξ
ij
Thuật toán SVM với tối ưu này tìm hàm h(x) tuyến tính tức tìm siêu
phẳng tốt nhất mà làm cực tiểu số cặp dữ liệu học phải hoán đổi vị trí
trong sắp xếp được ra. Mô tả ý tưởng như hình 2.2.1.
Viết lại ràng buộc của công thức tối ưu trên ta có
∀(i, j) ∈ P : w
T
(x
i
− x
j
) ≥ 1 − ξ
ij
Công thức tương tự với công thức của ràng buộc trong tối ưu phân lớp
SVM [30]. Do vậy mọi biến đổi tối ưu trên phân lớp SVM đều có thể được
thực hiện đối với hồi quy thứ tự được Joachims [31].
Joachims đã biến đổi bài toán hồi quy có thứ tự về bài toá n học phân
lớp nhị phân, sử dụng phân lớp SVM để học được mô hình tham số w cho
hồi quy tuyến tính.
CHƯƠNG 2. HỌC XẾP HẠNG 13
Hình 2.1: Xếp hạng với SVM [31]
Các tác giả như Michael Collins [19] cũng quan tâm học hồi quy và tìm
cách chuyển bài toán học hồi quy thứ tự về bài toán phân lớp.
2.2.2 Học xếp hạng danh sách Listwise
Với các ứng dụng xếp hạng, như xếp hạng các trang web trả về cho người
dùng trong máy tìm kiếm, người dùng nhận đượ c danh sách các kết quả
được sắp xếp theo thứ tự độ phù hợp giảm dần thay vì so sánh thứ hạng của

mỗi cặp kết quả. Và do chỉ xét từng cặp đối tượng để so sánh nên phương
pháp Pairwise không tối ưu các độ đo đánh giá chất lượng xếp hạng ví dụ
như MAP.
Do vậy thay vì chuyển bài toán xếp hạng về bài toán hồi quy và phần lớp,
học xếp hạng từ danh sách sắp thứ hạng đã được các tác giả [58, 10, 9, 46]
quan tâm.
Phương pháp học xếp hạng trực tiếp từ danh sách xếp hạng do Yisong
Yue và các tác giả đưa ra [58], sử dụng SVM để tìm tối ưu và ràng buộc về
độ đo đánh giá MAP trên danh sách xếp hạng.
Phân lớp SVM học một siêu phẳng w, với dấu của w
T
w là nhãn dự
CHƯƠNG 2. HỌC XẾP HẠNG 14
đoán. Hàm học tìm w để cực tiểu:
min
w,ξ
i,j
≥0
1
2
w
T
w +
C
m
N

i=1
ξ
ij

Với ∀i : y
i
.(w
T
x
i
) ≥ 1 − ξ
i

i
ξ
i
là tổng hệ số nới lỏng.
Thêm các ràng buộc về đánh giá độ chính xác trung bình, với mỗi một
nhãn y

sai đối với tài liệu x có:
∀y

= y :
T
Ψ(y, x) ≥ w
T
Ψ(y

, x) + ∆(y, y

) − ξ
Trong đó: Ψ(y


, x) =

(
i : rel)

j:!rel
y

ij
.(x
i
− x
j
)
và ∆(y, y

) = 1 − AP (y

)
Kết quả sau khi học w có dự đoán sắp xếp bởi w
T
x
i
.
Khi số lượng đối tượng được xếp hạng tăng thì số ràng buộc cũng tăng
nhanh, do vậy cần tìm ràng buộ c mà bị vi phạm nhiều nhất trong tập các
ràng buộc và học mô hình thỏa mãn ràng buộc đó.
Có nhiều các nhà nghiên cứu tập trung phương pháp học Listwise, như
các phương pháp AdaRank [54], SoftRank [46], ListNet [10], Tuy nhiên
qua phân tích các kết quả trên Lector


cho thấy phương pháp SVM-MAP
có chất lượng tốt nhất.
2.3 Tổng kết chương
Chương này đã giới thiệu chung về các phương pháp học xếp hạng hiện
nay và hai phương pháp học xếp hạng SVM-MAP, RankSVM được đề cập.
Đó là hai phương pháp được áp dụng vào hai ứng dụng học xếp hạng được
trình bày ở chương sau.

/>C h ư ơ n g 3
Xếp hạng trong máy tìm kiếm
thực thể
Các máy tìm kiếm thông dụng hiện nay như Go ogle, Yahoo, MSN, truy
vấn người dùng đưa vào là tập các từ khóa và kết quả trả về là danh sách
các địa chỉ tới các trang web. Do vậy để nhận được thông tin mong muốn,
người dùng phải duyệt qua từng địa chỉ web đó, và có thể phải duyệt qua
nhiều trang không có thông tin mong muốn.
Với sự phát triển của các kỹ thuật rút trích thông tin (Information
Extraction- IE) cụ thể là rút trích các thực thể, hướng phát triển máy tìm
kiếm t hực thể đã được Kevin Chang và các cộng sự [15, 1 6, 17] nghiên cứu,
xây dựng. Truy vấn của người dùng trên máy tìm kiếm thực thể không đơn
thuần là các từ khóa mà người dùng xác định rõ hơn về loại đối tượng dữ
liệu đang muốn tìm và ngữ cảnh tìm kiếm. Kết quả trả về cho người dùng
thay vì chỉ là các địa chỉ web, người dùng còn nhận được các thông tin cụ
15
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾ M THỰC THỂ 16
thể về đối tượng mình mong muốn tìm kiếm. Cũng như với máy tìm kiếm
thông thường xếp hạng là vấn đề quan trọng, xếp hạng thực thể là cốt lõi
và quan trọng của máy tìm kiếm thực thể.
Không chỉ các tác giả T.Cheng, X.Yan, K.Chang [15, 16, 17] mà xếp

hạng thực thể thu hút được sự quan tâm của nhiều nhà khoa học với các
nghiên cứu xếp hạng thực thể trên các trang web của wikipedia

[47, 20,
63, 21, 50, 60]. Đặc điểm dữ liệu wiki là các trang web đều được xác định
chủ đề/thể loại (category) và trong mỗi trang có các khái niệm (concept)
được đánh dấu (tag) hay tạo liên kết tới các trang mô tả khái niệm đó.
Do vậy, với cấu trúc web giàu ngữ nghĩa đó, việc xếp hạng các thực thể
trên wikipedia thường dựa trên các liên kết giữa các thực thể (hay các khái
niệm), liên kết giữa các trang web, độ tương đồng ngữ nghĩa giữa các khái
niệm như được đề cập trong [20]. Song song với các nghiên cứu đó là các
nghiên cứu xếp hạng thực thể dựa trên việc xây dựng đồ t hị quan hệ giữa
các thực thể, mạng xã hội các thực thể trên web [43, 13, 11, 2, 7].
Qua phân tích các nghiên cứu [47, 20, 21, 50, 43, 11, 13, 15, 16, 17], với
định hướng xây dựng hệ tìm kiếm thực thể trên web nói chung, việc xếp
hạng trong tìm kiếm thực thể của nhóm T.Cheng, X.Yan và K.Cheng được
quan tâm và phân tích.
3.1 Máy tìm kiếm thực thể
Người dùng thường tìm kiếm thông tin về đối tượng nào đó, ví dụ như khi
sử dụng truy vấn "thuốc chống viêm", người dùng muốn tìm các thực thể
thuốc mà có tác dụng chống viêm. Và các máy tìm kiếm hiện nay (như
Google, Yahoo, MSN) bằng cách so sánh văn bản (text) trên từng trang
web với truy vấn và trả về cho người dùng địa chỉ các trang mà có chứa từ
khóa trong truy vấn. Do vậy người dùng không trực tiếp nhận được thông
tin mong muốn mà phải duyệt qua nội dung các trang web trả về đó và


CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾ M THỰC THỂ 17
không chắc chắn có được thông tin mong muốn ở những kết quả đầu tiên.
Đó là nhược điểm của các máy tìm kiếm này, không hiểu mục đích tìm

kiếm của người dùng, và tìm kiếm trên các trang web độc lập chỉ dựa vào
từ khóa.
Theo [15] máy tìm kiếm thực thể hướng ngườ i dùng tốt hơn, cho phép
chỉ ra trong truy vấn đối tượng mà người dùng muốn tìm. Và kết quả trả về
của máy tìm kiếm là các t hực thể của đối tượng cần tìm, mỗi thực thể được
xác định không chỉ xét tr ên một trang độc lập mà có thể được tổng hợp
qua nhiều trang web. Ví dụ máy tìm kiếm t hực thể của dự án WISDM

của nhóm T.Cheng, X.Yan và K.Chang. Với truy vấ n thông thường q =
"phone number of New York Department of Motor Vehices" tức người dùng
đang cần tìm điện thoạ i của văn phòng của "Motor Vehices" ở "New Yo rk".
Khi đó truy vấn của người dùng tương ứng trong máy tìm kiếm thực thể
WISDM là q = "New York DMV #phone", chỉ rõ đối tượng muốn tìm
"phone" và ngữ cảnh xuất hiện của đối tượng "New York DMV". Kết quả
trả về của máy tìm kiếm là các số điện thoại, và với mỗi số điện thoại có
danh sách các địa chỉ web tương ứng chứa thông tin điện thoạ i đó như bảng
3.1.
Bảng 3.1: Ví dụ kết quả trả về của truy vấn q
phone urls
1-800-22 5-5368 http://www.d mv-department-of-motor-vehicles.com,
bout-nysdot/contact,
/>
Sơ đồ hình 3.2 cho thấy sự khác biệt cơ bản giữa máy tìm kiếm thông
thường với máy tìm kiếm thực thể. Máy tìm kiếm thực thể đã xem không
gian web không chỉ là tậ p các trang web với các từ khóa như máy tìm
kiếm thông thường mà còn là tập các đối tượng hay các kiểu thực thể

http://parr ot.cs.uiuc.edu/entitysearch/large-demo.html

×