LUẬN VĂN: HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.63 MB, 71 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THU TRANG
HỌC X Ế P HẠNG TRONG TÍNH HẠN G ĐỐI TƯỢNG
VÀ TẠO NHÃN CỤM TÀI LIỆU
Ngành: Công nghệ Thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60 48 05
luận văn thạc sĩ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy
Hà Nội - 2008
Lời cam đoan
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân. Các số liệu, kết quả
trình bày trong luận văn này là trung thực và chưa từng được ai công bố trong bất
kỳ công trình luận văn nào trước đây.
Học Viên
Nguyễn Thu Trang
ii
Lời cảm ơn
Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến PGS.TS Hà Quang Thụy -
Người thầy kính yêu, người hướng dẫn, chỉ bảo em tận tình từ những bước nghiên
cứu đầu tiên và hoàn thành luận văn.
Tôi chân thành cảm ơn các thầy cô trong bộ môn Các Hệ Thống Thông Tin, và
phòng thí nghiệm SISLAB, nhóm xemina Data Mining và đặc biệt gửi lời cảm ơn
tới ThS.Nguyễn Cẩm Tú đã giúp đỡ, hỗ trợ tôi trong quá trình nghiên cứu, hoàn
thành đề tài.
Tôi cảm ơn các thầy cô và các cán bộ của trường Công nghệ đã tạo cho tôi những
điều kiện thuận lợi để học tập và nghiên cứu.
Cuối cùng, xin gửi lời cảm ơn tới gia đình, GB và bạn b è nguồn động viên tinh
thần to lớn với tôi, luôn cổ vũ và tin tưởng tôi.
Nguyễn Thu Trang

iii
Mục lục
MỞ ĐẦU 1
1 Xếp hạng đối tượng 2
1.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Phương pháp PageRank . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Xếp hạng đối tượng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Phương pháp đánh giá xếp hạng . . . . . . . . . . . . . . . . . . . . . 6
1.5 Tổng kết . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Học xếp hạng 9
2.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Phương pháp học xếp hạng . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Hồi quy có thứ tự và Pairwise . . . . . . . . . . . . . . . . . . 11
2.2.2 Học xếp hạng danh sách Listwise . . . . . . . . . . . . . . . . 13
2.3 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3 Xếp hạng trong máy tìm kiếm thực thể 16
3.1 Máy tìm kiếm thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . 17
iv
MỤC LỤC v
3.2 Xếp hạng thực thể . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.1 Mô hình Impression . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.2 Nhận xét, đánh giá mô hình Impression . . . . . . . . . . . . . 27
3.2.3 Mô hình đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 Công cụ sử dụng . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.2 Dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4 Tạo nhãn cụm tài liệu 37
4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.2 Phương pháp lựa chọn nhãn . . . . . . . . . . . . . . . . . . . . . . . 39
4.3 Học xếp hạng nhãn cụm . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.1 Các đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3.2 Học hàm tính hạng . . . . . . . . . . . . . . . . . . . . . . . . 44
4.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.4.1 Nguồn dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.4.2 Dữ liệu học . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4.3 Kết quả và đánh giá . . . . . . . . . . . . . . . . . . . . . . . 47
4.5 Tổng kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Kết luận 49
Tài liệu tham khảo 51
A Dữ liệu 59
MỤC LỤC vi
A.1 Dữ liệu tìm kiếm thuốc . . . . . . . . . . . . . . . . . . . . . . . . . . 59
A.2 Cây wiki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Danh sách hình vẽ 62
Danh sách bảng 63
Bảng ký hiệu và từ viết tắt
Từ viết tắt Mô tả Trang định nghĩa
IR Information Retrieval 6
SVM Suport Vector Machine 2
LTR Learning To Rank 1
MAP Mean Average Precision 7
OR Ordinal R egression 10
vii
MỞ ĐẦU
Xếp hạng các đối tượng (trang Web, tác giả, chủ đề, trường đại học, công ty ) có ý
nghĩa quan trọng t rong lĩnh vực khai phá dữ liệu, là trung tâm của nhiều ứng dụng
- điển hình là máy tìm kiếm. Các phương pháp tính hạng được nghiên cứu và phát
triển từ rất nhiều năm trước, nhưng khoảng 3 năm trở lại đây, hướng tiếp cận sử

dụng phương pháp học máy để xếp hạng đối tượng trở thành một vấn đề thu hút
được rất nhiều sự quan tâm như trong SIGIR 2007 và SIGIR 2008 đã tổ chức hội
thảo chuyên đề về học xếp hạng (learning to rank: LTR)[49].
Học xếp hạng đang được nhiều nhà khoa học trên thế giới quan tâ m nghiên cứu
và ứng dụng, như cải tiến hàm tính hạng trong máy tìm kiếm của nhóm Yuehua Xu
tại ICML năm 2007 [59], mô hình t ính hạng thực thể trong máy tìm kiếm thực thể
của nhóm các tác giả Tao Cheng, Kevin Chang trong [17, 18, 19], và sử dụng học
xếp hạng để đánh giá trọng số của các cụm từ [65, 53].
Luận văn Học x ếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu thực
hiện khảo sát, phân tích các phương pháp học xếp hạng đang được quan tâm hiện
nay và từ đó đưa ra mô hình xếp hạng thực thể áp dụng vào máy tìm kiếm thực thể
trong tiếng Việt, cụ thể là tìm kiếm thực thể thuốc và học xếp hạng để tạo nhãn
cho cụm tài liệu. Qua đó cho thấy ứng dụng to lớn và ý nghĩa quan trọng của bài
toán học xếp hạng.
Luận vă n này gồm bố n chương, nội dung được mô tả như dưới đây.
Chương 1. Tổng quan về xếp hạng đối tượng giới thiệu những nội dung cơ bản
nhất về bài toán xếp hạng và đặt vấn đề học xếp hạng đối tượng.
1
MỞ ĐẦU 2
Chương 2. Học xếp hạng đối tượng trình bày hai phương pháp họ c xếp hạng cơ
bản. Đồng thời, chương này cũng giới thiệu thuật toán học được sử dụng nhiều
trong học xếp hạng là máy véc-tơ hỗ trợ (SVM) và hồi quy tuyến tính.
Chương 3. Học xếp hạng trong máy tìm kiếm thực thể đưa ra mô hình học xếp
hạng đối tượng và thực nghiệm tính hạng thực thể thuốc trong máy tìm kiếm
thực thể.
Chương 4. Gán nhãn c ụm tài liệu phân tích, áp dụng và báo cáo kết quả thực
nghiệm học xếp hạng từ/cụm từ để tạo nhãn cho các cụm tài liệu.
Phần kết luận tổng kết và tóm lược nội dung chính của luận văn.
C h ư ơ n g 1
Xếp hạng đối tượng

1.1 Giới thiệu
Trong nhiều ứng dụng cần xếp hạng các đối tượng theo tiêu chí nào đó, đơn giản
như việc xếp hạng học sinh trong một lớp theo điểm trung bình, hay xếp hạng các
trường đại học, và đặc biệt là việc xếp hạng các kết quả tr ả về của máy tìm kiếm.
Xếp hạng đối tượng là việc sắp xếp các đối tượng theo độ phù hợp với tiêu chí tùy
vào từng ứng dụng cụ thể. Do đó cần xác định hàm tính giá trị về độ phù hợp để
sắp xếp của các đối tượng theo tiêu chí đã đặt ra, và hàm đó được gọi là hàm tính
hạng (ra nking function: RF). Mỗi khi nói tới xếp hạng đối tượng chúng ta quan tâm
tới hàm tính hạng.
Một điển hình của bài toán xếp hạng là việc xếp hạng các kết quả trả về của
máy tìm kiếm. Trong máy tìm kiếm thông thường (như Google, Yahoo) độ quan
trọng hay còn gọi hạng tra ng là đại lượng cơ sở để xếp hạng. Giá trị này được xác
định dựa vào việc phân tích đồ thị liên kết giữa các trang web. Với tập các tài liệu
D = d
1
, d
n
, khi có truy vấn q của người dùng máy tìm kiếm cần tìm những tài liệu
2
CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 3
trong D phù hợp với truy vấn q, và sau đó sắp xếp các tài liệu theo độ phù hợp với
truy vấn và độ quan trọng giảm dần. Đó là quá trình xếp hạng và hàm tính hạng
là hàm kết hợp của giá trị độ tương tự giữa tài liệu với truy vấn similarity(q, d
i
)
và hạng trang thành chỉ số xếp hạng được Arvind Arasu và các tác giả đề cập tới
trong [6]. Việc xác định hàm tính hạng đóng vai trò quan trọng và quyết định đối
với chất lượng của máy tìm kiếm.
Từ những năm 98, Cohen [21] đã đưa ra nhận định rằng có nhiều ứng dụng cần
sắp xế p các đối tượng hơn là cần phân lớp chúng. Mọi ứng dụng mà kết quả trả về

cho người dùng là một danh sách các đối tượng cần được sắp xếp, xếp hạng giúp
người dùng nhanh chóng tiếp cận với kết quả gần với yêu cầu của mình nhất có thể.
Thực tế chúng ta gặp rất nhiều các bảng xếp hạng như ví dụ ở trên. Điều đó cho
thấy, xếp hạng là một bài toán quan trọng và có ý nghĩa.
Tuy nhiên khái niệm xếp hạng (ranking) ra đời ban đầu với định hướng xếp
hạng các đối tượng trên Web - cụ thể là các trang web. Các trang web cần được sắp
xếp theo độ quan trọng giảm dần. Giá trị độ quan trọng đó gọi là hạng trang và
PageRank [43] là phương pháp tính hạng đầu tiên, tính hạng trang các trang web
dựa vào phân tích mối liên kết giữa các trang web trong đồ thị Web.
1.2 Phương pháp PageRank
Page và các đồng tác giả [43] đã đưa ra ý tưởng: độ quan trọng của một trang
chịu ảnh hưởng của độ quan trọng từ các trang liên kết đến nó. Và công thức tính
PageRank cho một trang u, gọi là π
u
được tính như sau:
π
u
=

i∈B
I
(i)
π
i
N
i
(1.1)
Với B
I
(i) là tập hợp các trang có liên kết đến trang i

và N
i
là số trang liên kết ra từ trang i.
Biểu diễn đồ thị Web bởi ma trận chuyển P , khi đó phương trình 1.1 được viết
lại dưới dạng ma trận:
π = πP (1.2)
CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 4
Trong đó: π = (π
1
, π
2
, . . . π
n
) là véc-tơ hạng các trang web, với thành phần π
i
là
hạng của trang i.
Từ 1.2 cho thấy véc-tơ hạng trang π chính là véc-tơ riêng của ma trận chuyển
P tương ứng với giá trị riêng λ = 1.
Do tính chất của chuỗi Markov, để tính véc-tơ riêng của P thuật toán giả thiết
rằng đồ thị trang web là liên thông, tức với cặp hai trang web i, j bất kì luôn có
đường đi từ i tới j và ngược lại. Tuy nhiên thực tế trên World Wide Web (WWW)
vẫn tồn tạ i không ít các trang web không có liên kết đến hoặc liên kết ra nên việc
giả thiết đồ thị Web liên thông là không hợp lý. Và trong ma trận P vẫn tồn tại
hàng chỉ toàn số 0, nên không tồn tại một phân phối xác suất dừng ổn định của P
hay chính là véc-tơ hạng trang. Vì vậy cần phải biến đổi ma trận P thành P

sao
cho phù hợp.
Định nghĩa véc-tơ v, được chuẩn hóa  v = 1, xác định xác suất phân phối với

v
i
là xác suất trang web i được gọi đến ở lần duyệt web đầu tiên. véc-tơ v có vai trò
trong việc hướng kết quả PageRank theo chủ đề, lĩnh vực mong muốn. Khi không
xét đến ngữ cảnh đó có thể chọn v
i
=
1
n
với ∀i = 1 , 2 n .
Gọi d là véc-tơ n × 1 xác định các tra ng không có liên kết ra (dangling nút trên
đồ thị Web):
d
i
=

1 nếu N(i) = 0
0 ngược lại
Ma trận P

được xác định:
P

= P + dv (1.3)
Khi thay đổi ma trận P như vậy tức thêm các liên kết ảo từ các dangling nút tới
tất cả các nút khác trong đồ thị Web theo phân phối xác suất v. Điều đó giúp tránh
việc khi duyệt các trang không có liên kết ra sẽ không duyệt tiếp được.
Để đảm bảo phân phối dừng ổn định (duy nhất), chuỗi Markov tương ứng với
quá trình duyệt Web của người dùng cần có tính chất ergodic, tức từ một trang
web người dùng có thể chuyển tới một trang bất kì khác. Do vậy ma trận Markov


P được xác định như sau:

P = αP

+
(1 − α)
J
(1.4)
CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 5
Với: J = [1]
n×1
v và α: là hệ số hãm
α thường được chọn giá trị 0.85, với ý nghĩa tại mỗi bước duyệt Web người dùng
có thể chuyển tới một tra ng trong các liên kết ra từ trang hiện tại với xác suất α và
chuyển tới các trang khác trong đồ thị Web với xác suất (1 − α) theo phân phối v.
Khi đó, thay vì tính vector riêng của ma trận P ta tính vector riêng π của ma
trận

P : π = π

P .
Theo tính chất của chuỗi Markov, tổng các thành phần của véc-tơ π bằng 1:

n
i=1
π
i
= 1
Vậy véc-tơ hạng trang chính là véc-tơ riêng của ma trận


P .
1.3 Xếp hạng đối tượng
Hạng trang PageRank là độ đo đầu tiên để xếp hạng các trang web. Và vì vậy, có
thể coi hạng tr a ng là hàm xếp hạng các đối tượng - cụ thể đối tượng trong trường
hợp này là các tra ng web. Và ngày càng có nhiều các nghiên cứu về xếp hạng không
chỉ là các trang web như xếp hạng các trường đại học [4, 3, 55], xếp hạng các nhà
khoa học, bài báo [48]
Với những xếp hạng đơn giản như xếp hạng học sinh theo điểm trung bình, xếp
hạng các doanh nghiệp theo doanh thu năm có một tiêu chí xếp hạng rõ ràng và
hàm tính hạng "dễ dàng" xác định. Tuy nhiên trong nhiều ứng dụng như xếp hạng
các trường đại học, xếp hạng các nhà khoa học, xếp hạng các kết quả trả về của
máy tìm kiếm, mỗi loại đối tượng cần xếp hạng có nhiều đặc trưng khác nhau,
cần tìm ra mối quan hệ về độ quan trọng của các đặc trưng đó. Và từ đó kết hợp
các đặc trưng thành một hàm gọi l hàm tính hạng để xếp hạng các đối tượng. Đối
tượng có giá trị hạng càng cao thì có thứ hạng càng cao (thứ hạng cao nhất là 1,
và lần lượt giảm dần 2, 3 )
Ví dụ, vấn đề xếp hạng các trường đại học đang nhận được nhiều sự quan tâm.
Webometric [55, 4] là một phương pháp xếp hạng trườ ng đại học dựa vào các thông
tin tr ên web với có 4 chỉ số đặc trưng được xác định. Hàm xếp hạng các trường là
CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 6
một hàm tuyến tính của 4 chỉ số đó và Webometric cũng đưa ra hệ số cụ thể cho
từng chỉ số. Việc xếp hạng các trường đại với độ đo Webometric vẫn đang được các
nhà khoa học quan tâm nghiên cứu [55, 4] với các nghiên cứu về các chỉ số và xác
định hàm xếp hạng.
Học xếp hạng được Joachims [36, 49] đánh giá là lĩnh vực nổi lên với sự phát
triển lớn mạnh trong các nghiên cứu về truy tìm thông tin (infor mation retrieval)và
học máy (machine learning). Nói một cách khác, học hàm tính hạng hiện đang là
vấn đề được quan tâm trong lĩnh vực học máy và có nhiều ứng dụng trong truy tìm
thông tin, theo [61]. Học xếp hạng là học hàm của các đặc trưng để sắp xếp các đối

tượng theo độ phù hợp, ưu tiên hay độ quan trọng tùy vào từng ứng dụng cụ thể.
Hiện nay nghiên cứu các phương pháp học tính hạng đang được nhiều nhà khoa học
trên thế giới quan tâm [8, 12, 16, 26, 37, 44, 46, 45, 50], có nhiều phương pháp học
xếp hạng được đưa ra như RankSVM [34], SVM-MAP [62]
Chương sau sẽ giới thiệu cụ thể các phương pháp học xếp hạng hiện nay.
1.4 Phương pháp đánh giá xếp hạng
Để đánh giá chất lượng một xếp hạng, các độ đo thông dụng trong học máy như độ
chính xác (precision), độ hồi tưởng (recall), độ đo F không sử dụng. Xếp hạng yêu
cầu các đối tượng "đúng" ( phù hợp tiêu chí) cần được xếp ở các vị trí đầu tiên của
bảng xếp hạng càng tốt.
Giả sử 6 đối tượng tương ứng là : a, b, c, d, e
Trong đó a, b, c là các đối tượng phù hợp và d, e là các đối tượng không phù
hợp.
Một xếp hạng của các đối tượng cần đánh giá là: c, a, d, b, e.
Các độ đo về độ chính xác của xếp hạng thường được sử dụng:
CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 7
Độ chính xác mức K: P@K
Độ chính xác xếp hạng ở mức K - P recision@K (P @K): độ chính xác của K đối
tượng đầu bảng xếp hạng. Xác định số đối tượng đúng ở K vị trí đầu tiên của xếp
hạng và gọi là Match@K, và độ chính xác mức K:
P @K =
Match@K
K
Với ví dụ trên ta có: P @3 = 2/3 ; P @4 = 3/4; P @5 = 3/5;
Độ chính xác trung bình: MAP
Độ chính xác trung bình là giá trị trung bình của các P @K tại các mức K có đối
tượng đúng. Gọi I(K) là hàm xác định đối tượng ở vị trí hạng K nếu đúng I(K) =1
và ngược lại I(K) = 0. Độ chính xác trung bình:
AP =


n
K=1
P @K × I(K)

n
j=1
I(j)
Với n là số đối tượng được xét.
Giá trị trung bình trên m xếp hạng (với bài toán tìm kiếm t hì đó là giá trị trung
bình của AP trên các truy vấn):
MAP =

m
i=1
AP
i
m
Ví dụ trên có:
MAP =
1
3
.(
1
1
+
2
2
+
3
4

)
Trung bình nghịch đảo thứ hạng: MRR
Xác định vị trí hạng của đối tượng đúng đầu tiên trong bảng xếp hạng: r, khi đó
nghịch đảo hạng: RR = 1 /r. Với ví dụ trên, ta có RR = 1/1.
Trung bình nghịch đảo thứ hạng là g iá trị trung bình nghịch đảo thứ hạng RR
của tất cả các truy vấn/hay xếp hạng đang xét.
MRR =

m
i=1
RR
i
m
CHƯƠNG 1. XẾP HẠNG ĐỐI TƯỢNG 8
Một số độ đo khác
Các độ đo ít được sử dụng hơn như:
• Số đối tượng đúng ở mức K: Match@K.
• Trung bình tổng nghịch đảo thứ hạng của các đối tượng đúng (MTRR): Với
giá trị tổng nghịch đảo được xác định:
T RR =
n

i=1
(
1
i
× I(i))
Trong ví dụ ta có T RR = 1/1 + 1/2
1.5 Tổng kết
Xếp hạng là một bài toán phổ biến, có ý nghĩa quan trọng và có nhiều ứng dụng

trong thực tế. Vấn đề học xếp hạng là vấn đề thời sự đang nhận được nhiều sự quan
tâm của các nhà khoa học. Hướng tiếp cận bài toán học xếp hạng đã được giới thiệu
trong chương này, các chương sau tiếp tục làm rõ hơn về bài toán học xếp hạng và
ứng dụng.
C h ư ơ n g 2
Học xếp hạng
2.1 Giới thiệu
Các nghiên cứu về học xếp hạng chủ yếu tậ p trung vào ứng dụng xếp hạng các tài
liệu trả về từ máy t ìm kiếm dựa theo truy vấn. Có tập các tài liệu D = {d
1
, d
2
, , d
n
}
và với truy vấn q, cần xác định hàm xếp hạng r để sắp xếp các tài liệu D theo độ
phù hợp với truy vấn.
Tổng quát bài toán xếp hạng đối tượng nói chung, ta có: tập X ⊂ R
n
của các
đối tượng x = (x
1
, , x
n
) ∈ R
n
, với n là số đặc trưng của mỗi đối tượng. Cần tìm
hàm h(x) : X → R để sắp xếp các đối tượng x theo độ phù hợp.
Dữ liệu học S là xếp hạng đúng của một tập các đối tượng X


⊂ X được đưa
ra để học hàm h(x). Tùy từng ứng dụng mà người dùng có các mức yêu cầu khác
nhau về sắp xếp thứ hạng đúng và có các kiểu dữ liệu học:
1. Xác định giá trị độ phù hợp y cụ thể của từng đối tượng trong S. Do trong
ứng dụng xếp hạng, người dùng quan tâm nhiều tới thứ tự thay vì giá trị xếp
9
CHƯƠNG 2. HỌC XẾP HẠNG 10
hạng (độ phù hợp) nên y thường được xác định:
• Hai giá trị tương ứng xếp hạng phù hợp (releval) và không phù hợp
(inreleva l). Người dùng chỉ quan tâm các đối tượng có phù hợp tiêu chí
đặt ra hay không (2 hạng).
• N giá trị xác định tương ứng N hạng nhất định, ví dụ: rất phù hợp, phù
hợp, có thể phù hợp, không phù hợp.
2. Đưa ra các so sánh độ phù hợp của từng cặp đối tượng.
3. Danh sách sắp thứ tự đúng của "tất cả" các đối tượng theo độ phù hợp.
Với mỗi kiểu dữ liệu trên, xác định các kiểu ràng buộc xếp hạng khác nhau và có
các phương pháp học xếp hạng tương ứng. Các phương pháp học xếp hạng theo
Soumen Chakrabarti [14] và Tie-Yan Liu [40]:
Hồi quy (Regression): Có S = {(x
i
, y
i
)} mỗi đối tượng x
i
xác định g iá trị y
i
tương ứng về độ phù hợp. Học hàm h(x) thỏa mãn:
h(x
i
) = y

i
với ∀x ∈ X

Trong học xếp hạng, khi giá tr ị y
i
xác định thứ hạng của đối tượ ng x
i
thì
phương pháp gọi là hồi quy có thứ tự (Ordinal Regression).
Cặp thứ tự (Pairwise): Có S = {(x
i
, x
j
)} là tập các cặp đối tượng được sắp thứ
tự, với mỗi cặp (x
i
, x
j
) có nghĩa x
i
có thứ hạng cao hơn x
j
(x
i
phù hợp hơn
x
j
: x
i
 x

j
). Tìm h(x):
∀(x
i
, x
j
) ∈ S có x
i
 x
j
thì h(x
i
) > h(x
j
)
Danh sách sắp xếp (Listwise): Một thứ tự sắp xếp của tất cả các đối tượng
được xác định [62]. Tuy nhiên trong nhiều ứng dụng (ví dụ máy tìm kiếm),
việc sắp thứ tự của tất cả các đối tượng là không khả thi, thì một xếp hạng
của K đối tượng đầu tiên được xác định, và tất cả các đối tượng khác đều có
hạng thấp hơn [12]
Có S = {x
1
, x
2
, , x
m
} với x
i
∈ X


là một sắp thứ tự (x
1
 x
2
  x
m
)
tìm hàm h(x) sao cho: h(x
1
) > h(x
2
) > > h(x
m
)
CHƯƠNG 2. HỌC XẾP HẠNG 11
2.2 Phương pháp học xếp hạng
2.2.1 Hồi quy có thứ tự và Pairwise
Học xếp hạng với phương pháp hồi quy có thứ tự: tập dữ dữ liệu học S = {(x
i
, y
i
)}
l
i=1
với
y
i
∈ 1, 2, R là một tập sắp thứ tự, cần học hàm h(x) thỏa mãn:
Với mọi cặp (x
i

, y
i
) và (x
j
, y
j
) thuộc S thì y
i
> y
j
⇔ h(x
i
) > h(x
j
)
Gọi P là tập hợp tất cả các cặp (i, j) mà thứ hạng của x
i
cao hơn của x
j
(x
i
 x
j
)
trong S: P = {(i, j) : y
i
> y
j
} và |P | = m. Do vậy có thể phát biểu lại bài toán: có
các cặp so sánh thứ tự S


= {(x
i
, x
j
)


x
i
 x
j
}, tìm h(x) thỏa mãn:
∀(x
i
, x
j
) ∈ S

có x
i
 x
j
thì h(x
i
) > h(x
j
)
Như vậy, từ bài toán hồi quy có thứ tự đã được chuyển về bài toán Pairwise. Ví
dụ có tập sắp thứ tự S = {(d

1
, 2), (d
2
, 1), (d
3
, 1)} khi đó có các cặp so sánh thứ tự
S

= {(d
2
, d
1
), (d
3
, d
1
)}. Với ví dụ này có d
2
và d
3
không xác định thứ tự so sánh
(cùng thứ hạng trong S).
Để giải quyết bài to án Pairwise, vấn đề xếp hạng (ranking) được đưa về bài toán
phân lớp cho từng cặp đối tượng [40, 66, 34, 9, 30, 33, 22]. Giá trị của hàm phân
lớp là giá trị xếp hạng đối tượng. Hàm tính hạng h : X → R
h(x) = w
T
x
SVM[33] (Support Vector Machine - máy véc-tơ hỗ trợ) là phương pháp học máy
học bộ phân lớp nhị phân (chia các đối tượng thành hai lớp). Tư tưởng chính của

SVM là xác định biên (siêu phẳng) chia không gian các đối tượng thành hai nửa và
tìm siêu phẳng tốt nhất (tối ưu) mà khoảng cách từ siêu phẳng tới đối tượng gần
nhất trong cả 2 tập phân chia là lớn nhất.
Với dữ liệu có thể phân tách tuyến tính, siêu phẳng có dạng w
T
x + b = 0. Dễ
dàng nhận thấy mối liên hệ giữa hàm tính hạng h(x) và siêu phẳng. Do vậy với
phương pháp SVM tìm đượ c siêu phẳng ta suy ra hàm tính hạng h(x).
CHƯƠNG 2. HỌC XẾP HẠNG 12
Để xác định siêu phẳng tối ưu, Joachims [33] đưa ra công thức tối ưu:
min
w,ξ
i
≥0

1
2
w
T
w +
C
n
n

i=1
ξ
i

Với ∀i ∈ {1, , n} : y
i

.(w
T
x
i
) ≥ 1 − ξ
ij
.
Trong đó ξ
i
là hệ số nới lỏng được mô tả như trong hình 2.2.
Herbrich [30] đã dựa và o công thức tối ưu trên của Joachims để đưa ra tối ưu
tương tự trong hồi quy có thứ tự gọi là ordinal regression SVM (OR-SVM):
min
w,ξ
i,j
≥0

1
2
w
T
w +
C
m

(i,j)∈P
ξ
ij

Với ∀(i, j) ∈ P : (w

T
x
i
) ≥ (w
T
x
j
) + 1 − ξ
ij
Thuật toán SVM với tối ưu này tìm hàm h(x) tuyến tính, siêu phẳng tốt nhất
mà làm cực tiểu số cặp đối tượng x phải hoán đổi vị trí trong sắp xếp được dùng
bởi siêu phẳng. Mô tả ý tưởng như hình 2.1.
Viết lại ràng buộc của công thức tối ưu trên ta có:
với ∀(i, j) ∈ P : w
T
(x
i
− x
j
) ≥ 1 − ξ
ij
Công thức tương tự với công thức của ràng buộc trong tố i ưu phân lớ p SVM [33].
Do vậy mọi biến đổi tối ưu trên phân lớp SVM đều có thể được thực hiện đối với
hồi quy có thứ tự như các biến đổi của Joachims [34].
Vậy hồi quy có thứ tự đã được đưa về bài toá n học phân lớp nhị phân, sử dụng
phân lớp SVM để học đượ c mô hình tham số w cho hồi quy tuyến tính, được gọi là
phương pháp RankSVM.
Wei Chu và S. Sathiya Keerthi [20] năm 2005 cũng đưa ra phương pháp học hồi
quy có thứ tự dựa vào SVM với việc xác định các ngưỡng phân chia thứ hạng: Với
r thứ hạng trong S cần tối ưu (r − 1) ngưỡng để phân các đối tượng vào từng lớp,

mô tả trong hình 2.2.
Ngoài ra, các phương pháp trong [11, 35] cũng dựa vào tối ưu của SVM tương
tự như trên.
Công cụ SV M
light
do Joachims [34] cung cấp đã cho người dùng lựa chọn học
xếp hạng đối tượng dựa và o phương pháp này.
CHƯƠNG 2. HỌC XẾP HẠNG 13
Hình 2.1: Xếp hạng với SVM [34]
b
2
b
1
y=1 y=2 y=3
b
2
-1 b
2
+1
b
1
-1 b
1
+1
ξ
i
*1+1
ξ
i
2

ξ
i
*2+1
ξ
i
1
f(x) = w
φ(
x
)
.
Hình 2.2: Xác định ngưỡng phân thứ hạng [20]
2.2.2 Học xếp hạng danh sách Listwise
Với các ứng dụng xếp hạng, như xếp hạng các trang web trả về cho người dùng
trong máy tìm kiếm, người dùng nhận được danh sách các kết quả được sắp xếp
theo thứ tự độ phù hợp giảm dần thay vì so sánh thứ hạng của mỗi cặp kết quả.
Xét ví dụ các đối tượng được xếp thành 3 thứ hạng (p: rất tốt, g: tốt và b: không
tốt), khi đó giả sử có 5 đối tượng được xếp hạng lần lượt: (p, g , g, b, b). Có hai
danh sách xếp hạng được đưa ra như sau: (g, p, g, b, b) và (p, g, b, g, b).
CHƯƠNG 2. HỌC XẾP HẠNG 14
Hai xếp hạng trên đều chỉ xếp hạng sai một cặp đối tượng, nhưng có thể thấy
việc xếp sai g,p là lỗi lớn hơn so với xếp sai b,g. Đây chính là điểm yếu của phương
pháp Pairwise. Do chỉ xét từng cặp đối tượng để so sánh nên phương pháp Pairwise
không tối ưu các độ đo đánh giá chất lượng xếp hạng ví dụ như MAP, vì vậy không
phân biệt được sự khác nhau giữa hai xếp hạng trên [40].
Do đó, thay vì chuyển bài toán xếp hạng về bài toán hồi quy và phân lớp, học
xếp hạng từ danh sách sắp thứ hạng đã được các tác giả [62, 12, 10, 50] quan tâm.
Với Listwise, dữ liệu học là tập S = {x
1
, , x

n
} các đối tượng thuộc X với thứ hạng
sắp xếp tương ứng Y = {y
1
, , y
n
}
Phương pháp học xếp hạng trực tiếp từ danh sách xếp hạng do Yisong Yue và
các đồng tá c giả [62] đưa ra sử dụng SVM để tìm tối ưu và ràng buộc về độ đo đánh
giá MAP trên danh sách xếp hạng.
Yisong Yue đã dựa và o tối ưu Multivar [35] của Joachims, công thức:
min
w,ξ
i,j
≥0
1
2
w
T
w +
C
m
N

i=1
ξ
ij
Với ràng buộc: ∀i, ∀y ∈ Y có w
T
Ψ(x

i
, y
i
) ≥ w
T
Ψ(x
i
, y) + ∆(y
i
, y) − ξ
i
Trong đó Ψ(x, y) là độ đo xác định độ khác biệt giữa các sắp xếp thứ hạng với
sắp thứ hạng đúng. Yisong Yue hướng tối ưu độ đo MAP và xác định:
Ψ(x, y) =

i:rel

j:!rel
y
ij
.(x
i
− x
j
)
và ∆(y, y

) = 1 − MAP (y

)

Với MAP (y

) là độ chính xác trung bình của xếp hạng y

.
(i : rel) có nghĩa thứ hạng i được xếp đúng và (j :!rel) là thứ hạng j xếp sai.
y
ij
= 1 nếu x
i
có thứ hạng cao hơn x
j
và ngược lại y
ij
= −1 nếu x
i
có thứ hạng
thấp hơn x
j
.
Khi số lượng đối tượng được xếp hạng tăng thì số ràng buộc cũng tăng nhanh,
do vậy Yisong Yue và các đồng tác giả đưa ra phương pháp học từng bước. Mỗi
bước, xác định ràng buộc mà bị vi phạm lớn nhất (lỗi nhất) trong tập các ràng buộc
CHƯƠNG 2. HỌC XẾP HẠNG 15
và tìm tối ưu thỏa mãn ràng buộc đó. Và quá trình tối ưu trên từng ràng buộc như
vậy được lặp đi lặp lại tới khi không tìm được ràng buộc bị vi phạm.
Đó là học xếp hạng Listwise với tối ưu MAP, ngoài ra có các phương pháp với các
tối ưu khác như các phương pháp AdaRank [58], SoftRank [50], ListNet [12], Với
kết quả do Yisong Yue đưa ra và qua phân tích các kết quả công bố trên LETOR
∗

(một dự án về học xếp hạng), phương pháp SVM-MAP có chất lượng cao (so với
các phương pháp đã công bố kết quả của cùng dữ liệu của LETOR).
2.3 Tổng kết chương
Chương này đã giới thiệu chung về các phương pháp học xếp hạng hiện nay và hai
phương pháp học xếp hạng SVM-MAP, RankSVM được đề cập. Đó là hai phương
pháp được áp dụng vào hai ứng dụng học xếp hạng được trình bày ở chương sau.
∗
/>C h ư ơ n g 3
Xếp hạng trong máy tìm kiếm
thực thể
Các máy tìm kiếm thông dụng hiện nay như Google, Yahoo, MSN, truy vấn người
dùng đưa vào là tập các từ khóa và kết quả trả về là danh sách các địa chỉ tới các
trang web. Do vậy để nhận được thông tin mong muốn, người dùng phải duyệt qua
từng địa chỉ web đó, và có thể phải duyệt qua nhiều trang không có thông tin mong
muốn.
Với sự phát triển của các kỹ thuật rút trích thông tin (Information Extraction-
IE) cụ thể là rút tr ích các thực thể, hướng phát triển máy tìm kiếm thực thể đã
được Kevin Chang và các cộng sự [17, 18, 19] nghiên cứu, xây dựng. Truy vấn của
người dùng t rên máy tìm kiếm thực thể không đơn thuần là các từ khóa mà người
dùng xác định rõ hơn về loại đối tượng dữ liệu đang muốn tìm và ngữ cảnh tìm
kiếm. Kết quả trả về cho người dùng thay vì chỉ là các địa chỉ web, người dùng còn
nhận được các thông tin cụ thể về đối tượng mình mong muốn tìm kiếm. Cũng như
với máy tìm kiếm thông thường xếp hạng là vấn đề quan trọng, xếp hạng thực thể
16
CHƯƠNG 3. XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 17
là cốt lõi và quan trọng của máy tìm kiếm thực thể.
Không chỉ các tác giả T.Cheng, X.Yan, K.Chang [17, 18, 19] mà xếp hạng thực
thể thu hút được sự quan tâm của nhiều nhà khoa học với các nghiên cứu xếp hạng
thực thể trên các trang web của wikipedia
∗

[51, 23, 68, 24, 54, 64]. Đặc điểm dữ liệu
wiki là các trang web đều được xác định chủ đề/thể loại (category) và trong mỗi
trang có các khái niệm (concept) được đánh dấu (tag) hay tạo liên kết t ới các trang
mô tả khái niệm đó. Do vậy, với cấu trúc web giàu ngữ nghĩa đó, việc xếp hạng các
thực thể trên wikipedia thường dựa tr ên các liên kết giữa các thực thể (hay các khái
niệm), liên kết giữa các trang web, độ tương đồng ngữ nghĩa g iữa các khái niệm như
được đề cập trong [23]. Song song với các nghiên cứu đó là các nghiên cứu xếp hạng
thực thể dựa trên việc xây dựng đồ thị quan hệ giữa các thực thể, mạng xã hội các
thực thể trên web [47, 15, 13, 2, 7].
Qua phân tích các nghiên cứu [51, 23, 24, 54, 47, 13, 15, 1 7, 18, 19], với định
hướng xây dựng hệ tìm kiếm thực thể trên web nói chung, việc xếp hạng trong tìm
kiếm thực thể của nhóm T.Cheng, X.Yan và K.Cheng được quan tâm và phân t ích.
3.1 Máy tìm kiếm thực thể
Người dùng thường tìm kiếm thông tin về đối tượng nào đó, ví dụ như khi sử dụng
truy vấn "thuốc chống viêm", người dùng muốn tìm các thực thể thuốc mà có tác
dụng chống viêm. Và các máy tìm kiếm hiện nay (như Google, Yahoo, MSN) bằng
cách so sánh văn bản (text) trên từng trang web với truy vấn và trả về cho người
dùng địa chỉ các trang mà có chứa từ khóa trong truy vấn. Do vậy người dùng không
trực tiếp nhận được thông tin mong muốn mà phải duyệt qua nội dung các trang
web trả về đó và không chắc chắn có được thông tin mong muốn ở những kết quả
đầu tiên. Đó là nhược điểm của các máy tìm kiếm này, không hiểu mục đích tìm
kiếm của người dùng, và tìm kiếm trên các trang web độc lập chỉ dựa vào từ khóa.
Theo [1 7] máy tìm kiếm thực thể hướng người dùng tốt hơn, cho phép chỉ ra trong
truy vấn đối tượng mà người dùng muốn tìm. Và kết quả trả về của máy tìm kiếm là
∗

LUẬN VĂN: HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU pdf

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về