Tải bản đầy đủ (.ppt) (26 trang)

Xếp hạng lại kết quả trả về từ máy tìm kiếm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.05 MB, 26 trang )

Giảng viên hướng dẫn: PGS.TS Nguyễn Kim Anh
Sinh viên thực hiện: Nguyễn Anh Tuấn
HTTT B – K51

Xếp hạng lại
kết quả trả về từ
máy tìm kiếm
1
Nội dung trình bày
1. Bài toán
2. Phương pháp
3. Cài đặt, đánh giá và kết luận
2
3
Máy tìm kiếm truyền thống





SBM





VSM
1
2
3
SBM – Standard Boolean Model


VSM – Vector Space Model
Kho tài liệu
Tài liệu
tương thích
Tài liệu được
xếp hạng
4
Truy vấn mập mờ
tiger
tiger
Động vật (Tiger)
Hãng máy bay (Tiger Airway)
Hệ điều hành (Mac OS Tiger)
Vận động viên (Tiger Woods)
5
Giải quyết
Giải quyết
RE-RANKING
RE-RANKING
Hướng ngữ cảnh
truy vấn
(Query context)
Hướng ngữ cảnh
truy vấn
(Query context)
Hướng phản hồi
người dùng
(User feedback)
Hướng phản hồi
người dùng

(User feedback)
2 HƯỚNG TIẾP CẬN
6
2.Phương pháp
7
2.1.Hướng ngữ cảnh truy vấn
Kịch bản A:
Truy vấn được
đệ trình và
chỉnh sửa liên
tục
Kịch bản B:
Truy vấn được
đệ trình và
người dùng thử
từng kết quả.
2 kịch bản tìm kiếm
8
Ngữ cảnh truy vấn
Query
extensions
Adjacent
queries
Query
Context
Tập các mở
rộng thường nối
tiếp sau truy vấn
đang xét
Tập các mở

rộng thường nối
tiếp sau truy vấn
đang xét

Tập các truy vấn
thường xuất hiện
trước hoặc sau
truy vấn đang xét
Tập các truy vấn
thường xuất hiện
trước hoặc sau
truy vấn đang xét
9
Sơ đồ tổng quan
Tập kết quả
đã xếp hạng
Tập kết quả
đã xếp hạng
Đệ trình truy vấn
Lưu trữ vào Query
Logs
Lưu trữ vào Query
Logs
Query
Logs
Query
Logs
Đi tìm ngữ cảnh của
truy vấn
Đi tìm ngữ cảnh của

truy vấn
Query Extensions
+
Adjacent queries
Query Extensions
+
Adjacent queries
Hiển thị
kết quả
NGƯỜI DÙNG
MÁY TÌM KIẾM
10
Bước 1
Bước 2
Tính điềm và xếp
hạng lại kết quả tìm
kiếm
Tính điềm và xếp
hạng lại kết quả tìm
kiếm
Bước 1
Xây dựng tập ngữ cảnh truy vấn:

Giả sử tập Q là tập truy vấn lấy từ query log
tương ứng với một khoảng thời gian xác định

q là truy vấn đang xét
Tìm 2 tập Q
ext
và Q

adj
:
Q
ext
(q) = {q
ext
| q." ".q
ext
Q}∈
Q
adj
(q) = {q
adj
| q
adj
Q∈
next
(q) Q∪
prev
(q)}
Q
next
(q): tập các truy vấn thường được người
dùng sử dụng sau khi nhập q
Q
prev
(q): tập các truy vấn thường được người
dùng sử dụng trước khi nhập q
11
Bước 2


γ ∈ [0 1] : giá trị điều chỉnh tầm quan trọng giữa Q
ext
và Q
adj

tf (q
i
, d): tần số xuất hiện của truy vấn q
i
trong tài liệu d

D
qi
: tập tài liệu d với d thỏa mãn tf (q
i
, d) > 0

qf (q
i
): tần số xuất hiện của truy vấn q
i
trong query logs

R(d): thứ hạng tài liệu d trong tập D(q)
Xếp hạng lại kết
quả dựa trên giá
trị RS(d,q) giảm
dần
Tính điểm và xếp hạng lại kết quả:

Giả sử tập D tập kết quả tương ứng truy vấn q được máy
tìm kiếm xếp hạng và trả về  với mỗi d D tính:∈
12
2.2.Hướng phản hồi người dùng
1.ABCDEFGHJ
abcdefghj
www.abc.com
2.ABCDEFGHJ
abcdefghj
www.abc.com
Tiêu đề
Mô tả
Liên kết
SEARCH RESULTS
www.abc.com
13
Lưu trữ dữ liệu click
q
1
q
i
q
n
url
m
url
j
url
1
H

ij
: Số lượng người dùng click
vào url
j
đối với truy vấn q
i
Nhược điểm
Kích thước của ma trận
tăng lên rất nhanh
Giá trị ∑ H
ij
của 1 truy
vấn qi có thể rất nhỏ ảnh
hưởng tới độ chính xác
của thuật toán
Kích thước của ma trận
tăng lên rất nhanh
Giá trị ∑ H
ij
của 1 truy
vấn qi có thể rất nhỏ ảnh
hưởng tới độ chính xác
của thuật toán
14
Cải tiến
p
1
p
i
p

n
url
m
url
j
url
1
Cụm từ
thường xuyên
o
Giảm kích thước ma trận
o
Giải quyết vấn đề thưa thớt
o
Giảm kích thước ma trận
o
Giải quyết vấn đề thưa thớt
Các cụm từ có
tần suất xuất
hiện lớn hơn
ngưỡng định
trước
15
Sơ đồ tổng quan
Tập kết quả
đã xếp hạng
Tập kết quả
đã xếp hạng
Đệ trình truy vấn
Phân tích truy vấn

Phân tích truy vấn
Cập nhật tập
cụm từ ứng
viên
Cập nhật tập
cụm từ ứng
viên
Tập cụm từ
thường
xuyên
Tập cụm từ
thường
xuyên
Tách truy vấn thành
các cụm từ thường
xuyên dài nhất
Tách truy vấn thành
các cụm từ thường
xuyên dài nhất
Ma trận cụm
từ thường
xuyên
Ma trận cụm
từ thường
xuyên
click url
Tính điểm và
xếp hạng lại kết
quả tìm kiếm
Tính điểm và

xếp hạng lại kết
quả tìm kiếm
Hiển thị kết quả
NGƯỜI DÙNG
MÁY TÌM KIẾM
16
Pha 1
Pha 2
Pha 1
OFSD (Online frequent sequence discovery):
Thuật toán tìm những cụm từ thường xuyên (frequent phrase) từ
dòng dữ liệu (data stream) dựa trên tần suất xuất hiện của các
cụm từ.
f
p
=
n
p
t
c
– t
p
+ 1
f
p
: tần suất của cụm từ P
n
p
: số lần xuất hiện của P trong dòng dữ liệu
t

c
: thứ tự truy vấn hiện tại
t
p
: thứ tự truy vấn lần đầu P xuất hiện
f
p
> f
u
W
p
= n
p
– (t
c
– t
p
+ 1) . f
u
W
p
: trọng số của cụm từ P
Điều kiện tần suất Điều kiện trọng số
W
p
> C
M
f
u
và C

M
là những hằng số cho trước
f
u
và C
M
là những hằng số cho trước
17
Pha 2
Xếp hạng lại kết quả tìm kiếm:
o
B1: Tách truy vấn

tập các cụm từ thường xuyên dài nhất:
QFL = {P
1
, P
2
, …, P
n
}
o
B2: P
j
thuộc QFL

Xây dựng các tập rankList(P
j
):
rankList(P

j
) = {url
k
, url
r
, …, url
m
}
H
jk
≥ H
jr
≥ … ≥ H
jm
o
B3: url thuộc tập kết quả

Xây dựng các tập rankList(url):
rankList(url
i
) = {Rank(P
1
, url
i
), … Rank(P
n
, url
i
)}
Rank (P

j
, url
i
) = vị trí url
i
trong rankList(P
j
)
o
B4: Tính Rank(url)

Xếp hạng lại theo Rank(url) tăng dần
18
3.Cài đặt, đánh
giá và kết luận
19
Công cụ phát triển
Server: Apache Tomcat v6.0.29
IDE: Eclipse Galileo
Search engine: Nutch v1.2
20
Giao diện hệ thống
21
Giao diện hệ thống
22
Cài đặt và thử nghiệm

Dữ liệu thu thập: khoảng 10000 tài liệu từ một
số trang web nổi tiếng như dantri.com.vn,
thongtincongnghe.com


Kịch bản thử nghiệm:
o
Khoảng 100 truy vấn được đệ trình dựa trên 5 chủ đề
lớn và hơn 20 truy vấn thuộc các chủ đề khác.
o
Mỗi phiên tìm kiếm có từ 2-7 truy vấn, bao gồm 1-2 ý
đồ tìm kiếm.
o
Mỗi lần truy vấn click vào 1-4 liên kết cảm thấy tốt
nhất.
23
Đánh giá

Các module hoạt động đúng yêu cầu đặt ra.

Chất lượng kết quả trả về tốt hơn.

Đánh giá còn mang tính ước lượng.

Khó khăn:
o
Thiếu nguồn dữ liệu truy vấn đầu vào khách quan.
o
Dữ liệu thu thập còn ít và phân tán.
24
Kết luận
25
Hệ thống tìm kiếm dành cho
ngôn ngữ tiếng Việt

Hệ thống tìm kiếm dành cho
ngôn ngữ tiếng Việt
Hạn chế Triển vọngCải tiến
Hướng
phát triển

×