Tìm hiểu các phương pháp tìm kiếm tài liệu trong thư viện số

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (170.66 KB, 21 trang )

BÀI TẬP
Mơn: Thư viện số
“Tìm hiểu các phương pháp
tìm kiếm tài liệu trong thư viện số”

NỘI DUNG
I.
I.1
I.2
I.3
I.4
I.5
I.6

TÌM KIẾM THƠNG TIN

Mơ hình tìm kiếm thơng tin
Truy vấn Boole BQ
Truy vấn xếp hạng RQ
Độ đo Cosin
Mơ hình tìm kiếm thơng tin xác suất
Hiệu suất tìm kiếm

1.1 MƠ HÌNH TÌM KIẾM THƠNG TIN
1

Tìm kiếm thơng tin (IR) đề cập đến tổ chức, lưu trữ, tìm kiếm và đánh giá thơng tin
có liên quan tới nhu cầu thơng tin của NSD
Mơ hình tìm kiếm thông tin IR tổng quát là một cặp bao gồm các đối tượng và một
ánh xạ liên kết (“tìm kiếm”) một số đối tượng với một đối tượng đại diện cho một

truy vấn.
Cho
D = {d1, d2, ..., dM}, M  2

(1)*

là một tập hữu hạn không rỗng đối tượng, M là số tài liệu
 Chú ý: trường hợp M = 1 có thể được xem xét nhưng nó là tầm thường.
Các đối tượng tiêu biểu là đại diện.
Cho  là một ánh xạ tìm kiếm từ D vào trong lực lượng của nó (D), nghĩa
là,
 : D  (D)

(2)*

Bằng cách kết hợp tập đối tượng D và ánh xạ tìm kiếm , chúng tơi
định nghĩa cấu trúc tìm kiếm thông tin như sau: (3 định nghĩa)
 Định nghĩa 1 (cấu trúc tìm kiếm thơng tin):
Cấu trúc tìm kiếm thơng tin SIR là một bộ 2 S = <D, >

(3)*

Đây là một định nghĩa tổng qt: nó khơng đề cập đến về các dạng riêng biệt
của ánh xạ tìm kiếm  và đối tượng D. Từ đó, các mơ hình IR riêng biệt
khác nhau có thể nhận được bằng cách đặc tả D và 

 Định nghĩa 2 (mơ hình tìm kiếm thơng tin MIR):
 Mơ hình tìm kiếm thơng tin MIR là một SIR S = <D, > với 2 thuộc tính
sau đây:
a. q =   ãi(q, ) = 1 i, q,  (tính phản xạ);

2

b. i (q) = {  D| ãi(q, ) = max ãk(q, k)} ai, i cố định tùy ý.
Trong đó:
+ T = {t1, t2, ..., tN} là một tập hữu hạn thuật ngữ chỉ mục, N  1;
+ O = {o1, o2, ..., oU} là một tập hữu hạn đối tượng, U  2;
+ (Dj)j  J = {1, 2, ..., M} là một họ cluster ( nhóm) đối tượng, Dj  (O), M
 2;
+ D = {j| j  J} là một tập tài liệu, trong đó tập mờ đã chuẩn hóa j = {(tk ,
j(tk))| tk  T, k = 1, ..., N}, j = 1, ..., M, j : T  S  [0, 1]  R là đại diện
cluster của cluster đối tượng Dj.
+ A = {ã1, ..., ãC} là một tập hữu hạn tiêu chuẩn, C  1, trong đó ãi = {((q,
j), ãi(q, j)) | j D, j =1, ..., M}, i = 1, ..., C là một quan hệ mờ chuẩn hóa,
ãi : D x D  [0, 1]  R, q  D cố định tùy ý.
 Theo truyền thống, IR kinh điển có thuộc tính phân đơi ( lưỡng cực )
trong đó có 2 tiêu chuẩn rõ ràng:
a. có mặt và khơng có mặt;
b.

tìm kiếm được thực hiện dựa vào (a).
 ai = {  D| ãi(q, ) > i}, i = 1, ..., C là một i-lát cắt tiêu chuẩn
mạnh ãi, i  0, q  D cố định tùy ý;
  : D  (D) là một ánh xạ tìm kiếm. Về mặt hình thức, tìm kiếm
nghĩa là liên kết một tập con tài liệu với một truy vấn nếu chúng liên
quan với nhau – tuân theo một tiêu chuẩn lựa chọn - đủ mạnh.

Từ đó, chúng ta bắt buộc phải xem truy vấn là một tài liệu và tìm kiếm được định
nghĩa dùng -lát cắt.
 Định nghĩa 3: R.B. Yates và B.R. Neto

Một mơ hình tìm kiếm thơng tin là một bộ bốn [ D, Q, F, R(qi, dj) ]
Trong đó
3

+ D là một tập các tài liệu;
+ Q là một tập hợp các truy vấn của NSD;
+ F là một khung mơ hình hóa các biểu diễn tài liệu, truy vấn và các
quan hệ giữa chúng;
+ R(qi, dj) là một hàm sắp xếp liên kết một số thực với một truy vấn qi
 Q và một biểu diễn tài liệu dj  D. Hàm sắp xếp xác định thứ tự
giữa các tài liệu đối với truy vấn qi.
Khảo sát 3 kiểu truy vấn :
 Truy vấn Boole BQ truyền thống;
 Truy vấn xếp hạng RQ;
 Mơ hình tìm kiếm thông tin xác suất.
1.2 TRUY VẤN BOOLE BQ TRUYỀN THỐNG
Đây là kiểu truy vấn đơn giản nhất, trong đó các thuật ngữ được tổ hợp với các
phép toán AND, OR, và NOT
Quá trình truy vấn dùng một IFID là tương đối trực tiếp. từ vựng được tìm kiếm
đối với mỗi một thuật ngữ, mỗi một IL được tìm kiếm và giải mã, và các danh sách
được trộn, lấy giao, hoặc là bù như thích hợp
Cuối cùng, các tài liệu chỉ mục như vậy được tìm kiếm và hiển thị với NSD như
danh sách câu trả lời. Đối với một truy vấn điển hình có 5 ÷ 10 thuật ngữ, 1 giây
hoặc như vậy bị mất thời gian đọc và giải mã các IL; sau đó
Gồm

 1.1 Truy vấn BQ hội
Giả sử truy vấn là một phép hội, bao gồm các thuật ngữ kết nói với phép tốn AND
Dạng t1 AND t2 AND ... AND tr

 1.2 Truy vấn BQ không hội
Dạng phổ biến khác là một phép hội của các phép tuyển:
(text OR data OR information) AND
4

(search OR seek) AND
(retrieval OR indexing)
 Ở đây các thuật ngữ bao gồm mỗi một liên kết có thể xử lý đồng thời
=> Đánh giá:
Hiện nay, hầu hết các hệ thống tìm kiếm IR thơng tin hiện có trong thư viện sử
dụng truy vấn Boole BQ, nhưng xử lí khơng chính xác truy vấn Boole khơng hội,
phức tạp. BQ khơng phải là phương pháp tìm kiếm thơng tin duy nhất. Nếu tập con
tài liệu chính xác nào đó đang được tìm kiếm biết trước thì BQ chắc chắn thích
hợp, đó là nguyên nhân BQ thành công ở các hệ thống tìm kiếm thư mục. Tuy
nhiên yêu cầu tin thường biết ít chính xác hơn.

1.3. TRUY VẤN XẾP HẠNG RQ
Hiện nay hầu hết các hệ thống tìm kiếm thơng tin IR hiện có trong thư viện sử
dụng truy vấn Boole BQ, nhưng xử lý khơng chính xác truy vấn Boole khơng hội,
phức tạp. BQ khơng phải là phương pháp tìm kiếm thơng tin duy nhất.
Nếu tập cong tài liệu chính xác nào đó đang được tìm kiếm biết trước thì BQ chắc
chắn thích hợp. Tuy nhiên u cầu thơng tin thường biết ít chính xác hơn.
1.3.1 So khớp toạ độ
Đếm số thuật ngữ truy vấn xuất hiện trong mỗi 1 tài liệu.Càng nhiều thuật ngữ xuất
hiện hơn, càng có nhiều khả năng hơn tài liệu là có liên quan. Truy vấn thành một
truy vấn lai, trung gian giữa một truy vấn hội AND và một truy vấn
tuyển OR: một tài liệu chứa bất kỳtrong sốthuật ngữ được xem như một câu trả lời
tiềm năng, nhưng sự ưu tiên được cho các tài liệu chứa tất cả hoặc hầu hết chúng.
Tất cả thông tin cần thiết nằm trong IF và cài đặt tương đối dễ.

Xét 4 tài liệu trình bày ở bảng 1. Đối với truy vấn searching, tài liệu 1 là câu trả lời
tốt nhất và duy nhất. Nhưng về truy vấn information retrieval? Ở ngữ cảnh BQ hội,
tài liệu 1 là câu trả lời duy nhất. Nhưng 3 tài liệu khác có thể có liên quan và so
5

khớp toạ độ tạo ra xếp hạng D1> D2= D3= D4= 0. Các tài liệu chỉ chứa một trong
số thuật ngữ có sẵn khi trả lời, NSD nên kiểm tra.

Bảng 1 – Văn bản mẫu
1

Information retrieval issearching and indexing

2

Indexing is building an index

3

An inverted file is an index

4

Building an inverted file is indexing

1.3.2 Tích trong độ tương tự
Q trình được hình thức hố bằng một tích trong của một vectơ truy vấn với một
tập vectơ tài liệu
Độ tương tự của truy vấn Q với tài liệu Dd được biểu diễn như sau:

S(Q, Dd) = Q . Dd

(4)*

trong đó: phép tốn . là phép tích trong
Tích trong của hai n-vectơ X = <xi> và Y = <yi> được định nghĩa:
(5)*

 Bài tốn 1 có thể được giải quyết bằng cách thay thế đánh giá “có” hoặc
“khơng” nhị phân bằng một số nguyên chỉ thị thuật ngữ xuất hiện bao nhiêu
lần trong tài liệu.
 Định nghĩa tần suất bên trong tài liệu của thuật ngữ fd,t :
Số đếm chỉ thị số lần thuật ngữ xuất hiện trong tài liệu
 Tổng quát hơn, thuật ngữ t trong tài liệu d có thể được gán một trọng số tài
liệu - thuật ngữ, ký hiệu là wd,t và trọng số khác wq,t trong vectơ truy vấn
6

 Độ tương tự là tích trong của hai trọng số wd,t và wq,t – lấy tổng của tích các
trọng số của các thuật ngữ truy vấn và thuật ngữ tài liệu tương ứng:
S(Q, Dd) = Q . Dd =

(6)*

Nếu wq,t = 0 thì (nếu t khơng xuất hiện trong Q) độ tương tự như sau:
S(Q, Dd) =

(7)*

 Bài toán 2 khơng tính đến các thuật ngữ khó tìm.

Một tài liệu với đủ lần xuất hiện của một thuật ngữ phổ biến luôn được xếp
hạng đầu tiên nếu truy vấn chứa thuật ngữ đó, khổng kể các từ khác, bằng cách
lấy trọng số thuật ngữ tuân theo tần suất tài liệu đảo IDF.
 Zipf quan sát tần suất của một mục tin có xu hướng là tỉ lệ nghịch với hạng
của nó. Tức là, nếu hạng được coi là một độ đo tầm quan trọng thì trọng số
wt của một thuật ngữ t được tính như sau:
(8)*

trong đó: ft là số tài liệu chứa thuật ngữ t.
 Trọng số thuật ngữ wt được sử dụng theo 3 cách khác nhau:
1. Có thể được nhân với một giá trị tần suất thuật ngữ tương đối rd,t để
sinh ra trọng số tài liệu-thuật ngữ wd,t , trong đó rd,t có thể được tính theo một
số cách khác nhau.
2. Trọng số thuật ngữ có thể được tổ hợp bằng cách nhân với rq,t sinh
ra một trọng số truy vấn-thuật ngữ wq,t
3. Có thể được dùng trong cả hai tính tốn wd,t và wq,t , tức là, áp dụng
hai lần.
7

Không công thức nào ở trên là khả năng duy nhất được dùng đối với
wt , thành phần IDF.
 Luật TFxIDF: tần suất thuật ngữ nhân tần suất tài liệu đảo.
Các vectơ tài liệu được tính như sau:
wd,t = rd,t
hoặc

wd,t = rd,t . wt

(9)*

(TF x IDF)

 Chú ý:
+ Các thành phần TF và IDF không nên hiểu theo nghĩa đen là các
hàm đưa ra tên của chúng. Một heuristic độ tương tự được gọi là “TF x IDF”
bất kỳ khi dùng tần suất thuật ngữ fd,t tăng đều và tần suất tài liệu của thuật
ngữ ft giảm đều.
+ Các trọng số truy vấn-thuật ngữ wq,t được tính tương tự
 Nhân tử chuẩn hố để khơng kể đến phần đóng góp của các tài liệu dài. Do
đó, luật tích trong đánh giá độ tương tự bằng

(10)*

trong đó

là độ dài của tài liệu Dd

1.3.4 Mơ hình khơng gian vectơ
Độ tương tự đối với một cặp vectơ là khoảng cách Euclide:
(11)*
Điều quan tâm là hướng chỉ thị của 2 vecto hay chính xác hơn là sự khác nhau về
hướng, không kể độ dài, hơn nữa là góc giữa 2 vecto

8

Hướng chỉ thị bởi 2 vectơ

(12)*
Cơng thức có 2 hàm ý:

1. Chứng minh sự chuẩn hoá: Nhân tử chuẩn hoá là độ dài Euclide của tài
liệu
2. Cung cấp một sự trực quan rõ ràng của luật xếp hạng
Luật cosin đối với xếp hạng:
(13)*

trong đó

(14)*

là độ dài Euclide – trọng số – của tài liệu d và

(15)*

là trọng số của truy vấn q.
Độ tương tự:

(16)*

1.4 ĐỘ ĐO COSIN
Đo độ cosin nhiều thông tin hơn được yêu cầu so với xử lý BQ và được thực hiện
các quyết định về thông tin này.
1.4.1 Tần suất bên trong tài liệu
Giả sử truy vấn Q nào đó được dùng để xếp hạng 1 CSDL tài liệu.Tần suất thuật
ngữ fts từ vựng thì đối với hầu hết luật gán trọng số thuật ngữ mô tả, trọng số tài
liệu - thuật ngữ wd,t có thể được tính với điều kiện là fd,t đã biết, vì Ngía trị khác
duy nhất là tồn cục. Vì vậy, f d,t có thể được lưu trữ trong danh sách đảo (IL) cùng
với số tài liệu d.

9

Lưu ý: Dù cho ft về mặt logic là 1 trường trong danh sách đảo , có nhiều khă năng
hơn được lưu trữ trong từ vựng cùng với thuật ngữ t, địa chỉ tệp đảo I t và nếu nó
được lưu trữ rõ ràng và khơng được trích dẫn trọng số thuật ngữ wt.
Mỗi một danh sách đảo phải chứa các giá trị f d,t. Thực tế mã đơn nguyên là một
phương pháp hiệu quả để nén các tần suất bên trong tài liệu. Là lý tưởng để biểu
diễn các giá trị tần suất bên trong tài liệu f d,t. Nếu một từ xuất hiện một lần trong
một tài liệu, nó yêu cầu một mã 1 bit; nếu nó xuất hiện hai lần, một mã 2 bit…
Thực tế IL đối với thuật ngữ t tăng lên bằng 1 số bit đúng bằng tổng số 2 lần xuất
hiện của thuật ngữ đó trong tồn bộ CSDL. F t là tổng số lần xuất hiện của thuật
ngữ t, sự xuất hiện trùng lặp được tính:
Ft

d,t

Sau đó
t

=F

trong đó F là tổng số từ trong CSDL
Vì một mã đơn nguyên đối với x yêu cầu x bit, IL đối với thuật ngữ t tăng lên bằng
đúng Ft bit và IF tổng tăng lên đúng bằng F bit.
Hàng tần suất quan sát tương ứng với một mã Huffman toàn cục dựa vào tần suất
thực của mỗi một số đã mã hóa, như vậy nó biểu diễn tốt nhất rằng trong bất kì
trong số mã hóa này có thể đạt được
Bảng 2: Cộng thêm thơng tin tần suất, bit/giây đối với TREC
Mơ hình
Đơn ngun

Γ
Δ
Nội suy

Bit/giây
2.49
2.13
2.41
1.77

Có thể chỉ mục mọi thuật ngữ trong một văn bản lớn dùng ít hơn 1B cho mỗi con
trỏ, ngay cả khi tệp chỉ mục chứa các tần suất thuật ngữ.

10

γ là phương pháp lựa chọn nếu một mã đơn giản được dùng làm phương pháp nội
suy là lựa chọn thích hợp nếu làm giảm kích thước chỉ mục, là mối quan tâm bao
quát.
1.4.2 Tính độ đo cosin
Dùng luật đánh trọng số (TFxIDF) đánh giá độ đo cosin.
Xét công thức:

Lấy tổng được đánh giá bằng cách xử lý lần lượt mỗi một IL, xếp hạng có thể được
đánh giá khơng cần trợ giúp văn bản của CSDL tài liệu. Sự có mặt của f d,t trong IL
nghĩa là trọng số Wd của tài liệu d chỉ là giá trị còn lại được tính rõ
Mỗi một số tài liệu xuất hiện trong một IL tạo ra 1 phần đóng góp cosin được cộng
vào thanh tích lũy. Mỗi một tài liệu chứa bất kỳ trong số thuật ngữ truy vấn kết
thúc với một thanh tích lũy khác 0.Tất cả phần đóng góp cosinđược tích lũy một
lần, chúng được chuẩn hóa bằng các trọng số tài liệu tương ứng vào trong các giá

trị tỉ lệ với độ cosin. Cuối cùng chọn r lớn nhất trong tất cả các giá trị, tìm kiếm và
hiển thị các tài liệu chũng biểu diễn.
Tìm kiếm r tài liệu dùng độ đo cosin:
1.
2.
a)
b)
c)
d)
e)
f)

Đặt A  { }. A là tập hợp tích lũy.
Đối với mỗi một thuật ngữ truy vấn t Q,
∊
Truy gốc từ t.
Tìm kiếm từ vựng.
Ghi ft và địa chỉ của It, mục vào IF đối với t.
Đặt wt  1 + loge (N / ft).
Đọc mục vào IF It
Đỗi với mỗi một cặp (d, fd,f) thuộc It,
i.
Nếu Ad ∊thì
A
Đặt Ad  0
Đặt A  A + {Ad}
Đặt Ad  Ad + loge(1 + fd,t)* wt
ii.
Đối với mỗi một Ad ∊A,
11

Đặt Ad  Ad / wd.
Bây giờ Ad tỉ lệ với giá trị cos(Q,Dd).
3.
a)
b)
c)

Đối với 1 ≤ i ≤ r,
Lựa chọn d sao cho Ad = max {A}.
Dị tìm địa chỉ của tài liệu d.
Tìm kiếm tài liệu d và trình bày với NSD.
Đặt A  A – {Ad}.

Giải thuật nêu lên 3 điểm như sau:
1. Wq bị bỏ qua vì Wq là một hằng số
2. lượng lớn bộ nhớ được sử dụng
3. chỉ r << N tài liệu có mặt
tích lũy vào trong các giá trị cosin, tồn bộ tệp trọng số sau đó phải được đọc.
 Phương pháp khác được đề xuất nhằm loại trừ bộ nhớ yêu cầu bởi trong số tài
liệu là lưu trữ fd,t /Wd thay cho fd,t trong IL, sao cho giá trị tích lũy trong Ad
có cùng tỷ lệ bằng Wd . tuy nhiên khi IF được lưu trữ nén, điều này là cực kì
đắt.
 Như một thỏa hiệp giữa các trường hợp cực đoan tất cả trong bộ nhớ và tất cả
trên đĩa, nếu lượng hạn chế nào đó của bộ nhớ chính có sẵn, có thể lưu trữ các
trọng số gần đúng trong bộ nhớ và dùng chúng để hướng dẫn truy cập vào
trong một tệp trên đĩa lưu trữ các trọng số tài liệu chính xác
1.4.3. Sắp xếp
Thành phần cuối cùng của qúa trình xếp hạng là sắp xếp. Nhiều cơ chế được đề

xuất để làm giảm thời gian sắp xếp, như là sắp xếp chỉ các thanh tích lũy khác 0,
trong nhiều trường hợp, tập A có thể chứa các thanh tích lũy chỉ đối với một phần
nhỏ trong số tài liệu, đặc biệt nếu với các số của chúng bị hạn chế giả tạo để tiết
kiệm không gian, như đã đề xuất ở trên. Ngay cả với một phần tương đối lớn trong
số thanh tích lũy khác 0- thời gian sắp xếp có thể được giảm nhiều 10%.

12

Tuy nhiên một cách tiếp cận đơn giản hơn, đó là phương pháp nhận xét số tài liệu r
được biểu thị rất nhỏ so với N ở hầu hết trường hợp và trích lọc r << N giá trị lớn
nhất từ một tâp hoàn toàn là một định đề khác với sắp xếp tồn bộ tập hợp.
1.5 MƠ HÌNH TÌM KIẾM THÔNG TIN XÁC SUẤT
 Nguyên lý xếp hạng theo xác suất do Robertson đưa ra (probability
ranking principle):
Nếu đáp ứng của một hệ tìm kiếm thơng tin với mỗi một yêu cầu của NSD là
một dãy các tài liệu sắp xếp theo thứ tự giảm dần của các xác suất liên quan, các
xác suất ở đây được đánh giá là độ chính xác có thể trên CSDL có sẵn thì toàn bộ
hiệu quả của hê đối với NSD sẽ là tốt nhất trên CSDL đó.
 Mơ hình tìm kiếm thơng tin xác suất như sau:
Định nghĩa 1.5.1 (PIR)
Mơ hình tìm kiếm thông tin xác suất PIR là một MIR S = <D, > thỏa mãn
điều kiện sau đây:
C=2

(16)*

Chúng ta lấy C = 2 là vì ở mơ hình IR xác suất truyền thống có 2 tiêu chuẩn:
có liên quan và khơng liên quan. ( tài liệu có liên quan và khơng liên quan)
Định nghĩa 1.5.2 (PIR): định nghĩa 1.5.1có thể được định nghĩa lại như sau:

Mơ hình tìm kiếm thơng tin xác suất PIR là
một MIR S = <D, >
trong đó:

C = 2 và

(q) = {|ãi(q,)  ãj(q, )}, j = i + (-1)i+1, ãi(q, ) > i}.

(17)*

Định nghĩa 1.5.3 (mơ hình tìm kiếm thơng tin xác suất kinh điển)
Cho D là một tập tài liệu, q  D một truy vấn và P(R|(q, d)) xác suất tài liệu
d  D là có liên quan /khơng liên quan với truy vấn q tương ứng. Cho R(q) là tập
13

tài liệu tìm kiếm đáp ứng truy vấn q. Một tài liệu d được lựa chọn đáp ứng một truy
vấn q nếu
P(R|(q, d))  P(I|(q, d)) (Luật quyết định Bayes)

(18)*

nghĩa là,
R(q) = {d| P(R|(q, d))  P(I|(q, d))}

(19)*

 Chính xác hơn, P(R|(q, d)) và P(I|(q, d)) là xác suất liên đới tới d khi nó
được xét có liên quan và không liên quan tới q tương ứng.
 Đánh giá P(R|(q, d)) và P(I|(q, d)) dựa vào công thức Bayes.

Cho D là một tập đối tượng, một đối tượng cố định bất kỳ q  D và hai tiêu
chuẩn ã1 và ã2 là liên quan và không liên quan tương ứng. Cho ãi(q, ), i = 1, 2 là
mức độ mà một đối tượng bất kỳ d  D thỏa mãn tiêu chuẩn ãi liên quan tới q.
Định nghĩa 1.5.6(PIR):
Mơ hình tìm kiếm thơng tin xác suất PIR là một MIR S = <D, >
trong đó: (q) = {|ã1(q,)  ã2(q, )}, ã1(q, ) > 1} (20)*
 PIR là một trường hợp đặc biệt của MIR
(ở định nghĩa 1.5.1 , lấy i =1).
S. Dominich đã chứng minh PIR ở định nghĩa 1.5.6 và mơ hình tìm kiếm thơng tin
xác suất kinh điển ở định nghĩa 1.5.3 là tương đương
Bảng 4.4 – Các xác suất có điều kiện.
Số tài liệu

Thuật ngữ t có mặt

Có liên quan

Khơng
liên quan

Tổng

R
t

f -R
t
t

f

t

14

Thuật ngữ t
vắng mặt

R-R
t

N - f - (R - R )
t
t

N-f

Tổng

R

N–R

N

t

ở mơ hình xác suất, sự xuất hiện của mọt thuật ngữ riêng biệt trong một tài liệu
được hiểu hoặc là một bằng chứng tài liệu có liên quan hoặc không liên quan. Để
thiết lập một trọng số đối với mỗi một thuâtj ngữ, các xác suất có điều kiện về “ có

liên quan tới truy vấn, căn cứ vào thuật ngữ xuất hiện” và “ không liên quan tới
truy vấn, căn cứ vào thuật ngữ xuất hiện” được đánh giá dựa trên một số xét đoán
liên quan đã biết.
 Các xác suất có điều kiện có thể được đánh giá từ bảng 4.4.
P [có liên quan | thuật ngữ t có mặt] = Rt / ft

(21)*

và
P [khơng liên quan | thuật ngữ t có mặt] = (ft – Rt) / ft
Tương tự,
P [thuật ngữ t có mặt | có liên quan] = Rt / R

(22)*

và
P [thuật ngữ t có mặt | không liên quan] = (ft – Rt) / (N – R)
 trọng số wt đối với thuật ngữ t nhận được dùng cơng thức Bayes:

(23)*
Trong đó các giá trị lớn hơn 1chir thị sự xuất hiện của thuật ngữ t nên được lấy như
là trợ giúp cho giả thuyết tài liệu là có liên quan và các giá trị nhỏ hơn 1 chỉ thị sự
xuất hiện của thuật ngữ giả thiết tài liệu là không liên quan.
 SỰ PHẢN HỒI LIÊN QUAN
15

 Là quá trình sửa đổi truy vấn để nâng cao hiệu suất tìm kiếm . Giả sử một
truy vấn Qo được đưa ra với mọt hệ tìm kiếm và một số tài liệu được trả lại.
sau đó người sử dụng khảo sát một số hoặc tất cả chúng và quyết địnhlà

chúng có, hoặc khơng liên quan. Trong một mơi trường xử lý theo lô, đây là
điểm cuối của quá trình- hệ thống cho phép chỉ định các tài liệu có liên quan
và sau đó, khơng thực sự nghi ngờ sự lựa chọn này, NSD làm việc với các
tập con tài liệu nay, nhưng nó khơng cần kết thúc ở đó.


Salton, Buckley và Harman đề xuất phương pháp lặp lại truy vấn

Tất cả sử dụng biểu diễn vectơ, trong đó tài liệu Dd và truy vấn Q đều được
coi là n-vectơ trọng số, trong đó n là số thuật ngữ truy vấn riêng biệt. Chiến lược
đơn giản nhất như sau:
(24)*

Trong đó:
+ Dn là tài liệu xếp hạng cao nhất khơng liên quan;
+ R là tập tài liệu có liên quan.
 Các biểu thức phản hồi tổng quát hơn cho phép một số lớn hơn trong những
tài liệu không liên quan ảnh hưởng đến truy vấn mới và bao hàm dự trữ sẵn
cho truy vấn ban đầu nhằm ảnh hưởng đến tất cả truy vấn tiếp theo:

(25)*
trong đó:
, ,  và  là các hằng trọng số (với   0);
R là tập con tài liệu có liên quan;
I là một tập con tài liệu khơng liên quan bởi vì đáp ứng của NSD với các phép lặp
truy vấn.
16

Sự đánh giá các kĩ thuật phản hồi liên quan là phức tạp bởi vì xếp hạng đã duyệt

lại, độ chính xác sẽ cao bởi vì hệ thống sẵn sang cho biết một số tài liệu liên quan
và không liên quan.
Để đơn giản, thường giả thiết các tài liệu xem xét bởi NSD đơn giản khơng có mặt
trong CSDL ở vòng đánh giá thứ hai và các truy vấn duyệt lại được thực hiện
chống lại một CSLD đã duyệt lại . Nhưng bởi vì các tài liệu đã xóa được xếp hạng
cao ở vịng thứ nhất, chúng có thể liên quan và ở vog thứ hai sự vắng mặt của các
tài liệu này chắc chắn nghĩa là độ chính xác giảm dần
Do đó một truy vấn lặp có thể được báo cáo như là có hiệu năng tìm kiếm kém hơn
tại mỗi một đánh giá, mặc dù sự phản hồi đang hoạt động tốt để đưa vào các tài
liệu liên quan mới.
1.6 ĐÁNH GIÁ HIỆU SUẤT TÌM KIẾM
Có nhiều biến thể về các luật xếp hạng, một số trong chúng được mô tả ở trên. Để
so sánh chúng, chúng ta cần có cách nào đó định lượng hiệu năng của chúng. Hiệu
năng của một luật xếp hạng nên dựa vào xếp hạng tổng nó áp đặt trên CSDL đối
với một truy vấn. một số phương pháp được đưa ra. Không có 1 phương pháp nào
hồn toan thỏa đáng, nhưng đây là một hệ quả tự nhiên của thử nghiệm trình bày
cách xử lý nhiều chiều với một giá trị đại diện đơn, có 2 độ đo quan trọng về hiệu
xuất : độ phục hồi và độ chính xác.
1.6.1 Độ chính xác và độ phục hồi
Độ chính xác P của một phương pháp xếp hạng đối với điểm cắt nào đó r là
một phần trong số tài liệu xếp hạng cao nhất r có liên quan đến truy vấn:
(26)*

Độ phục hồi R của một phương pháp tại giá trị r nào đó là tỷ lệ của tổng số
tài liệu có liên quan được tìm kiếm trong r cao nhất:
(27)*
Trong đó:
NT là tổng số tài liệu có liên quan tới một truy vấn q, NT  0;
17

| (q) | =  là số tài liệu tìm kiếm được đáp ứng q,   0;
NR là số tài liệu có liên quan tìm kiếm được.

 Định đề: Tỉ số giữa độ phục hồi và độ chính xác R / P thay đổi tuyến tính
đối với .
Chứng minh:
NR = R NT = P   R / P =  / NT

(28)*

Van Rijsbergen đưa ra một tổ hợp có trọng số của độ phục hồi và độ chính xác như
sau:
1-(( a. P. R)/(b. P+R))
Đuong cong P-R doi voi hang
120
100

P

80

R (%)
P (%)

60
40
20
0
R

1.6.2 Đường cong
độ phục hồi-độ chính xác
Hình 4.1 – Đường cong P-R đối với hạng của bảng 3.2

18

P

Do thi hieu suat tinh toan
160
140
120
100
80
60
40
20
0

do chinh xac
do phuc hoi

R

Vì độ phục hồi là một hàm không giảm của hạng, độ chính xác có thể được coi là
một hàm của độ phục hồi đúng hơn là hàm của hạng. quan hệ được tạo thành một
đồ thị như một đường cong P-R, vẽ đồ thị chính xác là một hàm của độ phục hồi.
bởi vì độ chính xác thường cao tại các mức độ phục hồi thấp và thấp tại các mức

độ phục hồi cao, đường cong nói chung giảm dần.
Phương pháp đánh giá độ tương tự dự đoán tập tài liệu chuẩn nào đó và các truy
vấn có sẵn và một tập xét đoán liên quan đầy đủ- các quyết định như về các tài liệu
có trong CSDL là các câu trả lời cho mỗi một truy vấn- là có sẵn. đây là một yêu
cầu khó, đặc biệt nếu thử nghiệm được thực hiện trên các mẫu thực và các CSDL
lớn.

19

GHI CHÚ:
* : Trích giáo trình “ Thư viện số chỉ mục và tìm kiếm- Đỗ Quang Vinh”
DANH MỤC CÁC TỪ VIẾT TẮT
-

NSD : Người sử dụng
CSDL: Cơ sở dữ liệu
IR
: Information Retrieval ( Tìm kiếm thơng tin)
IL
: Inverted List (Danh sách đảo)
BQ : Boolean Query ( Truy vấn Boole)
DL : Digatal Library ( thư viện số)

TÀI LIỆU THAM KHẢO
1. Đỗ Quang Vin.h (2009), Thư viện số - Chỉ mục và Tìm kiếm, Nxb Đại học
Quốc gia Hà Nội
20

Đỗ Quang Vinh (2009) , Thư viện số
/>3. Nguyễn Thị Thanh Hải (2013) , Tìm kiếm thơng tin văn bản trong Thư viện
số
/>2.

21

Tìm hiểu các phương pháp tìm kiếm tài liệu trong thư viện số

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về