Tải bản đầy đủ (.docx) (8 trang)

BC bigdata sử dụng weda để phân tích dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (330.61 KB, 8 trang )

6.2. Mô hình Information Retrieval (IR)
Một mô hình IR quản lý sao cho 1 tài liệu và 1 truy vấn được đại diện và sao
cho sự liên quan của một tài liệu tới 1 người dùng truy vấn được xác định. Có 4
mô hình IR chính bao gồm: Mô hình Boolean, mô hình không gian vector, mô
hình ngôn ngữ, mô hình xác suất. Ba mô hình đầu thuờng được sử dụng trong
hệ thống IR và trên Web.
Mặc dù 3 mô hình này biểu diễn tài liệu và các truy vấn khác nhau, nhưng
chúng sử dụng framework giống nhau. Tất cả chúng đều nghiên cứu từng tài
liệu hoặc truy vấn như là điều kiện. Trình tự thuật ngữ và vị trí trong một câu
hoặc một tài liệu bị bỏ qua. Đó là một tài liệu được mô tả bằng một bộ thuật ngữ
đặc biệt. Một thuật ngữ chỉ đơn giản là một từ mà ngữ nghĩa của nó giúp ghi
nhớ tài liệu chủ đề chính. Chúng ta nên lưu ý rằng thuật ngữ ở đây có thể không
là một từ ngữ tự nhiên trong từ điển.
Đưa ra một bộ sưu tập tài liệu D, để cho V = {t , t , ..., t } là tập hợp các thuật
ngữ đặc biệt trong bộ sưu tập, nơi mà ti là 1 điều khoản. Bộ V thường là gọi là
từ vựng của bộ sưu tập và | V | là kích thước của nó, tức là số lượng điều khoản
trong V. Trọng số w > 0 được liên kết với mỗi số hạng t của a
tài liệu d D. Đối với một thuật ngữ không xuất hiện trong tài liệu dj, wij = 0.
Mỗi dj tài liệu được đại diện với một vectơ giới hạn,
1

2

|V|

ij

i

j


dj = (w1j, w2j, ..., w|j),
trong đó mỗi trọng lượng wij tương ứng với thuật ngữ ti V và định lượng mức độ
quan trọng của ti trong tài liệu dj. Trình tự của các thành phần (hoặc thuật ngữ)
trong vector không đáng kể. Lưu ý rằng theo quy ước của cuốn sách này, một
chữ in thường in đậm được sử dụng để thể hiện một vectơ. Với biểu diễn vectơ
này, một bộ tài liệu đơn giản là được biểu diễn dưới dạng bảng quan hệ (hoặc
ma trận). Mỗi thuật ngữ là một thuộc tính và mỗi trọng lượng là một giá trị
thuộc tính. Trong các mô hình truy xuất khác nhau, wij có tính toán khác nhau.
6.2.1 Mô hình Boolean
Mô hình Boolean là một trong những mô hình thông tin sớm nhất và đơn giản
nhất. Nó sử dụng khái niệm khớp chính xác để khớp các tài liệu với truy vấn
người dùng. Cả truy vấn và truy xuất đều dựa trên đại số Boolean.
Document Representation: Trong mô hình Boolean, tài liệu và truy vấn được
biểu diễn dưới dạng tập hợp các thuật ngữ. Đó là, mỗi thuật ngữ chỉ được xem
xét. có mặt hoặc vắng mặt trong một tài liệu Sử dụng biểu diễn vectơ của
tài liệu ở trên, trọng số wij ( {0, 1}) của thuật ngữ ti trong tài liệu dj là 1 nếu
ti xuất hiện trong tài liệu dj và 0 nếu không, tức là,
wij = 1 nếu ti xuất hiện trong dj
= 0 với TH khác

(1)


Boolean Queries: Như đã đề cập trong chương 6.1, thuật ngữ truy vấn là
kết hợp một cách hợp lý bằng cách sử dụng các toán tử Boolean AND, OR và
NOT,
trong đó có ngữ nghĩa thông thường của họ trong logic. Do đó, một truy vấn
Boolean có một ngữ nghĩa chính xác. Chẳng hạn, truy vấn, ((x AND y) AND
(NOT z)) nói
rằng một tài liệu được truy xuất phải chứa cả hai điều khoản x và y chứ không

phải z. Như một ví dụ khác, biểu thức truy vấn (x OR y) có nghĩa là ít nhất một
trong số
các điều khoản này phải có trong mỗi tài liệu lấy. Ở đây, ta giả sử rằng x, y
và z là các điều khoản. Nói chung, chúng có thể là biểu thức Boolean.
Document Retrieval: Đưa ra một truy vấn Boolean, hệ thống truy xuất mọi
tài liệu làm cho truy vấn hợp lý đúng. Do đó, việc thu hồi được dựa trên
về tiêu chí quyết định nhị phân, tức là, một tài liệu có liên quan hoặc không liên
quan. Theo trực giác, điều này được gọi là kết hợp chính xác. Không có khái
niệm về phù hợp một phần hoặc xếp hạng của các tài liệu lấy. Đây là một trong
những
nhược điểm lớn của mô hình Boolean, thường dẫn đến hạn chế kết quả thu
được. Rõ ràng là tần suất của các điều khoản và sự gần gũi đóng góp đáng kể
vào sự liên quan của một tài liệu.
Chính bởi vấn đề này, mô hình Boolean hiếm khi được sử dụng một mình trong
thực tế. Hầu hết các công cụ tìm kiếm hỗ trợ một số hình thức truy xuất Boolean
giới hạn bằng cách sử dụng toán tử bao gồm và loại trừ rõ ràng. Ví dụ:
Truy vấn có thể được cấp cho Google, ‘khai thác trên GoogleData + giá thiết bị
trên đường ăn, trong đó +(bao gồm) và - (loại trừ) tương tự như các toán tử
Boolean AND và NOT tương ứng. Toán tử OR cũng có thể được hỗ trợ.
6.2.2 Mô hình không gian Vector
Mô hình này có lẽ là mô hình IR được biết đến nhiều nhất và được sử dụng rộng
rãi nhất.
Document Representation
Một tài liệu trong mô hình không gian vectơ được biểu diễn dưới dạng vectơ
trọng lượng, trong mà mỗi trọng lượng thành phần được tính dựa trên một số
biến thể của TF hoặc sơ đồ TF-IDF. Trọng lượng của thuật ngữ ti trong tài liệu
dj không còn trong
{0, 1} như trong mô hình Boolean, nhưng có thể là bất kỳ số nào.



Term Frequency (TF) Scheme: Trong phương pháp này, trọng số của một
thuật ngữ ti trong dj tài liệu là số lần ti xuất hiện trong tài liệu dj, ký hiệu bởi fij.
Chuẩn hóa cũng có thể được áp dụng (xem Công thức (2)).
Thiếu sót của sơ đồ TF là nó không xem xét tình huống trong đó một thuật ngữ
xuất hiện trong nhiều tài liệu của bộ sưu tập.
TF-IDF Scheme: Đây là chương trình trọng số được biết đến nhiều nhất, trong
đó
TF vẫn là viết tắt của tần số thuật ngữ và IDF tài liệu nghịch đảo
tần số. Có một số biến thể của chương trình này. Ở đây chỉ là
một trong những chương trình cơ bản nhất.
Đặt N là tổng số tài liệu trong hệ thống hoặc bộ sưu tập và dfi là số lượng tài
liệu trong đó thuật ngữ ti xuất hiện ít nhất một lần. Đặt fij là số đếm tần số thô
của thuật ngữ ti trong tài liệu dj. Sau đó, tần số thuật ngữ chuẩn hóa (ký hiệu là
tfij) của ti trong dj được cho bởi

trong đó mức tối đa được tính trên tất cả các điều khoản xuất hiện trong tài liệu
dj. Nếu thuật ngữ ti không xuất hiện trong dj thì tfij = 0. Nhắc lại rằng | V | là
kích thước từ vựng của bộ sưu tập.
Tần số tài liệu nghịch đảo (ký hiệu là idfi) của thuật ngữ ti được đưa ra bởi:

Trực giác ở đây là nếu một thuật ngữ xuất hiện trong một số lượng lớn tài liệu
trong bộ sưu tập, nó có thể không quan trọng hoặc không là ngoại lệ. Các trọng
số hạn TF-IDF cuối cùng được đưa ra bởi:


Queries
Một truy vấn q được trình bày chính xác giống như một tài liệu trong
thu thập tài liệu. Thuật ngữ trọng số wiq của mỗi thuật ngữ ti trong q cũng có
thể là
được tính theo cách tương tự như trong một tài liệu bình thường, hoặc hơi khác

một chút.
Ví dụ, Salton và Buckley [52] đã đề xuất như sau:

Xếp hạng tài liệu và mức độ liên quan
Thường rất khó để đưa ra quyết định nhị phân về việc một tài liệu là liên quan
đến một truy vấn nhất định. Không giống như mô hình Boolean, mô hình không
gian vectơ không đưa ra quyết định như vậy. Thay vào đó, các tài liệu được xếp
hạng theo mức độ liên quan của chúng với truy vấn. Một cách để tính toán mức
độ liên quan là tính toán độ tương tự của truy vấn q với mỗi truy vấn tài liệu dj
trong bộ sưu tập tài liệu D. Có nhiều phương pháp tương đồng. Một trong
những phương pháp nổi tiếng nhất là sự tương tự cosin, đó là cosin của góc
giữa vectơ truy vấn q và vectơ tài liệu dj,

Sự tương tự cosine cũng được sử dụng rộng rãi trong phân cụm văn bản / tài
liệu.
Tích số của hai vectơ là một phép đo tương tự khác,

Xếp hạng các tài liệu được thực hiện bằng cách sử dụng các giá trị tương tự của
chúng. Đỉnh tài liệu xếp hạng được coi là phù hợp hơn với truy vấn.


Một cách khác để đánh giá mức độ liên quan là tính trực tiếp điểm phù hợp cho
mỗi tài liệu để truy vấn. Phương pháp Okapi và phương pháp của nó các biến
thể là các kỹ thuật phổ biến trong cài đặt này. Truy xuất Okapi công thức đưa ra
ở đây dựa trên điều đó trong [51, 55]. Nó đã được chỉ ra rằng: Các biến thể
Okapi có hiệu quả hơn cosine cho truy xuất truy vấn ngắn.
Vì việc trình bày công thức trực tiếp bằng cách sử dụng túi trực tuyến là dễ
dàng hơn
ký hiệu từ của tài liệu hơn vectơ, dj tài liệu sẽ được ký hiệu là
dj và truy vấn q sẽ được ký hiệu là q. Các ký hiệu bổ sung như sau:

ti là một thuật ngữ
fij là số tần số thô của thuật ngữ ti trong tài liệu dj
fiq là số tần số thô của thuật ngữ ti trong truy vấn q
N là tổng số tài liệu trong bộ sưu tập
dfi là số tài liệu có chứa thuật ngữ ti
dlj là độ dài tài liệu (tính bằng byte) của dj
avdl là chiều dài tài liệu trung bình của bộ sưu tập
Điểm phù hợp Okapi của dj tài liệu cho truy vấn q là:

trong đó k1 (trong khoảng từ 1,0-2), b (thường là 0,75) và k2 (trong khoảng 11000) là thông số.
Một chức năng cho điểm khác là trọng số chuẩn hóa có trục chức năng điểm số,
ký hiệu là pnw [55]:

Trong đó s là một tham số (thường được đặt thành 0,2). Lưu ý rằng đây là
những kinh nghiệm chức năng dựa trên trực giác và đánh giá thử nghiệm. Có
nhiều biến thể của các chức năng này được sử dụng trong thực tế.
6.2.3 Mô hình ngôn ngữ thống kê


Các mô hình ngôn ngữ thống kê (hoặc đơn giản là các mô hình ngôn ngữ) dựa
trên
xác suất và có nền tảng trong lý thuyết thống kê. Ý tưởng cơ bản của việc này
cách tiếp cận để thu hồi là đơn giản. Đầu tiên, nó ước tính một mô hình ngôn
ngữ cho mỗi tài liệu và sau đó xếp hạng tài liệu theo khả năng của truy vấn đã
cho mô hình ngôn ngữ. Ý tưởng tương tự trước đây đã được sử dụng trong tự
nhiên xử lý ngôn ngữ và nhận dạng giọng nói. Việc xây dựng và thảo luận trong
phần này dựa trên những người trong [68, 69]. Lấy thông tin bằng cách sử dụng
mô hình ngôn ngữ lần đầu tiên được đề xuất bởi Ponte và Croft [46].
Đặt truy vấn q là một chuỗi các thuật ngữ, q = q1q2 Khắc qm và tài liệu
bộ sưu tập D là một tập hợp các tài liệu, D = {d1, d2, tầm, dN}. Trong ngôn ngữ

mô hình hóa phương pháp tiếp cận, chúng tôi coi xác suất của một truy vấn q là
Được tạo ra bởi một mô hình xác suất dựa trên một tài liệu dj, tức là, Pr (q | dj).
Để xếp hạng các tài liệu trong truy xuất, chúng tôi quan tâm đến việc ước tính
xác suất sau Pr (dj | q). Sử dụng quy tắc Bayes, chúng ta có

Để xếp hạng, Pr (q) là không cần thiết vì nó giống nhau cho mọi tài liệu.
Pr (dj) thường được coi là bề ngoài và do đó sẽ không ảnh hưởng đến thứ hạng.
Ta chỉ cần tính Pr (q | dj).
Mô hình ngôn ngữ được sử dụng trong hầu hết các công việc hiện có được dựa
trên unigram, tức là chỉ các thuật ngữ riêng lẻ (từ) được xem xét. Đó là, mô hình
giả định
rằng mỗi thuật ngữ (từ) được tạo độc lập, về cơ bản là một phân phối đa thức
trên các từ. Trường hợp chung là n-gram mô hình, trong đó thuật ngữ thứ n
được quy định dựa trên các điều khoản n-1 trước đó.
Dựa trên phân phối đa cực và mô hình unigram, ta có:

Trong đó fiq là số lần mà thuật ngữ ti xảy ra trong q và
| IV | 1Pr (ti | d j) 1. Vấn đề truy xuất được giảm xuống để ước tính Pr (ti | dj),


có thể là tần số tương đối,

Hãy nhớ lại rằng fij là số lần mà thuật ngữ ti xảy ra trong tài liệu dj. | dj | biểu
thị tổng số từ trong dj.
Tuy nhiên, một vấn đề với ước tính này là một thuật ngữ không xuất hiện trong
dj có xác suất bằng 0, đánh giá thấp xác suất của thuật ngữ vô hình trong tài
liệu. Tình huống này tương tự như văn bản phân loại bằng mô hình Bayes ngây
thơ (xem Phần 3.7). Một số 0 xác suất thường được gán cho mỗi thuật ngữ chưa
thấy trong tài liệu, được gọi là làm mịn. Làm mịn điều chỉnh các ước tính của
xác suất để tạo ra xác suất chính xác hơn. Tên làm mịn xuất phát từ thực tế là

các kỹ thuật này có xu hướng phân phối nhiều hơn thống nhất, bằng cách điều
chỉnh các xác suất thấp như xác suất 0 trở lên, và xác suất cao trở xuống. Không
chỉ làm phương pháp làm mịn nhằm mục đích ngăn chặn xác suất bằng không,
nhưng họ cũng cố gắng cải thiện độ chính xác của mô hình nói chung. Làm mịn
phụ gia truyền thống là

Khi � = 1, đó là làm mịn Laplace và khi 0 < � <1, đó là
Làm mịn Lidstone. Nhiều phương pháp làm mịn tinh vi khác
có thể được tìm thấy trong [16, 69].




×