Tải bản đầy đủ (.pptx) (18 trang)

Information retrieval

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.21 MB, 18 trang )

Information Retrieval
Trình bày: Thân Trọng Thành


Nội dung

- Information Retrieval là gì?

 

- Cấu trúc chung

 

- Những vấn đề trong bài toán Information Retrieval

 

- Một số kĩ thuật phổ biến

 

- Ứng dụng

 

- Thách thức

 



Information Retrieval là gì?

Thuật ngữ Information Retrieval có thể mang nghĩa rất rộng. Tuy nhiên, ở
khía cạnh học thuật, ta có thể định nghĩa là:
 

Information Retrieval là hoạt động tìm kiếm tài liệu có bản chất phi cấu
trúc (unstructured) như văn bản, hình ảnh, video,.. sao cho phù hợp
(relevant) với một nhu cầu thơng tin (information need) nào đó, từ một
tập hợp dữ liệu lớn (large collections)
 


Quá tải thông tin (Information overload)

- Khối lượng thông tin khổng lồ ngày càng bùng nổ theo thời gian.

 

- Thời gian tìm kiếm: tỉ lệ thuận với khối lượng thơng tin

 

=> Information Retrieval ra đời để giải quyết vấn đề

 


Cấu trúc chung


 

Trong một bài tốn IR điển hình, đầu vào là:



Một bộ ngữ liệu (corpus) các tài liệu văn bản



Một câu truy vấn (query) của người dùng dưới
dạng văn bản

 

Đầu ra:



Một tập xếp hạng (ranked list) các văn bản mà
được cho là phù hợp (relevant) với câu truy vấn
(query).


Tính phù hợp (relevant) trong IR

Dựa trên các đặc tính của thơng tin, ta có thể suy ra tính phù hợp là một đánh giá mang
tính chủ quan (subjective) và (có thể) bao gồm:
 


Độ tin cậy

Tính đầy đủ

Tính thích hợp và
dễ hiểu

Tính an tồn

Tính kịp thời



Đúng chủ đề (proper subject)



Đúng thời điểm (timely, recent information)



Đáng tin cậy (authoritative)



Thỏa mãn mục tiêu và ý định của người dùng về nhu cầu thông tin (information
need)


Dữ liệu trong IR


Mục tiêu của IR còn để quản lí/làm việc với dữ liệu phi cấu trúc (handling unstructured data).

 




Dữ liệu có cấu trúc: cơ sở dữ liệu (database) là một sự lựa chọn tốt
Dữ liệu phi cấu trúc:





Tồn tại ở nhiều dạng khác nhau: email, hình ảnh, video, âm thanh,..
85% dữ liệu của một doanh nghiệp tồn tại ở dạng phi cấu trúc, theo Merril Lynch
Ngữ nghĩa không rõ ràng (unknown semantic meaning)


Những vấn đề trong bài toán IR

Biểu diễn tập tài liệu như thế nào? (Index)

 

Biểu diễn nhu cầu thông tin như thế nào? (Query)

 


Bằng cách nào hệ thống có thể trả về những tài liệu có liên quan đến nhu cầu thơng tin một các có hiệu quả?
(Information Retrieval)
 


Những vấn đề trong bài toán IR

Trong một hệ thống IR điển hình:

 



Biểu diễn bộ tài liệu mà ta cần tìm kiếm trên đó (offline)



Biểu diễn câu query từ người dùng (online)



So khớp sự tương đồng giữa câu query của người và các bộ tài liệu và đưa ra một
bảng xếp hạng các kết quả được cho là relevant



Kết quả này sẽ được đánh giá bằng một phương pháp cụ thể




Từ kết quả đánh giá này ta có thể tìm ra hướng cải thiện hệ thống tìm kiếm.


Một số kĩ thuật phổ biến

1. Boolean Model

 

Mơ hình này yêu cầu thông tin phải được biểu diễn thành dạng biểu thức Boolean (True/False) và những truy vấn dạng Boolean. Sau đó được
sử dụng để xác định thơng tin cần thiết khi biểu thức Boolean đúng. Kĩ thuật này sử dụng các phép toán Boolean (AND, OR, NOT) để tạo ra
sự kết hợp của nhiều thành phần dựa trên những gì người dung u cầu

-

2. Vector Space Model

 

-

Mơ hình này sử dụng tài liệu và truy vấn dưới dạng vector và truy xuất tài liệu dựa trên độ giống nhau của chúng. Điều này dẫn đến cho ta
kết quả là 2 loại vector được sử dụng để xếp hạng kết quả tìm kiếm:

Binary trong Boolean VSM
Weighted trong Non-binary VSM


Một số kĩ thuật phổ biến


3. Probability Distribution Model

 

Trong mô hình này, các tài liệu được coi như phân phối các thành phần và các truy vấn sẽ được so khớp dựa trên sự giống nhau giữa những
biểu diễn này. Điều này có thể thực hiện được bằng cách sử dụng entropy hoặc bằng cách tính tốn khả năng liên quan của tài liệu, nếu
xuất hiện 2 loại:

 

Similarity-based Probability Distribution Model
Expected-utility-based Probability Distribution Model
4. Probabilistic Models 

 

 

Mơ hình xác suất khá đơn giản và sử dụng xếp hạng xác suất để hiển thị kết quả. Nói một cách dễ hiểu hơn thì các tài liệu sẽ được xếp
hạng dựa trên xác suất mức độ liên quan của chúng với một truy vấn tìm kiếm


Boolean Model

“Cung-Tiến AND rừng-Sim AND NOT Trà-Long”

Mơ hình này u cầu thơng tin phải được biểu diễn
thành dạng biểu thức Boolean (True/False) và những
truy vấn dạng Boolean. Sau đó được sử dụng để xác
định thông tin cần thiết khi biểu thức Boolean đúng.

Kĩ thuật này sử dụng các phép toán Boolean (AND,
OR, NOT) để tạo ra sự kết hợp của nhiều thành phần
dựa trên những gì người dung yêu cầu
 

Một cách đơn giản nhất là duyệt bằng mắt từng dòng từng trang, qua các chương và ghi lại các chương có
chứa Cung-Tiến và rừng-Sim, sau đó thì loại các chương có chữ Trà-Long. Khi hiện thực giải pháp tìm kiếm
tuyến tính này lên máy tính, cách tiếp cận ngây thơ (naive) này trở nên kém hiệu quả (inefficient) vì chi phí
tính tốn khổng lồ.


Ứng dụng

Tìm kiếm thơng tin trên web (web search) là một ứng dụng điển hình của bài tốn Information Retrieval. Tuy nhiên thì giới hạn khơng nằm ở đó,
IR có thể ứng dụng trong rất nhiều bài toán khác như QA, Recommendation, Text mining,…
 


Ứng dụng


Ứng dụng


Thách thức



Truy cập thơng tin tồn cầu (Global information access): Nhằm đáp ứng nhu cầu thông tin của con người một
cách tự nhiên và hiệu quả với một hệ thống tự động tận dụng những dữ liệu có cấu trúc và phi cấu trúc trên tồn thế

giới bằng bất kì ngôn ngữ nào



Truy xuất theo ngữ cảnh (Contextual retrieval): Kết hợp giữa các cơng nghệ tìm kiếm và tri thức về truy vấn
cùng với ngữ cảnh của người dùng vào một framework nhằm cung cấp thơng tin “thích hợp” nhất với yêu cầu của
người dùng


Thách thức



Sensory Gap: Khoảng cách giữa thơng tin vật thể thực tế và thể hiện của
chúng trên máy tính, vấn đề này có thể liên quan tới thiếu bị thu nhận (camera,
lidar, máy ghi âm,..).



Semantic Gap: là khoảng cách giữa thông tin của con người hiểu/tiếp thu với
những biểu diễn cấp thấp (low-level representation) của dữ liệu được lưu trên
máy tính.

Ví dụ: Một bức ảnh hồng hơn trên biển có thể hiểu theo nhiều cáchMột bức
ảnh hồng hơn lãng mạn
Một buổi chiều buồn hiu hắt
Bầu trời rực lửa khi chiều tàn


Intention Gap: Khoảng cách giữa câu truy vấn của người dùng và thứ họ thực

sự muốn.


REF

-

/>
-

/>
-

/>
-

Wikipedia

-

/>
-

/>
-

Challenges in Information Retrieval and Language Modeling [ />



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×