Tải bản đầy đủ (.pdf) (52 trang)

Tìm kiếm thông tin dựa trên ngữ cảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (726.17 KB, 52 trang )

bộ giáo dục và đào tạo
trờng đại học bách khoa hà nội
---------------------------------------

luận văn thạc sĩ khoa học

TìM KIếM THÔNG TIN dựa trên ngữ cảnh

ngành : công nghệ THÔNG TIN
m số:23.04.3898
BùI KHáNH LINH

Ngời hớng dẫn khoa học : TS. Vũ TUYếT TRINH

Hà Nội 2010


3. 4 Mẫu vỏ đĩa CD

luận văn thạc sĩ khoa học

NGữ CảNH TRONG TìM KIếM THÔNG TIN

ngành : công nghệ THÔNG TIN
m số:23.04.3898

BùI KHáNH LINH
Hà Nội 2010


Tìm kiếm thông tin theo ngữ cảnh



LỜI CAM ĐOAN
Tôi – Bùi Khánh Linh - cam đoan Luận văn này là công trình nghiên cứu của
bản thân tôi dưới sự hướng dẫn của TS. Vũ Tuyết Trinh.
Các kết quả nêu trong Luận văn là trung thực, không phải là sao chép toàn
văn của bất kỳ công trình nào khác.
Hà Nội, ngày tháng năm
Tác giả Luận văn

Bùi Khánh Linh

Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

1


Tìm kiếm thông tin theo ngữ cảnh

MỤC LỤC
MỤC LỤC ........................................................................................................................ 2
DANH MỤC HÌNH ....................................................................................................... 4
DANH MỤC BẢNG ...................................................................................................... 5
LỜI NÓI ĐẦU ................................................................................................................. 6
CHƯƠNG 1.TỔNG QUAN CỦA MỘT HỆ THỐNG TÌM KIẾM THÔNG
TIN.

......................................................................................................................... 7

1.1.


Định nghĩa về một hệ tìm kiếm thông tin. .........................................7

1.2.

Các khái niệm cơ bản trong xử lý văn bản.......................................11

1.2.1.

Từ khóa, thuật ngữ.....................................................................11

1.2.2.

Từ dừng (Stop Words)...............................................................11

1.2.3.

Độ đồng nghĩa giữa 2 từ ............................................................12

1.2.4.

Từ đồng âm:...............................................................................12

1.2.5.

Trọng số của thuật ngữ ..............................................................13

1.2.6.

Độ liên quan giữa các văn bản ..................................................14


Các phương pháp biểu diễn văn bản ................................................14

1.3.

1.3.1.

Phân tích văn bản.......................................................................14

1.3.2.

Mô hình Boolean .......................................................................15

1.3.3.

Mô hình Vector..........................................................................18

1.3.3.1.

Biểu diễn văn bản bằng mô hình vector .............................19

1.3.3.2.

Biểu diễn bằng vector thưa.................................................19

1.3.3.3.

Biểu diễn bằng mô hình tần số ...........................................22

CHƯƠNG 2... MÔ HÌNH BIỂU DIỄN VÀ KHAI THÁC THÔNG TIN NGỮ
CẢNH

2.1.

....................................................................................................................... 25

Mô hình ngữ cảnh.............................................................................25

2.1.1.

Mục đích của mô hình ngữ cảnh ...............................................25

2.1.2.

Các phương pháp tiếp cận mô hình ngữ cảnh ...........................28

Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

2


Tìm kiếm thông tin theo ngữ cảnh

2.2.

Ngữ cảnh trong hệ thống thông tin...................................................28

2.3.

Mô hình ngữ cảnh theo yêu cầu. ......................................................29

2.4.


Các kỹ thuật tìm kiếm có liên quan..................................................32

2.4.1.

SAIMOTION.............................................................................32

2.4.2.

Tower.........................................................................................36

CHƯƠNG 3.SO SÁNH VÀ ĐÁNH GIÁ ............................................................... 40
3.1.

So sánh với các yêu cầu....................................................................40

3.2.

So sánh SaiMotion và TOWER .......................................................42

3.3.

Đánh giá............................................................................................45

KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN ................................................. 47
TÀI LIỆU THAM KHẢO .......................................................................................... 48

Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

3



Tìm kiếm thông tin theo ngữ cảnh

DANH MỤC HÌNH
Hình 1.1. Quy trình tìm kiếm thông tin. .................................................................. 8
Hình 1.2. Tập hợp qdnf ................................................................................................ 16
Hình 1.3. Biểu diễn văn bản bằng mô hình vector .............................................. 19
Hình 1.4. Biểu diễn vector của không gian văn bản. .......................................... 22
Hình 2.1. Ba cấp của mô hình .................................................................................... 26
Hình 2.2. Lưu lượng thông tin ngữ cảnh trong SaiMotion ................................. 33
Hình 2.3. Context Typology ....................................................................................... 34
Hình 2.4. Các kỹ thuật của mô hình ngữ cảnh. ..................................................... 35
Hình 2.5. Kiến trúc Tower .......................................................................................... 37

Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

4


Tìm kiếm thông tin theo ngữ cảnh

DANH MỤC BẢNG
Bảng 1.1. Đại số Boolean ........................................................................................... 15
Bảng 1.2. Biểu diễn câu truy vấn q .......................................................................... 17
Bảng 1.3. Ví dụ biểu diễn vector thưa. ................................................................... 20
Bảng 2.1. Thuộc tính của ngữ cảnh nhận thức ...................................................... 38

Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009


5


Tìm kiếm thông tin theo ngữ cảnh

LỜI NÓI ĐẦU
Trong vài thập kỷ gần đây, mạng Internet đã làm cho thế giới như nhỏ
lại. Là một thư viện khổng lồ, mạng Internet cho phép chúng ta truy xuất và
lấy thông tin từ bất kỳ đâu, bất kể khoảng cách địa lý. Tuy nhiên, chính sự
bùng nổ của Internet, đạt biệt là sự phát triển với tốc độ nhanh chóng và với
số lượng lớn các trang web làm cho việc tìm kiếm thông tin cũng trở nên
khó khăn hơn. Số lượng các máy chủ Internet tăng lên từng ngày, các công
nghệ và các dịch vụ mới dựa trên nền tảng Internet đang phát triển với mức
độ chóng mặt. Vì vậy, việc tìm kiếm và thu được thông tin phù hợp, chính
xác trên Internet là khó khăn. Chính vì lý do đó, cần thiết phát triển các hệ
thống tìm kiếm thông tin với mục đích hỗ trợ người sử dụng tìm kiếm
thông tin chính xác trên Internet là một trong những vấn đề quan trọng
được đặt ra.
Với mục đích tìm hiểu về hệ thống tìm kiếm thông tin chính xác hơn,
tác giả đã chọn “Ngữ cảnh trong tìm kiếm thông tin” làm đề tài nghiên cứu
cho luận văn thạc sỹ của mình.
Dựa trên yêu cầu của đề tài, luận văn tốt nghiệp sẽ giải quyết những
mục tiêu cơ bản sau:
1. Tìm hiểu về cơ sở lý thuyết của tìm kiếm thông tin.
2. Tìm hiểu và nghiên cứu các mô hình biểu diễn và khai thác thông
tin ngữ cảnh. Từ đó đánh giá và đưa ra đề xuất.
Về mặt bố cục, luận văn này gồm ba chương với những nội dung
chính sau:
Chương 1: Giới thiệu lý thuyết về tìm kiếm thông tin.
Chương 2: Giới thiệu các mô hình biểu diễn và khai thác thông tin ngữ

cảnh.
Chương 3: So sánh và đánh giá về các mô hình và đưa ra đề xuất.
Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

6


Tìm kiếm thông tin theo ngữ cảnh

CHƯƠNG 1. TỔNG QUAN CỦA MỘT HỆ THỐNG
TÌM KIẾM THÔNG TIN.
1.1.

Định nghĩa về một hệ tìm kiếm thông tin.
Ngày nay Internet đã trở nên quen thuộc với rất nhiều người, do đó

thuật ngữ tìm kiếm thông tin xuất hiện từ khá sớm và thông tin ở đây có thể
là văn bản, hình ảnh hoặc âm thanh… Phổ biến nhất là tìm kiếm văn bản,
đặc biệt là trong hệ tìm kiếm thông tin. Đôi khi, thuật ngữ này được dùng
như là toàn bộ quá trình từ việc xử lý văn bản tới phân lớp và tìm kiếm văn
bản.
Trong kho thông tin vô tận trên Internet thì với hệ tìm kiếm thông tin
là công cụ tìm kiếm thông tin hiệu quả mà người sử dụng cần. Người sử
dụng luôn mong muốn rằng phải có một công cụ nào đó để mỗi lần truy cập
vào Internet họ sẽ lấy được những thông tin cần thiết đang tìm kiếm.
Một hệ tìm kiếm thông tin là một phần mềm dùng để lưu trữ và quản
lý thông tin nằm trong các tài liệu, giúp người sử dụng tìm kiếm được thông
tin mà họ quan tâm. Hệ thống này không giống như các hệ trả lời câu hỏi, vì
nó còn phải chỉ ra sự tồn tại và vị trí những tài liệu chứa thông tin cần thiết.
Một số tài liệu tìm kiếm được thỏa mãn yêu cầu của người sử dụng

chúng ta gọi là tài liệu phù hợp hoặc là tài liệu có liên quan. Một hệ tìm kiếm
hoàn hảo sẽ chỉ tìm và đưa ra tài liệu liên quan mà không đưa ra những tài
liệu không liên quan, tuy nhiên hệ thống này là không tồn tại bởi thể hiện
của tìm kiếm là không đầy đủ và mức độ liên quan phụ thuộc vào quan điểm
chủ quan của từng người.

Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

7


Tìm kiếm thông tin theo ngữ cảnh

Tìm kiếm thông tin nói chung phải giải quyết những vấn đề như biểu
diễn, lưu trữ, tổ chức và truy cập đến các mục của thông tin. Việc tổ chức và
biểu diễn thông tin giúp người sử dụng dễ dàng truy cập được thông tin mà
họ đang quan tâm. Nhưng để tìm kiếm một đặc điểm thông tin theo yêu cầu
của người sử dụng không phải là một công việc dễ dàng, đặc biệt với một cơ
sở dữ liệu khổng lồ và đa dạng. Do vậy, một hệ tìm kiếm thông tin hoàn
chỉnh luôn có ba môđun cơ bản sau:
1. Môđun lập chỉ mục tài liệu
2. Môđun tìm kiếm trên chỉ mục tài liệu theo các câu truy vấn của
người sử dụng.
3. Môđun sắp xếp kết quả tìm kiếm được.

Yêu cầu tìm
kiếm

Tập
thông tin


IRS

Xử lý biểu diễn truy vấn

Đối sánh
Biểu diễn yêu cầu truy vấn trong
IRS

Dữ liệu

Xử lý biểu diễn lưu trữ
Biểu diễn tài liệu trong IRS

Dữ liệu

Hình 1.1.

Quy trình tìm kiếm thông tin.

Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

8


Tìm kiếm thông tin theo ngữ cảnh

Quá trình xử lý biểu diễn lưu trữ thường được gọi là quá trình lập chỉ
mục tài liệu (Indexing). Quá trình này giúp lưu trữ tài liệu trong hệ thống.
Quá trình xử lý biểu diễn truy vấn, truy vấn biểu thị sự tương tác giữ hệ

thống và người sử dụng, do đó quá trình này không chỉ đưa ra một truy vấn
phù hợp mà còn phải thể hiện được sự dễ hiểu về yêu cầu của người sử dụng.
Việc thiết lập tự động các truy vấn liên tiếp gọi là phản hồi độ liên quan.
Việc so sánh truy vấn với tài liệu cũng được gọi là quá trình đối sánh
(Matching process) và cho kết quả là một danh sách tài liệu được sắp xếp
theo thứ tự của mức độ liên quan với truy vấn.
Để mô tả thông tin yêu cầu một cách đầy đủ, người sử dụng không thể
trực tiếp yêu cầu thông tin sử dụng giao diện hiện thời của hệ tìm kiếm. Mà
họ phải chuyển đổi thông tin yêu cầu này thành một truy vấn mà có thể xử lý
bởi hệ tìm kiếm (hoặc hệ thu hồi thông tin – IR: Information Retrieval).
Thông thường, phép chuyển đổi này tạo ra một tập hợp từ khóa hoặc các
term chỉ số mô tả khái quát yêu cầu của người sử dụng. Với một truy vấn,
mục đích chính của hệ IR là tìm kiếm thông tìn mà có thể trở nên hữu ích
hoặc phù hợp với người sử dụng.
Nhiệm vụ của phục hồi dữ liệu chính là việc xác định tài liệu chứa các
từ khóa xuất hiện thường xuyên nhất trong truy vấn mà không cần thỏa mãn
yêu cầu của họ. Trên thực tế người sử dụng hệ thống IR quan tâm nhiều đến
việc phục hồi thông tin về một chủ đề hơn là việc khôi phục dữ liệu mà đáp
ứng một truy vấn đưa ra. Một ngôn ngữ phục hồi dữ liệu hướng vào việc
khôi phục tất cả các đối tượng thỏa mãn điều kiện đã xác định rõ rành như
một biểu thức chính tắc hoặc biểu thức đại số quan hệ.

Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

9


Tìm kiếm thông tin theo ngữ cảnh

Tuy nhiên, với một hệ thống khôi phục thông tin, các đối tượng tìm

kiếm có thể không chính xác và cho phép có lỗi nhỏ. Nguyên nhân chính của
sự khác nhau này việc khôi phục thông tin luôn xử lý với tài liệu chưa ngôn
ngữ tự nhiên thường không có cấu trúc và có thể không rõ nghĩa. Nói cách
khác, hệ thống khôi phục dữ liệu xử lý dữ liệu có cấu trúc và ngữ nghĩa đã
được xác định. Để đáp ứng hiệu quả yêu cầu thông tin của người sử dụng, hệ
thống IR phải bằng cách nào đó “hiểu” được nội dung thông tin của các tài
liệu trong một tập hợp và sắp xếp chúng theo mức độ phù hợp của câu truy
vấn. Sự “hiểu” về nội dung này bao gồm việc trích chọn cú pháp, ngữ nghĩa
từ văn bản và sử dụng thông tin này để so khớp với thông tin sử dụng. Ở đây
không chỉ hiểu để trích chọn thông tin mà còn là cách sử dụng nó để quyết
định mối liên quan này như thế nào. Trong thực tế, mục đích chính của hệ
thống IR là tìm kiếm tất cả những tài liệu liên quan với truy vấn của người sử
dụng mặc dù việc tìm kiếm có thể đưa ra một số tài liệu không thích hợp với
yêu cầu.
Như vậy, khôi phục thông tin là một quá trình nhận dạng, xác định và
chỉ ra tài liệu liên quan dựa trên mô tả yêu cầu thông tin của người sử dụng.
Việc tìm kiếm dựa trên nội dung thực sự của tài liệu mà không phụ thuộc
vào các từ khóa gắn với tài liệu đó. Một số mô tơ tìm kiếm thông tin nổi
tiếng như hiện nay như Google, Yahoo,.. là những mô tơ tìm kiếm đưa ra
danh sách các tài liệu theo độ quan trọng của câu truy vấn đưa vào. Để xây
dựng một hệ tìm kiếm có hiệu quả cao, trước hết tài liệu và truy vấn ở dạng
ngôn ngữ tự nhiên phải được riền xử lý và chuẩn hóa.
Xử lý biểu diễn lưu trữ và xử lý biểu diễn truy vấn liên quan tới việc
phân tích các thông tin, phân lớp và tiến hành lưu trữ các chỉ mục thông tin
dưới dạng các tệp có cấu trúc, đặc biệt được tiến hành tuân theo những thuật
Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

10



Tìm kiếm thông tin theo ngữ cảnh

toán riêng. Các chỉ mục thông tin sau quá trình phân tích sẽ được lưu trữ
trong cơ sở dữ liệu. Một số phương thức thông dụng được sử dụng để biểu
diễn văn bản mà tác giả nghiên cứu bao gồm: i) mô hình Boolean, ii) mô
hình vector, và iii) mô hình xác suất.

1.2.

Các khái niệm cơ bản trong xử lý văn bản

1.2.1. Từ khóa, thuật ngữ
Từ khóa: là các từ xuất hiện trong một vản bản ở dạng nguyên thể, có
nghĩa trong từ điển. Ví dụ với văn bản: “Hôm nay trời mưa to quá”, các từ
khóa có thể tách ra là: “Hôm nay”, “trời”, “mưa”, “to”, “quá”.
Thuật ngữ: Là các từ khóa có nghĩa liên quan đến một lĩnh vực nào
đó. Ví dụ: “máy tính”, “công nghệ phần mềm”…các thuật ngữ này thuộc về
lĩnh vực “tin học”.

1.2.2. Từ dừng (Stop Words)
Trong văn bản, có nhiều từ được sử dụng chủ yếu với mục đích kết
nối ngữ pháp cho các từ khác, chứ ít mang ý nghĩa biểu đạt về mặt nội dung.
Vì vậy, chúng thường xuất hiện với mật độ lớn trong nhiều văn bản. Khi
phân lớp văn bản, những từ dừng không có nhiều giá trị trong việc đặc trưng
cho nội dung của văn bản, nên sẽ bị loại đi trước khi tiến hành phân lớp.
Theo thống kê, hiện nay chúng ta đã có danh sách từ dừng trong Tiếng Việt
với 1486 từ.
Ví dụ:
“Trong trận đấu này, hiệp 1 các cầu thủ của tôi thi đấu không được tốt lắm.”
Các từ như: “trận đấu”, “hiệp”, “cầu thủ”, “thi đấu” mang giá trị nội

dung rất cao, và quyết định cho câu văn có nội dung về “thể thao” (hay
“bóng đá”). Chúng rất có giá trị trong phân lớp. Ngược lại, các từ như
Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

11


Tìm kiếm thông tin theo ngữ cảnh

“trong”, “này”, “tôi”, “không”, “tốt”, “lắm” chỉ mang tính hoàn thiện cấu
trúc ngữ pháp cho câu. Chúng ta hoàn toàn có thể bắt gặp chúng trong những
văn bản khác không thuộc chủ đề “thể thao” hay “bóng đá”.

1.2.3. Độ đồng nghĩa giữa 2 từ
Trong ngôn ngữ, mỗi từ đều có thể có một hoặc nhiều từ đồng nghĩa,
hoặc gần nghĩa. Sự gần nhau về ngữ nghĩa của hai từ chính là độ đo sự tương
đồng về mặt nội dung mà chúng muốn biểu đạt. Hai từ có độ tương đồng
càng cao, thì càng có khả năng thay thế cho nhau trong văn bản.
Chẳng hạn, từ “nhà” có thể bao gồm một tập các từ đồng nghĩa và
gần nghĩa như: “căn hộ”, “cao ốc”, “chung cư”, “bất động sản”…
Trong Tiếng Anh, một công cụ thường được sử dụng để tính toán độ đồng
nghĩa của các cặp từ, đó là WordNet. WordNet là một mạng các từ vựng với
các mối quan hệ ngữ nghĩa khác nhau. Từ có thể thuộc về 1 hoặc nhiều
synset (nghĩa mà nó biểu thị). Thông qua việc tính toán khoảng cách giữa
các synset này trên đồ thị, người ta sẽ xác định được “độ gần” giữa các từ
thuộc các synset này.
Đối với Tiếng Việt, hiện chúng ta chưa có được một mạng ngữ nghĩa
từ như WordNet. Do vậy, để phục vụ cho việc tính toán độ tương tự giữa các
danh từ Tiếng Việt, tác giả đã phải sử dụng hai nguồn ngữ liệu kết hợp: Thứ
nhất, cây phân cấp các loại nghĩa của danh từ (gồm 109 loại nghĩa), và từ

điển danh từ Tiếng Việt kèm với nghĩa đã được gán thủ công (gồm khoảng
50.000 danh từ).

1.2.4. Từ đồng âm:
Từ đồng âm là những từ phát âm giống nhau hay cấu tạo âm thanh giống
nhau, nhưng nghĩa hoàn toàn khác nhau. Nó xuất hiện nhiều trong tiếng Hán,
tiếng Việt [3]. Trong luận văn này, hiện tượng từ đồng âm trong tiếng Việt
Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

12


Tìm kiếm thông tin theo ngữ cảnh

rất đáng được quan tâm, vì nó gây ra hiện tượng nhập nhằng nghĩa cho từ.
Nếu không xử lý tốt việc khử nhập nhằng nghĩa cho các từ đồng âm này, rất
có thể sẽ dẫn đến xác định chủ đề sai cho văn bản.
Ví dụ:
+ Đồng âm từ vựng: Tất cả các từ đều thuộc cùng một từ loại.


Đường này thật rộng!



Chúng ta nên pha thêm đường.

+ Đồng âm từ vựng-ngữ pháp: Các từ trong nhóm đồng âm với nhau chỉ
khác nhau về từ loại.
• Chú ấy câu được nhiều cá quá!



Vài câu nói ấy thì được cái gì!

1.2.5. Trọng số của thuật ngữ
Trọng số của thuật ngữ là độ quan trọng hay hàm lượng thông tin mà
thuật ngữ đó mang lại cho văn bản. Nó là đại lượng dùng để đo sự khác biệt
giữa văn bản chứ nó với các văn bản khác. Đại lượng này thường được xác
định bằng tay hoặc đánh giá bằng số lần xuất hiện của thuật ngữ trong văn
bản và số lần xuất hiện của thuật ngữ đó trong văn bản khác. Khi số lần xuất
hiện của thuật ngữ trong văn bản càng nhiều thì thông tin nó mang lại càng
lớn. Khi số lần xuất hiện của nó trong các văn bản khác càng nhiều thì thông
tin nó mang lại càng ít.

Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

13


Tìm kiếm thông tin theo ngữ cảnh

1.2.6. Độ liên quan giữa các văn bản
Độ liên quan giữa hai văn bản là mức độ gần nhau về mặt nội dung
của hai văn bản đó.
Để lượng hoá độ tương tự này, người ta có thể thông qua các mô hình
toán học, mà chủ yếu là mô hình xác suất (đánh giá độ liên quan theo tần
suất xuất hiện của các từ, ngữ...trong văn bản). Bên cạnh đó, cũng có thể áp
dụng các mô hình liên quan đến ngôn ngữ (như: cấu trúc cú pháp của các câu
văn, độ tương đồng ngữ nghĩa giữa các từ, ngữ trong câu văn...).


1.3.

Các phương pháp biểu diễn văn bản
Tiến trình biểu diễn văn bản đóng vai trò hết sức quan trọng trong một

hệ thống tìm kiếm thông tin. Tiến trình này bao gồm các bước cơ bản sau: i)
Phân tích văn bản, ii) phân lớp, và iii) lưu trữ thông tin chỉ mục.

1.3.1. Phân tích văn bản
Phân tích văn bản là quá trình tìm kiếm, phân tích từ vựng và cú pháp
trong từng văn bản nhằm tìm ra những chỉ mục thông tin đặc trưng cho văn
bản. Quá trình phân tích văn bản nhằm xây dựng một dạng thể hiện của văn
bản mà máy tính có thể hiểu được, thông thường dạng biểu diễn của văn bản
là tập hợp các thông tin chỉ mục của chúng, được lưu trữ trong cơ sở dữ liệu.
Việc đánh trọng số các từ khóa trong quá trình đánh chỉ mục là một
vấn đề hết sức quan trọng trong tìm kiếm thông tin. Các từ khóa sẽ có trọng
số bằng 0 nếu không xuất hiện trong văn bản và trọng số là 1 nếu xuất hiện
trong văn bản. Các từ khóa không có trọng số thường được sử dụng trong mô
hình Boolean truyền thống.

Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

14


Tìm kiếm thông tin theo ngữ cảnh

1.3.2. Mô hình Boolean
Đây là mô hình đơn giản nhất của một hệ thống tìm kiếm thông tin. Mô hình
này dựa trên lý thuyết đại số Boolean trong quá trình đánh chỉ mục và quá

trình truy vấn.
a

b

a and b

0

0

0

0

1

0

1

0

0

1

1

1


Bảng 1.1.

Đại số Boolean

Mô hình Boolean sử dụng các từ vựng trong văn bản để xây dựng tập
hợp từ khóa dưới dạng các tệp từ khóa nghịch đảo (nghĩa là các tệp chỉ mục
lưu trữ các thông tin về sự tồn tại của từ khóa trong văn bản hay trong tập
hợp văn bản). Trọng số của các từ khóa theo mô hình Boolean truyền thống
chỉ tồn tại hai giá trị 0 và 1. Trọng số của từ khóa bằng 1 khi từ khóa có xuất
hiện trong văn bản và trọng số của từ khóa bằng 0 khi nó không có trong văn
bản. Theo mô hình này một văn bản dj sẽ được mô tả bằng một tập hợp K
gồm t từ khóa ki
dj =(k1, k2,…, kt)
Với wij là trọng số tương ứng của từ khóa ki trong văn bản Dj ta cũng
có thể viết lại Dj như sau:
dj= (w1j, w2j,…, wtj)

wi,j ∈ {0,1}

Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

15


Tìm kiếm thông tin theo ngữ cảnh

Và xét tham số gi là hàm trọng số gắn với từ khóa ki, trong trường hợp
này gi=wij, ta có giá trị tương tự sim(dj,q) giữa câu truy vấn q và văn bản dj
như sau:

Sim (dj, q) = 1 nếu tồn tại qcc sao cho qcc є qdnf và với ∀ ki thì
gi(di)=gi(qcc) và sim(dj,q) = 0 trong các trường hợp khác.
Trong đó qdnf là tập hợp của các ki trong câu truy vấn q, cụ thể như
sau:
Với q= ka ∩ (kb υ -kc) thì qdnf =(1,1,1) υ (1,1,0) υ (1,0,0)

ka

kb
(1,0,0)

(1,1,0)

(1,1,1)

kc

Hình 1.2.

Tập hợp qdnf

Câu truy vấn đối với mô hình Boolean sử dụng các biểu thức Boolean
với hai liên kết chính and và or cùng với toán tử not. Khi hai từ khóa được
tổ hợp với nhau bởi liên kết and thì văn bản trả về trong kết quả phải bao
Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

16


Tìm kiếm thông tin theo ngữ cảnh


gồm cả hai từ khóa này và nếu hai từ khóa được tổ hợp với nhau vởi liên kết
or thì văn bản trả về trong kết quả phải chứa ít nhất một trong hai từ khoa.
Hai liên kết (and và or) và một toán tử (not) trong đại số boolean có thể mở
rộng cho câu truy vấn gồm t từ khóa.
Ví dụ: Biểu diễn văn bản và câu truy vấn q như sau:
DocID

d0

d1

d2



q

Giông

1

1

1



0


Hôm nay

0

1

1



0

Hôm qua

0

0

1



0

Lạnh

1

0


1



1

Miền Bắc

1

0

1



0

Mưa rào

1

1

1



1


Nắng

0

1

1



0

Trời

1

1

0



1

….










Term

Bảng 1.2.

Biểu diễn câu truy vấn q

Với (1.2) ta có: 101 and 111 and 110 = 100. Như vậy kết quả truy vấn sẽ trả
về văn bản d0.
Các hệ thống tìm kiếm thông tin dựa trên mô hình Boolean được sử
dụng khá rộng rãi bởi hiệu suất cao của nó, hiệu suất ở đây được hiểu là năng
lực xử lý và khả năng đáp ứng nhanh chóng của hệ thống. Các hệ thống này
có một số ưu điểm sau:
i.

Rất hiệu quả với những biểu thức Boolean phức tạp

ii.

Dễ dáng thực hiện (Do cách tính toán đơn giản của nó)

Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

17


Tìm kiếm thông tin theo ngữ cảnh


iii.

Tìm kiếm nhanh chóng.

iv.

Chính xác nếu câu truy vấn được thiết lập đúng.

Tuy nhiên do đặc tính của hệ thống là sử dụng đại số Boolean để xây
dựng chỉ mục và câu truy vấn, với các từ khóa chỉ gồm hai trọng số là 0 hoặc
1 nên có những nhược điểm sau:
i.

Hệ thống có thể trả về vô số kết quả hoặc là không có bất kỳ
kết quả nào, điều này phụ thuộc rất lớn và cách tổ hợp các từ
khóa của câu truy vấn.

ii.

Không phân hạng được kết quả: Kết quả trả về không được
sắp xếp theo thứ hạng (do đặc tính trọng số của các từ khóa
trong hệ thống), vì vậy tất cả các kết quả tìm được đều có vai
trò quan trọng như nhau.

iii.

Không đánh giá được trọng số của từ khóa. Tất cả các từ khóa
đều có vai trò quan trọng như nhau trong một văn bản.


1.3.3. Mô hình Vector
Theo [4], phương thức đánh chỉ mục thoe mô hình không gian vector
là phương thức đánh chỉ mục sử dụng dạng biểu diễn vector của văn bản và
câu truy vấn. Các đặc tính của các vector này thông thường là các từ vựng
trong văn bản và trong các câu truy vấn sau khi truy tìm từ gốc và loại bỏ
stopwords. Các vector này được tính toán trọng số nhằm xác định tầm quan
trọng của các từ thể hiện văn bản (hay câu truy vấn) và tính hữu dụng của
chúng. Trong quá trình tìm kiếm, vector truy vấn sẽ được so sánh với mỗi
vector của văn bản. Vector văn bản nào gần với vector truy vấn nhất sẽ được
coi như câu trả lời cho quá trình tìm kiếm và văn bản này sẽ nằm trong kết
quả trả về.
Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

18


Tìm kiếm thông tin theo ngữ cảnh

Các văn
bản thô

Tách
Term

Loại
StopW

Từ điển

StopWo

rds

Tiền xử lý văn bản

Hình 1.3.

1.3.3.1.

Mô hình
Vector
( TFx IDF )

Biểu diễn văn

Các văn
bản đã
được
vector
hoá

Biểu diễn văn bản bằng mô hình vector

Biểu diễn văn bản bằng mô hình vector

Đây có thể xem là hướng tiếp cận tương đối đơn giản. Theo đó, văn bản sẽ
được thay thế bằng 1 vector n chiều (n là số lượng từ khoá tách biệt có thể
được lọc ra từ văn bản). Mỗi từ sẽ đi kèm với 1 gía trị hàm f để biểu diễn
trọng số cho nó. Cách tính trọng số đơn giản nhất là số lần lặp (tần suất xuất
hiện) của nó trong văn bản.
Ví dụ: Trong đoạn văn

“Dân tộc ta, nhân dân ta, non sông đất nước ta đã sinh ra Hồ Chủ tịch Người anh hùng dân tộc vĩ đại. Và chính Người đã làm rạng rỡ dân tộc
ta, nhân dân ta và non sông đất nước ta ”
Sau khi đã loại bỏ các từ dừng, chúng ta thu được 1 vector các từ cùng với
tần suất xuất hiện của chúng như sau:
{(“dân tộc”, 3), (“nhân dân”, 2),(“non sông”, 2),(“ đất nước”, 2),
(“sinh”,1), (“chủ tịch”,1), (“người”,2), (“vĩ đại”,1), (“rạng rỡ”,1)}
1.3.3.2.

Biểu diễn bằng vector thưa

Vector được đề cập đến trong mục trên chính là vector chuẩn. Theo phương
pháp này, nếu gọi m là số lượng văn bản hiện có, và n là số các thuật ngữ
Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

19


Tìm kiếm thông tin theo ngữ cảnh

trong toàn bộ cơ sở dữ liệu, thì kích thước của ma trận biểu diễn Wnm sẽ
quyết định đến độ phức tạp của các phép toán tác động lên vector. Trong
thực tế, số lượng thuật ngữ cũng như văn bản có thể là rất lớn (hàng trăm
nghìn). Như vậy, số lượng phần tử của W có thể lên tới hàng trăm triệu. Việc
lưu trữ nó là quá tốn kém về mặt tài nguyên bộ nhớ, đồng thời các phép toán
trên đó cũng khó thực hiện được khi phải đối mặt với vấn đề số lớn. Trong
trường hợp này, một giải pháp hiệu quả có thể được sử dụng thay thế là biểu
diễn bằng vector thưa.
Vector thưa là vector có số phần tử với trọng số khác 0 nhỏ hơn rất nhiều so
với số thuật ngữ có trong Cơ sở dữ liệu (tương đương với số thành phần còn
lại đều có trọng số là 0) [2].

Trên thực tế, số thuật ngữ xuất hiện trong một văn bản thường dưới
1000. Đối với các văn bản dài và đa chủ đề thì số thuật ngữ xuất hiện có thể
nhiều hơn. Trong khi đó, số lượng thuật ngữ có trong từ điển có thể đến
100,000 từ. Đây chính là điều kiện để áp dụng phương pháp vector thưa .
Sau đây, chúng ta xét một ví dụ biểu diễn vector thưa từ các vector chuẩn.
wij

Mạng

Phần

Hoa

Giày

Phân Gang

mềm

màu

da

bón

thép

d0(Máy tính)

2


3

0

0

0

0

d1(Nông nghiệp)

0

0

4

0

1

1

d2(Công nghiệp)

0

0


0

6

0

2

Bảng 1.3.

Ví dụ biểu diễn vector thưa.

9 Đối với vector chuẩn:
d0 = (2, 3, 0, 0, 0, 0);

d1 = (0, 0, 4, 0, 1, 1);

d2 = (0, 0, 0, 6, 0, 2)

9 Đối với vector thưa:
Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

20


Tìm kiếm thông tin theo ngữ cảnh

d0 = ((1, 2), (2, 3)); d1 = ((3,4), (5,1), (6,1)); d2 = ((4,6), (6,2))
Cấu trúc của các vector thưa như sau: Mỗi phần tử gồm hai giá trị là mã biểu

diễn thuật ngữ và giá trị trọng số tương ứng thuật ngữ đó. Ví dụ: phần tử (6,
2) trong văn bản d2 chỉ ra thuật ngữ có mã 6 (“gang thép”) có trọng số là 2.
Ví dụ: Biểu diễn văn bản và truy vấn q như sau
d0=((1,1), (4,1), (5,1), (6,1), (8,1))
d1=((1,1), (2,1), (6,1), (7,1), (8,1))
d2=((1,1), (2,1), (3,1), (5,1), (6,1), (7,1))
……..
q=((4,1), (6,1), (8,1))
Trong một không gian văn bản bao gồm các văn bản Di, mỗi văn bản
được xác định bởi một hay nhiều từ khóa (term) Tj. Các từ khóa này có thể
được tính toán trọng số dựa theo mức độ quan trọng của nó trong văn bản,
hoặc là giá trị trọng số của chúng chỉ là 0 hoặc 1. Một không gian đánh chỉ
số ba chiều điển hình được biểu diễn như hình…., trong đó mỗi chỉ mục
thông tin được xác định bởi 3 từ khóa khác nhau. Không gian này có thể mở
rộng thành t chiều với t là số từ khóa các định chỉ mục thông tin. Trong
trường hợp này văn bản Di được biểu diễn bởi vector t chiều
Di = (di1, di2, …dit)
Trong đó dij biểu diễn trọng số của từ khóa thứ j trong văn bản Di. Giả
sử có các vector đánh chỉ số của hai văn bản Di và Dj, ta có thể tính toán
được hệ số tương tự sim(Di, Dj), giữa hai văn bản này, hệ số tương tự thể
hiện độ tương tự giữa từ khóa và trọng số của từ khóa tương ứng. Theo
phương thức tính khoảng cách Cosine, ta có hệ số tương tự của Di và Dj
được tính toán như sau:

Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

21


Tìm kiếm thông tin theo ngữ cảnh


t

sim ( Di , D j ) =

Di D j
Di D j

=

∑d
k =1

t

ik

d jk
t

∑d ∑d
k =1

2
ik

k =1

2
jk


Trong đó Dj = (dj1, dj2, …djt)
D3=(T1’’, T2’’, T3’’)

D1=( T1, T2, T3)

T2

T3
D2=(T1’, T2’, T3’)
T1
Hình 1.4.

Biểu diễn vector của không gian văn bản.

Thước đo độ tương tự này có thể là hàm ngược của góc giữa cặp
vector tương ứng. Khi từ khóa đã cho đối với hai vector được xác định, góc
giữa hai vector bằng 0 chứng tỏ sự tương tự là lớn nhất
1.3.3.3.

Biểu diễn bằng mô hình tần số

Trong mô hình tần số, ma trận W = {wij} được xác định dựa trên tần số
xuất hiện của thuật ngữ ti trong văn bản dj hoặc tần số xuất hiện của thuật
ngữ ti trong toàn bộ cơ sở dữ liệu.
Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

22



Tìm kiếm thông tin theo ngữ cảnh

Có ba phương pháp:
• Phương pháp dựa trên tần số thuật ngữ TF (Term Frequency)
• Phương pháp dựa trên nghịch đảo tần số văn bản IDF (Inverse
Document Frequency)
• Phương pháp TF × IDF
a. Phương pháp dựa trên tần số thuật ngữ TF (Term Frequency)
Các giá trị wij được tính dựa trên tần số xuất hiện của thuật ngữ trong văn
bản. Gọi fij là số lần xuất hiện của thuật ngữ ti trong văn bản dj, khi đó wij
được tính bởi một trong ba công thức (1.2), (1.3), (1.4):
wij = fij

(1.2)

wij = 1 + log(fij)

(1.3)

wij =

(1.4)

fij

Trong phương pháp này, trọng số wij tỷ lệ thuận với số lần xuất hiện
của thuật ngữ ti trong văn bản dj. Khi số lần xuất hiện thuật ngữ ti trong văn
bản dj càng lớn thì điều đó có nghĩa là văn bản dj càng phụ thuộc vào thuật
ngữ ti, hay nói cách khác thuật ngữ ti mang nhiều thông tin trong văn bản dj.
Ví dụ: khi văn bản xuất hiện nhiều thuật ngữ cầu thủ, tiền đạo, hay huấn

luyện viên, điều đó có nghĩa là văn bản đang xét chủ yếu liên quan đến lĩnh
vực bóng đá.
b. Phương pháp dựa trên nghịch đảo tần số văn bản IDF(Inverse
Document Frequency)
Trong phương pháp này, giá trị wij được tính theo công thức (1.5) sau [1]:
⎧ m
⎪log = log(m) − log(hi ) nÕu thuËt ng− t i xuÊt hiÖn trong tµi liÖu d j
wij = ⎨ hi
⎪0 nÕu ng−îc l¹i


(1.5)

trong đó m là số lượng văn bản và hi là số văn bản mà thuật ngữ ti xuất hiện.

Học viên thực hiện: Bùi Khánh Linh – Lớp CH 2007-2009

23


×