Tải bản đầy đủ (.pdf) (159 trang)

Một số phương pháp phục vụ xếp hạng các trang web trong tìm kiếm xuyên ngữ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.73 MB, 159 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG



Lâm Tùng Giang

MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG
CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ

Chuyên ngành
Mã số

: Khoa học máy tính
: 62 48 01 01

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

ĐÀ NẴNG - 2017


BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG



Lâm Tùng Giang

MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG
CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ


Chuyên ngành
Mã số

: Khoa học máy tính
: 62 48 01 01

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC
1. PGS.TS. Võ Trung Hùng
2. PGS.TS. Huỳnh Công Pháp

ĐÀ NẴNG - 2017


LỜI CAM ĐOAN
Tôi xin cam đoan: Luận án này là công trình nghiên cứu thực sự của cá nhân
tôi, được thực hiện tại Trường Đại học Bách khoa, Đại học Đà Nẵng dưới sự hướng
dẫn khoa học của PGS.TS. Võ Trung Hùng và PGS.TS. Huỳnh Công Pháp.
Các số liệu, những kết luận nghiên cứu được trình bày trong luận án này là
trung thực và chưa từng được công bố ở bất kỳ công trình nào của các tác giả khác.
Tôi xin chịu trách nhiệm về những lời cam đoan của tôi.
Tác giả,

Lâm Tùng Giang

-i-


MỤC LỤC


MỞ ĐẦU .................................................................................................................... 1
1. ĐẶT VẤN ĐỀ ....................................................................................................... 1
2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ................................... 5
2.1. Mục tiêu ............................................................................................................ 5
2.2. Đối tượng .......................................................................................................... 5
2.3. Phạm vi ............................................................................................................. 5
3. ĐÓNG GÓP CỦA LUẬN ÁN ............................................................................... 6
4. BỐ CỤC CỦA LUẬN ÁN ..................................................................................... 8
CHƯƠNG 1: TỔNG QUAN VÀ ĐỀ XUẤT NGHIÊN CỨU .................................... 9
1.1. TRUY VẤN THÔNG TIN .................................................................................. 9
1.1.1. Khái niệm ....................................................................................................... 9
1.1.2. Định nghĩa hình thức .................................................................................... 10
1.1.3. Sơ đồ xử lý của hệ thống truy vấn thông tin.................................................. 10
1.1.4. Các mô hình truy vấn thông tin truyền thống ................................................ 12
1.1.5. Khai thác quan hệ giữa các thuật ngữ trong văn bản ..................................... 16
1.2. ĐÁNH GIÁ HỆ THỐNG TRUY VẤN THÔNG TIN ....................................... 19
1.2.1. Khái niệm ..................................................................................................... 19
1.2.2. Các độ đo ..................................................................................................... 20
1.2.3. Môi trường thực nghiệm ............................................................................... 22
1.3. TRUY VẤN THÔNG TIN XUYÊN NGỮ........................................................ 24
1.3.1. Khái niệm ..................................................................................................... 24
1.3.2. Các hướng tiếp cận ....................................................................................... 24
1.3.3. Các kỹ thuật dịch tự động ............................................................................. 25
1.4. CÁC KỸ THUẬT XẾP HẠNG LẠI ................................................................. 25

- ii -


1.4.1. Xếp hạng và xếp hạng lại ............................................................................. 25

1.4.2. Khai thác thông tin của các máy tìm kiếm có sẵn ......................................... 26
1.4.3. Học xếp hạng ............................................................................................... 28
1.4.4. Khai thác thông tin người sử dụng ................................................................ 30
1.5. XẾP HẠNG TRANG WEB .............................................................................. 31
1.5.1. Đặc thù của tìm kiếm web ............................................................................ 31
1.5.2. Các phương pháp xếp hạng trang Web ......................................................... 32
1.5.3. Xếp hạng trang Web trong tìm kiếm xuyên ngữ ........................................... 36
1.6. CÁC HẠN CHẾ VÀ ĐỀ XUẤT NGHIÊN CỨU .............................................. 37
1.6.1. Hạn chế ........................................................................................................ 37
1.6.2. Đề xuất nghiên cứu....................................................................................... 37
1.7. TIỂU KẾT CHƯƠNG....................................................................................... 41
CHƯƠNG 2: DỊCH TỰ ĐỘNG PHỤC VỤ TRUY VẤN XUYÊN NGỮ................ 42
2.1. CÁC PHƯƠNG PHÁP DỊCH TỰ ĐỘNG......................................................... 42
2.1.1. Sử dụng máy dịch ......................................................................................... 42
2.1.2. Sử dụng kho ngữ liệu ................................................................................... 43
2.1.3. Sử dụng từ điển ............................................................................................ 44
2.1.4. Sử dụng ngôn ngữ trung gian........................................................................ 44
2.1.5. Sử dụng không gian ngữ nghĩa ..................................................................... 45
2.1.6. Đánh giá chung ............................................................................................ 45
2.2. KHỬ NHẬP NHẰNG....................................................................................... 46
2.3. MÔ HÌNH SỬ DỤNG TỪ ĐIỂN MÁY ............................................................ 47
2.3.1. Xây dựng dữ liệu từ điển .............................................................................. 48
2.3.2. Khử nhập nhằng dựa trên độ đo mức độ liên quan của cặp từ ....................... 49
2.3.3. Các biến thể của công thức MI ..................................................................... 49
2.3.4. Thuật toán chọn bản dịch tốt nhất ................................................................. 51

- iii -


2.3.5. Xây dựng câu truy vấn.................................................................................. 58

2.4. THỰC NGHIỆM ÁP DỤNG CÔNG THỨC SMI ............................................. 62
2.4.1. Môi trường thực nghiệm ............................................................................... 62
2.4.2. Kết quả thực nghiệm .................................................................................... 64
2.5. THỰC NGHIỆM TẠO BẢN DỊCH CÂU TRUY VẤN CÓ CẤU TRÚC ......... 65
2.5.1. Môi trường thực nghiệm ............................................................................... 65
2.5.2. Cấu hình thực nghiệm .................................................................................. 65
2.5.3. Kết quả thực nghiệm .................................................................................... 66
2.6. TIỂU KẾT CHƯƠNG....................................................................................... 67
CHƯƠNG 3: HỖ TRỢ DỊCH CÂU TRUY VẤN .................................................... 69
3.1. CÁC KỸ THUẬT HỖ TRỢ DỊCH CÂU TRUY VẤN ..................................... 69
3.1.1. Phân đoạn câu truy vấn ở ngôn ngữ nguồn ................................................... 69
3.1.2. Mở rộng câu truy vấn ................................................................................... 70
3.1.3. Thu hẹp câu truy vấn .................................................................................... 71
3.1.4. Xử lý thuật ngữ không có trong từ điển ........................................................ 72
3.2. PHÂN ĐOẠN CÂU TRUY VẤN ..................................................................... 73
3.2.1. Sử dụng công cụ vnTagger ........................................................................... 73
3.2.2. Thuật toán WLQS ........................................................................................ 73
3.2.3. Kết hợp WLQS và công cụ vnTagger ........................................................... 75
3.3. ĐIỀU CHỈNH CÂU TRUY VẤN Ở NGÔN NGỮ ĐÍCH ................................. 78
3.3.1. Phản hồi ẩn ................................................................................................... 79
3.3.2. Phản hồi ẩn trong truy vấn xuyên ngữ .......................................................... 81
3.3.3. Điều chỉnh câu truy vấn có cấu trúc ở ngôn ngữ đích.................................... 82
3.4. THỰC NGHIỆM .............................................................................................. 86
3.4.1. Cấu hình thực nghiệm .................................................................................. 86
3.4.2. Kết quả ......................................................................................................... 87

- iv -


3.5. TIỂU KẾT CHƯƠNG....................................................................................... 89

CHƯƠNG 4: XẾP HẠNG LẠI ................................................................................. 91
4.1. HỌC XẾP HẠNG DỰA TRÊN LẬP TRÌNH DI TRUYỀN.............................. 91
4.1.1. Mô hình ứng dụng lập trình di truyền ........................................................... 93
4.1.2. Xây dựng công cụ và kết quả thực nghiệm ................................................... 94
4.1.3. Đánh giá ....................................................................................................... 96
4.2. ĐỀ XUẤT CÁC MÔ HÌNH LÂN CẬN ............................................................ 97
4.2.1. Mô hình CL-Büttcher ................................................................................... 98
4.2.2. Mô hình xếp hạng CL-Rasolofo ................................................................... 99
4.2.3. Mô hình xếp hạng CL-HighDensity............................................................ 100
4.2.4. Thực nghiệm việc ứng dụng mô hình lân cận xuyên ngữ ............................ 101
4.3. HỌC XẾP HẠNG TRANG WEB ................................................................... 103
4.3.1. Các mô hình học xếp hạng.......................................................................... 103
4.3.2. Môi trường thực nghiệm ............................................................................. 106
4.3.3. Cấu hình thực nghiệm ................................................................................ 109
4.3.4. Kết quả thực nghiệm .................................................................................. 109
4.4. TIỂU KẾT CHƯƠNG..................................................................................... 110
CHƯƠNG 5: HỆ THỐNG TÌM KIẾM WEB XUYÊN NGỮ VIỆT-ANH ........... 111
5.1. THIẾT KẾ HỆ THỐNG.................................................................................. 111
5.1.1. Các thành phần hệ thống & sơ đồ thuật toán ............................................... 111
5.1.2. Dữ liệu từ điển ........................................................................................... 114
5.1.3. Dữ liệu đánh chỉ mục ................................................................................. 114
5.2. PHƯƠNG PHÁP THỰC NGHIỆM ................................................................ 115
5.3. THỰC NGHIỆM CÁC GIẢI PHÁP DỊCH CÂU TRUY VẤN ....................... 116
5.3.1. Cấu hình thực nghiệm ................................................................................ 116
5.3.2. Kết quả thực nghiệm .................................................................................. 117

-v-


5.3.3. Đánh giá ..................................................................................................... 119

5.4. THỰC NGHIỆM ĐIỀU CHỈNH CÂU TRUY VẤN ....................................... 119
5.4.1. Cấu hình thực nghiệm ................................................................................ 119
5.4.2. Kết quả thực nghiệm .................................................................................. 120
5.4.3. Đánh giá ..................................................................................................... 121
5.5. THỰC NGHIỆM XẾP HẠNG LẠI................................................................. 121
5.5.1. Cấu hình thực nghiệm ................................................................................ 122
5.5.2. Kết quả thực nghiệm .................................................................................. 123
5.5.3. Đánh giá ..................................................................................................... 125
5.6. ĐÁNH GIÁ HIỆU QUẢ KẾT HỢP CÁC KỸ THUẬT .................................. 125
5.7. TIỂU KẾT CHƯƠNG..................................................................................... 128
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN............................................................. 129
1. KẾT LUẬN ....................................................................................................... 129
1.1. Tóm tắt nội dung luận án ............................................................................... 129
1.2. Các kết quả đạt được ..................................................................................... 129
2. HƯỚNG PHÁT TRIỂN ..................................................................................... 132
TÀI LIỆU THAM KHẢO ..................................................................................... 133

- vi -


DANH MỤC HÌNH VẼ
Hình 1.1: Quá trình xử lý của hệ thống truy vấn thông tin .......................... 11
Hình 1.2: Biểu đồ trung bình 11 điểm ......................................................... 22
Hình 1.3: Mô hình xếp hạng tìm kiếm Web đa ngữ ..................................... 38
Hình 1.4: Sơ đồ xử lý giai đoạn truy vấn ..................................................... 39
Hình 3.1: Phân loại phương pháp mở rộng câu truy vấn.............................. 71
Hình 3.2: Phản hồi của người dùng ............................................................. 79
Hình 3.3: Phản hồi ẩn về độ phù hợp của kết quả tìm kiếm ban đầu ............ 79
Hình 3.4: Đồ thị trung bình 11 điểm ........................................................... 88
Hình 4.1: Hệ thống tìm kiếm Web đa ngữ Việt-Anh ................................. 107

Hình 5.1: Các thành phần của hệ thống tìm kiếm Web Việt - Anh ............ 111
Hình 5.2: Sơ đồ thuật toán của hệ thống.................................................... 112
Hình 5.3: So sánh các cấu hình dùng 1 bản dịch ....................................... 118
Hình 5.4: So sánh các cấu hình dùng 3 bản dịch ....................................... 119
Hình 5.5: Kết quả của 5 lần huấn luyện của các phương pháp ................... 124
Hình 5.6: Điểm MAP khi sử dụng phương án dịch Top_three_all ............. 127
Hình 5.7: Điểm MAP khi sử dụng phương án dịch Top_three_weight ...... 128

- vii -


DANH MỤC BẢNG

Bảng 1.1 Thông tin sử dụng & đặc điểm của các mô hình xếp hạng............ 18
Bảng 2.1: Cấu hình thực nghiệm ................................................................. 63
Bảng 2.2: Kết quả thực nghiệm ................................................................... 64
Bảng 2.3: So sánh P@k và MAP các cấu hình ............................................ 66
Bảng 3.1: Điểm số MAP ............................................................................. 87
Bảng 3.2: Số lượng tài liệu phù hợp tải về .................................................. 88
Bảng 4.1 Ví dụ thuộc tính của bộ sưu tập OHSUMED................................ 92
Bảng 4.2 So sánh giá trị MAP ..................................................................... 95
Bảng 4.3 So sánh giá trị 96
Bảng 4.4: So sánh giá trị P@k .................................................................... 96
Bảng 4.5: Điểm MAP của các cấu hình thực nghiệm ................................ 102
Bảng 4.6: Mức độ tăng hiệu quả khi áp dụng mô hình lân cận .................. 102
Bảng 4.7: Các phương án hàm distance .................................................... 105
Bảng 4.8: Kết quả thực nghiệm ................................................................. 109
Bảng 5.1: Các cấu hình đánh giá các giải pháp dịch câu truy vấn .............. 116
Bảng 5.2: So sánh các giải pháp dịch câu truy vấn .................................... 117
Bảng 5.3: Cấu hình đánh giá kết quả điều chỉnh câu truy vấn ................... 120

Bảng 5.4: So sánh các giải pháp điều chỉnh câu truy vấn .......................... 121
Bảng 5.5: Cấu hình thực nghiệm học xếp hạng ......................................... 122
Bảng 5.6: Kết quả thực nghiệm các phương pháp học xếp hạng ................ 123
Bảng 5.7: Đánh giá việc áp dụng các kỹ thuật đề xuất............................... 125

- viii -


DANH MỤC TỪ VIẾT TẮT

AP

Average Precision

CLEF

Cross Language Evaluation Forum

CLIR

Cross Language Information Retrieval

DF

Document frequency

FIRE

Forum for Information Retrieval Evaluation


GP

Genetic Programming

HITS

Hypertext Induced Topic Search

HTML

Hyper Text Markup Language

IDF

Inverse Document Frequency

IR

Information Retrieval

LETOR

LEearning TO Rank

LMIR

Language Models in Information Retrieval

LSI


Latent Sematic Indexing

MAP

Mean Average Precision

MI

Mutual Information

MRD

Machine Readable Dictionary

NDCG

Normalized Discount Cumulative Gain

PRF

Pseudo-Relevance Feedback

SMI

Summary Mutual Information

SVD

Singular-Value Decomposition


TF

Term frequency

TREC

Text REtrieval Conference

UNL

Universal Network Language

VSM

Vector Space Model

WLQS

Word-Length-based Query Segmentation

WWW

Word Wide Web

- ix -


DANH MỤC THUẬT NGỮ
Anchor


Mốc, neo

Authority

Độ tin cậy

Average Precision

Độ chính xác trung bình

Bag of Words

Túi từ

Bilingual Machine Readable Dictionary

Từ điển máy song ngữ

Binary Independence Retrieval – BIR

Mô hình truy vấn nhị phân độc
lập

Boolean model

Mô hình Boolean

Cohesion Score

Điểm liên kết


Cross Language Information Retrieval -

Truy vấn thông tin xuyên ngữ

CLIR
Cross-language Web Search

Tìm kiếm web xuyên ngữ

Data sparsity

Tính thưa thớt dữ liệu

Degree of similarity

Mức độ tương tự

Discounted Cumulative Gain

Độ lợi tích lũy giảm dần

Fuzzy-Logic model

Mô hình lô-gic mờ

Gain Function

Hàm lợi ích


Hub

Trung tâm

Hyper Text Markup Language-HTML

Ngôn ngữ siêu văn bản

Hyperlink

Siêu liên kết

Information Retrieval – IR

Truy vấn thông tin

Inverse document frequency – IDF

Tần suất tài liệu nghịch đảo

IR model

Mô hình truy vấn thông tin

Language Model – LMIR

Mô hình ngôn ngữ

Latent Sematic Indexing - LSI


Mô hình chỉ mục ngữ nghĩa ngầm

Learning to Rank

Học xếp hạng

Loss Function

Hàm tổn thất

Machine Learning - ML

Học máy

-x-


Mean Average Precision

Độ chính xác trung bình bình
quân

Meta tag

Thẻ cung cấp thông tin trang web

Mutual Information - MI

Thông tin tương hỗ


Precision

Độ chính xác

Probabilistic model

Mô hình xác suất

Proximity Model

Mô hình lân cận

Pseudo-Relevance Feedback – PRF

Phản hồi giả

Query

Câu truy vấn

Recall

Độ bao phủ

Regions models

Mô hình vùng

Relevant information


Thông tin phù hợp

Singular-Value Decomposition – SVD

Phân tích giá trị đơn

Summary Mutual Information

Tổng thông tin tương hỗ

Term frequency – TF

Tần suất xuất hiện của thuật ngữ
trong tài liệu

Three-way data

dữ liệu 3 hướng

True Relevance Feedback

Phản hồi thực sự

Two-way data

dữ liệu 2 hướng

Vector Space model – VSM

Mô hình không gian vec-tơ


Word-length-based Query Segmentation

Phân đoạn câu truy vấn dựa trên
độ dài từ

World Wide Web

Mạng lưới thông tin toàn cầu

- xi -


MỞ ĐẦU
1. ĐẶT VẤN ĐỀ
Hơn hai mươi năm qua, chúng ta chứng kiến sự phát triển và lớn mạnh vượt
bậc của Internet và World Wide Web. Đến cuối năm 2015, chỉ riêng Google đã
đánh chỉ mục được khoảng 47 tỷ trang web1. Bên cạnh kích thước khổng lồ, sự tăng
trưởng của World Wide Web còn thể hiện ở tính đa dạng của các ngôn ngữ được sử
dụng trong các trang web. Đến thời điểm này, tiếng Anh tiếp tục là ngôn ngữ phổ
biến nhất, được sử dụng tại 54% trong tổng số các website, tiếp theo là tiếng Nga và
tiếng Đức, tương ứng là 6,1% và 5,7%. Riêng tiếng Việt được sử dụng tại khoảng
0,6% tổng số các website2.
Cùng với sự đa dạng về ngôn ngữ, việc tìm kiếm thông tin không còn giới
hạn ở tiếng mẹ đẻ của người dùng mà đã được mở rộng ra các ngôn ngữ khác. Bài
toán tìm kiếm web xuyên ngữ (Cross-Language Web Search) đặt ra nhiệm vụ từ
nhu cầu thông tin của người dùng được trình bày ở một ngôn ngữ (gọi là ngôn ngữ
nguồn), thực hiện việc xác định các trang web phù hợp được viết bằng một ngôn
ngữ khác (gọi là ngôn ngữ đích). Việc giải quyết bài toán có ý nghĩa thực tế, cho
phép người sử dụng truy cập các nguồn tài nguyên thông tin ở các ngôn ngữ khác

nhau [134].
Nền tảng công nghệ để giải quyết bài toán tìm kiếm web xuyên ngữ là sự kết
hợp các kỹ thuật áp dụng trong truy vấn thông tin xuyên ngữ (Cross-language
Information Retrieval - CLIR) - một lĩnh vực con của truy vấn thông tin
(Information Retrieval - IR) - và việc khai thác các đặc thù riêng của các trang web.
Truy vấn thông tin quan tâm vấn đề tìm kiếm thông tin phù hợp hay tài liệu
chứa các thông tin như vậy dựa trên nhu cầu thông tin của người sử dụng từ một tập
hợp lớn các tài liệu (được gọi là kho tài liệu). Nhu cầu thông tin được biểu diễn
dưới dạng câu truy vấn. Một tài liệu được coi là phù hợp nếu chứa thông tin phù

1
2

(truy cập 26/12/2015)
(truy cập 26/12//2015)

-1-


hợp với câu truy vấn. Mặc dù sự phù hợp là một khái niệm quan trọng trong truy
vấn thông tin và được đề cập tới trong mọi nghiên cứu liên quan, cho đến nay vẫn
tồn tại các cách hiểu khác nhau về thuật ngữ này [12], [105]. Một cách lý tưởng,
một hệ thống truy vấn thông tin cần có khả năng xác định các tài liệu phù hợp dựa
trên nội dung, ý nghĩa của tài liệu và câu truy vấn chứ không phải dựa theo cách
biểu diễn của chúng. Ví dụ, từ câu truy vấn "các thảm họa thiên nhiên", cần lọc ra
các tài liệu chứa các thông tin liên quan đến "động đất", "sóng thần", hay "núi lửa".
Tuy nhiên, trên thực tế hầu hết các hệ thống truy vấn thông tin tính toán mức độ phù
hợp của các tài liệu dựa trên cách thức biểu diễn văn bản (ví dụ thông qua các từ
khóa chứa bên trong) và chưa có khả năng phân tích ý nghĩa văn bản [4], [43],
[100]. Trong truy vấn thông tin xuyên ngữ, việc xác định tính phù hợp còn phức tạp

hơn do câu truy vấn và các tài liệu được viết bằng các ngôn ngữ khác nhau [113].
Xếp hạng trong truy vấn thông tin liên quan đến việc tạo lập kết quả khi thực
hiện một câu truy vấn ở dạng một danh sách các tài liệu theo thứ tự phù hợp với nhu
cầu truy vấn. Trong tìm kiếm web xuyên ngữ, hai vấn đề chính của việc xếp hạng
kết quả tìm kiếm bao gồm: (1) sự khác biệt về ngôn ngữ giữa câu truy vấn và các tài
liệu cần tìm kiếm; (2) nhu cầu hiển thị các tài liệu phù hợp nhu cầu truy vấn tại đầu
danh sách kết quả, tạo điều kiện truy cập thuận lợi cho người sử dụng. Nhằm giải
quyết các vấn đề này, cần thực hiện hai nhiệm vụ trọng tâm: Thứ nhất là nhiệm vụ
dịch thuật, thực hiện việc biểu diễn câu truy vấn và các tài liệu trong một không
gian chung, cụ thể là trong cùng một ngôn ngữ. Thứ hai là nhiệm vụ xếp hạng,
thông qua việc triển khai các giải pháp kỹ thuật và các thước đo, thực hiện việc
đánh giá, so sánh mức độ phù hợp giữa các tài liệu và câu truy vấn. Mục tiêu chung
của các nhiệm vụ này là nhằm nâng cao hiệu quả xếp hạng kết quả tìm kiếm.
Có nhiều thước đo khác nhau được sử dụng nhằm đánh giá các hệ thống truy
vấn thông tin, bao gồm kích thước kho tài liệu, thời gian đáp ứng, cách biểu diễn
kết quả, mức độ nỗ lực của người sử dụng, độ bao phủ, độ chính xác [26]; trong đó
hai thước đo cuối được sử dụng phổ biến nhất và được coi là các thước đo chính về
hiệu quả của một hệ thống [100], [155]. Đặc biệt, độ chính xác cao của một hệ
thống liên quan trực tiếp đến việc xếp hạng các kết quả tìm kiếm, đảm bảo các tài

-2-


liệu đứng đầu danh sách kết quả tìm kiếm là các tài liệu phù hợp với nhu cầu truy
vấn thông tin.
Vấn đề được quan tâm nhất trong các nghiên cứu về CLIR thường liên quan
chất lượng dịch thuật [128]. Để giải quyết vấn đề này, 3 hướng tiếp cận chủ yếu
trong CLIR là dịch câu truy vấn, dịch tài liệu hay chuyển cả câu truy vấn và các tài
liệu sang một ngôn ngữ trung gian [172]. Hướng tiếp cận phổ biến là dịch câu truy
vấn sang ngôn ngữ của các tài liệu cần tìm kiếm, sau đó sử dụng các công cụ truy

vấn đơn ngữ ở ngôn ngữ này. Công việc dịch thuật được thực hiện bằng nhiều
phương pháp khác nhau: sử dụng từ điển, sử dụng các kho ngữ liệu song song, áp
dụng công cụ dịch máy. Trong các phương pháp dịch tự động phục vụ truy vấn
thông tin xuyên ngữ, việc sử dụng từ điển để dịch câu truy vấn được áp dụng rộng
rãi nhờ tính đơn giản và sự có sẵn của các từ điển máy song ngữ (Machine Readable
Dictionary - MRD) [94], [119]. Các kết quả nghiên cứu cho thấy, do các khó khăn
gây ra bởi sự nhập nhằng ngữ nghĩa của các từ trong câu truy vấn và độ bao phủ của
từ điển, hiệu quả xếp hạng của các hệ thống CLIR dựa trên từ điển còn khá hạn chế
và phụ thuộc nhiều vào các cặp ngôn ngữ cụ thể [172]. Theo đánh giá của
Ballesteros và Croft [7], các hệ thống truy vấn xuyên ngữ dùng kỹ thuật dịch từ điển
có chất lượng dưới 60% so với các hệ thống đơn ngữ - đo bằng tỷ lệ giá trị độ chính
xác trung bình bình quân (Mean Average Precision – MAP) của hai hệ thống. Đối
với tiếng Việt, kết quả nghiên cứu của tác giả Ho Bao Quoc và các đồng sự [63] cho
thấy do ảnh hưởng của việc phân đoạn câu truy vấn cũng như chất lượng dịch thuật,
hiệu quả của hệ thống truy vấn xuyên ngữ Việt-Anh chỉ đạt 47,58% so với hệ thống
truy vấn đơn ngữ (trong khi hệ thống truy vấn xuyên ngữ Anh-Việt đạt 72,27%). Từ
đây có thể thấy, việc nghiên cứu nhằm phát triển các phương pháp tăng chất lượng
dịch câu truy vấn, đặc biệt khi ngôn ngữ câu truy vấn không phải tiếng Anh, là một
vấn đề cấp thiết và mang tính thời sự.
Bên cạnh vấn đề dịch thuật, nhiều nghiên cứu được triển khai nhằm tăng hiệu
quả xếp hạng. Hướng tiếp cận phổ biến là dựa trên các mô hình xếp hạng có sẵn
trong truy vấn đơn ngữ (thực hiện sau khi dịch câu truy vấn). Một số công trình
[11], [87], [157], [163] đề xuất tích hợp máy dịch thống kê vào mô hình xếp hạng

-3-


xuyên ngữ. Ngoài ra, kỹ thuật học xếp hạng cũng được áp dụng nhằm nâng cao hiệu
quả xếp hạng [96], [97], [122]. Nhìn chung, hầu hết các giải pháp xếp hạng đề xuất
được triển khai độc lập với việc nghiên cứu vấn đề dịch thuật. Việc nghiên cứu kết

nối, trao đổi thông tin giữa các mô-đun là cần thiết nhằm tăng hiệu quả của toàn hệ
thống nhưng chưa được chú ý nhiều. Trong luận án, tác giả mong muốn tiếp tục sử
dụng thông tin kết xuất từ quá trình dịch câu truy vấn phục vụ việc xếp hạng.
Tìm kiếm web có những điểm khác biệt so với truy vấn thông tin văn bản
truyền thống, vốn được áp dụng cho các hệ thống thư viện. Thứ nhất, người sử dụng
Web không có xu hướng tìm tất cả tài liệu thỏa mãn nhu cầu truy vấn, mà mong
muốn nhận được kết quả phù hợp trong khoảng 10 tài liệu đầu tiên trong danh sách
kết quả tìm kiếm [16]. Điều này đặt ra yêu cầu về độ chính xác cao đối với hệ thống
tìm kiếm Web. Thứ hai, trong cấu trúc một tài liệu siêu văn bản (Hyper Text
Markup Language - HTML) chứa các thành phần như tiêu đề, tóm tắt, nội dung.
Bên cạnh đó, nó cũng chứa các thành phần đặc biệt như hyperlinks, anchor, meta
tag. Các thành phần này có thể có mức độ tác động khác nhau trong việc tìm kiếm.
Trong các nghiên cứu [33], [70], [124], [145], việc xây dựng đa chỉ mục và gán
trọng số khác nhau cho các thành phần của trang web giúp tăng độ chính xác trong
kết quả tìm kiếm. Điều này cho thấy một hệ thống tìm kiếm web nên được thiết kế
khác biệt so với một hệ thống truy vấn thông tin văn bản truyền thống, khai thác cấu
trúc đặc thù của các tài liệu có cấu trúc, nhằm nâng cao hiệu quả tìm kiếm. Hầu hết
các giải pháp đã liệt kê đều giới hạn ở việc đề xuất gán trọng số một cách thủ công
và do đó, cần các nghiên cứu tiếp theo nhằm khắc phục các hạn chế này.
Xuất phát từ tình hình thực tiễn trên, đề tài "Một số phương pháp phục vụ
xếp hạng trang Web trong tìm kiếm xuyên ngữ" được chọn làm nội dung nghiên cứu
của luận án Tiến sĩ kỹ thuật của tác giả. Thông qua các công việc cải tiến chất lượng
dịch thuật, kết hợp thông tin của quá trình dịch thuật trong quá trình xếp hạng, đề
xuất phương án xếp hạng dựa trên việc sử dụng cấu trúc đặc thù của các trang web,
tác giả đặt mục tiêu nâng cao hiệu quả xếp hạng danh sách kết quả tìm kiếm; qua
đó, đóng góp các kết quả lý thuyết đối với các lĩnh vực nghiên cứu liên quan, cũng

-4-



như tạo ra khả năng ứng dụng thực tế trong việc xây dựng, triển khai các hệ thống
tìm kiếm web xuyên ngữ cho các cơ quan, tổ chức.

2. MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
2.1. Mục tiêu
Luận án đặt mục tiêu đề xuất một mô hình tìm kiếm web xuyên ngữ và các
giải pháp kỹ thuật áp dụng tại các thành phần của mô hình nhằm nâng cao hiệu quả
xếp hạng danh sách kết quả tìm kiếm.
Các mục tiêu cụ thể của luận án bao gồm:
 Đề xuất các phương pháp phục vụ dịch thuật, bao gồm các kỹ thuật tiền
xử lý câu truy vấn ở ngôn ngữ nguồn, dịch câu truy vấn và xử lý câu truy vấn ở
ngôn ngữ đích;
 Đề xuất các phương pháp xếp hạng lại danh sách kết quả tìm kiếm trong
truy vấn xuyên ngữ, chú trọng việc xếp hạng các trang Web.
 Kết hợp áp dụng các giải pháp đề xuất trong một mô hình tìm kiếm web
xuyên ngữ nhằm nâng cao hiệu quả xếp hạng các tài liệu web trong danh sách kết
quả tìm kiếm, cụ thể là nâng cao độ chính xác, áp dụng cho cặp ngôn ngữ Việt-Anh.

2.2. Đối tượng
Các đối tượng nghiên cứu của luận án bao gồm:
 Các kỹ thuật dịch áp dụng trong truy vấn thông tin xuyên ngữ;
 Các kỹ thuật xử lý câu truy vấn trong truy vấn xuyên ngữ;
 Các kỹ thuật xếp hạng lại kết quả truy vấn thông tin.

2.3. Phạm vi
Với đối tượng nghiên cứu nêu trên và để đáp ứng mục tiêu nghiên cứu, luận
án xác định phạm vi nghiên cứu như sau:
 Luận án tập trung giải quyết hai bài toán dịch câu truy vấn và xếp hạng
kết quả tìm kiếm web xuyên ngữ ;


-5-


 Cặp ngôn ngữ được chú trọng nghiên cứu là cặp ngôn ngữ Việt-Anh; cụ
thể là với câu truy vấn tiếng Việt và các văn bản tìm kiếm được viết bằng tiếng
Anh;
 Thước đo được sử dụng nhằm đánh giá hiệu quả hệ thống tìm kiếm là độ
chính xác trung bình bình quân (Mean Average Precision - MAP) với 2 lý do chính:
thứ nhất, đây là độ đo được sử dụng phổ biến tại các nghiên cứu về truy vấn thông
tin; thứ hai, độ đo này liên quan trực tiếp tới khả năng các tài liệu đứng đầu danh
sách kết quả tìm kiếm được đánh giá phù hợp với yêu cầu truy vấn;
 Các kỹ thuật hỗ trợ truy vấn thông tin xuyên ngữ được tập trung nghiên
cứu và áp dụng bao gồm phân đoạn câu truy vấn, sử dụng phản hồi ẩn và mở rộng
câu truy vấn;


Luận án chú trọng nghiên cứu kỹ thuật học xếp hạng dựa trên lập trình di

truyền;
 Luận án sử dụng các máy tìm kiếm đơn ngữ có sẵn và không đi sâu
nghiên cứu các vấn đề liên quan kỹ thuật được sử dụng trong các máy tìm kiếm đơn
ngữ.

3. ĐÓNG GÓP CỦA LUẬN ÁN
Trên cơ sở so sánh các kết quả đạt được với tình hình nghiên cứu hiện tại,
luận án có những đóng góp trong việc nâng cao chất lượng dịch thuật và nâng cao
hiệu quả xếp hạng lại kết quả tìm kiếm trong lĩnh vực tìm kiếm web xuyên ngữ, cụ
thể như sau:
 Đề xuất được các phương pháp khử nhập nhằng mới trong mô-đun dịch
câu truy vấn trên nền tảng của khái niệm Mutual Information về sự cùng xuất hiện

của các thuật ngữ trong văn bản (chương 2). Phương pháp thứ nhất dựa trên hàm
Summary Mutual Information (SMI) cho phép chọn một bản dịch tốt nhất cho mỗi
từ khóa truy vấn và cho kết quả tốt hơn thuật toán khử nhập nhằng greedy được sử
dụng rộng rãi [99]. Phương pháp thứ hai áp dụng thuật toán chọn bản dịch một cách
tuần tự (SeQuential Translation - SQ), xác định danh sách các bản dịch tốt nhất

-6-


được xếp theo thứ tự phù hợp cho mỗi từ khóa truy vấn, phục vụ việc xây dựng câu
truy vấn có cấu trúc;
 Đề xuất được phương pháp hiệu quả phục vụ tiền xử lý câu truy vấn
(chương 3). Một cách cụ thể, tác giả đã đề xuất thuật toán phân đoạn WLQS (viết
tắt của Word-length-based Query Segmentation) dựa trên độ dài của từ khóa; thuật
toán được sử dụng đồng thời cùng công cụ mã nguồn mở vnTagger [89], thực hiện
việc phân tích câu truy vấn thành các cụm từ cần dịch, đi kèm với các danh sách
bản dịch ứng viên. Kết quả này phục vụ như đầu vào cho các phương pháp khử
nhập nhằng trình bày trong chương 2;
 Đề xuất được các phương pháp phục vụ xây dựng, cải tiến câu truy vấn
tại ngôn ngữ đích (chương 3). Trên cơ sở câu truy vấn có cấu trúc được tạo lập bằng
phương pháp chọn bản dịch một cách tuần tự trình bày tại chương 2, tác giả đề xuất
mô hình hai bước dựa trên kỹ thuật phản hồi ẩn, tính toán lại trọng số các từ khóa
truy vấn và áp dụng các công thức tính toán trọng số các thuật ngữ chứa trong các
văn bản để mở rộng câu truy vấn. Thông qua thực nghiệm, tác giả xác định công
thức kết hợp trọng số tf-idf cục bộ và trọng số idf toàn cục của các từ khóa mang lại
hiệu quả tốt nhất, khi tăng điểm MAP của hệ thống lên đến 12%.
 Đề xuất được các mô hình lân cận xuyên ngữ (chương 4). Các mô hình
lân cận xuyên ngữ lần đầu tiên được xây dựng dựa trên cơ sở của các hàm xếp hạng
lân cận đơn ngữ đã có và ý tưởng xem xét các bản dịch của một từ khóa như cùng
một từ ảo. Trong luận án, điểm xếp hạng lân cận xuyên ngữ của tài liệu so với câu

truy vấn được tính toán dựa trên khoảng cách giữa các bản dịch ứng viên của các từ
khóa truy vấn. Các mô hình lân cận xuyên ngữ cho phép định nghĩa các hàm xếp
hạng mới cho máy tìm kiếm và được sử dụng trong quá trình xếp hạng lại;
 Đề xuất được phương pháp học xếp hạng dựa trên lập trình di truyền
(chương 4). Hai phương pháp học xếp hạng (giám sát và không giám sát) được áp
dụng nhằm xây dựng hàm xếp hạng tổng hợp dưới dạng tổ hợp tuyến tính của các
mô hình xếp hạng cơ sở TF-IDF, BM25 và các mô hình xếp hạng lân cận xuyên
ngữ, phục vụ việc xếp hạng lại kết quả tìm kiếm web;
 Thiết kế một mô hình tìm kiếm web xuyên ngữ cho cặp ngôn ngữ Việt-

-7-


Anh, tích hợp các đề xuất kỹ thuật đã nêu (chương 5). Mô hình được sử dụng nhằm
so sánh với các giải pháp kỹ thuật khác cũng như để kiểm tra tính hiệu quả tổng thể
việc kết hợp sử dụng các kỹ thuật đề xuất tại các chương 2, 3, 4.

4. BỐ CỤC CỦA LUẬN ÁN
Ngoài phần mở đầu và kết luận, luận án được tổ chức thành 5 chương với
cấu trúc như sau:
Chương 1: Tổng quan và đề xuất nghiên cứu. Chương này trình bày kết quả
nghiên cứu tổng quan về các vấn đề nghiên cứu trong luận án; thực hiện việc phân
tích, đánh giá các công trình nghiên cứu liên quan, chỉ ra một số vấn đề tồn tại. Trên
cơ sở các phân tích, đánh giá, tác giả đề xuất mô hình hệ thống tìm kiếm web xuyên
ngữ và các nội dung nghiên cứu được triển khai tại các thành phần của mô hình.
Chương 2: Dịch tự động phục vụ truy vấn xuyên ngữ. Chương này trình bày
tổng quan các phương pháp dịch tự động, bao gồm dịch máy, sử dụng từ điển và sử
dụng kho ngữ liệu. Nội dung tiếp theo trình bày các đề xuất của tác giả liên quan kỹ
thuật khử nhập nhằng phục vụ dịch câu truy vấn và kỹ thuật xây dựng câu truy vấn
có cấu trúc.

Chương 3 : Hỗ trợ dịch câu truy vấn. Chương này trình bày kết quả nghiên
cứu của tác giả liên quan việc xử lý câu truy vấn. Cụ thể, tác giả đề xuất kỹ thuật
phân đoạn câu truy vấn nhằm xác định các từ khóa ở ngôn ngữ nguồn phục vụ việc
dịch thuật cũng như kỹ thuật điều chỉnh, tối ưu câu truy vấn có cấu trúc ở ngôn ngữ
đích.
Chương 4: Xếp hạng lại. Chương 4 trình bày kết quả nghiên cứu của tác giả
về các phương pháp xếp hạng lại, bao gồm đề xuất các mô hình lân cận xuyên ngữ
và áp dụng kỹ thuật học máy phục vụ việc xây dựng hàm xếp hạng lại kết quả tìm
kiếm web.
Chương 5: Hệ thống tìm kiếm web xuyên ngữ Việt Anh. Chương 5 trình bày
thiết kế hệ thống tìm kiếm web xuyên ngữ Việt-Anh và các kết quả thực nghiệm
nhằm kiểm nghiệm ảnh hưởng của việc áp dụng các giải pháp kỹ thuật đề xuất trong
luận án cũng như so sánh hiệu quả với các giải pháp kỹ thuật khác.

-8-


CHƯƠNG 1
TỔNG QUAN VÀ ĐỀ XUẤT NGHIÊN CỨU
Trong chương 1, tác giả trình bày cơ sở lý thuyết, kết quả nghiên cứu tổng
quan về các vấn đề nghiên cứu trong luận án; thực hiện việc phân tích, đánh giá các
công trình nghiên cứu liên quan và chỉ ra một số hạn chế trong lĩnh vực tìm kiếm
web xuyên ngữ. Trên cơ sở các phân tích, đánh giá, tác giả đề xuất mô hình hệ
thống tìm kiếm web xuyên ngữ và xác định các nội dung nghiên cứu sẽ được triển
khai.

1.1. TRUY VẤN THÔNG TIN
1.1.1. Khái niệm
Truy vấn thông tin (Information Retrieval – IR) là ngành khoa học liên quan
đến việc phân tích, thiết kế và triển khai các hệ thống máy tính nhằm biểu diễn, tổ

chức và truy cập khối lượng lớn thông tin được số hoá. Thuật ngữ Information
Retrieval được phát biểu như sau: "truy vấn thông tin là tìm kiếm tư liệu (thường
dưới dạng tài liệu), với bản chất không có cấu trúc (thường dưới dạng văn bản)
thoả mãn được nhu cầu thông tin từ một bộ sưu tập lớn (thường được lưu trữ trong
máy tính)" [104]. Định nghĩa này đề cập đến cả hai khía cạnh hướng hệ thống và
hướng người dùng của tìm kiếm thông tin và là cơ sở phát triển các hướng nghiên
cứu và ứng dụng khác nhau.
Các hệ thống truy vấn thông tin tự động ban đầu được phát triển nhằm giúp
quản lý các hệ thống tài liệu khoa học [43]. Ngày nay, nhiều trường đại học, công ty
và thư viện sử dụng các hệ thống truy vấn thông tin phục vụ việc truy cập sách, tạp
chí và các loại tài liệu khác; các hệ thống tìm kiếm thương mại cung cấp cơ sở dữ
liệu chứa hàng triệu tài liệu trong lĩnh vực được quan tâm; ngoài ra có hàng trăm
triệu người hàng ngày thực hiện việc tìm kiếm thông tin trên World Wide Web.
Sự bùng nổ kể cả về số lượng và chủng loại thông tin trên World Wide Web
từ những năm 2000, cùng với các tiến bộ trong công nghệ phần cứng và phần mềm,

-9-


đã tạo ra các cơ hội cũng như các thách thức và đã biến truy vấn thông tin trở thành
một lĩnh vực nghiên cứu được đặc biệt quan tâm; kết hợp và ứng dụng kết quả của
nhiều ngành khoa học khác như xử lý ngôn ngữ tự nhiên, giao tiếp người và máy,
thiết kế giao diện.

1.1.2. Định nghĩa hình thức
Một cách hình thức, hệ thống truy vấn thông tin được mô tả như sự kết hợp
của 4 thành phần f(D,Q,F, R(q,d)) [4], trong đó:
 D là tập hợp biểu diễn lô-gíc cho các tài liệu (thành phần biểu diễn tài
liệu);
 Q là tập hợp biểu diễn lô-gíc cho nhu cầu người sử dụng (thành phần biểu

diễn truy vấn);
 F là khung cơ sở cho việc mô hình hoá biểu diễn tài liệu, biểu diễn truy
vấn và quan hệ giữa chúng (thành phần lý luận);
 R(q,d) là hàm xếp hạng, tương ứng với mỗi truy vấn qQ và một tài liệu
dD, trả lại một giá trị là số thực. Một hàm như vậy xác định thứ tự giữa các tài
liệu tương ứng với truy vấn q.

1.1.3. Sơ đồ xử lý của hệ thống truy vấn thông tin
Sơ đồ tổng quát mô tả quá trình xử lý trong một hệ thống truy vấn thông tin
được trình bày trong Hình 1.1[4].
Để đáp ứng nhu cầu truy vấn thông tin của người sử dụng, các giải pháp truy
vấn thông tin được chia thành 2 giai đoạn thực hiện độc lập:
 Giai đoạn I: Thu thập, xử lý, đánh chỉ mục, lưu trữ tài liệu.
 Giai đoạn II: Truy vấn; thực hiện việc xử lý câu truy vấn, trả về danh
sách kết quả.
Mục đích của giai đoạn I là xây dựng một cơ sở dữ liệu quản lý các tài liệu.
Các thao tác xử lý văn bản và đánh chỉ mục được thực hiện để đưa các văn bản
trong kho tài liệu vào bộ chỉ mục. Việc đánh chỉ mục cho tài liệu được thực hiện
nhằm tạo lập biểu diễn lô-gíc cho các tài liệu, đảm bảo tiết kiệm không gian lưu trữ

- 10 -


và phục vụ truy xuất nhanh. Sau khi bộ chỉ mục cho các tài liệu được định nghĩa, có
thể thực hiện việc truy vấn.
THU THẬP, XỬ LÝ, ĐÁNH CHỈ MỤC, LƯU TRỮ DỮ LIỆU

1.1: Xử lý văn bản

1.2: Đánh chỉ mục


Biểu diễn văn bản

Kho
tài liệu

Bộ
chỉ mục

Tài liệu tải về

Giao diện
2.1: Xử lý văn bản

2.2: Xử lý truy vấn

Biểu diễn văn bản

2.3: Tìm kiếm

2.4: Xếp hạng

Biểu diễn truy vấn

Yêu cầu
thông tin
Nội dung
phản hồi

Danh sách tài liệu

được xếp hạng

TRUY VẤN

Hình 1.1: Quá trình xử lý của hệ thống truy vấn thông tin [4]
Trong giai đoạn II, người sử dụng được cung cấp một giao diện để thực hiện
việc trình bày yêu cầu thông tin cũng như tiếp nhận kết quả tìm kiếm. Tại giao diện,
người sử dụng xác định nhu cầu thông tin dưới dạng câu truy vấn. Các thao tác xử
lý văn bản và xử lý truy vấn được áp dụng nhằm tạo lập một dạng biểu diễn lô-gíc
cho nhu cầu thông tin của người dùng. Quá trình tìm kiếm được thực hiện bởi hệ
thống dựa trên việc so sánh biểu diễn của câu truy vấn và của các tài liệu được đánh
chỉ mục. Trước khi được trả về cho người sử dụng, các tài liệu được sắp xếp theo
thứ tự phù hợp so với nhu cầu truy vấn thông qua quá trình xếp hạng. Tiếp theo,
một quá trình xử lý thông tin phản hồi có thể được thực hiện nhằm giúp hệ thống

- 11 -


thực hiện lại các thao tác xử lý truy vấn, tìm kiếm, xếp hạng và tạo lập một danh
sách kết quả mới có chất lượng tốt hơn. Có hai loại thông tin phản hồi: phản hồi
thực sự dựa trên sự đánh giá của người dùng khi nhận được danh sách kết quả tài
liệu; ngược lại, phản hồi giả được tạo lập bằng cách khai thác thông tin từ các tài
liệu đứng đầu danh sách kết quả tìm kiếm ban đầu.

1.1.4. Các mô hình truy vấn thông tin truyền thống
Mô hình truy vấn thông tin đóng vai trò như một bản thiết kế, định nghĩa và
giải thích các nội dung công việc được thực hiện trong một hệ thống truy vấn thông
tin, bao gồm cách biểu diễn tài liệu, biểu diễn truy vấn, tính điểm xếp hạng các tài
liệu so với câu truy vấn.
Các mô hình truy vấn thông tin truyền thống bao gồm mô hình Boolean, mô

hình không gian vec-tơ, mô hình xác suất [4]. Trừ mô hình Boolean, các mô hình
khác sử dụng công thức xếp hạng mức độ phù hợp của tài liệu so với câu truy vấn;
thông qua đó người sử dụng nhận được danh sách các tài liệu được xếp hạng theo
mức độ phù hợp.

1.1.4.1 Mô hình Boolean
Mô hình Boolean là mô hình cơ bản và đơn giản dựa trên đại số Bool, sử
dụng nguyên tắc so sánh chính xác khi tìm kiếm văn bản [4]. Mỗi tài liệu và câu
truy vấn được biểu diễn dưới dạng kết hợp của các từ chứa bên trong. Ví dụ, tài liệu
D = t1 ∩ t2 ∩ t3, với t1, …t3 là các thuật ngữ chứa trong tài liệu, một câu truy vấn Q
có thể có dạng t1 ∪ t3. Tài liệu D được xác định phù hợp với câu truy vấn Q nếu và
chỉ nếu D→Q.
Điểm hạn chế lớn nhất của mô hình Boolean là nó không hỗ trợ việc xếp
hạng các văn bản, không xử lý được vấn đề đồng nghĩa và đa nghĩa, có cú pháp
phức tạp và dễ gây nhầm lẫn. Một số mở rộng của mô hình này bao gồm mô hình
vùng, coi bộ sưu tập tài liệu như một chuỗi từ liên tục, mỗi chuỗi tuỳ ý các từ nối
tiếp là một vùng [62]; mô hình lô-gic mờ gộp các từ đồng nghĩa và các từ liên quan

- 12 -


×