Tải bản đầy đủ (.pdf) (77 trang)

Nghiên cứu các phương pháp nén chỉ số trong các hệ thống tìm kiếm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.17 MB, 77 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ THỊ HOÀI THU

NGHIÊN CỨU CÁC PHƯƠNG PHÁP NÉN CHỈ
SỐ TRONG CÁC HỆ THỐNG TÌM KIẾM
Ngành: Công Nghệ Thông Tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC

CHỦ TỊCH HỘI ĐỒNG

PGS.TS HÀ QUANG THỤY

GS.TS VŨ ĐỨC THI

Hà Nội - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ THỊ HOÀI THU

NGHIÊN CỨU CÁC PHƯƠNG PHÁP NÉN
CHỈ SỐ TRONG CÁC HỆ THỐNG TÌM KIẾM


LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015


LỜI CẢM ƠN

Trước hết, tôi vô cùng biết ơn PGS.TS Hà Quang Thụy, người thầy đã trực tiếp
dành nhiều thời gian tận tình hướng dẫn, cung cấp những thông tin tài liệu quý báu,
giúp đỡ tôi hoàn thành luận văn này.
Tôi xin cảm ơn các thầy cô trong Trường Đại học Công Nghệ - Đại học Quốc
Gia Hà Nội đã cung cấp cho tôi những kiến thức quý báu trong thời gian tôi học tập
trong Nhà trường.
Sau cùng, tôi xin bày tỏ lòng biết ơn đến người thân, bạn bè, đồng nghiệp, cơ
quan đã luôn tạo điều kiện động viên cho tôi hoàn thành luận văn tốt nghiệp này.

Hà Nội, ngày … tháng … năm 2015
HỌC VIÊN

Lê Thị Hoài Thu



1
LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá
nhân, không sao chép lại của người khác. Trong toàn bộ nội dung của luận văn, những
điều được trình bày hoặc là của cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu,
dưới sự hướng dẫn tận tình của thầy giáo PGS.TS Hà Quang Thụy. Tất cả các tài liệu
tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp.

Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định
cho lời cam đoan của mình.
Hà Nội, ngày 01 tháng 09 năm 2015
Học viên

Lê Thị Hoài Thu


2

MỤC LỤC
LỜI CAM ĐOAN....................................................................................................... 1
MỤC LỤC .................................................................................................................. 2
DANH MỤC CÁC KÝ HIỆU VIẾT TẮT ................................................................ 5
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .................................................................... 6
DANH MỤC BẢNG .................................................................................................. 7
PHẦN MỞ ĐẦU ........................................................................................................ 8
CHƯƠNG 1. KIẾN TRÚC CHUNG CỦA MÁY TÌM KIẾM............................... 10
THÀNH PHẦN CHỈ SỐ TRONG MÁY TÌM KIẾM ............................................ 10
1.1

Khái niệm bộ công cụ tìm kiếm thông tin ..................................................... 10

1.1.1 Tổng quan về hệ thống tìm kiếm ............................................................... 10
1.1.2 Quy trình tìm kiếm thông tin..................................................................... 11
1.1.3

Một số vấn đề trong tìm kiếm thông tin .............................................. 12

1.1.4 Cấu trúc điển hình của một máy tìm kiếm ................................................. 13

1.2

Tập chỉ số trong máy tìm kiếm ..................................................................... 14

1.2.1 Các bước để xây dựng hệ thống tìm kiếm thông tin ................................. 15
1.2.2

Cấu trúc của bảng chỉ số ngược .......................................................... 16

1.2.3

Chia bảng chỉ số ................................................................................. 19

1.3 Tổng quan về phương pháp lập chỉ số .............................................................. 19
1.3.1

Xác định mục từ quan trọng cần lập chỉ số .......................................... 20

1.3.2

Một số hàm tính trọng số mục từ......................................................... 21

1.3.3

Lập chỉ mục tài liệu ............................................................................ 22

KẾT LUẬN CHƯƠNG I ....................................................................................... 25
CHƯƠNG II. MỘT SỐ PHƯƠNG PHÁP NÉN CHỈ SỐ, NÉN CHỈ SỐ NGƯỢC
TRONG MÁY TÌM KIẾM ..................................................................................... 27
2.1 Chỉ số ngược.................................................................................................... 27

2.2

Phương pháp nén chỉ số ................................................................................ 29


3

2.2.1 Lưu trữ theo khối ...................................................................................... 30
2.2.2. Nén bộ từ điển từ vựng như một chuỗi ..................................................... 32
2.2.3 Nén tập tin posting .................................................................................... 33
2.3 Các phương pháp nén chỉ số cập nhật .............................................................. 36
2.3.1

Mã Glomb ................................................................................................. 37

2.3.2

Simple9 Coding .................................................................................. 37

2.3.3

Binary Code ........................................................................................ 39

2.3.4

PforDelta ............................................................................................ 41

2.3.5

Interpolative Coding ........................................................................... 42


2.4 Cải tiến thuật toán PFD .................................................................................... 44
KẾT LUẬN CHƯƠNG 2 ...................................................................................... 45
CHƯƠNG III. TÌM HIỂU VỀ LUCENE ............................................................... 46
3.1. Tìm hiểu về lucene.......................................................................................... 46
3.1.1. Giới thiệu chung về Lucene ..................................................................... 46
3.1.2. Tìm hiểu các lớp đối tượng lập chỉ mục ................................................... 46
3.1.2. Tìm hiểu các lớp đối tượng tìm kiếm ....................................................... 48
3.2 Lập chỉ số trong Lucene................................................................................... 49
3.2.1. Các tiến trình lập chỉ số ........................................................................... 49
3.2.2 Các toán tử cơ bản trong lập chỉ số với Lucene ......................................... 50
3.2.3 Khuếch đại các tài liệu và các trường ........................................................ 51
3.2.4 Điều khiển tiến trình lập chỉ số ................................................................. 51
3.2.5

Tối ưu hóa việc lập chỉ số ................................................................... 52

3.3 Tìm kiếm trên tập chỉ số ................................................................................. 53
3.3.1 Tìm kiếm một thuật ngữ cụ thể ................................................................. 53
3.3.2 Bộ chuyển đổi câu truy vấn của người dùng: QueryParser ........................ 53
3.3.3 Sử dụng lớp IndexSearcher ...................................................................... 54


4

3.4 Tiến trình phân tích của Lucene ....................................................................... 54
3.5 Định dạng chỉ số trong lucene .......................................................................... 55
3.5.1 Cấu trúc chỉ số .......................................................................................... 55
3.5.2 Chỉ số ngược................................................................................................. 57
TỔNG KẾT CHƯƠNG 3 ...................................................................................... 58

CHƯƠNG 4 - CÀI ĐẶT THỬ NGHIỆM VÀ KẾT QUẢ THỰC HIỆN .............. 59
4.1 Giới thiệu chương trình thử nghiệm ................................................................. 59
4.2 Kết quả thử nghiệm......................................................................................... 62
KẾT LUẬN CHƯƠNG 4 ...................................................................................... 64
KẾT LUẬN .............................................................................................................. 65
TÀI LIỆU THAM KHẢO ....................................................................................... 66
PHỤ LỤC ................................................................................................................. 68


5

DANH MỤC CÁC KÝ HIỆU VIẾT TẮT
IR: Hệ thống tìm kiếm thông tin (Information Retrieval)
IF: Tập tin ngược (Inverted File)
IL: danh sách ngược (inverled list)
URL: Uniform Resource Locator
CSDL: Cơ sở dữ liệu
VB: Variable byte
PFD: PforDelta
IPC: Interpolative Coding
TF: Tần suất xuất hiện (Term frequency)


6

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 – Quy trình tìm kiếm thông tin ................................................................... 11
Hình 1.2 - Ví dụ về chỉ số ngược_tìm theo từ ............................................................ 17
Hình 1.3 - Tổng quan quá trình lập chỉ mục .............................................................. 20
Hình 2.1- Xây dựng chỉ số bằng cách phân loại và nhóm các từ vựng ....................... 28

Hình 2.2 - Lưu trữ theo khối ..................................................................................... 31
Hình 2.3 - Tìm kiếm các từ trong trường hợp không nén tập từ điển (hình a) và khi nén
theo khối có kích thước k=4 (hình b) ......................................................................... 32
Hình 2.4 - Lưu trữ từ điển trong một mảng có độ rộng cố định .................................. 32
Hình 2.5 - Lưu trữ tập từ điển kho từ vựng như một chuỗi ........................................ 33
Hình 2.6 - Sơ đồ mục tiêu cho Opt-PFD .................................................................... 44
Hình 3.1 Các thao tác chính trong tiến trình lập chỉ mục ........................................... 50
Hình 3.2 Bộ nhớ đệm giúp cải thiện hiệu suất lập chỉ mục của Lucene ..................... 51
Hình 3.3 - Các thành phần định dạng trong tập chỉ mục ngược ................................. 57
Hình 4.1- Kết quả trả về sau khi lập chỉ mục............................................................. 63
Hình 4.2 -. Cấu trúc tập chỉ mục compound index ..................................................... 63
Hình 4.3 - Cấu trúc chỉ số multifile index .................................................................. 63


7

DANH MỤC BẢNG
Bảng 1.1 Cách tập chỉ số ngược lưu trữ ..................................................................... 24
Bảng 1.2 Cách tập chỉ số thuận lưu trữ ...................................................................... 25
Bảng 1.3 Thêm một tài liệu mới vào tập chỉ số ngược................................................ 25
Bảng 2.1- Bảng phân chia bits dữ liệu trong S9 ......................................................... 38
Bảng 2.2 – Bảng phân đoạn các khoảng cách thành các cụm bits ............................... 40
Bảng 3.1 Tổng quan về các loại Fields ...................................................................... 48
Bảng 3.2 Các tham số để điều chỉnh hiệu suất lập chỉ mục........................................ 52


8

PHẦN MỞ ĐẦU
Trong xã hội phát triển, thông tin thực sự trở thành nguồn tài nguyên quan

trọng, nguồn của cải to lớn của xã hội. Các mối quan hệ, tính trật tự của tổ chức là
những thuộc tính căn bản của mọi hệ thống kinh tế - xã hội. Hệ thống càng phát triển
tức là càng có nhiều yếu tố tạo thành mối quan hệ giữa chúng càng phức tạp do đó
lượng thông tin càng phong phú. Chính vì vậy mà ngày nay cùng với sự phát triển của
Công nghệ Thông tin cũng như sự phát triển nhanh chóng của mạng máy tính toàn cầu
và sự bùng nổ thông tin, các kho dữ liệu số đã được hình thành ở khắp mọi nơi và
không ngừng gia tăng về dung lượng, nhưng thông tin thì vẫn luôn là cần thiết thậm
chí thiếu với họ. Các kho dữ liệu này ẩn chứa một lượng thông tin vô cùng lớn. Nhưng
vấn đề đặt ra là làm thế nào để “khai thác, tìm kiếm” tổng hợp kho thông tin đó để cho
nó trở nên hiệu quả và có giá trị đối với người dùng. Những thông tin này được lưu trữ
và biểu diễn ở rất nhiều dạng khác nhau như văn bản, âm thanh, hình ảnh vv... có thể
thấy khối lượng dữ liệu khổng lồ mà người sử dụng có thể truy xuất nếu không được
tổ chức lưu trữ tốt và kèm theo một phương thức xử lý hiệu quả để có thể khai thác và
tìm kiếm lượng thông tin trong đó thì chúng cũng chỉ là những thông tin không mang
lại chút lợi ích nào cho người dùng.
Để giải quyết vấn đề này, người ta đã xây dựng các hệ thống tìm kiếm thông
tin. Nó giúp con người tìm kiếm và chọn lọc ra những tài liệu có chứa thông tin cần
thiết. Do người sử dụng luôn yêu cầu kết quả tìm kiếm chính xác, đầy đủ và với các
vận tốc tìm kiếm nhanh nên các hệ thống tìm kiếm thông tin luôn được nghiên cứu và
phát triển cùng với các kỹ thuật lưu trữ, thuật toán tìm kiếm hiệu quả và tối ưu nhất.
Như đã biết, tập hợp các trang Web đáp ứng một câu hỏi trả về từ máy tìm kiếm
nói chung là rất lớn. Mặc dù các kỹ thuật dựa trên các liên kết đã nâng cao chất lượng
và độ chính xác của kết quả tìm kiếm, nhưng tìm kiếm dựa trên văn bản (chẳng hạn
tìm kiếm các trang chứa đựng từ khóa) vẫn tiếp tục phương pháp chính để xác định các
trang liên quan tới vấn đề đang được truy vấn. Bảng chỉ mục văn bản hỗ trợ cho việc
tìm kiếm có thể được thực hiện sử dụng bất kỳ phương pháp truy cập truyền thống nào
để tìm kiếm trên toàn tập tài liệu. Vì vậy việc lập chỉ số trong máy tìm kiếm là một
thao tác vô cùng quan trọng trong các hệ thống tìm kiếm. Lập chỉ mục tài liệu, hiểu
một cách đơn giản, là việc sắp xếp các tài liệu nhằm đáp ứng nhanh chóng yêu cầu tìm
kiếm thông tin của người sử dụng. Công cụ tìm kiếm web cũng như nhiều hệ thống tìm

kiếm khác đều dựa vào chỉ số đảo ngược với cấu trúc đơn giản và hiệu quả cho phép
tìm thấy tất cả các tài liệu có chứa từ cụ thể.


9

Luận văn tập trung khảo sát các phương pháp nén chỉ số, chỉ số ngược trong
máy tìm kiếm và đánh giá kết thử nghiệm của các phương pháp nén trong các bài báo
(1, 2, 9 ,5-8, 10-14). Đồng thời luận văn triển khai cài đặt thử nghiệm với thuật toán cơ
bản và cải tiến để thử nghiệm với tập dữ liệu có sẵn.
Luận văn bao gồm Phần mở đầu, bốn chương nội dung và phần kết luận mà nội
dung các chương được trình bày dưới đây.
Chương 1 – Kiến trúc chung của máy tìm kiếm, thành phần chỉ số trong máy
tìm kiếm. Chương này giới thiệu những nội dung cơ bản nhất, cung cấp một cách nhìn
khái quát về kiến trúc của máy tìm kiếm trong mô hình hệ thống thông tin. Đồng thời
luận văn cũng mô tả chi tiết các thành phần của cấu trúc chỉ số trong máy tìm kiếm và
nhu cầu nén chỉ số cho máy tìm kiếm.
Chương 2 – Các phương pháp nén chỉ số trong máy tìm kiếm. Nội dung của
chương này xem xét và đánh giá một số phương pháp nén chỉ số cơ bản và cập nhật.
Ban đầu nội dung chương mô tả cấu trúc chỉ số ngược và phân tích quy trình lập chỉ số
ngược trong máy tìm kiếm. Từ đó đưa ra các phương pháp cập nhật và cải tiến để nén
các tập chỉ số một cách tối ưu.
Chương 3 – Tìm hiểu về Lucene. Giới thiệu chi tiết về Lucene, các thành phần
cơ bản trong Lucene, cấu trúc chỉ số trong Lucene và tối ưu hóa lập chỉ số trong
Lucene.
Chương 4 – Cài đặt thử nghiệm. Chương trình trình bày kết quả thực nghiệm
nén chỉ số ngược trên cơ sở thuật toán nén Khoảng cách byte (VB code) và OptPFD.
Chương trình cài đặt thử nghiệm được viết bởi ngôn ngữ Java trên nền Console.
Chương trình đã hoạt động cho kết quả để đánh giá 2 thuật toán nén, tuy nhiên do thời
gian hạn chế nên luận văn chưa xây dựng được thuật toán vào trong máy tìm kiếm.

Phần Kết luận. Trình bày tổng hợp các kết quả thực hiện luận văn và phương
hướng nghiên cứu tiếp theo về các nội dung của luận văn.


10

CHƯƠNG 1. KIẾN TRÚC CHUNG CỦA MÁY TÌM KIẾM
THÀNH PHẦN CHỈ SỐ TRONG MÁY TÌM KIẾM
1.1 Khái niệm bộ công cụ tìm kiếm thông tin
1.1.1 Tổng quan về hệ thống tìm kiếm
Thuật ngữ tìm kiếm thông tin xuất hiện từ khá sớm, các thông tin thể hiện ở
nhiều dạng khác nhau, có thể là dạng văn bản, âm thanh hoặc hình ảnh,vv... Mà phổ
biến nhất là tìm kiếm văn bản (bao gồm việc tìm kiếm hoặc sắp xếp văn bản), đặc biệt
là trong các công cụ tìm kiếm. Nhiều lúc, thuật ngữ này được dùng như là toàn bộ quá
trình từ việc xử lý văn bản tới việc phân lớp và tìm kiếm văn bản. Thuật ngữ tìm kiếm
văn bản theo nghĩa bao gồm việc lập chỉ mục tài liệu, tìm kiếm và sắp xếp các văn bản
tìm kiếm theo thứ tự liên quan đến yêu cầu người sử dụng (văn bản ở đây có thể là một
File hoặc là một trang Web) .
Internet là một kho thông tin khổng lồ và phức tạp. Thông tin trên các trang
Web đa dạng về mặt nội dung cũng như hình thức. Tuy nhiên cùng với sự đa dạng và
số lượng lớn thông tin như vậy đã nảy sinh vấn đề quá tải thông tin. Cùng với sự thay
đổi và phát triển hàng ngày hàng giờ về nội dung cũng như số lượng của các trang
Web trên Internet thì vấn đề tìm kiếm thông tin đối với người sử dụng lại ngày càng
khó khăn. Đối với mỗi người dùng chỉ một phần rất nhỏ thông tin là có ích, chẳng hạn
có người chỉ quan tâm đến trang Thể thao, Văn hóa mà không mấy khi quan tâm đến
Kinh tế. Người ta không thể tìm kiếm địa chỉ trang Web chứa thông tin mà mình cần,
do vậy đòi hỏi cần phải có một trình tiện ích quản lý nội dung của các trang Web và
cho phép tìm thấy các địa chỉ trang Web có nội dung giống với yêu cầu của người tìm
kiếm.
Theo tìm hiểu từ các nguồn thông tin khái niệm máy tìm kiếm (search engine)

là một hệ thống được xây dựng nhằm tiếp nhận các yêu cầu tìm kiếm của người dùng
(thường là một tập các từ khóa), sau đó phân tích yêu cầu này và tìm kiếm thông tin
trong cơ sở dữ liệu được tải xuống từ Web và đưa ra kết quả là các trang web có liên
quan cho người dùng.
Bên cạnh đó có thể định nghĩa một hệ thống tìm kiếm thông tin là một chương
trình phần mềm dùng để lưu trữ và quản lý thông tin nằm trong các tài liệu. Hệ thống
này giúp người sử dụng tìm kiếm thông tin mà họ quan tâm. Các hệ thống này không
giống như các hệ thống trả lời câu hỏi, nó chỉ ra sự tồn tại và vị trí các tài liệu có chứa
thông tin cần thiết. Một số tài liệu “tìm kiếm được” thỏa mãn yêu cầu của người sử
dụng gọi là các tài liệu phù hợp hay tài liệu liên quan (relevanl document). Một hệ
thống tìm kiếm hoàn hảo sẽ chỉ tìm và đưa ra các tài liệu liên quan mà không đưa ra


11

các tài liệu không liên quan. Tuy nhiên các hệ thống này không tồn tại bởi các thể hiện
tìm kiếm là không đầy đủ mà mức độ liên quan phụ thuộc vào quan điểm chủ quan của
từng người. Hai người sử dụng có thể đưa ra cùng một truy vấn với một hệ thống tìm
kiếm thông tin và sau đó sẽ có những đánh giá khác nhau về mức độ liên quan trên các
tài liệu đã tìm được. Cụ thể, người dùng gửi một truy vấn, dạng đơn giản nhất là một
danh sách các từ khóa, và máy tìm kiếm sẽ làm việc để trả lại một danh sách các trang
Web có liên quan hoặc có chứa các từ khóa đó. Phức tạp hơn, thì truy vấn là cả một
văn bản hoặc một đoạn văn bản hoặc nội dung tóm tắt của văn bản. Một số máy tìm
kiếm điển hình hiện nay: Yahoo, Google, Alvista, ASPSeek, VietSeek...
1.1.2 Quy trình tìm kiếm thông tin
Quy trình tìm kiếm thông tin nói chung thực hiện các vấn đề như biểu diễn, lưu
trữ, tổ chức và truy cập đến các mục thông tin. Việc tổ chức và biểu diễn thông tin
giúp hệ thống tìm kiếm nhanh thông tin mà người dùng cần. Nhưng để mô tả đặc điểm
thông tin yêu cầu của người sử dụng không phải dễ dàng. Vì thế, hệ thống tìm kiếm
thông tin bao gồm ba quá trình cơ bản sau: Biểu diễn nội dung các tài liệu, biểu diễn

yêu cầu của người sử dụng và so sánh hai biểu diễn này.

Hình 1.1 – Quy trình tìm kiếm thông tin [1]
 Quá trình biểu diễn tài liệu được gọi là quá trình chỉ số hóa (indexing). Quá
trình này có thể lưu trữ thực sự các tài liệu trong hệ thống, thông thường chỉ lưu trữ
một phần tài liệu, chẳng hạn như phần tiêu đề và tóm tắt.
 Quá trình biểu diễn yêu cầu người sử dụng gọi là quá trình biểu diễn truy vấn
(query formulation process). Truy vấn biểu thị sự tương tác giữa hệ thống và người sử


12

dụng, do đó quá trình này không chỉ đưa ra một truy vấn phù hợp mà còn phải thể hiện
được sự hiểu biết về yêu cầu của người sử dụng. Sự thiết lập tự động các truy vấn liên
tiếp được gọi là phản hồi độ liên quan (relevance feedback).
 So sánh truy vấn với tài liệu cũng được gọi là quá trình đối sánh (matching
process) và cho kết quả là một danh sách các tài liệu được sắp xếp theo mức độ liên
quan tới truy vấn.
Vậy để mô tả thông tin một cách rõ ràng đầy đủ, người sử dụng không thể trực tiếp
yêu cầu các giao diện hiện thời của hệ thống tìm kiếm cung cấp thông tin cần dùng.
Thay vào đó người sử dụng phải chuyển đổi thông tin yêu cầu này thành một truy vấn
mà có thể được xử lý bởi hệ thống tìm kiếm (hoặc hệ thống IR). Thường thì phép
chuyển đổi này tạo ra một tập hợp các từ khóa (hoặc các term chỉ số) mô tả khái quát
yêu cầu của người sử dụng. Cho một truy vấn người dùng, mục đích chính của một hệ
thống tìm kiếm là tìm kiếm thông tin mà có thể trở thành hữu ích hoặc phù hợp với
người sử dụng.
Để đạt được hiệu quả đáp ứng thông tin yêu cầu của người dùng, hệ thống tìm
kiếm phải bằng cách nào “hiểu” được các nội dung của thông tin (các văn bản) trong
một tập hợp và sắp xếp chúng theo mức độ phù hợp với truy vấn. Sự “hiểu biết” về nội
dung văn bản này bao gồm sự trích chọn cú pháp và ngữ nghĩa thông tin từ văn bản và

sử dụng thông tin này để so khớp với thông tin người dùng. Cái khó là không chỉ hiểu
để trích chọn thông tin này như thế nào mà còn là hiểu cách sử dụng nó để quyết định
mối liên quan như thế nào. Do vậy khái niệm mức độ liên quan (revlevance) cũng là
một phần quan trọng trong tìm kiếm tất cả các tài liệu liên quan với một truy vấn
người dùng mặc dù việc tìm kiếm có thể đưa ra một tài liệu không thích hợp.
Vậy, tìm kiếm thông tin là một quá trình nhận dạng, xác định và chỉ ra các tài liệu
liên quan dựa trên mô tả yêu cầu thông tin của người sử dụng. Việc tìm kiếm các tài
liệu dựa trên nội dung thực sự của văn bản mà không phụ thuộc vào các từ khóa gắn
với văn bản đó. Các công cụ tìm kiếm nổi tiếng hiện nay như Google, Altavista,
Yohoo,... là những hệ tìm kiếm đưa ra danh sách các văn bản theo độ quan trọng của
câu hỏi đưa vào. Để xây dựng một hệ tìm kiếm văn bản có hiệu quả cao, trước hết các
văn bản và truy vấn ở dạng ngôn ngữ tự nhiên phải được tiền xử lý và chuẩn hóa.
1.1.3 Một số vấn đề trong tìm kiếm thông tin
Kể từ những năm 40, các vấn đề trong việc lưu trữ thông tin và tìm kiếm thông tin
đã thu hút sự chú ý rất lớn. Với một lượng thông tin khổng lồ thì việc tìm kiếm chính
xác và nhanh chóng càng trở nên khó khăn hơn. Với sự ra đời của máy tính, rất nhiều


13

ý tưởng lớn được đưa ra nhằm cung cấp một hệ thống tìm kiếm thông minh và chính
xác. Tuy nhiên, vấn đề tìm kiếm sao cho hiệu quả vẫn chưa được giải quyết.
Về nguyên tắc, việc lưu trữ thông tin và tìm kiếm thông tin thì đơn giản. Giả sử có
một kho chứa các tài liệu và một người muốn tìm các tài liệu liên quan đến yêu cầu
của mình. Người đó có thể đọc tất cả các tài liệu trong kho, giữ lại các tài liệu liên
quan và bỏ đi các tài liệu không liên quan. Rõ ràng giải pháp này không thực tế bởi vì
tốn rất nhiều thời gian.
Với sự ra đời của máy vi tính tốc độ cao, máy tính có thể “đọc” thay cho con
người để trích ra các tài liệu có liên quan trong toàn bộ tập dữ liệu. Tuy nhiên vấn đề
lúc này là làm sao để xác định được tài liệu nào liên quan đến yêu cầu của người sử

dụng. Do đó, mục tiêu của một hệ thống tìm kiếm thông tin tự động là truy tìm được
tất cả các tài liệu có liên quan đến yêu cầu của người sử dụng.
1.1.4 Cấu trúc điển hình của một máy tìm kiếm
Mặc dù trong thực tiễn, mỗi máy tìm kiếm có cách thực thi riêng mà theo đó
các thành phần được trình bày như dưới đây có thể được nhập hoặc tách ra. Tuy nhiên,
một máy tìm kiếm điển hình thường gồm các thành phần chức năng sau:
 Thành phần Crawling (Crawler): Đây là thành phần có chức năng thu thập tài
nguyên trang Web cho máy tìm kiếm. Thành phần này thực hiện việc duyệt không
gian Web, đi theo các liên kết trên các trang Web để thu thập nội dung các trang Web.
Crawler nhận tập các địa chỉ URL xuất phát từ dòng xếp hàng các trang Web chưa
được thăm (dưới đây gọi là frontier theo thuật ngữ Tiếng Anh thông dụng của nó) thực
hiện tải các trang Web tương ứng về. Trong nhiều trường hợp, thành phần crawling
còn bao gồm bộ phân tích cú pháp (parser), bộ điều khiển crawler. Bộ phân tích cú
pháp thi hành đối với trang Web, cung cấp các địa chỉ URL chưa được thăm vào dòng
xếp hàng. Bộ điều khiển crawler quyết định xem URL nào được duyệt tiếp theo và gửi
kết quả cho crawler. Nội dung các trang web đã được tải về sẽ được lưu vào kho trang
Web (page repository). Quá trình này được lặp lại cho tới khi đạt tới điều kiện kết
thúc.
 Thành phần đánh chỉ mục (indexer): Đây là thành phần có nhiệm vụ tiếp nhận
kết quả phân tích cú pháp trang Web đã được tải về và đánh chỉ mục cho nội dung
trang Web.
Kết quả của việc đánh chỉ mục sinh ra tập bảng chỉ mục rất lớn. Nhờ có bảng chỉ
mục này, máy tìm kiếm nhanh chóng cung cấp được tất cả các địa chỉ URL của các
trang Web đáp ứng truy vấn người dùng. Thông thường, bộ tạo chỉ mục tạo ra chỉ mục


14

nội dung (content index) và chỉ mục cấu trúc (structure index). Chỉ mục nội dung chỉ
thông tin về các từ khóa xuất hiện trong trang Web. Chỉ mục cấu trúc thể hiện mối liên

kết giữa các trang Web, tận dụng được đặc tính quan trọng của dữ liệu Web là có các
liên kết. Nó chính là một dạng đồ thị Web. Cách thức lập chỉ số ngược (invert index)
theo từ khóa thường được sử dụng để làm tăng tốc độ tìm kiếm theo từ khóa.
 Thành phần phân tích tập (Collection Analysic Module): Hoạt động dựa vào
đặc trưng của thành phần truy vấn. Chẳng hạn, nếu thành phần truy vấn chỉ đòi hỏi
việc tìm kiếm hạn chế trong một số Website đặc biệt, hoặc giới hạn trong một tên
miền, thì công việc sẽ nhanh và hiệu quả hơn. Thành phần này sử dụng thông tin từ hai
loại chỉ mục cơ bản (chỉ mục nội dung và chỉ mục cấu trúc) do thành phần đánh chỉ
mục cung cấp cùng với thông tin các từ khóa trong trang Web và các thông tin tính
hạng để tạo ra các chỉ mục tiện ích.
 Thành phần truy vấn (query engine): Thành phần này chịu trách nhiệm nhận
các yêu cầu tìm kiếm của người sử dụng. Nó thường xuyên truy vấn CSDL, đặc biệt là
các bảng chỉ mục để trả về danh sách các tài liệu thỏa mãn yêu cầu của người dùng.
Do số lượng các trang Web là rất lớn và thông thường người dùng chỉ đưa vào một vài
từ khóa trong câu truy vấn nên tập kết quả thường rất lớn. Bộ xếp hạng (ranking) có
nhiệm vụ sắp xếp các tài liệu này theo mức độ phù hợp với yêu cầu tìm kiếm để hiển
thị kết quả cho người sử dụng. Khi muốn tìm kiếm các trang Web về một chủ đề nào
đó, người sử dụng đưa vào một số từ khóa liên quan. Thành phần truy vấn dựa theo
các từ khóa này để tìm trong bảng chỉ mục nội dung các địa chỉ URL mà nội dung có
chứa từ khóa này. Sau đó, thành phần truy vấn sẽ chuyển các trang Web cho bộ xếp
hạng để sắp xếp các kết quả giảm dần về độ liên quan giữa trang Web với truy vấn, rồi
hiển thị kết quả cho người sử dụng.
1.2

Tập chỉ số trong máy tìm kiếm

Các module lập chỉ số và module phân tích tập hợp đã xây dựng lên đủ loại bảng
lập chỉ số trên tập hợp các trang. Module lập chỉ số xây dựng hai bảng chỉ mục cơ bản:
Đó là bảng chỉ số văn bản (cho nội dung) và bảng chỉ số cấu trúc (cho liên kết).
Module phân tích tập hợp sử dụng hai bảng chỉ số cơ bản này cùng với các trang trong

kho lưu trữ để xây dựng lên các bảng chỉ số tiện ích khác. Sau đây, tôi trình bày một
cách ngắn gọn từng loại bảng chỉ số, chủ yếu là tập chung vào cấu trúc và phương
pháp sử dụng chúng.
a. Lập chỉ số văn bản
Mặc dù các kỹ thuật dựa trên các liên kết đã nâng cao chất lượng và độ chính xác
của kết quả tìm kiếm, nhưng tìm kiếm dựa trên văn bản (chẳng hạn tìm kiếm các trang


15

chứa đựng từ khóa) vẫn tiếp tục phương pháp chính để xác định các trang liên quan tới
vấn đề đang được truy vấn. Bảng chỉ mục văn bản hỗ trợ cho việc tìm kiếm có thể
được thực hiện sử dụng bất kỳ phương pháp truy cập truyền thống nào để tìm kiếm
trên toàn tập tài liệu như các file Signature, các file Inverted hoặc các bảng chỉ mục
ngược (Inverted). Bảng Inverted là cấu trúc truyền thống được lựa chọn cho Web.
b. Bảng chỉ số tiện ích
Số lượng kiểu bảng chỉ mục tiện ích được xây dựng bởi module phân tích tập hợp
phụ thuộc vào nét đặc trưng của công cụ truy vấn và các loại thông tin cần hỗ trợ cho
quá trình sắp xếp. Cho ví dụ, một công cụ truy vấn cho phép tìm kiếm bị giới hạn
trong một site hoặc là một miền cụ thể sẽ có giá trị từ một bảng chỉ mục site ánh xạ
mỗi tên miền tới một danh sách các trang của miền đó. Tương tự, chúng ta có thể sử
dụng các thông tin liên kết từ bảng chỉ mục liên kết để hỗ trợ cho thuật toán lặp trong
việc tính toán và lưu trữ PageRank kết hợp với mỗi trang một cách dễ dàng.
c. Bảng chỉ số liên kết
Muốn xây dựng một bảng chỉ mục liên kết thì các phần được thu hồi trên Web
được mô hình hóa như một đồ thị với các cạnh và các nút. Mỗi nút trong đồ thị tương
ứng với một trang Web, mỗi cạnh có hướng từ A đến B diễn tả liên kết siêu văn bản
trong trang A trỏ tới trang B. Một bảng chỉ mục cho cấu trúc liên kết phải là một diễn
tả mở rộng và hiệu quả của đồ thị này. Các thông tin cấu trúc phổ biến nhất được sử
dụng trong tìm kiếm đó là các thông tin liên kết nhau. Chẳng hạn cho trang P, hãy tìm

kiếm một tập các trang được P trỏ tới (liên kết đi ra) hoặc một tập các trang trỏ tới
P(liên kết đi vào). Cấu trúc danh sách liền kề của đồ thị Web đầu tiên và của đồ thị
Web đã được đảo có thể cung cấp phép truy cập tới các thông tin liên kết một cách có
hiệu quả. Các thuộc tính cấu trúc khác của đồ thị Web có thể được đưa ra một cách dễ
dàng từ những thông tin cơ bản lưu trữ trong danh sách liền kề.
1.2.1 Các bước để xây dựng hệ thống tìm kiếm thông tin
Tìm kiếm thông tin (Information retrieval) là lĩnh vực nghiên cứu nhằm tìm ra
các giải pháp giúp người sử dụng có thể tìm thấy các thông tin mình cần trong một
khối lượng lớn dữ liệu. Nhiệm vụ của một hệ thống tìm kiếm thông tin tương tự như
nhiệm vụ tổ chức phân loại tài liệu và phục vụ việc tra cứu của một thư viện. Một hệ
thống tìm kiếm thông tin có hai chức năng chính: lập chỉ mục (indexing) và tra cứu
(interrogation). Lập chỉ mục là giai đoạn phân tích tài liệu (document) để xác định các
chỉ mục (term / index term) biểu diễn nội dung của tài liệu. Việc lập chỉ mục có thể
dựa vào một cấu trúc phân lớp có sẵn (control vocabulary) như cách làm của các nhân
viên thư viện, phân loại tài liệu theo một bộ phân loại cho trước. Các chỉ mục trong


16

cách làm này là tồn tại trước và độc lập với tài liệu. Cách thứ hai để lập chỉ mục là rút
trích các chỉ mục từ chính nội dung của tài liệu (free text). Cuối giai đoạn lập chỉ mục
nội dung của các tài liệu có trong kho tài liệu được biểu diễn bằng tập các chỉ mục.
a. Lập chỉ số cho tài liệu
Từ nội dung của các tài liệu riêng rẽ trong tập tài liệu hệ thống tìm kiếm thông
tin có nhiệm vụ tách nội dung đó thành các từ riêng biệt và tổng hợp chúng thành một
danh sách các từ riêng biệt có trong tập tài liệu. Sau khi có được tập các từ đã được
trích sẽ chọn các từ để làm từ chỉ mục. Tuy nhiên, không phải từ nào cũng được chọn
làm từ chỉ mục. Các từ có khả năng đại diện cho tài liệu sẽ được chọn, các từ này
được gọi là key word, do đó trước khi lập chỉ mục sẽ là giai đoạn tiền xử lý đối với
các từ trích được để chọn ra các key word thích hợp. Ta sẽ loại bỏ danh sách các từ ít

có khả năng đại diện cho nội dung văn bản dựa vào danh sách gọi là từ dừng (stop
list). Đối với tiếng Anh hay tiếng Việt đều có danh sách stop list.
b. Tìm kiếm
Người dùng nhập câu truy vấn và yêu cầu tìm kiếm, câu truy vấn mà người
dùng nhập vào cũng sẽ được xử lý, nghĩa là sẽ tách từ cho câu truy vấn . Phương pháp
tách từ cho câu truy vấn cũng là phương pháp tách từ cho các tài liệu thu thập được để
đảm bảo sự tương thích. Sau đó, hệ thống sẽ tìm kiếm trong tập tin chỉ mục để xác
định các tài liệu liên quan đến câu truy vấn của người dùng.
c. Sắp xếp các tài liệu trả về (Ranking)
Các tài liệu sau khi đã xác định là liên quan đến câu truy vấn của người dùng sẽ
được sắp xếp lại, bởi vì trong các tài liệu đó có những tài liệu liên quan đến câu truy
vấn nhiều hơn. Hệ thống sẽ dựa vào một số phương pháp để xác định tài liệu nào liên
quan nhiều nhất, sắp xếp lại (ranking) và trả về cho người dùng theo thứ tự ưu tiên.
1.2.2 Cấu trúc của bảng chỉ số ngược
Bảng chỉ số ngược (Inverted) cho một tập các trang Web bao gồm một tập các
danh sách Inverted được sắp xếp theo vị trí từ trong văn bản. Trong trường hợp đơn
giản nhất, vị trí sẽ bao gồm giá trị nhận dạng trang và vị trí của từ trong trang. Tuy
nhiên thuật toán tìm kiếm thường phải sử dụng những thông tin được thêm vào về từ
trong trang Web. Chẳng hạn, từ xuất hiện dưới dạng chữ in đậm (gắn thẻ <B>), hoặc
nằm trong phần đầu (gắn cờ <H1> hoặc <H2>), hoặc các từ có thể được đánh trọng số
hỗ trợ cho việc sắp xếp này. Để thực hiện được điều đó phải có một trường payload
(trọng tải) được thêm vào tới các phần tử vị trí. Trường trọng tải mã hóa bất kỳ thông
tin cần thiết nào cho mỗi từ. Những thông tin này phục vụ cho thuật toán Ranking sau


17

này. Với một từ chỉ mục w và vị trí tương ứng l lúc này ta có một cặp (w,l) và được gọi
là posting cho từ w. Cộng với danh sách inverted, hầu hết các bảng chỉ mục cho văn
bản đều duy trì một bộ từ điển từ vựng (Dictionary). Tập từ điển này liệt kê tất cả các

từ xuất hiện trong bảng chỉ mục cùng với sự thống kê của từ đó.

Hình 1.2 - Ví dụ về chỉ số ngược_tìm theo từ [9]
Máy tìm kiếm sử dụng chỉ mục liên kết ngược (Inverted Index) cho việc biểu diễn
tài liệu. Chỉ mục liên kết ngược (Inverted Index) là lựa chọn truyền thống cho cấu trúc
chỉ số của các trang Web.
Ví dụ 1: Chúng ta có 3 văn bản như sau:
văn bản 1: Computer science
văn bản 2: computer is about live
văn bản 3: to live or not to live
Quá trình tạo file Index như sau:

- Lấy tất cả các từ có mặt cả trong 3 tài liệu.
- Lưu trữ chúng theo thứ tự a, b, c, …
- Lưu trữ các thông tin về tài liệu (bao gồm mã tài liệu, địa chỉ URL, tiêu đề,
miêu tả ngắn gọn…).
Kết quả thu được một tập chỉ số ngược (Inverted Index) là một danh sách các
thông tin sau:


18

Từ

Mã tài liệu

Vị trí

Địa chỉ URL


Tiêu đề

Miêu tả

About

2

3







Computer

1

1







computer


2

1





...

is

2

2







live

3

2








Live

3

6







Live

2

4







Not


3

4







Or

3

3







science

1

2








to

3

1







To

3

5







Một số thách thức: Khi xây dựng một bảng chỉ mục ngược bao gồm việc xử lý từng
trang để trích ra các posting, sắp xếp các posting đầu tiên theo từ rồi sau đó theo vị trí

và cuối cùng đưa ra các posting đã được sắp xếp như một tập hợp của các danh sách
inverted trên đĩa. Đối với các tập hợp tĩnh và ít quan hệ như trong môi trường tìm kiếm
thông tin truyền thống, thì thời gian xây dựng bảng chỉ mục là không quan trọng. Tuy
nhiên, đối với tập dữ liệu Web rộng lớn, thì mô hình xây dựng bảng chỉ mục trở thành
không thể quản lý và đòi hỏi nguồn tài nguyên quá lớn, thông thường mất nhiều ngày
để hoàn thành.
Thêm vào nữa, nội dung của trang Web thay đổi liên tục do đó việc thu hồi một
cách tuần hoàn và xây dựng lại bảng chỉ mục là cần thiết để duy trì nội dung. Việc xây
dựng lại bảng chỉ mục là cần thiết bởi vì những kỹ thuật cập nhật tiên tiến nhất cũng
chưa đáp ứng được khi ta áp dụng nó với tập dữ liệu cực lớn và thay đổi liên tục như
Web. Cuối cùng khuôn dạng lưu trữ của bảng chỉ mục Inverted phải được thiết kế một
cách cẩn thận. Một bảng chỉ mục nén cải tiến khả năng truy vấn bằng việc cho phép
từng phần của bảng chỉ mục có thể trở thành bộ đệm trong bộ nhớ. Do đó, phải có sự
thỏa hiệp giữa hiệu suất này và tổng chi phí giải nén tại thời gian truy vấn. Để thu
được sự cân bằng đã trở thành một thách thức lớn.


19

1.2.3 Chia bảng chỉ số
Để xây dựng bảng chỉ mục ngược cho Web đòi hỏi một kiến trúc bảng chỉ mục
phân tán và rộng lớn. Có hai chiến thuật cơ bản chỉ mục ngược dựa trên tập hợp các
nút.
Tổ chức dạng tập tin ngược (Inverted file ) cục bộ (IFL), mỗi nút tương ứng với
một tập con các trang phân biệt trong tập hợp. Công việc tìm kiếm sẽ được quảng bá
tới tất cả các nút, mỗi nút sẽ trả lại danh sách chứa đựng giá trị nhận dạng của các
trang chứa đựng từ đang được tìm kiếm. Tổ chức dạng Inverted File toàn cục (IFG) sẽ
chia theo các từ được lập chỉ mục, vì thế mỗi dịch vụ truy vấn sẽ chỉ lưu trữ các danh
sách Inverted cho một tập các từ trong tập hợp.
Ví dụ, trong một hệ thống có hai dịch vụ truy vấn A và B có thể lưu trữ các

danh sách Inverted cho những từ bắt đầu với ký tự nằm trong phạm vi [a- q], còn B có
thể lưu trữ các danh sách Inverted cho những từ còn lại. Vì thế, một yêu cầu truy vấn
từ “process” sẽ chỉ đòi hỏi hệ phục vụ A.
Đặc thù quan trọng của chiến thuật IFL, như là khả năng phục hồi lỗi và giảm
việc tải trên mạng, làm cho nó trở thành lý tưởng trong môi trường tìm kiếm Web. Các
đánh giá về hiệu suất trong cũng chỉ ra rằng tổ chức IFL đã sử dụng nguồn tài nguyên
một cách hiệu quả và cung cấp một truy vấn tốt trong hầu hết các trường hợp.
1.3 Tổng quan về phương pháp lập chỉ số
Phương pháp lập chỉ số gồm 2 phần chính yếu sau :
- Đầu tiên là xác định các mục từ. Với mục từ là khái niệm mà có khả năng đại
diện cho văn bản sẽ được lưu trữ (bao gồm cả việc tách từ, loại bỏ stop-word,
xử lý hậu tố…)
- Thứ hai là xác định trọng số cho từng mục từ , trọng số này là giá trị phản
ánh tầm quan trọng của mục từ đó trong văn bản


20

Hình 1.3 - Tổng quan quá trình lập chỉ mục [1]
1.3.1 Xác định mục từ quan trọng cần lập chỉ số
Mục từ hay còn gọi là mục từ chỉ mục, là đơn vị cơ sở cho quá trình lập chỉ
mục. Mục từ có thể là từ đơn, từ phức hay một tổ hợp từ có nghĩa trong một ngữ cảnh
cụ thể. Ta xác định mục từ của 1 văn bản dựa vào chính nội dung của văn bản đó,
hoặc dựa vào tiêu đề hoặc tóm tắt nội dung của văn bản đó.
Hầu hết việc lập chỉ mục tự động bắt đầu với việc khảo sát tần số xuất hiện của
từng loại từ riêng rẽ trong văn bản. Nếu tất cả các từ xuất hiện trong tập tài liệu với
những tần số bằng nhau, thì không thể phân biệt các mục từ theo tiêu chuẩn định
lượng. Tuy nhiên, trong văn bản ngôn ngữ tự nhiên, tần số xuất hiện của từ có tính thất
thường. Do đó những mục từ có thể được phân biệt bởi tần số xuất hiện của chúng.
Đặc trưng xuất hiện của từ vựng có thể được xác định bởi hằng số “thứ hạng

- tần số” (Rank_Frequency ) theo luật của Zipf :

Tần số xuất hiện * thứ hạng = Hằng số.
Biểu thức luật Zipf có thể dẫn ra những hệ số ý nghĩa của từ dựa vào những đặc
trưng của tần số xuất hiện của mục từ riêng lẻ trong những văn bản tài liệu.
Một đề xuất dựa theo sự xem xét chung sau:
1. Cho một tập hợp n tài liệu, trong mỗi tài liệu tính toán tần số xuất hiện
của các mục từ trong tài liệu đó.
Fik (Frequency): tần số xuất hiện của mục từ k trong tài liệu i


21

2. Xác định tổng số tập tấn số xuất hiện TFk (Total Frequency) cho mỗi từ
bằng cách cộng những tần số của mỗi mục từ duy nhất trên tất cả n tài
liệu.

3. Sắp xếp những thứ tự giảm theo tập tần số xuất hiện của chúng. Quyết
định giá trị ngưỡng cao và loại bỏ tất cả những từ có tập tần số xuất hiện
cao trên ngưỡng này. Những từ bị loại bỏ là những từ xuất hiện phổ biến
ở hầu hết các tài liệu. Đó chính là các stop-word.
4. Tương tự, loại trừ những từ được xem là có tần số xuất hiện thấp. Việc
xoá những mục từ như vậy hiếm khi xảy ra trong tập hợp mà sự mặt của
chúng không làm ảnh hưởng lớn đến việc thực hiện truy vấn.
5. Những từ xuất hiện trung bình còn lại bây giờ được dùng cho việc ấn
định tới những tài liệu như những mục từ chỉ mục.
Chú ý: Một khái niệm xuất hiện ít nhất hai lần trong cùng một đoạn thì được
xem là một khái niệm chính. Một khái niệm xuất hiện trong hai đoạn văn liên tiếp
cũng được xem là một khái niệm chính mặc dù nó chỉ xuất hiện duy nhất một lần trong
đoạn đang xét. Tất cả những chú giải về những khái niệm chính được liệt kê theo một

tiêu chuẩn nhất định nào đó.
Thực tế cho thấy rằng ý tưởng trên khá cứng nhắc, vì nếu lọai bỏ tất cả những
từ có tần số xuất hiện cao sẽ làm giảm giá trị recall (độ tương tự), tức giảm hiệu quả
trong việc trả về số lượng lớn của những mục tin thích đáng. Ngược lại, sự loại bỏ
những mục từ có tần số xuất hiện thấp có thể làm giảm giá trị của độ chính xác . Một
vấn đề khác là sự cần thiết để chọn những ngưỡng thích hợp theo thứ tự để phân biệt
những mục từ hữu ích có tần số xuất hiện trung bình trong phần còn lại.
1.3.2 Một số hàm tính trọng số mục từ.
Trọng số của mục từ: là tần xuất xuất hiện của mục từ trong toàn bộ tài liệu.
Phương pháp thường được sử dụng để đánh giá trọng số của từ là dựa vào thống kê,
với ý tưởng là những từ thường xuyên xuất hiện trong tất cả các tài liệu thì “ít có ý
nghĩa hơn” là những từ tập trung trong một số tài liệu.
Ta xét các khái niệm sau:
 Gọi T={t1,t2,...,tn} là tập chỉ mục, với ti là các mục từ.


×