Tải bản đầy đủ (.pdf) (74 trang)

Các phương pháp lập chỉ mục tài liệu trong hệ tìm kiếm thông tin

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (656.62 KB, 74 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

LUẬN VĂN THẠC SỸ KHOA HỌC

CÁC PHƯƠNG PHÁP LẬP CHỈ MỤC TÀI LIỆU
TRONG HỆ TÌM KIẾM THƠNG TIN
NGÀNH: CƠNG NGHỆ THÔNG TIN
MÃ SỐ: 13.00

ĐINH NGỌC THI

Người hướng dẫn khoa học: PGS.TS. NGUYỄN ĐỨC NGHĨA

HÀ NỘI 2005
1


Mục lục
MỤC LỤC
Trang
Trang bìa phụ…………………………………………………………….1
Mục lục…………………………………………………………………..2
Lời nói đầu………………………………………………………………3
Chương 1. Hệ tìm kiếm thơng tin trên Internet………………….............6
1.1. Tổng quan của một hệ tìm kiếm thơng tin…………..…............6
1.2. Mơđun lập chỉ mục tài liệu trong các hệ tìm kiếm thơng tin….18
1.3. Lý thuyết của họ cây BTree…………………………………...31
Chương 2. Các phương pháp lập chỉ mục tài liệu trong hệ tìm kiếm
thơng tin............................................................................................36
2.1. Phương pháp chia sẻ block………………………..…………..36


2.2. Phương pháp sử dụng cây B+Tree.……………………………47
Chương 3. Hệ tìm kiếm thơng tin Text Search…………………………53
3.1. Những chức năng của chương trình Text Search……………..53
3.2. Cấu trúc dữ liệu chính trong chương trình Text Search……....54
3.3. Các mơđun của chương trình Text Search…………………...56
Chương 4. Đánh giá thực nghiệm hệ tìm kiếm thơng tin Text Search….61
4.1. Đánh giá thực nghiệm hệ tìm kiếm thông tin Text Search.…...61
4.2. Hướng phát triển của chương trình Text Search....…..…..…...68
Danh mục thuật ngữ viết tắt trong Luận văn……....…………………...69
Danh mục các bảng…………………………………………………….70
Danh mục hình vẽ và đồ thị………..…………………………………...71
Tài liệu tham khảo…..…..…..…..…..…..…..…..…..…..…..…..…..….73

Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

2


Lời nói đầu

LỜI NĨI ĐẦU
Ngày nay, cùng với sự phát triển nhanh chóng của mạng máy tính tồn
cầu và sự bùng nổ thơng tin, các kho dữ liệu được hình thành ở khắp mọi nơi
và không ngừng gia tăng về dung lượng. Con người đã và đang đứng trước
thực tế chìm ngập trong dữ liệu, nhưng thơng tin thì vẫn ln cần thiết, thậm
chí thiếu đối với họ. Những kho dữ liệu này ẩn chứa một hàm lượng thông tin
vô cùng lớn, nhưng vấn đề đặt ra là làm thế nào để “khai thác”, tổng hợp mỏ
thơng tin đó để nó trở nên hiện hữu và có giá trị sử dụng đối với người sử
dụng. Những thông tin này được biểu diễn và lưu trữ dưới rất nhiều dạng khác
nhau như văn bản, hình ảnh, video, âm thanh…Trong đó, dữ liệu văn bản phi

cấu trúc là phổ biến nhất. Có thể nói rằng: “Khối lượng dữ liệu khổng lồ mà
người sử dụng có thể truy suất nếu khơng được tổ chức lưu trữ tốt và kèm
theo một phương thức xử lý hiệu quả để có thể khai thác được lượng thơng
tin trong đó thì chúng cũng chỉ là những thơng tin chết chứ khơng mang lại
chút lợi ích nào cả ”.
Để giải quyết vấn đề này, người ta đưa ra khái niệm khai thác và xử lý
thông tin. Khai thác và xử lý thơng tin được hiểu là q trình sử dụng tri thức
con người để trích chọn, chắt lọc và tạo ra thơng tin mới, có ý nghĩa từ các
nguồn dữ liệu khác nhau như các giao dịch, tài liệu, email, trang web…và sử
dụng những thông tin này để đưa ra các quyết định trong đời sống hay trong
từng lĩnh vực sản xuất, kinh doanh cụ thể.
Cho đến nay, con người đã đạt được những tiến bộ công nghệ cùng với
sự phát triển của những lý thuyết trong lĩnh vực xử lý thông tin đã giải quyết
được phần nào vấn đề đặt ra, chẳng hạn, những bài toán trong xử lý văn bản
Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

3


Lời nói đầu
như tìm kiếm, phân lớp văn bản… Tuy nhiên, vẫn còn nhiều vấn đề đang
được đặt ra cho bài tốn về tổ chức dữ liệu để tìm kiếm thông tin. Làm sao để
lưu trữ thông tin hiệu quả, có cấu trúc hợp lý, chiếm ít khơng gian lưu trữ,
phục vụ tốt cho quá trình tìm kiếm vẫn là một bài toán đang được quan tâm
hiện nay. Với nhu cầu khám phá để có thêm hiểu biết, được sự gợi ý và dẫn
dắt của Thầy giáo hướng dẫn, sau khi tham khảo một số tài liệu nghiên cứu
trong và ngoài nước, em đã thực hiện đề tài "Các phương pháp lập chỉ mục
tài liệu trong hệ tìm kiếm thơng tin” cho Luận văn Cao học của mình.

Luận văn này sẽ bao gồm 4 chương:

Chương 1: Hệ tìm kiếm thơng tin trên Internet.
Tìm hiểu về mơ hình của một hệ tìm kiếm thơng tin, và đánh giá các
phương pháp lập chỉ mục tài liệu đã có trong những hệ tìm kiếm thông
tin hiện nay.
Chương 2: Các phương pháp lập chỉ mục tài liệu trong hệ tìm kiếm
thơng tin.
Đề xuất hai phương pháp lập chỉ mục tài liệu: phương pháp chia sẻ block
và sử dụng cây B+Tree.
Chương 3: Hệ tìm kiếm thơng tin Text Search.
Xây dựng chương trình tìm kiếm thơng tin Text Search mà chỉ mục tài
liệu của nó được tạo lập bằng hai phương pháp đã đề xuất ở trên.
Chương 4: Đánh giá thực nghiệm hệ tìm kiếm thơng tin Text Search.
So sánh và đánh giá thực nghiệm Text Search với hệ tìm kiếm thơng tin
Google Desktop Search để chứng tỏ hiệu quả của hai phương pháp lập
chỉ mục tài liệu chia sẻ block và sử dụng cây B+Tree.

Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

4


Lời nói đầu
Cuối cùng, em xin bày tỏ lịng biết ơn chân thành và sâu sắc nhất đến
Phó Giáo sư - Tiến sỹ Nguyễn Đức Nghĩa, người Thầy đã tận tình và chu đáo
hướng dẫn em hồn thành Luận văn này. Em cũng xin gửi lời cảm ơn đến các
Thầy Cô ở Trung Tâm Đào tạo Sau Đại học và Khoa Công Nghệ Thông Tin,
Trường Đại học Bách Khoa Hà Nội đã nhiệt tình giúp đỡ em trong quá trình
học tập tại Trường.

Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội


5


Chương 1. Hệ tìm kiếm thơng tin trên Internet
Chương 1.

HỆ THỐNG TÌM KIẾM THƠNG TIN
TRÊN INTERNET
Tóm tắt nội dung của chương: Chương này trình bày 3 vấn đề như sau:
+ Tổng quan của một hệ tìm kiếm thơng tin.
+ Mơđun lập chỉ mục tài liệu trong các hệ tìm kiếm thông tin.
+ Những kiến thức cơ sở được dùng trong Luận văn.

1.1. Tổng quan của một hệ tìm kiếm thơng tin
Trong phần này từ tài liệu tham khảo, Luận văn sẽ đưa ra định nghĩa về
một hệ tìm kiếm thơng tin, những mơ hình tìm kiếm thơng tin đã và đang
được sử dụng từ trước đến nay trên thế giới.
1.1.1. Định nghĩa một hệ tìm kiếm thơng tin
Trong thời đại tràn ngập thơng tin hiện nay, nếu khơng có một hệ tìm
kiếm thơng tin hiệu quả thì người sử dụng sẽ dễ bị ngập chìm trong một biển
thơng tin. Có thể nói rằng tìm kiếm những thơng tin cần thiết trong hằng hà sa
số thông tin trên internet đã trở thành một nhu cầu mang tính bản năng của
con người. Do đó, thuật ngữ tìm kiếm thơng tin xuất hiện từ khá sớm, và
thơng tin ở đây có thể là dạng văn bản, hình ảnh hoặc âm thanh… Phổ biến
nhất là tìm kiếm văn bản (bao gồm việc tìm kiếm và sắp thứ tự văn bản), đặc
biệt là trong hệ tìm kiếm thơng tin (Search Engine). Đơi khi, thuật ngữ này
được dùng như là tồn bộ q trình từ việc xử lý văn bản tới phân lớp và tìm
kiếm văn bản. Trong Luận văn này, thuật ngữ “tìm kiếm văn bản” được sử
dụng theo nghĩa bao hàm việc lập chỉ mục tài liệu (document), tìm kiếm và


Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

6


Chương 1. Hệ tìm kiếm thơng tin trên Internet
sắp xếp các tài liệu đã tìm kiếm được theo thứ tự liên quan đến yêu cầu của
người sử dụng (tài liệu ở đây có thể là một file dữ liệu hoặc là một trang web).
Khơng cần phải giải thích nhiều cũng thấy được vai trị của các hệ tìm
kiếm thơng tin trong thời phổ cập internet như ngày nay. Kho thông tin vô tận
trên internet sẽ giảm đi nhiều ý nghĩa nếu như khơng có cơng cụ tìm kiếm
thơng tin hiệu quả mà người sử dụng cần. Người sử dụng luôn mong muốn
rằng phải có một cơng cụ nào đó mà mỗi lần truy cập vào internet thì phải lấy
được thơng tin mà họ đang tìm kiếm.
Một hệ tìm kiếm thơng tin là một chương trình phần mềm dùng để lưu
trữ và quản lý thông tin nằm trong các tài liệu, giúp người sử dụng tìm kiếm
được thơng tin mà họ quan tâm. Hệ thống này không giống như các hệ trả lời
câu hỏi, vì nó cịn phải chỉ ra sự tồn tại và vị trí những tài liệu có chứa thơng
tin cần thiết.
Một số tài liệu “tìm kiếm được” thoả mãn yêu cầu của người sử dụng gọi
là tài liệu phù hợp hoặc tài liệu liên quan (Relevant Document). Một hệ tìm
kiếm hồn hảo sẽ chỉ tìm và đưa ra tài liệu liên quan mà không đưa ra những
tài liệu không liên quan. Tuy nhiên các hệ thống này không tồn tại bởi các thể
hiện của tìm kiếm là khơng đầy đủ và mức độ liên quan phụ thuộc vào quan
điểm chủ quan của từng người. Hai người sử dụng có thể đưa ra cùng một
truy vấn với một hệ tìm kiếm thơng tin và sau đó sẽ có những đánh giá khác
nhau về mức độ liên quan trên các tài liệu đã tìm được.
Hiện nay, do khối lượng thơng tin đồ sộ lại được bùng phát với một tốc
độ chóng mặt, do sự phức tạp của ngơn ngữ tự nhiên, do yêu cầu tìm kiếm

Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

7


Chương 1. Hệ tìm kiếm thơng tin trên Internet
ngày càng cao của con người thì việc phát triển các hệ tìm kiếm thơng tin cịn
rất nhiều việc cần phải làm. Ngay cả các hệ tìm kiếm phổ biến nhất hiện nay
trên internet như của Google, Yahoo hay MSN cũng ngày càng được cải tiến,
bổ sung và nâng cấp những chức năng của nó, mục đích làm sao để thuận tiện
và hữu ích nhất cho người sử dụng.
Tìm kiếm thơng tin nói chung phải giải quyết những vấn đề như biểu
diễn, lưu trữ, tổ chức và truy cập đến các mục thông tin. Việc tổ chức và biểu
diễn thông tin giúp người sử dụng dễ dàng truy cập được thông tin mà họ
đang quan tâm. Nhưng để tìm kiếm một đặc điểm thông tin theo yêu cầu của
người sử dụng không phải là một công việc dễ dàng, đặc biệt là với một cơ sở
dữ liệu khổng lồ và đa dạng như internet. Do vậy, một hệ tìm kiếm thơng tin
hồn chỉnh ln có 3 mơđun cơ bản sau đây:
1. Mơđun lập chỉ mục tài liệu.
2. Mơđun tìm kiếm trên chỉ mục tài liệu theo các câu truy vấn của người
sử dụng.
3. Mơđun sắp xếp kết quả đã tìm kiếm được.
Mơ hình của một hệ tìm kiếm thơng tin có thể biểu diễn qua sơ đồ sau:
Tài liệu

Bài tốn thơng tin

Biểu diễn

Biểu diễn


Chỉ mục tài liệu

Truy vấn
Phản hồi
Sắp xếp các
tài liệu

So sánh
Các tài liệu đã
được tìm kiếm

Hình 1.1: Quy trình tìm kiếm thông tin
Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

8


Chương 1. Hệ tìm kiếm thơng tin trên Internet
Q trình biểu diễn tài liệu thường được gọi là quá trình lập chỉ mục tài
liệu (Indexing). Q trình này có thể lưu trữ thực sự tài liệu trong hệ thống,
nhưng thường chỉ lưu trữ một phần tài liệu, chẳng hạn như phần tiêu đề và
tóm tắt. Q trình biểu diễn u cầu người sử dụng gọi là quá trình biểu diễn
truy vấn (Query Formulation Process). Truy vấn biểu thị sự tương tác giữa hệ
thống và người sử dụng, do đó quá trình này khơng chỉ đưa ra một truy vấn
phù hợp mà còn phải thể hiện được sự dễ hiểu về yêu cầu của người sử dụng.
Việc thiết lập tự động các truy vấn liên tiếp được gọi là phản hồi độ liên quan
(Relevance Feedback). Việc so sánh truy vấn với tài liệu cũng được gọi là quá
trình đối sánh (Matching Process) và cho kết quả là một danh sách tài liệu
được sắp xếp theo thứ tự của mức độ liên quan với truy vấn.

Rõ ràng, để mô tả thông tin yêu cầu một cách đầy đủ, người sử dụng
không thể trực tiếp yêu cầu thông tin sử dụng giao diện hiện thời của hệ tìm
kiếm. Thay vào đó họ phải chuyển đổi thông tin yêu cầu này thành một truy
vấn mà có thể được xử lý bởi hệ tìm kiếm (hoặc thu hồi thông tin (IR Information Retrieval)). Thông thường, phép chuyển đổi này tạo ra một tập
hợp từ khoá (hoặc các term chỉ số) mô tả khái quát yêu cầu của người sử
dụng. Với một truy vấn, mục đích chính của một hệ IR là tìm kiếm thơng tin
mà có thể trở nên hữu ích hoặc phù hợp với người sử dụng. Điều quan trọng
cần nhấn mạnh ở đây là việc phục hồi thông tin khác với việc phục hồi dữ
liệu.

Trong ngữ cảnh của một hệ thống IR, nhiệm vụ của phục hồi dữ liệu
chính là việc xác định tài liệu chứa các từ khoá xuất hiện thường xuyên nhất
trong truy vấn mà không cần thoả mãn yêu cầu của họ. Trên thực tế, người sử
dụng của một hệ thống IR quan tâm nhiều đến việc khôi phục thông tin về
Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

9


Chương 1. Hệ tìm kiếm thơng tin trên Internet
một chủ đề hơn là việc khôi phục dữ liệu mà đáp ứng một truy vấn đưa ra.
Một ngôn ngữ phục hồi dữ liệu hướng vào việc khôi phục tất cả các đối tượng
thoả mãn những điều kiện đã được xác định rõ ràng như một biểu thức chính
tắc hoặc biểu thức đại số quan hệ. Do vậy, với một hệ thống khôi phục dữ
liệu, một đối tượng đơn lẻ bị lỗi trong số hàng nghìn đối tượng được tìm kiếm
là khơng thực hiện được.
Tuy nhiên, với một hệ thống khôi phục thơng tin, các đối tượng được tìm
kiếm có thể khơng chính xác và cho phép có lỗi nhỏ. Ngun nhân chính của
sự khác nhau này là việc khơi phục thơng tin luôn xử lý với tài liệu chứa ngôn
ngữ tự nhiên thường khơng có cấu trúc và có thể khơng rõ nghĩa. Nói cách

khác, hệ thống khơi phục dữ liệu (như một cơ sở dữ liệu quan hệ) xử lý dữ
liệu có cấu trúc và ngữ nghĩa đã được xác định. Để đáp ứng hiệu quả yêu cầu
thông tin của người sử dụng, hệ thống IR phải bằng cách nào đó “hiểu” được
nội dung thơng tin (của các tài liệu) trong một tập hợp và sắp xếp chúng theo
mức độ phù hợp với truy vấn. Sự “hiểu biết” về nội dung này bao gồm việc
trích chọn cú pháp, ngữ nghĩa từ văn bản và sử dụng thông tin này để so khớp
với thơng tin người sử dụng. Cái khó khơng chỉ là hiểu để trích chọn thơng tin
mà cịn là cách sử dụng nó để quyết định mối liên quan này như thế nào? Do
vậy khái niệm mức độ liên quan (Relevance) cũng là một phần quan trọng
trong vấn đề khơi phục thơng tin. Trong thực tế, mục đích chính của hệ thống
IR là tìm kiếm tất cả tài liệu liên quan với truy vấn của người sử dụng mặc dù
việc tìm kiếm có thể đưa ra một số tài liệu khơng thích hợp với u cầu.
Như vậy, khơi phục thơng tin là một q trình nhận dạng, xác định và chỉ
ra tài liệu liên quan dựa trên mô tả u cầu thơng tin của người sử dụng. Việc
tìm kiếm dựa trên nội dung thực sự của tài liệu mà không phụ thuộc vào các
Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

10


Chương 1. Hệ tìm kiếm thơng tin trên Internet
từ khố gắn với tài liệu đó. Một số cơng cụ tìm kiếm nổi tiếng hiện nay như
Google, Microsoft, Yahoo…là những hệ tìm kiếm đưa ra danh sách tài liệu
theo độ quan trọng của câu truy vấn đưa vào. Để xây dựng một hệ tìm kiếm
có hiệu quả cao, trước hết tài liệu và truy vấn ở dạng ngôn ngữ tự nhiên phải
được tiền xử lý và chuẩn hố.
Một mơ hình của q trình thiết lập truy vấn được chuẩn hố thành hai
vấn đề: đầu tiên là lựa chọn các term truy vấn và thứ hai là lựa chọn các phép
toán truy vấn. Sau đây là hai mơ hình chi tiết cho bộ cơng cụ tìm kiếm thơng
tin, đó là bộ cơng cụ tìm kiếm thơng tin truyền thống và bộ cơng cụ tìm kiếm

thơng tin trên mạng.

1.1.2. Mơ hình của một bộ tìm kiếm thơng tin truyền thống
Vào những năm 70, khi các mơ hình tìm kiếm thơng tin chủ yếu được xử
lý với các truy vấn khơng có cấu trúc thì sự ra đời hệ truy vấn tự động đã trở
thành một sự kiện. Nguyên tắc hoạt động của hệ truy vấn tự động là chỉ số
hoá và thiết lập công thức truy vấn, kết quả đưa ra một biểu diễn có ý nghĩa
gần với ý nghĩa thực của tài liệu, cố gắng loại bỏ các từ không theo qui tắc
trong ngơn ngữ tự nhiên đến mức có thể. Sau đây là một mơ hình tổng qt
của hệ tìm kiếm thông tin truyền thống :

Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

11


Chương 1. Hệ tìm kiếm thơng tin trên Internet

Văn bản

Tập tài liệu

Tài liệu
Lập chỉ mục tài liệu

Tách từ
Từ
Loại bỏ từ dừng
Từ khơng nằm
trong danh sách

từ dừng
Chuẩn hố từ

Chỉ số tài liệu,
chỉ số trường

Đánh trọng số
Từ, trọng
số

Từ đã
chuẩn hoá

Cơ sở dữ liệu
tìm kiếm
Tập tài liệu
liên quan
Chuẩn hố từ

Hoạt động boolean
Tập tài liệu
thu hồi

Từ truy vấn
Phân tích cú pháp
truy vấn

Sắp xếp
Truy vấn


Tập tài liệu
đã sắp xếp

Giao diện
sử dụng
Phản hồi độ liên quan
Truy vấn

Tập tài liệu
tìm kiếm

Người sử dụng

Hình 1.2: Mơ hình bộ cơng cụ tìm kiếm thơng tin truyền thống
Khi xây dựng cơ sở dữ liệu để tìm kiếm, nội dung của tập tài liệu được
tách thành các từ. Các từ này được so sánh với danh sách từ dừng (StopList) –
Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

12


Chương 1. Hệ tìm kiếm thơng tin trên Internet
là một danh sách từ khơng được lập chỉ mục (nó khơng có giá trị nội dung
trong nhận dạng văn bản, ví dụ như đối với ngôn ngữ Tiếng Anh là a, an, the,
about…). Các từ không nằm trong danh sách từ dừng sẽ được chiết lọc để lấy
gốc. Chúng có thể được thống kê tần suất xuất hiện để hỗ trợ cho việc sắp xếp
các tài liệu thu hồi được. Cuối cùng, các từ cùng với những thông tin kết hợp
với chúng (ví dụ như : định danh tài liệu, định danh trường nằm trong tài liệu,
và giá trị thống kê …) được đặt vào kho cơ sở dữ liệu. Kho này bao gồm các
cặp giá trị định danh tài liệu và các từ khoá. Cấu trúc này được gọi là chỉ mục

inverted (inverted index).
Để tìm kiếm trong cơ sở dữ liệu, người sử dụng đưa vào một truy vấn
bao gồm một tập từ khóa được nối kết với nhau bởi các toán hạng logic (And,
Or, Not). Truy vấn được phân tách thành các từ liên tiếp và toán hạng logic
của chúng. Những từ này được tìm kiếm trong chỉ mục inverted, sau đó được
kết hợp với nhau dựa theo các tốn hạng logic. Dựa vào thơng tin thống kê,
tập thu hồi trên có thể được sắp xếp theo thứ tự liên quan tới nội dung. Kết
quả này được đưa tới người sử dụng. Trong một số hệ thống, người sử dụng
có thể đưa ra một số đánh giá về độ liên quan của tài liệu tìm kiếm được, và
những thơng tin này được sử dụng để tự động thay đổi truy vấn bằng cách
thêm vào các từ của những tài liệu liên quan và xoá đi các từ của những tài
liệu khơng liên quan.

1.1.3. Bộ cơng cụ tìm kiếm thơng tin trên mạng
Do các trang web phân tán mọi nơi nên việc đầu tiên là phải thu thập tất
cả dữ liệu web có liên quan tới truy vấn, lập chỉ mục, sau đó thực hiện tìm
kiếm để đưa ra tập kết quả có liên quan tới nội dung truy vấn. Trước khi đưa
tới người sử dụng thì tập kết quả này phải được sắp xếp theo thứ tự độ liên
Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

13


Chương 1. Hệ tìm kiếm thơng tin trên Internet
quan. Sau đây chúng ta xét đến một mơ hình tìm kiếm thông tin trên web – là
một kho dữ liệu cực lớn với tỉ lệ thay đổi rất cao.
Sức mạnh của world wide web là kho thông tin khổng lồ của nó được
quảng bá tới hàng triệu người. Chúng ta có một vài trình duyệt web đơn giản
như Internet Explorer. Nhưng rất nhiều người tìm kiếm thơng tin lại thích sử
dụng bộ cơng cụ tìm kiếm để bắt đầu trang web của họ. Trong trường hợp

này, người sử dụng đưa ra một truy vấn - cụ thể là một vài từ khố, và nhận
được một danh sách trang web có liên quan, đặc biệt là các trang chứa đựng
các từ khoá đó. Rất nhiều cơng cụ tìm kiếm sử dụng các thuật toán IR truyền
thống. Tuy nhiên những thuật toán IR được phát triển cho tập tài liệu nhỏ và
không liên kết, ví dụ như tiêu đề của các bài báo hay mục lục của các cuốn
sách trong thư viện. Trong khi đó web lại là một khối dữ liệu cực lớn, thay
đổi thường xuyên cộng với khả năng phân tán ở mọi nơi. Điều đó địi hỏi phải
có một kỹ thuật mới hoặc là sự mở rộng của các kỹ thuật cũ để sao cho cấu
trúc chỉ mục có thể thay đổi, cập nhật một cách dễ dàng, tận dụng triệt để mối
liên kết giữa các trang web để xác định một cách tốt nhất những trang liên
quan.
Khơng có một câu trả lời chính xác về độ lớn của tồn bộ trang web trên
internet. Một số nghiên cứu ước lượng kích thước của cơ sở dữ liệu web [8, 9,
10] đã đưa ra những con số khác nhau nhưng tất cả đều đồng ý rằng có hơn
một tỉ trang web có hiệu lực hiện nay, với kích thước trung bình của mỗi trang
khoảng 5 KB tới 10 KB thì ta cũng có ít nhất là 10 TB dữ liệu. Tỉ lệ phát triển
của các trang web còn kinh khủng hơn [11]: kích thước của chúng sẽ tăng lên
gấp đơi trong vịng hai năm, và tỉ lệ đó sẽ vẫn tiếp tục được duy trì trong hai
năm tiếp theo. Hơn nữa, bên cạnh các trang web vừa được tạo ra thì những
Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

14


Chương 1. Hệ tìm kiếm thơng tin trên Internet
trang đang tồn tại cũng luôn luôn được cập nhật. Theo [11], nếu theo dõi hơn
một triệu trang web trong vòng 4 tháng, ta thấy rằng có khoảng 23% các trang
thay đổi hàng ngày. Đặc biệt trong các miền như “.com” thì phải có đến 40%
các trang được thay đổi hàng ngày.
Cùng với kích thước rất lớn và tỉ lệ thay đổi liên tục của các trang web,

cịn có một đặc trưng nữa là mối liên kết giữa các trang web cho ta các tập tài
liệu từ rất nhiều tập tài liệu khác. Đã có một số nghiên cứu nhằm mục đích
cho chúng ta hiểu liên kết giữa các trang web được xây dựng và cấu trúc của
chúng có thể được mơ hình hố như thế nào? Ví dụ, một nghiên cứu gần đây
đã gợi ý rằng cấu trúc liên kết của các trang web giống như một nơ con bướm.
Có nghĩa là khoảng 28% các trang hình thành một lõi liên kết mạnh (tâm của
nơ con bướm). Khoảng 22% các trang hình thành nên một trong các vịng lặp
của nơ: đó là các trang có thể được đi tới từ lõi nhưng khơng thể ngược lại.
Vịng lặp khác bao gồm 22% các trang có thể đi tới từ lõi nhưng khơng thể
được đi tới từ nó (cịn lại một số trang web mà từ chúng không thể đi tới lõi
và cũng khơng thể đi được từ lõi đến chúng).
Trước khi trình bày các kỹ thuật trong bộ cơng cụ tìm kiếm, chúng ta cần
thiết phải hiểu cơng cụ tìm kiếm web bao gồm những thành phần gì và các
thành phần đó được kết hợp với nhau như thế nào? Hình 1.3 sau đây là mơ
hình tổng quan của một bộ cơng cụ tìm kiếm các trang web. Bộ cơng cụ này
sử dụng một môđun thu hồi (Crawler) để thu hồi tài liệu cung cấp cho các
hoạt động của nó. Mơđun thu hồi là một nhóm các chương trình thay mặt bộ
cơng cụ để duyệt các trang web, tương tự như một người sẽ từ một trang, theo
các đường liên kết (link) để đi tới các trang khác. Mơđun này có đầu vào là
một tập giá trị khởi đầu URL mà các trang của chúng sẽ được tìm kiếm từ
Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

15


Chương 1. Hệ tìm kiếm thơng tin trên Internet
web. Mơđun thu hồi trích các giá trị URL xuất hiện trong mỗi trang web tìm
kiếm được và gửi tới mơđun điều khiển thu hồi (Crawler Control). Môđun
này xác định liên kết nào được thăm tiếp theo, và cung cấp thông tin này tới
môđun thu hồi (một vài chức năng của môđun điều khiển thu hồi có thể được

thực hiện bởi chính các môđun thu hồi). Môđun thu hồi lưu các trang tìm
kiếm được vào trong một kho lưu trữ trang (Page Repository). Nó tiếp tục
thăm các trang web cho tới khi nguồn tài nguyên cục bộ đã bị cạn kiệt.
Kho lưu trữ trang

Người sử dụng
Truy vấn

Thu hồi
Mơđun
phân tích
tập

Mơđun
lập chỉ
mục

www

Cơng cụ
tìm kiếm

Kết quả

Sắp xếp

Điều khiển
thu hồi
Bảng chỉ mục:


Văn Cấu Tiện
bản trúc ích

Phản hồi

Hình 1.3: Bộ cơng cụ tìm kiếm trang web
Khi bộ cơng cụ tìm kiếm đã trải qua ít nhất một chu kì thu hồi (Crawling
Cycle) thì mơđun điều khiển thu hồi có thể được hỗ trợ bởi các chỉ mục được
tạo ra trong q trình thu hồi trước. Ví dụ mơđun điều khiển thu hồi có thể sử
dụng đồ thị liên kết của lần thu hồi trước để quyết định liên kết nào sẽ sử
dụng và liên kết nào được bỏ qua. Điều khiển thu hồi cũng có thể sử dụng
thơng tin phản hồi để điều khiển q trình xử lý thu hồi.
Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

16


Chương 1. Hệ tìm kiếm thơng tin trên Internet
Mơđun lập chỉ mục trích tất cả các từ trong mỗi trang web đồng thời ghi
nhận giá trị URL nơi mỗi từ xuất hiện. Kết quả là thu được một bảng tìm
kiếm rất lớn cung cấp các giá trị URL trỏ tới các trang chứa đựng từ tìm kiếm.
Dĩ nhiên phạm vi của bảng bị giới hạn trong nội dung của những trang được
tìm thấy qua quá trình xử lý thu hồi. Do kích thước rất lớn và sự thay đổi
nhanh chóng của các trang web đã làm cho việc lập chỉ mục văn bản trở nên
khó khăn hơn rất nhiều. Ngồi ra chúng ta lại có thêm một số bảng chỉ mục ít
phổ biến, ví dụ như là bảng chỉ mục cấu trúc (Structure Index) dùng để phản
ánh mối liên kết giữa các trang.

Trong suốt quá trình thu hồi và lập chỉ mục, bộ cơng cụ tìm kiếm phải
lưu trữ các trang tìm kiếm được. Kho lưu trữ trang sẽ phụ trách cơng việc này.

Thỉnh thoảng bộ cơng cụ tìm kiếm phải duy trì một bộ nhớ đệm các trang đã
thăm dựa theo thời gian xây dựng chỉ mục. Bộ nhớ đệm này hỗ trợ cho việc
đưa ra các trang kết quả một cách nhanh chóng và cung cấp các tiện ích tìm
kiếm cơ bản. Một vài hệ thống, như Google, đã duy trì một số lượng rất lớn
các trang và lưu trữ chúng lâu dài. Vấn đề lưu trữ cũng phải được xem xét
một cách cẩn thận.
Môđun công cụ truy vấn (Query Engine) có nhiệm vụ nhận và tìm kiếm
các yêu cầu của người sử dụng. Môđun này sẽ dựa vào bảng chỉ mục và các
kho lưu trữ trang. Bởi vì kích thước rất lớn của các trang web, cho nên khi
người sử dụng chỉ đưa vào một hoặc là hai từ khố thì sẽ nhận được một tập
rất lớn các trang kết quả. Do đó phải có một mơđun xếp hạng (Ranking) để
thực hiện việc sắp sếp kết quả sao cho các kết quả càng ở phía trên thì càng
giống với nội dung đang được tìm kiếm. Mơđun truy vấn được quan tâm một
cách đặc biệt, bởi vì với các kỹ thuật truyền thống chỉ dựa vào sự đo lường về
Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

17


Chương 1. Hệ tìm kiếm thơng tin trên Internet
độ tương quan giữa truy vấn với tập tài liệu. Trong khi đó, đối với bộ cơng cụ
tìm kiếm web, các truy vấn thì rất nhỏ cịn tập tài liệu lại rất lớn, nó đã ngăn
cản sự đánh giá về độ tương quan dựa trên phép tính gần đúng từ việc lọc số
lượng các trang không liên quan ra khỏi kết quả tìm kiếm.

1.2. Mơđun lập chỉ mục tài liệu trong hệ tìm kiếm thơng tin
Trong phần này, Luận văn sẽ trình bày vai trị quan trọng của mơđun lập
chỉ mục tài liệu trong các hệ tìm kiếm thơng tin. Sau đó sẽ đưa ra các bước để
tạo nên một chỉ mục tài liệu hoàn chỉnh. Luận văn cũng nghiên cứu phương
pháp mà hệ tìm kiếm thơng tin Google (là hệ tìm kiếm nổi tiếng nhất hiện

nay) đã sử dụng để lập chỉ mục tài liệu của nó.

1.2.1. Các bước cơ bản để tạo ra chỉ mục tài liệu
Bản chất của việc tìm kiếm là tìm các từ có trong truy vấn và xuất hiện
trong tài liệu, sau đó đưa ra tên (số hiệu) các tài liệu có chứa truy vấn và số
lần xuất hiện của mỗi từ trong tài liệu, thậm chí các vị trí chính xác của từ đó
trong mỗi tài liệu. Cách tìm kiếm một truy vấn đơn giản nhất là quét liên tiếp
văn bản. Việc tìm kiếm liên tiếp (hay cịn gọi là tìm kiếm online) là tìm sự
xuất hiện của một mẫu trong văn bản khi văn bản khơng được tiền xử lý. Tìm
kiếm liên tiếp chỉ phù hợp với các văn bản có kích thước nhỏ.
Cách lựa chọn tìm kiếm thứ hai là xây dựng các cấu trúc dữ liệu cho các
văn bản (gọi là các chỉ mục - index) để tăng tốc độ tìm kiếm, phù hợp với việc
xây dựng và duy trì các chỉ mục khi tập tài liệu là lớn và biến đổi khơng
ngừng. Đây chính là nhiệm vụ của mơđun lập chỉ mục tài liệu, là mơđun đầu
tiên trong các hệ tìm kiếm thông tin.

Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

18


Chương 1. Hệ tìm kiếm thơng tin trên Internet
Lập chỉ mục tài liệu, hiểu một cách đơn giản, là việc sắp xếp các tài liệu
nhằm đáp ứng nhanh chóng yêu cầu tìm kiếm thơng tin của người sử dụng.
Hiệu quả của một phương pháp lập chỉ mục được đánh giá thơng qua khơng
gian lưu trữ mà nó địi hỏi và thời gian cần thiết để thực hiện việc tìm kiếm
thơng tin. Các phương pháp lập chỉ mục giữ vai trò quan trọng trong việc xây
dựng một hệ tìm kiếm thơng tin hiệu quả.
Để có cái nhìn trực quan hơn về các bước tiến hành trong việc lập chỉ
mục tài liệu, mơ hình khái qt của chúng được thể hiện như sau:


Các từ đã
chuẩn hoá

Tài liệu

Chỉ mục tài
liệu

Xây dựng chỉ
mục tài liệu

Phân tích

Hình 1.4: Khái qt mơ hình lập chỉ mục tài liệu

1.2.1.1. Phân tích tài liệu
Q trình phân tích bắt đầu bằng việc nhận dạng từ xuất hiện trong tài
liệu, sau đó dựa vào danh sách từ dừng để loại một số từ ra khỏi chỉ mục tài
liệu. Cuối của q trình là chuẩn hố các từ khơng bị loại. Tồn bộ q trình
này có thể được mơ hình hố như sau :
Tài liệu

Nhận dạng từ

Loại từ dừng

Chuẩn hố từ

Hình 1.5: Mơ hình mơđun phân tích

Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

19


Chương 1. Hệ tìm kiếm thơng tin trên Internet
Nhận dạng từ
Bước đầu tiên trong quá trình xử lý một tài liệu hoặc truy vấn là xác định
từ tố. Một trong những phương pháp đơn giản nhất là xác định các ký hiệu
trong một từ và ký hiệu từ nối (inter-word). Để minh hoạ, chúng ta xem xét
một ví dụ về văn bản gốc như sau:
CHAPTER 1
PREAMBLE
1.1 Humanity stands at a defining moment history. We are confronted
with a perpetuation of disparities between and within nations, a worsening
of poverty, hunger, ill health and illiteracy, and the continuing
deterioration of the ecosystem on which we depend for out well-being.
Trong ví dụ trên, tất cả ký hiệu không phải ký tự hoặc chữ số đều là các
ký hiệu từ nối. Các ký hiệu từ nối được loại bỏ trong giai đoạn này và các dãy
ký hiệu cịn lại là các từ tố xử lý.
Ngồi ra, có một số luật heuristic thơng dụng để nhận dạng một từ khơng
được lập chỉ mục là:
 Có số ký tự nhỏ hơn 4
 Có ít hơn một ngun âm
 Có nhiều hơn hai ký tự giống nhau liên tiếp
 Có nhiều hơn 5 phụ âm liên tiếp
 Có nhiều hơn 4 nguyên âm liên tiếp
 Có nhiều hơn một dấu kết thúc liên tiếp
 Từ nằm trong danh sách từ dừng


Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

20


Chương 1. Hệ tìm kiếm thơng tin trên Internet
Áp dụng các kỹ thuật nhận dạng từ nối và luật heuristic, tài liệu sau khi
loại bỏ tất cả các dấu chấm, dấu nối và dấu chấm hỏi có dạng:
chapter 1 preamble humanity stands at a defining moment history we are
confronted with a perpetuation of disparities between and within nations a
worsening of poverty hunger ill health and illiteracy and the continuing
deterioration of the ecosystem on which we depend for out well being
Loại các từ dừng (stopword)
Từ dừng là từ xuất hiện trong tài liệu nhưng không mang nhiều ý nghĩa
thông tin. Thông thường, những từ này là giới từ của Tiếng Anh hay từ đệm
mang tính địa phương của Tiếng Việt. Trong quá trình lập chỉ mục, các từ này
đã được chứa trong một danh sách từ dừng. Môđun lập chỉ mục sẽ căn cứ vào
đó để loại chúng ra khỏi tài liệu. Với ví dụ ở trên, tài liệu sau khi được loại bỏ
các từ dừng sẽ là:
chapter 1 preamble humanity stands defining moment history we
confronted perpetuation disparities nations worsening poverty hunger ill
health illiteracy continuing deterioration ecosystem we depend well
Chuẩn hoá hình thái từ
Các từ trong một tài liệu sau khi được xác định là có khả năng lập chỉ
mục thì chúng sẽ được chuẩn hố. Chuẩn hố hình thái từ trong tài liệu và
truy vấn được sử dụng để tìm các dạng hình thái khác nhau của từ ban đầu.
Cơng việc này có thể được thực hiện bằng cách sử dụng mơđun lược từ
(Stemmer) hoặc từ điển tìm kiếm. Mơđun lược từ áp dụng các luật để chuẩn
hoá từ. Một số môđun lược từ đã phát triển từ những năm 60 khi các hệ tìm
kiếm đầu tiên được thực hiện. Các môđun lược từ nổi tiếng như của Lovins

[1] và Porter [2], sau đó đã trở thành giải thuật được chấp nhận rất phổ biến.
Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

21


Chương 1. Hệ tìm kiếm thơng tin trên Internet
Tuy nhiên, hiệu quả của phương pháp tìm kiếm này có những hạn chế nhất
định. Đôi khi các giải thuật lược bỏ từ có thể đúc kết hai từ có nghĩa hồn
tồn khác nhau thành một từ gốc, chẳng hạn các từ “skies” (trời, khí hậu) và
“ski” đều lược thành “ski”. Trong trường hợp như vậy người sử dụng có thể
khơng hiểu tại sao một tài liệu cụ thể được tìm kiếm và bắt đầu với một câu
hỏi chung chung cho toàn bộ hệ thống. Mặc dù vậy các môđun lược từ vẫn
thường được sử dụng trong nhiều hệ thống nghiên cứu như Smart, Okapi và
Twenty-One.
Trở lại ví dụ đã đưa ra ở trên, văn bản sau khi chuẩn hoá từ sẽ như sau:
chapter 1 preambl human stand defin moment histori confront perpetu
dispar nation worsen poverti hunger ill health and illiteraci continu deterior
ecosystem depend well be
Từ điển tìm kiếm sẽ cho kết quả với các từ gốc chính xác về ngơn ngữ,
thường được gọi là lemmas. Tuy nhiên, có một từ điển hình thái chưa chắc đã
đủ để xây dựng một lemmatiser. Một số từ sẽ có nhiều mục từ, có thể với các
lemma khác nhau. Chẳng hạn, từ “saw” có thể là thời quá khứ của một động
từ, lemma của nó là “see” và có thể là một danh từ, trong trường hợp này
lemma tương đương với hình thái đầy đủ. Ví dụ khác là từ “number” có thể
được so sánh với “numb” (dạng tính từ có nghĩa là “tê cứng” hoặc dạng động
từ là “làm tê cứng”). Trong các trường hợp này, một lemmatiser phải xác định
từ loại của từ trước khi chọn lemma chính xác. Các giải thuật huấn luyện
thống kê dựa trên tài liệu có thể được sử dụng một cách hiệu quả để tìm từ
loại chính xác và do vậy đưa ra những lemma chính xác.


Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

22


Chương 1. Hệ tìm kiếm thơng tin trên Internet
1.2.1.2. Xây dựng chỉ mục tài liệu
Sau khi từ đã được chuẩn hố, mơđun này sẽ sử dụng các thuật tốn và
cấu trúc dữ liệu để lưu trữ các từ cùng với thơng tin về tài liệu và vị trí của từ
trong tài liệu đó. Mục tiêu là xây dựng được một chỉ mục tài liệu tiết kiệm chi
phí lưu trữ và tăng hiệu quả khi tìm kiếm.

1.2.2. Lập chỉ mục tài liệu trong hệ tìm kiếm thơng tin Google
Hiện nay chúng ta có thể thấy rằng, hệ tìm kiếm Google đang giữ vị trí
thống trị trong các hệ tìm kiếm thơng tin. Thậm chí nếu MSN đang cố gắng
hết sức để đuổi theo một cách mạnh mẽ bằng các công cụ tìm kiếm mới, thì
với một ngân quỹ quảng cáo to lớn và phương pháp sắp xếp mới, Google vẫn
vượt trội hơn. Yahoo và Ask Jeeves vẫn còn đang ở dạng tiềm năng, trong khi
từ thập niên 90, các lỗi lớn của AltaVista và Webcrawler đã làm cho chúng có
những bước thụt lùi nghiêm trọng. Với các lý do trên, Luận văn sẽ trình bày
phương pháp mà Google lập chỉ mục tài liệu, từ đó tìm cách đánh giá hiệu
năng của phương pháp này. Hình 1.6 sau đây là mơ hình kiến trúc tổng quan
của Google. Google được viết bằng ngôn ngữ lập trình C\C++ và chạy trên
Solaris hoặc Linux.

Hình 1.6: Kiến trúc tổng quan của hệ tìm kiếm thơng tin Google
Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

23



Chương 1. Hệ tìm kiếm thơng tin trên Internet
Theo Sergey Brin và Lawrence Page [3], trong Google, việc thu hồi các
trang web được thực hiện bởi môđun thu hồi. Môđun này nhận danh sách
URL do URLserver tìm được gửi đến. Các trang web đã thu hồi sẽ được cho
vào server lưu trữ (Store Server). Server này sau đó sẽ nén và lưu trữ các web
này vào trong một kho. Mỗi trang đều được gán bằng một số gọi là docID khi
có một URL mới được đưa vào phân tích. Mơđun lập chỉ mục (Indexer) thực
hiện các chức năng đọc kho chứa các tài liệu, giải nén và phân tích chúng.
Mỗi tài liệu được chuyển thành một tập từ xuất hiện (word occurrence) gọi là
các hit. Một hit bao gồm nội dung và vị trí của từ trong tài liệu. Mơđun lập chỉ
mục phân loại các hit này vào trong một tập của các barrel, nơi tạo ra một
phần chỉ mục tài liệu đã được sắp xếp. Ngồi ra mơđun lập chỉ mục cũng thực
hiện một số chức năng quan trọng khác. Nó phân tích các đường liên kết vào
ra của mọi trang web và lưu trữ thông tin quan trọng của chúng vào trong một
file mấu neo (anchor file). File này chứa đầy đủ thông tin để xác định các
điểm liên kết đến và đi, và văn bản được liên kết trỏ đến.
Mơđun phân tích URL (URLresolver) đọc các file mấu neo và chuyển
đổi các URL tương đối sang URL tuyệt đối và đổi thành các docID. Nó để file
mấu neo vào trong chỉ mục forward, liên kết với docID mà các mấu neo trỏ
đến. Nó cũng sinh ra một cơ sở dữ liệu của các liên kết dùng để tính tốn
PageRank cho tất cả tài liệu. Mơđun sắp xếp (Sorter) lấy các barrel đã được
sắp xếp bởi docID, và sắp xếp lại chúng bằng wordID để tạo ra chỉ mục
inverted. Cần có một khơng gian tạm để thực hiện việc này. Môđun sắp xếp
cũng tạo ra một danh sách của wordID và đặt nó vào trong chỉ mục inverted.
Một chương trình được gọi là DumpLexicon lấy một danh sách lexicon được
tạo bởi môđun lập chỉ mục để tạo ra một lexicon mới sử dụng cho mơđun tìm
kiếm (Searcher). Mơđun tìm kiếm chạy bởi một web server và sử dụng
Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội


24


Chương 1. Hệ tìm kiếm thơng tin trên Internet
lexicon được xây dựng bởi DumpLexicon cùng với chỉ mục inverted và
PageRank để trả lời cho các câu truy vấn.
Cấu trúc dữ liệu của Google được tối ưu hố do đó một số lượng lớn tài
liệu có thể được thu hồi, lập chỉ mục và tìm kiếm với chi phí rất nhỏ. Mặc dù
khả năng của bộ xử lý và tốc độ vào ra đã thay đổi nhanh chóng trong thời
gian gần đây, cho nên sự truy suất trên ổ đĩa bây giờ chỉ cần tối đa 10 giây để
hoàn thành, tuy nhiên, cấu trúc dữ liệu của Google vẫn được thiết kế để tránh
truy suất trên ổ đĩa ít nhất có thể.
Kho chứa (repository)
Kho chứa lưu trữ đầy đủ nội dung HTML (HyperText Markup
Language) của mọi trang. Mỗi trang được nén lại bằng cách sử dụng zlib.
Việc lựa chọn kỹ thuật nén là một sự thoả hiệp giữa tốc độ và tỉ lệ nén.
Google chọn tốc độ của zlib trên mặc dù biết đến sự phát triển đáng ghi nhận
về tỷ lệ nén của bzip. Tỷ lện nén của bzip xấp xỉ 4/1 so với zlib là 3/1. Trong
kho chứa, các tài liệu được sắp xếp lần lượt theo thứ tự docID, kích thước tài
liệu, URL như trong hình 1.7.
sync
sync

length
length

docid

ecode


compressed packet
compressed packet

urllen

pagelen

url

page

Hình 1.7: Cấu trúc trong dữ liệu kho chứa của Google

Chỉ mục tài liệu
Chỉ mục tài liệu chứa thông tin của các tài liệu, được sắp xếp bởi docID.
Thông tin được lưu trữ bao gồm trạng thái của tài liệu hiện tại, một con trỏ trỏ
Luận văn Cao học ngành Công nghệ Thông tin – ĐH Bách Khoa Hà Nội

25


×