Tải bản đầy đủ (.pdf) (187 trang)

XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.44 MB, 187 trang )


TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
BỘ MÔN HỆ THỐNG THÔNG TIN




TSÀN QUẾ HƯƠNG – 0112385

VÕ HỒ BẢO KHANH – 0112387





XÂY DỰNG BỘ NGỮ LIỆU ĐỂ ĐÁNH GIÁ BẰNG
TIẾNG VIỆT VÀ CHƯƠNG TRÌNH TRỢ GIÚP
ĐÁNH GIÁ CÁC HỆ TÌM KIẾM THÔNG TIN







KHÓA LUẬN CỬ NHÂN TIN HỌC


GIÁO VIÊN HƯỚNG DẪN


T.S HỒ BẢO QUỐC









NIÊN KHÓA 2001 - 2005

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 2
Ý KIẾN CỦA GIÁO VIÊN PHẢN BIỆN
………………………………………………………………………………………
….…………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………

………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………

………………………………………………………………………………………


Xác nhận của GVPB





Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 3
ĐỀ CƯƠNG CHI TIẾT
Thông tin chung về đề tài:
Tên đề tài:

Xây dựng bộ ngữ liệu để đánh giá (test collection) bằng tiếng Việt và chương
trình trợ giúp đánh giá các hệ tìm kiếm thông tin

GVHD: Tiến sĩ Hồ Bảo Quốc
Sinh viên thực hiện:
1. MSSV: 0112385 Họ và tên: Tsàn Quế Hương
2. MSSV: 0112387 Họ và tên: Võ Hồ Bảo Khanh

Tóm tắt nội dung luận văn:
Đề tài gồm 2 phần :



1. Xây dựng bộ ngữ liệu để đánh giá các hệ thống tìm kiếm thông tin tiếng Việt. Việc xây
dựng bộ ngữ liệu gồm ba phần :
_ Xây dựng ngữ liệu mẫu tiếng Việt
_ Xây dựng tập câu truy vấn mẫu tiếng Việt
_ Xây dựng một bảng đánh giá bằng thủ công

2.Xây dựng một hệ thống chương trình trợ giúp việc đánh giá các hệ thống tìm kiếm
thông tin với thành phần đầu vào : ngữ liệu mẫu, câu truy vấn mẫu, hệ thống tìm kiếm
thông tin ; các thành phần đầu ra : kết quả truy vấn, kết quả đánh giá, nội dung tập tài
liệu, câu truy vấn





Một số từ khóa chính liên quan đến nội dung đề tài:
Đánh giá các hệ thống tìm kiếm thông tin (information retrieval systems evaluation)


Lĩnh vực áp dụng:
Đánh giá các hệ thống tìm kiếm thông tin tiếng Việt.






Các thuật toán, phương pháp, quy trình chính được nghiên cứu, ứng dụng trong đề tài

_ Tìm hiểu về tìm kiếm thông tin (information retrieval), đánh giá các hệ thống tìm kiếm
thông tin (information retrieval systems evaluation)

_ Tìm hiểu cấu trúc của bộ ngữ liệu, phương pháp xây dựng bộ ngữ liệu của TREC (Text
REtrieval Conference)

_ Tìm hiểu và sử dụng các hệ thống tìm kiếm : SMART, IOTA ,Lucene,Terrier…

_ Xây dựng bộ ngữ liệu kiểm tra bằng tiếng Việt


Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 4
_ Xây dựng một hệ chương trình phục vụ việc kiểm tra và đánh giá các hệ thống tìm
kiếm thông tin. Chương trình phải chạy được trên hai hệ điều hành : Windows và Linux,
chương trình viết bằng ngôn ngữ Java



Các công cụ, công nghệ chính được nghiên cứu, ứng dụng trong đề tài
Borland Jbuider X

Visual Studio . NET
Microsoft Visio 2003
Rational Rose
Microsoft Word, Power Point



Xác nhận của GVHD
















Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 5



Lời cám ơn
   

Chúng em xin chân thành cảm ơn các Thầy Cô Khoa Công nghệ Thông tin đã
hướng dẫn và giảng dạy rất nhiệt tình cho chúng em trong suốt bốn năm học ở
Trường Đại học Khoa học Tự nhiên. Những kiến thức mà chúng em đã học được
trên giảng đường sẽ là hành trang quý báu trên bước đường đời của chúng em.
Chúng em xin cảm ơn Thầy Hồ Bảo Quốc đã tạo cơ hộ
i cho chúng em được
nghiên cứu học hỏi về lĩnh vực tìm kiếm thông tin bằng Tiếng Việt, một lĩnh vực

tương đối mới và hấp dẫn ở Việt Nam . Một lần nữa chúng em xin cảm ơn Thầy vì
Thầy đã tận tình hướng dẫn chúng em đề tài luận văn “Xây dựng bộ ngữ liệu dùng
để đánh giá bằng tiếng Việt và chương trình trợ giúp đánh giá các hệ thố
ng tìm
kiếm thông tin”.
Chúng em xin cảm ơn gia đình, các anh chị, bạn bè đã động viên, giúp đỡ
chúng em để hoàn thành tốt đề tài luận văn này.
Nhóm sinh viên thực hiện
Tsàn Quế Hương – Võ Hồ Bảo Khanh













Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 6
MỤC LỤC

MỞ ĐẦU ............................................................................................................10

Chương 1 : TỔNG QUAN .................................................................................13


1.1. Tổng quan về tìm kiếm thông tin và hệ thống tìm kiếm thông tin........................13
1.2. Tổng quan về đánh giá các hệ thống tìm kiếm thông tin......................................14
1.2.1. Lý do để tiến hành đánh giá các hệ thống tìm kiếm thông tin........................14
1.2.2. Các tiêu chuẩn được dùng để đánh giá .........................................................15
1.2.3. Các mô hình đánh giá...................................................................................15
1.2.4. Các độ đo dùng để đánh giá .........................................................................18
1.2.5. Các phương pháp xây dựng bộ ngữ liệu dùng để đánh giá............................18
1.2.6. Phương pháp xây dựng bộ ngữ liệu được chọn.............................................20
1.2.7. Phương pháp đánh giá tầm quan trọng củ
a kết quả trả về .............................21
Chương 2 : CƠ SỞ LÝ THUYẾT.......................................................................22

2.1. Tìm kiếm thông tin và các hệ thống tìm kiếm thông tin.......................................22
2.1.1. Lịch sử tìm kiếm thông tin và hệ thống tìm kiếm thông tin...........................22
2.1.2. Hệ thống tìm kiếm thông tin.........................................................................25
2.1.2.1. Khái niệm về hệ thống tìm kiếm thông tin .............................................25
2.1.2.2. Cách thức hoạt động của hệ thống tìm kiếm thông tin............................25
2.1.2.3. Các phương tiện tìm kiếm thông tin (Search Engines) ...........................27
2.1.3. So sánh tìm kiếm thông tin cổ điển và tìm kiếm thông tin trên Web .............29
2.1.4. So sánh tìm kiếm thông tin với tìm kiếm dữ liệu ..........................................30
2.1.5. Công thức trừu tượng trong tìm kiếm thông tin ............................................31
2.1.6. Các mô hình tìm kiếm thông tin cổ đi
ển để sắp thứ tự liên quan...................32
2.1.6.1. Mô hình Đại số Bool.............................................................................32
2.1.6.2. Mô hình không gian vec-tơ....................................................................33
2.2. Đánh giá các hệ thống tìm kiếm thông tin ...........................................................36
2.2.1. Nền tảng đánh giá các hệ thống tìm kiếm thông tin ......................................36
2.2.2. Mô hình đánh giá hướng hệ thống................................................................37
2.2.2.1. Từ Cranfield đến TREC ........................................................................37
2.2.2.2. Thủ tục đánh giá....................................................................................39

2.2.2.3. Đánh giá sự liên quan............................................................................40
2.2.3. Thực hiện đo khả năng tìm kiếm ..................................................................41
2.2.3.1. Các khái niệm về độ đo và liên quan .....................................................41
2.2.3.2. Cách tính độ bao phủ (R) và độ chính xác (P)........................................42
2.2.3.3. Phương pháp tính độ chính xác dự
a trên 11 điểm chuẩn của độ bao phủ 44
2.2.3.3.1. Đồ thị biểu diễn hiệu suất thực thi hệ thống tìm kiếm .....................44
2.2.3.3.2. Đường cong độ bao phủ và độ chính xác RP...................................45
2.2.3.3.3. Đường cong RP cho tập truy vấn ....................................................47
2.2.3.3.4. Đánh giá hệ thống tìm kiếm thông tin dựa vào đồ thị......................48
2.2.3.4. Sự liên quan giữa câu hỏi và tài liệu ......................................................49
2.2.3.4.1. Các độ liên quan.............................................................................49
2.2.3.4.2. Các vấn đề về độ liên quan .............................................................49
2.2.3.4.3. Đánh giá với độ liên quan nhiều cấp độ ..........................................51
2.2.3.4.4. Phươ
ng pháp đo độ bao phủ (R), độ chính xác (P) dựa trên độ liên
quan nhiều cấp độ ..........................................................................................53

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 7
2.2.4. TREC và đánh giá theo chuẩn TREC ...........................................................54
2.2.4.1. TREC là gì? ..........................................................................................54
2.2.4.2. Cách xây dựng ngữ liệu của TREC........................................................56
2.2.4.2.1. Xây dựng tập hợp các tài liệu..........................................................57
2.2.4.2.2. Xây dựng các chủ đề.......................................................................57
2.2.4.2.3. Xây dựng bảng đánh giá liên quan chuẩn........................................58
2.3. Ngữ liệu tiếng Việt .............................................................................................59
2.3.1. Từ................................................................................................................60
2.3.1.1. Quan niệm về từ....................................................................................60
2.3.1.2. Quan niệm về hình vị ............................................................................61

2.3.1.3. Khái niệm về cấu tạo từ.........................................................................61
2.3.2. Ranh giới từ.................................................................................................62
Chương 3 : THIẾT KẾ VÀ CÀI ĐẶT.................................................................63

3.1. Xây dựng bộ ngữ liệu dùng để đánh giá ..............................................................63
3.1.1. Xây dựng kho ngữ liệu bằng tiếng Việt........................................................63
3.1.1.1. Chuẩn hóa ngữ liệu ...............................................................................63
3.1.1.1.1. Chuẩn hóa dạng ngữ liệu ................................................................63
3.1.1.1.2. Định dạng ngữ liệu .........................................................................64
3.1.2. Xây dựng tập câu hỏi bằng tiếng Việt...........................................................64
3.1.3. Tách từ tiếng Việt ........................................................................................65
3.1.4. Xây dựng bảng đánh giá...............................................................................65
3.1.4.1. Hệ thống SMART .................................................................................66
3.1.4.1.1. Giới thiệu hệ thống SMART...........................................................66
3.1.4.1.2. Quá trình tìm kiếm thông tin của SMART ......................................66
3.1.4.1.3. Mô hình vec-tơ c
ủa hệ thống SMART ............................................67
3.1.4.1.4. Sử dụng mô hình vec-tơ..................................................................69
3.1.4.2. Hệ thống Search4Vn .............................................................................73
3.1.4.3. Hệ thống TERRIER ..............................................................................73
3.1.4.4. Hệ thống X-IOTA.................................................................................74
3.1.4.5. Hệ thống LUCENE ...............................................................................74
3.2. Phân tích hệ thống đánh giá các hệ thống tìm kiếm thông tin ..............................74
3.2.1. Mô tả hệ thống trợ giúp đánh giá..................................................................74
3.2.1.1. Phát biểu bài toán..................................................................................74
3.2.1.2. Mục tiêu................................................................................................75
3.2.1.3. Phạm vi.................................................................................................75
3.2.1.4. Chức năng.............................................................................................75
3.2.1.5. Tính khả dụng .......................................................................................76
3.2.1.6. Hiệu suất...............................................................................................76

3.2.1.7. Tính bảo mật .........................................................................................76
3.2.2. Phân tích hệ thống đánh giá..........................................................................76
3.2.2.1. Chức năng của hệ
thống ........................................................................76
3.2.2.2. Chức năng yêu cầu ................................................................................77
3.2.2.2.1. Chức năng đánh giá một hệ thống IR..............................................77
3.2.2.2.2. Chức năng so sánh nhiều hệ thống IR.............................................77
3.2.2.2.3. Sơ đồ use case ................................................................................77
3.2.2.2.4. Sơ đồ tuần tự hoạt động usecase .....................................................79

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 8
3.3. Thiết kế hệ thống đánh giá..................................................................................86
3.3.1. Các chức năng của chương trình...................................................................86
3.3.1.1. Chức năng “Định dạng cơ sở dữ liệu tài liệu”........................................86
3.3.1.2. Chức năng “Định dạng kết quả trả về”...................................................86
3.3.1.3. Chức năng “Định dạng file index”.........................................................87
3.3.1.4. Chức năng “Thực thi hệ thống IR” ........................................................87
3.3.1.5. Chức năng “Xử lý kết quả trả về”..........................................................87
3.3.1.6. Chức năng ”Đánh giá một hệ
thống IR”.................................................87
3.3.1.7. Chức năng “Đánh giá nhiều hệ thống IR”..............................................87
3.3.2. Thiết kế hệ thống .........................................................................................88
3.3.2.1. Sơ đồ kiến trúc tổng thể.........................................................................88
3.3.2.1.1. Danh sách các lớp đối tượng...........................................................88
3.3.2.1.2. Lớp đối tượng thể hiện....................................................................88
3.3.2.1.3. Lớp đối tượng xử lý........................................................................91
3.3.2.1.4. Lớp đối tượng lưu trữ .....................................................................99
3.3.2.2. Sơ đồ kiến trúc tổng quát cho từng chức năng của chương trình ............99
3.3.2.2.1. Chức năng “Định dạ

ng tài liệu” ......................................................99
3.3.2.2.2. Chức năng “Định dạng câu hỏi”....................................................100
3.3.2.2.3. Chức năng “Thực thi hệ thống” ....................................................101
3.3.2.2.4. Chức năng “Định dạng kết quả”....................................................102
3.3.2.2.5. Chức năng “Định dạng file index” ................................................103
3.3.2.2.6. Chức năng “Đánh giá và hiện thi kết quả đánh giá” ......................103
3.3.2.2.7. Chức năng ”So sánh các hệ thống IR đã được thực thi” ................104
3.3.2.3. Thiết kế dữ liệu – tổ chức l
ưu trữ.........................................................105
3.3.2.3.1. Mô hình dữ liệu ............................................................................105
3.3.2.3.2. Sơ đồ logic dữ liệu........................................................................107
3.3.2.4. Tố chức lưu trữ dữ liệu........................................................................110
3.3.2.4.1. System..........................................................................................110
3.3.2.4.2. Topic............................................................................................112
3.3.2.4.3. Index_topic...................................................................................113
3.3.2.4.4. Document.....................................................................................114
3.3.2.4.5. Index_Doc....................................................................................115
3.3.2.4.6. relevant_TT..................................................................................115
3.3.2.4.7. relevant_LT..................................................................................116
3.3.2.4.8. evaluation.....................................................................................117
3.3.2.5. Thiết kế giao diện................................................................................119
3.3.2.5.1. Sơ đồ liên hệ giữa các màn hình ...................................................119
3.3.2.6. Thiết kế màn hình................................................................................122
3.3.2.6.1. Màn hình chính (TH_Main)..........................................................122
3.3.2.6.2. Màn hình định d
ạng tài liệu (TH_DDTaiLieu)..............................122
3.3.2.6.3. Màn hình tạo thuộc tính cho tài liệu (TH_TTTaiLieu) ..................124
3.3.2.6.4. Màn hình định dạng câu hỏi (TH_DDCauHoi)..............................125
3.3.2.6.5. Màn hình tạo thuộc tính cho câu hỏi (TH_TTCauHoi)..................127
3.3.2.6.6. Màn hình xử lý điều kiện để thực thi hệ thống IR..........................128

3.3.2.6.7. Màn hình thực thi hệ thống (TH_ThucThiHT)..............................129
3.3.2.6.8. Màn hình định dạng kết quả (TH_DDKetQua)..............................130

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 9
3.3.2.6.9. Màn hình định dạng thông tin index (TH_DDIndex).....................131
3.3.2.6.10. Màn hình đánh giá hệ thống (TH_KqDanhGia)...........................133
3.3.2.6.11. Màn hình xem đồ thị của hệ thống..............................................136
3.3.2.6.12. Màn hình xem chi tiết (TH_XemChiTiet) ...................................136
3.3.2.6.13. Màn hình so sánh hệ thống (TH_SoSanhHT)..............................138
3.3.2.7. Thiết kế hệ thống lớp đối tượng...........................................................139
3.3.2.7.1. Các lớp đối tượng xử lý ................................................................139
3.3.2.7.2. Các lớp đối tượng lưu trữ..............................................................169
Chương 4 : KẾT QUẢ ĐÁNH GIÁ ..................................................................171

4.1. Ngưỡng đánh giá ..............................................................................................171
4.2. Đánh giá hệ thống tìm kiếm thông tin search4VN.............................................171
4.3. So sánh hệ thống tìm kiếm search4VN và hệ thống Lucene...............................177
4.4. Nhận xét chương trình hỗ trợ đánh giá hệ thống tìm kiếm thông tin ..................179
4.4.1. Ưu điểm.....................................................................................................179
4.4.2. Khuyết điểm ..............................................................................................179
Chương 5 : KẾT LUẬN ....................................................................................181

Chương 6 : HƯỚNG PHÁT TRIỂN..................................................................182

PHỤ LỤC .........................................................................................................183

Tài liệu tham khảo ..........................................................................................186



























Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 10
MỞ ĐẦU
Tìm kiếm thông tin là nhu cầu thiết thực của tất cả mọi người. Đặc biệt trong
bối cảnh bùng nổ thông tin như hiện nay, gồm có sự ra đời của internet và sáng
kiến về thư viện điện tử, nhu cầu tìm kiếm thông tin lại càng phát triển. Nhưng

nhờ có sự trợ giúp của công nghệ thông tin con người có thể thỏa mãn nhu cầu này
một cách dễ dàng. Thật vậy, có rất nhiều hệ
thống tìm kiếm thông tin
(
Information Retrieval system

hay IR system
)
trên máy tính đang tồn tại để trợ
giúp con người. Tuy nhiên, khả năng tìm kiếm thông tin của các hệ thống này
chắc chắn khác nhau. Do đó, việc đánh giá các hệ thống tìm kiếm thông tin
(
Evaluation of Information Retrieval systems)

là một nhu cầu không thể thiếu
nhằm xác định các hệ thống tìm kiếm thông tin hiệu quả. Việc đánh giá này có ý
nghĩa rất lớn đối với sự tồn tại và phát triển của các hệ thống tìm kiếm thông tin.
Nó giúp xác định khả năng tìm kiếm của các hệ thống tìm kiếm thông tin từ đó mà
các tổ chức, công ty, trường học tạo ra hệ thống này có thể phát triển, thay đổi hệ
thố
ng để đưa ra khả năng tìm kiếm thông tin tốt nhất. Ngoài ra, việc xác định các
hệ thống tìm kiếm thông tin hiệu quả rất hữu ích đối với người dùng, họ sẽ cảm
thấy tin tưởng vào kết quả tìm kiếm mà hệ thống tìm được. Xa hơn nữa, việc đánh
giá sẽ tạo ra một cuộc cách mạng trong lĩnh vực tìm kiếm thông tin; giúp đưa tìm
kiếm thông tin vào trong thế giới thực của
đời sống. Chẳng hạn, khi các hệ thống
tìm kiếm thông tin tiến bộ chuyển từ nghiên cứu sang thế giới thực của cạnh tranh
thương mại thì những nhà thiết kế, nhà phát triển, người bán hàng, và những đại
diện bán hàng của các sản phẩm thông tin mới như sách điện tử, và các phương
tiện tìm kiếm (Search engines) … muốn biết sản phẩm của họ có cung cấp cho

những người sử d
ụng và người mua hàng tiềm năng các lợi thế cạnh tranh hay
không, sẽ được thỏa mãn nhu cầu thông tin này một cách dễ dàng, chính xác.
Khả năng tìm kiếm của hệ thống tìm kiếm thông tin chúng tôi vừa đề cập
được nghiên cứu ở nhiều cấp độ: thứ nhất là về khả năng xử lý tức thời gian tìm
kiếm và không gian lưu trữ hay còn gọi là hiệu năng; thứ hai là về khả năng tìm

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 11
kiếm hay hiệu quả của kết quả trả về; thứ ba là khả năng về hệ thống tức hệ thống
có thỏa mãn nhu cầu thông tin của người dùng hay không.
Hiện nay, trên thế giới đã có rất nhiều hệ thống đánh giá các hệ thống tìm kiếm
thông tin nhưng chủ yếu là đánh giá các hệ thống tìm kiếm thông tin tiếng Anh,
tiếng Pháp. Đối với tiếng Việt, theo chúng tôi được biết, ch
ưa có một hệ thống nào
được dùng để đánh giá các hệ thống tìm kiếm thông tin tiếng Việt. Nhưng theo xu
hướng phát triển của đất nước và nhu cầu tìm kiếm thông tin thì các hệ thống tìm
kiếm thông tin tiếng Việt bắt buộc phải tồn tại và phát triển. Vì vậy, Việt Nam
chúng ta rất cần các hệ thống được dùng để đánh giá hiệu năng, hiệu quả của các
hệ thống tìm kiếm thông tin tiế
ng Việt.
Do ý nghĩa to lớn của lĩnh vực nghiên cứu đánh giá này, chúng tôi đã quyết
định chọn đề tài đánh giá các hệ thống tìm kiếm thông tin. Chúng tôi nghĩ rằng hệ
thống đánh giá của chúng tôi sẽ là cơ sở để đánh giá tất cả các hệ thống tìm kiếm
thông tin, nhất là hệ thống tìm kiếm thông tin tiếng Việt. Chúng tôi cũng hy vọng
hệ thống của chúng tôi sẽ góp phần vào sự phát triển c
ủa các hệ thống tìm kiếm
thông tin, của tìm kiếm thông tin và của công nghệ thông tin nước ta.
Thực hiện đánh giá khả năng tìm kiếm, chúng tôi tập trung vào đánh giá hiệu
quả của kết quả tìm kiếm được trả về (cấp độ thứ hai trong khả năng tìm kiếm của

hệ thống thông tin ở trên). Hiệu quả của kết quả trả về được định nghĩa là khả
năng h
ệ thống tìm kiếm thông tin tìm được các tài liệu liên quan
(
Relevant
Documents
)
và loại bỏ đi

những tài liệu không liên quan
(
Irrelevant
Documents
)
. Đây là mô hình hướng hệ thống trong nghiên cứu tìm kiếm thông tin.
Mô hình này mô hình đánh giá được sử dụng nhiều nhất và hiệu quả nhất trên thế
giới.
Và để xây dựng hệ thống đánh giá các hệ thống tìm kiếm thông tin tiếng Việt
theo mô hình hướng hệ thống, trước hết, chúng tôi cần phải xây dựng bộ ngữ liệu
dùng để đánh giá bằng tiếng Việt
(
a Vietnamese Test collection
)
. Bộ ngữ liệu
dùng để đánh giá gồm có kho ngữ liệu mẫu bằng tiếng Việt
(
a Vietnamese

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 12

Corpus

hay

a set of Vietnamese documents)
,
tập câu truy vấn mẫu bằng tiếng
Việt
(
a set of Vietnamese queries
)
, và bảng đánh giá liên quan chuẩn

(
Relevance Judgment
)
. Chúng tôi tìm hiểu và thực hiện xây dựng bộ ngữ liệu
dùng để đánh giá theo tiêu chuẩn của Hội nghị về Tìm kiếm thông tin Văn bản

(
Text REtrieval Conference hay TREC
)
của Hoa Kỳ, một trong những Hội nghị
hàng đầu trên thế giới về Tìm kiếm Thông tin.
Tiếp theo, chúng tôi xây dựng chương trình trợ giúp đánh giá các hệ thống tìm
kiếm thông tin, cho phép người dùng thao tác, thực hiện đánh giá các hệ thống một
cách dễ dàng. Kết quả trả về của chương trình đánh giá có được dựa vào bộ ngữ
liệu mẫu được dùng đánh giá. Kết quả trả về này gồm có kế
t quả truy vấn của hệ
thống tìm kiếm thông tin và kết quả đánh giá. Kết quả đánh giá được tính dựa trên

sự kết hợp của hai độ đo: độ bao phủ
(
Recall
)

và độ chính xác
(
Precision
)
. Từ
kết quả trả về, chúng ta có thể biết được khả năng tìm kiếm của riêng từng hệ
thống tìm kiếm thông tin và so sánh khả năng của các hệ thống tìm kiếm với nhau.















Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 13
Chương 1 : TỔNG QUAN

1.1. Tổng quan về tìm kiếm thông tin và hệ thống tìm kiếm thông tin
Tìm kiếm thông tin liên quan đến việc biểu diễn, lưu trữ, tổ chức và tiếp cận
các yếu tố thông tin (một tài liệu có thể có một hoặc nhiều yếu tố thông tin) [
1
].
Theo lý thuyết, không có giới hạn về các loại yếu tố thông tin trong tìm kiếm
thông tin. Trên thực tế, các loại yếu tố thông tin ngày càng trở nên đa dạng cùng
với sự phát triển của xã hội. Ngoài ra, một tập hợp các yếu tố thông tin được gọi là
hữu dụng khi và chỉ khi nó đầy đủ và luôn được cập nhật. Đầy đủ ở đây có nghĩa
là tập hợp này phải chứa một tỉ lệ
lớn các yếu tố thông tin được xem là có khả
năng liên quan đến các lĩnh vực xác định. Hơn nữa, việc biểu diễn và tổ chức các
yếu tố thông tin nên cung cấp cho người dùng cách truy cập dễ dàng nhất đến
thông tin mà người đó quan tâm. Nhưng không may là tính chất của nhu cầu thông
tin người dùng không phải đơn giản. Chúng ta xem xét một ví dụ về một nhu cầu
thông tin hiển nhiên của người sử dụng trong ngữ cảnh tìm kiế
m World Wide Web
hay chỉ là Web:
Tìm tất cả các trang hay tài liệu chứa thông tin về bệnh ung thư phổi và nguyên
nhân dẫn đến ung thư phổi, các tài liệu được xem là liên quan phải vừa nói đến các
triệu chứng ung thư phổi, vừa nói đến nguyên nhân dẫn đến căn bệnh này gồm cả
tác hại của việc hút thuốc và ô nhiễm môi trường.
Từ ví dụ trên, chúng ta thấy rõ ràng là sự mô tả đầy đủ nhu cầu thông tin người
dùng không thể đượ
c sử dụng trực tiếp để tìm kiếm trên bình diện của các phương
tiện tìm kiếm Web
(
Web Search Engine
)
hay hệ thống tìm kiếm thông tin (IR

system) hiện nay. Thay vào đó, người sử dụng phải dịch nhu cầu thông tin của
mình sang một câu truy vấn có thể được xử lý bằng phương tiện tìm kiếm hay hệ
thống tìm kiếm thông tin. Điều này tạo ra một tập các từ khóa tóm tắt mô tả nhu
cầu thông tin người dùng hay còn gọi là câu truy vấn. Dựa trên câu truy vấn của
người sử dụng, mục đích chính của hệ thống tìm kiế
m thông tin là tìm kiếm các
thông tin hữu ích hay liên quan cho người sử dụng.

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 14
Vậy có thể nói một cách tổng quát, hệ thống tìm kiếm thông tin là một hệ
thống cho phép người sử dụng tìm kiếm tài liệu để thỏa mãn nhu cầu thông tin từ
một kho ngữ liệu lớn.
Để tìm kiếm thông tin, hệ thống tìm kiếm phải thực hiện các công việc sau.
Trước hết, hệ thống tìm kiếm xử lý tài liệu thô thành những tài liệu được tách từ,
phân đoạn
(
tokenized documents
)
và sau đó lập chỉ mục
(
index
)
dựa trên vị trí
của từ. Khi người dùng đưa vào câu truy vấn, hệ thống tìm kiếm thông tin cũng sẽ
xử lý các câu truy vấn thành ngôn ngữ chỉ mục mô tả các yếu tố thông tin cần tìm
kiếm và thực hiện đối chiếu với chỉ mục tài liệu để tìm ra các tài liệu liên quan.
Cuối cùng, các tài liệu liên quan sẽ được trả về cho người dùng theo một danh
sách được sắp xếp theo độ ưu tiên chính xác giảm dầ
n

(
ranked list
)
.
1.2. Tổng quan về đánh giá các hệ thống tìm kiếm thông tin
1.2.1. Lý do để tiến hành đánh giá các hệ thống tìm kiếm thông tin
Khi nhu cầu tìm kiếm thông tin phát triển, có rất nhiều mô hình, thuật toán, hệ
thống tìm kiếm thông tin ra đời. Do đó, việc đánh giá các mô hình, thuật toán, hệ
thống tìm kiếm thông tin là điều bắt buộc phải làm.
Chúng ta so sánh một hệ thống (có thể là một hệ thống mới) với các hệ thống
khác đã tồ
n tại về phương diện: tính hiệu quả, chi phí, thời gian , tốc độ xử lý…
Hệ thống tìm kiếm thông tin thường thực hiện hai quá trình: quá trình lập chỉ
mục và quá trình tìm kiếm. Mỗi một quá trình sẽ có nhiều phương pháp để thực
hiện, đánh giá hệ thống cũng có thể dùng để xác định tính tối ưu của các phương
pháp trên.
Lý do khác để tiến hành đánh giá là để so sánh các thành phần của hệ thống.
Do h
ệ thống gồm nhiều thành phần, đánh giá hệ thống để xác định cách mỗi thành
phần của hệ thống thực thi để khi có sự thay đổi một thành phần bởi một thành
phần khác thì sự thay đổi đó ảnh hưởng đến hệ thống như thế nào, từ đó ta có thể
quyết định có nên thay đổi thành phần đó không.

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 15
Đánh giá để tìm kiếm thành phần nào là tốt nhất cho hàm xếp thứ tự (dot-
product, cosine…); thành phần nào là tốt nhất cho lựa chọn thuật ngữ (loại bỏ
stopword, phương pháp lấy gốc từ stemming …); thành phần nào là tốt nhất trong
lựa chọn phương pháp đánh giá thuật ngữ (term weighting) như TF, IDF … (các
thành phần này sẽ được nói rõ hơn trong chương sau).

So sánh để biết người sử dụng cần danh sách các tài liệu trả về (ranked list) dài
cỡ bao nhiêu để
họ có thể nhìn dễ dàng nhất. Đánh giá để biết hệ thống nào thật sự
tốt, người dùng có thể tin tưởng kết quả trả về được.
1.2.2. Các tiêu chuẩn được dùng để đánh giá
Hiện nay, trên thế giới có ba tiêu chuẩn được dùng để đánh giá hệ thống tìm
kiếm thông tin. Thứ nhất là tiêu chuẩn về tính hiệu quả tức sự chính xác, tính đầy
đủ của kết quả trả v
ề so với mục đích tìm kiếm của người sử dụng, và giá trị vẫn
có thể đoán được trong các tình huống khác có nghĩa là khi đưa vào các câu truy
vấn khác, tập tài liệu khác thì hệ thống vẫn có thể tìm ra kết quả chính xác. Thứ
hai là tiêu chuẩn về hiệu năng, gồm có tốc độ tìm kiếm của thuật toán, khả năng
lưu trữ, thời gian trả về cho người sử dụng, thời gian lậ
p chỉ mục, kích thước chỉ
mục… Thứ ba là tiêu chuẩn về khả năng sử dụng hệ thống tức là có thể nghiên
cứu, học hỏi trên hệ thống tìm kiếm, người không biết tin học hay các chuyên gia
tin học đềi có thể sử dụng hệ thống.
1.2.3. Các mô hình đánh giá
Theo chúng tôi được biết, trên thế giới có tất cả bốn mô hình đánh giá các hệ
thống tìm kiếm thông tin. Chúng bao gồm : đánh giá hộp kính,
đánh giá hộp đen,
đánh giá hướng hệ thống, đánh giá hướng người dùng hay còn gọi là đánh giá
nghiên cứu người dùng [
2
].

Đánh giá hộp kính
(
glass box evaluation
)

: đánh giá hệ thống dựa trên
việc đánh giá tất cả mọi thành phần của hệ thống. Có nghĩa là khi biết rõ
các thành phần của hệ thống, chúng ta tiến hành đánh giá các thành phần đó.

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 16

Đánh giá hộp đen
(
black box evaluation
)
: đánh giá hệ thống bằng cách
xem hệ thống như là một thực thể hợp nhất, không đánh giá chính xác các
thành phần bên trong hệ thống.

Đánh giá hướng hệ thống
(
system-oriented evaluation
)
là xu hướng
đánh giá chính từ khi các hệ thống tìm kiếm và lập chỉ mục tự động được
phát triển vào những năm 1960. Một trong những mục đích chính của
hướng đánh giá này là kiểm tra các hệ thống tự động cũng như các thủ tục
thủ công thực thi như thế nào. Ngoài ra, mô hình này còn đánh giá so sánh
các cách thực hiện liên quan đến các ngôn ngữ chỉ mục, xử lý tìm kiếm của
hệ thống củ
a các hệ thống khác nhau hay đánh giá so sánh các lược đồ chỉ
mục tự động khác nhau. Đánh giá hướng hệ thống có một điểm lợi là điều
kiện môi trường kiểm tra được quản lý chặt chẽ, sử dụng phương pháp đánh
giá theo lô hay còn gọi là đánh giá dựa trên tập câu truy vấn; có nghĩa là hệ

thống tìm kiếm thông tin lần lượt thực hiện các câu truy vấn, tìm kiếm trên
tập dữ liệ
u đã được xây dựng và ghi lại kết quả những tài liệu nào liên quan
đến câu truy vấn nào rồi đem so sánh với Bảng Đánh giá liên quan chuẩn
(
Relevance judgment
)
đã được xây dựng. Với mỗi câu truy vấn tính toán
độ chính xác và độ bao phủ dựa trên kết quả trả về và bảng đánh giá liên
quan chuẩn để nhận xét hiệu quả tìm kiếm của

hệ thống tìm kiếm thông tin.
Hướng đánh giá này được thực hiện rất phổ biến ở các dự án, hội nghị về
nghiên cứu hệ thống tìm kiếm thông tin như:
Cranfield , MEDLARS,
SMART, STAIRS và TREC.

Đánh giá hướng người dùng
(
user studies evaluation
)
: Hướng nghiên
cứu người dùng ra đời vào những năm 1970 khi mà nhiều hệ thống tìm
kiếm thông tin thương mại ra đời. Mục đích chính của hướng nghiên cứu
này là nhằm xác định cách thức tìm kiếm của người sử dụng [
3
]. Hướng
đánh giá này còn cho phép xem xét hệ thống ở khía cạnh người dùng; tức là
đánh giá về mặt tương tác với người sử dụng như giao diện của hệ thống
tìm kiếm thông tin, thời gian hệ thống tìm kiếm đối với một câu truy vấn,


Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 17
mức độ hài lòng của người sử dụng… Hướng nghiên cứu này cho rằng nhu
cầu của người dùng được thoả mãn tương đương với hiệu quả của hệ thống.
Chỉ khi nhu cầu thông tin người dùng được thỏa mãn, khi ấy tìm kiếm
thông tin mới được gọi là có ích. Hội nghị quốc tế về Tìm kiếm Thông tin
trong Ngữ cảnh (Information Seeking in Context) được tổ chức như là
một diễn đ
àn cho các nhà nghiên cứu lĩnh vực này khám phá các phương
pháp và các kết quả nghiên cứu. Một hội nghị khác mới được thành lập tên
là Nhóm Quan tâm Đặc biệt (Special Interest Group
-
SIG) đến tìm kiếm,
nhu cầu và sử dụng thông tin của Xã hội Hoa Kỳ về Khoa học Thông tin
(American Society of Information Science). Những hội nghị này cũng
tương tự như TREC trong việc cố gắng khuyến khích nghiên cứu hướng
người dùng, để phát triển mối liên hệ giữa các nhà nghiên cứu trong kỹ
thuật, giáo dục và chính phủ, và để xác định, cải tiến các kỹ thuật tìm kiếm
thích hợp. Nhưng các hội nghị
này khác nhau ở chỗ các hội nghị mới chưa
có phương pháp luận đánh giá chuẩn nào được xúc tiến. Đánh giá hướng
người dùng có đóng góp rất lớn đến lĩnh vực tìm kiếm thông tin. Đóng góp
này gồm có việc xác định cách thức tìm kiếm thông tin của con người, nối
liền khoảng cách giữa nhu cầu thông tin giữa các cá nhân và các hệ thống
tìm kiếm thông tin, dẫn đến một thế hệ mới của các hệ thố
ng tìm kiếm
thông tin bao gồm các giao diện đồ hoạ máy tính-người sử dụng.
Hiện nay, trong số bốn mô hình trên thì hai mô hình đánh giá hướng hệ thống
và hướng người dùng đang được sử dụng chính và rộng rãi nhất. Trong phạm vi đề

tài của chúng tôi, chúng tôi chỉ sử dụng mô hình đánh giá hướng hệ thống vì mô
hình đánh giá hướng người dùng cần có sự hợp tác của rất nhiều người dùng để
lấy thông tin phản hồi sau khi s
ử dụng hệ thống tìm kiếm thông tin đó hoặc cần
phải tham gia trao đổi về hiệu năng tìm kiếm tại các hội nghị. Nhưng các hội nghị
dành cho mô hình đánh giá hướng người dùng đa số chưa có một phương pháp
luận cụ thể nào dùng để đánh giá. Ngoài ra, với mô hình hướng hệ thống, chúng

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 18
tôi có thể xây dựng ứng dụng để đánh giá nhiều hệ thống tìm kiếm thông tin một
cách tự động.
1.2.4. Các độ đo dùng để đánh giá
Độ bao phủ (Recall) và độ chính xác (Precision) là 2 đơn vị đo cơ bản nhất
để đánh giá chất lượng một hệ thống tìm kiếm thông tin [
4
]. Độ bao phủ là tỉ lệ
giữa các tài liệu liên quan được trả về trên tổng số các tài liệu liên quan thật sự.
Trong khi đó, độ chính xác là tỉ lệ giữa các tài liệu liên quan được trả về trên tổng
số tài liệu được trả về.
Có nhiều phương pháp sử dụng một hoặc các độ đo này để tính toán đánh giá,
chẳng hạn phương pháp Độ chính xác trung bình (Mean Average Precision –
MAP) chỉ sử dụng độ chính xác, không quan tâm
đến độ bao phủ. Phương pháp đo
dựa trên giá trị đơn Swet’s E-Measure hoặc chiều dài tìm kiếm trung bình thì cũng
chỉ sử dụng một giá trị để tính toán. Phương pháp tính độ chính xác dựa trên 11
điểm chuẩn của độ bao phủ sử dụng cả hai độ đo độ bao phủ và độ chính xác.
Chúng tôi thực hiện đánh giá theo phương pháp tính độ chính xác dựa trên 11
điểm chuẩn của độ bao phủ bởi vì phương pháp này khá
đơn giản, dễ thực hiện

tính toán, đo và đánh giá. Ngoài ra, phương pháp này trực quan với cách biểu diễn
đồ thị của các điểm bao phủ, chính xác từ đó dễ dàng thấy hiệu quả tìm kiếm của
riêng từng hệ thống và so sánh các hệ thống đánh giá với nhau.
1.2.5. Các phương pháp xây dựng bộ ngữ liệu dùng để đánh giá
Theo mô hình hướng hệ thống,

trước hết phải xây dựng bộ ngữ liệu dùng để
đánh giá
(
test collection
)
. Bộ ngữ liệu dùng để đánh giá gồm có tập các tài liệu
mẫu, tập câu truy vấn mẫu, và bảng đánh giá liên quan chuẩn.
• Tập tài liệu dùng để đánh giá được thu thập từ các nguồn khác nhau, gồm
nhiều chủ đề khác nhau. Tập tài liệu này phải là những tài liệu mẫu bao
quát càng nhiều lĩnh vực càng tốt, phản ánh được các vấn đề đa dạng khác
nhau, các phong cách văn chương khác nhau … Điề
u này có nghĩa là tập

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 19
tài liệu mẫu này phải có kích thước lớn, vì vậy tập tài liệu này còn được gọi
là kho ngữ liệu mẫu.
• Tập câu truy vấn mẫu là những câu hỏi được tạo ra phù hợp với tập tài liệu
mẫu. Tập câu truy vấn này sau đó sẽ được sử dụng để tìm kiếm.
• Bảng đánh giá liên quan chuẩn là bảng chứa thông tin về số thứ tự câu hỏi
và các tài liệu liên quan thậ
t sự của câu hỏi đó. Bảng Đánh giá liên quan
chuẩn được dùng như là bảng đối chiếu để tính độ bao phủ và độ chính xác.
Có nhiều cách khác nhau để tạo bảng đánh giá liên quan chuẩn hay bảng

Relevance judgment. Các phương pháp này gồm có:
 Phương pháp đánh giá toàn bộ, phương pháp này thường không khả
thi vì tỉ lệ tập câu hỏi*tập tài liệu là quá lớn. Phương pháp này rất tốn
chi phí.
 Phương pháp Pooling hay còn gọi là ph
ương pháp lấy một số tài liệu
liên quan nhất để làm bảng đánh giá liên quan chuẩn. Phương pháp này
sử dụng tốt cho đánh giá nhiều hệ thống tìm kiếm thông tin. Phương
pháp này đòi hỏi phải có một sự đa dạng các hệ thống tìm kiếm thông
tin. Bước đầu tiên của phương pháp này là tìm thấy các tài liệu liên
quan cho mỗi hệ thống. Các hệ thống khác nhau tìm thấy các tài liệu
liên quan khác nhau. Bước tiếp theo là tổng hợp các kế
t quả của tất cả
các hệ thống lại và lấy phần giao của các bảng đánh giá liên quan của
các hệ thống. Nhưng phần giao này có thể chỉ là một số lượng nhất định
các tài liệu gần như chính xác nhất. Việc đánh giá dựa trên phương pháp
này thật sự khách quan khi đánh giá các hệ thống không được chọn để
giao lấy bảng Đánh giá liên quan chuẩn.
 Phương pháp đánh giá h
ướng dẫn chỉ tìm kiếm thỉnh thoảng cho kết
quả tốt. Phương pháp này cho phép tương tác giữa nghiên cứu truy vấn,
tìm kiếm, đánh giá. Tăng cường thêm bằng cách xem lại, điều chỉnh,
đánh giá lại. Nói chung, khi sử dụng phương pháp này, người đánh giá

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 20
phải thao tác bằng tay rất nhiều, xem các tài liệu trả về có thật sự là liên
quan hay chưa để đưa vào bảng Đánh giá liên quan chuẩn.
 Các đánh giá dựa trên những thành phần đã biết, phương pháp này
tốn ít chi phí nhất. Phương pháp này cho phép thay đổi câu hỏi để tìm ra

một tài liệu đã biết.
1.2.6. Phương pháp xây dựng bộ ngữ liệu được chọn
Kể từ năm 1992, khi Hội nghị về Tìm kiế
m thông tin Văn bản (Text REtrieval
Conference hay TREC) của Hoa Kỳ ra đời, mô hình hướng hệ thống mới thật sự
phát triển. Bởi vì hằng năm, TREC tổ chức hội nghị để kêu gọi tham gia đánh giá
các hệ thống tìm kiếm thông tin, đặc biệt kêu gọi đánh giá theo mô hình hướng hệ
thống. Nhờ đó mà mỗi năm khối lượng, kích thước bộ ngữ liệu dùng để đánh giá
tăng lên rất đáng kể
cùng với sự phát triển về số lượng các tổ chức, trường Đại học
tham gia TREC. TREC được xem là Hội nghị lớn nhất thế giới về đánh giá các hệ
thống tìm kiếm thông tin và là một trong những Hội nghị có uy tín trong lĩnh vực
tìm kiếm thông tin. TREC xây dựng bảng đánh giá liên quan chuẩn theo phương
pháp Pooling. TREC còn đưa ra các tiêu chuẩn, định dạng cho ngữ liệu rất rõ ràng,
và dễ tuân theo.
Vì vậy, chúng tôi quyết định chọn ph
ương pháp xây dựng ngữ liệu theo tiêu
chuẩn và cách làm của TREC. Chúng tôi định dạng câu hỏi và tài liệu theo tiêu
chuẩn định dạng mà TREC đưa ra, đồng thời làm bảng đánh giá liên quan chuẩn
theo phương pháp Pooling hay phương pháp lấy một số tài liệu liên quan nhất để
làm bảng Đánh giá liên quan giống TREC vì cách tạo bảng đánh giá khách quan
mà nó mang lại và không phải tốn nhiều thời gian, chi phí.
Tuy nhiên, đối với tiếng Việt, việc xây dựng bộ ngữ liệu đ
ánh giá phức tạp hơn
là xây dựng bộ ngữ liệu tiếng Anh, tiếng Pháp trong trường hợp dùng các hệ thống
tìm kiếm phổ biến, nổi tiếng sẵn có cho tiếng Anh, Pháp để tìm kiếm thông tin
tiếng Việt. Bởi vì đặc thù loại hình ngôn ngữ khác nhau giữa tiếng Anh, Pháp và
tiếng Việt. Chẳng hạn, trong tiếng Anh, Pháp mỗi từ là một từ đơn, cách nhau bởi

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin

Trang 21
một khoảng trắng nhưng tiếng Việt thì hoàn toàn khác, một từ có thể gồm từ một
từ đơn trở lên. Do đó, để những hệ thống tìm kiếm thông tin, ngữ liệu phải được
chuẩn hóa về giống với tiêu chuẩn ngữ liệu dùng để tìm kiếm của hệ thống đó.
Nhưng cũng chính điều này làm cho ngữ liệu của chúng tôi có thể được sử dụ
ng
linh hoạt để đánh giá nhiều hệ thống tìm kiếm thông tin cho nhiều thứ tiếng khác
nhau. Điều này còn có ý nghĩa rất lớn trong tìm kiếm thông tin vì chúng ta có thể
sử dụng hệ thống tìm kiếm hiệu quả của nước ngoài để tìm kiếm thông tin tiếng
Việt.
1.2.7. Phương pháp đánh giá tầm quan trọng của kết quả trả về
Các độ đo thực hiện toàn bộ hệ thống tìm kiếm ch
ủ yếu được lấy trung bình
trên tập câu hỏi. Vì tính chất biến đổi của các câu hỏi là rất lớn, và sự thay đổi của
các độ đo tính toán là rất cao, nên đòi hỏi một phương pháp phân tích thống kê
thích hợp để đánh giá xem sự khác biệt được đo giữa các hệ thống có phải là có ý
nghĩa thống kê đến một độ tin cậy nhất định không. Vì vậy, phương pháp đánh giá
tầm quan trọng c
ủa kết quả trả về được sử dụng là phương pháp thống kê.















Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 22
Chương 2 : CƠ SỞ LÝ THUYẾT
2.1. Tìm kiếm thông tin và các hệ thống tìm kiếm thông tin
2.1.1. Lịch sử tìm kiếm thông tin và hệ thống tìm kiếm thông tin
Tìm kiếm thông tin có một lịch sử lâu đời gắn liền với các thư viện và trung
tâm tìm kiếm thông tin. Trước đây, khi mà máy tính và internet chưa ra đời, những
người có nhu cầu thông tin ngoài việc nhờ sự trợ giúp thông tin từ bạn bè, người
thân còn có thể tìm đến thư viện hoặc các trung tâm thông tin để tìm kiếm thông
tin cần thiết. Cách biểu diễn, lưu tr
ữ, tổ chức và phổ biến thông tin của thư viện
được xem là cách làm truyền thống của một hệ thống tìm kiếm thông tin. Thư viện,
khi tiếp nhận các yếu tố thông tin hay tài liệu mới, trước hết là phân tích yếu tố
thông tin đó. Sau đó, những mô tả thích hợp sẽ được chọn ra để mô tả, phản ánh
nội dung của yếu tố thông tin đó. Dựa trên những mô tả này, mỗi yếu t
ố thông tin
sẽ được phân loại theo những thủ tục đã được thiết lập rồi sáp nhập vào tập hợp
các yếu tố thông tin đã tồn tại. Các thủ tục này được tạo ra để hệ thống hóa các
yêu cầu (các yêu cầu được thiết kế để thay thế cho một nhu cầu thông tin ) và để
so sánh những yêu cầu, truy vấn đó với mô tả của các yếu tố thông tin đã lưu trữ
.
Việc so sánh này chính là cơ sở để quyết định các yếu tố thông tin thích hợp với
câu truy vấn tương ứng. Cuối cùng, một cơ chế tìm kiếm và phổ biến thông tin sẽ
được dùng để trả các yếu tố thông tin cần thiết đến người sử dụng hệ thống.
Tuy nhiên, chúng ta phải xem xét vấn đề nảy sinh về vị trí thật sự của một yếu
tố thông tin mới được thêm vào trong t
ập hợp tài liệu. Có nhiều cơ chế tiếp cận

khác nhau để giải quyết vấn đề này nhưng chúng đều liên quan đến cách tổ chức
vật lý hoặc luận lý các yếu tố thông tin. Trong thư viện, cách tổ chức vật lý chính
là việc lập chỉ mục cho tài liệu, tức là sự sắp xếp các con số của các quyển sách,
cách đánh số thường được quy định bởi các thư viện lớ
n. Những quyển sách sẽ
được đặt vào những vị trí xác định dựa vào những con số này. Ngoài ra, cách tổ
chức luận lý dữ liệu phải được thêm vào với cách tổ chức vật lý để giúp người sử

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 23
dụng tìm kiếm thông tin dễ dàng hơn. Chẳng hạn, những quyển sách ấn bản về tìm
kiếm thông tin có thể được xác định bằng cách nhìn vào danh mục các chủ đề của
thư viện với thuật ngữ cần tìm là “tìm kiếm thông tin”. Một khi ta tìm thấy thuật
ngữ thích hợp, các thẻ số kế tiếp nhau sẽ xác định những quyển sách liên quan đến
chủ đề đang tìm kiếm. Những quyển sách này phụ thu
ộc vào các con số và chúng
sẽ được tìm thấy tại những vị trí xác định. Bên cạnh đó, mỗi khi muốn thay đổi
thuật ngữ chủ đề của sách, chúng ta không cần thay đổi vị trí của sách trên kệ
sách; tức là, các yếu tố thông tin có thể được tổ chức luận lý lại bằng cách thay đổi
danh mục thư viện mà không cần thay đổi sắp xếp vật lý.
Xã hội ngày càng phát triển do đó thông tin rất đa d
ạng phong phú, bài toán đặt
ra là chúng ta phải làm sao để quản lý được số lượng thông tin khổng lồ một cách
có hiệu quả. Từ đó dẫn đến nhu cầu làm giảm một lượng các yếu tố thông tin đến
một kích thước có thể quản lý, các yếu tố thông tin còn lại được xem là có liên
quan nhiều nhất đến lĩnh vực tìm kiếm. Mặt khác, chúng ta rất khó dự đoán mẫu,
trạng thái phát triển tương lai của thông tin, hoặc n
ếu có thể dự đoán thì tỉ lệ rủi ro
rất cao. Khó khăn tiếp theo trong việc tổ chức thông tin hiệu quả là ước muốn giữ
những yếu tố liên quan gần nhau. Ví dụ, những chủ đề liên quan đến nhiều lĩnh

vực như phân tích hệ thống (nó liên quan đến khoa học máy tính, vận trù học, kỹ
thuật học, khoa học quản lý, giáo dục và các hệ thống thông tin) không thể để gần
nhau
được mà phải để riêng ra theo từng lĩnh vực : đây là một khó khăn. Còn rất
nhiều khó khăn nữa, chẳng hạn các khó khăn trong phân loại, so sánh tài liệu, yếu
tố thông tin; lập chỉ mục, đánh số cho tài liệu. Và những khó khăn này sẽ không
được giải quyết nếu không có sự ra đời của máy tính. Quả thật, nhờ có máy tính
mà việc lưu trữ, tìm kiếm thông tin trở nên dễ dàng hơn. Máy tính có thể thao tác
trên tất cả
các loại thông tin và có thể lưu trữ một cách nhanh chóng một số lượng
thông tin khổng lồ. Ngoài ra, cơ chế tìm kiếm thông tin trên máy tính có thể rất
nhanh chóng và hiệu quả tùy thuộc mô hình cài đặt, thuật toán của cơ chế đó. Cơ
chế tìm kiếm này cũng khá giống với cơ chế tìm kiếm thông tin của thư viện.
Trước hết, dựa trên ngôn ngữ chỉ mục và các yếu tố thông tin đại diện cho nội

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 24
dung của tài liệu, tập tài liệu sẽ được biểu diễn dưới dạng tập hợp các chỉ mục đại
diện cho tập tài liệu đó. Trong khi đó, nhu cầu tìm kiếm thông tin được biểu diễn
dưới dạng câu truy vấn có cấu trúc hoặc không cấu trúc mà máy có thể hiểu được.
Sau đó, máy sẽ so sánh hai dạng biểu diễn trên, biểu diễn tài liệu và biểu diễn câu
truy vấn, để biết được tài li
ệu nào phù hợp với truy vấn nào. Sau khi so sánh, máy
sẽ định vị được vị trí vật lý của yếu tố thông tin cần tìm kiếm và phổ biến nó đến
người sử dụng. Đây là cơ chế tìm kiếm chung cho mọi hệ thống tìm kiếm thông tin.
Tuy nhiên, cách đây không quá 20 năm, sau khi máy tính ra đời, các hệ thống
tìm kiếm thông tin chủ yếu được sử dụng trong phòng thí nghiệm để tìm kiếm một
kho ngữ liệu sách và tài liệu. Mặc dù chúng không bao hàm các ph
ương pháp toán
phức tạp, nhưng khi Internet phát triển thì kỹ thuật tìm kiếm chủ yếu trên World

Wide Web chính là các kỹ thuật tìm kiếm thông tin. Quả thật, các hệ thống tìm
kiếm thông tin ngày càng phát triển về thuật toán, kỹ thuật tìm kiếm thông tin nhờ
có sự ra đời của Internet. Vì nhu cầu tìm kiếm thông tin của con người trên
Internet là một nhu cầu phổ biến, thiết thực, không thể thiếu nên các nhà phát triển
hệ thống tìm kiếm thông tin cũng phải nỗ lự
c để mang lại hiệu năng, hiệu quả cho
người sử dụng.
Chúng ta thấy rõ ràng là nghiên cứu tìm kiếm thông tin có truyền thống tập
trung vào tìm kiếm thông tin dạng văn bản
(
Text Retrieval
)
hay tài liệu văn
bản
(
Document Retrieval
)
. Trong một thời gian dài, tìm kiếm thông tin gần như
đồng nghĩa với tìm kiếm tài liệu hay tìm kiếm văn bản. Trong thời gian gần đây,
các viễn cảnh ứng dụng mới như ứng dụng trả lời câu hỏi
(
question answering
)
,
ứng dụng nhận dạng chủ đề
(
topic detection
)
, hay ứng dụng lưu vết
(

tracking
)

trở thành các lĩnh vực hoạt động mạnh mẽ trong nghiên cứu tìm kiếm thông tin.
Càng ngày ranh giới giữa cộng đồng tìm kiếm thông tin hay cộng đồng tìm kiếm
thông tin và các cộng đồng nghiên cứu xử lý ngôn ngữ tự nhiên, cộng đồng nghiên
cứu cơ sở dữ liệu trở nên mờ nhạt khi các cộng đồng này cùng nhau phát triển các

Luận văn : Đánh giá các hệ thống tìm kiếm thông tin
Trang 25
lĩnh vực quan tâm chung; ví dụ như trả lời câu hỏi, tóm tắt và tìm kiếm thông tin
từ các tài liệu có cấu trúc.
Một lĩnh vực phát triển khác mà các kỹ thuật tìm kiếm thông tin đang kế tục và
phát huy, đó là tìm kiếm thông tin không văn bản hay còn gọi là tìm kiếm thông
tin đa phương tiện. Loại hình tìm kiếm này sẽ dựa trên rút trích tự động các phần
văn bản hay lời nói của các tài liệu đa phương tiện, sau đó đượ
c xử lý bởi
các
kỹ
thuật tìm kiếm thông tin dựa văn bản
(
text-based IR techniques
)
. Tuy nhiên,
người ta ngày càng quan tâm đến sự phát triển các kỹ thuật phơi bày cụ thể thông
tin phương tiện truyền thông rồi tích hợp chúng với các phương pháp tìm kiếm đã
được thiết lập tốt hơn là cách rút trích chúng tôi đã trình bày.
Trong phạm vi đề tài, chúng tôi chỉ giới hạn tìm kiếm thông tin trên văn bản.
2.1.2. Hệ thống tìm kiếm thông tin
2.1.2.1. Khái niệm về hệ thống tìm kiếm thông tin

Theo lý thuyết, hệ thống tìm kiếm thông tin là một hệ thống thông tin. Nó
được
sử dụng để lưu trữ, xử lý, tra cứu, tìm kiếm, và phổ biến các yếu tố thông tin đến
người sử dụng. Hệ thống tìm kiếm thông tin thường thao tác với các dữ liệu dạng
văn bản và không có sự giới hạn về các yếu tố thông tin trong văn bản.
Hệ thống thông tin bao gồm một tập hợp các yếu tố thông tin, một tập các yêu
cầu, và một vài cơ ch
ế tìm kiếm để quyết định yếu tố thông tin nào liên quan đến
các yêu cầu. Theo nguyên tắc, mối quan hệ giữa các câu truy vấn và tài liệu có
được từ sự so sánh trực tiếp. Nhưng trên thực tế, sự liên quan giữa các câu truy
vấn và tài liệu xác định không phải được quyết định trực tiếp; mà gián tiếp bằng
cách : các tài liệu, yếu tố thông tin phải chuyển sang ngôn ngữ chỉ mục trước khi
xác định mức độ liên quan.
2.1.2.2. Cách th
ức hoạt động của hệ thống tìm kiếm thông tin
Hình 1 minh họa cấu trúc, cách hoạt động cơ bản của một hệ thống tìm kiếm
thông tin cổ điển.

×