Nghiên cứu tra cứu thông tin tiếng việt với phản hồi liên quan

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.56 MB, 65 trang )

LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được
ai công bố trong bất kỳ công trình nào khác.
Tác giả luận văn

Nguyễn Đức Toàn

LỜI CẢM ƠN
Để hoàn tất một luận văn thạc sĩ yêu cầu sự tập trung, sự cố gắng và độc
lập nghiên cứu. Bản thân tôi sau những năm tháng học tập vất vả và nghiên cứu
cũng đã cố gắng để hoàn thành được luận văn này. Tôi luôn ghi nhận những sự
đóng góp giúp đỡ,sự ủng hộ, sự hỗ trợ nhiệt tình của những người bên cạnh
mình, nhân đây tôi muốn gửi lời cảm ơn sâu sắc nhất tới họ.
Lời cảm ơn trân trọng đầu tiên tôi muốn dành tới TS Nguyễn Hữu Quỳnh,
người đã dìu dắt và hướng dẫn tôi trong suốt quá trình làm luận văn, sự chỉ bảo
và định hướng của thầy giúp tôi tự tin nghiên cứu những vấn đề mới và giải
quyết bài toán một cách khoa học.
Tôi xin trân trọng cảm ơn Ban giám hiệu, Bộ phận sau Đại học, Phòng
đào tạo, phòng khảo thíĐại học công nghệ thông tin và truyền thông – Đại học
Thái Nguyên, đã tạo các điều kiện cho chúng tôi được học tập và làm khóa luận
một cách thuận lợi.
Lời cảm ơn sâu sắc muốn được gửi tới các thầy giáo, cô giáo đã dạy dỗ và
mở ra cho chúng tôi thấy chân trời tri thức mới, hướng dẫn chúng tôi cách khám
phá và làm chủ công nghệ mới.
Tôi muốn gửi lời cảm ơn chân thành đến tập thể lớp CH12D đã cùng tôi
đi qua những tháng ngày miệt mài học tập, cùng chia sẻ những niềm vui nỗi
buồn, động viên tôi đi qua những khó khăn, để tôi vững bước vượt qua những
vất vả, quyết tâm hoàn thành luận văn này.
Tôi xin trân trọng cảm ơn bố mẹ, vợ, con tôi đã mang tới tất cả niềm tin,

định hướng và theo dõi tôi suốt chặng đường đời. Nâng đỡ và đến bên tôi những
giây phút khó khăn nhất của cuộc sống.
Tôi xin chân thành cảm ơn Ban giám hiệu, Phòng đào tạo và CTHS và
đồng nghiệpTrường trung cấp Y tế Nam Định, những người đã tạo điều kiện và
giúp đỡ tôi trong công việc và học tập để tôi có thể theo học và hoàn thành khóa
luận tốt nghiệp.
Thái Nguyên, ngày

tháng 06 năm 2015

1

MỤC LỤC
PHẦN MỞ ĐẦU ..................................................................................................... 5
1. Đặt vấn đề............................................................................................................. 5
2. Mục tiêu của luận văn .......................................................................................... 6
3. Các đóng góp của luận văn .................................................................................. 6
4. Bố cục của luận văn ............................................................................................. 6
Chương 1 : TỔNG QUAN VỀ TRA CỨU THÔNG TIN................................... 7
1.1. Tra cứu thông tin ............................................................................................... 7
1.2. Các thành phần của hệ thống tra cứu thông tin ................................................. 8
1.3. Biểu diễn và mô hình ...................................................................................... 11
1.4. Đánh giá .......................................................................................................... 18
1.5. Phản hồi liên quan trong tra cứu thông tin ...................................................... 22
1.6. Đặc điểm của văn bản tiếng Việt ................................................................... 26
1.7. Kết luận chương 1 ........................................................................................... 29
Chương 2 : TRA CỨU THÔNG TIN TIẾNG VIỆT SỬ DỤNG PHẢN
HỒI LIÊN QUAN ................................................................................................ 30
2.1. Biểu diễn văn bản ............................................................................................ 30

2.2. Tần suất và tần suất nghịch đảo ...................................................................... 31
2.3. Độ tương tự ..................................................................................................... 32
2.4. Kỹ thuật giảm chiều vector biểu diễn trong văn bản ...................................... 34
2.5. Thuật toán Rocchio ......................................................................................... 36
2.6. Thuật toán Robertson/Sparck-Jones................................................................ 39
2.7 Thuật toán Bayesian ......................................................................................... 41
2.8 Kết luận chương 2 ............................................................................................ 45
Chương 3. ỨNG DỤNG TRA CỨU VĂN BẢN TIẾNG VIỆT ...................... 46
3.1. Kiến trúc tổng quát của hệ thống: ................................................................... 46

2

3.1.1. Mô hình UseCase tổng quát: ...........................................................................46
3.1.2. Đặc tả UserCase: .............................................................................................47
3.1.3. Biểu đồ hoạt động của hệ thống: .....................................................................48

3.2. Xây dựng tập dữ liệu ....................................................................................... 49
3.2.1 Tập dữ liệu từ dừng. .........................................................................................50
3.2.2 Tập dữ liệu từ chuyên ngành. ...........................................................................51
3.2.3 Tập dữ liệu văn bản huấn luyện. .......................................................................53

3.3. Môi trường cài đặt ........................................................................................... 53
3.3.1 Thiết kế cơ sở dữ liệu: ......................................................................................54
3.3.2 Thiết kế giao diện hệ thống: .............................................................................56

3.4. Đánh giá .......................................................................................................... 60
3.5. Kết luận chương 3 ........................................................................................... 60
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .......................................................... 62
TÀI LIỆU THAM KHẢO ................................................................................... 63

3

DANH MỤC CÁC HÌNH
Số hiệu
hình vẽ
Hình 1.1

Tên hình vẽ

Tổng quan hệ thống tra cứu thông tin.
Cung cấp các thành phần chính của một hệ thống tra cứu
Hình 1.2
thông tin.
Hình 1.3 Phản hồi liên quan
Phản hồi liên quan tìm kiếm trên các ảnh - người dùng xem
Hình 1.4.a
các kết quả truy vấn ban đầu của truy vấn bike
Phản hồi liên quan tìm kiếm trên các ảnh - người dùng xem
Hình 1.4.b tập kết quả được hiệu chỉnh. Độ chính xác được cải tiến rất
nhiều.
Hình 1.5 Ví dụ về phản hồi liên quan trên tập văn bản

Số
trang
7
10
23
24

24
25

Hình 2.1

Minh họa độ tương tự cosin

34

Hình 2.2

Ma trận ví dụ

35

Hình 2.3

35

Hình 2.5

Mô hình giảm chiều véc tơ
Truy vấn tối ưu Rocchio để tách các tài liệu liên quan và
không liên quan
Ứng dụng của thuật toán Rocchio’s

Hình 3.1

Biểu đồ useCase tổng quát hệ thống

46

Hình 3.2

Biểu đồ hoạt động useCase Huấn Luyện

48

Hình 3.3

Biểu đồ hoạt động useCase Phân Loại

49

Hình 3.4

Diagram hệ thống

55

Hình 3.5

Giao diện Main chính

56

Hình 3.6

Giao diện quản lý StopWord

56

Hình 3.7

Giao diện quản lý thuật ngữ

57

Hình 3.8

Giao diện quản lý Files huấn luyện

57

Hình 3.9

Giao diện Huấn Luyện

58

Hình 2.4

37
39

Hình 3.10 Giao diện chọn file tra cứu: benh gout

58

Hình 3.11 Kết quả sau khi tra cứu

59

Hình 3.12 Giao diện phản hồi

59

Hình 3.13 Kết quả sau khi phản hồi

60

4

PHẦN MỞ ĐẦU

1. Đặt vấn đề
Trong thời đại ngày nay, thông tin là nhu cầu thiết yếu đối với mọi người
trên mọi lĩnh vực. Hằng ngày có hàng triệu văn bản, trang web được đưa lên
Internet, làm giàu cho hệ thống tài nguyên khổng lồ này. Tuy nhiên, chúng ta
không thể sử dụng thông tin trong hệ thống thông tin khổng lồ này nếu chúng
ta không tổ chức và khai thác nguồn tài nguyên này một cách hợp lí.
Trên thực tế, đã có khá nhiều hệ thống thực hiện công việc này theo
những phương pháp khác nhau, tuy chưa đạt được hiệu quả tối ưu nhưng cũng
phần nào đáp ứng được các yêu cầu thông tin cho người sử dụng. Mỗi phương
pháp khác nhau đều thể hiện được những điểm mạnh riêng của nó và việc lựa
chọn phương pháp nào phụ thuộc vào những mục đích, yêu cầu và tiêu chí
riêng đặt ra. Tuy nhiên, việc khai thác nguồn dữ liệu này vẫn còn là một bài
toán khó.
Kỹ thuật tra cứu thông tin đã và đang được nghiên cứu, phát triển

trong nhiều lĩnh vực khác nhau như y tế, giáo dục, kinh tế...Những kiến
thức liên quan đến tra cứu thông tin là rất rộng và tổng hợp, bao gồm thuật
toán, cấu trúc dữ liệu, cơ sở dữ liệu, các hệ thống phân tán, tính toán song
song, tổ chức file, data mining.
Để nâng cao chất lượng của các kết quả tra cứu, phản hồi liên quan
được kết hợp vào hệ thống tra cứu thông tin. Ý tưởng của phản hồi liên quan
(RF- Relevance Feedback) là bao gồm người dùng tham gia vào quá trình tra
cứu để cải tiến tập kết quả cuối cùng. Cụ thể, người dùng đưa phản hồi về sự
liên quan của các tài liệu trong một tập các kết quả ban đầu. Phản hồi liên

5

quan có thể đi qua một hay nhiều vòng lặp của sự sắp xếp này. Quá trình sử
dụng ý tưởng có thể khó để tính một truy vấn tốt khi chúng ta không biết
toàn bộ tập tài liệu, nhưng dễ đánh giá các tài liệu cụ thể. Trong ngữ cảnh
như thế, phản hồi liên quan cũng có thể hiệu quả trong theo dõi nhu cầu
thông tin của người dùng: xem một số tài liệu có thể dẫn người dùng cải tiến
hiểu thông tin mà họ đang tìm.
Vì những lý do trên tôi đã chọn đề tài “Nghiên cứu tra cứu thông tin
tiếng Việt với phản hồi liên quan”.
2. Mục tiêu của luận văn
Nghiên cứu phương pháp sử dụng phản hồi liên quan để nâng cao độ
chính xác của tra cứu văn bản (lấy thông tin của người dùng để nâng cao độ
chính xác).
3. Các đóng góp của luận văn
- Nghiên cứu một số phương pháp tra cứu đối với văn bản tiếng Việt.
- Sử dụng kỹ thuật phản hồi liên quan nhằm nâng cao hiệu năng của hệ
thống tra cứu văn bản tiếng Việt.
- Trên cơ sở phương pháp đã được nghiên cứu, luận văn tiến hành

xây dựng hệ thống tra cứu thông tin và ứng dụng trong tra cứu thông tin
tiếng Việt.
4. Bố cục của luận văn
Chương 1: Tổng quan về tra cứu thông tin
Chương 2: Tra cứu thông tin tiếng việt sửa dụng phản hồi liên quan
Chương 3: Ứng dụng tra cứu thông tin văn bản tiếng Việt
Kết luận và hướng phát triển
Tài liệu tham khảo

6

Chương 1 : TỔNG QUAN VỀ TRA CỨU THÔNG TIN
1.1.Tra cứu thông tin
Tra cứu thông tin là một nhánh của khoa học máy tính nhằm mục tiêu lưu
trữ và cho phép truy cập nhanh một lượng thông tin lớn. Thông tin này có thể
là văn bản, đa phương tiện hoặc âm thanh [2,3].
Một hệ thống tra cứu thông tin là hệ thống có thể lưu trữ, tra cứu các
mục thông tin. Hiện nay, nhiều hệ thống tra cứu các mục phi văn bản dựa trên
các tìm kiếm mô tả văn bản. Các mục văn bản thường được xem như là các
tài liệu, sách, bài báo, ...Các hệ thống tra cứu thông tin thực tế nhất lưu trữ và
cho phép tra cứu các tài liệu hoặc thông tin văn bản. Tuy nhiên, đây không
phải là một nhiệm vụ dễ dàng, vì các tập tài liệu trong hệ thống tra cứu thông
tin thường phải xử lý vài chục ngàn hoặc vài chục triệu tài liệu.

Hinh 1.1 Tổng quan hệ thống tra cứu thông tin

7

Người sử dụng truy cập hệ thống tra cứu thông tin bằng việc tạo một
truy vấn (gửi yêu cầu vào hệ thống). Sau đó hệ thống tra cứu thông tin tra cứu
tất cả các tài liệu liên quan đến yêu cầu truy vấn [2,3]. Đối với mục tiêu này,
trong pha ban đầu, các tài liệu được phân tích để cung cấp một biểu diễn của
nội dung: quá trình này được gọi là “đánh chỉ số”. Lúc đầu tài liệu được phân
tích, một đại diện mô tả tài liệu được lưu trữ, trong khi bản thân tài liệu cũng
được lưu trữ. Để biểu diễn các nhu cầu thông tin, người sử dụng tạo truy vấn
trong ngôn ngữ truy vấn của hệ thống. Yêu cầu truy vấn được đối sánh với
các mục để xác định các tài liệu liên quan đến người sử dụng.
Phản hồi đối với một truy vấn, hệ thống tra cứu thông tin có thể cung
cấp hoặc một trả lời chính xác hoặc danh sách phân hạng các tài liệu chứa
thông tin liên quan đến truy vấn. Kết quả phụ thuộc vào mô hình được chọn
của hệ thống, mô hình boolean cho ra một trả lời chính xác, trong khi các mô
hình khác (áp dụng lược đồ đối sánh từng phần) cho ra một danh sách các tài
liệu được phân hạng sao cho tài liệu nào tương tự nhất được xếp hạng ở trên.
Lược đồ một hệ thống tra cứu thông tin được thể hiện như Hình 1.1.
1.2.Các thành phần của hệ thống tra cứu thông tin
Trọng tâm của hệ thống tra cứu thông tin là so sánh truy vấn với mỗi tài
liệu trong tập hợp. Điều này thu được bằng chức năng tính điểm, có đầu vào
là biểu diễn của các tài liệu và truy vấn. Chi tiết hàm tính điểm và biểu diễn
của các tài liệu phụ thuộc vào mô hình tra cứu được sử dụng. Chuyển đổi truy
vấn, từ đầu vào thành biểu diễn, được thực hiện ngay khi được nhập vào bởi
người dùng. Với các tài liệu trong cơ sở dữ liệu, chuyển đổi là một quá trình
ngoại tuyến được thực hiện một lần.
Xét một tập hợp C chứa N tài liệu và T thuật ngữ duy nhất. Mỗi tài liệu
trong tập hợp này được biểu thị bởi di và tính toán biểu diễn cho mỗi di là ánh

8

xạ một chiều didi. Dạng gốc của dilà một chuỗi các từ. Biểu diễn dicó thể
được xem như một chuỗi T trọng số tương ứng với mức độ đối với mỗi thuật
ngữ mô tả tài liệu.
Nếu mỗi tài liệu trong tập hợp đượcxem như một chuỗi các trọng số,
bản thân tài liệu có thể được biểu diễn bằng một ma trận tài liệu-thuật ngữ, ở
đó mục trong dòng j cột i là một biểu thị sự quan trọng của thuật ngữ j với tài
liệu i. Điền các mục đơn lẻ trong ma trận phụ thuộc vào mô hình tra cứu cụ
thể được sử dụng.
Ngay khi bước tiền xử lý hoàn thành, hệ thống sẵn sàng chấp nhận yêu
cầu của người dùng. Người dùng gửi một truy vấn đến hệ thống, hệ thống
chuyển đổi truy vấn thành biểu diễn thích hợp, biểu diễn được so sánh với
mỗi biểu diễn của tài liệu trong tập dữ liệu. Quá trình này sinh ra một phân
hạng mà những tài liệu có điểm cao được đặt ở phía trên (top). Sử dụng một
ngưỡng, hoặc về mặt điểm cực tiểu đối với truy vấn hoặc một số các kết quả
mong muốn cố định, số ít các tài liệu được phân hạng ở trên được nhận diện
là kết quả của tập S.
Tập kết quả là một danh sách các tài liệu ứng viên mà có khả năng đáp
ứng truy vấn của người dùng. Một tập con các kết quả được tra cứu tiếp tục
được trả lại đối với người dùng ở dạng một tập D được hiển thị. Cỡ của tập D
được yêu cầu bởi các ràng buộc như cỡ vật lý của màn hình, sở thích của
người dùng,.... Quy ước, D được xây dựng bằng việc lấy ra các tài liệu được
phân hạng của S.
Thuật ngữ “tìm kiếm” được sử dụng để mô tả một vòng đời truy vấnphân hạng-hiển thị. Bằng việc kiểm tra các tài liệu trong D, người dùng có thể
tìm thấy những gì cô/anh ấy đang tìm. Truy vấn của người dùng được giải
quyết thành công chỉ ra kết thúc “phiên tìm kiếm” hiện tại. Tuy nhiên, do

9

nhiều nhân tố khác nhau, tập được hiển thị chứa cả các tài liệu liên quan và

không liên quan.
Các kết quả không thỏa mãn có thể dẫn đến người dùng nhập một truy
vấn điều chỉnh để thay thế. Một mức tương tác như một phần của thiết kế hệ
thống để trợ giúp trong quá trình xây dựng lại truy vấn. Kỹ thuật này được
biết là phản hồi liên quan. Nó được kỳ vọng là truy vấn mới sẽ sinh ra một tập
tra cứu có nhiều tài liệu liên quan (và ít các tài liệu không liên quan). Quá
trình lặp này có thể tiếp tục cho nhiều vòng đời, kết thúc phiên tìm kiếm thành
công hoặc người dùng bỏ cuộc.
Tập đối tượng
tra cứu

Nhu cầu thông tin

Biểu diễnTT
Biểu diễnTT

Chỉ số tập dữ liệu
Truy vấn

So sánh độ tương tự

Chỉ số Phân hạng

Hiển thị

Phản hồi liên quan

Kết thúc truy vấn
Không ưng ý

Ưng ý

Hình 1.2Các thành phần của hệ thống tra cứu thông tin

10

1.3.Biểu diễn và mô hình
Như được đề cập trong phần trước, so sánh một tài liệu với một truy
vấn đòi hỏi cả hai phải được biểu diễn ở dạng có thể so sánh. Một hàm tính
điểm được sử dụng để gán mỗi tài liệu trong tập hợp một giá trị phản ánh sự
liên quan của nó đối với truy vấn hiện tại. Một vài thay thế tiêu chuẩn cho
chọn biểu diễn và hàm tính trọng số được mô tả ở dưới.
Thực tế khi sử dụng các thuật ngữ bằng các đặc trưng để mô tả các tài
liệu. Để làm điều này, mỗi tài liệu cần được phân tích riêng lẻ. Các token là
các chuỗi được phân cách bởi khoảng trắng hoặc dấu chấm câu, được trích rút
bằng việc sử dụng một bộ phân tích từ vựng. Bước này, được gọi là
tokenisation, cũng chuyển các xâu sang dạng viết thường, trích rút mọi siêu
dữ liệu mà được đính kèm tài liệu và giúp nhận biết các thành phần khác như
các số, các địa chỉ email,...
Sau khi một tài liệu được rút gọn đối với một chuỗi các token, kỹ thuật
stemming có thể được áp dụng. Đây là một ví dụ đơn giản nhất của phân tích
hình thái và bao gồm tách các hậu tố từ các từ để giảm các biến thể của một từ
đối với cùng một từ gốc. Thực hiện điều này giảm số các token duy nhất có
trong tập hợp và được chỉ ra để cải tiến hiệu năng [4]. Thuật toán stemming
phổ biến nhất là Porter stemmer [5]. Stemmer này sử dụng danh sách dài các
luật, thủ công cho ngôn ngữ tiếng Anh, nó loại bỏ thành công các hậu tố xuất
hiện phổ biến. Các chỉ trích phổ biến của Porter stemmer đó là các thuật ngữ
đầu ra không nhất thiết phải là các từ tiếng Anh hợp lệ. Các stemmer thay thế
gồm Lovins stemmer dựa vào luật và Krovetz stemmer dựa vào từ điển.

Đầu ra của thuật toán stemming là các thuật ngữ được sử dụng như các
đơn vị biểu diễn. Các biểu diễn Richer có thể thu được bằng việc sử dụng xử

11

lý ngôn ngữ tự nhiên. Các đặc trưng ngôn ngữ mềm dẻo gồm các cụm từ (các
từ láng giềng trong tài liệu),.... Các đặc trưng này có thành công giới hạn.
Bước tiếp theo là một bước của lựa chọn đặc trưng – lấy một tập con
các thuật ngữ mà biểu diễn hiệu quả các tài liệu. Một từ điển được xây dựng
chứa tất cả các thuật ngữ duy nhất trên tập hợp. Các thành phần của từ điển
này được sắp xếp theo thứ tự giảm dần của số các xuất hiện trong tập hợp.
Luật Zipf ở dạng gốc của nó phát biểu rằng trong một tập hợp của các tài liệu
ngôn ngữ tự nhiên, tần xuất của một từ là nghịch đảo đối với hạng của nó
trong bảng tần xuất [6]. Các thuật ngữ mà xuất hiện chéo thường xuyên trong
tập hợp thường không có ảnh hưởng đáng kể như chúng không có bất cứ giá
trị phân biệt trong nhận biết một tài liệu. Các thuật ngữ như thế, được biết là
các từ dừng (stop-words), là các từ chức năng (giới từ, liên từ,...) trong ngôn
ngữ và bị loại bỏ ra khỏi từ điển. Ở cùng thời điểm, các thuật ngữ đó là rất
hiếm trên toàn bộ tập hợp cũng được coi như là nhiễu (ví dụ các lỗi chính tả).
Các đặc trưng (các thuật ngữ) yêu cầu biểu diễn các đối tượng (các tài liệu)
bây giờ đã được nhân biết.
Các thuật ngữ có thể được xem xét là các đặc trưng hoặc các thuộc
tính của các tài liệu và có một số cách để gán các giá trị cho chúng. Cùng
với hàm tính điểm được sử dụng để so sánh một truy vấn với một tài liệu
(hoặc trong thực tế, một tài liệu với một tài liệu khác), lược đồ trọng số được
xác định bằng mô hình tra cứu được sử dụng. Một số mô hình chuẩn được
trình bày ở dưới.
Mô hình Boolean
Mỗi tài liệu ditrong một tập hợp với T thuật ngữ duy nhất và N tài liệu

có thể được xem như là một véc tơ di=(di1, di2, ....diT). Nếu các thành phần của

12

dilà Boolean, tức 0 hoặc 1, chỉ ra sự có mặt hay không của từ trong tài liệu
này, nó được gọi là biểu diễn ‘tập các từ’.
Một truy vấn người dùng được biểu diễn ở dạng một số các thuật ngữ
lựa chọn kết nối bởi các toán tử Boolean (ví dụ, AND, OR). Các truy vấn
chính xác có thể khó xây dựng và do đó hầu hết các hệ thống sử dụng một bộ
kết nối ngầm định giữa các thuật ngữ (AND). Bởi vì chúng ta biết thuật ngữ
nào là có mặt trong mỗi tài liệu, hàm tính điểm cho mô hình này bao gồm
đánh giá một chuỗi các toán tử tập hợp, cuối cùng sinh ra một tập kết quả,
mỗi thành phần thỏa mãn truy vấn Boolean được cho.
Một hạn chế của mô hình này là nó sử dụng các hàm dựa vào tập hợp,
đầu ra sẽ không là một phân hạng. Điều này trở thành một chủ đề rất phức tạp
khi các tập tài liệu được trả về là lớn, không có cơ chế để phân biệt một tài
liệu với những cái còn lại về mặt liên qua tiềm năng.
Mô hình không gian véc tơ
Nếu một thuật ngữ xuất hiện nhiều lần trong một tài liệu, nó chỉ ra
một độ quan trọng tăng của thuật ngữ này đối với tài liệu này. Một biểu diễn
nhị phân sẽ không thể phản ánh điều này. Tạo ra trọng số cho thuật ngữ j
trong tài liệu i một hàm của số lần xuất hiện của thuật ngữ trong di(tức là
“tần xuất thuật ngữ”) là dạng đơn giản nhất của một biểu diễn có trọng số.
Điều này được gọi là biểu diễn “túi các từ” bởi vì thông tin vị trí (từ này
xuất hiện trong tài liệu này ở chỗ nào) vẫn bị loại bỏ.
Một thuật ngữ đã cho là quan trọng thế nào đối với một tài liệu không
chỉ phụ thuộc vào tần suất xuất hiện thế nào trong tài liệu, mà còn phụ thuộc
vào thuật ngữ xuất hiện chéo trong tập hợp các tài liệu thế nào. Tần suất văn
bản nghịch đảo (idf) của một thuật ngữ là nghịch đảo phân số của các tài liệu

13

trong tập hợp mà chứa thuật ngữ này. Kết hợp idf với tần suất thuật ngữ (tf)
dẫn đến mô hình tf-idf.
Các thuật ngữ trong các tài liệu dài hơn dường như có các tần suất thuật
ngữ lớn hơn. Để ngăn cản độ lệch này theo hướng dông dài, tần suất thuật ngữ
được chuẩn hóa bằng độ dài của tài liệu. “Độ dài” có thể được đo bằng nhiều
cách khác nhau, ví dụ, số các thuật ngữ trong tài liệu, số các ký tự, giá trị cực
đại của tần suất thuật ngữ cho tài liệu này,..
Như trong mô hình Boolean, mỗi tài liệu được biểu diễn bằng
di=(di1,di2,...,diT). Trọng số dij của thuật ngữ j trong tài liệu i được cho bởi

tij là số lần thuật ngữ j xuất hiện trong tài liệu di và li là độ dài của tài liệu,
gồm thành phần ‘tf’, N là số các tài liệu trong tập hợp và nj là số các tài liệu
trong tập hợp có từ j xuất hiện, tạo ra trọng số ‘idf’
Các lược đồ trọng số thay thế đã có khác, nhưng chúng làm việc trên
cùng nguyên lý tổng quát – nguyên lý gán một trọng số dij chỉ ra phân bố
được tạo ra bởi thuật ngữ j theo hướng tài liệu di. Salton và Buckley đã nghiên
cứu một phạm vi các lược đồ trọng số và các kết quả được chỉ ra trong [5].
Bằng việc sử dụng một trong các lược đồ trọng số, mỗi tài liệu trở
thành một điểm trong không gian chiều T. Truy vấn cũng có thể là một điểm
trong không gian này. Hàm tính điểm được sử dụng cho tra cứu bây giờ giảm
xuống để kết hợp với một độ đo xấp xỉ từ truy vấn đến mỗi tài liệu. Với tra
cứu văn bản, độ đo được sử dụng phổ biến là cosin. Chuẩn hóa các véc tơ với
độ dài véc tơ dẫn đến các véc tơ đơn vị sao cho tích giữa hai véc tơ như thế
cho chúng ta cosin của góc giữa chúng. Nên lưu ý rằng độ dài là khác nhau từ

14

li. Độ dài véc tơ của một tài liệu diđược cho bởi

. Độ tương tự cosin

giữa hai tài liệu divà dj được cho bởi

Giá trị của tích cosin lớn hơn, hai véc tơ là tương tự hơn. Độ đo có thể
được sử dụng để so sánh hoặc hai tài liệu hoặc một tài liệu và một truy vấn.
Mô hình không gian vác tơ (VSM) biểu diễn mỗi tài liệu như một véc
tơ trong không gian thuật ngữ có chiều rất lớn. Các trục của không gian này
được giả thiết là trực giao, do đó biểu diễn một giả thiết độc lập cho các thuật
ngữ. Đây là một giả thiết đơn giản hiển nhiên như tồn tại các tương quan giữa
các thuật ngữ. Những bài báo ban đầu (ví dụ [7] và [8]) cung cấp các thảo
luận về VSM. Do hiệu năng và sự đơn giản của nó có thể so sánh với hầu hết
các mô hình khác, VSM còn lại một khuôn khổ thuận lợi trong đó thực hiện
nghiên cứu tra cứu thông tin (IR). VSM không có các tham số cần điều chỉnh
cho mỗi tập hợp do đó tạo ra sự yêu thích mô hình này.
Mô hình xác suất
Gốc rễ của mô hình tra cứu thông tin xác suất là khái niệm liên quan,
nó được giả thiết là một biến nhị phân. Một tài liệu di và một truy vấn q đã
cho, lượng P(R=1|di,q) biểu diễn xác suất liên quan có điều kiện trên truy vấn
q và tài liệu di. Sử dụng luật Bayes, lượng này được điều chỉnh như sau:

15

Tương tự, xác suất không liên quan có điều kiện trên tài liệu divà truy
vấn q được cho bởi:

Nguyên lý phân hạng xác suất [Rob97] đề xuất rằng phân hạng của các
tài liệu trình bày đối với người dùng nên dựa vào P(R=1|di,q). Trong thực
hành, tỉ số log-odds log(O(R|di,q)) được tính. Tính mức được thua liên quan
cho truy vấn q và tài liệu di, O(R|di,q), cũng làm cho nhiệm vụ cài đặt thực
hành đơn giản hơn bởi vì nó phủ định sự cần thiết tính toán phức tạp biểu
thức khả năng thực hiện đúng tài liệu (P(di|q)).

Ở đây bik là một biến boolean, có giá trị 1 khi thuật ngữ k xuất hiện
trong divà 0 khi ngược lại. K là số các thuật ngữ trong truy vấn, pk là xác suất
của thuật ngữ k xuất hiện trong tài liệu liên quan.
Sử dụng sự có mặt và vắng mặt của một thuật ngữ trong tài liệu để tính
toán xác suất kéo theo (probability follows) từ mô hình độc lập nhị phân
[RSj76]. Độc lập lẫn nhau giữa các thuật ngữ được phản ánh bởi thực tế rằng
xác suất có thể được tính toán bằng tích của các xác suất riêng lẻ phát sinh từ
mỗi thuật ngữ.

16

Số hạng thứ hai và ba ở phương trình trên là độc lập với tài liệu và do
đó sẽ là hằng số với một tập hợp (với một truy vấn cụ thể được cho) và do đó
có thể bị bỏ qua khi sinh ra một phân hạng.

Nếu tập hợp chứa N tài liệu, nk chứa thuật ngữ k và nR được gán nhãn
là liên quan đối với truy vấn hiện tại, rk chứa thuật ngữ k, pk và pk có thể xấp
xỉ như sau:

Thay những giá trị này, chúng ta nhận được

Số hạng log cung cấp một trọng số cho mỗi thuật ngữ truy vấn. Sự tính
toán của trọng số này dựa vào sự tồn tại của một gán nhãn các tài liệu liên
quan. Nó được chú thích trong [Rob04] rằng sự vắng mặt của thông tin này,
biểu thức giảm tới

, rất giống với trọng số idf.

17

Mô hình tra cứu thông tin xác suất trong hệ thống [RWHB+95]. Để
phân hạng các tài liệu đối với một truy vấn đã cho, hệ thống sử dụng lược đồ
trọng số sau:

Nó giống như trọng số gốc, thêm vào một hằng số 0.5, để đảm bảo
rằng không có giá trị là 0. Để tính điểm, hàm BM25 được sử dụng ở nơi tần
suất thuật ngữ của một thuật ngữ k trong tài liệu di được kết hợp với trọng
số trên sử dụng kết hợp

tik là số lần thuật ngữ k xuất hiện trong di, li là độ dài của di trong khi L
là độ dài trung bình của các tài liệu trong tập hợp, b và K1 là các hằng số điều
khiển sự phi tuyến sự phụ thuộc của điểm số cuối cùng vào tần suất thuật ngữ
và độ dài tài liệu, là các tham số được điều chỉnh cho một tập hợp được cho, c
là một tham số khác của hệ thống.
1.4. Đánh giá
1.4.1 Đánh giá hệ thống tra cứu thông tin
Để đo độ chính xác tra cứu thông tin theo cách chuẩn, chúng ta cần một
tập kiểm tra gồm ba thứ:
1. Một tập tài liệu
2. Một bộ kiểm tra nhu cầu thông tin, có thể biểu diễn như các truy vấn.

3. Một tập các đánh giá liên quan, một đánh giá nhị phân hoặc liên
quan hoặc không liên quan cho mỗi cặp tài liệu truy vấn.

18

Cách tiếp cận chuẩn đối với đánh giá hệ thống tra cứu thông tin xoay
quanh khái niệm về các tài liệu liên quan và không liên quan. Đối với nhu cầu
thông tin của người sử dụng, một tài liệu trong tập kiểm tra được cho trước
một phân lớp nhị phân hoặc liên quan hoặc không liên quan. Quyết định này
được gọi là đánh giá tin cậy nền hoặc chuẩn vàng của liên quan. Tập tài liệu
kiểm tra và bộ các nhu cầu thông tin phải có cơ sở hợp lý: cần hiệu năng trung
bình trên các tập kiểm tra là khá lớn, các kết quả có thể biến thiên cao trên các
nhu cầu thông tin và tài liệu khác nhau. [3].
Liên quan được đánh giá liên hệ đến nhu cầu thông tin, không phải là
một truy vấn. Chẳng hạn, nhu cầu thông tin có thể là:
“Không biết thông tin về uống rượu đỏ giảm nguy cơ đau tim hơn rượu
trắng có đúng không”.
Điều này có thể chuyển sang truy vấn như sau: Rượu AND Đỏ AND
Trắng AND Tim AND Cơn AND Hiệu quả.
Một tài liệu là liên quan nếu nó nói đến nhu cầu thông tin đã được nêu,
không phải vì nó vừa xảy ra để chứa tất cả các từ trong truy vấn. Điều khác
biệt này thường bị hiểu lầm trong thực hành, bởi vì nhu cầu thông tin không
được công khai.
Tuy nhiên, một nhu cầu thông tin hiện diện. Nếu người sử dụng gõ từ
“python” trên một máy tìm kiếm web, họ có thể muốn biết nơi có thể mua
một con Trăn. Hoặc họ có thể muốn thông tin về ngôn ngữ lập trình Python.
Khi truy vấn một từ, rất khó để hệ thống biết rõ nhu cầu thông tin là gì. Tuy
nhiên, người sử dụng có thể đánh giá các kết quả trả về dựa trên cơ sở phản
hồi của hệ thống. Để đánh giá một hệ thống, chúng ta đòi hỏi công khai nhu

cầu thông tin, có thể được sử dụng cho đánh giá các tài liệu trả về là liên quan

19

hay không liên quan. Ở điểm này, chúng ta đơn giản hóa: các tài liệu liên
quan có thể được xem như là một tỉ lệ, với một số tài liệu liên quan cao và số
khác ở ranh giới (biên). Tuy nhiên giả sử rằng, chúng ta sẽ sử dụng một quyết
định nhị phân về liên quan [3].
1.4.2 Đánh giá các tập tra cứu không được phân hạng
Những thành phần này được cho trước, độ chính xác hệ thống đo như
thế nào? Hai độ đo cơ sở và thường được sử dụng nhất cho độ chính xác tra
cứu là triệu hồi và độ chính xác. Đây là lần đầu tiên được xác định cho
trường hợp đơn giản nơi một hệ thống tra cứu trả về một tập các tài liệu cho
một truy vấn.
Độ chính xác của P - Precision (P) là phần của các tài liệu được tra cứu
có liên quan
Precision 

so cac muc lien quan duoc tra cuu
tong so cac muc duoc tra cuu

Triệu hồi của R - Recall(R) là phần của các tài liệu liên quan được tra cứu
Recall 

so cac muc lien quan duoc tra cuu
tong so cac muc tra cuu

Các khái niệm này có thể được tạo ra bởi việc kiểm tra bảng dưới

Được tra cứu
Không được tra cứu

Liên quan
Khẳng định đúng
(tp)
Phủ định sai (fn)

Không liên quan
Khẳng định sai (fp)
Phủ định đúng (tn)

Thì:
P  tp /(tp  fp)
R  tp /(tp  fn)

20

Một thay thế rõ ràng có thể tìm thấy đối với người đọc là phán xét một
hệ thống tra cứu thông tin bởi độ chính xác của nó, tức là phần của các phân
lớp của nó là đúng. Dưới dạng bảng ở trên, độ chính xác=
(tp  tn) /(tp  fp  fn  tn) .

Một độ đo khác dựa trên độ chính xác và triệu hồi là F measure, đó là
trung bình điều hòa có trọng số của chính xác và triệu hồi:
1

F



1
1
 (1   )
p
R



(  2  1) PR
1
trong do  2 
2
 PR


Ở đây α[0,1] và vì thế 2 [0,]. F measure được cân bằng ngầm
định gán trọng số độ chính xác và triệu hồi bằng nhau, nó có nghĩa là tạo
α=1/2 hoặc =1. Nó được viết bằng F1(viết tắt F=1), thậm chí dù công thức
dưới dạng α thể hiện minh bạch hơn F measure bằng trung bình điều hòa
trọng số. Khi sử dụng =1, công thức đơn giản thành:
F 1 

2 PR
PR

Tuy nhiên, một trọng số chẵn không là lựa chọn, các giá trị của <1
nhấn mạnh độ chính xác, trong khi các giá trị của >1 nhấn mạnh triệu hồi.
Chẳng hạn, giá trị của =3 hoặc =5 có thể được sử dụng nếu triệu hồi được

nhấn mạnh. Triệu hồi, chính xác và F measure là các độ đo nằm giữa 0 và 1,
nhưng chúng cũng rất hay được viết bằng phần trăm trên tỉ lệ giữa 0 và 100.
Tại sao chúng ta sử dụng trung bình điều hòa hơn trung bình đơn giản
hơn? Nhớ rằng chúng ta có thể nhận 100% triệu hồi bằng việc trả về tất cả các
tài liệu và do đó chúng ta có thể luôn nhận được 50% phương tiện số học bởi
cùng quá trình. Điều này gợi ý rằng phương tiện số học là một độ đo không
phù hợp. Ngược lại, nếu chúng ta giả sử rằng 1 tài liệu trong 10,000 là liên

21

quan đến truy vấn, trọng số trung bình điều hòa của chiến lược này là 0.02%.
trung bình điều hòa luôn nhỏ hơn hoặc bằng trung bình số học và trung bình
hình học.Khi các giá trị của hai số khác nhau nhiều, trung bình điều hòa gần
với cực tiểu của nó hơn trung bình số học của nó
1.5.Phản hồi liên quan trong tra cứu thông tin
Phản hồi liên quan (RF – Relevance Feedback) với ý tưởng chính là
bao gồm người dùng tham gia vào quá trình tra cứu để cải tiến tập kết quả
cuối cùng. Nghĩa là người dùng đưa phản hồi về sự liên quan của các tài liệu
trong một tập các kết quả ban đầu. Các bước cơ bản trong thủ tục phản hồi
liên quan là:
- Người dùng tạo một truy vấn.
- Hệ thống trả lại một tập các kết quả tra cứu ban đầu.
- Người dùng đánh dấu một số tài liệu được trả về là liên quan hoặc
không liên quan.
- Hệ thống tính toán một biểu diễn tốt nhất của nhu cầu thông tin (IN –
Information Need) dựa trên phản hồi của người dùng.
- Hệ thống hiển thị một tập các kết quả tra cứu được hiệu chỉnh (tương
ứng với các thông tin phản hồi).

22

Hình 1.3: Phản hồi liên quan
Phản hồi liên quan có thể đi qua một hay nhiều vòng lặp thủ tục này.
Quá trình sử dụng ý tưởng có thể khó để trình bày một truy vấn tốt khi chúng
ta không biết toàn bộ tập tài liệu, nhưng dễ đánh giá các tài liệu cụ thể. Trong
ngữ cảnh như thế, phản hồi liên quan hiệu quả trong theo dõi phát triển nhu
cầu thông tin của người dùng: Người dùng xem một số thông tin và lựa chọn
theo sự hiểu biết của mình về thông tin của người không biết toàn bộ tập.
Ví dụ 1.1 về phản hồi liên quan:
Tìm kiếm ảnh cung cấp một ví dụ tốt về phản hồi liên quan. Không chỉ
dễ xem kết quả trong khi làm việc mà còn là lĩnh vực người dùng có thể
thường có các trình bày khó bằng từ, nhưng có thể dễ chỉ ra các ảnh liên quan
hay không. Sau khi người dùng nhập vào một truy vấn khởi tạo là bike. Các
kết quả ban đầu được trả về (trong trường hợp này là các ảnh). Trong Hình
1.4.a, người dùng chọn một số ảnh liên quan. Các ảnh liên quan này sẽ được
sử dụng để tinh chỉnh truy vấn, trong khi các kết quả khác không ảnh hưởng

23

đến việc trình bày lại truy vấn. Hình 1.4.b, chỉ ra các kết quả được phân hạng
ở trên theo thứ tự mới được tính sau vòng phản hồi liên quan.

Hình 1.4.a: Phản hồi liên quan tìm kiếm trên các ảnh - người dùng xem các kết
quả truy vấn ban đầu của truy vấn bike, lựa chọn kết quả đầu tiên, thứ 3 và thứ 4 ở
hàng đầu và kết quả thứ 4 ở hàng cuối cùng là có liên quan và gửi phản hồi này.

Hình 1.4.b: Phản hồi liên quan tìm kiếm trên các ảnh - người dùng xem tập kết quả

được hiệu chỉnh. Độ chính xác được cải tiến rất nhiều

24

Nghiên cứu tra cứu thông tin tiếng việt với phản hồi liên quan

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về