Tải bản đầy đủ (.pdf) (53 trang)

Hệ thống phân tích thông tin phản hồi về sản phẩm của khách hàng trên website thương mại (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (926.3 KB, 53 trang )

1

MỞ ĐẦU
Phân tích tâm lý đối tượng (Sentiment analysis) - là một chủ đề thách thức
trong học máy (Machine Learning - ML).
Mọi người thể hiện cảm nhận của mình thông qua ngôn ngữ tự nhiên có bản
chất nhập nhằng, mơ hồ đã gây không ít khó khăn cho việc xử lý để máy tính hiểu.
Chưa kể, họ sử dụng các cách chơi chữ, ẩn ý hay các kí hiệu như “:), :(, =)” để giải bày
cảm xúc của họ.
Đặt biệt là những cảm nhận, cảm xúc, ngôn từ mà đối tượng thể hiện trên các
diễn đàn, mạng xã hội, website… đều là những nguồn thông tin quý giá để có thể phân
tích, tổng hợp, phán đoán được tâm lý, nhu cầu, cảm xúc của đối tượng đó.
Trong thời đại của công nghệ thông tin ngày nay, nhất là thương mại điện tử,
mọi người có cơ hội chia sẽ những ý kiến, quan điểm của mình, đưa các bài đánh giá
và diễn đạt quan điểm của họ về các sản phẩm. Một cá nhân nếu muốn mua một sản
phẩm, cá nhân đó không nhất thiết phải giới hạn tham khảo thông tin từ báo chí, nhà
cung cấp sản phẩm, bạn bè và gia đình nữa bởi vì có nhiều người cùng đánh giá sản
phẩm trên Website đó đưa những ý kiến liên quan đến việc sử dụng sản phẩm. Đây là
nguồn thông tin quan trọng, cung cấp cho người mua sản phẩm có cái nhìn toàn diện,
bao quát và chính xác hơn về một sản phẩm mà họ định mua. Còn đối với nhà sản
xuất, đánh giá của khách hàng là cơ sở để tiến hành cải tiến, hoàn thiện sản phẩm của
mình, đồng thời giúp cho việc tổ chức các chiến lược marketing hiệu quả hơn.
Tuy nhiên, việc tìm kiếm những nguồn ý kiến, đánh giá và giám sát thông tin
phản hồi trên Website vẫn là một công việc hết sức khó khăn bởi vì có một số lượng
lớn những nguồn khác nhau và mỗi nguồn còn có số lượng lớn văn bản ý kiến hoặc
cảm nghĩ. Trong nhiều trường hợp, các ý kiến thường ẩn bên trong những bài viết dài
dòng, những biểu tượng cảm xúc phức tạp, đa ngôn ngữ. Điều đó gây khó khăn cho
việc tìm kiếm các nguồn thông tin liên quan, chính xác, trích lọc những câu liên quan


2



đến quan điểm đánh giá, đọc, tóm tắt và tổ chức chúng thành dạng có thể sử dụng
được.
Do đó, việc nghiên cứu phát triển một hệ thống tự động là cần thiết trong việc
phát hiện, tổng hợp và phân loại các ý kiến, phản hồi từ người dùng. Đây là một bài
toán lớn, nhiều thách thức trong lĩnh vực xử lý ngôn ngữ tự nhiên và khai phá văn bản.
Và đó là lý do, cũng là mục đích để tôi chọn đề tài “Hệ Thống Phân Tích
Thông Tin Phản Hồi Về Sản Phẩm Của Khách Hàng Trên Website Thương Mại” làm
đề tài luận văn thạc sĩ của mình.


3

Chương 1 - TỔNG QUAN
Chương này sẽ tập trung vào việc khảo sát Máy Học (Machine Learning - ML)
trong Xử Lý Ngôn Ngữ Tự Nhiên (Natural Language Processing - NLP) và một số
công trình nghiên cứu liên quan. Trên cơ sở đó chỉ ra những vấn đề mà luận văn cần
hướng đến.

1.1. Giới thiệu tổng quan
Trong những năm gần đây, Máy Học đang trở thành một phần không thể thiếu
trong quá trình xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP). Từ việc
xây dựng các tập qui tắc bằng tay đòi hỏi rất nhiều công sức, thời gian và chi phí. Các
nghiên cứu đang hướng đến việc sử dụng cơ sở dữ liệu lớn (Big Data) để tự động
(hoặc bán tự động) sinh ra các qui tắc đó. Phương pháp này đã và đang thu được
những kết quả vô cùng khả quan trong nhiều lĩnh vực khác nhau của NLP, đặc biệt ở
lĩnh vực kinh tế thị trường cạnh tranh khóc liệt ngày nay.
Các doanh nghiệp hiện nay đang đối mặt với “cơn lũ” dữ liệu về mọi mặt:
Feedback của khách hàng, thông tin đối thủ cạnh tranh, emails của khách hàng, tweets,
thông tin họp báo, hồ sơ pháp lý, các văn bản về sản phẩm và kĩ thuật…Việc khai thác

được những dữ liệu này là điểm mấu chốt để các doanh nghiệp có thể triển khai nhanh
chóng các quyết định của mình so với đổi thủ cạnh tranh.
Vậy vấn đề ở đây là gì? Có quá nhiều thông tin để xử lý cùng lúc (hơn 85% dữ
liệu trên thế giới không có cấu trúc) và kích thước dữ liệu ngày càng tăng. Đối với
nhiều doanh nghiệp, điều này là bất khả thi để điều động nhân sự đọc tất cả mọi thứ
được cho là quan trọng (các khách hàng đang nói gì về sản phẩm, những đối thủ cạnh
tranh đang làm gì …).
Được xây dựng trên ngôn ngữ phức tạp, các nguyên lý thống kê và thuật toán
mạng nơ ron (Neural NetWork Algorithms). Chương trình xử lý ngôn ngữ tự nhiên
(NLP) sẽ giúp máy tính làm thay những việc trên cho các doanh nghiệp. NLP có khả
năng đọc và hiểu được văn bản với tốc độ cao. Do đó, dù bạn có 1000 tài liệu hay


4

thậm chí hàng tỉ văn bản, chương trình NLP có thể “tiêu hóa” nhanh chóng tất cả các
thông tin này, từ đó có thể rút trích ra được những tri thức (Knowledge) đáng giá cho
doanh nghiệp như: tri thức về các khách hàng, tri thức về những đối thủ cạnh tranh, tri
thức về cá hoạt động trong doanh nghiệp như điều hành, marketings, sales, kĩ thuật và
sản phẩm.
Thông qua các thuật toán tiên tiến, NLP chỉ ra được ai, cái gì, khi nào và ở đâu
trong những nội dung phi cấu trúc, từ đó có thể cung cấp các cấp độ hiểu biết cao hơn
về công việc kinh doanh của doanh nghiệp.
Trong ngữ cảnh hẹp của luận văn, bài toán Phân Tích Phản Hồi Về Sản Phẩm
Của Khách Hàng Trên Website Thương Mại (Amazon và Lazada) có thể được xem
như là bài toán phân lớp. Công việc phân tích văn bản tự động là phân loại văn bản
theo hướng tích cực hay tiêu cực. Nhiều kỹ thuật máy học và khai khoáng dữ liệu được
áp dụng vào bài toán phân loại văn bản. Ví dụ như:
 Cây quyết định (Decision Tree).
 Phương pháp phân loại dựa vào thuật toán Naive Bayes.

 K- láng giềng gần nhất (K-Nearest Neighbors - KNN).
 Mạng nơ ron nhân tạo (Artificial Neural Network).
 Support Vector Machine (SVM).
Vấn đề phân loại văn bản thu hút sự quan tâm của nhiều nhà nghiên cứu trên
thế giới, tiêu biểu có thể kế đến các công trình nghiên cứu như:
 “Text classification using machine learning” (Mohammed.Andul.Wajeed)
[13].
 “Machine Learning in Automated Text Categorization” (Fabrizio Sebastiani
(2002)) [8].
Và các ứng dụng của NLP vào lĩnh vực kinh tế như:


5

 Tiếp thị (Marketing): phân tích giọng nói, nghiên cứu thị trường, phân tích khảo
sát …
 Những ứng dụng mail: một trong những tính năng cơ bản nhưng rất quan trọng
trong các hệ thống mail là khả năng tự động xác định các thư rác, thư quảng
cáo. Đây là một ví dụ điển hình của bài toán phân loại văn bản tự động.
 Kinh doanh (Business): trí tuệ cạnh tranh, phân tích tâm lý, phân loại tài liệu,
phân tích rủi ro …
 Công nghiệp riêng: phát hiện gian lận, nghiên cứu y khoa …

1.1.1.

Mục tiêu nghiên cứu
Xây dựng được hệ thống phát hiện, thu thập, tổng hợp và phân loại các ý kiến,

phản hồi từ người dùng (khách hàng). Phục vụ cho việc tổng hợp, xem xét, đánh giá,
và phân tích kinh doanh sản phẩm của một website thương mại điện tử.

Các yêu cầu cụ thể của hệ thống:
 Thu thập được thông tin phản hồi từ khách hàng trên website thương mại điện
tử.
 Phân tích tỉ lệ % độ tích cực của các phản hồi đã thu thập được.

1.1.2.

Đối tượng và phạm vi nghiên cứu

 Đối tượng nghiên cứu:
o Nghiên cứu các chức năng cơ bản của một hệ thống truy hồi thông tin.
o Nghiên cứu kỹ thuật web crawler.
o Nghiên cứu các thuật toán phân loại văn bản.
o Khảo sát dựa vào nguồn thông tin ý kiến, phản hồi và đánh giá sản
phẩm từ khách khàng trên website thương mại điện tử mà hệ thống
thu thập được.
 Phạm vi nghiên cứu:


6

o Đầu vào: nguồn thông tin ý kiến, phản hồi về sản phẩm từ các người
dùng (khách hàng) mà hệ thống thu thập được. Định dạng là văn bản
tiếng Anh và tiếng Việt.
o Đầu ra: kết quả % độ tích cực phản hồi từ khách hàng trên website
Amazon (amazon.com) và Lazada (lazada.vn) từ nhiều thuật toán.
 Những vấn đề luận văn quan tâm
o Truy hồi thông tin.
o Phân loại văn bản.
o Cách đánh giá độ tích cực văn bản từ một số thuật toán.


1.1.3.

Ý nghĩa của luận văn
Luận văn đưa ra cách thức và triển khai ứng dụng phân loại, đánh giá phản hồi

của người dùng, hỗ trợ doanh nghiệp nắm bắt chính xác và kịp thời trong kinh doanh.

1.2. Kết luận chương 1
Chương này đã tổng quát được về Xử Lý Ngôn Ngữ Tự Nhiên (NLP), khảo sát
một số các công trình nghiên cứu trong lĩnh vực truy hồi thông tin, phân loại ngữ
nghĩa văn bản.
Hiểu được một lĩnh vực đầy thách thức trong Machine Learning. Giúp ta cảm
nhận được lợi ích và tầm quan trọng của NLP trong chiến lượt kinh doanh của các
doanh nghiệp trong thời đại kinh tế thị trường cạnh tranh.
Các chương tiếp theo của luận văn sẽ trình bày chi tiết hơn các hướng tiếp cận
trong lĩnh vực này.


7

Chương 2 - CƠ SỞ LÝ THUYẾT
Chương này trình bày về các mô hình truy hồi thông tin và bài toán phân loại
văn bản. Tìm hiểu quá trình thực hiện phân loại văn bản đồng thời khảo sát một số
thuật toán trong lĩnh vực này.

2.1. Truy hồi thông tin
Hệ thống truy hồi thông tin (hay còn gọi là Truy vấn thông tin) là hoạt động thu
thập các nguồn thông tin liên quan đến một thông tin cần tìm kiếm, có thể dựa trên
siêu dữ liệu (metadata) hoặc trên việc đánh chỉ mục toàn văn (hoặc trên nội dung

khác).
Những hệ thống truy hồi thông tin tự động được sử dụng để giảm thiểu “quá tải
thông tin”. Tập trung vào việc truy hồi các tài liệu dựa trên nội dung của các thành
phần không có cấu trúc. Một câu truy vấn của người dùng sẽ mô tả các tính chất của
các thành phần có cấu trúc và không có cấu trúc của tài liệu được truy hồi. Ví như các
trường đại học và thư viện công cộng sử dụng hệ thống truy hồi thông tin để cung cấp
truy cập đến sách báo và các tài liệu khác hoặc các máy tìm kiếm trên web được coi là
những ứng dụng truy hồi thông tin dễ nhận thấy nhất như: google, bing …
Hệ thống truy hồi thông tin tìm kiếm các tài liệu trong một tập cho trước về một
chủ đề nào đó hoặc thỏa mãn một nhu cầu thông tin nào đó. Chủ đề hoặc nhu cầu
thông tin được biểu diễn bởi một câu truy vấn, được phát sinh bởi người dùng. Các tài
liệu thỏa mãn câu truy vấn được xác định bởi người dùng thì được xem là phù hợp.
Các tài liệu không nói về chủ đề được cho trước được xem là không phù hợp. Một hệ
thống truy hồi thông tin có thể sử dụng câu truy vấn để phân loại các tài liệu, trả về
cho người dùng một tập con các tài liệu thỏa mãn các tiêu chuẩn phân loại. Tỉ lệ các
tài liệu trả về cho người dùng được người dùng kết luận là phù hợp càng cao thì nghĩa
là các tiêu chuẩn phân loại càng tốt.


8

Ngoài ra, một hệ thống truy hồi thông tin còn có thể xếp hạng các tài liệu. Tài
liệu D1 xếp hạng cao hơn trong câu truy vấn Q so với tài liệu D2 có thể được hiểu là tài
liệu D1 thỏa mãn câu truy vấn Q nhiều hơn tài liệu D2. Điều này cũng tương đương với
việc tài liệu D1 đúng với nhu cầu thông tin của người dùng nhiều hơn tài liệu D2.
Khái niệm “phù hợp” là một khái niệm mấu chốt trong hệ thống truy hồi thông
tin. “Phù hợp” là một khái niệm mang tính chất chủ quan trong ngữ cảnh sự hài lòng
của người dùng về những tài liệu truy hồi được cho câu truy vấn của họ là mục tiêu tối
hậu. Do đó, sự phán xét của người dùng về việc các tài liệu truy hồi được có thỏa mãn
câu truy vấn của họ hay không trở thành tiêu chuẩn của khái niệm “phù hợp”. Ngoài

yếu tố câu truy vấn và tập tài liệu thì ngữ cảnh cũng đóng một vai trò quan trọng ảnh
hướng đến khái niệm “phù hợp”. Mỗi người dùng có thể sẽ có những nhu cầu cá nhân
khác nhau, sở thích khác nhau, kiến thức khác nhau, chuyên môn khác nhau, ngôn ngữ
khác nhau,… Do đó, một tài liệu được truy hồi cho một câu truy vấn có thể “phù hợp”
với người dùng A nhưng có thể “không phù hợp” vời người dùng B. Một hướng tiếp
cận để giải quyết vấn đề này là tổ chức lưu trữ những thông tin cá nhân của người
dùng ảnh hưởng đến việc truy hồi thông tin như: sở thích, kiến thức, chuyên môn,
ngôn ngữ,… từ đó làm cơ sở để truy hồi những tài liệu “phù hợp” nhất đối với người
dùng.
Để đo đạc sự hiệu quả của hệ thống truy hồi thông tin, có 2 độ đo là độ chính
xác và độ phủ, cả 2 độ đo này đều dựa trên khái niệm “phù hợp”. Độ chính xác được
định nghĩa là tỉ lệ các tài liệu phù hợp được truy hồi trên tổng số tài liệu được truy hồi
hoặc xác suất một tài liệu được truy hồi là phù hợp. Độ phủ được định nghĩa là tỉ lệ
các tài liệu phù hợp được truy hồi trên tổng số các tài liệu phù hợp hoặc xác suất một
tài liệu phù hợp được truy hồi. Giữa 2 độ đo này tồn tại một sự đánh đổi. Nếu một hệ
thống truy hồi thông tin truy hồi tất cả tài liệu trong tập thì nó chắc chắn truy hồi tất cả
tài liệu phù hợp, lúc này độ phủ đạt giá trị tối đa nhưng độ chính xác sẽ rất thấp và
ngược lại. Giả định thông thường là người dùng muốn hệ thống truy hồi thông tin đạt
được sự kết hợp tối ưu giữa độ chính xác và độ phủ nghĩa là người dùng mong muốn


9

truy hồi tất cả những tài liệu phù hợp và không có bất kì tài liệu không phù hợp nào
được truy hồi. Nhưng sự giả định này cũng dẫn tới một số điều bất cập. Có những
trường hợp người dùng chỉ muốn một tập nhỏ trong tập khổng lồ các tài liệu phù hợp.
Tập các tài liệu phù hợp có thể chứa đựng sự dư thừa, một vài tài liệu trong tập tài liệu
phù hợp có thể cung cấp đầy đủ thông tin mà người dùng cần. Người dùng có thể cần
tìm kiếm các chứng cứ để hỗ trợ cho giả thuyết hoặc làm giảm độ bất định của giả
thuyết, trong trường hợp này một vài tài liệu phù hợp cũng có thể cung cấp cho người

dùng các chứng cứ. Người dùng cũng có thể chỉ cần những tài liệu được cập nhật gần
đây nhất chứ không cần các tài liệu cũ, ví dụ như tài liệu về thông tin giá cả thị trường
về một vài sản phẩm. Nhìn chung, thông thường sẽ có nhiều tập con các tài liệu phù
hợp mà mỗi tập sẽ làm hài lòng yêu cầu của người dùng. Ngoài ra, 2 tài liệu phù hợp
có thể trình bày góc nhìn đối lập nhau về một số vấn đề quan tâm của người dùng, vì
vậy mà người dùng có thể nhầm lẫn nghiêm trọng nếu chỉ nhìn vào một vài tài liệu
phù hợp.
Trong thực tế, một số người dùng quan tâm hơn tới độ chính xác vì họ chỉ
muốn duyệt qua các tài liệu phù hợp mà không muốn phải duyệt qua quá nhiều tài liệu
không phù hợp. Một số người dùng khác thì quan tâm tới độ phủ hơn vì họ muốn
duyệt càng nhiều tài liệu liên quan càng tốt. Do đó, Van Rijsbergen đã đề xuất độ đo E
(Effectiveness), để biểu diễn sự quan hệ giữa độ chính xác và độ phủ [2]:
E  1

1
1
1
 ( )  (1   )( )
P
R

với P là độ chính xác, R là độ phủ và a là tham số biến thiên từ 0 đến 1
 α = 0 người dùng không quan tâm đến độ chính xác.
 α = 0.5 người dùng quan tâm đến độ chính xác và độ phủ như nhau.
 α = 1 người dùng không quan tâm đến độ phủ.


10

Tổng quan các hướng tiếp cận truy hồi thông tin


2.1.1.

Có 2 hướng tiếp cận truy hồi thông tin chính là ngữ nghĩa và thống kê. Các cách
tiếp cận ngữ nghĩa cố gắng thực hiện một số mức độ phân tích cú pháp và ngữ nghĩa.
Trong các cách tiếp cận thống kê, các tài liệu được truy hồi là các tài liệu được xếp thứ
hạng cao, nghĩa là có mức độ phù hợp với câu truy vấn cao dựa trên độ đo thống kê
nào đó.
Các hướng tiếp cận thống kê rơi vào một trong các mô hình sau: boolean,
boolean mở rộng, vector space và xác suất. Các hướng tiếp cận thống kê chia các tài
liệu và các câu truy vấn thành các “term”. Các “term” có tính chất phổ biến, được đếm
và đo đạc dựa vào thống kê. Các “term” là các từ xuất hiện trong một câu truy vấn cho
trước hoặc tập các tài liệu.
Các từ thường xuất hiện dưới dạng chưa được xử lý, các từ phải qua bước xử lý
“stemmed” để nhận được từ gốc. Mục đích của quá trình này là loại trừ các biến thể
xuất hiện do các thể văn phạm khác nhau của một từ. Ví dụ: “retrieve”, “retrieved”,
“retrieves”. Các từ trong ví dụ trên cần được nhận diện là các thể của cùng một từ. Vì
vậy, người dùng đưa ra câu truy vấn cần phải xác định các thể có thể có của một từ mà
họ cho rằng có thể xuất hiện trong tài liệu mà họ đang tìm kiếm. Tuy nhiên, trong tiếng
Việt, các từ không có “stemming”, do đó không cần quá trình “stemmed” để tiền xử lý
văn bản.
Một quá trình khác trong khâu tiền xử lý văn bản là loại bỏ các từ dùng chung
không có nghĩa, các từ này gọi là “stop word”. Các công cụ thu thồi thông in
(Information Retrieval - IR) thường cung cấp một “stop list” để loại bỏ những từ hay
xuất hiện trong câu nhưng không góp phần vào quá trình học của hệ thống khi tiền xử
lý văn bản. Trong tiếng Việt, có nhiều “stop word”, ví dụ như: “bị”, “bởi”, “càng”,
“ôi”, “than ôi”, “trời ơi”,… Trong tiếng Anh như: “and”, “is”, “the”,…
“Stemming” và “stop word” phụ thuộc vào ngôn ngữ, từng ngôn ngữ khác nhau
sẽ có các dạng “stemming” và các “stop word” khác nhau.



11

Một số công cụ tinh vi có thể trích các “cụm từ” như là các “term”. Một cụm từ
là sự kết hợp của các từ đứng liền kề và có thể được xác định thông qua tần số của việc
đồng thời xuất hiện trong tập cho trước hoặc được xác định bằng cách dùng từ điển.
Các trọng số thường được gán cho các “term” trong tài liệu và trong câu truy
vấn. Một trọng số được gán cho một “term” trong một tài liệu có thể khác với trọng số
được gán cho chính “term” đó nhưng trong tài liệu khác. Trọng số thường là độ đo về
sự hiệu quả của “term” thường được dùng trong việc phân biệt các tài liệu trong tập
cho trước. Trọng số thường được chuẩn hóa để nằm trong đoạn [0..1]. Trọng số cũng
có thể được gán cho “term” trong câu truy vấn. Trọng số của “term” trong câu truy vấn
thường là độ đo về tầm quan trọng của “term” trong việc tính toán độ phù hợp giữa
câu

truy

vấn



tài

liệu.

Cũng

như

với


các

tài

liệu,

một

“term” cũng có thể có các trọng số khác nhau trong các câu truy vấn khác nhau. Trọng
số của các “term” trong câu truy vấn cũng thường được chuẩn hóa nằm trong đoạn
[0..1].
Theo hướng tiếp cận thống kê thì một tài liệu thường được biểu diễn dưới dạng
một tập hợp các từ khóa độc lập nhau. Hướng tiếp cận thống kê thường được dùng cho
việc biểu diễn các tài liệu mà không xét đến hình thái của từ, thứ tự của các từ hay vị
trí xuất hiện của từ trong tài liệu cũng như các mối quan hệ ngữ nghĩa giữa chúng, do
đó cách biểu diễn này mang mức độ thông tin thấp và nếu nhìn dưới góc nhìn của ngôn
ngữ học thì đã không xử lý các biến thể về mặt ngôn ngữ học của các từ như biến thể
về hình thái học, biến thể về từ vựng học, biến thể về ngữ nghĩa học và biến thể về cú
pháp học. Hướng tiếp cận ngữ nghĩa có thể giải quyết các vấn đề trên. Một số hướng
tiếp cận theo ngữ nghĩa như: hướng tiếp cận xử lý ngôn ngữ tự nhiên, hướng tiếp cận
ontology.

2.1.2.

Truy hồi thông tin theo hướng thống kê


12


2.1.2.1.

Mô hình Boolean [3]

Mô hình Boolean dựa trên lý thuyết tập hợp và đại số logic. Câu truy vấn được
phân tích thành các từ khóa truy vấn. Các tài liệu được đánh giá bởi việc có chưa hoặc
không chứa các từ khóa truy vấn.
Trong mô hình Boolean, câu truy vấn được xây dựng như là sự kết hợp các giá
trị boolean của các term, nghĩa là xác định các điều kiện có term xuất hiện hoặc không
có term xuất hiện. Một câu truy vấn điển hình sử dụng các toán tử AND, OR và NOT.
Câu truy vấn “t1 AND t2” sẽ được thỏa mãn bởi tài liệu D1 nếu và chỉ nếu D1 chứa cả
term t1 và term t2. Tương tự, câu truy vấn “t1 OR t2” sẽ được thỏa mãn bởi tài liệu D1
nếu và chỉ nếu D1 chứa term t1 hoặc chứa term t2 hoặc chứa cả 2. Câu truy vấn “t1
AND NOT t2” được thỏa mãn bởi tài liệu D1 nếu và chỉ nếu D1 chứa t1 và không chứa
t2. Các câu truy vấn phức tạp hơn có thể được xây dựng từ nhiều toán tử hơn và được
tính toán theo quy tắc của đại số Boolean. Khi xem xét một tài liệu D1 có phù hợp với
câu truy vấn q thì chỉ có 2 khả năng có thể xảy ra: D1 phù hợp với q hoặc D1 không
phù hợp với q. Do đó, không thể xếp hạng các tài liệu. Trong trường hợp có stemming,
một câu truy vấn yêu cầu phải có từ “retrieve” sẽ được thỏa mãn bởi các tài liệu có các
từ “retrieval”, “retrieves”,…
Mô hình Boolean có thể được áp dụng vào các hệ thống truy hồi thông tin với
một số tinh chỉnh:
 Thứ nhất, truy vấn có thể được áp dụng cho một thành phần cú pháp đặc biệt
của mỗi tài liệu, ví dụ điều kiện boolean có thể được áp dụng cho tiêu đề hoặc
phần tóm tắt.
 Thứ hai, bổ sung thêm một toán tử boolean vào tập hợp ban đầu, ví dụ như toán
tử “proximity” dùng để xác định độ gần nhau giữa hai term trong đoạn văn bản.
Toán tử này có thể chỉ ra rằng hai term không chỉ cùng xuất hiện trong tài liệu
đang xét mà còn cách nhau trong phạm vi n từ (n = 0 nghĩa là hai từ đứng liền
kề nhau).



13

 Thứ ba, mô hình boolean cổ điển có thể được xem như là một cách thức thô sơ
để biểu diễn những cụm từ và những mối quan hệ đồng nghĩa (gần nghĩa). Ví
dụ, t1 AND t2 có thể biểu diễn cho một cụm từ gồm 2 term t1 và t2 liên kết với
nhau hay t1 OR t2 có thể biểu diễn cho quan hệ đồng nghĩa giữa 2 term. Thực tế,
đã có nhiều hệ thống sử dụng ý tưởng này để xây dựng những điều kiện
boolean mở rộng một cách tự động, ví dụ, cho một tập hợp các term truy vấn
được cung cấp bởi người dùng, một biểu thức boolean được tạo lập bằng cách
dùng các toán tử AND, OR liên kết các term truy vấn với những từ đồng nghĩa
tương ứng đã được lưu trữ trước.
Cách tiếp cận Boolean điển hình không sử dụng “term weights”, mà chỉ sử dụng
2 giá trị nhị phân là 0 và 1. Giá trị 0 nghĩa là term không xuất hiện và giá trị 1 nghĩa là
term có xuất hiện. Mô hình Boolean có thể được xem như là một cách đơn giản để
biểu diễn các cụm từ hoặc các mối quan hệ từ điển. Ví dụ, câu truy vấn “t 1 AND t2”
mang ý nghĩa là cả t1 và t2 phải xuất hiện, một điều kiện có thể được áp dụng nếu 2
term hình thành một cụm từ. Nếu một toán tử “priximity” được triển khai, điều kiện
boolean có thể được thiết lập để biểu diện rằng t2 phải theo ngay sau t1, nghĩa là t1 và t2
hình thành một cụm từ. Tương tự, câu truy vấn “t1 OR t2” mang ý nghĩa là t1 xuất hiện
hoặc t2 xuất hiện hoặc cả t1 và t2 xuất hiện. Điều này cũng tương đương với việc biểu
diễn t1 và t2 là tương được nhau hoặc t1 và t2 là cùng một lớp trong từ điển.
Tóm lượt như sau:
T = { t1, t2, …, tn} là tập tất cả các từ khóa (từ điển).
D = { D1, D2, …, Dn} là tập tất cả các tài liệu.
trong đó D1 = { d1, d2, …, di} là một tài liệu chứa di là một từ khóa.
Q = (W1 OR W2) AND … AND (Wm OR Wn OR Wp) là câu truy vấn (dữ liệu
vào)
trong đó W1 = Ti hoặc W1 = NOT Ti

Những tài liệu cần tìm là các tài liệu có chứa hoặc không chứa Wi:


14

Sij = { 0 nếu Wi không thuộc Dj; 1 nếu Wi thuộc Dj }
Ưu điểm của mô hình Boolean:
 Đơn giản, dễ hiểu, dễ cài đặt và sử dụng.
 Mô hình lý thuyết chặt chẽ, rõ ràng.
 Trả về những kết quả chứa chính xác các từ khóa tìm kiếm.
Hạn chế của mô hình Boolean:
 Không xếp hạng, không xác định được mức độ liên quan giữa tài liệu và câu
truy vấn.
 Đặc tính ALL – OR – NOTHING, hệ thống chỉ xác định hai trạng thái là tài
liệu có liên quan hoặc không liên quan với câu truy vấn nên kết quả trả về hoặc
là quá nhiều hoặc không có gì cả. Do đó, hiệu quả truy tìm không cao.
 Mối quan hệ giữa các term hay thứ tự giữa chúng không được xét đến.
 Việc chuyển một câu truy vấn của người dùng sang dạng biểu thức Boolean
không đơn giản, người dùng sẽ gặp khó khăn trong việc xây dựng các biểu thức
truy vấn boolean.
Khi đã bổ sung thêm toán tử “proximity” thì điều kiện boolean vẫn là đúng hoặc
sai, hoặc nói cách khác là điều kiện boolean mang tính chất “tất cả hoặc không có gì”
(all – or – nothing ) dẫn tới trường hợp là hệ thống có thể tìm thấy một số lượng lớn tài
liệu liên quan hoặc là không có tài liệu nào. Hơn nữa, trong trường hợp câu truy vấn
bao gồm nhiều term liên kết với nhau bởi toán tử OR, một tài liệu có chứa tất cả (hay
nhiều) term truy vấn cũng không được xem là tốt hơn so với một tài liệu chỉ chứa một
term. Tương tự, trong trường hợp với toán tử AND, một tài liệu chứa được gần hết các
term vẫn được xem là không phù hợp giống như một tài liệu không chứa term nào. Từ
những hạn chế nêu trên, nhiều mô hình boolean mở rộng đã được nghiên cứu phát
triển nhằm sắp hạng kết quả trả về. Những mô hình này sử dụng nhiều toán tử boolean

mở rộng khác.


15

Các toán tử boolean mở rộng sử dụng việc gán các trọng số cho các term trong
mỗi tài liệu. Một toán tử boolean điển hình đánh giá các đối số và trả về giá trị true
hoặc false. Các giá trị này thường được biểu diễn dưới dạng số học là 0 hoặc 1, 1
tương ứng với true, 0 tương ứng với false. Một toán tử boolean mở rộng đánh giá các
đối số của nó bằng một giá trị nằm trong khoảng từ 0 đến 1, dựa trên độ phù hợp của
tài liệu đối với câu truy vấn.
Mô hình “p-norm” [14] là một trong những mô hình Boolean mở rộng điển
hình. Trong những điều kiện nhất định, thì độ hiệu quả của “p-norm” đạt cao hơn một
số mô hình Boolean mở rộng khác. Cho một câu truy vấn bao gồm n term t1,t2,…,tn
với các trọng số tương ứng là wq1, wq2,…, wqn và một tài liệu D với các trọng số tương
ứng là wd1, wd2,…, wdn cho n term. Mô hình “p-norm” định nghĩa công thức độ tương
tự cho các toán tử AND mở rộng và các toán tử OR mở rộng. Công thức AND mở
rộng tính toán độ tương tự của tài liệu cho trước với một câu truy vấn được xây dựng
bằng cách AND các term lại với nhau. Tương tự, công thức OR mở rộng tính toán độ
tương tự của tài liệu cho trước với một câu truy vấn được xây dựng bằng cách OR các
term lại với nhau. Mỗi độ tương tự sẽ được tính toán và cho ra kết quả là một số thuộc
đoạn [0,1]. Các câu truy vấn phức tạp có thể được xây dựng từ các công thứ AND và
OR. Công thức Boolean mổ rộng cho mô hình “p-norm”:
1

p
 n
p
p 
  ((1  wdi )  wqi ) 

 , (1  p  )
SIM AND (d , (t1 , wq1 ) AND... AND(tn , wqn ))  1   i 1
n
p


wqi



i 1



1

p
 n
p
p 
  ( wdi  wqi ) 
 , (1  p  )
SIM OR (d , (t1 , wq1 )OR...OR(tn , wqn ))  1   i 1 n
p


wqi




i 1



Mô hình “p-norm” có một tham số được dùng để tinh chỉnh mô hình là tham số
p. Tham số p có thể biến thiên từ 1 đến dương vô cùng. Khi p nhận giá trị là dương vô


16

cùng thì mô hình “p-norm” tương đương với mô hình Boolean điển hình. Khi p nhận
giá trị là 1 thì mô hình “p-norm” tương đương với mô hình không gian vector nguyên
thủy.
Các toán tử boolean điển hình AND và OR là nhị phân. Các toán tử này nối 2
term lại với nhau. Tuy nhiên, chúng cũng có tính chất kết hợp, ví dụ, t 1 AND (t2 AND
t3) tương đương với (t1 AND t2) AND t3. Điều này không đúng trong mô hình “pnorm” và một số mô hình Boolean mở rộng khác vì mô hình “p-norm” và các mô hình
Boolean mở rộng khác định nghĩa các toán tử boolean mở rộng ví dụ như kết hợp n
term lại thay vì là nhị phân. Do đó biểu thức boolean trên trở thành AND (t 1,t2,t3), biểu
thức này đúng nếu và chỉ nếu cả 3 term t1, t2, t3 đều xuất hiện. Mô hình p-norm hỗ trợ
việc gán các trọng số cho các term trong câu truy vấn cũng như các term trong tài liệu.
Các trọng số là tương đối thay vì tuyệt đối, ví dụ, câu truy vấn (t 1, 1) AND (t2, 1) với
trọng số 1 được gán cho mỗi term thì hoàn toàn tương đương với câu truy vấn (t 1, 0.1)
AND (t2, 0.1) với trọng số 0.1 được gán cho mỗi term. Điều này có được là do mô
hình “p-norm” chuẩn hóa các trọng số. Các trọng số tương đối sẽ tạo ra sự dễ dàng và
gần gũi hơn đối với người dùng. Nó cũng cho phép người dùng dễ dàng hơn trong việc
định nghĩa các quan hệ.
Một mức độ linh động cao hơn có thể đạt được trong mô hình “p-norm” bằng
cách cho phép người dùng gán các giá trị tham số p khác nhau cho mỗi toán tử boolean
trong biểu thức boolean cho trước.


2.1.2.2.

Mô hình không gian vector [4]

Một cách tiếp cận phổ biến để biểu diễn tài liệu và đánh chỉ mục cho mục đích
thống kê là biểu diễn mỗi tài liệu như là một tập các term. Các term thường là các từ
được trích tự động từ các tài liệu, có thể là các cụm từ, n-grams. Thông thường, nếu
các term là các từ được trích từ các tài liệu, các stop word được loại trừ và các từ còn
lại đã được xử lý stemmed do đó chỉ có một dạng ngữ pháp duy nhất của một từ hoặc
một cụm từ được giữ lại. Có thể áp dụng kỹ thuật này cho mỗi tài liệu trong kho , sinh
ra tập các term đại diện cho tài liệu. Nếu kết hợp các tập này lại sẽ thu được tập các


17

term đại diện cho toàn bộ các tài liệu trong kho. Tập các term này được định nghĩa là
không gian trong đó mỗi term đại diện 1 chiều trong không gian.
Mỗi term trong tài liệu có thể được gán một trọng số, đại diện cho sự hiệu quả
của term trong việc mô tả tài liệu, ví dụ, độ hiệu quả của term trong việc phân biệt tài
liệu này với các tài liệu khác trong kho. Một term nhưng xuất hiện trong các tài liệu
khác nhau có thể có các trọng số khác nhau. Một term không xuất hiện trong một tài
liệu thì trọng số là 0 trong tài liệu đó. Trọng số được gán cho các term trong một tài
liệu D1 có thể được xem như là tọa độc của D1 trong không gian tài liệu; nói cách
khác, D1 được biểu diễn như là một điểm trong không gian tài liệu. Tương tự, D 1 cũng
có thể được biểu diễn như là một vector từ góc tọa độ của không gian tài liệu đến điểm
xác định bởi tọa độ của D1.
Trong không gian tài liệu, mỗi tài liệu D1 được định nghĩa bởi trọng số của các
term đại diện cho nó. Đôi khi, người ta định nghĩa một không gian term cho một tập
cho trước. Trong không gian term, mỗi tài liệu là một chiều. Mội điểm (hoặc vector)
trong không gian term là một term trong tập cho trước. Tọa độ của một term cho trước

là trọng số được gán cho term trong mỗi tài liệu mà nó xuất hiện. Tương tự như trong
không gian vector, một term nhận giá trị trọng số 0 nếu nó không xuất hiện trong tài
liệu.
Chúng ta có thể kết hợp không gian tài liệu và không gian term bằng một ma
trận “document-by-term”. Mỗi dòng của ma trận là một tài liệu. Mỗi cột của ma trận là
một term. Phần tử tại dòng i, cột j là trọng số của term j trong tài liệu i.
Một câu truy vấn có thể được tạo ra bởi người dùng dưới dạng một tập các term
với các trọng số. Hoặc một câu truy vấn cũng có thể được tạo ra dưới dạng ngôn ngữ
tự nhiên. Trong trường hợp này, câu truy vấn có thể được xử lý chính xác như một tài
liệu; thực ra, câu truy vấn có thể được xem như là một tài liệu. Do đó, câu truy vấn có
thể được chuyển đổi như là một tài liệu trong không gian tài liệu. Nếu câu truy vấn
chưa các term không tồn tại trong tập thì các term này sẽ là các chiều bổ sung thêm
vào tập.


18

Một câu hỏi quan trọng là làm thế nào trọng số được gán cho các term trong các
tài liệu hoặc trong các câu truy vấn. Nhiều cơ chế đánh trọng số được sử dụng. Cho
một tập lớn các tài liệu, việc đánh trọng số bằng tay đòi hỏi chi phí rất cao. Cơ chế
thành công nhất và được sử dụng rộng rãi cho việc phát sinh trọng số tự động là cơ chế
“term frequency * inverse document frequency”, hay còn được gọi là “tf*idf”. Độ đo
tf là tần số xuất hiện của term trong tài liệu nhất định do đó tf mang tính chất thống kê
trong cục bộ trong tài liệu đó, giá trị tf của cùng một term có thể khác nhau trong các
tài liệu khác nhau, thể hiện độ quan trọng của term đối với từng tài liệu cụ thể. Ngược
lại, độ đo idf mang tính chất thống kê toàn cục, idf đặc trưng cho term trong toàn bộ
tập các tài liệu. Nó cho biết sự phổ biến của term trong tập các tài liệu và xác xuất mà
term đó xuất hiện trong một tài liệu. Độ đo idf được định nghĩa là ln(N/n) với N là số
tài liệu trong tập và n là số tài liệu có chứa term đó. Do đó, nếu có càng ít tài liệu chứa
term A thì giá trị idf của term A càng cao. Nếu tất cả các tài liệu đều chứa term A thì

giá trị idf của term A là 0. Điều này mang ý nghĩa là khi một term xuất hiện trong hầu
hết các tài liệu thì nó sẽ càng mang ít ý nghĩa trong việc phân biệt các tài liệu với nhau.
Ví dụ, trong một tập các tài liệu về khoa học máy tính hoặc về công nghệ phần mềm.
term “computer” hầu như sẽ xuất hiện trong tất cả các tài liệu do đó sẽ không có hiệu
quả nếu dùng term “computer” cho một câu query để xác định xem tài liệu nào là phù
hợp. Nhưng term “computer” lại có thể rất hiệu quả trong câu query để phân biệt giữa
các tài liệu thuộc về lĩnh vực khoa học máy tính với các tài liệu thuộc lĩnh vực không
liên quan ví dụ như y học, sử học, văn học, v.v…
Tính toán trọng số của một term trong một tài liệu cho trước bằng độ đo tf*idf
mang ý nghĩa chọn tập term đặc trưng cho tài liệu là những term xuất hiện nhiều trong
tài liệu này và ít xuất hiện trong các tài liệu khác. Tương tự, một term xuất hiện với tần
suất trung bình trong các tài liệu cũng sẽ là một term đặc trưng tốt. Do đó, các term tốt
nhất để đại diện cho tài liệu sẽ là các term xuất hiện với tần số trung bình trong tập các
tài liệu.


19

Để giải quyết vấn đề kích thước khác nhau của các tài liệu, trọng số thường
được chuẩn hóa. Loại chuẩn hóa thứ nhất là chuẩn hóa tf, tf được chia cho tfmax với
tdmax là tần số của term xuất hiện nhiều nhất trong tài liệu đó. Hiệu quả của việc
chuẩn hóa này là biến đổi giá trị tf nằm trong khoảng [0,1]. Kiểu chuẩn hóa này được
gọi là “maximum normalization”. Một biến thể khác là 0.5 + (0.5/(tf/tfmax)), trong
biến thể này thì tf biến thiên trong đoạn [0.5,1], kiểu chuẩn hóa này được gọi là
“augmented normalized”. Mục đích của loại chuẩn hóa này là trọng số của một term
trong một tài liệu nên phụ thuộc vào số lần xuất hiện của nó trong tài liệu và số lần
xuất hiện của các term khác trong cùng tài liệu đó.
Tuy nhiên, có một lỗ hỏng tiềm năng trong “maximum normalization”. Yếu tố
chuẩn hóa cho một tài liệu chỉ phụ thuộc vào tần số của các term có tần suất cao nhất
trong tài liệu. Xem xét tài liệu D1, trong đó có các term đặc trưng dùng cho việc phân

loại chủ đề xuất hiện với xác suất cân bằng nhau, một term khác xuất hiện với xác suất
không cân bằng. Ví dụ, tài liệu D1 được đặc trưng bởi 4 term t1, t2, t3, t4; t1, t2, t3 xuất
hiện 2 lần; t4 xuất hiện 6 lần. Từ đó, chúng ta thấy rằng t4 sẽ làm giảm trọng số của t1,
t2 và t3. Vấn đề tương tự cũng xảy ra với “augmented normalized” nhưng mức độ biến
thiên ít hơn.
Một cách phổ biến khác trong việc chuẩn hóa tf là sử dụng logarit tự nhiên cộng
thêm một hằng số, ví dụ, “log(tf) + 1”. Kỹ thuật này không bị ảnh hưởng bởi độ dài
của tài liệu hoặc giá trị tfmax.
Loại chuẩn hóa thứ 2 là chuẩn hóa dựa trên độ dài vector. Sau khi đã tính toán
các giá trị tf*idf cho các term trong một tài liệu, mỗi thành phần của vector được chia
cho độ dài Euclid của vector. Độ dài Euclid của vector được tính bằng căn bậc 2 của
tổng các bình phương thành phần của vector. Việc chia các thành phần của vector cho
độ dài Euclid của vector được gọi là “cosine normalization”.
“Cosine normalization” hạn chế được vấn đề trọng số của các term bị ảnh
hưởng bởi 1 term có tần số cao bất thường. Yếu tố chuẩn hóa dựa trên tất cả các thành


20

phần của vector nên một yếu tố bất thường không ảnh hưởng nghiêm trọng đến kết quả
tính toán.
Sau khi các vector được tính toán cho câu truy vấn cũng như các tài liệu trong
tập, bước tiếp theo là tính toán độ tương tự giữa câu truy vấn và mỗi tài liệu. Các tài
liệu sau đó có thể được xếp hạng dựa trên độ tương tự của chúng đối với câu truy vấn,
ví dụ, tài liệu được xếp hạng cao nhất là tài liệu có độ tương tự lớn nhất với câu truy
vấn. Việc xếp hạng các tài liệu dựa trên độ tương tự với câu truy vấn tương ứng với
phán xét của con người về độ phù hợp của tài liệu của các tài liệu với câu truy vấn. Tài
liệu có độ tương tự cao sẽ có tỉ lệ cao là tài liệu phù hợp và tài liệu có độ tương tự thấp
sẽ có tỉ lệ thấp là tài liệu phù hợp.
Độ đo tương tự thường được sử dụng trong mô hình không gian vector là “inner

product” giữa câu truy vấn và vector của tài liệu. “Inner product” giữa vector của câu
truy vấn và vector của tài liệu được tính bằng việc nhân trọng số của thành phần vector
của câu truy vấn QTi với trọng số của thành phần tài liệu đại diện cho term i tương ứng
là DTi, và cộng các giá trị này lại.
N

 QT  DT
i 1

i

i

Với N là số lượng term trong câu truy vấn và tài liệu. Nếu cả 2 vector đều được
chuẩn hóa cosine, thì inner product này biểu diện cosine của góc giữa 2 vector; do đó
độ đo tương tự này thường được gọi là “cosine similarity”. Độ tương tự tối đa là 1, khi
vector của tài liệu và vector của câu truy tạo thành 1 góc 0 độ. Độ tương tự tối thiểu là
0, khi vector của tài liệu và vector của câu truy vấn tạo thành một góc 90 độ.
Trong một cách tiếp cận khác, Gerard Salton, J. Allan, và C. Buckley [5] giải
quyết vấn đề các tài liệu dài bằng cách kết hợp độ đo tương tự cosine giữa câu truy vấn
và tài liệu (toàn cục) với độ đo tương tự giữa câu truy vấn và các phần của tài liệu. Các
phần của tài liệu có thể là các câu hoặc các đoạn. Nói cách khác, nếu 2 tài liệu D 1 và


21

D2 có cùng độ đo tương tự với câu truy vấn cho trước nhưng D 1 chứa câu hoặc đoạn
tương tự với câu truy vấn thì D1 sẽ có độ tương tự cao hơn D2.
“Inner product” và dạng chuẩn hóa là “cosine similarity” không phải là các công
thức đo độ tương tự duy nhất để so sánh một vector của tài liệu với một vector của chủ

đề. Có nhiều công thức “distance” khác và nhiều công thức “matchnng” khác. Ví dụ,
một họ “distance metrics”:
1


p
L p ( D1 , D2 )    | d1i  d 2i | p 
 i


Các mectrics tính toán khoản cách trong không gian vector giữa vector D1 và
vector D2 với thành phần d1i thuộc D1 và thành phần d2i thuộc D2, và một tham số p
xác định việc chọn một metric trong họ. Nếu p=1, metric là “city block distance”,
khoảng cách được tính bằng số dãy nhà từ một giao lộ đến một giao lộ khác với các
khối nhà là hình chữ nhật. Nếu p=2, metric là “Euclidean distance”, khoảng cách
đường thẳng trong không gian vector. Nếu p=∞, metric là “maximal direction
distance”.
Ngoài ra, còn có các công thức đo độ tương tự chuẩn hóa bằng cách tránh các
tần số của term, ví dụ, công thức chỉ quan tâm đến số các term thích hợp và số các
term không thích hợp. Một trong số các công thức đó là “Dice’s coefficient”:
Dice 

2w
n1  n2

Với w là số các term chung của vector D1 và D2, n1 là số các term có trọng số
khác 0 trong D1 và n2 là số các term có trọng số khác 0 trong D2. Giả sử D2 là một tài
liệu mô tả một chủ đề cụ thể. Xét xem D1 và D3 tài liệu nào phù hợp với D2 hơn. Tài
liệu D1 có thể sẽ có điểm cao hơn, tài liệu D3 có thể sẽ có điểm thấp hơn vì D3 sẽ chứa
các term không nằm trong chủ đề nghĩa là tài liệu D2 và cũng không nằm trong D1

(cùng giá trị w nhưng giá trị n1 của D3 lớn hơn của D1). Nhưng nếu D3 sử dụng các


22

term có liên quan đến D2 thường xuyên và sử dụng ít các term không liên quan thì D3
và D1 có thể nhận được cùng điểm số mặc dù có độ dài khác nhau.
Một công thức đo độ tương đồng khác là “Jaccard coefficient”:
Jaccard ( D1 , D2 ) 

w
Nz

Với w là số các term chung của vector D1 và vector D2, N là tổng số các term
riêng biệt trong không gian vector (hội của tất cả các vector tài liệu và vector chủ đề),
và z là số các term không xuất hiện trong cả D1 và D2. Nói cách khác, N-z là số các
term riêng biệt trong D1 hoặc trong D2 hoặc trong cả D1 và D2.
Các cơ chế tính toán độ tương đồng giữa tài liệu và câu truy vấn trên giả sử là
các tài liệu và câu truy vấn đã có sẵn. Một trường hợp khác là các tài liệu phát sinh
định kì và hệ thống phải phân tài liệu vào N chủ đề cho trước. Trái ngược với trường
hợp các tài liệu có sẵn, trong trường hợp này các chủ đề được cung cấp cố định và các
tài liệu mang tính chất động. Làm thế nào mô hình không gian vector có thể áp dụng
vào trường hợp này ? Câu trả lời là cung cấp một tập huấn luyện gồm các tài liệu điển
hình cho việc tính toán thống kê với hi vọng là các tài liệu phát sinh trong tương lai sẽ
có tính chất thống kê giống như tập huấn luyện. Tập huấn luyện cũng cần phải được
cập nhật thường xuyên.
Ưu điểm của mô hình không gian vector:


Đơn giản, dễ hiểu, dễ cài đặt.




Hệ thống đánh trọng số các từ khóa biểu diễn làm tăng hiệu suất tìm kiếm.



Khắc phục các hạn chế trên mô hình Boolean là tính được mức độ tương đồng
giữa một truy vấn và mỗi tài liệu, đại lượng này có thể được dùng để xếp hạng
các tài liệu trả về.



Chiến lược so trùng một phần cho phép trả về các tài liệu phù hợp nhất, thỏa
mãn với thông tin truy vấn của người dùng.
Hạn chế của mô hình không gian vector:


23



Các từ khóa biểu diễn được xem là độc lập với nhau.



Số chiều biểu diễn cho tập văn bản có thể rất lớn nên tốn không gian lưu trữ.

2.1.3.


Truy hồi thông tin theo hướng ngữ nghĩa

2.1.3.1.

Hướng tiếp cận xử lý ngôn ngữ tự nhiên [6]

Theo hướng tiếp cận thống kê thì một tài liệu thường được biểu diễn dưới dạng
một tập hợp các từ khóa độc lập nhau. Đây được xem là một phương pháp phổ biến
dùng cho việc biểu diễn các tài liệu mà không xét đến hình thái của từ, thứ tự của các
từ hay vị trí xuất hiện của từ trong tài liệu cũng như các mối quan hệ ngữ nghĩa giữa
chúng, do đó cách biểu diễn này mang mức độ thông tin thấp và nếu nhìn dưới góc
nhìn của ngôn ngữ học thì đã không xử lý các biến thể về mặt ngôn ngữ học của các từ
như biến thể về hình thái học, biến thể về từ vựng học, biến thể về ngữ nghĩa học và
biến thể về cú pháp học. Biến thể về hình thái học là các dạng khác nhau về mặt cấu
trúc của một từ, ví dụ như các từ computer, computerize, computers là các biến thể về
hình thái học của từ computer. Hệ thống sẽ cho kết quả không chính xác nếu đối xử
với các biến thể này như các từ độc lập nhau. Biến thể về từ vựng học là các từ khác
nhau mang cùng một nghĩa, ví dụ car, auto. Hệ thống sẽ không trả về các tài liệu có
chứa từ auto mà không chứa từ car khi câu hỏi chỉ chứa từ car. Biến thể về ngữ nghĩa
học là vấn đề một từ đa nghĩa tùy vào ngữ cảnh, ví dụ từ bank có nhiều nghĩa như
ngân hàng, bờ, bãi ngầm, …Biến thể về cú pháp học là các các kết hợp khác nhau về
mặt cú pháp của cùng một nhóm từ sẽ mang các ý nghĩa khác nhau, ví dụ một tài liệu
chứa câu ‘near to the river, air pollution is a major problem’ thì không liên quan gì đến
‘river pollution’ cả mặc dù cả hai từ đều có xuất hiện trong tài liệu. Để nâng cao hiệu
quả của các hệ tìm kiếm thông tin, người ta phải có các giải thuật để xử lý các biến thể
ngôn ngữ học như đã nêu.
Đối với các biến thiên về hình thái học người ta có hai cách để xử lý: cách thứ
nhất là mở rộng câu hỏi bằng cách thêm vào câu hỏi tất cả các biến thể hình thái học
của tất cả các từ có trong câu hỏi, cách thứ hai là chuẩn hoá các biến thể hình thái học
của một từ về một chuẩn chung (stemming), nghĩa là khử các tiền tố và hậu tố thông



24

thường của từ, trả về dạng gốc của mỗi từ. Ví dụ như các từ computer, computed,
computes, computerize sẽ được chuẩn hoá thành là compute. Khi đó, người sử dụng
không cần thiết phải đặc tả câu truy vấn của mình theo một hình thái đặc biệt nào của
từ mà anh ta tin rằng chúng có thể xuất hiện bên trong tài liệu đang tìm kiếm.
Để xử lý các biến thể về từ vựng học người ta hoặc là mở rộng câu hỏi bằng
cách thêm vào câu hỏi tất cả các từ đồng nghĩa có thể có của tất cả các từ trong câu hỏi
hoặc là xử lý ở giai đoạn so khớp bằng cách đưa ra các độ đo khoảng cách của các
khái niệm. Đối với cách thứ nhất chúng ta cần có một từ điển đồng nghĩa, đối với cách
thứ hai chúng ta phải xây dựng một tự điển từ vựng trong đó có định nghĩa khoảng
cách giữa các từ.
Biến thể về ngữ nghĩa thường kết hợp chặt chẽ với biến thể về từ vựng học. Để
xử lý các biến thể này chúng ta cần một công đoạn xử lý sự đa nghĩa của từ, hiệu năng
của hệ thống tìm kiếm sẽ phụ thuộc vào kết quả của giai đoạn xử lý này.
Các kỹ thuật xử lý các biến thể về cú pháp học hay nói cụ thể hơn là xử lý cấu
trúc của một cụm từ có thể được chia làm hai loại: kỹ thuật lập chỉ mục dựa vào các
cụm từ và kỹ thuật lập chỉ mục là các cấu trúc cây phân tích được từ các mệnh đề. Các
kỹ thuật lập chỉ mục dựa trên cụm từ nhằm tăng độ chính xác của hệ thống. Với giả
định rằng khi dùng các cụm từ như các chỉ mục thay cho các từ đơn thì độ chính xác sẽ
tăng do cụm từ biểu diễn chính xác hơn nội dung của tài liệu. Các hệ thống tìm kiếm
dựa trên chỉ mục là các cụm từ ngày càng thu hút nhiều nhóm nghiên cứu và vấn đề
làm thế nào để rút trích được các cụm từ một cách tự động từ tài liệu trở thành vấn đề
chính trong các hệ này. Các giải pháp rút trích cụm từ thường dựa vào hai cách tiếp
cận: tiếp cận dùng thông tin thống kê tần suất đồng xuất hiện hay cách tiếp cận dựa
vào tri thức về ngôn ngữ học. Cách tiếp cận thứ hai đòi hỏi phải áp dụng nhiều kỹ
thuật của lĩnh vực xử lý ngôn ngữ tự nhiên. Kỹ thuật lập chỉ mục cấu trúc dựa vào các
cấu trúc cây có được từ việc phân tích các mệnh đề trong câu của tài liệu và quá trình

so khớp là so khớp các cấu trúc của câu hỏi với các cấu trúc của tài liệu. Cách tiếp cận
này không thu hút nhiều nhóm nghiên cứu do độ phức tạp của việc phân tích mệnh đề


25

để xây dựng cách cấu trúc cao nhưng lại không tăng được hiệu năng của hệ thống tìm
kiếm.
Ngoài ra, để khắc phục những hạn chế trong việc biểu diễn tài liệu từ những mô
hình truyền thống, nhiều nghiên cứu khác nhau đã nỗ lực thay đổi cách biểu diễn cho
tài liệu nhằm làm tăng hiệu quả trong biểu diễn và tìm kiếm. Theo đó, một tài liệu vẫn
được mô tả bởi các cặp <đặc trưng, trọng số>, tuy nhiên những thành phần đặc trưng
cho tài liệu không đơn thuần chỉ là những từ hay cụm từ chính xác xuất hiện trong tài
liệu mà đã được thiết kế lại, được chuẩn hóa theo một dạng thức biểu diễn phức tạp và
hiệu quả hơn bằng cách sử dụng các kỹ thuật trong xử lý ngôn ngữ tự nhiên. Những
nghiên cứu này hướng tới mục tiêu là xây dựng một phép biểu diễn dựa trên các khái
niệm hơn là các từ đơn lẻ cũng như cố gắng loại bỏ các vấn đề nhập nhằng trong ngôn
ngữ. Một số mô hình nổi tiếng có thể kể đến như:
 Lemmas: các đặc trưng của tài liệu được chọn là các hình thái cơ bản của từ
như danh từ hay động từ. Như vậy, hệ thống sẽ chuẩn hóa các biến thể về hình
thái học của từ về một chuẩn chung và thay thế những từ có trong tài liệu bởi
hình thái cơ bản của chúng. Điều này sẽ làm tăng khả năng so khớp giữa những
từ có hình thái thể hiện khác nhau nhưng phản ánh cho cùng một khái niệm.
 Simple n-grams: một dãy các từ được lựa chọn bằng cách áp dụng kỹ thuật
thống kê. Hệ thống tiến hành khảo sát và thống kê các dãy bao gồm n từ liên
tiếp tùy ý (n - gram) có trong kho ngữ liệu. Như vậy, mỗi tài liệu sẽ được chia
thành những cấu trúc n – gram tương ứng. Những bộ lọc thống kê dựa trên tần
số xuất hiện của các n-gram trong kho ngữ liệu được áp dụng để lựa chọn
những ứng viên phù hợp nhất làm đặc trưng cho tài liệu.
 Nouns Phrases: Những biểu thức chính qui (ví dụ như N+ là một dãy các danh

từ liên kết với nhau theo một qui tắc cú pháp nhất định) dựa trên các từ loại
(danh từ, động từ và tính từ) có thể được sử dụng để chọn ra các cụm từ dùng
làm đặc trưng cho tài liệu và loại bỏ những kết hợp không khả thi. Cụm từ được
chọn bao gồm một từ chính (head) và các phụ ngữ hay từ bổ nghĩa (modifier)
đứng trước và sau nó.


×