Tải bản đầy đủ (.docx) (68 trang)

Khoá luận tốt nghiệp phương pháp phân tích ngữ nghĩa tiềm ẩn tìm kiếm văn bản tiếng anh dựa trên nội dung

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (737.43 KB, 68 trang )

ĐINH THỊ QUYÊN
PHƯƠNG PHÁP PHÂN TÍCH NGỮ NGHĨA TIÈM ẨN
TÌM KIẾM VĂN BẢN TIẾNG ANH DựA TRÊN NỘI
DUNG
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
• • • •
Chuyên ngành: Khoa học máy tính
ĐINH THỊ QUYÊN
PHƯƠNG PHÁP PHÂN TÍCH NGỮ NGHĨA TIÊM ẨN
TÌM KIẾM VĂN BẢN TIẾNG ANH DựA TRÊN NỘI
DUNG
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
• • • •
Chuyên ngành: Khoa học máy tính
Ngưòi hướng dẫn khoa học
TS. TRỊNH ĐÌNH VINH
TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI 2
KHOA CÔNG NGHỆ THÔNG TIN
HÀ NỘI,
Để hoàn thành khóa luận này, em xin bày tỏ lòng cảm ơn sâu sắc đến TS.
Trịnh Đình Vinh, thầy là người đã giúp đỡ, chỉ bảo em rất tận tình trong suốt thời
gian viết bài.
Em xin chân thành cảm ơn quý thầy cô trong khoa Công nghệ thông tin -
Trường Đại học Sư phạm Hà Nội 2 đã rất nhiệt tình và tâm huyết truyền đạt kiến
thức cho chúng em trong suốt 4 năm học tập. Các thầy cô không chỉ dạy chúng
em kiến thức chuyên ngành mà còn truyền đạt những kinh nghiệm sống quý báu,
đó là hành trang, là nền tảng để chúng em có thể tự tin hơn trong cuộc sống sau
này.
Cuối cùng, em xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè đã luôn chia sẻ,
động viên trong thời gian học tập và hoàn thành luận văn tốt nghiệp.
Dù đã rất cố gắng hoàn thiện để nghiên cứu, sưu tầm tư liệu nhưng khóa luận


cũng không tránh khỏi những hạn chế và thiếu sót. Em rất mong nhận được sự
góp ý của quý thầy cô và các bạn để khóa luận của em được hoàn thiện hơn.
Em xin chân thảnh cảm ơn!
Hà Nội, ngày tháng 05 năm 2015 Sinh viên thưc hiền
• •
Đinh Thị Quyên
LỜI CẢM ƠN
Tên em ía: ĐINH THỊ QUYÊN
Sinh viên lớp : K37 - CNTT, khoa Công nghê Thông tin , trương Đai
học Sư Phạm Hà Nội 2.
Em xin cam đoan:
1. Đê tai: “Phươngpháp phân tích ngữ nghĩa tiềm ẩn tìm kiếm văn
bản tiếng anh dựa trên nội dung” là nghiên cứu của riêng em , dưới sư hướng
dân của thây giáo TS. Trịnh Đình Vinh.
2. Khóa luận hoan toan không sao chép của tác gia nao khác.
Neu sai em xin hoan toan chiu trách nhịêm.
Hà Nội, ngày tháng 05 năm 2015
Ngưòi cam đoan
Đỉnh Thị Quyên
LỜI CẢM ƠN
MỤC LỤC
3.2.1.
3.2.2.Giai đoạn phân tích giá tri riêng SVD (Singular Value Decompsition) và
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
• * 7
DANH MỤC CÁC BẢNG

Bảng 2.1. Bảng tần suất của một số văn bản
Bảng 2.2. Ma trận tài liệu - thuật ngữ
Bảng 2.3. Ma trận kết quả tài liệu - thuật ngữ TF-IDF

Bảng 2.4. Kết quả khoảng cách từ truy vấn Q với các tài liệu
Ký hiệu viết
tắt
Tiếng Anh Tiếng Việt
CSDL DataBase Cở sở dữ liệu
IDF Inverse Document Frequency Tần số xuất hiện tài liệu
TF Term Frequency Tần số xuất hiện thuật ngữ
LSI Latent Semantic Indexing Chỉ số hóa ngữ nghĩa ẩn
LSA Latent Semantic Analysis Phân tích ngữ nghĩa tiềm ẩn
SVD Singular Value Decomposition Tách giá tri riêng
ERSM Equivalance Rough Set Model
Mô hình tập thô tương đương
TRSM Tolerance Rough Set Model Mô hình tập thô dung sai
Bảng 2.5. Số lần xuất hiện của thuật ngữ trong mỗi tài liệu
DANH MỤC CÁC HÌNH

Hình 1.1. Ví dụ phân phối của các giá trị có thứ tự ưu tiên
Hình 2.1. Sử dụng các khái niệm cho truy vấn
Hình 2.2. Biểu đồ 2-D của 12 thuật ngữ và 9 tài liệu từ tập mẫu
Hình 2.3. Sơ đồ SVD của 1 ma trận hình chữ nhật thuật ngữ - tài liệu
Hình 2.4. Sơ đồ của SVD được giảm lược của một ma trận thuật ngữ - tài liệu
Hình 3.1. File chứa các từ dừng (stopword)
Hình 3.2. Các thông số Ư, S"
1
, V
T
Hình 3.3. Ánh xạ truy vấn q vào cùng một không gian vecto cơ sở dữ liệu
Hình 3.4. Giao diện tìm kiếm văn bản Hình 3.5. Kết quả tìm kiếm văn bản
MỞ ĐẦU
1. Lý do chọn đề tài

Hàng nghìn năm trước con người đã nhận thức được tầm quan trọng của
việc lưu trữ và tìm kiếm thông tin. Vói sự phát triển của máy tính, việc máy
tính có khả năng lưu trữ thông tin vói số lượng lớn là rất dễ dàng. Nhưng vấn
đề là làm thế nào để tìm kiếm một thông tín từ nguồn dữ liệu lớn như vậy? Lĩnh
vực truy tìm thông tin (Information Retrieval - IR) ra đời vào những năm 1950
vì nhu càu thiết yếu này. Hơn 40 năm sau, lĩnh vực đó trưởng thành đáng kể,
nhiều hệ thống IR được sử dụng phổ biến với sự đa dạng trạng thái người sử
dụng. Sự phát triển của lĩnh vực này trong những năm 1970 đến những năm
1980 dựa trên nền tảng của những năm trước đó, nhiều mô hình thực hiện truy
tìm tài liệu khác nhau được phát triển nhưng chỉ có hiệu quả trong những tập
hợp văn bản nhỏ. Sự thay đổi lớn vào năm 1992, với sự khởi đầu bằng cuộc
thảo luận về truy tìm văn bản, sau đó một loạt thảo luận kiểm định đứng đầu
bởi nhiều hãng khác nhau của Mỹ dưói sự bảo hộ của Viện Tiêu chuẩn và Công
nghệ quốc gia (NIST), nhằm vào việc khuyến khích nghiên cứu về hệ thống IR
vói những tập họp văn bản lớn. Những thuật toán IR đã phát triển ttong những
năm từ năm 1996 đến năm 1998, là những kĩ thuật đàu tiên được dùng cho việc
tìm kiếm trên mạng toàn càu.
Văn bản là một tong số các dạng của dữ liệu đa phương tiện, nó được
quan tâm từ hàng nghìn năm trước trong việc tổ chức sắp xếp và lưu trữ, điển
hình như bảng nội dung của một cuốn sách. Ngày nay, sự lớn mạnh của thông
tin với phàn lớn là dạng văn bản, hơn nữa nó xuất phát từ nhu càu thực tế sử
dụng của con người. Tài liệu văn bản chiếm đa số trong mọi cơ quan tổ chức,
số lượng tài liệu văn bản ngày càng lớn và có vai trò vô cùng quan trọng, vì thế
việc lưu trữ, xử lý và truy tìm thủ công trước đây không thể hoặc khó có thể
thực hiện được. Cùng với sự ra đời và phát triển của máy tính, các công cụ xử
lý cũng ngày càng hoàn thiện dựa trên những kĩ thuật hiện đại phục vụ cho nhu
cầu đó.
6
Các mô hình truy tìm hay được sử dụng đó là: Tìm kiếm theo mô hình
tập thô dung sai, mô hình xác suất, mô hình không gian vectơ, song vẫn chưa

đạt được hiệu quả tối đa, các tài liệu không liên quan có thể được truy tìm đơn giản
bởi những thuật ngữ xuất hiện ngẫu nhiên trong nó giống với thuật ngữ trong truy
vấn, mặt khác các tài liệu liên quan có thể bị bỏ qua bởi không có thuật ngữ xuất
hiện trong tài liệu truy vấn.
Từ đó, một ý tưởng thú vị được xem xét, liệu việc truy tìm dựa vào nội
dung, ý nghĩa có hiệu quả hơn là việc truy tìm trực tiếp trên các thuật ngữ? Mô
hình LSA ra đời là một giải pháp hữu hiệu cho vấn đề truy tìm thông tin dựa trên
cơ sở nội dung tài liệu văn bản, tìm kiếm trên cơ sở nội dung.
Trước khi truy tìm các tài liệu được coi như danh sách các từ và chúng phải
được đánh chỉ mục. Có một thực tế là không phải tất cả các từ đều có ý nghĩa, vì
vậy việc loại đi danh sách các từ không có nghĩa vô cùng quan ttọng và các từ
không có ý nghĩa sẽ không được đánh chỉ mục. Từ thông tin của người sử dụng
biểu thị qua câu truy vấn, thuật toán truy tìm phải đảm bảo rằng, chiến lược xếp
hạng tập các tài liệu trong câu trả lời luôn ưu tiên cho những thông tin phù họp với
truy vấn của người sử dụng đưa ra. Hơn thế nữa, một kĩ thuật được đánh giá là tốt
phải dựa trên việc xếp hạng các tài liệu này, tức là những tài liệu phù hợp và được
coi là “gần” vói câu tiny vấn nhất sẽ được xếp lên trên các tài liệu ít phù hợp trong
danh sách tài liệu trả lời. Chính vì vậy, em lựa chọn đề tài: “Phương pháp phân tích
ngữ nghĩa tiềm ẩn tìm kiếm văn bản tiếng anh dựa trên nội dung” làm đề tài khóa
luận tốt nghiệp.
2. Mục đích nghiên cứu
Khóa luận tìm hiểu về một số phương pháp tìm kiếm văn bản, phương pháp
LSA. Từ đó, xây dựng chương trình tìm kiếm văn bản tiếng anh bằng phương pháp
LSA để người dùng có thể tìm kiếm thông tin, tài liệu một cách hiệu quả.
3. Nhiệm vụ nghiên cứu
Nhiệm vụ của khóa luận là đi sâu vào nghiên cứu phương pháp tìm kiếm
văn bản LSA (Latent Semantic Analysis): Từ việc hiểu được phương pháp LSA
như thế nào, đến biết được các bước thực hiện cơ bản LSA. Từ đó xây dựng được
chương trình tìm kiếm văn bản với tốc độ nhanh và độ chính xác cao.
7

4. Đổi tượng và phạm vi nghiên cứu
Phương pháp LSA, kỹ thuật phân tách giá trị riêng SVD.
5. Giả thuyết khoa học
Phương pháp tìm kiếm văn bản LSA được tìm hiểu và nghiên cứu sẽ giúp
hiểu rõ hơn về mô hình tìm kiếm thông tin.
Nếu chương trình tìm kiếm văn bản được đưa vào thực tế sẽ giúp cho người
sử dụng có thể tìm kiếm được những thông tin, tài liệu cần thiết một cách chính
xác và hiệu quả từ nguồn tài liệu văn bản rộng lớn.
6. Phương pháp nghiền cứu
a. Phương pháp nghiên cứu lý luận
Nghiên cứu qua việc đọc sách, báo và các tài liệu liên quan nhằm xây dựng
cơ sở lý thuyết của đề tài và các biện pháp cần thiết để giải quyết các vấn đề của đề
tài.
b. Phương pháp chuyên gia
Tham khảo các ý kiến của các chuyên gia, tìm hiểu những quan điểm, kinh
nghiệm của họ để có thể thiết kế chương trình phù hợp vói yêu càu thực tiễn.
c. Phương pháp thực nghiệm
Căn cứ vào quan sát thực tiễn, yêu cầu của cơ sở, căn cứ vào lý luận được
nghiên cứu và kết quả đã đạt được để có được sự tương tác giữa người dùng và
chương trình, từ đó có nhiều thiết kế hiệu quả.
7. Cấu trúc khóa luận
Ngoài phần lời cảm ơn, mở đầu, kết luận và phương hướng phát triển đề tài,
tài liệu tham khảo thì khóa luận bao gồm:
Chương 1. Cơ sở lý thuyết
Giới thiệu về các bộ máy tìm kiếm cũng như các chiến lược tìm kiếm và
khái quát về hệ thống khai thác thông tin.
Chưoug 2. Một số phương pháp tìm kiếm văn bản Giói thiệu về các phương
pháp tìm kiếm văn bản, phương pháp LSA với đặc điểm nổi bật được lựa chọn làm
phương pháp để xây dựng chương trình tìm kiếm văn bản.
8

Chương 3. Tìm kiếm văn bản tiếng anh bằng phương pháp phân
tích ngữ nghĩa tiềm ẩn
Xây dựng một chương trình cụ thể.
CHƯƠNG 1: Cơ SỞ LÝ THUYẾT
1.1. Các bộ máy tìm kiếm
Các bộ máy tìm kiếm (search engine/ moteur de recherche) ra đời từ giữa
những năm 1990, với chức năng tìm kiếm khác hẳn các danh bạ mạng: Thay vì tìm
kiếm các website như danh bạ mạng, các bộ máy tìm kiếm lại sưu tập các ừang
web, đọc toàn bộ nội dung của từng trang và lưu vào chỉ mục. Người dùng mạng
chỉ cần gõ từ khóa cần tìm và bộ máy sẽ tìm trong toàn bộ nội dung đó.
Với các bộ máy tìm kiếm có thể:
- lìm những thông tin chính xác: Như thông tin liên lạc của một cá nhân, tổ chức,
hoặc chi tiết liên quan đến một sản phẩm nào đó.
- Tìm những tài liệu chuyên biệt, đặc thù: Như các công ước quốc tế, các văn bản
nhà nước.
- Tìm những website mới xuất hiện trên mạng: Với vòng quay tương đối nhanh, các
robot có thể tiếp cận các trang web mới hoặc quay lại cập nhật các ừang web đã
lưu chỉ mục trong vòng vài tuần lễ.
- Ket quả các công thức tìm kiếm đa dạng: Với các từ khóa, thuật ngữ, thuật toán
khác nhau theo khả năng đáp ứng và công nghệ phát triển của từng bộ máy.
Tuy nhiên, có một điểm cần lưu ý khi sử dụng các bộ máy tìm kiếm đó là
các trang được đưa ra trong kết quả tìm kiếm không phải là trang hiện hữu trên
mạng mà là ừang được lưu trong chỉ mục của bộ máy tìm kiếm.
Một số bộ máy tìm kiếm thông dụng:
- Ask Jeeves: Cơ chế tìm kiếm theo ngôn ngữ tự nhiên, có thể cho phép lưu trữ đến
1000 kết quả tìm kiếm, sắp xếp và ghi chú trong hồ sơ cá nhân. Có nhiều kiểu giao
diện khác nhau cho người dùng lựa chọn và các phiên bản tiếng Nhật, Tây Ban
Nha, Đức, Pháp, Hà Lan, Ý.
9
- Brainboost: Tìm kiếm theo ngôn ngữ tự nhiên, kết quả được trích từ các

trang web có chứa thông tín trả lời cho câu hỏi được đặt ra.
- Exalead: Hai giao diện Exalead tiếng Pháp và Exalead tiếng Anh. Có nhiều
chức năng tìm kiếm nâng cao giúp giói hạn phạm vi tìm kiếm. Kết quả được giói
thiệu kèm với hình ảnh thu nhỏ của trang web và những gợi ý giúp tìm kiếm kĩ hơn
bằng các thuật ngữ, khái niệm lân cận và chủ đề liên quan.
- Factbites: Cung cấp thông tin bách khoa, với những trích đoạn hoàn chỉnh
và có nghĩa về vấn đề đang tìm kiếm, thu thập được tò các trang web khác nhau,
gợi ý các chủ đề lân cận, có liên quan cũng như danh sách các chủ đề được tìm
kiếm nhiều nhất. Giao diện duy nhất bằng tiếng Anh.
- Google: Bộ máy tìm kiếm được sử dụng nhiều nhất hiện nay, sưu tập được
một lượng thông tin vô cùng lớn trên mạng, bằng hàu như tất cả các thứ ngôn ngữ
có tồn tại trên internet. Có nhiều tính năng tìm kiếm nâng cao khác nhau, giúp dễ
dàng giới hạn phạm vi tìm kiếm. Có giao diện bằng nhiều thứ tiếng, kể cả tiếng
Việt.
- Google Scholar: Phiên bản thử nghiệm giúp tìm kiếm các thông tin thuần
túy khoa học và học thuật (sách, tạp chí, luận văn, luận án, bài giảng ) thu thập từ
các trường đại học, viện nghiên cứu, phòng thí nghiệm, nhà xuất bản khoa học, các
chuyên gia, các tổ chức
- Scirus: Tìm kiếm các tài liệu có tính học thuật trong ngành khoa học, hiệu
quả tốt hơn Google Scholar về nhiều mặt vói nhiều tính năng tìm kiếm nâng cao và
giới hạn phạm vi tìm kiếm.
- Yahoo: Bộ máy tìm kiếm tương tự như google, cũng khá phổ biến và hiệu
quả, có nhiều chức năng tìm kiếm nâng cao và hạn chế phạm vi tìm kiếm.
1.2. Chiến lược tìm kiếm
Tất cả các chiến lược tìm kiếm được dựa vào so sánh giữa truy vấn với các
tài liệu được lưu trữ. Đôi khi, việc so sánh này chỉ là gián tiếp khi truy vấn được so
sánh vói các cụm (hoặc chính xác hơn vói những đặc điểm đại diện cho các cụm).
1
Tạo sự phân biệt giữa các kiểu chiến lược tìm kiếm khác nhau đôi khi có
thể được hiểu qua việc xét ngôn ngữ truy vấn, đó là ngôn ngữ biểu diễn thông

tin. Tính tự nhiên của ngôn ngữ thường được yêu càu tính tự nhiên ưong chiến
lược tìm kiếm.
1.2.1. Các từ dừng và từ gốc
Đa số ngôn ngữ tự nhiên có những từ chức năng, những liên từ giói từ
xuất hiện vói số lượng lớn trong các tài liệu và điển hình là ít được sử dụng
trong việc xác định các tài liệu thỏa mãn thông tín tìm kiếm. Các từ như vậy (ví
dụ: a, an, the, on ) được gọi là các từ dừng (stopword).
Các kỹ thuật tìm kiếm thông thường không chỉ số hóa các từ dừng, nhưng
có ý tưởng thay thế chúng với một đối tượng thay thế để ghi nhớ sự xuất hiện
của các từ dừng. Điều này cho phép tìm kiếm những cụm từ chứa các từ dừng,
ví dụ như “books on the table”. Việc giảm bớt không gian chỉ số và cải thiện
thực hiện là những lý do quan trọng để loại trừ các từ dừng. Tuy nhiên, như vậy
một số câu truy vấn như “to be or not to be” có thể không còn được hỏi. Một
điều nữa là từ nhiều nghĩa (một từ có nhiều nghĩa phụ thuộc vào văn cảnh hoặc
cách nói): “can” là một động từ thì không có ích cho các truy vấn từ khóa,
nhưng “can” là một danh từ có thể là trung tâm đối với một câu truy vấn, vì yậy
nó không nằm trong danh sách từ dừng.
STEMMỈNG (từ gốc) hay là CONFLATING là phương thức hỗ trợ sự phù
hợp của một thuật ngữ truy vấn với biến đổi hình thái trong kho dữ liệu. Trong
tiếng Anh, cũng như một số ngôn ngữ khác, các phần của văn nói, thời và số
lượng được chuyển từ những biến tố của từ. Có thể muốn một truy vấn chứa từ
“comparable” phù hợp vói một tài liệu chứa từ “compare”. Các phương pháp
stemming nhìn chung sử dụng sự kết họp việc phân tích hình thái (chẳng hạn,
giải thuật của Porter hay to cứu từ điển như WordNet). Stemming có thể làm
tăng số lượng các tài liệu trả lời, nhưng có thể bao gồm cả các tài liệu không
thích họp. Chẳng hạn, giải thuật Porter không chấp nhận “university” và
“universal” cùng là “univers”. Conflating, xác định các thuật ngữ liên quan qua
việc sử dụng từ điển, trong đó liệt kê các thuật ngữ đồng nghĩa và đôi khi cả liệt
kê cả quan hệ giữa chúng. Ví dụ, các từ “study”, “leaming”, “school word”,
1

“reading” có ý nghĩa tương tự nhau. Thay YÌ sử dụng bốn thuật ngữ chỉ mục, có
thể chỉ sử dụng một thuật ngữ “study” tổng quát để đại diện bốn thuật ngữ này.
1.2.2. Lập chỉ mục tự động (Auto indexing)
Trong tiến trình chỉ mục, tài liệu được coi như một danh sách các từ, ừong đó
các từ dừng đã được loại bỏ khỏi danh sách. Các thuộc ngữ hay các từ còn lại được
xử lý tiếp để nâng cao hiệu quả chỉ mục và truy tìm. Các thao tác chung nhất thực
hiện trên các thuộc ngữ này là tìm từ gốc (stemming), tìm từ đồng nghĩa và xác
định trọng số.
Vói stemming, tệp chỉ mục sẽ đầy đủ hơn và việc truy tìm thông tin sẽ hiệu
quả hơn. Recall thông tin sẽ được nâng cao bởi YÌ gốc từ (root) tổng quan hơn và
nhiều tài liệu liên quan sẽ được tìm ra để đáp ứng câu truy vấn. Nhưng precision có
thể giảm vì thuật ngữ gốc từ ít tính cụ thể.
Các thuật ngữ chỉ mục khác nhau có tần số xuất hiện và tầm quan trọng khác
nhau trong tài liệu. Chú ý rằng, tần số xuất hiện các thuật ngữ sau khi thực hiện
stemming và thực hiện thesaurus sẽ là tổng tàn số mọi sự biến đổi (variantions). Ví
dụ, tần số khái niệm “renew” sẽ là tổng tần số xuất hiện của các thuật ngữ
“renewed”, “renewal”, “renewing”. Việc đề xuất các trọng số “thuật ngữ quan
trọng” cho thuật ngữ tài liệu và thuật ngữ câu truy vấn có thể giúp phân biệt mức
độ quan ttọng của các thuật ngữ ttong kết quả tìm kiếm. Khi bổ sung trọng số cho
các thuật ngữ trong tệp mục lục, các tài liệu khác nhau với tính tương đồng khác
nhau có thể xếp hạng theo dãy thứ tự độ tương đồng giảm dần, vào thời điểm truy
vấn.
Tổng kết chỉ mục tự động
Mục tiêu của chỉ mục tự động là tìm ra các thuật ngữ tốt nhất để đại diện cho
tài liệu, sao cho các tài liệu được truy tìm chính xác trong tiến trình truy vấn. Tiến
trình chỉ mục tự động bao gồm các bước sau:
-Nhận biết các từ trong tiêu đề, tóm tắt của tài liệu.
-Loại bỏ các từ dừng bằng cách tham khảo từ điển đặc biệt hoặc danh sách
dừng.
1

- Nhận biết các từ đồng nghĩa bằng tham khảo từ điển đồng nghĩa. Mọi thuật
ngữ có ý nghĩa tương tự sẽ được thay thế bằng tò chung.
- Tìm từ gốc (stemming) bằng thuật toán loại bỏ các tiền tố và hậu tố (suffix
và prefix).
- Đếm tàn số stem trong mỗi tài liệu.
- Tính toán trọng số các thuật ngữ hay từ gốc.
- Tạo tệp mục lục trên cơ sở các thuật ngữ và trọng số nói trên.
1.2.3. Phân nhóm văn bản
Với nhiệm vụ bài toán khai phá dữ liệu văn bản là tìm kiếm những thông tin
còn tiềm ẩn trong cơ sở dữ liệu. Với những cơ sở dữ liệu lớn vấn đề đặt ra là các hệ
thống tìm kiếm sao cho hiệu quả, một trong những kỹ thuật chủ yếu là phân nhóm
văn bản nhằm giải quyết vấn đề trên.
Trong bài toán phân nhóm, một nhóm là một tập hợp các phàn tử giống nhau
hơn so với các phàn tử thuộc nhóm khác. Mục tiêu của bài toán phân nhóm là tìm
ra một tập họp các nhóm sao cho độ tương đồng giữa các phần bên trong mỗi
nhóm cao và độ tương đồng giữa các phần tử khác nhau phải thấp.
• Phương pháp phân nhóm phân cấp
Đối với phương pháp phân nhóm phân cấp, quá trình xây dựng phân cấp
thường có chi phí lớn nhất. Đã có nhiều thuật toán được phát triển nhằm xây dụng
cây phân cấp văn bản một cách hiệu quả. Các thuật toán này thường có chung
phương pháp lặp quá trình phân tích hai cặp nhóm đã được xây dựng từ trước và
hợp nhất cặp có độ tương đồng lớn nhất thành một nhóm văn bản. Các thuật toán
chỉ khác nhau về việc tính toán độ tương đồng khi một tong số các cặp là sản phẩm
của quá trình họp nhất trước đó. Phương pháp phân nhóm đơn liên kết định nghĩa
độ tương đồng là độ tương đồng lớn nhất giữa hai đơn vị từ hai nhóm. Các phương
pháp phân nhóm khác hoàn toàn sử dụng độ tương đồng nhỏ nhất, phương pháp
phân nhóm liên kết nhóm trung bình sử dụng độ tương đồng trung bình. Các thuật
toán này thường có chung đặc tính tích tụ ở chỗ chứng đều lặp quá trình ghép hai
nhóm văn bản thành một nhóm.
1

Các thuật toán tích tụ theo định nghĩa của thuật toán tham lam, nghĩa là cặp
nhóm văn bản được chọn để kết hợp là cặp gần giống nhau nhất theo một tiêu chí
nào đó. Thuật toán này có tính toàn cục ở chỗ tất cả các cặp nhóm đều được xử lý
để tính toán độ tương đồng và do đó độ phức tạp của tính toán đều là 0(n
2
). Đây là
một trong những nhược điểm của thuật toán dạng này.
• Phương pháp phân nhóm không phân cấp
Các thuật toán phân nhóm dạng không phân cấp hoạt động theo cách thức
trái ngược so với các thuật toán phân nhóm phân cấp. Các thuật toán này luôn tăng
đơn điệu số phần tử của từng nhóm và các nhóm mới có thể là kết quả của quá
trình tách hay hợp các nhóm cũ. Các phương pháp phân nhóm không phân cấp có
thể yêu cầu các văn bản không thể được trùng nhau ở các nhóm khác nhau (như
phương pháp chia) hoặc có thể tiling nhau.
1.2.4. Truy vấn Boolean
Loại đơn giản nhất của truy vấn yêu càu gồm mối quan hệ giữa các thuật
ngữ và các tài liệu, các truy vấn giống nhau như:
- Những tài liệu chứa tò “Java”
- Những tài liệu chứa tò “Java” nhưng không chứa từ “coffee”
- Các tài liệu chứa cụm “Java” và “Island” xuất hiện trong cùng một câu Hai
truy vấn đầu được gọi là những truy vấn “gần” (proximity queries)
bởi chúng bao gồm khoảng cách từ vựng giữa các dấu hiệu. Các câu hỏi này có thể
được trả lời sử dụng chỉ số ngược. Phàn sau sẽ mô tả việc các chỉ số được xây
dựng từ một tập hợp các tài liệu ngược như thế nào.
Các câu truy vấn được biểu diễn bỏi tập từ khóa kết nối vói tập phép toán
Bool. Ba loại toán tử hay được sử dụng là OR, AND, NOT. Quy tắc truy tìm kiếm
như sau:
- Toán tử OR: Xem xét hai thuật ngữ đồng nghĩa. Ví dụ, cho trước câu truy vấn
(ternii OR term
2

) thì hiện diện của một trong hai thuật ngữ trong bản ghi (hay
trong tài liệu) đủ để đáp ứng truy tìm bản ghi này.
1
- Toán tử AND: Tổ hợp các thuật ngữ (hay từ khóa) vào một câu thuật
ngữ. Vậy truy vấn (terril! AND term
2
) chỉ ra cả hai thuật ngữ phải đồng thòi hiện
diện trong tài liệu để đem lại kết quả.
- Toán tử NOT: Là hạn chế hay thuật ngữ hẹp, thông thường nó được
sử dụng với toán tử AND. Câu truy vấn (termi AND NOT term
2
) dẫn tới truy tìm
bản ghi có termi nhưng không có term
2
.
1.2.5. Cấu trúc tệp
Một trong các vấn đề cơ bản trong thiết kế hệ thống IR là quyết định sử dụng
loại cấu trúc tệp nào để lưu trữ CSDL tài liệu, cấu trúc tệp sử dụng trong các hệ
thống IR bao gồm các tệp phẳng, tệp mục lục (inverted), tệp chữ ký và các tệp khác
như cây và đồ thị.
Với quan điểm tệp phẳng, một hay nhiều tài liệu lưu trữ trong tệp, thông
thường trong mã ASCII hay EBCDIC, không chỉ mục tài liệu. Tìm kiếm tệp phẳng
thông qua tìm kiếm mẫu. Trong UNIX, khi lưu trữ tập hợp các tài liệu người ta lưu
trữ mỗi tài liệu trong một tệp, trong danh mục. Các tệp này có thể tìm kiếm nhờ các
công cụ tìm kiếm theo mẫu như “grep”, “awk”. Tiệm cận này không hiệu quả vì
mỗi lần truy vấn thì toàn bộ tập hợp tài liệu phải được duyệt để tìm ra mẫu văn
bản.
Các tệp chữ ký: Chứa các chữ ký (mẫu bit) đại diện cho tài liệu. Có nhiều
cách để sinh chữ ký tài liệu. Câu truy vấn được đại diện bởi chữ ký mà nó sẽ được
so sánh với chữ ký tài liệu trong khi truy tìm.

Cách sử dụng chung nhất là tệp mục lục (inverted). Đó là loại tệp chi mục.
Các tệp mục lục (inverted fîtes)
Trong tệp mục lục, chỉ mục được xây dựng cho mỗi thuật ngữ để lưu trữ chỉ
số định danh (ID) bản ghi cho toàn bộ bản ghi chứa thuật ngữ này. Một đầu vào tệp
mục lục thông thường chứa từ khóa (thuật ngữ) và một số ID tài liệu. Mỗi từ khóa
và các ID tài liệu (mà nó chứa từ khóa) được tổ chức thành một hàng. Ví dụ tệp
mục lục như sau:
Termi: Recordi, Record
3
Term
2
: Recordi, Record
2
1
Term
3
: Record
2
, Record
3
, Record
4
TemXị: Recordi, Record
2
, Record
3
, Record
4
Trong đó, Temii (i = 1, 2, 3,
4) là số ID của thuật ngữ chỉ mục i, Recordi (i = 1,

2, 3, 4) là số ID của bản ghi (record) i hay tài liệu i.
Dòng 1 có nghĩa rằng Recordi và Record
3
chứa termi. Các dòng khác có
ý nghĩa tương tự. Việc tìm kiếm sẽ được thực hiện nhanh chóng trong các tệp
mục lục. Chỉ các hàng chứa thuật ngữ tìm kiếm mới được truy tìm. Không cần
tìm mọi bản ghi trong CSDL.
Quy tắc tìm kiếm mô hình Bool trên cơ sở các tệp mục lục như sau:
- Truy vấn AND: Ví dụ (Temii AND temij), cho danh sách ttộn hàng i với
hàng j trong tệp mục lục và mọi bản ghi đều chứa Teraii và Ternij sẽ là kết quả
truy tìm ở đầu ra. Ví dụ: (Termi AND Term
2
) cho kết quả là Recordi.
- Truy vấn OR: Ví dụ (Teriĩii OR Temij), cho danh sách trộn hàng i và
hàng j mọi mục trong danh sách trộn là đầu ra kết quả.
- Truy vấn NOT: Ví dụ (Ternii AND NOT Temij) sẽ cho kết quả là các
mục xuất hiện trong hàng i nhưng không trong hàng j. Truy vấn (TemXị AND
NOT Termi) cho kết quả là Record
2
, Recordị. Truy vấn (Termi AND NOT
TeriĩLị) sẽ cho đầu ra là rỗng.
Mở rộng thao tác tệp mục lục
Cho đến thời điểm hiện tại đã bỏ qua hai yếu tố quan trọng khi chỉ mục
và truy tìm tài liệu, đó là vị trí của các thuật ngữ và ý nghĩa các thuật ngữ (tần
số thuật ngữ) trong tài liệu. Trong các truy vấn AND, mọi bản ghi chứa cả hai
thuật ngữ được tìm thấy, không quan tâm đến vị trí của chúng trong tài liệu. Để
nâng cao hiệu quả truy vấn, hai yếu tố này cần được xem xét.
Các quan hệ đặc tả giữa hai hay nhiều thuật ngữ được tăng cường bằng
cách bổ sung các tham số “tính gàn kề” vào đặc tả truy vấn. Khi tham số gần kề
được bổ sung thì chủ điểm được xác định cụ thể hơn, tính phù hợp của mục truy

vấn sẽ được cao hơn.
Hai tham số thuộc nhóm này có thể là đặc tả “within sentence” và
“adjacency”:
1
- (Terrrii within sentence Temij) có nghĩa rằng thuật ngữ i và j cùng xuất
hiện trong câu của bản ghi vừa tìm ra.
- (Tenrii adjacency Temij) có nghĩa các thuật ngữ i và j xuất hiện liền kề
trong các tài liệu vừa tìm ra.
1.2.6. Chỉ sổ hóa và bổ sung
Các tài liệu được duyệt và phân loại để được mệnh đề (d, t), gồm tài liệu
d với thuật ngữ t. Thao tác cơ bản của việc chỉ mục “ngược” (inverting) bao
gồm việc đổi chỗ thứ tự sắp xếp theo (t, d) như biểu diễn sau.
Dễ dàng tạo tập (t, d) trong cấu trúc dữ liệu. Với một tập họp động có các
tài liệu được thêm vào, sửa đổi hay xóa đi, một sự thay đổi tài liệu ở mức đơn
giản càn cập nhật hàng trăm tới nghìn các bản ghi.
1.2.7. Kỹ thuật nén chỉ số (index compression)
Trường hợp các modul thiếu từ dừng và dấu chấm câu, một chỉ số ngược
với thông tin vị trí có thể được sử dụng để xây dựng lại các tài liệu trong một
tập hợp. Bởi vậy, kích thước của chỉ mục thực tế so sánh được với kích thước
của kho dữ liệu. Mặc dù việc lưu trữ đem lại một số lợi ích nhưng chỉ số
chương trình điều khiển lớn sẽ dẫn tới một số lượng lớn I/O ngẫu nhiên. Bởi
vậy, cài đặt IR lớn, hiệu năng cao thì việc nén chỉ số càng nhiều càng tốt là thực
sự quan trọng và nó có thế được lưu trữ trong bộ nhớ.
Một phần chính của không gian chỉ mục bị chiếm bởi các ID tài liệu. Một
ID tài liệu cần một tập hợp lớn hơn, số lượng các bit lớn hơn để biểu diễn. Trên
Internet, phàn lớn cần ít nhất 32 bit để biểu diễn các ID tài liệu trong một hệ
thống truy xuất ttên 2 tỉ trang.
Cách dễ hơn trong việc lưu trữ các ID tài liệu là sắp xếp chúng tăng dần
và lưu trữ đầy đủ ID đầu tiên, rồi sau đó chỉ lưu sự khác nhau với ID trước mà
chúng ta gọi là gap. Điều này được gọi là mã hóa delta.

Chẳng hạn, nếu tò bottle xuất hiện trong các tài liệu được đánh số 5, 30
và 47, bản ghi cho bottle là vectơ (5, 25, 17).
Với ví dụ này có thể không giống như việc lưu trữ tài liệu với số lượng lớn,
nhưng đã cho thấy các thuật ngữ thường xuyên thì các ID gap trung bình sẽ nhỏ
1
hơn và những thuật ngữ hiếm xuất hiện dù sao cũng không chiếm quá nhiều không
gian, vì vậy cả hai trường hçfp đó đều có lọi.
Vấn đề tiếp theo là mã hóa những gap này vói số lượng lớn các bit hay biến
đổi, vì vậy một gap nhỏ yêu càu số các bit ít hơn nhiều so với một ID tài liệu. Mã
hóa nhị phân chuẩn gán cùng chiều dài cho tất cả các ký hiệu hay những giá tñ sẽ
được mã hóa, là tối ưu (nếu số các bit trong mã hóa giá trị X là L(x), yêu càu của
mã này là S.Ï Pr(-ĩ) LỌT) số các bit yêu càu để truyền một
kí hiệu). Một mã tối ưu giảm đến mức tối thiểu giá trị này khi tất cả các giá trị có
thể tương đương trừ các gap. Cách khác với mã đơn nguyên (một gap X được biểu
diễn bởi x-1 những dấu hiệu theo sau), ưu tiên những gap ngắn khá mạnh (nó là tối
ưu nếu gap theo sau được đưa ra bỏi Pr(X = x) = 2'
x
, xác suất của việc làm mất các
gap lớn).
Thông thường, một chỉ mục bị nén tói giới hạn thì việc nâng cấp rất hỗn độn
khi thêm, xóa hoặc sửa đổi các tài liệu. Ví dụ, nếu có tài liệu mới thì phải thêm vào
chỉ mục ngược, các bản ghi của một vài thuật ngữ sẽ tăng kích thước. Điều đó chỉ
có thể được giải quyết với nhiều I/o ngẫu nhiên tạo ra những việc cập nhật thay đổi
lớn.
1.3. Hệ thống khai thác thông tin
Các hệ thống khai thác thông tin có thể được công thức hóa một cách tổng
quát như một hàm <p = (r, D, Q, ơ) với T - {ti, t
2
, t
M

} là tập các term
(các từ khóa); D = {DI,Ả
2
, , disr} là tập các tài liệu trong đó mỗi di — T; Q =
{Ql, Q2, , Qp} là tập các truy vấn trong đó mỗi Q
k
^ T; vàít: QX D -> R là
hàm xếp hạng ước lượng độ chính xác giữa một truy vấn và một tài liệu. Cho một
truy vấn Q£ Q với tài liệu dji, dj2É D nếu ff(q, dji) >ơ(q, dj
2
) thì dji được
cho rằng chính xác hơn dj2 với truy vấn q.
Thông thường, một tài liệu dj có thể được biểu hiện với các cặp term và trọng
lượng dj = (tji, Wji ; tj2, w
j2
; ; tj„, Wj„) với t
jk
É T với Wji e [0,1] đánh giá
tầm quan ừọng của term tj
k
trong tài liệu dj. Một truy vấn q e Q cũng có thể
1
được biểu diễn bởi các cặp term và trọng lượng q = (qi, w
q
i; t
2
, w
q2
; ; t
t

, w
q
t) với
q
k
fr và w
qk
Ể [0,1], Nhiệm vụ khai thác thông tin mang lại tập A =
{dji, dj2, , djml — D với truy vấn q với một hàm xếp hạng Ữ(Q, đjk).
Có ba mô hình tìm kiếm thông tin được sử dụng rộng rãi và khá phổ biến đó
là mô hình lý thuyết tập thô, mô hình không gian vectơ và mô hình xác suất.
1.4. Độ tương tự
1.4.1. Định nghĩa
Độ tương tự là một khái niệm quan trọng và đã được sử dụng rộng rãi. Các
định nghĩa trước đây về độ tương tự được trói buộc trong một ứng dụng cụ thể
hoặc một dạng thể hiện của tri thức.
Khái niệm về độ tương tự được định nghĩa thông qua các trực giác về độ
tương tự:
- Trực giác 1: Độ tương tự giữa A và B có liên quan tới sự tương đồng của chúng. Sự
tương đồng càng nhiều, độ tương tự càng lớn.
- Trực giác 2: Độ tương tự giữa A và B có liên quan tới những sự khác biệt giữa
chúng. Càng nhiều sự khác biệt độ tương tự càng thấp.
- Trực giác 3: Độ tương tự lớn nhất giữa A và B đạt được khi A và B giống hệt nhau.
1.4.2. Đô tưone tư giữa các giá tri có thứ tư ưu tiên
• o • o o • •
Rất nhiều các đặc trưng có các giá trị ưu tiên. Ví dụ, thuộc tính “chất lượng”
có thể mang một trong các giá trị sau: “excellent”, “good”, “average”, “bad”,
“awful”. Không có một định nghĩa nào ở trên cung cấp độ đo độ tương tự giữa hai
giá trị có thứ tự. Bây giờ sẽ chỉ ra cách định nghĩa có thể được áp dụng.
1

Nếu “chất lượng của X là excellent” và “chất lượng của Y là average”, sự
mô tả cụ thể nhất của cả X và Y là “chất lượng của X và Y ở giữa hai giá trị
excellent và average”. Do đó, sự tương đồng giữa hai giá tậ ưu tiên được giói hạn
bên trong giữa chúng.
Giả sử phân phối của thuộc tính “chất lượng” được nêu ra ở hình 1.1. Sau đây
là 4 ví dụ tính độ tương tự:
2 *log(excellent V good) 2*log(0.05+0.10)
Sim(excellent, good) = = 1ob0.0bZio60.10 = °-
72
2*logP(good Vaverage) 2*log(0.10+0.50)
Sim(good, average) = * logp jod) = loso.iollogo 50 =
034
2*logP(excellent vgood vaverage)
Simíexcellent,average) = —,
logP (.excellent) +logP (average)
2*log(0.05+0.10+0.50)
= 0.23
log 0.05+log0.50 2*log(good Vaverage vbad}
¿s»Iog(^good Vaverage Vbac
Sim(good,bad) =
2*log(0.10+0.50+0.20) Iog0.10+log0.20
awful
I
Hình 1.1. Ví dụ phân phối của các giá tri có thứ tự ưu tiên
16
0
5
5
0
4

0
3
2
1
1
excellent
;
p
average
ba
Kết quả chỉ ra rằng độ tương tự giữa “excellent” và “good” cao hơn độ
tương tự giữa “good” và “average” độ tương tự giữa “excellent” và “average”
cao hơn độ tương tự giữa “good” và “bad”.
1.4.3. Độ tương tự chuỗi
Xem xét công việc tìm kiếm từ một danh sách từ các từ mà được xuất phát
từ cùng một gốc như là một từ có sẵn. Ví dụ, cho trước từ “eloquently”, mục
đích là để tìm ra các từ liên quan khác như “ineloquently”, “eloquent” và
“eloquence”. Để làm điều đó, có thể định nghĩa độ đo tương tự giữa hai chuỗi
và xếp hạng các từ ttong danh sách từ theo thứ tự giảm dần của độ tương tự
vói từ có sẵn. Những tò xuất phát từ cùng một từ gốc nên xuất hiện sớm trong
bảng xếp hạng.
Tiến hành thử nghiệm với 3 độ đo sau:
- Độ đo đầu tiên được định nghĩa như sau:
Smw,
t
(x,y) =
1+edlt
n
1-(lĩ
,

ở đó editDist(x,y) là số kí tự nhỏ nhất càn chèn vào và xóa đi để chuyển tò xâu
này thành xâu khác.
- Độ đo độ tương tự thứ hai là dựa ttên số bộ ba khác nhau ttong hai
xâu:
1
Sinitri (x,y) =
1+
|
triW
|
+
|
tl
.
ity
]|_
2
,|
triWntri(y
^|
ở đó tri(x) là tập các bộ ba trong X. Ví dụ tri(eloquent) = {elo, lop, oqu,
que, ent}
- Độ đo độ tương tự thứ ba là dựa trên giả định là xác xuất của một bộ ba xảy ra
trong một từ là độc lập vói các bộ ba khác trong từ đó.
2*Ztetri(x)nTn(yil°gP(t)
^tetriix) l°gP(t) + Xtetri(y)l°EP(t)
1.4.4. Độ tương tự ngữ nghĩa
Độ tương tự ngữ nghĩa là một khái niệm ở đó tập các tài liệu hoặc các
thuật ngữ trong một danh sách các thuật ngữ được gán một tỷ lệ dựa trên sự
giống nhau về nội dung ý nghĩa của chúng.

2
Độ đo độ tương tự ngữ nghĩa gần đây được áp dụng và phát triển trong
rất nhiều lĩnh vực như trong y học (so sánh gen), trong phân lớp văn bản (các
văn bản tương tự nhau thì cùng thuộc một lớp).
Mỗi lĩnh vực khác nhau có các cách để tính độ tương tự
ngữ nghĩa khác nhau. Sau đây, sẽ tìm hiểu các phương pháp
tính độ đo tương tự từ - từ và độ đo tương tự giữa văn
bản - văn bản.
CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN
2.1. Tìm kiếm văn bản theo mô hình tập thô dung sai
Hầu hết, các hệ thống thông tin làm việc chính xác bởi các toán tử
logic. Mặc dù, cách này đơn giản nhưng không phải lúc nào nó cũng mang
lại đúng theo ý ngưòi sử dụng. Hiện nay, có nhiều nỗ lực trong việc cải tiến
chất lượng khai thác thông tin vói việc sử dụng kỹ thuật tìm kiếm thông tín
cho suy diễn phát triển tò tính mập mờ (vagueness) và tính không chắc
chắn (uncertainty) của một khái niệm.
Lý thuyết tập thô, một công cụ toán học để giải quyết vấn đề ừên
được giới thiệu bởi Pawlak vào những năm 80. Lý thuyết tập thô này đã
thảnh công trong một vài ứng dụng. Trong lý thuyết này, mỗi thành phần
của tập vũ trụ được mô tả bởi một cặp hai tập họp khác được gọi là các xấp
xỉ trên và các xấp xỉ dưới. Tập các xấp xỉ trên và xấp xỉ dưới được xác định
bỏi quan hệ tương đương trong tập vũ trụ. Việc sử dụng mô hình tập thô
như trên sau này được gọi là mô hình tập thô tương đương (Equivalance
Rough Set Model ERSM) đã được sự quan tâm đặc biệt của nhiều nhà
nghiên cứu. Điểm quan trọng của việc áp dụng tập thô tương đương
(ERSM) cho việc khai thác thông tin đó đưa ra cách mới để tính mối quan
hệ ngữ nghĩa dựa trên việc tổ chức từ vựng vào các lớp tương đương. Tuy
nhiên chúng ta sẽ thấy rằng, việc sử dụng các quan hệ tương đương ừong
ERSM không phù hợp cho việc khai thác thông tin bởi các quan hệ tương
đương yêu cầu phải có các tính chất: Phản xạ, đối xứng, bắc càu. Trong một

số trường hợp các tính chất này tỏ ra quá nghiêm ngặt trong việc xử lý ngôn
2
ngữ tự nhiên và khai thác thông tin bởi tính chất đối xứng không phải lúc
nào cũng thỏa mãn.
Vì lý do đó nên có một mô hình khác gọi là mô hình tập thô dung sai
(Tolerance Rough Set Model) cho việc khai thác thông tín qua các lớp dung
sai thay thế cho các lớp tương đương đã được giới thiệu ở trên.
2.1.1. Khái niệm tập thô và không gian dung sai
Triết lý của tập thô dựa trên giả sử rằng mọi đối tượng ừong vũ trụ
đều gắn vói một thông tin nào đó (dữ liệu, tri thức). Ví dụ, nếu các đối
tượng là các bệnh nhân bị một bệnh nhất định, các triệu chứng bệnh nhân
tạo thành thông tin bệnh nhân. Các đối tượng được đặc trưng bỏi cùng
thông tin thì không thể phân biệt (indiscermible) được vói nhau. Quan hệ
tương đương là cơ sở toán học của lý thuyết tập thô.
Điểm đàu tiên của lý thuyết tập thô là mỗi tập X trong tập vũ trụ u có
thể được xem xét một cách xấp xỉ bởi các xấp xỉ dưới và các xấp xỉ ttên
trong một không gian xấp xỉ R = (U,R) với R — uxu là một quan hệ tương
đương.
Hai đối tượng x,y t u được xem là không phân biệt trong R nếu xRy. Các
xấp xỉ dưới và trên trong R của các tập X ^ u, biểu diễn bởi L(R,X) và
U(R,X) được định nghĩa bỏi công thức sau:
L(R ,X) = { XEU:[ X]
r
^XỊ (2.1)
U(R,X) = {XẼU: [x]
R
n X * 0} (2.2)
Trong đó: [x]r biểu diễn lớp các đối tượng tương đương không phân biệt với X
trong quan hệ R.
Tất cả các công việc ban đầu của khai thác thông tin sử dụng tập thô

đều dựa ừên ERSM dựa ừên sự giả định tập T của các term có thể được
phân chia vào các lớp tương đương xác định bởi quan hệ tương đương.
Một quan hệ tương đương R đòi hỏi 3 tính chất sau:
1- Tính phản xạ: xRx
2
2- Tính đối xứng: xRy -* yRx
3- Tính bắc cầu: xRy rì yRz —xRz (Vx,y,z £ Ư)
Tính bắc cầu không phải lúc nào cũng được thỏa mãn.
Các lớp chồng nhau có thể sinh ra bởi quan hệ dung sai trong quan hệ này
chỉ yêu cầu tính phản xạ và tính đối xứng. Vói sự xuất hiện của quan hệ
dung sai.
Không gian dung sai là không gian trong đó bao gồm các lớp chồng nhau
của các đối tượng trong tập vũ trụ. Một không gian dung sai được định
nghĩa bởi công thức chung R(U,I,V,P), trong đó: u là một tập các đối tượng,
I: Ư
là hàm không chắc chắn, V: 2
U
X 2“ -» [0,1] là thành phần mập mờ, P:
I(U) [0,1] là hàm cấu trúc.
Xem xét một đối tượng X được cho bởi thông tin f(x). Hàm không chính
xác I: u -*• 2
11
xác định I(x) như một lớp dung sai của tất cả các đối
tượng được xem xét có cùng thông tin với X. Hàm không chính xác được
định là những hàm thỏa mãn điều kiện: X £ I(x) và y € I(x) nếu X £ I(y)
với
x,y t u. Điều này tương đương với hàm tương ứng với một quan hệ Ç — ux
u. Trong đó X ç y nếu y £ I(x), Ç là một quan hệ dung sai bởi vì quan hệ này
thỏa mãn hai thuộc tính phản xạ và đối xứng.
Hàm mập mờ V:2

U
X 2
U
-*■ [0,1] đánh giá mức độ các tập trong tập
vũ trụ, trong trường hçrp đặc biệt nó liên quan câu hỏi lớp dung sai I(x) của
đối tượng xẼUcó thuộc tập X hay không?
Trong hàm V còn yêu càu tính đơn điệu đối với tham số thứ
hai: V(X,Y) < V(X,Z) với Y e Z; X, Y, z ç u.
Cuối cùng, với hàm cấu trúc p được đề xuất bởi việc phân tích với
hình thái toán học. Trong việc xây dựng các xấp xỉ ừên và dưới chỉ một số
2
các tập dung sai được coi là yếu tố có cấu trúc. Định nghĩa hàm P: I(Ư) ->
[0,1] các
lớp I(x) với mỗi X Ẽ u thuộc vào hai lớp: Các tập con có cấu trúc (P(I(x)) = 1)
và không có cấu trúc (P(I(x)) = 0).
Xấp xỉ dưới L(R,X) và xấp xỉ trên U(R,X) trong R với X t u được xác
định như sau:
L(R,X) = {X € u \ P(I(x)) = 1 &V(J(X)
F
X) = 1} (2.3)
U(R,X) = {xEU\P(I(x)) = 1 «fevaco,X) > 0} (2.4)
2.1.2. Mô hình tập thô dung sai (TRSM) trong việc khai thác thông
tin
Trước hết, mô tả cách xác định các hàm I, V và p phù họp cho việc khai
thác thông tin. Đầu tiên, để định nghĩa không gian dung sai chúng ta chọn tập
vũ trụ Ư là tập r của tất cả các terms.
u = {ti, Í2,ím} =
t
(2.5)
Vấn đề cốt yếu trong công thức của TRSM trong khai thác thông tin là

các lớp dung sai của các term. Có nhiều cách để xác định khái niệm các term
tương tự. Các đặc điểm của các term được chọn bởi tính chất sau:
1- Nó mang lại sự giải thích có ý nghĩa trong văn cảnh của khai thác thông
tin về sự phụ thuộc và quan hệ ngữ nghĩa của các term.
2- Nó là quan hệ đơn giản dễ máy tính hóa.
Cũng cần lưu ý rằng đặc điểm các term không có tính đối xứng và
không thể được sử dụng tự động để xác định các lớp tương đương. Với c (tị,
tj) là tần số xuất hiện đồng thời của hai term ti, tj trong D (tập các văn bản).
Định nghĩa hàm không chính xác I phụ thuộc vào ngưỡng 9 như sau:
Giả sử rằng tập r là đóng trong quá trình khai thác thông tin. Một truy
vấn Q bao gồm các từ khóa từ T. Với giả thuyết này có thể cho rằng tất cả các
2

×