Tìm kiếm văn bản tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (480.33 KB, 86 trang )

Website: Email : Tel : 0918.775.368
MỤC LỤC
LỜI MỞ ĐẦU
PHẦN I. CƠ SỞ LÝ THUYẾT
I.TIẾNG VIỆT VÀ NGỮ PHÁP TIẾNG VIỆT
1.Tính chính xác của văn bản tiếng Việt
2. Từ tiếng Việt
2.1. Từ đơn_từ ghép.
2.2. Từ loại
2.3. Dùng từ cấu tạo ngữ
3. Câu tiếng Việt
3.1 Câu đơn
4. Các đặc điểm của tiếng Việt
4.1 Đặc điểm chính tả
4.2 Vấn đề đa nghĩa và nhập nhằng trong ngôn ngữ
II. MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VĂN BẢN
1. Biểu diễn văn bản
Sinh từ ( Term Generation)
Lọc từ (Term Filter)
2. Các kỹ thuật khai phá
2.1. Khai phá các luật kết hợp (Association Rules)
2.2. Lập chỉ mục tự động (Auto indexing)
3. Phân nhóm văn bản
III. MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN
1. Tìm hiểu chung về các hệ thống khai thác thông tin
2. Tìm kiếm văn bản theo mô hình không gian vectơ
2.1 Độ chính xác và độ truy hồi
2.2 Bảng tần xuất.
2.3 Chỉ dẫn ngữ nghĩa tiềm ẩn (Latent Sematic Indexing LSI)
2.4.Tìm kiếm tài liệu dùng SVD
2.5. TV_Tree

TrÞnh §øc Cêng Trang 1
Website: Email : Tel : 0918.775.368
2.5.1. Thiết lập TV_Tree
2.5.2.Chèn vào TV_Tree
2.5.3.Tìm kiếm trên TV_Tree
3. Tìm kiếm văn bản theo mô hình tập thô dung sai
3.1 Khái niệm tập thô và không gian dung sai
3.2 Mô hình tập thô dung sai (TRSM) trong việc khai thác thông tin
3.2.1 Không gian dung sai:
3.2.2 Giải thuật tìm kiếm văn bản sử dụng TRSM
Else
3.3 Hàm xếp hạng chính và xếp hạng phụ trong việc đánh giá mức độ chính
xác của tài liệu.
PHẦN II. PHƯƠNG ÁN GIẢI QUYẾT VÀ CÀI ĐẶT THỬ NGHIỆM
I. PHƯƠNG ÁN GIẢI QUYẾT
Cơ sở dữ liệu
quan h ệ dung sai
Các xấp xỉ dươi
II. CÀI ĐẶT THỬ NGHIỆM
1. TIỀN XỬ LÝ VĂN BẢN TIẾNG VIỆT
1.1 Tổ chức từ điển
1.2. Tổ chức cơ sở dữ liệu văn bản
1.3. Xác định các từ khoá trong văn bản
2. Xử lý dữ liệu để phục vụ cho mô hình tìm kiếm văn bản bằng phương
pháp tập thô dung sai.
Tính không gian dung sai và các xấp xỉ trên và xấp xỉ dưới
3. Tìm kiếm văn bản sử dụng mô hình tập thô dung sai
HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI
TÀI LIỆU THAM KHẢO.
TrÞnh §øc Cêng Trang 2

Website: Email : Tel : 0918.775.368
LỜI MỞ ĐẦU
Chúng ta biết rằng nguồn tài nguyên được lưu trữ dưới dạng dữ liệu
văn bản là rất rộng lớn và giàu thông tin nhưng việc khai thác nguồn dữ liệu
này vẫn chưa đạt hiệu quả cao. Hiện nay, trên thế giới đã có khá nhiều hệ
thống thực hiện công việc này theo những phương pháp khác nhau tuy chưa
đạt được hiệu quả tối ưu nhưng cũng phần nào đáp ứng được các yêu cầu
thông tin của người sử dụng. Mỗi phương pháp khác nhau đều thể hiện được
những điểm mạnh riêng của nó và việc lựa chọn phương pháp nào phụ thuộc
vào những mục đích và tiêu chí riêng đặt ra.
Hiện nay, sự gia tăng của các phương tiện truyền thông trong việc lưu
trữ và sự bùng nổ của các cơ sở dữ liệu lớn làm cho việc tìm kiếm văn bản
càng trở nên quan trọng hơn bao giờ hết. Chính vì vậy, việc lựa chọn phương
pháp tìm kiếm văn bản giúp cho người sử dụng có thể tìm kiếm được những
thông tin cần thiết một cách chính xác hiệu quả từ nguồn tài liệu văn bản rộng
lớn phục vụ cho các mục đích trong công việc cũng như trong đời sống là rất
cần thiết. Nhận thức được tầm quan trọng của việc khai thác dữ liệu văn bản,
em đã lựa chọn đề tài: “Tìm kiếm văn bản tiếng Việt”.
Với đề tài này em đi sâu vào nghiên cứu việc tìm kiếm văn bản tiếng
Việt sử dụng lý thuyết tập thô tập thô dung sai (Tolerance Rough Set Model).
Đây cũng là một trong những phương pháp rất hiệu quả cho mục đích khai
phá dữ liệu cũng như tìm kiếm văn bản tiếng Việt vì nó đã phần nào giải
quyết được vấn đề đồng nghĩa trong tiếng Việt mà từ trước cho tới nay vẫn
chưa có một biện pháp nào giải quyết tốt cho vấn đề đồng nghĩa. Đây là một
đề tài tương đối rộng và phức tạp nhưng thời gian nghiên cứu không nhiều, sự
hiểu biết trong lĩnh vực này còn bị hạn chế nên đồ án tốt nghiệp này sẽ không
tránh khỏi những thiếu sót. Em rất mong nhận được sự đóng góp, chỉ bảo
thêm của thầy cô và các bạn đọc để đồ án này hoàn thiện và hữu ích hơn
trong thời gian tới.
TrÞnh §øc Cêng Trang 3

Website: Email : Tel : 0918.775.368
Em xin chân thành cảm ơn TS. Nguyễn Kim Anh. Cô đã mở ra cho em
hướng nghiên cứu về tìm kiếm văn bản tiếng Việt đồng thời cô đã tận tình
hướng dẫn em trong suốt quá trình làm đồ án.
anh Lưu Anh Tuấn và anh Lê Minh Hiền những người đã tận tình giúp
em trong quá trình làm đồ án. Tôi cũng xin cảm ơn các bạn học cùng khoa đã
đóng góp ý kiến cho tôi để hoàn thành đồ án một cách tốt hơn.
TrÞnh §øc Cêng Trang 4
Website: Email : Tel : 0918.775.368
PHẦN I. CƠ SỞ LÝ THUYẾT
I.TIẾNG VIỆT VÀ NGỮ PHÁP TIẾNG VIỆT
1.Tính chính xác của văn bản tiếng Việt
Khi nghiên cứu về văn bản tiếng Việt chúng ta gặp rất nhiều khó khăn
trong việc tin học hoá phục vụ cho việc khai phá nguồn dữ liệu văn bản tiếng
Việt. Một trong những khó khăn đó chính là ngữ pháp tiếng Việt. Để phân
tích và kiểm tra tính chính xác của một văn bản tiếng Việt, chúng ta phải tiến
hành phân tích từ vựng, phân tích cú pháp, phân tích ngữ nghĩa, và phân tích
chứng thực.
Phân tích từ vựng: Quá trình này nhằm phân tích hình thái của các từ
tạo nên câu từ đó kiểm tra được tính đúng đắn của âm tiết và từ.
Phân tích cú pháp: Quá trình này đưa ra mô tả về quan hệ và vai trò
ngữ pháp của các từ trong câu đồng thời đưa ra hình thái của câu. Đầu vào
của giai đoạn này là câu đã được phân tách từ, trong đó mỗi từ có đặc điểm
hình thái nhất định. Quá trình kiểm tra cú pháp tiến hành phân tích và tổ hợp
các từ ở đầu vào, dựa trên các luật cú pháp để loại bỏ các trường hợp bất quy
tắc và từng bước dựng lên cấu trúc cú pháp của câu. Đầu ra của giai đoạn
này là hình thái câu. Các luật cú pháp thường được xây dựng theo cơ chế
mở, nghĩa là có thể sửa đổi, bổ sung hay loại bỏ các luật thừa. Kết quả của
bước phân tích cú pháp phụ thuộc rất nhiều vào tính chính xác và đầy đủ của
các luật cú pháp.

Phân tích ngữ nghĩa: Mục đích của quá trình này là kiểm tra ý nghĩa
của câu có mâu thuẫn với cả đoạn hay không? Dựa trên mối quan hệ logic về
nghĩa giữa các cụm từ trong câu và mối quan hệ giữa các câu trong đoạn, hệ
thống sẽ xác định được một phần ý nghĩa của câu trong ngữ cảnh của cả
đoạn. Đầu vào của giai đoạn phân tích ngữ nghĩa là tập các khả năng phân
tích câu và thông tin về ngữ nghĩa của tất cả các từ. Các thực từ thường có
TrÞnh §øc Cêng Trang 5
Website: Email : Tel : 0918.775.368
nhiều nghĩa và nghĩa của nó chỉ được xác định duy nhất trong mối quan hệ
giải thích với các từ khác trong câu.
Một cách tiếp cận được nhiều người quan tâm là sử dụng logic vị từ để biểu
diễn thông tin ngữ nghĩa. Thông tin ngữ nghĩa được lưu trư giống như thông
tin cú pháp. Các phương pháp lập luận logic có thể dùng để phỏng đoán và
suy luận nhiều thông tin hơn dựa trên thông tin đầu vào. Các thông tin này
không cần phải phân loại (nhận giá trị đúng hay sai). Mô hình cấu trúc ngữ
pháp của câu là cấu trúc có đầy đủ nghĩa ngữ pháp và thông báo. Có hai cách
miêu tả:
Miêu tả các quan hệ cú pháp giữa từ và tổ hợp từ.
Miêu tả mô hình hay ý của câu. Việc miêu tả nhằm cho phép suy đoán
được ý của các bộ phận lớn hơn từ từ đó xác định ý của câu. Câu là một thể
trọn vẹn chứ không phải là tổng các bộ phận cấu thành nó. Ý của câu là tích
ý nghĩa các yếu tố tham gia cùng với ý nghĩa quan hệ tổng thể cấu trúc câu.
Từ là một tổ hợp của câu, trong từ thể hiện một phần ý của câu. Nhưng từ
không nhất thiết phải hiện diện trong câu với nghĩa mà nó có khi đóng vai
trò một đơn vị độc lập ở cấp độ khác. Dựa trên mô hình cấu trúc cú pháp
câu, ta có thể nhận diện cấu trúc chìm của câu (như hành động-chủ thể hành
động, hành động - đối tượng hành động…), giúp giải thích được ý nghĩa của
câu và vạch ra tính đa nghĩa của chúng.
Phân tích thực chứng: Quá trình này xác định ý nghĩa câu dựa trên
mối quan hệ của câu với hiện thực. Ý nghĩa thực tế của câu phụ thuộc phụ

thuộc rất nhiều vào ý, tứ và ngữ cảnh diễn ra lời nói. Do vậy, quá trình phân
tích thực chứng rất khó thực hiện bằng máy tính thông thường, việc phân
tích câu chỉ dừng ở mức phân tích phân tích ngữ nghĩa, còn việc phân tích
thực chứng do người dùng quyết định.
TrÞnh §øc Cêng Trang 6
Website: Email : Tel : 0918.775.368
2. Từ tiếng Việt
Trong phạm vi cấu tạo từ, phương tiện chủ yếu về ngữ pháp chính là
sự kết hợp các tiếng. Trật tự sắp xếp các tiếng có vai trò qua trọng trong cấu
tạo từ. Kết hợp các phương tiện này. Có hai phương thức cấu tạo từ chủ yếu
đó là láy và ghép. Láy là việc sắp đặt các tiếng thành đôi, kề cận nhau, có sự
phối hợp về ngữ âm tạo nên nghĩa. Còn ghép là việc sắp đặt các tiếng thành
đôi, kề cận nhau, có sự kết hợp về ngữ nghĩa tạo nên nghĩa của từ ghép.
TrÞnh §øc Cêng Trang 7
Website: Email : Tel : 0918.775.368
2.1. Từ đơn_từ ghép.
Từ trong tiếng Việt có thể là một tiếng hay gồm nhiều tiến. Hơn nữa,
trong tiếng Việt những từ nhiều tiếng có thể được ghép bởi những tiếng hay
từ khác có nghĩa. Ví dụ như hai từ chỉ một tiếng đó là từ “đất”, “nước” có
thể được ghép với nhau thành một từ có nghĩa trừu tượng hơn là đó là từ
“đất nước”. Những từ này gọi là từ ghép.
Do sự tồn tại của những từ đơn (là những từ một tiếng) và từ ghép,
chúng ta phải tiến hành nghiên cứu để có thể đề xuất những phương án hữu
hiệu trong bài toán nhận dạng từ trong câu.
Khi xem xét từ ghép, chúng ta có thể thấy có hai loại như sau:
Từ ghép song song: Mỗi tiếng thường là một tiếng có nghĩa, có thể
dùng là từ một tiếng, gắn bó với nhau theo quan hệ song song và nói chung
có thể đổi chỗ cho nhau. Trong sự phối hợp về ngữ nghĩa thì thường có sự
biến đổi về nghĩa riêng thành một nghĩa hình tượng.
Ví dụ: Ăn uống, bàn ghế, nhà cửa…

Từ ghép chính phụ: Mỗi tiếng có thể có một tiếng có nghĩa, nhưng
thông thường có một tiếng có thể dùng làm từ còn tiếng kia không có chức
năng ngữ pháp đó.
Tiếng Việt tồn tại một số các các từ ghép có nhiều hơn hai tiếng, phát
triển từ loại từ ghép chính phụ, qua đó có thể chia thành cá phần chính, phần
phụ, thuận tiện hơn trong việc phân tích từ. Chính sự tồn tại của từ ghép
(ghép bởi các tiếng có nghĩa) là nguyên nhân của sự nhập nhằng về nghĩa
của câu. Do vậy, để tránh sự nhập nhằng về nghĩa trong câu, muốn phân tích
và xử lý văn bản tiếng Việt một cách tốt nhất thì bài toán đặt ra là làm thế
nào để tách các từ trong câu thật chính xác.
TrÞnh §øc Cêng Trang 8
Website: Email : Tel : 0918.775.368
2.2. Từ loại
Trong tiếng Việt, từ được phân ra thành nhiều từ loại khác nhau.
Trong tài liệu “Từ loại danh từ trong tiếng Việt hiện đại” của tác giả Nguyễn
Tài Cẩm ta thấy xuất hiện các từ loại cơ bản sau:
Danh từ: bàn, ghế, vải vóc, khoa học, kỹ thuật,…
Động từ: đi, đứng, nghiên cứu, chăm sóc,…
Tính từ: nóng, đẹp, đẹp đẽ, vui vẻ, buồn,…
Đại từ: tôi, họ, nó,…
Số từ: một, hai, ba,…
Loại từ: con, cái,…
Quán từ: các, những,…
Trạng từ: trên, dưới, trong, ngoài,…
Liên từ và, hay, nếu, tuy,…
Giới từ: cùng, với, bằng, để,…
Phó từ: đã, sẽ, khong, rất,…
Trợ từ: nhỉ, nhé, thì mà,…
Tất nhiên trong việc phân loại trên chỉ có ý nghĩa tương đối, vì trong
nhiều tài liệu khác nhau vẫn có sự khác nhau về cách phân chia theo từ loại.

Nếu xem xét một cách kỹ lưỡng hơn nữa về mặt cú pháp, trong mỗi loại từ
còn có thể chia nhỏ hơn được nữa.
TrÞnh §øc Cêng Trang 9
Website: Email : Tel : 0918.775.368
2.3. Dùng từ cấu tạo ngữ
Ngữ là đơn vị ngữ pháp trung gian giữa từ và câu. Cho nên việc tìm
hiểu cấu tạo cũng như các loại ngữ là cần thiết để tìm hiểu cấu tạo của câu.
Qua cấu tạo ngữ, có thể nhận rõ thêm đặc điểm ngữ pháp của từ loại.
Theo “Ngữ pháp tiếng Việt-câu ”của tác giả Hoàng Trọng Hiếu,
tiếng Việt có các ngữ loại cơ bản sau:
Danh ngữ: Ngữ có danh từ làm trung tâm.
Động ngữ: Ngữ có động từ làm trung tâm.
Tính ngữ: Ngữ có tính từ làm trung tâm.
Giới ngữ: Ngữ bắt đầu bằng giới từ.
Để xây dựng được một hệ thống luật cú pháp tốt, ta cần phải chia các
loại ngữ một cách chặt chẽ hơn. Và do vậy, ta cũng hạn chế số lượng câu sai.
Chẳng hạn, danh ngữ kết thúc trái (là danh ngữ mà vế trái của nó đã ở điểm
tận cùng), ta không thể thêm hay bổ sung từ nào vào đầu để tạo nên danh
ngữ mới.
Ví dụ “một bài toán”; ta không thể bổ sung “các”, “những”,… vào
trước ngữ đó.
3. Câu tiếng Việt
Câu là đơn vị dùng từ, hay đúng hơn là dùng ngữ mà cấu tạo nên trong
quá trình tư duy. Xét về mặt cấu trúc câu, tiếng Việt có hai loại câu là câu
đơn và câu ghép.
TrÞnh §øc Cêng Trang 10
Website: Email : Tel : 0918.775.368
3.1 Câu đơn
Câu đơn là loại câu cơ sở của tiếng Việt, nó bao gồm một nòng cốt
đơn hay một kết cấu chủ vị. Về mặt ngữ nghĩa, Câu đơn mang ngữ nghĩa tự

thân, còn câu ghép mang nghĩa kết hợp. Câu đơn có thể là câu khẳng định,
câu phủ định, câu nghi vấn, câu tường thuật, câu cầu khiến, câu biểu cảm.
Ví dụ:
Nó học rất giỏi.
Nó không học giỏi.
Nó học có giỏi không?
Nó đang đi đến trường.
Em đi học đi!
Em mới học giỏi làm sao!
Nòng cốt của câu đơn là một kết cấu chủ vị. Ngoài ra câu đơn còn có
các thành phần nòng cốt khác như:
Thành phần than gọi. Ví dụ ” Bạn ơi, chúng ta đi nào”.
Thành phần chuyển tiếp. Ví dụ “ Anh Trường, trái lại, không làm gì
cả”.
Thành phần chú thích. Ví dụ “Nó, em tôi, rất thông minh”.
Thành phần tình huống. Ví dụ “ Trong máy tính, dữ liệu ở dạng nhị
phân”.
Thành phần khởi ý. Ví dụ “Thuốc, anh ấy không hút”.
Để diễn đạt một câu đơn, người ta thường dùng mô hình suy diễn:
Câu đơn → Px – Cx – Vx – Bx.
Trong đó P: Thành phần phụ
TrÞnh §øc Cêng Trang 11
Website: Email : Tel : 0918.775.368
C: Chủ ngữ
V: Vị ngữ
B: Bổ ngữ, định ngữ.
x: thành phần có thể triển khai tiếp.
3.2 Câu ghép
Về mặt ngữ pháp, câu ghép bao gồm bộ phận chủ yếu là một nòng cốt
ghép, được tạo nên bởi ít nhất hai vế và mỗi vế thường bao gồm một nòng

cốt đơn. Tuy rằng, câu đơn chỉ có một nòng cốt đơn nhưng không phải bao
giờ câu đơn cũng ngắn hơn câu ghép. Người ta có thể chia câu ghép thành
hai loại: Câu ghép song song và câu ghép qua lại.
Câu ghép song song: Là loại câu có thể có hai hay nhiều hơn hai vế.
Tuy nhiên, sự liên kết giữa các vế lỏng lẻo, có thể tách thành các câu đơn mà
vẫn bảo toàn nghĩa. Có trường hợp các vế có quan hệ sử dụng kết từ, tuy
nhiên ý nghĩa độc lập của các vế vẫn tương đối rõ ràng.
Ví dụ:
Khán giả hò reo, cuộc đấu diễn ra thật sôi động và chúng tôi muốn đội
chủ nhà sẽ thắng.
Câu ghép qua lại: Là loại câu có hai vế và vế này là điều kiện tồn tại
của vế kia. Có cả hai vế thì câu mới có ý nghĩa trọn vẹn. Nối giữa các vế là
các kết từ, thông thường người ta dùng cả cặp kết từ. Ta có thể biểu diễn câu
ghép như sau:
Câu ghép → xN1 + yN2
Một trong cá kết từ có thể được loại bỏ. Ta có một số ví dụ sau:
(Bởi) vì N1 nên (hoặc mà N2)
Để N1 (cho) nên (hoặc mà) N2
TrÞnh §øc Cêng Trang 12
Website: Email : Tel : 0918.775.368
Nếu N1 thì N2
Không những N1 mà còn N2
Tôi đi thì nó sẽ buồn.
Vì phở ngon nên cửa hàng của nó mới đông khách đến thế
3.3 Các thành phần của câu
Chủ ngữ: Thành phần chủ yếu của câu.
Vị ngữ: Thành phần chính, bổ sung, giải thích ý nghĩa cho
thành phần chủ yếu.
Trạng ngữ: Thành phần chủ yếu, bổ sung ý nghĩa cho câu, chỉ
nơi chốn, thời gian, không gian, …

Bổ ngữ: Thành phần phụ thuộc, bổ sung ý nghĩa cho động từ
làm vị ngữ.
Định ngữ: Thành phần phụ thuộc, bổ sung ý nghĩa cho vị ngữ.
4. Các đặc điểm của tiếng Việt
TrÞnh §øc Cêng Trang 13
Website: Email : Tel : 0918.775.368
4.1 Đặc điểm chính tả
Chính tả tiếng Việt đã có một hệ thống các quy tắc chuẩn mực. Tuy
vậy, vẫn còn có một số từ tồn tại nhiều cách viết khác nhau. Ngay cả bản
thân một người cũng có lúc viết thế này, có lúc lại viết khác. Sự sai khác này
là do những nguyên nhân sau:
Những từ đồng âm: y/i (kỹ thuật/ kĩ thuật, bác sĩ/ bác sỹ), d/gi (dông
bão/ giông bão)
Phương ngữ: chính đáng/ chánh đáng
Vị trí dấu trong một nguyên âm: cứu hoả/ cứu hỏa
Cách viết hoa tuỳ tiện đối với danh từ riêng: Tồn tại nhiều cách viết
khác nhau ví dụ như Việt nam / Việt Nam
Phiên âm nước ngoài: là hình thức biến chữ ngoại quốc thành chữ địa
phương. Nhưng hiện nay tồn tại cả hai cách viết đó là phiên âm hoặc không
phiên âm. Ví dụ singapo / sing-ga-po
Dấu gạch nối thường xuất hiện các từ đa âm nước ngoài du nhập vào
Việt Nam. Ví dụ như: Portugal được dịch là Bồ Đào Nha / Bồ-Đào-Nha.
Các cách viết không thống nhất sẽ gây rất nhiều khó khăn trong việc
kiểm tra chính tả cũng như áp dụng kiểm tra chính tả tự động bằng máy tính.
TrÞnh §øc Cêng Trang 14
Website: Email : Tel : 0918.775.368
4.2 Vấn đề đa nghĩa và nhập nhằng trong ngôn ngữ
Phân tích cú pháp cho ta điểm khởi đầu để tìm ra ý nghĩa của toàn bộ
câu. Khi chỉ có một cách phân tích thì việc tìm ra ý nghĩa của câu là việc khá
đơn giản. Nhưng khi có nhiều cách phân tích thì việc tìm ra ý nghĩa thật của

câu là một công việc khó khăn.
Ví dụ câu: “Tôi nghe nó ra thành phố”. Câu này có hai cách phân tích
sau:
Tôi
(là chủ ngữ)
// nghe
( là động từ)
// nó ra thành phố
( là bổ ngữ)
Tôi
(chủ ngữ)
// nghe nó
(thành phần giải thích)
// ra thành phố
Cách phân tích thứ nhất thì đối tượng “ra thành phố ” là “Tôi”
Cách phân tích thứ hai thì đối tượng “ra thành phố” là “nó”
Những câu như thế gọi là nhập nhằng cú pháp. Sự nhập nhằng cú pháp
sẽ gây khó khăn trong quá trình phân tích.
TrÞnh §øc Cêng Trang 15
Website: Email : Tel : 0918.775.368
II. MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VĂN BẢN
1. Biểu diễn văn bản
Như chúng ta đã biết, bài toán khai phá dữ liệu văn bản là đi
phát hiện các tri thức còn tiềm ẩn trong dữ liệu văn bản. Các tri thức đó có
thể là một mẫu hình hoặc được biểu diễn dưới dạng luật. Đó thực chất là các
biểu diễn có cấu trúc. Tuy nhiên dữ liệu mà chúng ta áp dụng các kỹ thuật
khai phá lai là dữ liệu phi cấu trúc. Chính vì điều này làm cho chúng ta
không thể áp dụng trực tiếp trên dữ liệu đầu vào mà cần phải có các thao tác
tiền xử lý khác.
Với yêu cầu phân tích sâu hơn các văn bản, mỗi tài liệu cần

được chuyển sang một dạng ngôn ngữ biểu diễn lại nào đó. Một trong các
ngôn ngữ biểu diễn lại được sử dụng rộng rộng rãi nhất đối với các văn bản
là kiểu lập chỉ mục theo từ đại diện. Khi xem một văn bản ta quan tâm đến từ
đại diện. Đó chính là một từ hay một cụm từ được lựa chọn để biểu diễn ý
nghĩa hay đặc trưng của văn bản.
Do vậy, một vấn đề đặt ra là làm thế nào để trích lọc các từ đại diện
cho văn bản một cách chính xác và đặc trưng cho văn bản. Việc trích lọc các
từ đại diện cho văn bản là một khâu quan trọng trong việc giải quyết bài toán
khai phá dữ liệu văn bản.
Mô hình dưới đây nhằm xác định các từ đại diện cho văn bản một
cách tự động.
Hình 1: Mô hình xác định từ đại diện cho văn bản
TrÞnh §øc Cêng Trang 16
Bộ đọc
(reader)
Phân tích
cú pháp
Sinh từ Lọc từVăn bản
Website: Email : Tel : 0918.775.368
TrÞnh §øc Cêng Trang 17
Website: Email : Tel : 0918.775.368
Sinh từ ( Term Generation)
Văn bản sau khi qua bộ phân tích cú pháp có thể đã thu được khá
chính xác các từ trong văn bản. Tuy nhiên, không phải từ nào cũng được
chọn làm từ đại diện cho văn bản. Chúng ta phải loại bỏ các từ mang ít thông
tin. Trong bước sinh từ đại diện, chuỗi các từ đại diện chọn làm ứng cử viên
tiềm năng dựa trên mẫu hình thái cú pháp như: “Danh từ - Danh từ”, “Tính
từ - Danh từ”…
Sau khi đã có một chuỗi các ứng cử viên, ta tiến hành nối các từ đại
diện này thành các từ đại diện đơn (single term) mới, quá trình này được

thực hiên qua nhiều vòng lặp. Tại mỗi vòng lặp, ta tính hệ số kết hợp
(association coeffcient) giữa mỗi cặp từ đại diện kề nhau. Nếu cặp từ nào có
hệ số kết hợp đủ lớn sẽ được nối lại thành một từ đại diện mới.
Có hai vấn đề đặt ra, thứ nhất là những mẫu hình thái – cú pháp nào
được sử dụng để tiến hành lập danh sách các từ đại diện tiềm năng, thứ hai là
hệ số kết hợp được tính như thế nào.
Đã có rất nhiều nghiên cứu về các mẫu hình thái – cú pháp, việc sử
dụng các mẫu nào để có thể trích các từ đại diện từ văn bản. Hiện nay, người
ta thường sử dụng một số mẫu hình như “Danh từ- Danh từ”, “Động từ -
Danh từ”, “Danh từ - Kết từ - Dang từ” để có thể trích được các từ đại diện
dạng như: Khai phá dữ liệu, Quản trị doanh nghiệp, quản lý nhân sự…
Tuy nhiên, không phải bất cứ tổ hợp từ nào phù hợp với mẫu hình
hình thái – cú pháp đều có thể được chọn. Chỉ những cụm từ có hệ số kết
hợp đủ lớn mới được đưa vào danh sách những từ đại diện có nhiều tiềm
năng. Có nhiều cách tính hệ số kết hợp, trong đó người ta thường sử dụng
một hàm tính độ đo đồng xuất hiện, tính số lần hai từ cùng xuất hiện theo
mẫu hình thái – cú pháp trong văn bản.
TrÞnh §øc Cêng Trang 18
Website: Email : Tel : 0918.775.368
Lọc từ (Term Filter)
Bước sinh từ được mô tả ở trên tạo ra một danh sách rất dài các từ đại
diện, danh sách này được gắn với mỗi tài liệu mà không quan tâm đến mối
liên hệ trên toàn bộ các tập văn bản. Trong khi đó, bước chiết xuất từ đại
diện (term extraction) chỉ có ý nghĩa là chuẩn bị cho các kỹ thuật khai phá
dữ liệu văn bản khác, giải quyết các bài toán làm việc trên một tập lớn các tài
liệu như phân lớp văn bản, phân loại văn bản, tìm kiếm văn bản…do đó mối
tương quan giữa các từ chiết xuất được và tập văn bản phải được lưu ý đến.
Ngưỡng kết hợp mà ta chọn ở trên có thể tạo ra một danh sách rất dài các từ
đại diện nhiều hơn mong đợi, dư thừa, không có hiệu quả khi xét trên toàn
bộ tập văn bản. Mục đích của pha lọc từ này là thu gọn tập từ đại diện dựa

vào tần xuất của mỗi từ trên toàn bộ tập văn bản. Pha lọc từ sẽ tìm và loại bỏ
các từ đại diện không đáng quan tâm trên toàn bộ ngữ cảnh của toàn bộ tập
văn bản, hoặc tần xuất của từ đó chưa đủ lớn (chưa vượt qua ngưỡng) hoặc
sự phân bố không đồng đều trên toàn bộ tập văn bản.
Cách tiếp cận của chúng ta là sử dụng một hàm thống kê cho điểm
trên các từ. Hàm này gán điểm cho mỗi từ dựa trên tần xuất của từ đó trên
toàn bộ văn bản nói chung và phân bố xác xuất trên mỗi văn bản nói riêng.
Chúng ta sẽ tiến hành chọn những từ có số điểm vượt ngưỡng M (do người
sử dụng chọn qua thực nghiệm), tập này sẽ được sử dụng cho các kỹ thuật
khai phá dữ liệu văn bản sẽ được trình bầy ở phần sau.
2. Các kỹ thuật khai phá
Các bài toán thường được quan tâm trong khai phá dữ liệu văn bản là
Phân loại văn bản (text categorization), Phân lớp văn bản (text
classification), lập chỉ mục tìm kiếm (text indexing). Các bài toán này đều
phải dựa vào một yếu tố vô cùng quan trọng là những mẫu hình tri thức
(patterns) hoặc các luật mà chúng ta khai phá được từ tập văn bản để luyện
(training document). Trong phần này, ta sẽ xem xét một số những kỹ thuật
TrÞnh §øc Cêng Trang 19
Website: Email : Tel : 0918.775.368
dùng để khai phá tri thức từ tập các văn bản như phát hiện các luật kết hợp
(association rules discovery), lập chỉ mục tự động (automated indexing)…
TrÞnh §øc Cêng Trang 20
Website: Email : Tel : 0918.775.368
2.1. Khai phá các luật kết hợp (Association Rules)
Nếu dữ liệu dạng văn bản đã được lập chỉ mục, với mục đích trợ giúp
cho quá trình xử lý ngôn ngữ tự nhiên, cấu trúc chỉ mục (indexing structure)
có thể được sử dụng cho quá trình phát hiện tri thức chính xác từ dữ liệu văn
bản.
Trong phần này, chúng ta xem xét cách tìm kiếm thông tin trong một
tập các tài liệu đã được lập chỉ mục bằng cách tìm kiếm (retrieveing) một

cách tự động những mối quan hệ kết hợp giữa các từ khoá (key-word), được
gọi là luật kết hợp (association rule).
TrÞnh §øc Cêng Trang 21
Website: Email : Tel : 0918.775.368
2.2. Lập chỉ mục tự động (Auto indexing)
Trong hầu hết các trường hợp lập chỉ mục, người ta vẫn thực hiện một
cách thủ công. Rõ ràng thao tác lập chỉ mục thủ công đòi hỏi rất nhiều thời
gian và không đáng tin cậy. Việc lập chỉ mục tự động trên cơ sở tài liệu văn
bản có thể được xem xét với mục đích cho phép sử dụng các kỹ thuật chiết
xuất luật kết hợp trên một diện rộng. Các kỹ thuật lập chỉ mục tự động có thể
sử dụng sơ đồ gán trọng số như sau:
Trong đó: w
i,j
là trọng số của từ khoá t
j
trong tài liệu d
i,
N là số lượng tài liệu trong tập tài liệu và n
j
là số lượng tài
liệu có chứa từ khoá t
j.

p
ij
là tần số lài liệu liên quan của t
j
trong d
i

và được tính theo
công thức sau:
Trong đó: f
i,j
là số lần xuất hiện từ khoá t
j
trong tài liệu d
j
Khi một sơ đồ đánh trọng số được lựa chọn thì việc đánh chỉ mục tự
động có thể được thực hiện như là phép lựa chon đơn giản, trong đó các từ
được lựa chọn thoả mãn ràng buộc trong số đã cho.
Lợi ích của việc lập chỉ mục tự động là rút gọn được chi phí của việc
lập chỉ mục. Tuy nhiên, một trong những nhược điểm của phương pháp này
là do không có thêm bất kỳ một tri thức (ví dụ như từ điển xếp loại đồng
TrÞnh §øc Cêng Trang 22





=
≠+×
=
00
0)log()
)(max
1(5.0
,
,
,

,
,
ji
ji
jlil
ji
ji
p
p
n
N
p
p
w
∑
=
k
ki
ji
ji
f
f
p
,
,
,
Website: Email : Tel : 0918.775.368
nghĩa) nên thủ tục lập chỉ mục tự động tạo ra các chỉ mục chung chung,
không thực sự mạnh mẽ, chặt chẽ, hướng chủ đề.
3. Phân nhóm văn bản

Với nhiệm vụ của bài toán khai phá dữ liệu văn bản là tìm kiếm những
thông tin còn tiềm ẩn trong trong cơ sở dữ liệu. Với những cơ sở dữ liệu lớn
vấn đề đặt ra là các hệ thống tìm kiếm sao cho có hiệu quả, một trong những
kỹ thuật chủ yếu là phân nhóm văn bản nhằm giải quyết vấn đề trên.
Trong bài toán phân nhóm, một nhóm là tập hợp các phần tử giống
nhau hơn so với các phần tử thuộc nhóm khác. Mục tiêu của bài toán phân
nhóm là tìm ra được một tập các nhóm sao cho độ tương đồng giữa các
thành phần bên trong mỗi nhóm cao và độ tương đồng giữa các phần tử
thuộc các nhóm khác nhau thấp.
• Phương pháp phân nhóm phân cấp.
Đối với phương pháp phân nhóm phân cấp, quá trình xây dựng
phân cấp thường có chi phí lớn nhất. Đã có rất nhiều thuật toán được phát
triển nhằm xây dựng cây phân cấp văn bản một cách có hiệu quả. Các thuật
toán này thường có chung phương pháp lặp quá trình phân tích hai cặp nhóm
đã được xây dựng từ trước và hợp nhất cặp có độ tương đồng lớn nhất thành
một nhóm văn bản. Các thuật toán chỉ khác nhau việc tính toán độ tương
đồng khi một trong số các cặp là sản phẩm của quá trình hợp nhất trước đó.
Phương pháp phân nhóm đơn liên kết định nghĩa độ tương đồng là độ tương
đồng lớn nhất giữa hai đơn vị từ hai nhóm. Các phương pháp phân nhóm
khác như phương pháp như liên kết hoàn toàn sử dụng độ tương đồng nhỏ
nhất, phương pháp phân nhóm liên kết nhóm trung bình sử dụng độ tương
đồng trung bình. Các thuật toán này thường có chung đặc tính tích tụ ở chỗ
chúng đều lặp quá trình ghép hai nhóm văn bản thành một nhóm. Các thuật
toán tích tụ theo nghĩa của thuật toán tham lam, nghĩa là cặp nhóm văn bản
được chọn để kết hợp là cặp gần giống nhau nhất theo một tiêu chí nào đó.
TrÞnh §øc Cêng Trang 23
Website: Email : Tel : 0918.775.368
Cuối cùng, thuật toán này đều có tính toàn cục ở chỗ tất cả các cặp nhóm đều
được xử lý để tính toán độ tương đồng và do đó độ phức tạp tính toán đều là
O(n

2
). Đây là một trong nhược điểm lớn nhất của các thuật toán dạng này.
• Phương pháp phân nhóm không phân cấp:
Các thuật toán phân nhóm dạng không phân cấp hoạt động theo
cách thức trái ngược so với các thuật toán phân nhóm phân cấp. Các thuật
toán này luôn tăng đơn điệu số phần tử của từng nhóm và các nhóm mới có
thể là kết quả của quá trình tách hay hợp các nhóm cũ. Các phương pháp
phân nhóm không phân cấp có thể yêu cầu các văn bản không thể được trùng
nhau ở các nhóm khác nhau (như phương pháp chia) hoặc có thể trùng nhau.
TrÞnh §øc Cêng Trang 24
Website: Email : Tel : 0918.775.368
III. MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN
1. Tìm hiểu chung về các hệ thống khai thác thông tin
Các hệ thông khai thác thông tin có thể được công thức hoá một
cách tổng quát như một hàm ℘=(τ,D,Q,α) với τ={t
1
, t
2
,…, t
M
} là tập các
term (các từ khoá) ; D={d
1
, d
2
,…, d
N
} là tập các tài liệu trong đó mỗi d
i
⊆τ ;

Q={Q
1
,Q
2
,…, Q
p
} là tập các truy vấn trong đó mỗi Q
K
⊆τ ; và α: Q × D
-> R là hàm xếp hạng ước lượng độ chính xác giữa một truy vấn và một tài
liệu. Cho một truy vấn q∈Q với các tài liệu d
j1
,d
j2
∈D nếu α(q,d
j1
) > α(q,d
j2
)
thì d
j1
được cho rằng chính xác hơn d
j2
với truy vấn q.
Thông thường, một tài liệu dj có thể được biểu hiện với các cặp term
và trọng lượng dj= (t
j1
,w
j1
;t

j2
,w
j2
; ….; t
jn
,w
jn
) với t
jk
∈τ và w
j1
∈[0,1] đánh
giá tầm quan trọng của term t
jk
trong tài liệu d
j
. Một truy vấn q ∈Q cũng có
thể được biểu diễn bởi tập các cặp term và trọng lượng q=(q
1
,w
q1
;t
2
,w
q2
;
….;t
t
,w
qt

) với q
k
∈τ và w
qk
∈[0,1]. Nhiệm vụ của khai thác thông tin là mang
lại một tập A={d
j1
,d
j2
,…,d
jm
}⊆D với truy vấn q và một hàm xếp hạng α
(Q,djk).
Sau đây, chúng ta sẽ tìm hiểu kỹ về hai mô hình tìm kiếm thông tin
được sử dụng rộng rãi và khá phổ biến đó là mô hình không gian vectơ và
mô hình lý thuyết tập thô
TrÞnh §øc Cêng Trang 25

Tìm kiếm văn bản tiếng Việt

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về