Tải bản đầy đủ (.pdf) (69 trang)

TÍNH TOÁN ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƯƠNG TỰ GIỮA TỪ VỚI TỪ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.28 MB, 69 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ








Đỗ Thị Thanh Nga






TÍNH TOÁN ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN
DỰA VÀO ĐỘ TƯƠNG TỰ GIỮA TỪ VỚI TỪ






LUẬN VĂN THẠC SĨ















HÀ NỘI - 2010


LỜI CẢM ƠN

Trước tiên, tôi xin được bày tỏ sự trân trọng và lòng biết ơn đối với TS. Nguyễn
Phương Thái, giảng viên Bộ môn Khoa học máy tính - Khoa Công nghệ thông tin -
Trường Đại học Công nghệ - ĐHQGHN. Trong thời gian làm luận văn tốt nghiệp, thầy
đã dành nhiều thời gian quí báu và tận tình chỉ bảo, hướng dẫn tôi trong việc nghiên
cứu, thực hiện luận văn.
Tôi xin được cảm ơn các GS, TS đã giảng dạy tôi trong quá trình học tập và làm
luận văn. Các thầy đã giúp tôi hiểu thấu đáo hơn lĩnh vực mà mình nghiên cứu để có
thể vận dụng các kiến thức đó vào trong công tác của mình.
Xin cảm ơn các bạn bè, đồng nghiệp và nhất là các thành viên trong gia đình đã
tạo mọi điều kiện tốt nhất, động viên, cổ vũ tôi trong suốt quá trình học tập và nghiên
cứu để hoàn thành tốt bản luận văn tốt nghiệp này.
Tuy đã có những cố gắng nhất định nhưng do thời gian và trình độ có hạn nên
chắc chắn luận văn này còn nhiều thiếu sót và hạn chế. Kính mong nhận được sự góp ý
của thầy cô và các bạn.





Hà Nội, ngày 20 tháng 09 năm 2010
Học viên




Đỗ Thị Thanh Nga
LỜI CAM ĐOAN

Tôi xin cam đoan rằng, đây là công trình nghiên cứu của tôi trong đó có sự giúp
đỡ rất lớn của thầy hướng dẫn và các đồng nghiệp ở cơ quan. Các nội dung nghiên cứu
và kết quả trong đề tài này là hoàn toàn trung thực.
Trong luận văn, tôi có tham khảo đến một số tài liệu của một số tác giả đã được
liệt kê tại phần Tài liệu tham khảo ở cuối luận văn.
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định
cho lời cam đoan của mình.






Hà Nội, ngày 20 tháng 09 năm 2010
Học viên





Đỗ Thị Thanh Nga
MỤC LỤC
DANH MỤC CÁC BẢNG 1
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 2
MỞ ĐẦU 3
CHƯƠNG I. KHÁI NIỆM ĐỘ TƯƠNG TỰ 5
1.1. Tổng quan về độ tương tự 5
1.2. Khái niệm độ tương tự 6
1.2.1. Định nghĩa độ tương tự (Definition of Similarity)
7
1.2.2. Độ tương tự giữa các giá trị có thứ tự ưu tiên (ordinal values)
8
1.2.3. Độ tương tự chuỗi (String Similarity-A case study)
9
1.3. Độ tương tự ngữ nghĩa 10
CHƯƠNG II. ĐỘ TƯƠNG TỰ TỪ-TỪ 11
2.1. Khái niệm từ, thuật ngữ 11
2.1.1. Từ và cấu trúc từ của tiếng Việt 11
2.1.1.1. Định nghĩa từ 11
2.1.1.2. Cấu trúc từ của tiếng Việt 11
2.1.2. Nghĩa của từ 12
2.1.3. Thuật ngữ (terms) 12
2.2. Từ đồng nghĩa 12
2.3. Các cách tiếp cận xử lý tài liệu theo ngữ nghĩa 14
2.3.1. Dựa trên trí tuệ nhân tạo (AI-based) 14
2.3.2. Dựa trên Cơ sở tri thức (Knowledge-based) 14
2.3.3. Dựa trên ngữ liệu (Corpus-based) 14
2.4. Độ tương tự ngữ nghĩa từ-từ dựa trên cơ sở tri thức (từ điển WordNet) 15
2.4.1. Khái quát về từ điển WordNet 15
2.4.2. Độ tương tự từ-từ dựa trên từ điển WordNet 16

2.5. Độ tương tự ngữ nghĩa từ-từ dựa trên ngữ liệu 17
2.5.1. PMI (Pointwise Mutual Information) (Thông tin chung dựa trên điểm) 18
2.5.2. LSA (Latent Semantic Analysis) (Phân tích ngữ nghĩa ẩn) 18
2.5.3. Phương pháp của Dekang Lin 18
CHƯƠNG III. ĐỘ TƯƠNG TỰ VĂN BẢN-VĂN BẢN 21
3.1. Xử lý văn bản tiếng Việt 21
3.1.1. Một số kết quả đã đạt được
21
3.1.2. Đặc trưng của cấu trúc ngữ pháp tiếng Việt 23
3.2. Tách từ trong văn bản tiếng Việt 23
3.3. Các hướng tiếp cận tách từ 24
3.3.1. Các hướng tiếp cận dựa trên “từ”
24
3.3.2. Các hướng tiếp cận dựa trên ký tự
25
3.4. Một số phương pháp tách từ tiếng Việt hiện nay 26
3.4.1. Phương pháp Maximum Matching: Forward/Backward
26
3.4.2. Phương pháp Transformation-based Learning (TBL)
27
3.4.3. Mô hình tách từ bằng WFST và mạng Neural
27
3.4.3.1. Tầng WFST 27
3.4.3.2. Tầng mạng Neural 28
3.4.4. Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di
truyền
28
3.4.4.1. Online Extractor 28
3.4.4.2. GA Engine for Text Segmentation 29
3.4.5. Nhận xét

29
3.5. Độ tương tự văn bản-văn bản 30
CHƯƠNG IV. TÍNH ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƯƠNG
TỰ GIỮA TỪ VỚI TỪ 33
3.1. Phát biểu bài toán 33
3.2. Giải quyết bài toán 33
3.2.1. Chuẩn bị dữ liệu
33
3.2.2. Tách từ: Tách văn bản thành các từ ghép và danh từ riêng
36
3.2.2.1. Tách từ ghép trong văn bản 36
3.2.2.2. Tách danh từ riêng trong văn bản 39
3.2.3. Tính toán độ tương tự văn bản 41
3.3. Xây dựng hệ thống 44
3.3.1. Nhập trực tiếp 2 văn bản
45
3.3.2. Nhập 2 văn bản từ file
46
3.3.3. Lấy nội dung 2 văn bản từ URL
47
3.4. Kết quả thử nghiệm và đánh giá 48
3.4.1. Một số ví dụ cụ thể 48
3.4.2. Kết quả thử nghiệm 54
3.4.2.1. Cách tiến hành 54
3.4.2.2. Kết quả thử nghiệm 54
3.4.3. Đánh giá 59
KẾT LUẬN 61
HƯỚNG PHÁT TRIỂN 62
TÀI LIỆU THAM KHẢO 63
1

DANH MỤC CÁC BẢNG
Bảng Trang
Bảng 1. Tần suất xuất hiện độ dài từ tiếng Việt trên trang Vdict.com 11
Bảng 2. Mô tả các bộ ba của từ “giàu” 19
Bảng 3. Các điểm khác biệt chính giữa tiếng Việt và tiếng Anh 24
Bảng 4. Địa chỉ của 20 tin tức trên một số trang Web 54
Bảng 5. Một số kết quả độ tương tự của hai file bất kỳ 55
Bảng 6. Kết quả đánh giá 20 tin tức do người và máy thực hiện 56
Bảng 7. Địa chỉ của 30 tin rao vặt trên các trang Web 56
Bảng 8. Một số kết quả độ tương tự của hai tin rao vặt bất kỳ 58
Bảng 9. Kết quả đánh giá 30 tin rao vặt do người và máy thực hiện 59
2
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình Trang
Hình 1. Ví dụ phân phối của các giá trị có thứ tự ưu tiên 9
Hình 2. Một phần từ điển WordNet 16
Hình 3. Các hướng tiếp cận cơ bản trong việc tách từ 24
Hình 4. Một phần của từ điển Dict 34
Hình 5. Danh sách một số file trong kho ngữ liệu đã xử lý 34
Hình 6. Một phần của từ điển các từ ghép 35
Hình 7. Một phần từ điển CompoundDict 35
Hình 8. Giao diện chính của hệ thống 45
Hình 9. Giao diện cho phép nhập trực tiếp hai văn bản 45
Hình 10. Giao diện kết quả độ tương tự sau khi nhập hai văn bản 46
Hình 11. Giao diện nhập hai văn bản từ file 46
Hình 12. Giao diện kết quả sau khi nhập hai văn bản từ file 47
Hình 13. Giao diện tính độ tương tự nội dung của hai trang Web 48
3
MỞ ĐẦU
1. Tính cấp thiết của đề tài

Trong thời

đại công

nghệ số như hiện nay,

các

nguồn tài

liệu là vô

cùng
phong phú. Việc

“sao chép

tài liệu” theo nghĩa tiêu cực như

đạo văn,

sao chép các
luận án,

luận văn,

đồ án

trở nên phổ biến và


đang là vấn nạn.

Ở qui

mô rộng hơn,
các thư viện

điện tử ngày càng nhiều, một tài liệu có thể

được

phát

hành trên
internet nhiều lần trong những thư viện

điện tử khác nhau,

trên

các

trang

web khác

nhau.

Làm thế nào


để phát hiện sự sao chép tài

liệu theo nghĩa tiêu

cực? Làm

thế
nào

ngăn chặn việc sao chép

trái phép,

đạo văn,

đạo nhạc,

đạo luận văn,

đồ án?

Chủ

đề này

đã được nghiên

cứu từ khoảng hơn 10

năm qua. Hiện tại,


đã có một số giải
pháp cho việc phát hiện sao chép

và một vài

công

cụ phần mềm

cho phép phát

hiện một tài

liệu (gọi là

văn bản kiểm tra
) có sao chép

từ một tập hợp các

tài liệu
nguồn
hay

không.

Tập hợp các tài liệu nguồn có thể là

đóng- tức là các tài liệu tập

hợp trước trong một thư viện

điện tử- hoặc là

mở, chẳng hạn như tập các tài liệu
văn bản trên

internet.

Đã có

một số nghiên cứu

đề xuất các phương pháp khác nhau

để xác

định
xem

một

đoạn văn bản của một tài liệu có

nằm trong một tài

liệu nào khác hay

không. Các phương pháp này chủ yếu dựa trên tìm


kiếm và

so

khớp chuỗi. Tuy

nhiên,

các phương pháp

so

khớp chuỗi chỉ có

hiệu quả nếu việc

sao chép


“nguyên văn”. Do vậy một yêu cầu cấp bách đặt ra là làm thế nào để phát hiện việc
sao chép khi có sửa

đổi

đôi chút như thay

thế một số từ bằng từ

đồng nghĩa hay


thay

đổi một

ít trong thứ tự các câu

trong

văn bản.
Chính vì vậy, đề tài “Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ
tương tự giữa từ với từ” được chọn làm đề tài luận văn tốt nghiệp của tôi.

2. Mục tiêu của luận văn
Vận dụng các phương pháp tính độ tương tự giữa từ với từ để tính độ tương
đồng ngữ nghĩa giữa hai văn bản giúp phát hiện một văn bản có được sao chép từ văn
bản kia hay không.
3. Đối tượng và nhiệm vụ của luận văn
Đối tượng:
 Tập các văn bản trong bộ dữ liệu mẫu.
 Tập các tài liệu trên Internet.
4
Nhiệm vụ:
Luận văn tập trung vào tính độ tương tự ngữ nghĩa văn bản dựa trên tập ngữ
liệu có sẵn. Trong đó có tận dụng tối đa các đặc điểm của kho ngữ liệu, đến độ tương
tự giữa từ với từ và tập các từ đồng nghĩa.
4. Phương pháp và nội dung nghiên cứu
 Nghiên cứu lý thuyết về độ tương tự, các cách tính độ tương tự giữa từ với từ.
 Nghiên cứu về kho ngữ liệu, hiện tượng từ đồng nghĩa.
 Tìm hiều các cách tách từ trong văn bản tiếng Việt.
 Nghiên cứu các phương pháp tính độ tương tự ngữ nghĩa văn bản dựa trên độ

tương tự giữa từ với từ.
5. Kết cấu của luận văn
Nội dung chính của luận văn gồm 4 chương:
 Chương I: Khái niệm độ tương tự.
 Chương II: Độ tương tự từ-từ.
 Chương III: Độ tương tự văn bản-văn bản.
 Chương IV: Tính độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ
với từ.









5
CHƯƠNG I. KHÁI NIỆM ĐỘ TƯƠNG TỰ
1.1. Tổng quan về độ tương tự
Nghiên cứu “sự tương tự” (thường ở dạng đối ngẫu của nó là “khoảng cách”) thuộc
phạm vi toán học, chẳng hạn trong lý thuyết tôpô và xấp xỉ; nhưng trong khoa học máy
tính và các ứng dụng máy tính có phần khác. Trong khoa học máy tính, phép tính xấp
xỉ thường được sử dụng theo một lối không có tính hệ thống (non-systematic) và
không theo thể thức (ad-hoc). Trong ngữ cảnh này, khái niệm “sự tương tự” xuất hiện
ở nhiều dạng, diễn xuất, và nhiều ứng dụng.
Khái niệm “sự tương tự” có nhiều dạng khác nhau. Bất chấp những khác biệt,
chúng đều có điểm chung: “sự tương tự” được sử dụng để so sánh hai (hay nhiều) đối
tượng, hai hoàn cảnh, hai vấn đề, v.v… với nhiều nguyên do khác nhau. Luôn có mục
đích nào đó với một phép so sánh như thế, bởi vì một hành động tiếp sau đó được thực

hiện và cuối cùng thì một vấn đề nào đó phải được giải quyết. Vì lý do đó, hai đối
tượng được đem so sánh giữ những vai trò khác nhau. Đối tượng thứ nhất đang được
xem xét và được gọi là vấn đề (problem). Đối tượng thứ hai là đã biết và đã lưu;
thường được gọi là bản mẫu (prototype) hay tình huống (case).
“Sự tương tự” được sử dụng một cách gián tiếp trong quá trình giải quyết vấn đề,
nổi bật là các phương pháp dựa trên phép loại suy (Analogy), lập luận dựa theo tình
huống (Case-Based Reasoning), và nhận dạng mẫu (Pattern Recognition). Chúng có
liên hệ với nhau và không có ranh giới rõ ràng giữa phép loại suy và các phương pháp
khác. Ở đây, chúng ta chấp nhận quan điểm rằng phép loại suy gắn với các đối tượng
thuộc nhiều lĩnh vực, trong khi CBR và nhận dạng mẫu sử dụng độ tương tự trong
cùng một lĩnh vực. Một khác biệt cơ bản giữa CBR và phép loại suy là CBR thường
(không phải luôn luôn) xét các đối tượng được mô tả theo cùng ngôn ngữ mô tả và
thuật ngữ, trong khi phép loại suy có thể xét các lý thuyết hoàn toàn khác nhau.
Dưới đây là một số ngữ cảnh cần đến “sự tương tự”:
 Lập luận dựa theo tình huống (CBR) là một cách rất tổng quát để giải quyết vấn
đề bằng cách sử dụng các kinh nghiệm trước đó. Những kinh nghiệm này được
ghi lại trong một cơ sở dữ liệu gọi là kho tình huống. Ý tưởng bên dưới nhằm
tái sử dụng những kinh nghiệm là: “Nếu hai vấn đề là tương tự thì chúng có các
giải pháp tương tự”. CBR cũng có một giả định cơ bản là luôn tồn tại kinh
nghiệm. Với điều kiện này, CBR có thể được áp dụng cho hầu hết các dạng ứng
dụng. Thường thì có rất nhiều kinh nghiệm được lưu trữ và một khía cạnh thiết
yếu là nhanh chóng tìm ra những kinh nghiệm hữu ích (bài toán thu hồi).
6
 Trong cơ sở dữ liệu (Databases), “sự tương tự” cũng có liên quan với tìm kiếm,
và có quan hệ nào đó với CBR. Đa phần cơ sở dữ liệu cần so trùng chính xác.
Các phép đo độ tương tự giữ một vai trò trong một số cơ sở dữ liệu đặc biệt như
cơ sở dữ liệu không gian (spatial database) hay cơ sở dữ liệu địa lý (geo-
database).
 Nhận dạng mẫu (Pattern Recognition) cũng là một vấn đề rất tổng quát, nghiên
cứu sự vận hành và thiết kế các hệ thống nhận dạng các mẫu trong dữ liệu. Vì

những mẫu như thế không phải lúc nào cũng giống hệt nhau, khái niệm “sự
tương tự” thường đóng một vai trò quyết định.
 Trong phân loại (Classification) và phân tích cụm (Cluster Analysis), “sự tương
tự” được sử dụng để phân loại các đối tượng: các đối tượng tương tự thuộc về
cùng một lớp/cụm, các đối tượng không tương tự thuộc về các lớp/cụm khác
nhau.
 Trong diễn xuất hình ảnh (Image Interpretation), các hình ảnh được diễn xuất
theo ý nghĩa của chúng và chúng được so sánh với nhau. Ví dụ, một ảnh y khoa
thực tế và một ảnh không có bệnh lý nào đó được so sánh với nhau; độ tương tự
giữa những ảnh này được sử dụng để cho biết ảnh thực kia có chứa bệnh lý hay
không. Xác minh hình ảnh (Image Identification) cũng thuộc về lĩnh vực này.
 Trong tâm lý học nhận thức và xã hội (Cognitive and Social Psychology), “sự
tương tự” là cái gì đó chủ quan; ám chỉ thái độ, giá trị, sở thích, và cá tính giữa
những con người tương xứng mức độ nào. Có nhiều dạng mô hình về sự tương
tự trong tâm lý học, bốn mô hình nổi bật là hình học (geometric), đặc tính
(featural), dựa trên canh lề (alignment-based), và biến đổi (transformational).
 Trong lĩnh vực an ninh, quốc phòng để xác định đối tượng ảnh khi muốn xác
định vân tay, kiểm tra những băng đĩa mang những nội dung cần kiểm soát,…
Độ đo tương tự là một trong những phương pháp tốt để máy tính phân biệt được các
văn bản qua nội dung của chúng. Xét trên khía cạnh nào đó, độ tương tự càng lớn, hai
văn bản giống nhau càng nhiều.
1.2. Khái niệm độ tương tự
Độ tương tự là một khái niệm quan trọng và đã được sử dụng rộng rãi. Các định
nghĩa trước đây về độ tương tự được trói buộc trong một ứng dụng cụ thể hoặc một
dạng thể hiện của tri thức.
Nhiều độ đo độ tương tự đã được đưa ra, chẳng hạn như nội dung thông tin
(Resnik, 1995b), độ đo thông tin chung (mutual information – Hindle, 1990), độ đo
7
dựa trên khoảng cách (Lee et al., 1998; Rada et al 1998) và mô hình đặc trưng tương
phản (Tversky, 1977). McGill etc đã khảo sát và so sánh 67 độ đo độ tương tự đã sử

dụng trong tìm kiếm thông tin (McGill et al., 1979).
Một vấn đề trong độ đo độ tương tự trước đây là mỗi một trong số chúng bị trói
buộc trong một ứng dụng cụ thể hoặc đảm đương một mô hình cụ thể. Ví dụ độ đo về
độ tương tự giữa các khái niệm dựa trên khoảng cách (Lee et al., 1989; Rada et al.,
1989) thừa nhận rằng phạm vi được thể hiện trong một mạng. Nếu một tập các tài liệu
không được thể hiện như một mạng, độ đo dựa trên khoảng cách sẽ không được áp
dụng. Hệ số dice (súc sắc) và hệ số cosin chỉ có thể được áp dụng khi các đối tượng
được thể hiện như các vecto đặc trưng bằng số.
Một vấn đề khác với các độ đo độ tương tự trước đây là các điều giả định cơ
bản của chúng thường không ở trạng thái rõ ràng. Ngoài việc biết các giả định này,
không thể tạo ra sự tranh luận về mặt lý thuyết hay phản đối bất cứ độ đo cụ thể nào.
Hầu hết tất cả các so sánh và đánh giá của các độ đo độ tương tự trước đây đều dựa
trên kết quả do kinh nghiệm.
Định nghĩa độ tương tự trong phần sau đạt được 2 mục đích:
 Tính phổ biến (universality): Chúng ta định nghĩa độ tương tự trong thuật ngữ
lý thuyết thông tin. Điều đó có thể được áp dụng miễn là phạm vi có một mô
hình xác suất. Từ đó lý thuyết xác suất có thể được tích hợp với nhiều loại thể
hiện của tri thức, chẳng hạn như thứ tự logic (Bacchus, 1988) và mạng ngữ
nghĩa (Pearl, 1988), định nghĩa của chúng ta về độ tương tự có thể được áp
dụng cho nhiều loại lĩnh vực mà mỗi độ đo có một giả định riêng trước. Hơn
nữa, tính phổ biến của định nghĩa còn cho phép độ đo được sử dụng trong lĩnh
vực không có giả định trước, chẳng hạn như độ tương tự giữa các giá trị có thứ
tự.
 Tính giả định (Theoretical Justification): độ đo độ tương tự không được định
nghĩa một cách trực tiếp bởi công thức. Hơn nữa, nó được phân phát từ một tập
các giả định về độ tương tự. Mặt khác, nếu các giả định được cho là hợp lý, độ
đo độ tương tự cần thiết phải xảy ra.
1.2.1. Định nghĩa độ tương tự (Definition of Similarity)
Mục đích của chúng ta là cung cấp định nghĩa chính thức về khái niệm độ
tương tự, đầu tiên chúng ta đưa ra các trực giác (intuitions) về độ tương tự.

 Trực giác 1: Độ tương tự giữa A và B có liên quan tới sự tương đồng của
chúng. Sự tương đồng càng nhiều, độ tương tự càng lớn.
8
 Trực giác 2: Độ tương tự giữa A và B có liên quan tới những sự khác biệt giữa
chúng. Càng nhiều sự khác biệt, độ tương tự càng thấp.
 Trực giác 3: Độ tương tự lớn nhất giữa A và B đạt được khi A và B giống hệt
nhau (đồng nhất - identical)
1.2.2. Độ tương tự giữa các giá trị có thứ tự ưu tiên (ordinal values)
Rất nhiều các đặc trưng có các giá trị ưu tiên. Ví dụ, thuộc tính “chất lượng” có
thể mang một trong các giá trị sau: “excellent”, “good”, “average”, “bad”, “awful”.
Không có một định nghĩa nào ở trên cung cấp độ đo độ tương tự giữa hai giá trị có thứ
tự. Bây giờ chúng ta sẽ chỉ ra cách định nghĩa của chúng ta có thể được áp dụng.
Nếu “chất lượng của X là excellent” và “chất lượng của Y là average”, sự mô tả
cụ thể nhất của cả X và Y là “chất lượng của X và Y ở giữa hai giá trị excellent và
average”. Do đó, sự tương đồng giữa hai giá trị ưu tiên được giới hạn bên trong giữa
chúng.
Giả sử phân phối của thuộc tính “chất lượng” được nêu ra như ở hình 1. Sau đây là 4
ví dụ tính độ tương tự:
2 log P(excellent good)
(excellent, good) =
log (excellent) + log P(good)
sim
P
 


2 log(0.05 0.10)
0.72
log0.05 log0.10
 

 


2 log P(good erage)
(good, average) =
log ( erage) + log P(good)
av
sim
P av
 


2 log(0.10 0.50)
0.34
log0.10 log 0.50
 
 


2 log P(excellent good average)
(excellent, average) =
log (excellent) + log P(average)
sim
P
  


2 log(0.05 0.10 0.50)
0.23
log0.05 log 0.50

  
 


2 log P(good erage bad)
(good, bad) =
log ( ood) + log P(bad)
av
sim
P g
  


2 log(0.10 0.50 0.20)
0.11
log0.10 log 0.20
  
 



9



Kết quả chỉ ra rằng độ tương tự giữa “excellent” và “good” cao hơn độ tương tự giữa
“good” và “average”, độ tương tự giữa “excellent” và “average” cao hơn độ tương tự
giữa “good” và “bad”.
1.2.3. Độ tương tự chuỗi (String Similarity-A case study)
Xem xét công việc tìm kiếm từ một danh sách từ các từ mà được xuất phát từ

cùng một gốc như là một từ cho sẵn. Ví dụ, cho trước từ “eloquently”, mục đích của
chúng ta là để tìm ra các từ liên quan khác như “ineloquent”, “ineloquently”,
“eloquent” và “eloquence”. Để làm điều đó, ta có thể định nghĩa độ đo tương tự giữa
hai chuỗi và xếp hạng các từ trong danh sách từ theo thứ tự giảm dần của độ tương tự
với từ cho sẵn. Những từ xuất phát từ cùng một từ gốc nên xuất hiện sớm trong bảng
xếp hạng.
Chúng ta tiến hành thử nghiệm với 3 độ đo sau:
 Độ đo đầu tiên được định nghĩa như sau:
1
( , )
1 ( , )
edit
sim x y
editDist x y



ở đó editDist(x,y) là số kí tự nhỏ nhất cần chèn vào và xóa đi để chuyển từ xâu này
thành xâu khác.
 Độ đo độ tương tự thứ hai là dựa trên số bộ ba khác nhau trong hai xâu:
1
( , )
1 ( ) ( ) 2 ( ) ( )
tri
sim x y
tri x tri y tri x tri y

    

Hình 1: Ví dụ phân phối của các giá trị có thứ tự ưu tiên

10
ở đó tri(x) là tập các bộ ba trong x. Ví dụ tri(eloquent) = {elo, loq, oqu, que, ent}
 Độ đo độ tương tự thứ ba là dựa trên giả định là xác suất của một bộ ba xảy ra
trong một từ là độc lập với các bộ ba khác trong từ đó.
( ) ( )
( ) ( )
2 log ( )
( , )
log ( ) log ( )
t tri x tri y
t tri x t tri y
P t
sim x y
P t P t
 
 




 

1.3. Độ tương tự ngữ nghĩa
Độ tương tự ngữ nghĩa là một khái niệm ở đó tập các tài liệu hoặc các thuật ngữ
trong một danh sách các thuật ngữ được gán một tỷ lệ dựa trên sự giống nhau về nội
dung ý nghĩa của chúng.
Độ đo độ tương tự ngữ nghĩa gần đây được áp dụng và phát triển trong rất
nhiều lĩnh vực như trong y học (so sánh các gen), trong phân lớp văn bản (các văn bản
tương tự nhau thì cùng thuộc một lớp),…
Mỗi lĩnh vực khác nhau có các cách để tính độ tương tự ngữ nghĩa khác nhau.

Sau đây chúng ta sẽ tìm hiểu các phương pháp tính độ đo tương tự từ-từ và độ đo
tương từ giữa văn bản-văn bản.
11
CHƯƠNG II. ĐỘ TƯƠNG TỰ TỪ-TỪ
2.1. Khái niệm từ, thuật ngữ
2.1.1. Từ và cấu trúc từ của tiếng Việt
2.1.1.1. Định nghĩa từ
Khái niệm từ nghe rất thông dụng dễ hiểu nhưng định nghĩa chính xác thế nào
thì không đơn giản. Từ trước tới nay cũng có nhiều định nghĩa được đưa ra, tất cả đều
đúng nhưng chưa hoàn chỉnh. Dưới đây, tôi nêu ra một số định nghĩa về từ.
Thời Hy Lạp cổ đại, trường phái ngôn ngữ Alexandre định nghĩa: “Từ là đơn vị
nhỏ nhất trong chuỗi lời nói”. Theo E.Sapir: “Từ là một đoạn nhỏ nhất có ý nghĩa,
hoàn toàn có khả năng độc lập và bản thân có thể làm thành câu tối giản”.
Còn với những nhà ngôn ngữ học tiếng Việt, thì theo Lê Văn Lý: “Từ là một tín
hiệu ngữ âm có thể cấu tạo bằng một âm vị hay sự kết hợp với âm vị, mà sự phát âm
chỉ tiến hành trong một lần, hoặc là một âm tiết mà chữ viết biểu thị bằng một đơn vị
tách rời có thể hiểu được”. Theo Nguyễn Kim Thản thì “Từ là đơn vị cơ bản của ngôn
ngữ, có thể tách khỏi các đơn vị khác của lời nói để vận dụng một cách độc lập và là
một khối hoàn chỉnh về mặt ý nghĩa và cấu tạo”. Quan niệm của ông về “đơn vị cơ
bản” là những đơn vị có số lượng hữu hạn để thông báo, trao đổi tư tưởng cho nhau.
Đơn vị này phải có ý nghĩa, và khi sử dụng, người dùng phải có ý thức về nó. Chính vì
thế, từ không thể là câu, và không thể là âm tiết (vì nhiều khi âm tiết không có nghĩa
và khi sử dụng, người dùng không ý thức về nó).
Có người lại cho rằng “Từ là đơn vị nhỏ nhất có nghĩa, có kết cấu vỏ ngữ âm
bền vững, hoàn chỉnh, có chức năng gọi tên, được vận dụng độc lập, tái hiện tự do
trong lời nói để tạo câu”. Ví dụ: nhà, người, áo, nếu, sẽ, thì, đường sắt, sân bay, dạ
dày, đen sì, v.v
2.1.1.2. Cấu trúc từ của tiếng Việt
Từ tiếng Việt không giống với ngôn ngữ phương Tây khác là không thể tách để
xác định từ loại. Từ trong tài liệu tiếng Việt có thể là từ đơn (từ có cấu tạo từ một âm

tiết) hoặc từ ghép (từ có cấu tạo từ hai âm tiết trở lên. Theo như thống kê trên trang
thì độ dài của một từ tiếng Việt được thể hiện trong bảng:
Độ dài của từ Tần số Tỉ lệ %
1 8933 12.2
2 48995 67.1
12
3 5727 7.9
4 7040 9.7
≥ 5 2301 3.1
Tổng cộng 72994 100
Bảng 1: Tấn suất xuất hiện độ dài từ tiếng Việt trên trang Vdict.com
2.1.2. Nghĩa của từ
Nghĩa của từ là một khái niệm đã được nêu ra từ lâu và cũng đã có nhiều cách
hiểu, nhiều định nghĩa khác nhau.
Nghĩa của từ cũng phản ánh những đặc trưng chung, khái quát của sự vật, hiện
tượng do con người nhận thức được trong đời sống thực tiễn tự nhiên và xã hội. Tuy
nhiên, nó có thể chưa phải là kết quả của nhận thức đã tiệm cận đến chân lí khoa học.
Vì thế, sự vật, hiện tượng nào mà càng ít được nghiênc cứu, phám phá thì nhận thức về
nó được phản ánh trong nghĩa của từ gọi tên nó càng xa với khái niệm khoa học.
Việc xác định nghĩa của từ trong văn bản là một trong những thách thức lớn
nhất trong xử lý ngôn ngữ tự nhiên. Nghĩa của từ chưa biết thường được suy ra từ văn
cảnh sử dụng chúng. Sự nhận dạng các từ đồng nghĩa là bước khởi đầu trong việc học
định nghĩa một từ.
2.1.3. Thuật ngữ (terms)
Thuật ngữ: là các từ khóa có nghĩa liên quan đến một lĩnh vực nào đó, ví dụ:
“máy tính”, “công nghệ phần mềm”, “tính toán song song”. Các thuật ngữ này thuộc
về lĩnh vực “tin học”.
Một thuật ngữ có thể có nhiều từ. Ví dụ: Thuật ngữ “công nghệ” gồm 2 từ
“công” và “nghệ”, khi tách chúng ra thì 2 từ này không có ý nghĩa gì cả.
2.2. Từ đồng nghĩa

Từ đồng nghĩa không phải là những từ trùng nhau hoàn toàn về nghĩa. Chúng
nhất định có những dị biệt nào đó bên cạnh sự tương đồng (mặc dù phát hiện sự dị biệt
đó không phải lúc nào cũng dễ dàng). Chính sự dị biệt đó lại là lí do tồn tại và làm nên
những giá trị khác nhau giữa các từ trong một nhóm từ đồng nghĩa. Rõ ràng tính đồng
nghĩa có những mức độ khác nhau, và ta có thể nêu quan niệm như sau:
Từ đồng nghĩa là những từ tương đồng với nhau về nghĩa, khác nhau về âm
thanh và có phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc sắc thái phong cách
nào đó, hoặc đồng thời cả hai.
13
Ví dụ:
- start, commence, begin (trong tiếng Anh)
- cố, gắng, cố gắng (trong tiếng Việt)
là những nhóm từ đồng nghĩa.
Những từ đồng nghĩa với nhau tập hợp thành một nhóm gọi là nhóm đồng
nghĩa. Trong các ví dụ vừa nêu, ta có các nhóm đồng nghĩa của từng ngôn ngữ tương
ứng.
Những từ đồng nghĩa với nhau không nhất thiết phải tương đương với nhau về
số lượng nghĩa, tức là các từ trong một nhóm đồng nghĩa không nhất thiết phải có
dung lượng nghĩa bằng nhau: Từ này có thể có một hoặc hai nghĩa, nhưng từ kia có thể
có tới dăm bảy nghĩa. Thông thường, các từ chỉ đồng nghĩa ở một nghĩa nào đó. Chính
vì thế nên một từ đa nghĩa có thể tham gia vào nhiều nhóm đồng nghĩa khác nhau: Ở
nhóm này nó tham gia với nghĩa này, ở nhóm khác nó tham gia với nghĩa khác.
Ví dụ: Từ “coi” trong tiếng Việt là một từ đa nghĩa. Tuỳ theo từng nghĩa được nêu lên
để tập hợp các từ, mà “coi” có thể tham gia vào các nhóm như:
+ coi – xem: coi hát – xem hát
+ coi – giữ: coi nhà – giữ nhà
Trong mỗi nhóm từ đồng nghĩa thường có một từ mang nghĩa chung, được
dùng phổ biến và trung hoà về mặt phong cách, được lấy làm cơ sở để tập hợp và so
sánh, phân tích các từ khác. Từ đó gọi là từ trung tâm của nhóm.
Ví dụ trong nhóm từ “yếu, yếu đuối, yếu ớt” của tiếng Việt, từ “yếu” được gọi là từ

trung tâm.
Tuy nhiên, việc xác định từ trung tâm của nhóm không phải lúc nào cũng dễ và
đối với nhóm nào cũng làm được. Nhiều khi ta không thể xác định một cách dứt khoát
được theo những tiêu chí vừa nêu trên, mà phải dựa vào những tiêu chí phụ như: tần số
xuất hiện cao (hay được sử dụng) hoặc khả năng kết hợp rộng.
Chẳng hạn, trong các nhóm từ đồng nghĩa tiếng Việt như: hồi, thuở, thời; hoặc
chờ, đợi; hoặc chỗ, nơi, chốn, rất khó xác định từ nào là trung tâm.
Tập hợp đủ các nhóm từ đồng nghĩa, phân tích cho hết được những nét giống
nhau, khác nhau giữa các từ trong mỗi nhóm, luôn luôn làm mong muốn của những
người nghiên cứu và xử lí vấn đề từ đồng nghĩa.
14
Nhận biết để tập hợp, phân tích thấu đáo các nhóm đồng nghĩa sẽ giúp cho
người ta sử dụng được chuẩn xác và tinh tế hơn, phù hợp với tâm lí và thói quen của
người bản ngữ hơn. Điều đó rất quan trọng đối với việc dạy và học tiếng.
2.3. Các cách tiếp cận xử lý tài liệu theo ngữ nghĩa
Trong xử lý ngôn ngữ tự nhiên, bài toán gán nhãn ngữ nghĩa hay còn gọi là
“khử sự nhập nhằng ngữ nghĩa của từ” là bài toán khó khăn nhất và cũng là bài toán
trọng tâm mà đến nay trên thế giới vẫn chưa giải quyết ổn thỏa. Hiện nay, có rất nhiều
mô hình với nhiều hướng tiếp cận khác nhau, chủ yếu là:
2.3.1. Dựa trên trí tuệ nhân tạo (AI-based)
Đây là cách tiếp cận sớm nhất (1960) với những lý thuyết rất hay về mạng ngữ
nghĩa, khung ngữ nghĩa và các ý niệm nguyên thủy và các quan hệ như IS-A, PART-
OF…Tuy nhiên, do hầu hết các tri thức về ngữ nghĩa trong cách tiếp cận này đều được
xây dựng bằng tay, vì vậy các mô hình đều dừng lại ở mức độ biểu diễn trên một vài
câu. Vấn đề khó khăn của cách tiếp cận này là thiếu tri thức.
2.3.2. Dựa trên Cơ sở tri thức (Knowledge-based)
Vào đầu thập niên 80, người ta đã chuyển sang hướng khai thác tri thức tự động
từ các từ điển điện tử (MRD: Machine – Readable Dictionaries) như các từ điển đồng
nghĩa…để có thể phần nào khắc phục hạn chế của hướng tiếp cận dựa trên trí tuệ nhân
tạo (thiếu tri thức). Kết quả của hướng tiếp cận này là sự ra đời của mạng WordNet –

Một cơ sở tri thức khổng lồ về ngữ nghĩa theo hướng liệt kê nét nghĩa. Tuy nhiên, các
cơ sở tri thức nói trên cũng chỉ là những nguồn thông tin để hệ thống chọn nghĩa tham
khảo, còn chọn thông tin nào trong số những thông tin có liên quan đó thì ta phải tự
xác định trong từng trường hợp cụ thể.
2.3.3. Dựa trên ngữ liệu (Corpus-based)
Hướng tiếp cận này sẽ rút ra các qui luật xử lý ngữ nghĩa (bằng thống kê, bằng
máy học,…) từ những kho dữ liệu lớn đã có sẵn và áp dụng các luật này cho trường
hợp mới. Thực ra, cách tiếp cận này đã được nêu ra rất sớm (1940), nhưng do nguồn
dữ liệu hạn chế, thiết bị xử lý chưa hiện đại nên không có điều kiện phát triển. Mãi tới
thập niên 1990, khi mà công nghệ phát triển mạnh, đã có thể vượt qua được khó khăn
của mình, cách tiếp cận này được hồi sinh và phát triển mạnh tới ngày nay.
Hiện nay, cách tiếp cận dựa trên ngữ liệu kết hợp với tri thức có sẵn là hướng
tiếp cận đang được nhiều nhà ngôn ngữ học – máy tính quan tâm.
15
2.4. Độ tương tự ngữ nghĩa từ-từ dựa trên cơ sở tri thức (từ điển
WordNet)
2.4.1. Khái quát về từ điển WordNet
Wordnet là một cơ sở dữ liệu tri thức từ vựng học được thiết kế dựa trên những
lý thuyết về ngôn ngữ tâm lý theo cách liên tưởng từ ngữ của con người. WordNet
được tổ chức dựa theo các quan hệ ngữ nghĩa bởi vì một quan hệ ngữ nghĩa là một
quan hệ giữa các nghĩa và các nghĩa có thể được đại diện bởi nhiều synset. Và chúng
ta có thể xem những quan hệ ngữ nghĩa như là những con trỏ giữa các synset. Đó là
đặc tính của quan hệ ngữ nghĩa và chúng có tác động qua lại với nhau.
Một từ bất kỳ có thể có nhiều nghĩa (word meaning) và khi đó mỗi nghĩa của nó
sẽ thuộc vào những tập đồng nghĩa khác nhau. Ngược lại, mỗi tập đồng nghĩa lại có
thể chứa một hoặc nhiều hơn một từ khác nhau. Xét ví dụ sau:
Ví dụ:
Khi tìm từ letter trong WordNet ta sẽ được kết quả như sau:
 The noun letter has 4 senses:
i. Letter, missive: a written message addressed to a person or organization;

“wrote an indignant letter to the editor”
ii. Letter, letter of the alphabet, alphabetic character: the conventional
characters of the alphabet used to represent speech; “his grandmother
tauch him his letter”.
iii. Letter: a strictly literal interpretation (as distinct from the intention); “he
followed instructions to the letter ”; “he obeyed the letter of the law”.
iv. Letter, varsity letter: an award earned by participation in a school sport;
“he won letters in three sports ”.
 Trong WordNet danh từ letter có 4 nghĩa thuộc vào 4 tập đồng nghĩa:
i. Tập đồng nghĩa thứ nhất gồm: letter, missive với nghĩa tiếng Việt tương
ứng là “lá thư”, “thư tín”.
ii. Tập đồng nghĩa thứ hai gồm: letter, letter of the alphabet, alphabetic
character với nghĩa tiếng Việt tương ứng là “ký tự”, “chữ” hay “chữ cái”.
iii. Tập thứ ba chỉ gồm một từ: letter với nghĩa tiếng Việt là “nghĩa chật hẹp”,
“nghĩa mặt chữ”.
16
iv. Tập cuối cùng gồm hai từ: letter, varsity letter với nghĩa tiếng Việt tương
ứng là “huy hiệu”, “danh hiệu” tặng cho những sinh viên có thành tích thể
thao đặc biệt ở trường.

Hình 2: Một phần từ điển WordNet
2.4.2. Độ tương tự từ-từ dựa trên từ điển WordNet
Một số độ đo trình bày dưới đây được nghiên cứu dựa trên từ điển phân cấp
WordNet. Tất cả các độ đo này đều có đầu vào là một cặp khái niệm, giá trị trả ra là
mối quan hệ ngữ nghĩa của chúng. Chúng ta có thể dễ dàng chuyển sang độ tương tự
từ-từ bằng cách lựa chọn bất cứ cặp từ cho sẵn nào mà ý nghĩa của chúng dẫn tới độ
tương tự cao nhất giữa khái niệm-khái niệm.
(1) Leacock và Chodorow
Độ tương tự được xác định bởi công thức:


log
2
Lch
length
Sim
D
 


Trong đó length là độ dài của đường đi ngắn nhất giữa hai khái niệm sử dụng node-
counting
D là độ sâu của hệ thống cây phân cấp (độ sâu lớn nhất của sự phân loại)
(2) Lesk
Độ tương tự giữa hai khái niệm được xác định như một hàm chồng khít giữa
các định nghĩa tương ứng, cũng như được cung cấp bởi một từ điển. Ứng dụng của
Lesk không được hạn cho mạng ngữ nghĩa, và nó có thể được dùng cùng với bất cứ từ
điển nào cung cấp định nghĩa từ.
(3) Wu và Palmer
17
Độ tương tự được đo bởi độ sâu của hai khái niệm trong WordNet và độ sâu của
LCS (Least common subsumer) (nút cha chung gần nhất của cả hai khái niệm đó).
Công thức như sau:

wup
1 2
2 ( )
( ) ( )
depth LCS
sim
depth concept depth concept





(4) Resnik
Mức tương tự nhau của hai khái niệm có thể được đánh giá bằng mức độ chia sẻ
thông tin giữa chúng. Resnik định nghĩa độ tương tự giữa hai khái niệm là “hàm lượng
thông tin” của cha chung gần nhất của chúng:
Trả về nội dung thông tin (IC) của LCS của hai khái niệm:

es
( )
r
sim IC LCS


ở đó IC được xác định như sau:
IC(c) = -logP(c)
và P(c) là xác suất của một ví dụ của khái niệm c trong tập dữ liệu.
(5) Lin
Độ đo này lấy từ lý thuyết của ông về tính tương tự giữa hai đối tượng bất kỳ.
Cũng gần giống như sim
jnc


1 2
2 ( )
( ) ( )
lin
IC LCS

sim
IC concept IC concept




(6) Jiang và Conrath
Phương pháp này cũng sử dụng khái niệm “hàm lượng thông tin” nhưng ở dạng
xác suất có điều kiện: xác suất bắt gặp một synset con khi đã có một synset cha:

1 2
1
( ) ( ) 2 ( )
jnc
sim
IC concept IC concept IC LCS

  

Trên đây là 6 phương pháp tính độ tương tự từ-từ dựa trên từ điển WordNet.
Tuy nhiên từ điển này là dành cho ngôn ngữ tiếng Anh. Hiện tiếng Việt của chúng ta
chưa có bộ từ điển nào có cấu trúc đầy đủ như vậy. Do đó các phương pháp trên khó
có thể áp dụng được cho từ tiếng Việt.
2.5. Độ tương tự ngữ nghĩa từ-từ dựa trên ngữ liệu
Độ tương tự ngữ nghĩa dựa trên tập ngữ liệu (corpus) xác định mức độ tương tự
giữa các từ bằng việc sử dụng thông tin xuất phát từ tập ngữ liệu lớn.
Chúng ta xét một số phương pháp sau:
18
2.5.1. PMI (Pointwise Mutual Information) (Thông tin chung dựa trên
điểm)

PMI sử dụng dữ liệu đã tập hợp từ việc tìm kiếm thông tin (PMI-IR) được đưa
ra bởi Turney 2001 như một độ đo không giám sát để đánh giá độ tương tự ngữ nghĩa
của từ. Nó dựa trên các từ đồng xảy ra trên một tập ngữ liệu lớn (large corpora). Độ đo
PMI-IR cho 2 từ w
1
và w
2
được tính như sau:
1 2
1 2 2
1 2
(w , w )
IR(w , w ) log
(w ) (w )
p
PMI
p p
 


2.5.2. LSA (Latent Semantic Analysis) (Phân tích ngữ nghĩa ẩn)
Trong LSA, các từ đồng xảy ra trong tập corpus được nắm bắt (capture) bằng
việc giảm số chiều bởi SVD (Singular Value Decomposition) của một ma trận T (ma
trận từ-tài liệu) thể hiện tập corpus. Trong các thí nghiệm ở đây, chúng ta sẽ thực hiện
SVD trên tập British National Corpus.
SVD là thao tác trong đại số tuyến tính, cái có thể được áp dụng cho bất kỳ ma
trận chữ nhật nào để tìm ra mối tương quan giữa hàng và cột. Trong trường hợp này,
SVD phân tách ma trận T thành 3 ma trận.
SVD có thể được xem là cách để vượt qua một số hạn chế của mô hình không
gian vecto chuẩn (số chiều cao – Sparseness and high dimensionality). Thực tế, độ

tương tự LSA được tính với số chiều thấp hơn, và mối quan hệ thứ hai giữa thuật ngữ-
văn bản được khai thác. Độ tương tự trong không gian kết quả được đo bằng độ tương
tự cosin. Chú ý rằng LSA cũng sinh ra một mô hình không gian vecto cho phép thể
hiện sự đồng nhất (và so sánh) giữa các từ, tập các từ và các văn bản.
2.5.3. Phương pháp của Dekang Lin
Phương pháp này do Dekang Lin (1997) đề xuất trong bài báo “Automatic
Retrieval and Clustering of Similar Words”.
Kí hiệu (w, r, w’) là một bộ ba có từ trung tâm là w, từ phụ thuộc là w’ và hai từ
này được quan hệ với nhau thông qua quan hệ r.
Kí hiệu ||w, r, w’|| là số lượng của một loại bộ ba (w, r, w’). Nếu một giá trị
trong số ba giá trị w, r hoặc w’ được thay thế bằng dấu * thì giá trị đó là một giá trị xác
định bất kì trong kho ngữ liệu. Ví dụ, || gia_đình, mod, *|| là số lượng bộ ba có từ trung
tâm là gia_đình và quan hệ là mod, và ||*, *, *|| là tổng số bộ ba được trích từ kho ngữ
liệu cú pháp.
Một từ w được mô tả thông qua những bộ ba có từ w đó là từ trung tâm hay nó
được mô tả thông qua các bộ ba có dạng (w, *, *). Sự tương đồng giữa hai từ được mô
19
tả thông qua những bộ ba mà có sự xuất hiện của một hoặc hai từ đó trong kho ngữ
liệu.
Ví dụ : từ giàu được mô tả thông qua các bộ ba sau.
bộ ba số lượng
|| giàu , mod-of , chuyện || 1
|| giàu , mod-of , cuộc_đời || 1
|| giàu , mod-of , em || 1
|| giàu , mod-of , hình_ảnh || 1
|| giàu , mod-of , hòn || 3
|| giàu , mod-of , kính || 1
|| giàu , mod-of , kịch || 1
|| giàu , mod-of , người || 5
|| giàu , mod-of , nhà || 7

|| giàu , mod-of , quốc_gia || 1
|| giàu , mod-of , tay || 1
Bảng 2 : Mô tả các bộ ba của từ giàu
Giả sử rằng sự xuất hiện của các loại bộ ba là độc lập với nhau. Khi đó lượng
thông tin chứa trong mô tả của một từ là tổng thông tin chứa trong tất cả các bộ ba có
phần tử trung tâm là từ đó.
Công thức tính lượng thông tin chứa trong một bộ ba bất kì (w, r, w’) được tính
bằng tần xuất xuất hiện của bộ ba đó trong kho ngữ liệu cú pháp hoặc trong trường
hợp bộ ba (w, r, w’) không tồn tại trong kho ngữ liệu thì ta có thể tính lượng thông tin
đó thông qua các bộ ba chứa một trong các thành phần của bộ ba nói trên trong toàn bộ
kho ngữ liệu, hay trong trường hợp một bộ ba tồn tại thì lượng thông tin trong bộ ba
trên được định nghĩa là
( , , ) (|| , , ||) /(||*,*,*||)
P w r w w r w
 


20
Trong trường hợp bộ ba không tồn tại trong kho ngữ liệu thu được thì nó có thể
tính thông qua các bộ ba khác trong kho ngữ liệu, áp dụng công thức xác suất bayes
với giả thiết A và C là các biến ngẫu nhiên độc lập với nhau ta có :
P(A, B, C) = P(A|B, C) P(B, C)
= P(A|B, C) P(C|B) P(B)
= P(A|B) P(C|B) P(B)
với các biến cố ngẫu nhiên
A: một từ được chọn ngẫu nhiên w.
B: một kiểu phụ thuộc được chọn ngẫu nhiên r.
C: một từ được chọn ngẫu nhiên w



trong đó
( | ) ( , ,* ) /( *, ,* )
P A B w r r

P P P P

( | ) ( *, , ) /( *, ,* )
P C B r w r


P P P P

( ) ( *, ,* ) /( *,*,* )
P B r

P P P P

Khi có các giá trị trên ta có thể tính I(w, r, w

) là giá trị mô tả lượng thông tin
chứa trong một bộ ba (w, r, w

).
I (w, r, w’)= - log(P(A|B) P(C|B) P(B)) = - (- log(P(A, B, C)))
hay

( , , ) log( , , *, ,* ) /( , ,* *, , )
I w r w w r w r w r r w
  
  

P P P P P P P P

Chú ý rằng I(w, r, w

) là lượng thông tin tương hỗ giữa w và w’
Ta định nghĩa tập T(w) là tập các cặp (r, w’) sao cho giá trị log (P(A, B, C))
dương. Khi đó độ tương tự sim(w
1,
w
2
) giữa 2 từ w
1
và w
2
được định nghĩa như sau:


   
1 2
1 2
1 2
( , ) ( ) ( )
1 2
1 2
( , ) ( ) ( , ) ( )
( , , ) ( , , )
( , )
( , , ) ( , , )
r w T w T w
r w T w r w T w

I w r w I w r w
sim w w
I w r w I w r w
 
 




 




×