Tải bản đầy đủ (.pdf) (69 trang)

TÍNH TOÁN độ TƯƠNG tự NGỮ NGHĨA văn bản dựa vào độ TƯƠNG tự GIỮA từ với từ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.31 MB, 69 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-------------------------

Đỗ Thị Thanh Nga

TÍNH TỐN ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN
DỰA VÀO ĐỘ TƯƠNG TỰ GIỮA TỪ VỚI TỪ

LUẬN VĂN THẠC SĨ

HÀ NỘI - 2010

LUAN VAN CHAT LUONG download : add


LỜI CẢM ƠN

Trước tiên, tôi xin được bày tỏ sự trân trọng và lòng biết ơn đối với TS. Nguyễn
Phương Thái, giảng viên Bộ mơn Khoa học máy tính - Khoa Công nghệ thông tin Trường Đại học Công nghệ - ĐHQGHN. Trong thời gian làm luận văn tốt nghiệp, thầy
đã dành nhiều thời gian q báu và tận tình chỉ bảo, hướng dẫn tôi trong việc nghiên
cứu, thực hiện luận văn.
Tôi xin được cảm ơn các GS, TS đã giảng dạy tơi trong q trình học tập và làm
luận văn. Các thầy đã giúp tôi hiểu thấu đáo hơn lĩnh vực mà mình nghiên cứu để có
thể vận dụng các kiến thức đó vào trong cơng tác của mình.
Xin cảm ơn các bạn bè, đồng nghiệp và nhất là các thành viên trong gia đình đã
tạo mọi điều kiện tốt nhất, động viên, cổ vũ tôi trong suốt quá trình học tập và nghiên
cứu để hồn thành tốt bản luận văn tốt nghiệp này.
Tuy đã có những cố gắng nhất định nhưng do thời gian và trình độ có hạn nên
chắc chắn luận văn này cịn nhiều thiếu sót và hạn chế. Kính mong nhận được sự góp ý
của thầy cô và các bạn.



Hà Nội, ngày 20 tháng 09 năm 2010
Học viên

Đỗ Thị Thanh Nga

LUAN VAN CHAT LUONG download : add


LỜI CAM ĐOAN

Tôi xin cam đoan rằng, đây là công trình nghiên cứu của tơi trong đó có sự giúp
đỡ rất lớn của thầy hướng dẫn và các đồng nghiệp ở cơ quan. Các nội dung nghiên cứu
và kết quả trong đề tài này là hoàn toàn trung thực.
Trong luận văn, tơi có tham khảo đến một số tài liệu của một số tác giả đã được
liệt kê tại phần Tài liệu tham khảo ở cuối luận văn.
Tơi xin hồn tồn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định
cho lời cam đoan của mình.

Hà Nội, ngày 20 tháng 09 năm 2010
Học viên

Đỗ Thị Thanh Nga

LUAN VAN CHAT LUONG download : add


MỤC LỤC
DANH MỤC CÁC BẢNG..................................................................................................... 1
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ................................................................................. 2

MỞ ĐẦU............................................................................................................................... 3
CHƯƠNG I. KHÁI NIỆM ĐỘ TƯƠNG TỰ.......................................................................... 5
1.1. Tổng quan về độ tương tự............................................................................................ 5
1.2. Khái niệm độ tương tự................................................................................................. 6
1.2.1. Định nghĩa độ tương tự (Definition of Similarity) ................................................ 7
1.2.2. Độ tương tự giữa các giá trị có thứ tự ưu tiên (ordinal values).............................. 8
1.2.3. Độ tương tự chuỗi (String Similarity-A case study).............................................. 9
1.3. Độ tương tự ngữ nghĩa............................................................................................... 10
CHƯƠNG II. ĐỘ TƯƠNG TỰ TỪ-TỪ............................................................................... 11
2.1. Khái niệm từ, thuật ngữ ............................................................................................. 11
2.1.1. Từ và cấu trúc từ của tiếng Việt .......................................................................... 11
2.1.1.1. Định nghĩa từ............................................................................................... 11
2.1.1.2. Cấu trúc từ của tiếng Việt ............................................................................ 11
2.1.2. Nghĩa của từ ....................................................................................................... 12
2.1.3. Thuật ngữ (terms) ............................................................................................... 12
2.2. Từ đồng nghĩa ........................................................................................................... 12
2.3. Các cách tiếp cận xử lý tài liệu theo ngữ nghĩa .......................................................... 14
2.3.1. Dựa trên trí tuệ nhân tạo (AI-based).................................................................... 14
2.3.2. Dựa trên Cơ sở tri thức (Knowledge-based) ........................................................ 14
2.3.3. Dựa trên ngữ liệu (Corpus-based) ....................................................................... 14
2.4. Độ tương tự ngữ nghĩa từ-từ dựa trên cơ sở tri thức (từ điển WordNet)...................... 15
2.4.1. Khái quát về từ điển WordNet ............................................................................ 15
2.4.2. Độ tương tự từ-từ dựa trên từ điển WordNet ....................................................... 16
2.5. Độ tương tự ngữ nghĩa từ-từ dựa trên ngữ liệu........................................................... 17
2.5.1. PMI (Pointwise Mutual Information) (Thông tin chung dựa trên điểm) ............... 18
2.5.2. LSA (Latent Semantic Analysis) (Phân tích ngữ nghĩa ẩn).................................. 18
2.5.3. Phương pháp của Dekang Lin ............................................................................. 18
CHƯƠNG III. ĐỘ TƯƠNG TỰ VĂN BẢN-VĂN BẢN ..................................................... 21
3.1. Xử lý văn bản tiếng Việt............................................................................................ 21
3.1.1. Một số kết quả đã đạt được................................................................................. 21

3.1.2. Đặc trưng của cấu trúc ngữ pháp tiếng Việt ........................................................ 23
3.2. Tách từ trong văn bản tiếng Việt................................................................................ 23
3.3. Các hướng tiếp cận tách từ ........................................................................................ 24
3.3.1. Các hướng tiếp cận dựa trên “từ” ....................................................................... 24
3.3.2. Các hướng tiếp cận dựa trên ký tự ...................................................................... 25
3.4. Một số phương pháp tách từ tiếng Việt hiện nay........................................................ 26
3.4.1. Phương pháp Maximum Matching: Forward/Backward ..................................... 26
3.4.2. Phương pháp Transformation-based Learning (TBL) ......................................... 27
3.4.3. Mơ hình tách từ bằng WFST và mạng Neural .................................................... 27
3.4.3.1. Tầng WFST ................................................................................................. 27
3.4.3.2. Tầng mạng Neural ....................................................................................... 28
3.4.4. Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di
truyền........................................................................................................................... 28
3.4.4.1. Online Extractor........................................................................................... 28
3.4.4.2. GA Engine for Text Segmentation ............................................................... 29
3.4.5. Nhận xét............................................................................................................. 29
3.5. Độ tương tự văn bản-văn bản..................................................................................... 30

LUAN VAN CHAT LUONG download : add


CHƯƠNG IV. TÍNH ĐỘ TƯƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƯƠNG
TỰ GIỮA TỪ VỚI TỪ........................................................................................................ 33
3.1. Phát biểu bài toán ...................................................................................................... 33
3.2. Giải quyết bài toán .................................................................................................... 33
3.2.1. Chuẩn bị dữ liệu ................................................................................................. 33
3.2.2. Tách từ: Tách văn bản thành các từ ghép và danh từ riêng ................................. 36
3.2.2.1. Tách từ ghép trong văn bản.......................................................................... 36
3.2.2.2. Tách danh từ riêng trong văn bản ................................................................. 39
3.2.3. Tính tốn độ tương tự văn bản ............................................................................ 41

3.3. Xây dựng hệ thống .................................................................................................... 44
3.3.1. Nhập trực tiếp 2 văn bản .................................................................................... 45
3.3.2. Nhập 2 văn bản từ file ........................................................................................ 46
3.3.3. Lấy nội dung 2 văn bản từ URL ......................................................................... 47
3.4. Kết quả thử nghiệm và đánh giá ................................................................................ 48
3.4.1. Một số ví dụ cụ thể ............................................................................................. 48
3.4.2. Kết quả thử nghiệm ............................................................................................ 54
3.4.2.1. Cách tiến hành ............................................................................................. 54
3.4.2.2. Kết quả thử nghiệm...................................................................................... 54
3.4.3. Đánh giá ............................................................................................................. 59
KẾT LUẬN ......................................................................................................................... 61
HƯỚNG PHÁT TRIỂN....................................................................................................... 62
TÀI LIỆU THAM KHẢO.................................................................................................... 63

LUAN VAN CHAT LUONG download : add


1

DANH MỤC CÁC BẢNG
Bảng

Trang

Bảng 1. Tần suất xuất hiện độ dài từ tiếng Việt trên trang Vdict.com

11

Bảng 2. Mô tả các bộ ba của từ “giàu”


19

Bảng 3. Các điểm khác biệt chính giữa tiếng Việt và tiếng Anh

24

Bảng 4. Địa chỉ của 20 tin tức trên một số trang Web

54

Bảng 5. Một số kết quả độ tương tự của hai file bất kỳ

55

Bảng 6. Kết quả đánh giá 20 tin tức do người và máy thực hiện

56

Bảng 7. Địa chỉ của 30 tin rao vặt trên các trang Web

56

Bảng 8. Một số kết quả độ tương tự của hai tin rao vặt bất kỳ

58

Bảng 9. Kết quả đánh giá 30 tin rao vặt do người và máy thực hiện

59


LUAN VAN CHAT LUONG download : add


2

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình
Hình 1. Ví dụ phân phối của các giá trị có thứ tự ưu tiên

Trang
9

Hình 2. Một phần từ điển WordNet

16

Hình 3. Các hướng tiếp cận cơ bản trong việc tách từ

24

Hình 4. Một phần của từ điển Dict

34

Hình 5. Danh sách một số file trong kho ngữ liệu đã xử lý

34

Hình 6. Một phần của từ điển các từ ghép


35

Hình 7. Một phần từ điển CompoundDict

35

Hình 8. Giao diện chính của hệ thống

45

Hình 9. Giao diện cho phép nhập trực tiếp hai văn bản

45

Hình 10. Giao diện kết quả độ tương tự sau khi nhập hai văn bản

46

Hình 11. Giao diện nhập hai văn bản từ file

46

Hình 12. Giao diện kết quả sau khi nhập hai văn bản từ file

47

Hình 13. Giao diện tính độ tương tự nội dung của hai trang Web

48


LUAN VAN CHAT LUONG download : add


3

MỞ ĐẦU
1. Tính cấp thiết của đề tài
Trong thời đại công nghệ số như hiện nay, các nguồn tài liệu là vô cùng
phong phú. Việc “sao chép tài liệu” theo nghĩa tiêu cực như đạo văn, sao chép các
luận án, luận văn, đồ án trở nên phổ biến và đang là vấn nạn. Ở qui mô rộng hơn,
các thư viện điện tử ngày càng nhiều, một tài liệu có thể được phát hành trên
internet nhiều lần trong những thư viện điện tử khác nhau, trên các trang web khác
nhau.
Làm thế nào để phát hiện sự sao chép tài liệu theo nghĩa tiêu cực? Làm thế
nào ngăn chặn việc sao chép trái phép, đạo văn, đạo nhạc, đạo luận văn, đồ án? Chủ
đề này đã được nghiên cứu từ khoảng hơn 10 năm qua. Hiện tại, đã có một số giải
pháp cho việc phát hiện sao chép và một vài công cụ phần mềm cho phép phát
hiện một tài liệu (gọi là văn bản kiểm tra) có sao chép từ một tập hợp các tài liệu
nguồn hay không. Tập hợp các tài liệu nguồn có thể là đóng- tức là các tài liệu tập
hợp trước trong một thư viện điện tử- hoặc là mở, chẳng hạn như tập các tài liệu
văn bản trên internet.
Đã có một số nghiên cứu đề xuất các phương pháp khác nhau để xác định
xem một đoạn văn bản của một tài liệu có nằm trong một tài liệu nào khác hay
không. Các phương pháp này chủ yếu dựa trên tìm kiếm và so khớp chuỗi. Tuy
nhiên, các phương pháp so khớp chuỗi chỉ có hiệu quả nếu việc sao chép là
“nguyên văn”. Do vậy một yêu cầu cấp bách đặt ra là làm thế nào để phát hiện việc
sao chép khi có sửa đổi đơi chút như thay thế một số từ bằng từ đồng nghĩa hay thay
đổi một ít trong thứ tự các câu trong văn bản.
Chính vì vậy, đề tài “Tính tốn độ tương tự ngữ nghĩa văn bản dựa vào độ
tương tự giữa từ với từ” được chọn làm đề tài luận văn tốt nghiệp của tôi.

2. Mục tiêu của luận văn
Vận dụng các phương pháp tính độ tương tự giữa từ với từ để tính độ tương
đồng ngữ nghĩa giữa hai văn bản giúp phát hiện một văn bản có được sao chép từ văn
bản kia hay không.
3. Đối tượng và nhiệm vụ của luận văn
Đối tượng:
 Tập các văn bản trong bộ dữ liệu mẫu.
 Tập các tài liệu trên Internet.

LUAN VAN CHAT LUONG download : add


4
Nhiệm vụ:
Luận văn tập trung vào tính độ tương tự ngữ nghĩa văn bản dựa trên tập ngữ
liệu có sẵn. Trong đó có tận dụng tối đa các đặc điểm của kho ngữ liệu, đến độ tương
tự giữa từ với từ và tập các từ đồng nghĩa.
4. Phương pháp và nội dung nghiên cứu
 Nghiên cứu lý thuyết về độ tương tự, các cách tính độ tương tự giữa từ với từ.
 Nghiên cứu về kho ngữ liệu, hiện tượng từ đồng nghĩa.
 Tìm hiều các cách tách từ trong văn bản tiếng Việt.
 Nghiên cứu các phương pháp tính độ tương tự ngữ nghĩa văn bản dựa trên độ
tương tự giữa từ với từ.
5. Kết cấu của luận văn
Nội dung chính của luận văn gồm 4 chương:
 Chương I: Khái niệm độ tương tự.
 Chương II: Độ tương tự từ-từ.
 Chương III: Độ tương tự văn bản-văn bản.
 Chương IV: Tính độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ
với từ.


LUAN VAN CHAT LUONG download : add


5

CHƯƠNG I. KHÁI NIỆM ĐỘ TƯƠNG TỰ
1.1. Tổng quan về độ tương tự
Nghiên cứu “sự tương tự” (thường ở dạng đối ngẫu của nó là “khoảng cách”) thuộc
phạm vi tốn học, chẳng hạn trong lý thuyết tôpô và xấp xỉ; nhưng trong khoa học máy
tính và các ứng dụng máy tính có phần khác. Trong khoa học máy tính, phép tính xấp
xỉ thường được sử dụng theo một lối khơng có tính hệ thống (non-systematic) và
khơng theo thể thức (ad-hoc). Trong ngữ cảnh này, khái niệm “sự tương tự” xuất hiện
ở nhiều dạng, diễn xuất, và nhiều ứng dụng.
Khái niệm “sự tương tự” có nhiều dạng khác nhau. Bất chấp những khác biệt,
chúng đều có điểm chung: “sự tương tự” được sử dụng để so sánh hai (hay nhiều) đối
tượng, hai hoàn cảnh, hai vấn đề, v.v… với nhiều nguyên do khác nhau. Ln có mục
đích nào đó với một phép so sánh như thế, bởi vì một hành động tiếp sau đó được thực
hiện và cuối cùng thì một vấn đề nào đó phải được giải quyết. Vì lý do đó, hai đối
tượng được đem so sánh giữ những vai trò khác nhau. Đối tượng thứ nhất đang được
xem xét và được gọi là vấn đề (problem). Đối tượng thứ hai là đã biết và đã lưu;
thường được gọi là bản mẫu (prototype) hay tình huống (case).
“Sự tương tự” được sử dụng một cách gián tiếp trong quá trình giải quyết vấn đề,
nổi bật là các phương pháp dựa trên phép loại suy (Analogy), lập luận dựa theo tình
huống (Case-Based Reasoning), và nhận dạng mẫu (Pattern Recognition). Chúng có
liên hệ với nhau và khơng có ranh giới rõ ràng giữa phép loại suy và các phương pháp
khác. Ở đây, chúng ta chấp nhận quan điểm rằng phép loại suy gắn với các đối tượng
thuộc nhiều lĩnh vực, trong khi CBR và nhận dạng mẫu sử dụng độ tương tự trong
cùng một lĩnh vực. Một khác biệt cơ bản giữa CBR và phép loại suy là CBR thường
(không phải luôn luôn) xét các đối tượng được mô tả theo cùng ngôn ngữ mô tả và

thuật ngữ, trong khi phép loại suy có thể xét các lý thuyết hồn tồn khác nhau.
Dưới đây là một số ngữ cảnh cần đến “sự tương tự”:
 Lập luận dựa theo tình huống (CBR) là một cách rất tổng quát để giải quyết vấn
đề bằng cách sử dụng các kinh nghiệm trước đó. Những kinh nghiệm này được
ghi lại trong một cơ sở dữ liệu gọi là kho tình huống. Ý tưởng bên dưới nhằm
tái sử dụng những kinh nghiệm là: “Nếu hai vấn đề là tương tự thì chúng có các
giải pháp tương tự”. CBR cũng có một giả định cơ bản là ln tồn tại kinh
nghiệm. Với điều kiện này, CBR có thể được áp dụng cho hầu hết các dạng ứng
dụng. Thường thì có rất nhiều kinh nghiệm được lưu trữ và một khía cạnh thiết
yếu là nhanh chóng tìm ra những kinh nghiệm hữu ích (bài tốn thu hồi).

LUAN VAN CHAT LUONG download : add


6
 Trong cơ sở dữ liệu (Databases), “sự tương tự” cũng có liên quan với tìm kiếm,
và có quan hệ nào đó với CBR. Đa phần cơ sở dữ liệu cần so trùng chính xác.
Các phép đo độ tương tự giữ một vai trò trong một số cơ sở dữ liệu đặc biệt như
cơ sở dữ liệu không gian (spatial database) hay cơ sở dữ liệu địa lý (geodatabase).
 Nhận dạng mẫu (Pattern Recognition) cũng là một vấn đề rất tổng quát, nghiên
cứu sự vận hành và thiết kế các hệ thống nhận dạng các mẫu trong dữ liệu. Vì
những mẫu như thế không phải lúc nào cũng giống hệt nhau, khái niệm “sự
tương tự” thường đóng một vai trị quyết định.
 Trong phân loại (Classification) và phân tích cụm (Cluster Analysis), “sự tương
tự” được sử dụng để phân loại các đối tượng: các đối tượng tương tự thuộc về
cùng một lớp/cụm, các đối tượng không tương tự thuộc về các lớp/cụm khác
nhau.
 Trong diễn xuất hình ảnh (Image Interpretation), các hình ảnh được diễn xuất
theo ý nghĩa của chúng và chúng được so sánh với nhau. Ví dụ, một ảnh y khoa
thực tế và một ảnh khơng có bệnh lý nào đó được so sánh với nhau; độ tương tự

giữa những ảnh này được sử dụng để cho biết ảnh thực kia có chứa bệnh lý hay
khơng. Xác minh hình ảnh (Image Identification) cũng thuộc về lĩnh vực này.
 Trong tâm lý học nhận thức và xã hội (Cognitive and Social Psychology), “sự
tương tự” là cái gì đó chủ quan; ám chỉ thái độ, giá trị, sở thích, và cá tính giữa
những con người tương xứng mức độ nào. Có nhiều dạng mơ hình về sự tương
tự trong tâm lý học, bốn mơ hình nổi bật là hình học (geometric), đặc tính
(featural), dựa trên canh lề (alignment-based), và biến đổi (transformational).
 Trong lĩnh vực an ninh, quốc phòng để xác định đối tượng ảnh khi muốn xác
định vân tay, kiểm tra những băng đĩa mang những nội dung cần kiểm soát,…
Độ đo tương tự là một trong những phương pháp tốt để máy tính phân biệt được các
văn bản qua nội dung của chúng. Xét trên khía cạnh nào đó, độ tương tự càng lớn, hai
văn bản giống nhau càng nhiều.

1.2. Khái niệm độ tương tự
Độ tương tự là một khái niệm quan trọng và đã được sử dụng rộng rãi. Các định
nghĩa trước đây về độ tương tự được trói buộc trong một ứng dụng cụ thể hoặc một
dạng thể hiện của tri thức.
Nhiều độ đo độ tương tự đã được đưa ra, chẳng hạn như nội dung thông tin
(Resnik, 1995b), độ đo thông tin chung (mutual information – Hindle, 1990), độ đo

LUAN VAN CHAT LUONG download : add


7
dựa trên khoảng cách (Lee et al., 1998; Rada et al 1998) và mơ hình đặc trưng tương
phản (Tversky, 1977). McGill etc đã khảo sát và so sánh 67 độ đo độ tương tự đã sử
dụng trong tìm kiếm thơng tin (McGill et al., 1979).
Một vấn đề trong độ đo độ tương tự trước đây là mỗi một trong số chúng bị trói
buộc trong một ứng dụng cụ thể hoặc đảm đương một mơ hình cụ thể. Ví dụ độ đo về
độ tương tự giữa các khái niệm dựa trên khoảng cách (Lee et al., 1989; Rada et al.,

1989) thừa nhận rằng phạm vi được thể hiện trong một mạng. Nếu một tập các tài liệu
không được thể hiện như một mạng, độ đo dựa trên khoảng cách sẽ không được áp
dụng. Hệ số dice (súc sắc) và hệ số cosin chỉ có thể được áp dụng khi các đối tượng
được thể hiện như các vecto đặc trưng bằng số.
Một vấn đề khác với các độ đo độ tương tự trước đây là các điều giả định cơ
bản của chúng thường khơng ở trạng thái rõ ràng. Ngồi việc biết các giả định này,
không thể tạo ra sự tranh luận về mặt lý thuyết hay phản đối bất cứ độ đo cụ thể nào.
Hầu hết tất cả các so sánh và đánh giá của các độ đo độ tương tự trước đây đều dựa
trên kết quả do kinh nghiệm.
Định nghĩa độ tương tự trong phần sau đạt được 2 mục đích:
 Tính phổ biến (universality): Chúng ta định nghĩa độ tương tự trong thuật ngữ
lý thuyết thơng tin. Điều đó có thể được áp dụng miễn là phạm vi có một mơ
hình xác suất. Từ đó lý thuyết xác suất có thể được tích hợp với nhiều loại thể
hiện của tri thức, chẳng hạn như thứ tự logic (Bacchus, 1988) và mạng ngữ
nghĩa (Pearl, 1988), định nghĩa của chúng ta về độ tương tự có thể được áp
dụng cho nhiều loại lĩnh vực mà mỗi độ đo có một giả định riêng trước. Hơn
nữa, tính phổ biến của định nghĩa còn cho phép độ đo được sử dụng trong lĩnh
vực khơng có giả định trước, chẳng hạn như độ tương tự giữa các giá trị có thứ
tự.
 Tính giả định (Theoretical Justification): độ đo độ tương tự không được định
nghĩa một cách trực tiếp bởi cơng thức. Hơn nữa, nó được phân phát từ một tập
các giả định về độ tương tự. Mặt khác, nếu các giả định được cho là hợp lý, độ
đo độ tương tự cần thiết phải xảy ra.

1.2.1. Định nghĩa độ tương tự (Definition of Similarity)
Mục đích của chúng ta là cung cấp định nghĩa chính thức về khái niệm độ
tương tự, đầu tiên chúng ta đưa ra các trực giác (intuitions) về độ tương tự.
 Trực giác 1: Độ tương tự giữa A và B có liên quan tới sự tương đồng của
chúng. Sự tương đồng càng nhiều, độ tương tự càng lớn.


LUAN VAN CHAT LUONG download : add


8
 Trực giác 2: Độ tương tự giữa A và B có liên quan tới những sự khác biệt giữa
chúng. Càng nhiều sự khác biệt, độ tương tự càng thấp.
 Trực giác 3: Độ tương tự lớn nhất giữa A và B đạt được khi A và B giống hệt
nhau (đồng nhất - identical)

1.2.2. Độ tương tự giữa các giá trị có thứ tự ưu tiên (ordinal values)
Rất nhiều các đặc trưng có các giá trị ưu tiên. Ví dụ, thuộc tính “chất lượng” có
thể mang một trong các giá trị sau: “excellent”, “good”, “average”, “bad”, “awful”.
Khơng có một định nghĩa nào ở trên cung cấp độ đo độ tương tự giữa hai giá trị có thứ
tự. Bây giờ chúng ta sẽ chỉ ra cách định nghĩa của chúng ta có thể được áp dụng.
Nếu “chất lượng của X là excellent” và “chất lượng của Y là average”, sự mô tả
cụ thể nhất của cả X và Y là “chất lượng của X và Y ở giữa hai giá trị excellent và
average”. Do đó, sự tương đồng giữa hai giá trị ưu tiên được giới hạn bên trong giữa
chúng.
Giả sử phân phối của thuộc tính “chất lượng” được nêu ra như ở hình 1. Sau đây là 4
ví dụ tính độ tương tự:

sim(excellent, good) =



sim (good, average) =



2  log P(excellent  good)

log P(excellent) + log P(good)
2  log(0.05  0.10)
 0.72
log 0.05  log 0.10

2  log P(good  average)
log P(average) + log P(good)

2  log(0.10  0.50)
 0.34
log 0.10  log 0.50

sim(excellent, average) =



sim(good, bad) =



2  log P(excellent  good  average)
log P (excellent) + log P(average)
2  log(0.05  0.10  0.50)
 0.23
log 0.05  log 0.50

2  log P(good  average  bad)
log P( good) + log P(bad)

2  log(0.10  0.50  0.20)

 0.11
log 0.10  log 0.20

LUAN VAN CHAT LUONG download : add


9

Hình 1: Ví dụ phân phối của các giá trị có thứ tự ưu tiên
Kết quả chỉ ra rằng độ tương tự giữa “excellent” và “good” cao hơn độ tương tự giữa
“good” và “average”, độ tương tự giữa “excellent” và “average” cao hơn độ tương tự
giữa “good” và “bad”.

1.2.3. Độ tương tự chuỗi (String Similarity-A case study)
Xem xét công việc tìm kiếm từ một danh sách từ các từ mà được xuất phát từ
cùng một gốc như là một từ cho sẵn. Ví dụ, cho trước từ “eloquently”, mục đích của
chúng ta là để tìm ra các từ liên quan khác như “ineloquent”, “ineloquently”,
“eloquent” và “eloquence”. Để làm điều đó, ta có thể định nghĩa độ đo tương tự giữa
hai chuỗi và xếp hạng các từ trong danh sách từ theo thứ tự giảm dần của độ tương tự
với từ cho sẵn. Những từ xuất phát từ cùng một từ gốc nên xuất hiện sớm trong bảng
xếp hạng.
Chúng ta tiến hành thử nghiệm với 3 độ đo sau:
 Độ đo đầu tiên được định nghĩa như sau:

simedit ( x, y ) 

1
1  editDist ( x, y )

ở đó editDist(x,y) là số kí tự nhỏ nhất cần chèn vào và xóa đi để chuyển từ xâu này

thành xâu khác.
 Độ đo độ tương tự thứ hai là dựa trên số bộ ba khác nhau trong hai xâu:

simtri ( x, y ) 

1
1  tri( x)  tri( y )  2  tri( x)  tri( y )

LUAN VAN CHAT LUONG download : add


10
ở đó tri(x) là tập các bộ ba trong x. Ví dụ tri(eloquent) = {elo, loq, oqu, que, ent}
 Độ đo độ tương tự thứ ba là dựa trên giả định là xác suất của một bộ ba xảy ra
trong một từ là độc lập với các bộ ba khác trong từ đó.

sim( x, y ) 

2   ttri ( x )tri ( y ) log P (t )



ttri ( x )

log P (t )   ttri ( y ) log P(t )

1.3. Độ tương tự ngữ nghĩa
Độ tương tự ngữ nghĩa là một khái niệm ở đó tập các tài liệu hoặc các thuật ngữ
trong một danh sách các thuật ngữ được gán một tỷ lệ dựa trên sự giống nhau về nội
dung ý nghĩa của chúng.

Độ đo độ tương tự ngữ nghĩa gần đây được áp dụng và phát triển trong rất
nhiều lĩnh vực như trong y học (so sánh các gen), trong phân lớp văn bản (các văn bản
tương tự nhau thì cùng thuộc một lớp),…
Mỗi lĩnh vực khác nhau có các cách để tính độ tương tự ngữ nghĩa khác nhau.
Sau đây chúng ta sẽ tìm hiểu các phương pháp tính độ đo tương tự từ-từ và độ đo
tương từ giữa văn bản-văn bản.

LUAN VAN CHAT LUONG download : add


11

CHƯƠNG II. ĐỘ TƯƠNG TỰ TỪ-TỪ
2.1. Khái niệm từ, thuật ngữ
2.1.1. Từ và cấu trúc từ của tiếng Việt
2.1.1.1. Định nghĩa từ
Khái niệm từ nghe rất thông dụng dễ hiểu nhưng định nghĩa chính xác thế nào
thì khơng đơn giản. Từ trước tới nay cũng có nhiều định nghĩa được đưa ra, tất cả đều
đúng nhưng chưa hoàn chỉnh. Dưới đây, tôi nêu ra một số định nghĩa về từ.
Thời Hy Lạp cổ đại, trường phái ngôn ngữ Alexandre định nghĩa: “Từ là đơn vị
nhỏ nhất trong chuỗi lời nói”. Theo E.Sapir: “Từ là một đoạn nhỏ nhất có ý nghĩa,
hồn tồn có khả năng độc lập và bản thân có thể làm thành câu tối giản”.
Cịn với những nhà ngơn ngữ học tiếng Việt, thì theo Lê Văn Lý: “Từ là một tín
hiệu ngữ âm có thể cấu tạo bằng một âm vị hay sự kết hợp với âm vị, mà sự phát âm
chỉ tiến hành trong một lần, hoặc là một âm tiết mà chữ viết biểu thị bằng một đơn vị
tách rời có thể hiểu được”. Theo Nguyễn Kim Thản thì “Từ là đơn vị cơ bản của ngơn
ngữ, có thể tách khỏi các đơn vị khác của lời nói để vận dụng một cách độc lập và là
một khối hoàn chỉnh về mặt ý nghĩa và cấu tạo”. Quan niệm của ông về “đơn vị cơ
bản” là những đơn vị có số lượng hữu hạn để thông báo, trao đổi tư tưởng cho nhau.
Đơn vị này phải có ý nghĩa, và khi sử dụng, người dùng phải có ý thức về nó. Chính vì

thế, từ khơng thể là câu, và khơng thể là âm tiết (vì nhiều khi âm tiết khơng có nghĩa
và khi sử dụng, người dùng khơng ý thức về nó).
Có người lại cho rằng “Từ là đơn vị nhỏ nhất có nghĩa, có kết cấu vỏ ngữ âm
bền vững, hồn chỉnh, có chức năng gọi tên, được vận dụng độc lập, tái hiện tự do
trong lời nói để tạo câu”. Ví dụ: nhà, người, áo, nếu, sẽ, thì, đường sắt, sân bay, dạ
dày, đen sì, v.v..
2.1.1.2. Cấu trúc từ của tiếng Việt
Từ tiếng Việt không giống với ngôn ngữ phương Tây khác là không thể tách để
xác định từ loại. Từ trong tài liệu tiếng Việt có thể là từ đơn (từ có cấu tạo từ một âm
tiết) hoặc từ ghép (từ có cấu tạo từ hai âm tiết trở lên. Theo như thống kê trên trang
thì độ dài của một từ tiếng Việt được thể hiện trong bảng:
Độ dài của từ

Tần số

Tỉ lệ %

1

8933

12.2

2

48995

67.1

LUAN VAN CHAT LUONG download : add



12
3

5727

7.9

4

7040

9.7

≥5

2301

3.1

Tổng cộng

72994

100

Bảng 1: Tấn suất xuất hiện độ dài từ tiếng Việt trên trang Vdict.com

2.1.2. Nghĩa của từ

Nghĩa của từ là một khái niệm đã được nêu ra từ lâu và cũng đã có nhiều cách
hiểu, nhiều định nghĩa khác nhau.
Nghĩa của từ cũng phản ánh những đặc trưng chung, khái quát của sự vật, hiện
tượng do con người nhận thức được trong đời sống thực tiễn tự nhiên và xã hội. Tuy
nhiên, nó có thể chưa phải là kết quả của nhận thức đã tiệm cận đến chân lí khoa học.
Vì thế, sự vật, hiện tượng nào mà càng ít được nghiênc cứu, phám phá thì nhận thức về
nó được phản ánh trong nghĩa của từ gọi tên nó càng xa với khái niệm khoa học.
Việc xác định nghĩa của từ trong văn bản là một trong những thách thức lớn
nhất trong xử lý ngôn ngữ tự nhiên. Nghĩa của từ chưa biết thường được suy ra từ văn
cảnh sử dụng chúng. Sự nhận dạng các từ đồng nghĩa là bước khởi đầu trong việc học
định nghĩa một từ.

2.1.3. Thuật ngữ (terms)
Thuật ngữ: là các từ khóa có nghĩa liên quan đến một lĩnh vực nào đó, ví dụ:
“máy tính”, “cơng nghệ phần mềm”, “tính tốn song song”. Các thuật ngữ này thuộc
về lĩnh vực “tin học”.
Một thuật ngữ có thể có nhiều từ. Ví dụ: Thuật ngữ “cơng nghệ” gồm 2 từ
“công” và “nghệ”, khi tách chúng ra thì 2 từ này khơng có ý nghĩa gì cả.

2.2. Từ đồng nghĩa
Từ đồng nghĩa không phải là những từ trùng nhau hồn tồn về nghĩa. Chúng
nhất định có những dị biệt nào đó bên cạnh sự tương đồng (mặc dù phát hiện sự dị biệt
đó khơng phải lúc nào cũng dễ dàng). Chính sự dị biệt đó lại là lí do tồn tại và làm nên
những giá trị khác nhau giữa các từ trong một nhóm từ đồng nghĩa. Rõ ràng tính đồng
nghĩa có những mức độ khác nhau, và ta có thể nêu quan niệm như sau:
Từ đồng nghĩa là những từ tương đồng với nhau về nghĩa, khác nhau về âm
thanh và có phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc sắc thái phong cách
nào đó, hoặc đồng thời cả hai.

LUAN VAN CHAT LUONG download : add



13
Ví dụ:
- start, commence, begin (trong tiếng Anh)
- cố, gắng, cố gắng (trong tiếng Việt)
là những nhóm từ đồng nghĩa.
Những từ đồng nghĩa với nhau tập hợp thành một nhóm gọi là nhóm đồng
nghĩa. Trong các ví dụ vừa nêu, ta có các nhóm đồng nghĩa của từng ngơn ngữ tương
ứng.
Những từ đồng nghĩa với nhau không nhất thiết phải tương đương với nhau về
số lượng nghĩa, tức là các từ trong một nhóm đồng nghĩa khơng nhất thiết phải có
dung lượng nghĩa bằng nhau: Từ này có thể có một hoặc hai nghĩa, nhưng từ kia có thể
có tới dăm bảy nghĩa. Thông thường, các từ chỉ đồng nghĩa ở một nghĩa nào đó. Chính
vì thế nên một từ đa nghĩa có thể tham gia vào nhiều nhóm đồng nghĩa khác nhau: Ở
nhóm này nó tham gia với nghĩa này, ở nhóm khác nó tham gia với nghĩa khác.
Ví dụ: Từ “coi” trong tiếng Việt là một từ đa nghĩa. Tuỳ theo từng nghĩa được nêu lên
để tập hợp các từ, mà “coi” có thể tham gia vào các nhóm như:
+ coi – xem: coi hát – xem hát
+ coi – giữ: coi nhà – giữ nhà
Trong mỗi nhóm từ đồng nghĩa thường có một từ mang nghĩa chung, được
dùng phổ biến và trung hoà về mặt phong cách, được lấy làm cơ sở để tập hợp và so
sánh, phân tích các từ khác. Từ đó gọi là từ trung tâm của nhóm.
Ví dụ trong nhóm từ “yếu, yếu đuối, yếu ớt” của tiếng Việt, từ “yếu” được gọi là từ
trung tâm.
Tuy nhiên, việc xác định từ trung tâm của nhóm khơng phải lúc nào cũng dễ và
đối với nhóm nào cũng làm được. Nhiều khi ta khơng thể xác định một cách dứt khốt
được theo những tiêu chí vừa nêu trên, mà phải dựa vào những tiêu chí phụ như: tần số
xuất hiện cao (hay được sử dụng) hoặc khả năng kết hợp rộng.
Chẳng hạn, trong các nhóm từ đồng nghĩa tiếng Việt như: hồi, thuở, thời; hoặc

chờ, đợi; hoặc chỗ, nơi, chốn,... rất khó xác định từ nào là trung tâm.
Tập hợp đủ các nhóm từ đồng nghĩa, phân tích cho hết được những nét giống
nhau, khác nhau giữa các từ trong mỗi nhóm, ln ln làm mong muốn của những
người nghiên cứu và xử lí vấn đề từ đồng nghĩa.

LUAN VAN CHAT LUONG download : add


14
Nhận biết để tập hợp, phân tích thấu đáo các nhóm đồng nghĩa sẽ giúp cho
người ta sử dụng được chuẩn xác và tinh tế hơn, phù hợp với tâm lí và thói quen của
người bản ngữ hơn. Điều đó rất quan trọng đối với việc dạy và học tiếng.

2.3. Các cách tiếp cận xử lý tài liệu theo ngữ nghĩa
Trong xử lý ngơn ngữ tự nhiên, bài tốn gán nhãn ngữ nghĩa hay còn gọi là
“khử sự nhập nhằng ngữ nghĩa của từ” là bài tốn khó khăn nhất và cũng là bài toán
trọng tâm mà đến nay trên thế giới vẫn chưa giải quyết ổn thỏa. Hiện nay, có rất nhiều
mơ hình với nhiều hướng tiếp cận khác nhau, chủ yếu là:

2.3.1. Dựa trên trí tuệ nhân tạo (AI-based)
Đây là cách tiếp cận sớm nhất (1960) với những lý thuyết rất hay về mạng ngữ
nghĩa, khung ngữ nghĩa và các ý niệm nguyên thủy và các quan hệ như IS-A, PARTOF…Tuy nhiên, do hầu hết các tri thức về ngữ nghĩa trong cách tiếp cận này đều được
xây dựng bằng tay, vì vậy các mơ hình đều dừng lại ở mức độ biểu diễn trên một vài
câu. Vấn đề khó khăn của cách tiếp cận này là thiếu tri thức.

2.3.2. Dựa trên Cơ sở tri thức (Knowledge-based)
Vào đầu thập niên 80, người ta đã chuyển sang hướng khai thác tri thức tự động
từ các từ điển điện tử (MRD: Machine – Readable Dictionaries) như các từ điển đồng
nghĩa…để có thể phần nào khắc phục hạn chế của hướng tiếp cận dựa trên trí tuệ nhân
tạo (thiếu tri thức). Kết quả của hướng tiếp cận này là sự ra đời của mạng WordNet –

Một cơ sở tri thức khổng lồ về ngữ nghĩa theo hướng liệt kê nét nghĩa. Tuy nhiên, các
cơ sở tri thức nói trên cũng chỉ là những nguồn thông tin để hệ thống chọn nghĩa tham
khảo, cịn chọn thơng tin nào trong số những thơng tin có liên quan đó thì ta phải tự
xác định trong từng trường hợp cụ thể.

2.3.3. Dựa trên ngữ liệu (Corpus-based)
Hướng tiếp cận này sẽ rút ra các qui luật xử lý ngữ nghĩa (bằng thống kê, bằng
máy học,…) từ những kho dữ liệu lớn đã có sẵn và áp dụng các luật này cho trường
hợp mới. Thực ra, cách tiếp cận này đã được nêu ra rất sớm (1940), nhưng do nguồn
dữ liệu hạn chế, thiết bị xử lý chưa hiện đại nên khơng có điều kiện phát triển. Mãi tới
thập niên 1990, khi mà công nghệ phát triển mạnh, đã có thể vượt qua được khó khăn
của mình, cách tiếp cận này được hồi sinh và phát triển mạnh tới ngày nay.
Hiện nay, cách tiếp cận dựa trên ngữ liệu kết hợp với tri thức có sẵn là hướng
tiếp cận đang được nhiều nhà ngôn ngữ học – máy tính quan tâm.

LUAN VAN CHAT LUONG download : add


15

2.4. Độ tương tự ngữ nghĩa từ-từ dựa trên cơ sở tri thức (từ điển
WordNet)
2.4.1. Khái quát về từ điển WordNet
Wordnet là một cơ sở dữ liệu tri thức từ vựng học được thiết kế dựa trên những
lý thuyết về ngôn ngữ tâm lý theo cách liên tưởng từ ngữ của con người. WordNet
được tổ chức dựa theo các quan hệ ngữ nghĩa bởi vì một quan hệ ngữ nghĩa là một
quan hệ giữa các nghĩa và các nghĩa có thể được đại diện bởi nhiều synset. Và chúng
ta có thể xem những quan hệ ngữ nghĩa như là những con trỏ giữa các synset. Đó là
đặc tính của quan hệ ngữ nghĩa và chúng có tác động qua lại với nhau.
Một từ bất kỳ có thể có nhiều nghĩa (word meaning) và khi đó mỗi nghĩa của nó

sẽ thuộc vào những tập đồng nghĩa khác nhau. Ngược lại, mỗi tập đồng nghĩa lại có
thể chứa một hoặc nhiều hơn một từ khác nhau. Xét ví dụ sau:
Ví dụ:
Khi tìm từ letter trong WordNet ta sẽ được kết quả như sau:
 The noun letter has 4 senses:
i. Letter, missive: a written message addressed to a person or organization;
“wrote an indignant letter to the editor”
ii. Letter, letter of the alphabet, alphabetic character: the conventional
characters of the alphabet used to represent speech; “his grandmother
tauch him his letter”.
iii. Letter: a strictly literal interpretation (as distinct from the intention); “he
followed instructions to the letter ”; “he obeyed the letter of the law”.
iv. Letter, varsity letter: an award earned by participation in a school sport;
“he won letters in three sports ”.
 Trong WordNet danh từ letter có 4 nghĩa thuộc vào 4 tập đồng nghĩa:
i. Tập đồng nghĩa thứ nhất gồm: letter, missive với nghĩa tiếng Việt tương
ứng là “lá thư”, “thư tín”.
ii. Tập đồng nghĩa thứ hai gồm: letter, letter of the alphabet, alphabetic
character với nghĩa tiếng Việt tương ứng là “ký tự”, “chữ” hay “chữ cái”.
iii. Tập thứ ba chỉ gồm một từ: letter với nghĩa tiếng Việt là “nghĩa chật hẹp”,
“nghĩa mặt chữ”.

LUAN VAN CHAT LUONG download : add


16
iv. Tập cuối cùng gồm hai từ: letter, varsity letter với nghĩa tiếng Việt tương
ứng là “huy hiệu”, “danh hiệu” tặng cho những sinh viên có thành tích thể
thao đặc biệt ở trường.


Hình 2: Một phần từ điển WordNet

2.4.2. Độ tương tự từ-từ dựa trên từ điển WordNet
Một số độ đo trình bày dưới đây được nghiên cứu dựa trên từ điển phân cấp
WordNet. Tất cả các độ đo này đều có đầu vào là một cặp khái niệm, giá trị trả ra là
mối quan hệ ngữ nghĩa của chúng. Chúng ta có thể dễ dàng chuyển sang độ tương tự
từ-từ bằng cách lựa chọn bất cứ cặp từ cho sẵn nào mà ý nghĩa của chúng dẫn tới độ
tương tự cao nhất giữa khái niệm-khái niệm.
(1) Leacock và Chodorow
Độ tương tự được xác định bởi cơng thức:

length
2D
Trong đó length là độ dài của đường đi ngắn nhất giữa hai khái niệm sử dụng nodecounting
D là độ sâu của hệ thống cây phân cấp (độ sâu lớn nhất của sự phân loại)
(2) Lesk
Độ tương tự giữa hai khái niệm được xác định như một hàm chồng khít giữa
các định nghĩa tương ứng, cũng như được cung cấp bởi một từ điển. Ứng dụng của
Lesk không được hạn cho mạng ngữ nghĩa, và nó có thể được dùng cùng với bất cứ từ
điển nào cung cấp định nghĩa từ.
(3) Wu và Palmer
SimLch   log

LUAN VAN CHAT LUONG download : add


17
Độ tương tự được đo bởi độ sâu của hai khái niệm trong WordNet và độ sâu của
LCS (Least common subsumer) (nút cha chung gần nhất của cả hai khái niệm đó).
Cơng thức như sau:


simwup 

2  depth( LCS )
depth(concept1 )  depth(concept2 )

(4) Resnik
Mức tương tự nhau của hai khái niệm có thể được đánh giá bằng mức độ chia sẻ
thông tin giữa chúng. Resnik định nghĩa độ tương tự giữa hai khái niệm là “hàm lượng
thông tin” của cha chung gần nhất của chúng:
Trả về nội dung thông tin (IC) của LCS của hai khái niệm:

simres  IC ( LCS )
ở đó IC được xác định như sau:
IC(c) = -logP(c)
và P(c) là xác suất của một ví dụ của khái niệm c trong tập dữ liệu.
(5) Lin
Độ đo này lấy từ lý thuyết của ơng về tính tương tự giữa hai đối tượng bất kỳ.
Cũng gần giống như simjnc
simlin 

2  IC ( LCS )
IC (concept1 )  IC (concept2 )

(6) Jiang và Conrath
Phương pháp này cũng sử dụng khái niệm “hàm lượng thông tin” nhưng ở dạng
xác suất có điều kiện: xác suất bắt gặp một synset con khi đã có một synset cha:

sim jnc 


1
IC (concept1 )  IC (concept2 )  2  IC ( LCS )

Trên đây là 6 phương pháp tính độ tương tự từ-từ dựa trên từ điển WordNet.
Tuy nhiên từ điển này là dành cho ngôn ngữ tiếng Anh. Hiện tiếng Việt của chúng ta
chưa có bộ từ điển nào có cấu trúc đầy đủ như vậy. Do đó các phương pháp trên khó
có thể áp dụng được cho từ tiếng Việt.

2.5. Độ tương tự ngữ nghĩa từ-từ dựa trên ngữ liệu
Độ tương tự ngữ nghĩa dựa trên tập ngữ liệu (corpus) xác định mức độ tương tự
giữa các từ bằng việc sử dụng thông tin xuất phát từ tập ngữ liệu lớn.
Chúng ta xét một số phương pháp sau:

LUAN VAN CHAT LUONG download : add


18

2.5.1. PMI (Pointwise Mutual Information) (Thông tin chung dựa trên
điểm)
PMI sử dụng dữ liệu đã tập hợp từ việc tìm kiếm thông tin (PMI-IR) được đưa
ra bởi Turney 2001 như một độ đo không giám sát để đánh giá độ tương tự ngữ nghĩa
của từ. Nó dựa trên các từ đồng xảy ra trên một tập ngữ liệu lớn (large corpora). Độ đo
PMI-IR cho 2 từ w1 và w2 được tính như sau:
PMI  IR(w1 , w 2 )  log 2

p (w1 , w 2 )
p (w1 )  p (w 2 )

2.5.2. LSA (Latent Semantic Analysis) (Phân tích ngữ nghĩa ẩn)

Trong LSA, các từ đồng xảy ra trong tập corpus được nắm bắt (capture) bằng
việc giảm số chiều bởi SVD (Singular Value Decomposition) của một ma trận T (ma
trận từ-tài liệu) thể hiện tập corpus. Trong các thí nghiệm ở đây, chúng ta sẽ thực hiện
SVD trên tập British National Corpus.
SVD là thao tác trong đại số tuyến tính, cái có thể được áp dụng cho bất kỳ ma
trận chữ nhật nào để tìm ra mối tương quan giữa hàng và cột. Trong trường hợp này,
SVD phân tách ma trận T thành 3 ma trận.
SVD có thể được xem là cách để vượt qua một số hạn chế của mơ hình khơng
gian vecto chuẩn (số chiều cao – Sparseness and high dimensionality). Thực tế, độ
tương tự LSA được tính với số chiều thấp hơn, và mối quan hệ thứ hai giữa thuật ngữvăn bản được khai thác. Độ tương tự trong không gian kết quả được đo bằng độ tương
tự cosin. Chú ý rằng LSA cũng sinh ra một mơ hình khơng gian vecto cho phép thể
hiện sự đồng nhất (và so sánh) giữa các từ, tập các từ và các văn bản.

2.5.3. Phương pháp của Dekang Lin
Phương pháp này do Dekang Lin (1997) đề xuất trong bài báo “Automatic
Retrieval and Clustering of Similar Words”.
Kí hiệu (w, r, w’) là một bộ ba có từ trung tâm là w, từ phụ thuộc là w’ và hai từ
này được quan hệ với nhau thơng qua quan hệ r.
Kí hiệu ||w, r, w’|| là số lượng của một loại bộ ba (w, r, w’). Nếu một giá trị
trong số ba giá trị w, r hoặc w’ được thay thế bằng dấu * thì giá trị đó là một giá trị xác
định bất kì trong kho ngữ liệu. Ví dụ, || gia_đình, mod, *|| là số lượng bộ ba có từ trung
tâm là gia_đình và quan hệ là mod, và ||*, *, *|| là tổng số bộ ba được trích từ kho ngữ
liệu cú pháp.
Một từ w được mô tả thông qua những bộ ba có từ w đó là từ trung tâm hay nó
được mơ tả thơng qua các bộ ba có dạng (w, *, *). Sự tương đồng giữa hai từ được mô

LUAN VAN CHAT LUONG download : add


19

tả thơng qua những bộ ba mà có sự xuất hiện của một hoặc hai từ đó trong kho ngữ
liệu.
Ví dụ : từ giàu được mô tả thông qua các bộ ba sau.
bộ ba

số lượng

|| giàu , mod-of , chuyện ||

1

|| giàu , mod-of , cuộc_đời ||

1

|| giàu , mod-of , em ||

1

|| giàu , mod-of , hình_ảnh ||

1

|| giàu , mod-of , hịn ||

3

|| giàu , mod-of , kính ||

1


|| giàu , mod-of , kịch ||

1

|| giàu , mod-of , người ||

5

|| giàu , mod-of , nhà ||

7

|| giàu , mod-of , quốc_gia ||

1

|| giàu , mod-of , tay ||

1

Bảng 2 : Mô tả các bộ ba của từ giàu
Giả sử rằng sự xuất hiện của các loại bộ ba là độc lập với nhau. Khi đó lượng
thơng tin chứa trong mô tả của một từ là tổng thông tin chứa trong tất cả các bộ ba có
phần tử trung tâm là từ đó.
Cơng thức tính lượng thơng tin chứa trong một bộ ba bất kì (w, r, w’) được tính
bằng tần xuất xuất hiện của bộ ba đó trong kho ngữ liệu cú pháp hoặc trong trường
hợp bộ ba (w, r, w’) không tồn tại trong kho ngữ liệu thì ta có thể tính lượng thơng tin
đó thơng qua các bộ ba chứa một trong các thành phần của bộ ba nói trên trong tồn bộ
kho ngữ liệu, hay trong trường hợp một bộ ba tồn tại thì lượng thông tin trong bộ ba

trên được định nghĩa là

P( w, r , w)  (|| w, r , w ||) /(|| *,*,*||)

LUAN VAN CHAT LUONG download : add


20
Trong trường hợp bộ ba không tồn tại trong kho ngữ liệu thu được thì nó có thể
tính thơng qua các bộ ba khác trong kho ngữ liệu, áp dụng công thức xác suất bayes
với giả thiết A và C là các biến ngẫu nhiên độc lập với nhau ta có :
P(A, B, C)

= P(A|B, C)

P(B, C)

= P(A|B, C)

P(C|B)

= P(A|B)

P(C|B)

P(B)
P(B)

với các biến cố ngẫu nhiên
A: một từ được chọn ngẫu nhiên w.

B: một kiểu phụ thuộc được chọn ngẫu nhiên r.
C: một từ được chọn ngẫu nhiên w’
trong đó

P ( A | B )  (P w, r ,* P) /(P*, r ,* P)
P(C | B)  (P*, r , w P) /(P*, r ,* P)

P ( B )  (P*, r ,* P) /(P*,*,* P)
Khi có các giá trị trên ta có thể tính I(w, r, w’) là giá trị mô tả lượng thông tin
chứa trong một bộ ba (w, r, w’).
I (w, r, w’)= - log(P(A|B)

P(C|B)

P(B)) = - (- log(P(A, B, C)))

hay

I ( w, r , w)  log(P w, r , w P P*, r ,* P) /(P w, r ,* P P*, r , w P)
Chú ý rằng I(w, r, w’) là lượng thông tin tương hỗ giữa w và w’
Ta định nghĩa tập T(w) là tập các cặp (r, w’) sao cho giá trị log (P(A, B, C))
dương. Khi đó độ tương tự sim(w1, w2) giữa 2 từ w1 và w2 được định nghĩa như sau:

 I ( w1 , r , w)  I ( w2 , r , w) 
sim( w1 , w2 ) 
 (r ,w)T ( w )  I (w1 , r, w)    (r ,w)T ( w )  I (w2 , r, w) 



( r , w )T ( w1 ) T ( w2 )

1

2

LUAN VAN CHAT LUONG download : add


×