ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Đỗ Thị Thanh Nga
TÍNH TOÁN ĐỘ TƢƠNG TỰ NGỮ NGHĨA VĂN BẢN
DỰA VÀO ĐỘ TƢƠNG TỰ GIỮA TỪ VỚI TỪ
LUẬN VĂN THẠC SĨ
HÀ NỘI - 2010
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Đỗ Thị Thanh Nga
TÍNH TOÁN ĐỘ TƢƠNG TỰ NGỮ NGHĨA VĂN BẢN
DỰA VÀO ĐỘ TƢƠNG TỰ GIỮA TỪ VỚI TỪ
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ
Ngƣời hƣớng dẫn khoa học: TS. Nguyễn Phƣơng Thái
HÀ NỘI - 2010
MỤC LỤC
DANH MỤC CÁC BẢNG 1
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 2
MỞ ĐẦU 3
CHƢƠNG I. KHÁI NIỆM ĐỘ TƢƠNG TỰ 5
1.1. Tổng quan về độ tƣơng tự 5
1.2. Khái niệm độ tƣơng tự 6
1.2.1. Định nghĩa độ tƣơng tự (Definition of Similarity) 7
1.2.2. Độ tƣơng tự giữa các giá trị có thứ tự ƣu tiên (ordinal values) 8
1.2.3. Độ tƣơng tự chuỗi (String Similarity-A case study) 9
1.3. Độ tƣơng tự ngữ nghĩa 10
CHƢƠNG II. ĐỘ TƢƠNG TỰ TỪ-TỪ 11
2.1. Khái niệm từ, thuật ngữ 11
2.1.1. Từ và cấu trúc từ của tiếng Việt 11
2.1.1.1. Định nghĩa từ 11
2.1.1.2. Cấu trúc từ của tiếng Việt 11
2.1.2. Nghĩa của từ 12
2.1.3. Thuật ngữ (terms) 12
2.2. Từ đồng nghĩa 12
2.3. Các cách tiếp cận xử lý tài liệu theo ngữ nghĩa 14
2.3.1. Dựa trên trí tuệ nhân tạo (AI-based) 14
2.3.2. Dựa trên Cơ sở tri thức (Knowledge-based) 14
2.3.3. Dựa trên ngữ liệu (Corpus-based) 14
2.4. Độ tƣơng tự ngữ nghĩa từ-từ dựa trên cơ sở tri thức (từ điển WordNet) 15
2.4.1. Khái quát về từ điển WordNet 15
2.4.2. Độ tƣơng tự từ-từ dựa trên từ điển WordNet 16
2.5. Độ tƣơng tự ngữ nghĩa từ-từ dựa trên ngữ liệu 17
2.5.1. PMI (Pointwise Mutual Information) (Thông tin chung dựa trên điểm) 18
2.5.2. LSA (Latent Semantic Analysis) (Phân tích ngữ nghĩa ẩn) 18
2.5.3. Phƣơng pháp của Dekang Lin 18
CHƢƠNG III. ĐỘ TƢƠNG TỰ VĂN BẢN-VĂN BẢN 21
3.1. Xử lý văn bản tiếng Việt 21
3.1.1. Một số kết quả đã đạt đƣợc 21
3.1.2. Đặc trƣng của cấu trúc ngữ pháp tiếng Việt 23
3.2. Tách từ trong văn bản tiếng Việt 23
3.3. Các hƣớng tiếp cận tách từ 24
3.3.1. Các hƣớng tiếp cận dựa trên “từ” 24
3.3.2. Các hƣớng tiếp cận dựa trên ký tự 25
3.4. Một số phƣơng pháp tách từ tiếng Việt hiện nay 26
3.4.1. Phƣơng pháp Maximum Matching: Forward/Backward 26
3.4.2. Phƣơng pháp Transformation-based Learning (TBL) 27
3.4.3. Mô hình tách từ bằng WFST và mạng Neural 27
3.4.3.1. Tầng WFST 27
3.4.3.2. Tầng mạng Neural 28
3.4.4. Phƣơng pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di
truyền 28
3.4.4.1. Online Extractor 28
3.4.4.2. GA Engine for Text Segmentation 29
3.4.5. Nhận xét 29
3.5. Độ tƣơng tự văn bản-văn bản 30
CHƢƠNG IV. TÍNH ĐỘ TƢƠNG TỰ NGỮ NGHĨA VĂN BẢN DỰA VÀO ĐỘ TƢƠNG
TỰ GIỮA TỪ VỚI TỪ 33
3.1. Phát biểu bài toán 33
3.2. Giải quyết bài toán 33
3.2.1. Chuẩn bị dữ liệu 33
3.2.2. Tách từ: Tách văn bản thành các từ ghép và danh từ riêng 36
3.2.2.1. Tách từ ghép trong văn bản 36
3.2.2.2. Tách danh từ riêng trong văn bản 39
3.2.3. Tính toán độ tƣơng tự văn bản 41
3.3. Xây dựng hệ thống 44
3.3.1. Nhập trực tiếp 2 văn bản 45
3.3.2. Nhập 2 văn bản từ file 46
3.3.3. Lấy nội dung 2 văn bản từ URL 47
3.4. Kết quả thử nghiệm và đánh giá 48
3.4.1. Một số ví dụ cụ thể 48
3.4.2. Kết quả thử nghiệm 54
3.4.2.1. Cách tiến hành 54
3.4.2.2. Kết quả thử nghiệm 54
3.4.3. Đánh giá 59
KẾT LUẬN 61
HƢỚNG PHÁT TRIỂN 62
TÀI LIỆU THAM KHẢO 63
1
DANH MỤC CÁC BẢNG
Bảng Trang
Bảng 1. Tần suất xuất hiện độ dài từ tiếng Việt trên trang Vdict.com 11
Bảng 2. Mô tả các bộ ba của từ “giàu” 19
Bảng 3. Các điểm khác biệt chính giữa tiếng Việt và tiếng Anh 24
Bảng 4. Địa chỉ của 20 tin tức trên một số trang Web 54
Bảng 5. Một số kết quả độ tƣơng tự của hai file bất kỳ 55
Bảng 6. Kết quả đánh giá 20 tin tức do ngƣời và máy thực hiện 56
Bảng 7. Địa chỉ của 30 tin rao vặt trên các trang Web 56
Bảng 8. Một số kết quả độ tƣơng tự của hai tin rao vặt bất kỳ 58
Bảng 9. Kết quả đánh giá 30 tin rao vặt do ngƣời và máy thực hiện 59
2
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình Trang
Hình 1. Ví dụ phân phối của các giá trị có thứ tự ƣu tiên 9
Hình 2. Một phần từ điển WordNet 16
Hình 3. Các hƣớng tiếp cận cơ bản trong việc tách từ 24
Hình 4. Một phần của từ điển Dict 34
Hình 5. Danh sách một số file trong kho ngữ liệu đã xử lý 34
Hình 6. Một phần của từ điển các từ ghép 35
Hình 7. Một phần từ điển CompoundDict 35
Hình 8. Giao diện chính của hệ thống 45
Hình 9. Giao diện cho phép nhập trực tiếp hai văn bản 45
Hình 10. Giao diện kết quả độ tƣơng tự sau khi nhập hai văn bản 46
Hình 11. Giao diện nhập hai văn bản từ file 46
Hình 12. Giao diện kết quả sau khi nhập hai văn bản từ file 47
Hình 13. Giao diện tính độ tƣơng tự nội dung của hai trang Web 48
3
MỞ ĐẦU
1. Tính cấp thiết của đề tài
Trong thời đại công nghệ số nhƣ hiện nay, các nguồn tài liệu là vô cùng
phong phú. Việc “sao chép tài liệu” theo nghĩa tiêu cực nhƣ đạo văn, sao chép các
luận án, luận văn, đồ án trở nên phổ biến và đang là vấn nạn. Ở qui mô rộng hơn,
các thƣ viện điện tử ngày càng nhiều, một tài liệu có thể đƣợc phát hành trên
internet nhiều lần trong những thƣ viện điện tử khác nhau, trên các trang web khác
nhau.
Làm thế nào để phát hiện sự sao chép tài liệu theo nghĩa tiêu cực? Làm thế
nào ngăn chặn việc sao chép trái phép, đạo văn, đạo nhạc, đạo luận văn, đồ án? Chủ
đề này đã đƣợc nghiên cứu từ khoảng hơn 10 năm qua. Hiện tại, đã có một số giải
pháp cho việc phát hiện sao chép và một vài công cụ phần mềm cho phép phát
hiện một tài liệu (gọi là văn bản kiểm tra) có sao chép từ một tập hợp các tài liệu
nguồn hay không. Tập hợp các tài liệu nguồn có thể là đóng- tức là các tài liệu tập
hợp trƣớc trong một thƣ viện điện tử- hoặc là mở, chẳng hạn nhƣ tập các tài liệu
văn bản trên internet.
Đã có một số nghiên cứu đề xuất các phƣơng pháp khác nhau để xác định
xem một đoạn văn bản của một tài liệu có nằm trong một tài liệu nào khác hay
không. Các phƣơng pháp này chủ yếu dựa trên tìm kiếm và so khớp chuỗi. Tuy
nhiên, các phƣơng pháp so khớp chuỗi chỉ có hiệu quả nếu việc sao chép là
“nguyên văn”. Do vậy một yêu cầu cấp bách đặt ra là làm thế nào để phát hiện việc
sao chép khi có sửa đổi đôi chút nhƣ thay thế một số từ bằng từ đồng nghĩa hay thay
đổi một ít trong thứ tự các câu trong văn bản.
Chính vì vậy, đề tài “Tính toán độ tƣơng tự ngữ nghĩa văn bản dựa vào độ
tƣơng tự giữa từ với từ” đƣợc chọn làm đề tài luận văn tốt nghiệp của tôi.
2. Mục tiêu của luận văn
Vận dụng các phƣơng pháp tính độ tƣơng tự giữa từ với từ để tính độ tƣơng
đồng ngữ nghĩa giữa hai văn bản giúp phát hiện một văn bản có đƣợc sao chép từ văn
bản kia hay không.
3. Đối tượng và nhiệm vụ của luận văn
Đối tƣợng:
Tập các văn bản trong bộ dữ liệu mẫu.
Tập các tài liệu trên Internet.
4
Nhiệm vụ:
Luận văn tập trung vào tính độ tƣơng tự ngữ nghĩa văn bản dựa trên tập ngữ
liệu có sẵn. Trong đó có tận dụng tối đa các đặc điểm của kho ngữ liệu, đến độ tƣơng
tự giữa từ với từ và tập các từ đồng nghĩa.
4. Phương pháp và nội dung nghiên cứu
Nghiên cứu lý thuyết về độ tƣơng tự, các cách tính độ tƣơng tự giữa từ với từ.
Nghiên cứu về kho ngữ liệu, hiện tƣợng từ đồng nghĩa.
Tìm hiều các cách tách từ trong văn bản tiếng Việt.
Nghiên cứu các phƣơng pháp tính độ tƣơng tự ngữ nghĩa văn bản dựa trên độ
tƣơng tự giữa từ với từ.
5. Kết cấu của luận văn
Nội dung chính của luận văn gồm 4 chƣơng:
Chƣơng I: Khái niệm độ tƣơng tự.
Chƣơng II: Độ tƣơng tự từ-từ.
Chƣơng III: Độ tƣơng tự văn bản-văn bản.
Chƣơng IV: Tính độ tƣơng tự ngữ nghĩa văn bản dựa vào độ tƣơng tự giữa từ
với từ.
5
CHƢƠNG I. KHÁI NIỆM ĐỘ TƢƠNG TỰ
1.1. Tổng quan về độ tƣơng tự
Nghiên cứu “sự tƣơng tự” (thƣờng ở dạng đối ngẫu của nó là “khoảng cách”) thuộc
phạm vi toán học, chẳng hạn trong lý thuyết tôpô và xấp xỉ; nhƣng trong khoa học máy
tính và các ứng dụng máy tính có phần khác. Trong khoa học máy tính, phép tính xấp
xỉ thƣờng đƣợc sử dụng theo một lối không có tính hệ thống (non-systematic) và
không theo thể thức (ad-hoc). Trong ngữ cảnh này, khái niệm “sự tƣơng tự” xuất hiện
ở nhiều dạng, diễn xuất, và nhiều ứng dụng.
Khái niệm “sự tƣơng tự” có nhiều dạng khác nhau. Bất chấp những khác biệt,
chúng đều có điểm chung: “sự tƣơng tự” đƣợc sử dụng để so sánh hai (hay nhiều) đối
tƣợng, hai hoàn cảnh, hai vấn đề, v.v… với nhiều nguyên do khác nhau. Luôn có mục
đích nào đó với một phép so sánh nhƣ thế, bởi vì một hành động tiếp sau đó đƣợc thực
hiện và cuối cùng thì một vấn đề nào đó phải đƣợc giải quyết. Vì lý do đó, hai đối
tƣợng đƣợc đem so sánh giữ những vai trò khác nhau. Đối tƣợng thứ nhất đang đƣợc
xem xét và đƣợc gọi là vấn đề (problem). Đối tƣợng thứ hai là đã biết và đã lƣu;
thƣờng đƣợc gọi là bản mẫu (prototype) hay tình huống (case).
“Sự tƣơng tự” đƣợc sử dụng một cách gián tiếp trong quá trình giải quyết vấn đề,
nổi bật là các phƣơng pháp dựa trên phép loại suy (Analogy), lập luận dựa theo tình
huống (Case-Based Reasoning), và nhận dạng mẫu (Pattern Recognition). Chúng có
liên hệ với nhau và không có ranh giới rõ ràng giữa phép loại suy và các phƣơng pháp
khác. Ở đây, chúng ta chấp nhận quan điểm rằng phép loại suy gắn với các đối tƣợng
thuộc nhiều lĩnh vực, trong khi CBR và nhận dạng mẫu sử dụng độ tƣơng tự trong
cùng một lĩnh vực. Một khác biệt cơ bản giữa CBR và phép loại suy là CBR thƣờng
(không phải luôn luôn) xét các đối tƣợng đƣợc mô tả theo cùng ngôn ngữ mô tả và
thuật ngữ, trong khi phép loại suy có thể xét các lý thuyết hoàn toàn khác nhau.
Dƣới đây là một số ngữ cảnh cần đến “sự tƣơng tự”:
Lập luận dựa theo tình huống (CBR) là một cách rất tổng quát để giải quyết vấn
đề bằng cách sử dụng các kinh nghiệm trƣớc đó. Những kinh nghiệm này đƣợc
ghi lại trong một cơ sở dữ liệu gọi là kho tình huống. Ý tƣởng bên dƣới nhằm
tái sử dụng những kinh nghiệm là: “Nếu hai vấn đề là tƣơng tự thì chúng có các
giải pháp tƣơng tự”. CBR cũng có một giả định cơ bản là luôn tồn tại kinh
nghiệm. Với điều kiện này, CBR có thể đƣợc áp dụng cho hầu hết các dạng ứng
dụng. Thƣờng thì có rất nhiều kinh nghiệm đƣợc lƣu trữ và một khía cạnh thiết
yếu là nhanh chóng tìm ra những kinh nghiệm hữu ích (bài toán thu hồi).
6
Trong cơ sở dữ liệu (Databases), “sự tƣơng tự” cũng có liên quan với tìm kiếm,
và có quan hệ nào đó với CBR. Đa phần cơ sở dữ liệu cần so trùng chính xác.
Các phép đo độ tƣơng tự giữ một vai trò trong một số cơ sở dữ liệu đặc biệt nhƣ
cơ sở dữ liệu không gian (spatial database) hay cơ sở dữ liệu địa lý (geo-
database).
Nhận dạng mẫu (Pattern Recognition) cũng là một vấn đề rất tổng quát, nghiên
cứu sự vận hành và thiết kế các hệ thống nhận dạng các mẫu trong dữ liệu. Vì
những mẫu nhƣ thế không phải lúc nào cũng giống hệt nhau, khái niệm “sự
tƣơng tự” thƣờng đóng một vai trò quyết định.
Trong phân loại (Classification) và phân tích cụm (Cluster Analysis), “sự tƣơng
tự” đƣợc sử dụng để phân loại các đối tƣợng: các đối tƣợng tƣơng tự thuộc về
cùng một lớp/cụm, các đối tƣợng không tƣơng tự thuộc về các lớp/cụm khác
nhau.
Trong diễn xuất hình ảnh (Image Interpretation), các hình ảnh đƣợc diễn xuất
theo ý nghĩa của chúng và chúng đƣợc so sánh với nhau. Ví dụ, một ảnh y khoa
thực tế và một ảnh không có bệnh lý nào đó đƣợc so sánh với nhau; độ tƣơng tự
giữa những ảnh này đƣợc sử dụng để cho biết ảnh thực kia có chứa bệnh lý hay
không. Xác minh hình ảnh (Image Identification) cũng thuộc về lĩnh vực này.
Trong tâm lý học nhận thức và xã hội (Cognitive and Social Psychology), “sự
tƣơng tự” là cái gì đó chủ quan; ám chỉ thái độ, giá trị, sở thích, và cá tính giữa
những con ngƣời tƣơng xứng mức độ nào. Có nhiều dạng mô hình về sự tƣơng
tự trong tâm lý học, bốn mô hình nổi bật là hình học (geometric), đặc tính
(featural), dựa trên canh lề (alignment-based), và biến đổi (transformational).
Trong lĩnh vực an ninh, quốc phòng để xác định đối tƣợng ảnh khi muốn xác
định vân tay, kiểm tra những băng đĩa mang những nội dung cần kiểm soát,…
Độ đo tƣơng tự là một trong những phƣơng pháp tốt để máy tính phân biệt đƣợc các
văn bản qua nội dung của chúng. Xét trên khía cạnh nào đó, độ tƣơng tự càng lớn, hai
văn bản giống nhau càng nhiều.
1.2. Khái niệm độ tƣơng tự
Độ tƣơng tự là một khái niệm quan trọng và đã đƣợc sử dụng rộng rãi. Các định
nghĩa trƣớc đây về độ tƣơng tự đƣợc trói buộc trong một ứng dụng cụ thể hoặc một
dạng thể hiện của tri thức.
Nhiều độ đo độ tƣơng tự đã đƣợc đƣa ra, chẳng hạn nhƣ nội dung thông tin
(Resnik, 1995b), độ đo thông tin chung (mutual information – Hindle, 1990), độ đo
7
dựa trên khoảng cách (Lee et al., 1998; Rada et al 1998) và mô hình đặc trƣng tƣơng
phản (Tversky, 1977). McGill etc đã khảo sát và so sánh 67 độ đo độ tƣơng tự đã sử
dụng trong tìm kiếm thông tin (McGill et al., 1979).
Một vấn đề trong độ đo độ tƣơng tự trƣớc đây là mỗi một trong số chúng bị trói
buộc trong một ứng dụng cụ thể hoặc đảm đƣơng một mô hình cụ thể. Ví dụ độ đo về
độ tƣơng tự giữa các khái niệm dựa trên khoảng cách (Lee et al., 1989; Rada et al.,
1989) thừa nhận rằng phạm vi đƣợc thể hiện trong một mạng. Nếu một tập các tài liệu
không đƣợc thể hiện nhƣ một mạng, độ đo dựa trên khoảng cách sẽ không đƣợc áp
dụng. Hệ số dice (súc sắc) và hệ số cosin chỉ có thể đƣợc áp dụng khi các đối tƣợng
đƣợc thể hiện nhƣ các vecto đặc trƣng bằng số.
Một vấn đề khác với các độ đo độ tƣơng tự trƣớc đây là các điều giả định cơ
bản của chúng thƣờng không ở trạng thái rõ ràng. Ngoài việc biết các giả định này,
không thể tạo ra sự tranh luận về mặt lý thuyết hay phản đối bất cứ độ đo cụ thể nào.
Hầu hết tất cả các so sánh và đánh giá của các độ đo độ tƣơng tự trƣớc đây đều dựa
trên kết quả do kinh nghiệm.
Định nghĩa độ tƣơng tự trong phần sau đạt đƣợc 2 mục đích:
Tính phổ biến (universality): Chúng ta định nghĩa độ tƣơng tự trong thuật ngữ
lý thuyết thông tin. Điều đó có thể đƣợc áp dụng miễn là phạm vi có một mô
hình xác suất. Từ đó lý thuyết xác suất có thể đƣợc tích hợp với nhiều loại thể
hiện của tri thức, chẳng hạn nhƣ thứ tự logic (Bacchus, 1988) và mạng ngữ
nghĩa (Pearl, 1988), định nghĩa của chúng ta về độ tƣơng tự có thể đƣợc áp
dụng cho nhiều loại lĩnh vực mà mỗi độ đo có một giả định riêng trƣớc. Hơn
nữa, tính phổ biến của định nghĩa còn cho phép độ đo đƣợc sử dụng trong lĩnh
vực không có giả định trƣớc, chẳng hạn nhƣ độ tƣơng tự giữa các giá trị có thứ
tự.
Tính giả định (Theoretical Justification): độ đo độ tƣơng tự không đƣợc định
nghĩa một cách trực tiếp bởi công thức. Hơn nữa, nó đƣợc phân phát từ một tập
các giả định về độ tƣơng tự. Mặt khác, nếu các giả định đƣợc cho là hợp lý, độ
đo độ tƣơng tự cần thiết phải xảy ra.
1.2.1. Định nghĩa độ tƣơng tự (Definition of Similarity)
Mục đích của chúng ta là cung cấp định nghĩa chính thức về khái niệm độ
tƣơng tự, đầu tiên chúng ta đƣa ra các trực giác (intuitions) về độ tƣơng tự.
Trực giác 1: Độ tƣơng tự giữa A và B có liên quan tới sự tƣơng đồng của
chúng. Sự tƣơng đồng càng nhiều, độ tƣơng tự càng lớn.
8
Trực giác 2: Độ tƣơng tự giữa A và B có liên quan tới những sự khác biệt giữa
chúng. Càng nhiều sự khác biệt, độ tƣơng tự càng thấp.
Trực giác 3: Độ tƣơng tự lớn nhất giữa A và B đạt đƣợc khi A và B giống hệt
nhau (đồng nhất - identical)
1.2.2. Độ tƣơng tự giữa các giá trị có thứ tự ƣu tiên (ordinal values)
Rất nhiều các đặc trƣng có các giá trị ƣu tiên. Ví dụ, thuộc tính “chất lƣợng” có
thể mang một trong các giá trị sau: “excellent”, “good”, “average”, “bad”, “awful”.
Không có một định nghĩa nào ở trên cung cấp độ đo độ tƣơng tự giữa hai giá trị có thứ
tự. Bây giờ chúng ta sẽ chỉ ra cách định nghĩa của chúng ta có thể đƣợc áp dụng.
Nếu “chất lƣợng của X là excellent” và “chất lƣợng của Y là average”, sự mô tả
cụ thể nhất của cả X và Y là “chất lƣợng của X và Y ở giữa hai giá trị excellent và
average”. Do đó, sự tƣơng đồng giữa hai giá trị ƣu tiên đƣợc giới hạn bên trong giữa
chúng.
Giả sử phân phối của thuộc tính “chất lƣợng” đƣợc nêu ra nhƣ ở hình 1. Sau đây là 4
ví dụ tính độ tƣơng tự:
2 log P(excellent good)
(excellent, good) =
log (excellent) + log P(good)
sim
P
2 log(0.05 0.10)
0.72
log0.05 log0.10
2 log P(good erage)
(good, average) =
log ( erage) + log P(good)
av
sim
P av
2 log(0.10 0.50)
0.34
log0.10 log0.50
2 log P(excellent good average)
(excellent, average) =
log (excellent) + log P(average)
sim
P
2 log(0.05 0.10 0.50)
0.23
log0.05 log0.50
2 log P(good erage bad)
(good, bad) =
log ( ood) + log P(bad)
av
sim
Pg
2 log(0.10 0.50 0.20)
0.11
log0.10 log0.20
9
Kết quả chỉ ra rằng độ tƣơng tự giữa “excellent” và “good” cao hơn độ tƣơng tự giữa
“good” và “average”, độ tƣơng tự giữa “excellent” và “average” cao hơn độ tƣơng tự
giữa “good” và “bad”.
1.2.3. Độ tƣơng tự chuỗi (String Similarity-A case study)
Xem xét công việc tìm kiếm từ một danh sách từ các từ mà đƣợc xuất phát từ
cùng một gốc nhƣ là một từ cho sẵn. Ví dụ, cho trƣớc từ “eloquently”, mục đích của
chúng ta là để tìm ra các từ liên quan khác nhƣ “ineloquent”, “ineloquently”,
“eloquent” và “eloquence”. Để làm điều đó, ta có thể định nghĩa độ đo tƣơng tự giữa
hai chuỗi và xếp hạng các từ trong danh sách từ theo thứ tự giảm dần của độ tƣơng tự
với từ cho sẵn. Những từ xuất phát từ cùng một từ gốc nên xuất hiện sớm trong bảng
xếp hạng.
Chúng ta tiến hành thử nghiệm với 3 độ đo sau:
Độ đo đầu tiên đƣợc định nghĩa nhƣ sau:
1
( , )
1 ( , )
edit
sim x y
editDist x y
ở đó editDist(x,y) là số kí tự nhỏ nhất cần chèn vào và xóa đi để chuyển từ xâu này
thành xâu khác.
Độ đo độ tƣơng tự thứ hai là dựa trên số bộ ba khác nhau trong hai xâu:
1
( , )
1 ( ) ( ) 2 ( ) ( )
tri
sim x y
tri x tri y tri x tri y
Hình 1: Ví dụ phân phối của các giá trị có thứ tự ƣu tiên
10
ở đó tri(x) là tập các bộ ba trong x. Ví dụ tri(eloquent) = {elo, loq, oqu, que, ent}
Độ đo độ tƣơng tự thứ ba là dựa trên giả định là xác suất của một bộ ba xảy ra
trong một từ là độc lập với các bộ ba khác trong từ đó.
( ) ( )
( ) ( )
2 log ( )
( , )
log ( ) log ( )
t tri x tri y
t tri x t tri y
Pt
sim x y
P t P t
1.3. Độ tƣơng tự ngữ nghĩa
Độ tƣơng tự ngữ nghĩa là một khái niệm ở đó tập các tài liệu hoặc các thuật ngữ
trong một danh sách các thuật ngữ đƣợc gán một tỷ lệ dựa trên sự giống nhau về nội
dung ý nghĩa của chúng.
Độ đo độ tƣơng tự ngữ nghĩa gần đây đƣợc áp dụng và phát triển trong rất
nhiều lĩnh vực nhƣ trong y học (so sánh các gen), trong phân lớp văn bản (các văn bản
tƣơng tự nhau thì cùng thuộc một lớp),…
Mỗi lĩnh vực khác nhau có các cách để tính độ tƣơng tự ngữ nghĩa khác nhau.
Sau đây chúng ta sẽ tìm hiểu các phƣơng pháp tính độ đo tƣơng tự từ-từ và độ đo
tƣơng từ giữa văn bản-văn bản.
11
CHƢƠNG II. ĐỘ TƢƠNG TỰ TỪ-TỪ
2.1. Khái niệm từ, thuật ngữ
2.1.1. Từ và cấu trúc từ của tiếng Việt
2.1.1.1. Định nghĩa từ
Khái niệm từ nghe rất thông dụng dễ hiểu nhƣng định nghĩa chính xác thế nào
thì không đơn giản. Từ trƣớc tới nay cũng có nhiều định nghĩa đƣợc đƣa ra, tất cả đều
đúng nhƣng chƣa hoàn chỉnh. Dƣới đây, tôi nêu ra một số định nghĩa về từ.
Thời Hy Lạp cổ đại, trƣờng phái ngôn ngữ Alexandre định nghĩa: “Từ là đơn vị
nhỏ nhất trong chuỗi lời nói”. Theo E.Sapir: “Từ là một đoạn nhỏ nhất có ý nghĩa,
hoàn toàn có khả năng độc lập và bản thân có thể làm thành câu tối giản”.
Còn với những nhà ngôn ngữ học tiếng Việt, thì theo Lê Văn Lý: “Từ là một tín
hiệu ngữ âm có thể cấu tạo bằng một âm vị hay sự kết hợp với âm vị, mà sự phát âm
chỉ tiến hành trong một lần, hoặc là một âm tiết mà chữ viết biểu thị bằng một đơn vị
tách rời có thể hiểu đƣợc”. Theo Nguyễn Kim Thản thì “Từ là đơn vị cơ bản của ngôn
ngữ, có thể tách khỏi các đơn vị khác của lời nói để vận dụng một cách độc lập và là
một khối hoàn chỉnh về mặt ý nghĩa và cấu tạo”. Quan niệm của ông về “đơn vị cơ
bản” là những đơn vị có số lƣợng hữu hạn để thông báo, trao đổi tƣ tƣởng cho nhau.
Đơn vị này phải có ý nghĩa, và khi sử dụng, ngƣời dùng phải có ý thức về nó. Chính vì
thế, từ không thể là câu, và không thể là âm tiết (vì nhiều khi âm tiết không có nghĩa
và khi sử dụng, ngƣời dùng không ý thức về nó).
Có ngƣời lại cho rằng “Từ là đơn vị nhỏ nhất có nghĩa, có kết cấu vỏ ngữ âm
bền vững, hoàn chỉnh, có chức năng gọi tên, đƣợc vận dụng độc lập, tái hiện tự do
trong lời nói để tạo câu”. Ví dụ: nhà, ngƣời, áo, nếu, sẽ, thì, đƣờng sắt, sân bay, dạ
dày, đen sì, v.v
2.1.1.2. Cấu trúc từ của tiếng Việt
Từ tiếng Việt không giống với ngôn ngữ phƣơng Tây khác là không thể tách để
xác định từ loại. Từ trong tài liệu tiếng Việt có thể là từ đơn (từ có cấu tạo từ một âm
tiết) hoặc từ ghép (từ có cấu tạo từ hai âm tiết trở lên. Theo nhƣ thống kê trên trang
thì độ dài của một từ tiếng Việt đƣợc thể hiện trong bảng:
Độ dài của từ
Tần số
Tỉ lệ %
1
8933
12.2
2
48995
67.1
12
3
5727
7.9
4
7040
9.7
≥ 5
2301
3.1
Tổng cộng
72994
100
Bảng 1: Tấn suất xuất hiện độ dài từ tiếng Việt trên trang Vdict.com
2.1.2. Nghĩa của từ
Nghĩa của từ là một khái niệm đã đƣợc nêu ra từ lâu và cũng đã có nhiều cách
hiểu, nhiều định nghĩa khác nhau.
Nghĩa của từ cũng phản ánh những đặc trƣng chung, khái quát của sự vật, hiện
tƣợng do con ngƣời nhận thức đƣợc trong đời sống thực tiễn tự nhiên và xã hội. Tuy
nhiên, nó có thể chƣa phải là kết quả của nhận thức đã tiệm cận đến chân lí khoa học.
Vì thế, sự vật, hiện tƣợng nào mà càng ít đƣợc nghiênc cứu, phám phá thì nhận thức về
nó đƣợc phản ánh trong nghĩa của từ gọi tên nó càng xa với khái niệm khoa học.
Việc xác định nghĩa của từ trong văn bản là một trong những thách thức lớn
nhất trong xử lý ngôn ngữ tự nhiên. Nghĩa của từ chƣa biết thƣờng đƣợc suy ra từ văn
cảnh sử dụng chúng. Sự nhận dạng các từ đồng nghĩa là bƣớc khởi đầu trong việc học
định nghĩa một từ.
2.1.3. Thuật ngữ (terms)
Thuật ngữ: là các từ khóa có nghĩa liên quan đến một lĩnh vực nào đó, ví dụ:
“máy tính”, “công nghệ phần mềm”, “tính toán song song”. Các thuật ngữ này thuộc
về lĩnh vực “tin học”.
Một thuật ngữ có thể có nhiều từ. Ví dụ: Thuật ngữ “công nghệ” gồm 2 từ
“công” và “nghệ”, khi tách chúng ra thì 2 từ này không có ý nghĩa gì cả.
2.2. Từ đồng nghĩa
Từ đồng nghĩa không phải là những từ trùng nhau hoàn toàn về nghĩa. Chúng
nhất định có những dị biệt nào đó bên cạnh sự tƣơng đồng (mặc dù phát hiện sự dị biệt
đó không phải lúc nào cũng dễ dàng). Chính sự dị biệt đó lại là lí do tồn tại và làm nên
những giá trị khác nhau giữa các từ trong một nhóm từ đồng nghĩa. Rõ ràng tính đồng
nghĩa có những mức độ khác nhau, và ta có thể nêu quan niệm nhƣ sau:
Từ đồng nghĩa là những từ tƣơng đồng với nhau về nghĩa, khác nhau về âm
thanh và có phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc sắc thái phong cách
nào đó, hoặc đồng thời cả hai.
13
Ví dụ:
- start, commence, begin (trong tiếng Anh)
- cố, gắng, cố gắng (trong tiếng Việt)
là những nhóm từ đồng nghĩa.
Những từ đồng nghĩa với nhau tập hợp thành một nhóm gọi là nhóm đồng
nghĩa. Trong các ví dụ vừa nêu, ta có các nhóm đồng nghĩa của từng ngôn ngữ tƣơng
ứng.
Những từ đồng nghĩa với nhau không nhất thiết phải tƣơng đƣơng với nhau về
số lƣợng nghĩa, tức là các từ trong một nhóm đồng nghĩa không nhất thiết phải có
dung lƣợng nghĩa bằng nhau: Từ này có thể có một hoặc hai nghĩa, nhƣng từ kia có thể
có tới dăm bảy nghĩa. Thông thƣờng, các từ chỉ đồng nghĩa ở một nghĩa nào đó. Chính
vì thế nên một từ đa nghĩa có thể tham gia vào nhiều nhóm đồng nghĩa khác nhau: Ở
nhóm này nó tham gia với nghĩa này, ở nhóm khác nó tham gia với nghĩa khác.
Ví dụ: Từ “coi” trong tiếng Việt là một từ đa nghĩa. Tuỳ theo từng nghĩa đƣợc nêu lên
để tập hợp các từ, mà “coi” có thể tham gia vào các nhóm nhƣ:
+ coi – xem: coi hát – xem hát
+ coi – giữ: coi nhà – giữ nhà
Trong mỗi nhóm từ đồng nghĩa thƣờng có một từ mang nghĩa chung, đƣợc
dùng phổ biến và trung hoà về mặt phong cách, đƣợc lấy làm cơ sở để tập hợp và so
sánh, phân tích các từ khác. Từ đó gọi là từ trung tâm của nhóm.
Ví dụ trong nhóm từ “yếu, yếu đuối, yếu ớt” của tiếng Việt, từ “yếu” đƣợc gọi là từ
trung tâm.
Tuy nhiên, việc xác định từ trung tâm của nhóm không phải lúc nào cũng dễ và
đối với nhóm nào cũng làm đƣợc. Nhiều khi ta không thể xác định một cách dứt khoát
đƣợc theo những tiêu chí vừa nêu trên, mà phải dựa vào những tiêu chí phụ nhƣ: tần số
xuất hiện cao (hay đƣợc sử dụng) hoặc khả năng kết hợp rộng.
Chẳng hạn, trong các nhóm từ đồng nghĩa tiếng Việt nhƣ: hồi, thuở, thời; hoặc
chờ, đợi; hoặc chỗ, nơi, chốn, rất khó xác định từ nào là trung tâm.
Tập hợp đủ các nhóm từ đồng nghĩa, phân tích cho hết đƣợc những nét giống
nhau, khác nhau giữa các từ trong mỗi nhóm, luôn luôn làm mong muốn của những
ngƣời nghiên cứu và xử lí vấn đề từ đồng nghĩa.
14
Nhận biết để tập hợp, phân tích thấu đáo các nhóm đồng nghĩa sẽ giúp cho
ngƣời ta sử dụng đƣợc chuẩn xác và tinh tế hơn, phù hợp với tâm lí và thói quen của
ngƣời bản ngữ hơn. Điều đó rất quan trọng đối với việc dạy và học tiếng.
2.3. Các cách tiếp cận xử lý tài liệu theo ngữ nghĩa
Trong xử lý ngôn ngữ tự nhiên, bài toán gán nhãn ngữ nghĩa hay còn gọi là
“khử sự nhập nhằng ngữ nghĩa của từ” là bài toán khó khăn nhất và cũng là bài toán
trọng tâm mà đến nay trên thế giới vẫn chƣa giải quyết ổn thỏa. Hiện nay, có rất nhiều
mô hình với nhiều hƣớng tiếp cận khác nhau, chủ yếu là:
2.3.1. Dựa trên trí tuệ nhân tạo (AI-based)
Đây là cách tiếp cận sớm nhất (1960) với những lý thuyết rất hay về mạng ngữ
nghĩa, khung ngữ nghĩa và các ý niệm nguyên thủy và các quan hệ nhƣ IS-A, PART-
OF…Tuy nhiên, do hầu hết các tri thức về ngữ nghĩa trong cách tiếp cận này đều đƣợc
xây dựng bằng tay, vì vậy các mô hình đều dừng lại ở mức độ biểu diễn trên một vài
câu. Vấn đề khó khăn của cách tiếp cận này là thiếu tri thức.
2.3.2. Dựa trên Cơ sở tri thức (Knowledge-based)
Vào đầu thập niên 80, ngƣời ta đã chuyển sang hƣớng khai thác tri thức tự động
từ các từ điển điện tử (MRD: Machine – Readable Dictionaries) nhƣ các từ điển đồng
nghĩa…để có thể phần nào khắc phục hạn chế của hƣớng tiếp cận dựa trên trí tuệ nhân
tạo (thiếu tri thức). Kết quả của hƣớng tiếp cận này là sự ra đời của mạng WordNet –
Một cơ sở tri thức khổng lồ về ngữ nghĩa theo hƣớng liệt kê nét nghĩa. Tuy nhiên, các
cơ sở tri thức nói trên cũng chỉ là những nguồn thông tin để hệ thống chọn nghĩa tham
khảo, còn chọn thông tin nào trong số những thông tin có liên quan đó thì ta phải tự
xác định trong từng trƣờng hợp cụ thể.
2.3.3. Dựa trên ngữ liệu (Corpus-based)
Hƣớng tiếp cận này sẽ rút ra các qui luật xử lý ngữ nghĩa (bằng thống kê, bằng
máy học,…) từ những kho dữ liệu lớn đã có sẵn và áp dụng các luật này cho trƣờng
hợp mới. Thực ra, cách tiếp cận này đã đƣợc nêu ra rất sớm (1940), nhƣng do nguồn
dữ liệu hạn chế, thiết bị xử lý chƣa hiện đại nên không có điều kiện phát triển. Mãi tới
thập niên 1990, khi mà công nghệ phát triển mạnh, đã có thể vƣợt qua đƣợc khó khăn
của mình, cách tiếp cận này đƣợc hồi sinh và phát triển mạnh tới ngày nay.
Hiện nay, cách tiếp cận dựa trên ngữ liệu kết hợp với tri thức có sẵn là hƣớng
tiếp cận đang đƣợc nhiều nhà ngôn ngữ học – máy tính quan tâm.
15
2.4. Độ tƣơng tự ngữ nghĩa từ-từ dựa trên cơ sở tri thức (từ điển
WordNet)
2.4.1. Khái quát về từ điển WordNet
Wordnet là một cơ sở dữ liệu tri thức từ vựng học đƣợc thiết kế dựa trên những
lý thuyết về ngôn ngữ tâm lý theo cách liên tƣởng từ ngữ của con ngƣời. WordNet
đƣợc tổ chức dựa theo các quan hệ ngữ nghĩa bởi vì một quan hệ ngữ nghĩa là một
quan hệ giữa các nghĩa và các nghĩa có thể đƣợc đại diện bởi nhiều synset. Và chúng
ta có thể xem những quan hệ ngữ nghĩa nhƣ là những con trỏ giữa các synset. Đó là
đặc tính của quan hệ ngữ nghĩa và chúng có tác động qua lại với nhau.
Một từ bất kỳ có thể có nhiều nghĩa (word meaning) và khi đó mỗi nghĩa của nó
sẽ thuộc vào những tập đồng nghĩa khác nhau. Ngƣợc lại, mỗi tập đồng nghĩa lại có
thể chứa một hoặc nhiều hơn một từ khác nhau. Xét ví dụ sau:
Ví dụ:
Khi tìm từ letter trong WordNet ta sẽ đƣợc kết quả nhƣ sau:
The noun letter has 4 senses:
i. Letter, missive: a written message addressed to a person or organization;
“wrote an indignant letter to the editor”
ii. Letter, letter of the alphabet, alphabetic character: the conventional
characters of the alphabet used to represent speech; “his grandmother
tauch him his letter”.
iii. Letter: a strictly literal interpretation (as distinct from the intention); “he
followed instructions to the letter ”; “he obeyed the letter of the law”.
iv. Letter, varsity letter: an award earned by participation in a school sport;
“he won letters in three sports ”.
Trong WordNet danh từ letter có 4 nghĩa thuộc vào 4 tập đồng nghĩa:
i. Tập đồng nghĩa thứ nhất gồm: letter, missive với nghĩa tiếng Việt tƣơng
ứng là “lá thƣ”, “thƣ tín”.
ii. Tập đồng nghĩa thứ hai gồm: letter, letter of the alphabet, alphabetic
character với nghĩa tiếng Việt tƣơng ứng là “ký tự”, “chữ” hay “chữ cái”.
iii. Tập thứ ba chỉ gồm một từ: letter với nghĩa tiếng Việt là “nghĩa chật hẹp”,
“nghĩa mặt chữ”.
16
iv. Tập cuối cùng gồm hai từ: letter, varsity letter với nghĩa tiếng Việt tƣơng
ứng là “huy hiệu”, “danh hiệu” tặng cho những sinh viên có thành tích thể
thao đặc biệt ở trƣờng.
Hình 2: Một phần từ điển WordNet
2.4.2. Độ tƣơng tự từ-từ dựa trên từ điển WordNet
Một số độ đo trình bày dƣới đây đƣợc nghiên cứu dựa trên từ điển phân cấp
WordNet. Tất cả các độ đo này đều có đầu vào là một cặp khái niệm, giá trị trả ra là
mối quan hệ ngữ nghĩa của chúng. Chúng ta có thể dễ dàng chuyển sang độ tƣơng tự
từ-từ bằng cách lựa chọn bất cứ cặp từ cho sẵn nào mà ý nghĩa của chúng dẫn tới độ
tƣơng tự cao nhất giữa khái niệm-khái niệm.
(1) Leacock và Chodorow
Độ tƣơng tự đƣợc xác định bởi công thức:
log
2
Lch
length
Sim
D
Trong đó length là độ dài của đƣờng đi ngắn nhất giữa hai khái niệm sử dụng node-
counting
D là độ sâu của hệ thống cây phân cấp (độ sâu lớn nhất của sự phân loại)
(2) Lesk
Độ tƣơng tự giữa hai khái niệm đƣợc xác định nhƣ một hàm chồng khít giữa
các định nghĩa tƣơng ứng, cũng nhƣ đƣợc cung cấp bởi một từ điển. Ứng dụng của
Lesk không đƣợc hạn cho mạng ngữ nghĩa, và nó có thể đƣợc dùng cùng với bất cứ từ
điển nào cung cấp định nghĩa từ.
(3) Wu và Palmer
17
Độ tƣơng tự đƣợc đo bởi độ sâu của hai khái niệm trong WordNet và độ sâu của
LCS (Least common subsumer) (nút cha chung gần nhất của cả hai khái niệm đó).
Công thức nhƣ sau:
wup
12
2 ( )
( ) ( )
depth LCS
sim
depth concept depth concept
(4) Resnik
Mức tƣơng tự nhau của hai khái niệm có thể đƣợc đánh giá bằng mức độ chia sẻ
thông tin giữa chúng. Resnik định nghĩa độ tƣơng tự giữa hai khái niệm là “hàm lƣợng
thông tin” của cha chung gần nhất của chúng:
Trả về nội dung thông tin (IC) của LCS của hai khái niệm:
es
()
r
sim IC LCS
ở đó IC đƣợc xác định nhƣ sau:
IC(c) = -logP(c)
và P(c) là xác suất của một ví dụ của khái niệm c trong tập dữ liệu.
(5) Lin
Độ đo này lấy từ lý thuyết của ông về tính tƣơng tự giữa hai đối tƣợng bất kỳ.
Cũng gần giống nhƣ sim
jnc
12
2 ( )
( ) ( )
lin
IC LCS
sim
IC concept IC concept
(6) Jiang và Conrath
Phƣơng pháp này cũng sử dụng khái niệm “hàm lƣợng thông tin” nhƣng ở dạng
xác suất có điều kiện: xác suất bắt gặp một synset con khi đã có một synset cha:
12
1
( ) ( ) 2 ( )
jnc
sim
IC concept IC concept IC LCS
Trên đây là 6 phƣơng pháp tính độ tƣơng tự từ-từ dựa trên từ điển WordNet.
Tuy nhiên từ điển này là dành cho ngôn ngữ tiếng Anh. Hiện tiếng Việt của chúng ta
chƣa có bộ từ điển nào có cấu trúc đầy đủ nhƣ vậy. Do đó các phƣơng pháp trên khó
có thể áp dụng đƣợc cho từ tiếng Việt.
2.5. Độ tƣơng tự ngữ nghĩa từ-từ dựa trên ngữ liệu
Độ tƣơng tự ngữ nghĩa dựa trên tập ngữ liệu (corpus) xác định mức độ tƣơng tự
giữa các từ bằng việc sử dụng thông tin xuất phát từ tập ngữ liệu lớn.
Chúng ta xét một số phƣơng pháp sau:
18
2.5.1. PMI (Pointwise Mutual Information) (Thông tin chung dựa trên
điểm)
PMI sử dụng dữ liệu đã tập hợp từ việc tìm kiếm thông tin (PMI-IR) đƣợc đƣa
ra bởi Turney 2001 nhƣ một độ đo không giám sát để đánh giá độ tƣơng tự ngữ nghĩa
của từ. Nó dựa trên các từ đồng xảy ra trên một tập ngữ liệu lớn (large corpora). Độ đo
PMI-IR cho 2 từ w
1
và w
2
đƣợc tính nhƣ sau:
12
1 2 2
12
(w ,w )
IR(w ,w ) log
(w ) (w )
p
PMI
pp
2.5.2. LSA (Latent Semantic Analysis) (Phân tích ngữ nghĩa ẩn)
Trong LSA, các từ đồng xảy ra trong tập corpus đƣợc nắm bắt (capture) bằng
việc giảm số chiều bởi SVD (Singular Value Decomposition) của một ma trận T (ma
trận từ-tài liệu) thể hiện tập corpus. Trong các thí nghiệm ở đây, chúng ta sẽ thực hiện
SVD trên tập British National Corpus.
SVD là thao tác trong đại số tuyến tính, cái có thể đƣợc áp dụng cho bất kỳ ma
trận chữ nhật nào để tìm ra mối tƣơng quan giữa hàng và cột. Trong trƣờng hợp này,
SVD phân tách ma trận T thành 3 ma trận.
SVD có thể đƣợc xem là cách để vƣợt qua một số hạn chế của mô hình không
gian vecto chuẩn (số chiều cao – Sparseness and high dimensionality). Thực tế, độ
tƣơng tự LSA đƣợc tính với số chiều thấp hơn, và mối quan hệ thứ hai giữa thuật ngữ-
văn bản đƣợc khai thác. Độ tƣơng tự trong không gian kết quả đƣợc đo bằng độ tƣơng
tự cosin. Chú ý rằng LSA cũng sinh ra một mô hình không gian vecto cho phép thể
hiện sự đồng nhất (và so sánh) giữa các từ, tập các từ và các văn bản.
2.5.3. Phƣơng pháp của Dekang Lin
Phƣơng pháp này do Dekang Lin (1997) đề xuất trong bài báo “Automatic
Retrieval and Clustering of Similar Words”.
Kí hiệu (w, r, w’) là một bộ ba có từ trung tâm là w, từ phụ thuộc là w’ và hai từ
này đƣợc quan hệ với nhau thông qua quan hệ r.
Kí hiệu ||w, r, w’|| là số lƣợng của một loại bộ ba (w, r, w’). Nếu một giá trị
trong số ba giá trị w, r hoặc w’ đƣợc thay thế bằng dấu * thì giá trị đó là một giá trị xác
định bất kì trong kho ngữ liệu. Ví dụ, || gia_đình, mod, *|| là số lƣợng bộ ba có từ trung
tâm là gia_đình và quan hệ là mod, và ||*, *, *|| là tổng số bộ ba đƣợc trích từ kho ngữ
liệu cú pháp.
Một từ w đƣợc mô tả thông qua những bộ ba có từ w đó là từ trung tâm hay nó
đƣợc mô tả thông qua các bộ ba có dạng (w, *, *). Sự tƣơng đồng giữa hai từ đƣợc mô
19
tả thông qua những bộ ba mà có sự xuất hiện của một hoặc hai từ đó trong kho ngữ
liệu.
Ví dụ : từ giàu đƣợc mô tả thông qua các bộ ba sau.
bộ ba
số lƣợng
|| giàu , mod-of , chuyện ||
1
|| giàu , mod-of , cuộc_đời ||
1
|| giàu , mod-of , em ||
1
|| giàu , mod-of , hình_ảnh ||
1
|| giàu , mod-of , hòn ||
3
|| giàu , mod-of , kính ||
1
|| giàu , mod-of , kịch ||
1
|| giàu , mod-of , ngƣời ||
5
|| giàu , mod-of , nhà ||
7
|| giàu , mod-of , quốc_gia ||
1
|| giàu , mod-of , tay ||
1
Bảng 2 : Mô tả các bộ ba của từ giàu
Giả sử rằng sự xuất hiện của các loại bộ ba là độc lập với nhau. Khi đó lƣợng
thông tin chứa trong mô tả của một từ là tổng thông tin chứa trong tất cả các bộ ba có
phần tử trung tâm là từ đó.
Công thức tính lƣợng thông tin chứa trong một bộ ba bất kì (w, r, w’) đƣợc tính
bằng tần xuất xuất hiện của bộ ba đó trong kho ngữ liệu cú pháp hoặc trong trƣờng
hợp bộ ba (w, r, w’) không tồn tại trong kho ngữ liệu thì ta có thể tính lƣợng thông tin
đó thông qua các bộ ba chứa một trong các thành phần của bộ ba nói trên trong toàn bộ
kho ngữ liệu, hay trong trƣờng hợp một bộ ba tồn tại thì lƣợng thông tin trong bộ ba
trên đƣợc định nghĩa là
( , , ) (|| , , ||)/(||*,*,*||)P w r w w r w
20
Trong trƣờng hợp bộ ba không tồn tại trong kho ngữ liệu thu đƣợc thì nó có thể
tính thông qua các bộ ba khác trong kho ngữ liệu, áp dụng công thức xác suất bayes
với giả thiết A và C là các biến ngẫu nhiên độc lập với nhau ta có :
P(A, B, C) = P(A|B, C) P(B, C)
= P(A|B, C) P(C|B) P(B)
= P(A|B) P(C|B) P(B)
với các biến cố ngẫu nhiên
A: một từ đƣợc chọn ngẫu nhiên w.
B: một kiểu phụ thuộc đƣợc chọn ngẫu nhiên r.
C: một từ đƣợc chọn ngẫu nhiên w
’
trong đó
( | ) ( , ,* )/( *, ,* )P A B w r r
( | ) ( *, , )/( *, ,* )P C B r w r
( ) ( *, ,* )/( *,*,* )P B r
Khi có các giá trị trên ta có thể tính I(w, r, w
’
) là giá trị mô tả lƣợng thông tin
chứa trong một bộ ba (w, r, w
’
).
I (w, r, w’)= - log(P(A|B) P(C|B) P(B)) = - (- log(P(A, B, C)))
hay
( , , ) log( , , *, ,* )/( , ,* *, , )I w r w w r w r w r r w
Chú ý rằng I(w, r, w
’
) là lƣợng thông tin tƣơng hỗ giữa w và w’
Ta định nghĩa tập T(w) là tập các cặp (r, w’) sao cho giá trị log (P(A, B, C))
dƣơng. Khi đó độ tƣơng tự sim(w
1,
w
2
) giữa 2 từ w
1
và w
2
đƣợc định nghĩa nhƣ sau:
12
12
12
( , ) ( ) ( )
12
12
( , ) ( ) ( , ) ( )
( , , ) ( , , )
( , )
( , , ) ( , , )
r w T w T w
r w T w r w T w
I w r w I w r w
sim w w
I w r w I w r w
21
CHƢƠNG III. ĐỘ TƢƠNG TỰ VĂN BẢN-VĂN BẢN
3.1. Xử lý văn bản tiếng Việt
3.1.1. Một số kết quả đã đạt đƣợc
Tiếng nói và chữ viết là hai yếu tố cơ bản nhất của bất kỳ ngôn ngữ nào.
Trong sự phát triển của công nghệ thông tin (CNTT) ở Việt Nam, một số việc liên
quan đến “tiếng Việt” đã đƣợc làm và ít nhiều có kết quả ban đầu:
(a) Trƣớc hết là các bộ gõ chữ Việt và thành công của việc đƣa đƣợc bộ mã
chữ Việt vào bảng mã Unicode, cũng nhƣ việc chọn Unicode cho bộ mã
chuẩn tiếng Việt (nhân đây cũng xin nói thêm, do chƣa ý thức về chuẩn, rất
nhiều cán bộ CNTT, nhiều cơ quan nhà nƣớc vẫn chƣa chịu đổi thói quen
cũ để dùng bộ mã chuẩn Unicode, một việc rất quan trọng của xử lý tiếng
Việt). Bảo tồn chữ Nôm trên máy tính cũng là một việc đầy nỗ lực và nhiều
ý nghĩa đƣợc nhiều ngƣời theo đuổi lâu nay, cần đƣợc nhà nƣớc tiếp tục ủng
hộ lâu dài ().
(b) Tiếp theo có thể kể đến các chƣơng trình nhận dạng chữ Việt in (OCR:
optical character recognition), nhƣ hệ VnDOCR của Viện Công nghệ Thông
tin, Viện Khoa học và Công nghệ Việt Nam. Các chƣơng trình nhận dạng
chữ in nhằm chuyển các tài liệu in trên giấy thành các tài liệu điện tử (dƣới
dạng các tệp văn bản trên máy tính)
(c) Các phần mềm hỗ trợ việc sử dụng tiếng nƣớc ngoài, tiêu biểu là các từ
điển song ngữ trên máy tính, thí dụ nhƣ các từ điển điện tử của Lạc Việt đã
đƣợc dùng rộng rãi trên máy tính để tra cứu từ Anh-Việt, Việt-Anh. Điều ta
cần phân biệt là các từ điển điện tử này dành cho con ngƣời sử dụng, khác
với từ điển điện tử dành cho máy tính sử dụng trong xử lý ngôn ngữ tự nhiên
(sẽ đƣợc đề cập ở phần sau).
(d) Các nỗ lực trong việc làm các phần mềm dịch Anh-Việt, Việt-Anh, chẳng
hạn nhƣ các hệ dịch EVTRAN và VETRAN.
(e) Một loại việc nữa là Việt hóa các phần mềm mà gần đây tiêu biểu là kết
quả Việt hóa Windows và Microsoft Office của Microsoft. Việc này có thể
xem nhƣ việc “dịch” các thông báo tiếng Anh cố định trong các phần mềm
thành các thông báo tiếng Việt.
Các dữ liệu liên quan đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở
nên kiểu dữ liệu chính con ngƣời có và lƣu trữ dƣới dạng điện tử. Với sự ra đời và
phổ biến của Internet, của sách báo điện tử, của máy tính cá nhân,, của viễn thông,