Tải bản đầy đủ (.docx) (39 trang)

phân cụm từ đồng nghĩa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (330.61 KB, 39 trang )


1



 !"#
 $%&'(
)*+,!
 /01234567
89:;:
2
3



 !"#
 $%&'(
)*+,!
 /01234567
<=>?-@A/BC-D5E>F-G
89:;:
H4I6
Tự động xây dựng và phân cụm từ đồng nghĩa là một vấn đề có ý nghĩa quan
trọng trong nghiên cứu và ứng dụng. Đã có nhiều nghiên cứu về vấn đề này cho các
ngôn ngữ như tiếng Anh, Trung, v.v Tuy nhiên với tiếng Việt thì đây là vấn đề mới.
Hai từ đồng nghĩa với nhau thường xuất hiện trong các ngữ cảnh giống nhau. Mức độ
giống nhau về ý nghĩa của các từ được xác định bằng một độ đo tương tự như độ đo
thông tin tương hỗ trong lý thuyết thông tin (Lin, 1998). Chúng tôi áp dụng phương
pháp này trên kho ngữ liệu khoảng 15 triệu từ (tương ứng với khoảng 700, 000 câu)
lấy từ ba báo điện tử khác nhau. Kho ngữ liệu này đã được phân tích cú pháp tự động
bằng công cụ phân tích cú pháp tiếng Việt mới nhất. Kết quả thu được là khả quan với


độ chính xác (precision) xấp xỉ 50%. Việc đánh giá được thực hiện bán tự động, tức là
sử dụng từ điển tiếng Việt cho máy tính kết hợp với người đánh giá.
JKH1/ từ đồng nghĩa, phân tích cú pháp, quan hệ ngữ pháp, kho ngữ liệu
(corpus), kho ngữ liệu được chú giải cú pháp (treebank).
4
%L3L3
5
>F-;/G?G6GMDC
Mục tiêu chúng tôi nghiên cứu là xây dựng từ điển đồng nghĩa, trái nghĩa một
cách bán tự động. Từ điển được xây dựng một cách bán tự động sẽ mang lại nhiều
thuận lợi hơn so với việc xây dựng những bộ từ điển đồng nghĩa, trái nghĩa theo
phương pháp thủ công bởi vì xây dựng theo phương pháp thủ công phụ thuộc rất nhiều
vào kinh nghiệm của người xây dựng và cả kho ngữ liệu mà họ sử dụng. Thông
thường từ điển đồng nghĩa, trái nghĩa thông dụng phải bao gồm các từ tương đương về
ngữ nghĩa mà có thể rất ít khi xuất hiện trong kho ngữ liệu riêng biệt hoặc một loại dữ
liệu chuyên ngành. Một ứng dụng khác trong việc tự động trích ra các từ đồng nghĩa là
giúp giải quyết vấn đề dữ liệu thưa trong xử lý ngôn ngữ tự nhiên bằng phương pháp
thống kê. Khi tần xuất xuất hiện của một từ không thể xác định chính xác thông qua
văn cảnh ta có thể tính xấp xỉ giá trị tần xuất đó thông qua tần xuất xuất hiện của các
từ tương đương.
Nghĩa của từ có quan hệ chặt chẽ với văn cảnh mà chúng xuất hiện trong đó.
Những từ có nghĩa tương tự nhau thường xuất hiện trong những văn cảnh giống nhau.
Dựa trên tính chất này mà nhiều phương pháp xác định từ đồng nghĩa và phân cụm từ
đã được nghiên cứu.
Quá trình phát hiện từ đồng nghĩa trong kho ngữ liệu tiếng Việt bao gồm các
bước:
- Thu thập dữ liệu tiếng Việt dưới dạng văn bản.
- Tách câu và tách từ cho văn bản.
- Phân tích cú pháp cho các câu trong văn bản.
- Trích rút các bộ ba từ những câu được phân tích.

- Từ tập dữ liệu sau khi làm mịn là các bộ ba áp dụng phương pháp thống kê để đưa ra
danh sách các từ tương đồng về nghĩa.
Cấu trúc của báo cáo này như sau: Đầu tiên chúng tôi xin trình bày một số kiến
thức ngôn ngữ học cơ bản liên quan đến từ tiếng Việt như: nghĩa của từ trong văn bản,
việc nhận diện và phân loại từ tiếng Việt, văn cảnh và việc phân tích ngữ nghĩa, hiện
tượng đa nghĩa, hiện tượng đồng âm, hiện tượng đồng nghĩa, hiện tượng trái nghĩa,
v.v Phần tiếp theo chúng tôi xin trình bày về phương pháp của Dekang Lin sử dụng
để tính độ tương tự về nghĩa của các cặp từ trong văn bản tiếng Anh. Sau đó chúng tôi
sẽ trình bày về quá trình phân tích và áp dụng cho bài toán trong tiếng Việt, đưa ra kết
- 6 -
quả khi sử dụng mô hình của Dekang Lin trong tiếng Việt khi phân tích tìm ra danh
sách các từ tương tự về nghĩa từ tập dữ liệu thô ban đầu là các văn bản, các đánh giá
liên quan đến kết quả của chương trình như khả năng đoán nhận từ đồng nghĩa, tính
chính xác của chương trình, một số ý kiến nhận xét của nhóm nghiên cứu và đề ra
những dự kiến cho công việc trong tương lai. Cuối cùng, Chúng tôi xin nêu ra một ứng
dụng về việc sử dụng từ đồng nghĩa để tính độ tương tự giữa 2 văn bản với nhau.
- 7 -
>F-9/J6GN-#GM6
9C;CO@GMP.QRS0TG33UFPV6JPW-6GN-#GM6
9C;C;CV-X1/ Từ là đơn vị nhỏ nhất có nghĩa, có kết cấu vỏ ngữ âm bền
vững, hoàn chỉnh, có chức năng gọi tên, được vận dụng độc lập, tái hiện tự do trong
lời nói để tạo câu.
Ví dụ: ngôi nhà, dòng sông, rừng, núi.
9C;C9C>F-6Y33ZD6T0/ Từ tiếng Việt được cấu tạo từ một hay nhiều âm
tiết, những từ có cấu tạo từ một âm tiết được gọi là từ đơn (đơn âm tiết), những từ có
cấu tạo từ hai âm tiết trở lên được gọi là từ ghép (đa âm tiết).
Từ đơn: nhà, cửa, sông, suối.
Từ ghép: đồng hồ, máy bay, máy tính.
9C;C[CRS0TG6J-\Q: Dựa vào mối quan hệ về nghĩa giữa các thành tố cấu
tạo, có thể phân loại từ ghép tiếng Việt thành hai loại là từ ghép đẳng lập và từ ghép

chính phụ.
9C;C[C;CJ-\QU]-SOQ/ là những từ mà các thành tố cấu tạo có quan hệ bình
đẳng với nhau về nghĩa. Ở đây, có thể lưu ý tới hai khả năng. Thứ nhất, các thành tố
cấu tạo trong từ đều rõ nghĩa. Khi dùng mỗi thành tố như vậy để cấu tạo từ đơn thì
nghĩa của từ đơn và nghĩa của các thành tố này không trùng nhau. Thứ hai, một thành
tố rõ nghĩa tổ hợp với thành tố không rõ nghĩa. Trong hầu hết các trường hợp, những
yếu tố không rõ nghĩa này vốn rõ nghĩa nhưng bị bào mòn dần đi ở các mức độ khác
nhau. Bằng con đường tìm tòi từ nguyên và lịch sử, người ta thường xác định được
nghĩa của chúng.
Ví dụ: chợ búa, bếp núc, đường xá, sầu muộn, gà qué, xe cộ, v.v
9C;C[C9CJ-\Q37QL/ là những từ ghép mà có thành tố cấu tạo này phụ
thuộc vào thành tố cấu tạo kia, đều được gọi là từ ghép chính phụ. Thành tố phụ có vai
trò phân loại, chuyên biệt hoá và sắc thái hoá cho thành tố chính.
Ví dụ: tàu hoả, đường sắt, sân bay, hàng không, nông sản, cà chua, đỏ rực, ngay
thẳng, thẳng tắp, v.v
Từ ghép đẳng lập biểu thị ý nghĩa khái quát và tổng hợp. Đây là một trong những
điểm làm cho nó khác với từ ghép chính phụ.
- 8 -
9C;C[C[CJS5/ Phương thức tổ hợp các tiếng trên cơ sở hoà phối ngữ âm cho ta
các từ láy. Từ láy tiếng Việt có độ dài tối thiểu là hai tiếng, tối đa là bốn tiếng và còn
có loại ba tiếng. Tuy nhiên, loại đầu tiên là loại tiêu biểu nhất cho từ láy và phương
thức láy của tiếng Việt. Một từ sẽ được coi là từ láy khi các yếu tố cấu tạo nên chúng
có thành phần ngữ âm được lặp lại, nhưng vừa có lặp (còn gọi là điệp) vừa có biến đổi
(còn gọi là đối). Ví dụ: đỏ đắn: điệp ở âm đầu, đối ở phần vần. Vì thế, nếu chỉ có điệp
mà không có đối (chẳng hạn như: người người, nhà nhà, ngành ngành, v.v thì ta có
dạng láy của từ chứ không phải là từ láy.
Ví dụ: đo đỏ, xinh xắn, vi vu, xào xạc, v.v
9C;C[C^CJ-AD_Q/ là lớp từ mà người bản ngữ hiện nay không thấy giữa các
thành tố cấu tạo của chúng có quan hệ gì về ngữ âm hoặc ngữ nghĩa. Vì vậy, từ góc độ
phân loại, cần tách chúng ra với ngụ ý: các tiếng tổ hợp với nhau ở đây một cách ngẫu

nhiên. Lớp từ này có thể bao gồm:
- Những từ gốc thuần Việt: bồ câu, bồ hòn, bồ nông, mồ hóng, mồ hôi, kì nhông,
cà nhắc, mặc cả, v.v
- Những từ vay mượn gốc Hán (Hán Việt): mâu thuẫn, hi sinh, trường hợp, kinh
tế, kinh tế, câu lạc bộ, mì chính, tài xế, vằn thắn, v.v
- Những từ vay mượn gốc Ấn-Âu: a-xít, mit tinh, sơ mi, tùng bê, mùi xoa, xà
phòng, cao su, ca cao, hắc ín, sô-cô-la, v.v
Bộ phận từ này trong những năm gần đây có xu hướng gia tăng do các mối quan
hệ quốc tế mở rộng, tạo điều kiện cho sự tiếp xúc, vay mượn và du nhập từ ngữ, nhất
là trong lĩnh vực thông tin, khoa học và kĩ thuật.
9C;C^C`GN6a3b16J/ Trong khi được sử dụng, một số từ tiếng Việt có thể có
biến đổi về cấu trúc. Tuy nhiên, đó không phải là những biến đổi theo nguyên tắc hình
thái học. Có nghĩa rằng, những biến đổi ấy không thường xuyên ở tất cả mọi từ. Chúng
chỉ xảy ra ở một số từ trong một số trường hợp sử dụng và chúng có những dạng biến
đổi như sau:
- Biến một từ có cấu trúc lớn, phức tạp hơn sang cấu trúc nhỏ, đơn giản hơn.
Thực chất đây là sự rút gọn một từ dài thành từ ngắn hơn.
Ví dụ: ki-lô-gam → ki lô/ kí lô, (ông) tú tài → (ông) tú.
- Phá vỡ cấu trúc của từ, phân bố lại yếu tố cấu tạo từ và thêm những yếu tố
khác.
- 9 -
Ví dụ: khổ sở → lo khổ lo sở, ngặt nghẽo → cười ngặt cười nghẽo.
Vấn đề đầu tiên chúng ta gặp phải đó là làm thế nào để tách các từ trong một
văn bản thành các từ riêng biệt để có thể tiến hành mô hình hóa bài toán. Để tách các
từ chúng ta có thể sử dụng một số mô hình như Ngram, v.v để huấn luyện máy tính
có thể học và phân loại như thế nào là một từ, như thế nào là một ngữ để có thể tách từ
văn bản thuần túy ra các từ riêng biệt phục vụ mô hình hóa bài toán.
9C9C#c3dP.PGM3QR673-e-X1
Văn cảnh là những từ bao quanh, hay đi kèm một từ, tạo cho nó tính xác định về
nghĩa. Chẳng hạn từ xuân có nghĩa khác nhau trong những văn cảnh sau:

Xuân nay là xuân năm thìn
(Hồ Chí Minh)
Xuân này kháng chiến đã năm xuân.
(Hồ Chí Minh)
Sáu mươi tuổi hãy còn xuân chán
So với ông Bành vẫn thiếu niên
(Hồ Chí Minh)
Trong câu đầu xuân chỉ mùa đầu tiên trong một năm, trong câu thứ hai, từ xuân
thứ nhất vẫn chỉ mùa như trên, nhưng từ xuân thứ hai có nghĩa là năm. Còn từ xuân
thứ ba lại có nghĩa là trẻ. Chính những từ ngữ đi kèm theo các từ xuân đã giúp chúng
ta phân biệt được các nghĩa như vậy.
Nói đến văn cảnh chúng ta cần phân biệt một văn cảnh lớn và văn cảnh nhỏ
không vượt ra khỏi phạm vi một câu. Cũng cần phân biệt văn cảnh hẹp và văn cảnh
rộng, trong đó văn cảnh hẹp là những kết hợp tối thiểu nào đó xác định nghĩa của từ.
Nếu văn cảnh hẹp chưa xác định được ý nghĩa của từ thì chuyển sang văn cảnh rộng.
Có nhiều khi văn cảnh là cả một câu cũng chưa thể xác định được nghĩa của từ. Chẳng
hạn câu “tôi thử thách anh”, thử thách có thể được hiểu theo hai cách: thử thách với
nghĩa là “kiểm nghiệm tài trí, đạo đức, phẩm chất của người, sự vật nào đó” và thử
thách là một cụm từ, trong đó, thách là động từ với nghĩa “đố, thách thức”. Trong
những trường hợp như vậy, cần phải sử dụng đến ngữ cảnh hay hoàn cảnh sử dụng để
tìm ra được nghĩa chính xác của từ.
- 10 -
Ngữ cảnh hay hoàn cảnh sử dụng là chỉ các tình huống, cái bối cảnh phi ngôn
ngữ mà từ xuất hiện: ai nói, nói bao giờ, nói ở đâu, nói với ai, vì sao nói. Trở lại ví dụ
trên, nếu câu “Tôi thử thách anh” được nói trong hoàn cảnh hai người đang thách thức
nhau, đố nhau về cái gì đó thì phải hiểu theo cách thứ hai, còn nói trong hoàn cảnh một
người giao cho người khác một nhiệm vụ thì phải hiểu theo cách thứ nhất.
Do đó nghiên cứu văn cảnh không thể tách rời việc nghiên cứu khả năng kết hợp
của các từ, tức là sự xuất hiện đồng thời của các từ trong lời nói. Cần phân biệt khả
năng kết hợp tiềm tàng của các từ, tức là khả năng kết hợp có cơ sở trong bản thân

ngôn ngữ và khả năng kết hợp trong thực tế của các từ trong lời nói. Kiểu khả năng kết
hợp đầu, trong ngôn ngữ học, được gọi là ngữ trị. Có hai loại khả năng kết hợp: Khả
năng kết hợp từ vựng và khẳ năng kết hợp cú pháp. Khả năng kết hợp từ vựng là khả
năng kết hợp của các nghĩa, còn khả năng kết hợp cú pháp là khả năng dùng các từ
trong cấu trúc nào đó. Khả năng kết hợp từ vựng bị quy định bởi những liên hệ logic
tồn tại trong thực tế giữa các sự vật và hiện tượng được từ biểu thị, còn khả năng kết
hợp cú pháp phụ thuộc vào ý nghĩa phạm trù của các từ được kết hợp. Nói chung trong
ngôn ngữ tồn tại những quy luật cú pháp nhất định cho phép hợp nhất các từ trong văn
bản. Dựa vào các quy luật cú pháp của ngôn ngữ, người ta có thể xây dựng lên những
mô hình có cấu trúc. Những mô hình như vậy sẽ biểu hiện khả năng kết hợp cú pháp
của các từ. Trong mỗi mô hình cấu trúc như thế, sự kết hợp của các từ riêng biệt sẽ bị
quy định bởi ý nghĩa riêng của chúng. Đó là khả năng kết hợp từ vựng tức là khả năng
kết hợp của các ý nghĩa với nhau. Khả năng kết hợp từ vựng bị quy định bởi những
quan hệ có thật giữa các sự vật hiện tượng trong thực tế, hiện tượng như vậy trong
thực tế lại rất đa dạng cho nên khả năng kết hợp từ vựng của mỗi từ cũng rất phong
phú và đa dạng. Hơn nữa trên thực tế người ta còn sử dụng nhiều cách chơi chữ khác
nhau làm biến đổi tính chất, sắc thái ý nghĩa của từ nên sự kết hợp các từ với nhau là
rất phức tạp.
Văn cảnh có vai trò đặc biệt quan trọng trong việc phân tích ngữ nghĩa. Đối với
tiếng Việt là ngôn ngữ không biến hình, tính độc lập về nghĩa của từ là tương đối yếu,
hiện tượng đa nghĩa và đồng âm là khá phổ biến, vai trò của văn cảnh càng trở nên
quan trọng. Văn cảnh là sản phẩm của lời nói, sở dĩ có thể hợp nhất các từ trong văn
bản là do mỗi từ có một ý nghĩa riêng, nếu không, ta không thể biết trên cơ sở nào
những lời nói được sản sinh. Tuy nhiên ý nghĩa của từ bộc lộ ở dạng tiềm tàng, nó bộc
lộ ra ngoài nhờ có văn cảnh. Nghiên cứu văn cảnh tức là nghiên cứu thuộc tính cú
đoạn của từ. Những liên hệ hệ hình và liên hệ cú đoạn của từ không tách rời nhau.
- 11 -
Nghiên cứu khả năng kết hợp của các từ về mặt cú đoạn đồng thời cũng chỉ ra tính phụ
thuộc của khẳ năng kết hợp các từ vào những liên hệ hệ hình. Tuy khác nhau về bản
chất nhưng thực ra khả năng kết hợp từ vựng và khả năng kết hợp cú pháp chỉ là

những bậc khác nhau của sự thể hiện ý toàn vẹn duy nhất của từ cụ thể. Khả năng kết
hợp cú pháp có thể dùng làm những tiêu chuẩn để chia ra các từ loại và tiểu loại trong
ngôn ngữ. Trong trường hợp này từ là đại diện của lớp hoặc lớp con ngữ pháp nhất
định, các lớp này hợp nhất các từ trên cơ sở những đặc điểm chung nhất về ý nghĩa của
chúng.
9C[C%=6fgGM6>_-6h0-6GN-#GM6
9C[C;CGM6>_-U1-X1/ Từ đa nghĩa (cách gọi khác từ nhiều nghĩa) là
những từ có một số nghĩa biểu thị những đặc điểm, thuộc tính khác nhau của một đối
tượng, hoặc biểu thị những đối tượng khác nhau của thực tại. Hiện tượng từ đa nghĩa
tồn tại ở hầu hết các ngôn ngữ trên thế giới. Từ đa nghĩa khác từ đồng âm ở chỗ các từ
đa nghĩa thường có một nét nghĩa chung hay nói cách khác chúng có cùng một nguồn
gốc, sau đó mới chia tách ra như hiện tại. Từ đa nghĩa là một trong các nguyên nhân
gây nhập nhằng trong xử lý ngôn ngữ tự nhiên. Để xác định chính xác nghĩa của một
từ đa nghĩa phải thực hiện phân tích ngữ cảnh.
Ví dụ: trong câu “Anh ấy đi rồi” thì tùy từng văn cảnh cụ thể mà từ “đi” có thể
có những ý nghĩa khác nhau. Các ý nghĩa có thể có như: i) di chuyển đến một địa điểm
mới, ii) đã chết, iii) thất bại trong một việc gì đó, v.v
9C[C9CGM6>_-Ui-R4/ là hiện tượng những từ phát âm giống nhau hay
cách phát âm giống nhau, nhưng nghĩa hoàn toàn khác nhau. Từ đồng âm xuất hiện
nhiều trong tiếng Hán, tiếng Việt. Từ đồng âm rất dễ bị nhầm với từ nhiều nghĩa vì từ
nhiều nghĩa cũng là từ có các nghĩa khác nhau.
Hiện tượng đồng âm thường xảy ra trong phạm vi những từ ngắn, cấu trúc càng
đơn giản thì từ càng có thể chứa đựng nhiều khái niệm khác nhau. Vỏ ngữ âm của từ
càng dài, cấu trúc càng phức tạp (gồm nhiều đơn vị hình thái kết hợp lại với nhau) thì
hiện tượng đồng âm khó xảy ra hơn.
Ví dụ:
Chẳng phải liu điu vẫn giống nhà,
Rắn đầu biếng học chẳng ai tha.
Thẹn đèn hổ lửa đau lòng mẹ,
Nay thét mai gầm rát cổ cha.

- 12 -
Giáo mép chỉ quen tuồng nói dối,
Lằn lưng cam chịu dấu roi tra.
Từ rày Trâu, Lỗ xin chăm học,
Kẻo hổ mang danh tiếng thế gia.
(Lê Quý Đôn)
Ngoài nghĩa trong văn bản của bài thơ, người đọc còn có thể liên tưởng đến các
loại rắn: rắn, liu điu, hổ lửa, mai gầm, giáo, thằn lằn, trâu, lỗ, hổ mang.
9C[C[CGM6>_-Ui--X1/ là hiện tượng những từ tương đồng với nhau về
nghĩa nhưng khác nhau về thành phần cấu tạo biểu thị các sắc thái của một khái niệm.
Từ đồng nghĩa là những tên gọi khác nhau của cùng một sự vật, hiện tượng. Ví dụ như
mô tả cái chết có các từ chết, hi sinh, tử nạn, tử vong, đi, toi, ngoẻo, v.v
9C[C^CGM6>_-6hG-X1/ Từ trái nghĩa là một trong những biện pháp tổ
chức từ vựng theo sự đối lập. Có thể định nghĩa từ trái nghĩa là những từ khác nhau về
ngữ âm, đối lập về ý nghĩa biểu hiện khái niệm, tương phản về logic, nhưng tương liên
lẫn nhau. Từ trái nghĩa bộc lộ các mặt đối lập của các khái niệm tương liên, gắn liền
với một phạm vi sự vật chẳng hạn như: bề sâu (sâu - nông), bề rộng (rộng – hẹp), sức
mạnh (mạnh – yếu), trọng lượng (nặng – nhẹ), v.v Các từ đối lập nhưng biểu hiện các
khái niệm không tương liên thì không phải là các từ trái nghĩa.
Từ trái nghĩa tiếng Việt thường gắn liền với tính cân xứng, nghĩa là dung lượng
ngữ nghĩa của các từ trái nghĩa phải tương đương với nhau trong khi hướng theo các
chiều khác nhau. Cũng giống như hiện tượng đồng nghĩa, thực chất của trái nghĩa là so
sánh các nghĩa chứ không không phải các từ nói chung. Các từ có thể trái nghĩa với
nhau ở một góc độ nào đó chứ không nhất thiết là tất cả.
9C[CjC%=6fg6GD37/Một trong những tiêu chí ngôn ngữ học của từ đồng
nghĩa và trái nghĩa là khả năng có thể kết hợp trong cùng một ngữ cảnh, những từ
đồng nghĩa cho ý nghĩa tương đồng với nhau còn từ trái nghĩa có ý nghĩa đối nghịch
nhau trên một phương diện nào đó. Khi khả năng kết hợp khác nhau trong cùng một
văn cảnh thì ta khó có thể khẳng định một từ có quan hệ đồng nghĩa hay trái nghĩa với
một từ khác. Cuối cùng là tính quy luật của những liên tưởng thống nhất hoặc đối lập,

nghĩa là khi nhắc tới vế thứ nhất ta có thể liên tưởng đến vế thứ hai trong trường hợp
có tranh chấp đối lập hay tương đồng. Từ các yếu tố đã nêu ra ở trên ta nhận thấy một
từ được mô tả một cách chi tiết thông qua văn cảnh sử dụng của chúng trong câu. Một
văn cảnh có thể đơn giản hóa là những từ ghép với nhau tạo thành một câu trong ngôn
- 13 -
ngữ. Vì vậy để có thể đưa ra các kết luận một cách tự động về kiểm tra từ đồng nghĩa
hoặc trái nghĩa thì ta phải làm việc trực tiếp trên các văn cảnh.
- 14 -
>F-[/>F-QQ67U=6>F-6WPk-X1-Ge11G6J
[C;Cl-6Y367U=6>F-6W
Công thức tính độ tương tự về nghĩa giữa hai từ do Lin (1997) đề xuất có thể
được phát biểu ngắn gọn như sau: sự tương tự giữa hai từ là lượng thông tin chứa
trong sự tương đồng giữa các từ chia cho lượng thông tin trong việc mô tả các từ. Ý
tưởng này cần được hiểu cụ thể dựa trên các ý:
- Hai (hay nhiều) từ là đồng nghĩa nếu chúng xuất hiện trong các ngữ cảnh giống nhau.
- Ngữ cảnh chính là thông tin mô tả từ.
Như vậy vấn đề bây giờ là lượng hóa các phát biểu trên thành công thức toán học
để máy tính có thể tính được. Trước hết là khái niệm ngữ cảnh. Trong nghiên cứu của
mình Lin coi ngữ cảnh là từ xuất hiện trong cùng câu với từ đang xét, đồng thời có
quan hệ ngữ pháp với từ đó. Từ được xét, từ ngữ cảnh, và quan hệ ngữ pháp được biểu
diễn bằng bộ ba (w, r, w’) trong đó w là từ ta đang xét, w’ là từ ngữ cảnh, và r là quan
hệ ngữ pháp. Chẳng hạn, từ câu “tôi có một con chó màu nâu” có thể trích ra các bộ
ba: (có, chủ_ngữ, tôi), (tôi, chủ_ngữ_của, có), v.v Một bộ phân tích cú pháp có khả
năng phân tích nhiều loại văn bản khác nhau (Lin, 1993; Lin, 1994) đã được sử dụng
để trích ra các bộ ba từ kho ngữ liệu. Với mô hình hóa các ngữ cảnh thành các bộ ba
thì ta chỉ lấy được các văn cảnh hẹp để biểu diễn ý nghĩa của từ đang xét. Trong
trường hợp nghĩa của từ không suy ra được từ văn cảnh hẹp thì việc mô hình hóa trên
không thể hiện được ý nghĩa của từ. Nhưng những từ cần đến việc sử dụng văn cảnh
rộng để làm rõ nghĩa là không nhiều nên ta có thể bỏ qua những trường hợp này để mô
hình hóa bài toán.

Kí hiệu ||w, r, w’|| được dùng để biểu thị tần xuất của bộ ba phụ thuộc (w, r, w’)
trong kho ngữ liệu cú pháp. Khi w, r, hay w’ được kí hiệu bằng dấu sao (*) thì tần xuất
của bộ ba đó bằng tổng số các bộ ba có chứa các thành phần còn lại không được mô tả
bằng dấu sao (*). Ví dụ, ||nấu ăn, tân_ngữ, *|| là tổng số lần xuất hiện của của từ “nấu
ăn” với các từ là tân ngữ của nó trong kho ngữ liệu cú pháp, và ||*, *, *|| là tổng số bộ
ba phụ thuộc được trích từ kho ngữ liệu cú pháp.
Một từ w được mô tả thông qua những bộ ba có từ w đó là trung tâm, hay nói
cách khác nó được mô tả thông qua các bộ ba có dạng (w, *, *). Sự tương đồng giữa
- 15 -
hai từ được mô tả thông qua những bộ ba giống nhau cả về từ ngữ cảnh và quan hệ
ngữ pháp.
Ví dụ : từ “vàng” được mô tả thông qua các bộ ba sau.
`=<1 BgS>_-
|| vàng, mod-of, cáp || 6
|| vàng, mod-of, công_ty || 2
|| vàng, mod-of, huy_chương || 6
|| vàng, mod-of, hình || 1
|| vàng, mod-of, hình_vuông || 2
|| vàng, mod-of, kiểu || 1
|| vàng, mod-of, màn_hình || 1
|| vàng, mod-of, màu || 12
|| vàng, mod-of, nền || 1
|| vàng, mod-of, quy_tắc || 1
|| vàng, mod-of, sắc_màu || 1
|| vàng, mod-of, sự_kiện || 1
|| vàng, mod-of, vòng_tròn || 1
|| vàng, mod, bộ_phận || 1
|| vàng, mod, có || 1
|| vàng, mod, hình || 1
|| vàng, mod, phải || 1

|| vàng, mod, thường || 1
Giả sử rằng sự xuất hiện của các bộ ba phụ thuộc là độc lập với nhau. Thông tin
chứa trong sự mô tả của 1 từ là tổng thông tin chứa trong mỗi tần xuất riêng lẻ.
Để tính lượng thông tin chứa trong trạng thái ||w, r, w’|| = c, trước hết cần tính
lượng thông tin trong trạng thái mà một bộ ba phụ thuộc được chọn ngẫu nhiên là (w,
r, w’) khi giá trị của bộ ba ||w, r, w’|| chưa biết. Sau đó chúng tôi tính số lượng thông
tin của mệnh đề đó khi chúng tôi biết giá trị của ||w, r, w’||. Sự khác nhau giữa 2 số
lượng được coi là thông tin chứa trong ||w, r, w’|| = c.
Sự xuất hiện của bộ ba phụ thuộc (w, r, w’) có thể coi như sự xuất hiện đồng thời
của ba sự kiện :
- 16 -
A : từ được chọn ngẫu nhiên là w.
B : quan hệ ngữ pháp được chọn ngẫu nhiên là r.
C : từ được chọn ngẫu nhiên là w’.
Khi giá trị của ||w, r, w’|| chưa biết, giả sử các sự kiện A và C độc lập với điều
kiện B. Xác suất xuất hiện đồng thời của A, B, C được ước lượng bởi :
P
MLE
(B)P
MLE
(A|B)P
MLE
(C|B)
Trong đó P
MLE
là ước lượng hợp lí tối đa và được tính như sau:
Khi giá trị của ||w, r, w’|| đã biết, ta có thể thu được P
MLE
(A, B, C) một cách trực
tiếp:

Kí hiệu I(w, r, w’) mô tả lượng thông tin chứa trong ||w, r, w’|| = c. Giá trị của nó
có thể được tính như sau:


Hay

Ở đây có một điểm đáng chú ý là I(w, r, w’) bằng lượng thông tin tương hỗ giữa
w và w’ (Hindle, 1990).
Kí hiệu T(w) là tập hợp các cặp (r, w’) mà
dương. Độ tương tự
sim(w1, w2) giữa 2 từ w1 và w2 được định nghĩa như sau :
Sim (w
1
, w
2
) =
- 17 -
DeKang Lin đã phân tích một kho ngữ liệu gồm 64 triệu từ các bài báo Wall
Street (24 triệu từ), San Jose Mercury (21 triệu từ) và AP Newswire (19 triệu từ). Từ
kho ngữ liệu đã được gán nhãn cú pháp DeKang Lin tách ra 56, 5 triệu bộ ba trong đó
7.8 triệu bộ ba xuất hiện một lần. Trong kho ngữ liệu đã gán nhãn cú pháp, có 5469
danh từ, 2173 động từ và 2632 tính từ, trạng từ xuất hiện ít nhất 100 lần. Qua bộ ngữ
liệu được sử lý như trên Lin tính ra sự tương tự giữa tất cả các cặp đôi danh từ, động
từ, tính từ và trạng từ bằng cách sử dụng công thức tính độ tương tự như đã đề cập ở
trên. Với mỗi từ, DeKang Lin đưa ra một danh mục các từ được cho là có nghĩa gần
giống nó nhất để có thể tạo ra một mục lục từ điển đồng nghĩa.
Ngoài cách đánh giá của Dekang Lin còn có một số công thức đánh giá khác về
độ tương tự về nghĩa sử dụng cùng kho dữ liệu. Công thức “sim
Hindle
” giống công thức

“sim” được đề xuất trong (Hindle, 1990), công thức này không sử dụng các bộ ba phụ
thuộc với các thông tin phủ định. Công thức “sim
Hindler
” hay gọi là “sim
Hindle
” loại trừ tất
cả các mối quan hệ phụ thuộc được sử dụng thay vì chỉ sử dụng mối quan hệ giữa chủ
thể và một kiểu quan hệ. Công thức “sim
cosin
”, “sim
dice
” và “sim
jacard
” là các phiên bản
khác của các công thức “sim” thường được sử dụng trong các thông tin được tìm kiếm
(Frakes và Baeza-Yates,1992). 3 công thức trên không giống “sim”, “sim
Hindle
” và
“sim
Hindler
”, chúng chỉ sử dụng bộ 3 phụ thuộc duy nhất và bỏ qua các tần số đếm.




- 18 -
[C9C-G3l-6Y3
Công thức tính độ tương tự được Dekang Lin đánh giá thông qua việc xây dựng
tự động một bộ từ điển từ đồng nghĩa so sánh với hai từ điển đã được biên soạn là
WordNet 1.5 và Roget.

Cách đánh giá hai từ đồng nghĩa dựa trên hai cấu trúc của WordNet và Roget
được đưa ra để xác định từ đồng nghĩa dựa trên WordNet và Rotget có công thức so
sánh:
Trong đó S(w) là tập hợp phụ thuộc vào w trong WordNet, super(c) là tập hợp
của liên lớp định nghĩa c trong WordNet (có thể là gián tiếp), R(w) là tập hợp nằm
trong Roget.
Cách đánh giá đồng nghĩa “sim
WN
” là dựa trên cơ sở theo đề xuất trong (Lin,
1997). Còn trong cách xác định từ đồng nghĩa “sim
Roget
” là đánh giá đối với tất cả các
từ trong Roget. Một từ w có đặc tính f nếu f và w thuộc cùng trong một loại của Roget.
Sự đồng nghĩa giữa hai từ là việc xác định hệ số cosin của hai vectơ đặc trưng.
Với “sim
WN
” và “sim
Roget
”, chúng ta sẽ chuyển đổi WordNet và Roget về cùng
một chuẩn để tiến hành so sánh.
Bây giờ chúng tôi sẽ nói đến cách xác định đồng nghĩa với cách nhập dữ liệu từ
hai bộ từ điển. Giả sử ta có hai dữ liệu nhập từ hai bộ từ điển được thể hiện ở hai dòng
như sau:
w: w
1
, s
1
, w
2
, s

2
,… w
N
, s
N
.
w: w’
1
, s’
1
, w’
2
, s’
2
,… w’
N
, s’
N
.
Sự tương đồng của chúng được xác định như sau:

Ví dụ, (1) là dữ liệu nhập cho từ “brief (danh từ)” sẽ được tự động tạo ra và hai
bộ từ điển (2) và (3) tương ứng với dữ liệu nhập của hai bộ từ điển WordNet và
Rotget.
(1) brief (noun): affidavit 0.13, petition 0.05, memorandum 0.05, motion
0.05, lawsuit 0.05, deposition 0.05, slight 0.05, prospectus 0.04, document 0.04
paper 0.04.
- 19 -
(2) brief (noun): outline 0.96, instrument 0.84, summary 0.84, affidavit
0.80, deposition 0.80, law 0.77, survey 0.74, sketch 0.74, resume 0.74, argument

0.74.
(3) brief (noun): recital 0.77, saga 0.77, autobiography 0.77, anecdote 0.77,
novel 0.77, novelist 0.77, tradition 0.70, historian 0.70, tale 0.64.
Theo công thức trên sự tương đồng giữa (1) và (2) là 0,297 trong khi sự tương
đồng giữa (1) và (3), giữa (2) và (3) đều là 0.
Sự đánh giá trên đã được kiểm định với 4294 danh từ mà nó xuất hiện trong ít
nhất 100 lần trong kho dư liệu được gán nhán cũ pháp và tìm thấy trong cả hai bộ từ
điển WordNet 1.5 và Rotget. Bảng 1 cho chúng ta kết quả của độ trung bình sự tương
đồng về nghĩa giữa các dữ liệu tương ứng được nhập vào là trong các bộ từ điển khác
nhau và độ lệch chuẩn của trung bình đó.
Từ đó sự khác biệt giữa “sim
cosine
”, “sim
dice
”, “sim
jacard
” là rất nhỏ. Để đơn giản
chúng ta chỉ tính đến kết quả của “sim
cosine
” trong bảng 1.

WordNet

Roget
averag
e Ϭ
avg
averag
e Ϭ
avg

Roge
t
0.1783
97
0.0016
36
WordN
et
0.1783
97
0.0016
36
sim
0.2121
99
0.0014
84 sim
0.2121
99
0.0014
84
Hindl
e
r
0.2041
79
0.0014
24 Hindle
r
0.2041

79
0.0014
24
cosin
e
0.1994
02
0.0013
52 cosine
0.1994
02
0.0013
52
Hindl
e
0.1647
16
0.0012
00 Hindle
0.1647
16
0.0012
00
Bảng 1: Đánh giá của WordNet và Roget.
Có thể nhận thấy rằng sim, Hindler, và cosine có nhiều sự tương đồng với
WordNet hơn là với Roget. Sự khác nhau giữa Hindle và Hindler được giải thích rõ
cho việc sử dụng kiểu khác phụ thuộc thêm vào chủ từ và mối quan hệ các đối tượng
là rất hợp lý.
- 20 -
Sự thực hiện của sim, Hindler và cosine hầu như là rất chặt chẽ. Để xác định

trong bất cứ trường hợp nào, việc thống kê sự khác nhau luôn rất có ý nghĩa, chúng ta
tính toán điều khác biệt về tính tương đồng với mỗi dữ liệu được nhập vào riêng biệt
của WordNet và Roget. Bảng 2 cho thấy sự khác biệt về giá trị trung bình và độ lệch
chuẩn của nó. Với 95% xác thực là khoảng cách của tất cả sự khác biệt trong bảng 2
đều là số dương. Chúng ta có thể đưa ra kết quả thống kê rằng sim là tốt hơn với
sim
Hindler
, và sim
Hindler
mà tốt hơn sim
consine
.

WordNet

Roget
average Ϭ
avg
average Ϭ
avg
sim - Hindle
r
0.008021 0.000428 sim – Hindle
r
0.00241
5 0.000401
sim - cosine 0.012798 0.000386 sim - cosine
0.01334
9 0.000375
Hindle

r
- cosine 0.004777 0.000561 Hindle
r
- cosine
0.01093
3 0.000509
Bảng 2: Phân loại sự khác nhau.
[C[C3mD1M-eQQ
Chú ý là bộ ba được thể hiện theo thứ tự: (từ trung tâm, quan hệ, từ ngữ cảnh).
Có 8 quan hệ ngữ pháp được chúng tôi sử dụng, cụ thể như sau :
a) Chủ ngữ
Ký hiệu: subj
Mô tả: Theo quan hệ này, từ trung tâm sẽ là động từ vị ngữ, từ ngữ cảnh sẽ là
danh từ chủ ngữ (hoặc đại từ). Dấu hiệu hình thức trên cây cú pháp là: nút cha là S, nút
trung tâm là VP, nút ngữ cảnh là NP.
Ví dụ: "Bò vàng gặm cỏ non."
Bộ ba sẽ là: ("gặm", sub, "bò")
Ngược của quan hệ subj là subj-of:
Bộ ba sẽ là: ("bò", sub-of, "gặm")
b) Tân ngữ
Ký hiệu: obj
- 21 -
Mô tả: Theo quan hệ này, từ trung tâm sẽ là động từ vị ngữ, từ ngữ cảnh sẽ là
danh từ làm tân ngữ. Dấu hiệu hình thức là: nút cha là VP, nút trung tâm là V, nút ngữ
cảnh là NP.
Ví dụ: "Bò vàng gặm cỏ non."
Bộ ba sẽ là: ("gặm", obj, "cỏ")
Ngược của quan hệ obj là obj-of:
Bộ ba sẽ là: ("cỏ", obj-of, "gặm")
c) Định ngữ

Ký hiệu: mod
Mô tả: Theo quan hệ này, từ trung tâm sẽ là danh từ, từ ngữ cảnh sẽ là từ bổ
nghĩa cho danh từ (có thể là N, A, hoặc V). Dấu hiện hình thức là: nút cha là NP, nút
trung tâm là N, nút ngữ cảnh là N, A, hoặc V.
Ví dụ: "cỏ non"
Bộ ba sẽ là: ("cỏ", mod, "non")
Ngược lại của quan hệ mod là mod-of:
Bộ ba sẽ là: ("non", mod-of, "cỏ")
d) Danh từ đi sau giới từ (“tân ngữ” của giới từ)
Ký hiệu: pobj
Mô tả: Theo quan hệ này, từ trung tâm sẽ là giới từ (E), từ ngữ cảnh sẽ là danh
từ. Dấu hiệu hình thức là: nút cha là PP, nút trung tâm là E, nút ngữ cảnh là NP.
Ví dụ: "ra thành phố"
Bộ ba sẽ là: ("ra", pobj, "thành phố")
Ngược lại của quan hệ pobj là pobj-of:
Bộ ba sẽ là: ("thành phố", pobj-of, "ra")
>F-^/W3-GM4P?G@eSGMD6GN-#GM6C
Chúng tôi thực nghiệm với corpus tiếng Việt lấy từ các nguồn : báo PCWorld
Việt Nam, báo Lao động diện tử, báo Tuổi trẻ điện tử. Corpus này có khoảng 15 triệu
- 22 -
từ, tương ứng với bảy trăm ngàn câu. Các công cụ mà chúng tôi sử dụng là những
công cụ mới nhất cho xử lý tiếng Việt
1
như trong mô tả dưới đây.
^C;Cn4GaD4lnQR673P.6W3-GM4
Dựa trên các kiến thức đã phân tích trên ta có thể hướng tới một chương trình
chạy trên ngôn ngữ tiếng Việt sử dụng để phân loại và tách các từ đồng nghĩa trái
nghĩa. Các công việc liên quan đến việc giải quyết bài toán bao gồm việc tách các từ
trong văn bản thành các từ ngữ. Sau đó đưa ra mẫu phân tích cú pháp cho từng câu qua
đó ta có thể tách ra thành các bộ ba để áp dụng phương pháp tính của DeKang Lin.

Quy trình thực hiện
Chúng ta có thể mô hình hóa bài toán phân tích từ đồng nghĩa trong tiếng Việt
thông qua mô hình sau. Thực hiện các bước này ta có thể đi đến kết quả là một từ điển
từ đồng nghĩa được phân tích từ kho ngữ liệu.
Việc tách từ và tách cú pháp được sử dụng bộ Coltech Parser hỗ trợ để phân tích,
ở đây chúng tôi xin đi sâu vào việc tách dữ liệu và thực hiện tính toán đưa ra các kết
quả thực nghiệm trên mô hình tiếng Việt.
1 Chủ yếu được xây dựng trong khuôn khổ đề tài VLSP, trang web demo ở đây:
:8080/demo/?page=home
- 23 -
^C;C;CR673Pc<d6l6.Pc<dU>_3QR636Jo3RD
Xử lý bảng mã văn bản về chuẩn UTF-8 Sử dụng tool UVConverter 1.1.3b
theo The GNU General Public License.
Một số lỗi lặp lại có hệ thống về dấu câu như “…”, “:” để thuận tiện cho các quá
trình xử lý phía sau.
Sử dụng chương trình tách từ vnTokenizer version 4.1 của Nguyễn Thị Minh
Huyền và Lê Hồng Phương theo The GNU General Public License.
/>Chuẩn hóa văn bản về dạng input được quy ước.
Ví dụ:
Trước khi tách từ:
Học trò là tác phẩm của tôi
Sau khi tách từ:
Học_trò là tác_phẩm của tôi
^C;C9COQpU>_3fq@L-QR6733QQ
Nhãn từ loại:
B  673
1 N Danh từ
2 Np Danh từ riêng
3 Nc Danh từ chỉ loại
4 Nu Danh từ đơn vị

5 V Động từ
6 A Tính từ
7 P Đại từ
8 L Định từ (lượng từ)
9 M Số từ
10 R Phụ từ
- 24 -
11 E Giới từ
12 C Liên từ
13 I Thán từ
14 T Trợ từ, tiểu từ, từ tình thái
15 U Từ đơn lẻ
16 Y Từ viết tắt
17 X Các từ không phân loại được
Khi gán nhãn, nhãn từ viết tắt sẽ là nhãn kép. Chẳng hạn nếu từ viết tắt là HIV thì
nhãn của nó là Ny vì HIV viết đầy đủ là danh từ.
Nhãn cụm từ:
B

 673
1 NP Cụm danh từ
2 VP Cụm động từ
3 AP Cụm tính từ
4 RP Cụm phụ từ
5 PP Cụm giới từ
6 QP Cụm từ chỉ số lượng
7 MDP Cụm từ tình thái
8 UCP
Cụm từ gồm hai hay nhiều thành phần không cùng loại được
nối với nhau bằng liên từ đẳng lập

9 LST Cụm từ đánh dấu đầu mục của danh sách
10 WHNP Cụm danh từ nghi vấn (ai, cái gì, con gì, v.v )
11 WHAP Cụm tính từ nghi vấn (lạnh thế nào, đẹp ra sao, v.v )
12 WHRP Cụm từ nghi vấn dùng khi hỏi về thời gian, nơi chốn, v.v
13 WHPP Cụm giới từ nghi vấn (với ai, bằng cách nào, v.v )
Nhãn mệnh đề:
B

 673
1 S Câu trần thuật (khẳng định hoặc phủ định)
2 SQ Câu hỏi
- 25 -

×