Tải bản đầy đủ (.pdf) (48 trang)

Trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt dựa trên thuật toán SVM và thử nghiệm đánh giá

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (372.75 KB, 48 trang )

i

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ


Chu Thị Thủy


TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ PHƯƠNG THỨC TỪ
VĂN BẢN TIẾNG VIỆT DỰA TRÊN THUẬT TOÁN SVM
VÀ THỬ NGHIỆM ĐÁNH GIÁ



KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ Thông tin










Hà Nội - 2011
ii

ĐẠI HỌC QUỐC GIA HÀ NỘI


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ


Chu Thị Thủy


TRÍCH CHỌN TỰ ĐỘNG QUAN HỆ PHƯƠNG THỨC TỪ
VĂN BẢN TIẾNG VIỆT DỰA TRÊN THUẬT TOÁN SVM
VÀ THỬ NGHIỆM ĐÁNH GIÁ




KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ Thông tin


Cán bộ hướng dẫn: PGS.TS Hà Quang Thuỵ
Cán bộ đồng hướng dẫn: ThS. Nguyễn Thu Trang





Hà Nội - 2011
i

Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo
sư Tiến sĩ Hà Quang Thụy và Thạc sỹ Nguyễn Thu Trang, người đã tận tình chỉ bảo

và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học
tập, nghiên cứu tại trường Đại Học Công Nghệ và sự hỗ trợ từ đề tài QG.10.38.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm
“Khai phá dữ liệu” SIS-KTLab đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên
môn để hoàn thành tốt khoá luận.
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người
thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt
nghiệp.
Tôi xin chân thành cảm ơn!



Sinh viên
Chu Thị Thủy
ii

Tóm tắt
Trích chọn các mối quan hệ ngữ nghĩa từ văn bản ngày càng trở nên quan trọng
đối với các ứng dụng như hệ thống hỏi đáp, trích chọn thông tin, tóm tắt văn bản và
hiểu văn bản. Khóa luận này đề xuất một phương pháp để tự động trích chọn quan hệ
phương thức từ văn bản dựa trên học máy SVM. Đưa ra một tập các ký hiệu liên quan
tới quan hệ phương thức, bao gồm DOMAIN và RANGE. Phân tích sự gắn kết của
quan hệ phương thức với những quan hệ khác. Đồng thời, chúng tôi cũng trình bày các
mẫu từ vựng – cú pháp cơ bản biểu diễn quan hệ phương thức. Một tập các đặc trưng
riêng được trích chọn làm tăng độ chính xác và tính khả thi của mô hình.
Thực nghiệm bước đầu trên tập dữ liệu tiếng Việt gồm khoảng 300 câu
chứa/không chứa quan hệ phương thức cho thấy phương pháp đề xuất đạt được một
kết quả nhất định: độ đo F trong khoảng 60 - 70%. Dựa vào đó, chúng tôi nhận thấy
phương pháp trích chọn quan hệ phương thức đã đề xuất và triển khai là khả quan.

iii

Lời cam đoan
Tôi cam đoan trích chọn tự động quan hệ phương thức từ văn bản tiếng Việt
dựa trên thuật toán SVM và thử nghiệm đánh giá được trình bày trong khóa luận này
do tôi thực hiện dưới sự hướng dẫn của PGS. TS. Hà Quang Thụy và ThS. Nguyễn
Thu Trang.

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận,
không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ
về tài liệu tham khảo.

















iv


Mục lục
Tóm tắt ii
Lời cam đoan iii
Mục lục iv
Danh sách các bảng vi
Danh sách các hình vẽ vii
Danh sách các hình vẽ vii
Danh sách các chữ viết tắt viii
Danh sách các chữ viết tắt viii
Mở đầu 1
CHƯƠNG 1. GIỚI THIỆU BÀI TOÁN TRÍCH CHỌN QUAN HỆ PHƯƠNG
THỨC 4
1.1 Khái niệm Quan hệ phương thức 4
1.2 Bài toán Trích chọn quan hệ phương thức 5
1.3 Một số ký hiệu 7
1.4 Sự gắn kết của quan hệ phương thức với những quan hệ khác 9
CHƯƠNG 2. PHƯƠNG PHÁP TRÍCH CHỌN QUAN HỆ PHƯƠNG THỨC 11
2.1 Các mẫu từ vựng – cú pháp biểu diễn quan hệ phương thức 11
2.1.1 Các mẫu từ vựng – cú pháp cơ bản 11
2.1.2 Nhập nhằng trong các mẫu từ vựng – cú pháp 15
2.2 Hướng tiếp cận giải quyết vấn đề 15
2.2.1 Mô hình phân lớp SVM nhị phân 15
2.2.2 Trích chọn đặc trưng 19
2.2.3 Quan hệ phương thức trong tiếng Việt 22
CHƯƠNG 3. MÔ HÌNH GIẢI QUYẾT BÀI TOÁN TRÍCH CHỌN QUAN HỆ
PHƯƠNG THỨC TỪ VĂN BẢN TIẾNG VIỆT 24
CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ 28
4.1 Mô tả thực nghiệm 28
4.1.1 Môi trường thực nghiệm 28

4.1.2 Chun bị dữ liệu 29
v

4.1.3 Quá trình thực nghiệm 29
4.2 Kết quả thực nghiệm và Đánh giá 30
4.2.1 Kết quả thực nghiệm 30
4.2.2 Phân tích lỗi 32
4.2.3 Kết hợp với trích chọn các quan hệ khác 32
Kết luận 34
Phụ lục: Ví dụ 25 câu thuộc tập dữ liệu huấn luyện 35
Tài liệu tham khảo 37
vi

Danh sách các bảng
Bảng 1. Phân tích các lớp ngữ nghĩa được sử dụng trong định nghĩa
domain(mnr) và range(mnr) 8
Bảng 2. Các mẫu cú pháp biểu diễn quan hệ phương thức trong propbank, số câu
xuất hiện và ví dụ (khảo sát với 7852/8037 câu chứa quan hệ phương thức trong
propbank). Trong tất cả các ví dụ về mnr(x,y), x đã được in đậm. 12
Bảng 3. Ví dụ về nốt cha thuộc phân cấp trên trong cây cú pháp của những cụm
trạng từ và cụm giới từ. Trong tất cả các ví dụ về mnr(x,y), x đã được in đậm. 13
Bảng 4. Các đặc trưng của cụm trạng từ 19
Bảng 5. Các đặc trưng của cụm giới từ 20
Bảng 6. Một số nhãn từ loại trong jvntextpro 26
Bảng 7. Cấu hình phần cứng sử dụng trong thực nghiệm 28
Bảng 8. Một số phần mềm sử dụng 28
Bảng 9. Đặc trưng cụm trạng từ/cụm giới từ 29
vii

Danh sách các hình vẽ

Hình 1. Quá trình trích chọn các mối quan hệ ngữ nghĩa [4] 6

Hình 2. Kiến trúc cơ bản của bộ phân tích ngữ nghĩa [4] 7

Hình 3. Mô hình máy vector hỗ trợ khả tách tuyến tính 16

Hình 4. Phương pháp lề mềm 18

Hình 5. Mô hình trích chọn quan hệ phương thức từ văn bản tiếng việt 25

viii

Danh sách các chữ viết tắt
SVM Support Vector Machines
POS Part – Of – Speech
NE Named Entities
ntao Non Temporal Abstract Objects
MNR Manner
CAU Cause-Effect
LOC Location
1

Mở đầu
Các khái niệm có chứa trong một tập câu hay tập tài liệu luôn có liên hệ với
nhau thông qua các mối quan hệ ngữ nghĩa. Các mối quan hệ này thường được Nn giấu
trong các câu, việc tìm ra các mối quan hệ ngữ nghĩa là rất cần thiết, nhằm phục vụ
cho quá trình xử lý ngôn ngữ. Vì thế, bài toán trích chọn mối quan hệ ngữ nghĩa được
đặt ra và đã nhận được sự quan tâm rất lớn từ các nhà nghiên cứu, các hội nghị lớn trên
thế giới trong những năm gần đây như: Colling, ACL, Senseval… Đồng thời, cũng là
một phần trong các dự án quan trọng mang tầm cỡ quốc tế trong lĩnh vực khai phá tri

thức như: ACE (Automatic Content Extraction)
1
, DAPRA EELD (Evidence Extraction
and Link Discovery)
2
, ARDA-AQUAINT (Question Answering for Intelligence),
ARDA NIMD (Novel Intelligence from Massive Data), Global WordNet
3

[4]
.
Một trong những quan hệ ngữ nghĩa có nhiều ứng dụng là quan hệ phương thức.
Ví dụ, “phân phát nhanh” biểu diễn mối quan hệ phương thức, với “nhanh” là
phương thức của hành động “phân phát” đã xảy ra. Bài toán trích chọn quan hệ
phương thức đòi hỏi phải tìm ra một cặp các thành phần phương thức và hành động
tương ứng. Ví dụ, MNR (nhanh, phân phát). Khái niệm quan hệ phương thức xuất
hiện từ thời rất cổ (thời Aristotle) và được học bởi rất nhiều triết gia, nhà logic học,
nhà tâm lý học và các nhà ngôn ngữ học, nhưng không nhiều nghiên cứu để tự động
trích chọn quan hệ phương thức trong các văn bản. Theo
[5]
, Hearst đã phát triển một
phương pháp tự động để trích chọn các quan hệ tổng quát – cụ thể (IS-A) bằng việc
xác định một tập các đặc trưng thường xuyên được sử dụng và các mẫu từ vựng – cú
pháp rõ ràng. Sau đó, đã cố gắng ứng dụng phương pháp này với các mối quan hệ ngữ
nghĩa khác, như toàn thể – bộ phận (PART-WHOLE), nhưng không đạt được nhiều
thành công do các mẫu được phát hiện còn nhiều nhập nhằng. Gần đây, những hướng
nghiên cứu để trích chọn các mối quan hệ ngữ nghĩa vẫn tiếp tục tập trung vào các
mẫu từ vựng – cú pháp riêng để biểu diễn từng quan hệ trên cả hai hướng tiếp cận là
không giám sát và giám sát. Một số các nghiên cứu đã được tiến hành trước đó trên
những quan hệ riêng biệt

[2]
như CAUSE-EFFECT (Chang và Choi, 2006), INTENT
(Tatu, 2005), PART-WHOLE (Girju và cộng sự, 2006).

1

/>
2


3

/>
2

Xét các nghiên cứu về quan hệ phương thức: Girju và cộng sự (2003)
[3]
sử
dụng mô hình phân lớp Naïve Bayes và đưa ra một tập các đặc trưng để trích chọn
quan hệ phương thức nhưng chưa xét tới những cụm giới từ, hệ thống cho độ chính
xác 0.644, độ hồi tưởng 0.687 và độ đo F là 0.665. Eduardo Blanco và Dan Moldovan
(2010)
[2]
đã bổ sung thêm những đặc trưng riêng của quan hệ phương thức, tăng độ
chính xác tới 0.759, độ hồi tưởng 0.626 và độ đo F là 0.686. Nghiên cứu của Gildea và
Jurasky (2002)
[6]
, Giuglea và Moschitti (2006)
[7]
tập trung vào bài toán Semantic

Role Labeling – yêu cầu gán nhãn ngữ nghĩa (semantic role) cho các thành phần cú
pháp trong câu. Một semantic role là một mối quan hệ giữa các thành phần cú pháp
trong câu và một thuộc tính ngữ nghĩa nào đó, và họ xem xét quan hệ phương thức như
một semantic role. Hệ thống của họ đạt độ đo F là từ 0.527 tới 0.592.
Mục tiêu của khoá luận này là nghiên cứu và thử nghiệm mô hình phân lớp
SVM để trích chọn quan hệ phương thức. Chúng tôi lựa chọn SVM bởi phương pháp
này được đánh giá là phương pháp có nhiều ưu điểm như: có khả năng phân lớp với
tập dữ liệu có kích thước nhỏ mà vẫn đưa ra được mô hình phân lớp tốt; giải quyết vấn
đề phân lớp với các tập dữ liệu chứa nhiễu (dữ liệu bị sai) tốt. Đồng thời, SVM có khả
năng phân lớp dự đoán với sai số ước lượng rất thấp.
Nội dung của khoá luận được chia thành các chương như sau:
Chương 1: Giới thiệu bài toán trích chọn quan hệ phương thức. Chương
này trình bày khái quát về quan hệ phương thức và bài toán trích chọn quan hệ phương
thức. Ngoài ra, cũng đề cập tới một số các ký hiệu xuất hiện trong khái niệm về quan
hệ phương thức như DOMAIN, RANGE; và sự gắn kết của quan hệ phương thức với
những quan hệ khác như quan hệ địa điểm (AT-LOCATION), quan hệ thời gian (AT-
TIME).
Chương 2: Phương pháp trích chọn quan hệ phương thức. Đây là chương
trình bày tất cả các mẫu từ vựng – cú pháp cơ bản nhất để biểu diễn quan hệ phương
thức. Đồng thời, cũng phân tích sự nhập nhằng trong các mẫu này và một số phương
pháp để tránh sự nhập nhằng đó. Trong chương 2 này, cũng tập trung trình bày mô
hình phân lớp SVM và giới thiệu một tập các đặc trưng để trích chọn quan hệ phương
thức.
Chương 3: Mô hình giải quyết bài toán. Từ lý thuyết chương 2, chương 3 này
đưa ra mô hình đề xuất để giải quyết bài toán trích chọn quan hệ phương thức và các
bước tiến hành trích chọn, tập các đầu vào và đầu ra của hệ thống.
3

Chương 4: Thực nghiệm và đánh giá. Mô tả thực nghiệm từ quá trình chuNn
bị dữ liệu tới quá trình thực nghiệm. Từ đó, thống kê độ chính xác, độ hồi tưởng của

hệ thống và rút ra các đánh giá tổng quan trong quá trình trích chọn quan hệ phương
thức.
Phần kết luận và hướng phát triển khoá luận: Tóm lược những điểm chính
của khoá luận. Chỉ ra những điểm cần khắc phục, đồng thời đưa ra những hướng
nghiên cứu trong thời gian sắp tới.
4


CHƯƠNG 1. GIỚI THIỆU BÀI TOÁN TRÍCH CHỌN
QUAN HỆ PHƯƠNG THỨC
Phát hiện ra được các mối quan hệ trong văn bản là một điều hết sức quan trọng
cho các mô hình mà muốn hiểu được ngôn ngữ của con người. Hơn thế nữa, các quan
hệ về mặt ngữ nghĩa thể hiện các thành phần cốt lõi trong việc tổ chức của cơ sở tri
thức ngữ nghĩa từ vựng. Trong cơ sở tri thức này, thông tin được biểu diễn dưới dạng
các khái niệm và liên kết nhau bởi các mối quan hệ ngữ nghĩa. Các khái niệm có thể là
một đơn vị văn bản đơn giản như là các từ, tới một cấu trúc phức tạp hơn như là một
mệnh đề danh từ phức tạp. Một số quan hệ ngữ nghĩa quan trọng nhất trong ngôn ngữ
tự nhiên là quan hệ tổng quát – cụ thể (IS-A), quan hệ tổng thể – bộ phận (WHOLE-
PART), quan hệ phương thức (MANNER), quan hệ nguyên nhân – kết quả (CAUSE-
EFFECT)…
1.1 Khái niệm Quan hệ phương thức
Nói một cách chung nhất, quan hệ phương thức biểu diễn cách thức, nét đặc
trưng, phương pháp thực hiện hoặc kiểu cách của một sự vật nào đó đã xảy ra
[2]
.
Theo WordNet
4
, quan hệ phương thức được định nghĩa như phương pháp thực
hiện của hành động hoặc hành vi.
Theo PropBank annotation guidelines

5
, quan hệ phương thức là quan hệ được
dùng để chỉ cách thức thực hiện một hành động và được xác định bằng trạng từ/cụm
trạng từ/cụm giới từ. Quan hệ phương thức nên được trích chọn khi cụm trạng từ hoặc
cụm giới từ là câu trả lời cho câu hỏi bắt đầu với “how”.
Ví dụ: We want to work together to build our new economy, creating jobs by
investing in technology so America can continue to lead the world in growth and
opportunity.
(from the Democratic response to the President Bush’ 2003 State of the Union Address)
(Chúng tôi muốn làm việc với nhau để xây dựng lên ngành kinh tế mới, tạo nhiều công
việc bằng việc đầu tư vào công nghệ, vì vậy Mỹ có thể tiếp tục dẫn đầu thế giới về sự
lớn mạnh và cơ hội.)

4

/>
5


5

=> Câu trên chứa các quan hệ phương thức: (1) “together” là trạng từ chỉ
phương thức ảnh hưởng tới động từ “work”, (2) “by investing in technology” là cụm
giới từ chỉ phương thức ảnh hưởng tới động từ “create”, (3) “in growth and
opportunity” là cụm giới từ chỉ phương thức ảnh hưởng tới động từ “lead”.
Một ứng dụng trong việc trích chọn quan hệ phương thức là hệ thống hỏi đáp,
xác định các mối quan hệ ngữ nghĩa và tính toán câu trả lời cho câu hỏi bắt đầu với
“how”.
Ví dụ: Q: How do Democrats want to work?
A: work together (with Republicans).

Q: How do Democrats want to create jobs?
A: by investing in technology.
Q: How do Democrats want America to lead the world?
A: in growth and opportunity.
Quan hệ phương thức xuất hiện thường xuyên trong văn bản và 2 ngân hàng dữ
liệu phổ biến chứa quan hệ phương thức là FrameNet
và PropBank Theo thống kê,
PropBank chứa 8037 câu chứa quan hệ phương thức (10.7%) trên tổng số 74980 câu
chứa các thành phần giống như bổ ngữ (adjunct-like arguments).
Có rất nhiều mẫu từ vựng – cú pháp để biểu diễn một quan hệ phương thức,
nhưng chủ yếu là các cụm trạng từ và cụm giới từ.
Ví dụ: The company said Mr. Stronach will personally direct the restructuring
assisted by Manfred Gingl.
(Công ty nói rằng ông Stronach sẽ một mình trực tiếp quản lý việc cơ cấu lại được sự
giúp đỡ của Manfred Gingl.)
Độ khó trong việc trích chọn tăng lên khi cùng một mẫu từ vựng – cú pháp biểu
diễn nhiều quan hệ khác nhau trong các ngữ cảnh khác nhau. Một cách có thể để kiểm
tra một mẫu biểu diễn quan hệ phương thức hay không là tìm câu trả lời đúng cho câu
hỏi “In what manner/how <to_verb> ?”. Ví dụ, “He run quickly” và câu hỏi là “How
to run?”. Phân biệt với câu trả lời cho các câu hỏi “Where <verb> ?” hoặc “When
<verb> ?”. Ví dụ, “He runs on the field”, “He runs quite often”.
1.2 Bài toán Trích chọn quan hệ phương thức
Roxana Girju đã phát biểu bài toán trích chọn các mối quan hệ ngữ nghĩa
[4]

như sau: Nhận đầu vào là các khái niệm hay thực thể, thông qua tập tài liệu không có
6

cấu trúc như các trang web, các tài liệu, tin tức,…ta cần phải xác định được các mối
quan hệ ngữ nghĩa giữa chúng.

Sau đây là hình vẽ mô tả quá trình trích chọn các mối quan hệ ngữ nghĩa:

Hình 1. Quá trình trích chọn các mối quan hệ ngữ nghĩa
[4]

Phân tích ngữ nghĩa là quá trình đưa một câu ở dạng ngôn ngữ tự nhiên về dạng
ngôn ngữ hình thức biểu diễn ý nghĩa của nó, hỗ trợ cho quá trình lập luận tự động.
Ví dụ: Colleagues today recall with some humor how meetings would crawl
into the early morning hours as Mr. Dinkins would quietly march his staff out of board
meetings and into his private office to discuss, en masse, certain controversial
proposals the way he knows best.
(Hôm nay, với sự hóm hỉnh, những cộng sự nhớ lại các buổi họp được tổ chức như
thế nào vào sáng sớm khi ông Dinkins lặng lẽ đưa nhân viên của ông rời bàn họp và
đi vào văn phòng riêng của ông để thảo luận toàn thể, nhất định những ý kiến gây
tranh cãi sẽ theo hướng mà ông ấy cho là tốt nhất.)
=> Quan hệ phương thức được trích chọn như sau:
MANNER (with some humor, recall)
MANNER (how, crawl)
MANNER (quietly, march)
MANNER (en masse, discuss)
MANNER (the way he knows, discuss)
MANNER (best, knows)
Sau đây là kiến trúc cơ bản của bộ phân tích ngữ nghĩa:
Bộ phân tích
ngữ nghĩa
Web
Tài liệu
Tin tức
Thư viện số
Thông tin

không c

u trúc

- KB (Ontology)
- Văn bản đã được
gán nhãn ngữ
nghĩa
-


Tri thức có cấu
trúc

7


Hình 2. Kiến trúc cơ bản của bộ phân tích ngữ nghĩa
[4]

Quá trình phân tích ngữ nghĩa bao gồm các bước:
1. Tiền xử lý văn bản: phân tích từ tố, gán nhãn từ loại, cây cú pháp, phân
biệt nhập nhằng giữa các từ đồng nghĩa, nhận diện tên thực thể…
2. Lựa chọn đặc trưng: quyết định một tập các đặc trưng ràng buộc của
danh từ và ngữ cảnh dùng để phân lớp các mối quan hệ ngữ nghĩa khác
nhau.
3. Bộ phân lớp: phân lớp các câu đầu vào vào những lớp quan hệ ngữ nghĩa
tương ứng. Gần đây, phương pháp thường được sử dụng là mô hình học
máy.
1.3 Một số ký hiệu

Gọi x là quan hệ phương thức (trạng từ/cụm trạng từ/cụm giới từ); gọi y là hành
động xảy ra. Trong các nghiên cứu về quan hệ ngữ nghĩa
[2][8][9]
, người ta thường
dùng một số ký hiệu sau đây:
- MNR(x,y): để chỉ một quan hệ phương thức trong đó hành động y xảy ra bằng
phương thức x.
- RANGE(MNR): để chỉ thành phần thứ hai của quan hệ MNR(tức là y) là các
từ chỉ tình huống (situations), được định nghĩa là bất cứ cái gì xảy ra ở một thời gian
và địa điểm nào đó khi sử dụng phương thức x. Các tình huống này bao gồm sự kiện
và trạng thái được điễn tả bởi các danh từ (chẳng hạn như “conference” - hội nghị,
“race” - cuộc đua), hoặc động từ (chẳng hạn như “mix” - pha trộn, “grow” - trưởng
thành). Không giống sự kiện, trạng thái là những tình huống không đưa đến một sự
thay đổi các khái niệm. Ví dụ, các cụm từ cụm từ chỉ sự kiện là “walking to the park”
(chạy bộ tới công viên), “pinching him” (làm cậu ấy đau); còn các cụm từ chỉ trạng
thái là “standing there” (đứng ở đó), “holding hands” (nắm tay nhau).
Tiền xử lý
văn bản
Bộ phân lớp
Lựa chọn đặc
trưng
8

- DOMAIN(MNR): để chỉ thành phần thứ nhất của quan hệ MRN (tức là x) là
các từ chỉ đặc tính (qualities) – thường chính là các cụm trạng từ, các đối tượng trừu
tượng không chứa thời gian (non temporal abstract objects) – thường là các danh từ
chứa trong cụm giới từ, và các trạng thái (states). Các đặc tính biểu diễn các đặc trưng
được gắn liền với các khái niệm khác, như “slowly” (chậm chạp), “abruptly” (đột
ngột). Các đối tượng trừu tượng không chứa thời gian biểu diễn những thực thể vô
hình không thể nhìn thấy, sờ thấy được, như “odor” (mùi thơm), “disease” (bệnh tật),

“mile” (dặm Anh) và không phải là “book” (quyển sách) hoặc “car” (xe ôtô) bởi vì
những thực thể này có thể sờ thấy được. Bằng cách này hay cách khác, thì những đối
tượng đó là sản phNm từ lập luận của con người và không thể định nghĩa một cách rõ
ràng. Chúng không biểu diễn thời gian (thời kỳ hoặc thời điểm) như “week” (tuần),
“yesterday” (ngày hôm qua).
Sau đây là bảng biểu diễn luật phân tích các lớp ngữ nghĩa (tình huống, đặc
tính, đối tượng trừu tượng không chứa thời gian, trạng thái) được sử dụng trong định
nghĩa DOMAIN và RANGE, ký hiệu –NE chỉ loại tên thực thể, ký hiệu isHypo(x) của
từ w chỉ ra w có quan hệ tổng quát – cụ thể (IS-A) với x trong WordNet 2.0:
Bảng 1. Phân tích các lớp ngữ nghĩa được sử dụng trong định nghĩa
DOMAIN(MNR) và RANGE(MNR)
Lớp ngữ nghĩa Luật
situation state || event
state POStag=verb || isHypo(state.n.4)
event POStag=verb && in(verb_events)) || (POStag=noun
&& !animate_object && (isHypo(phenomenon.n.1) ||
isHypo(event.n.1) || in(noun_events))
animate_object livingNE || (POStag=noun && (isHypo(entity.n.1) &&
!isHypo(thing.n.9) && !isHypo(anticipation.n.4) ||
isHypo(social_group.n.1)))
livingNE neType=(human | organization | country | town |
province | other-loc
9

quality POStag=(adverb | gerund) || headPP = (with | without)
Non_temporal_abstract_object abstract_object && !temporal
abstract_object neType=money || isHypo(thing.n.9) ||
(!isHypo(social_group.n.1) &&
(isHypo(abstraction.n.6 | psychological_feature.n.1 |
possession.n.2 | event.n.1 | state.n.4 | group.n.1 |

act.n.2)))
temporal temporalNE || isHypo(time_period.n.1) ||
isHypo(time.n.5)
temporalNE neType=(date | time)
1.4 Sự gắn kết của quan hệ phương thức với những quan hệ khác
Quan hệ phương thức rất gần gũi với những quan hệ khác, đặc biệt là quan hệ
công cụ (INSTRUMENT), quan hệ địa điểm (AT-LOCATION), và quan hệ thời gian
(AT-TIME). Vì vậy, trong nhiều trường hợp, câu hỏi với “how” không xác định quan
hệ phương thức.
Ví dụ: John broke the window with a hammer.
(John đập vỡ cửa kính với một cái búa.)
Q: How did John break the window?
A: With the hammer.
=> Cái búa không chỉ quan hệ phương thức, mà nó là công cụ gây ra sự kiện
đập vỡ cửa kính.
Ví dụ với các quan hệ địa điểm và quan hệ thời gian:

[The dog jumped]
y
[over the fence]
x
.
(Con chó nhảy qua hàng rào.)
[John used to go]
y
[regularly]
x
.
(John có thói quen chạy đều đặn.)
Một cách để giải quyết nhập nhằng là xét độ ưu tiên giữa các mối quan hệ ngữ

nghĩa. Tuy nhiên, tồn tại một khó khăn lớn là quan hệ phương thức có độ ưu tiên thấp
hơn quan hệ địa điểm và quan hệ thời gian. Vì vậy, trong rất nhiều trường hợp thì cách
giải quyết này không đạt hiệu quả.
10

Một cách giải quyết khác ở đây là sử dụng các định nghĩa mở rộng ở trên. Ví
dụ: cái búa không phải là một từ chỉ đặc tính, không phải là từ chỉ đối tượng trừu
tượng không chứa thời gian, cũng không phải là từ chỉ trạng thái, mà nó là một đối
tượng sờ thấy được. Do đó, xét theo mục 1.3 thì các ký hiệu MNR(with a hammer,y),
MNR(over the fence,y), MNR(every other week,y) không có ý nghĩa sử dụng và các
câu đó cũng không phải là câu biểu diễn quan hệ phương thức.
Một mối quan hệ khác cũng liên quan tới quan hệ phương thức là quan hệ
nguyên nhân – kết quả (CAUSE-EFFECT) và độ ưu tiên cũng không giải quyết được
nhập nhằng trong trường hợp này.
Ví dụ: The legislation itself noted that it [was introduced]
y
[“by request”]
x
.
(Tự pháp luật lưu ý rằng nó đã được xây dựng bởi yêu cầu.)
=> Cụm giới từ “by request” chỉ ra mối quan hệ nguyên nhân – kết quả
(CAUSE-EFFECT), mà không phải là mối quan hệ phương thức bởi vì “request”
chính là nguyên nhân ảnh hưởng tới sự xây dựng pháp luật. Theo định nghĩa mở rộng
trong mục 1.3, “request” là một sự kiện – nó ngụ ý một sự thay đổi nên MNR(by
request,y) bị loại bỏ do vi phạm điều kiện về DOMAIN.
11

CHƯƠNG 2. PHƯƠNG PHÁP TRÍCH CHỌN QUAN
HỆ PHƯƠNG THỨC
Thông thường, việc xác định các mối quan hệ ngữ nghĩa thường do các chuyên

gia tiến hành. Ví dụ, trong việc xây dựng WordNet, có rất nhiều nhà nghiên cứu đã
tham gia xây dựng và phát triển trong nhiều năm, như: Geoge A. Miller
6
, Christiane
Fellbaum
7
, Randee Tengi
8
,… Đây là một công việc rất tốn thời gian cũng như chi phí
cho việc xây dựng tài nguyên. Chính vì yêu cầu đó, đòi hỏi cần phải có một phương
pháp để phát hiện tự động các mối quan hệ.
Trong một số ít các nghiên cứu liên quan về trích chọn quan hệ phương thức
[2][3]
, các giải pháp nhằm giải quyết vấn đề này tập trung vào việc phát hiện các mẫu
từ vựng – cú pháp cơ bản biểu diễn quan hệ phương thức bao gồm chủ yếu là các cụm
trạng từ và cụm giới từ. Đồng thời, chương này cũng đề cập tới việc sử dụng các
phương pháp học máy để trích chọn dựa vào các đặc trưng như: mô hình học phân lớp
Naïve Bayes, k-người láng giềng gần nhất, cây quyết định (decision tree), máy vector
hỗ trợ (SVM). Trong các phương pháp đó, SVM được xem như một phương pháp có
rất nhiều ưu điểm và nhiều tiềm năng phát triển về mặt lý thuyết cũng như ứng dụng
trong thực tế. SVM là một họ các phương pháp dựa trên cơ sở các hàm nhân (kernel)
để tối thiểu hóa rủi ro ước lượng. Các thử nghiệm trên thực tế cho thấy, phương pháp
SVM có khả năng phân loại khá tốt đối với bài toán phân lớp cũng như trong nhiều
ứng dụng khác (trích chọn quan hệ tương tác protein/gen, khai phá quan điểm, nhận
dạng hình ảnh, chữ viết tay,…).
2.1 Các mẫu từ vựng – cú pháp biểu diễn quan hệ phương thức
2.1.1 Các mẫu từ vựng – cú pháp cơ bản
Khảo sát với tiếng Anh trên tập dữ liệu PropBank, Eduardo Blanco và Dan
Moldovan
[2]

đã đưa ra thống kê sau:

6

/>
7

/>
8

/>
12

Bảng 2. Các mẫu cú pháp biểu diễn quan hệ phương thức trong PropBank, số
câu xuất hiện và ví dụ (Khảo sát với 7852/8037 câu chứa quan hệ phương thức
trong PropBank). Trong tất cả các ví dụ về MNR(x,y), x đã được in đậm.
Mẫu cú
pháp
#Số câu
xuất hiện
%Số câu
xuất hiện
Câu ví dụ
ADVP
(cụm trạng
từ)
3559 45.3% This story line might [resonate]
y
[more
strongly]

ADVP
if Mr.Lane has as strong as
presence in front of the camera as he does
behind it.
(Câu chuyện có thể tạo tiếng vang hơn nếu như
ông Lane xuất hiện trước máy quay cũng mạnh
mẽ như ông ấy ngoài đời.)
PP (cụm
giới từ)
3499 44.6% NBC may yet find a way to [take]
y
a passive,
minority interest in a program-maker [without
violating the rules]
PP
(NBC vẫn có thể tìm ra một cách để tạo sự
hững hờ, ít quan tâm tới những nhà sản xuất
chương trình mà không vi phạm luật.)
RB 286 3.6% Backe is [a [closely]
RB
[held]
y
] media firm]
NP

run by former CBS Inc. President Jon Backe.
(Backe là một hãng truyền thông được tổ chức
chặt chẽ điều hành bởi người sáng lập cựu chủ
tịch tập đoàn CBS Jon Backe.)
S (mức

câu)
148 1.9% Salomon [posted]
y
an unexpectedly big gain in
quarterly earnings, [aided by its securities
trading and investments banking activities]
S
.
(Salomon đã công khai sự thành công ngoài
sức mong đợi trong doanh thu hàng quý, được
hỗ trợ bởi các hoạt động an ninh thương mại
và đầu tư ngân hàng.)
NP (cụm
danh từ)
120 1.5% He [graduated]
y
[Phi Beta Kappa]
NP
from the
University of Kentucky at age 18, after
spending only 2 ½ years in college.
(Anh ấy đã tốt nghiệp Phi Beta Kappa từ
trường đại học Kentucky ở tuổi 18 chỉ sau 2 ½
năm học.)
13

Mẫu khác 240 3.1% Tokyo stocks [closed]
y
[firmer]
ADJP

Monday,
with the Nikkei index making its fifth
consecutive daily gain.
(Thứ 2, Giá cổ phiếu Tokyo đã khép lại một
cách mạnh mẽ hơn với chỉ số Nikkei tăng 5
ngày liên tiếp.)
Cụm trạng từ và cụm giới từ biểu diễn tới 90% số câu chứa quan hệ phương
thức. Vì vậy, họ chỉ tập trung vào 2 cụm này và với dữ liệu tiếng Việt, chúng tôi cũng
dự định chỉ trích chọn đặc trưng cho những cụm này.

Tiếp theo, họ xét tới nốt cha thuộc phân cấp trên trong cây cú pháp của những
cụm trạng từ và cụm giới từ, thu được kết quả sau:
Bảng 3. Ví dụ về nốt cha thuộc phân cấp trên trong cây cú pháp của những cụm
trạng từ và cụm giới từ. Trong tất cả các ví dụ về MNR(x,y), x đã được in đậm.
Nốt cha
# Số câu
xuất hiện
Cụm
từ
Câu ví dụ
VP (cụm
động từ)
3306 ADVP
The company [was [officially]
ADVP
[merged]
y
with
Bristol-Myers Co. earlier this month]
VP

.
(Công ty [được chính thức sát nhập với Công ty
Bristol-Myers đầu tháng này]
VP
.)
3107 PP
This is something P&G [would [do]
y
[with or
without Kao]
PP
]
VP
, says Mr. Zurkuhlen.
(Ông Zurkuhlen nói rằng một vài hoạt động P&Q
[sẽ được làm mà có hoặc không có Kao]
VP
.)
S (mức
câu)
215 ADVP [[
Vi
rtually word by word
]
ADVP
, the notes
[matched]
y
questions and answers on the social-
studies section of the test the student was taking.]

S
([Hầu như tất cả từ, gợi ý nối câu hỏi và câu trả
lời trong phần xã hội học của bài kiểm tra sinh
viên đã làm.]
S
)
14

339 PP [[Under the laws of the land]
PP
, the ANC
[remains]
y
an illegal organization, and its
headquarters are still in Lusaka, Zambia.]
S
([Nằm dưới sự quản lý của luật pháp địa
phương, ANC vẫn tồn tại một tổ chức bất hợp
pháp, và trụ sở của nó ở Lusaka, Zambia.]
S
)
ADJP
(cụm tính
từ)
17 ADVP Two former ministers [were]
y
[[so heavily]
ADVP

implicated]

ADJP
in the Koskotas affair that PASOK
members of Parliament voted
(Hai bộ trưởng cũ đã [liên quan quá nặng nề]
ADJP

đến vấn đề những thành viên POSOK của quốc
hội được bầu cử ở Koskotas)
4 PP ABC touted “Call to Glory.” But the military
drama was [[missing]
y
[in action]
PP
]
ADJP
within
weeks.
(ABC đã giới thiệu “Call to Glory”. Nhưng bộ
phim truyền hình quân sự này đang bị [lãng quên
trong hành động]
ADJP
của tuần.)
PP (cụm
giới từ)
9 ADVP London share prices were [influenced]
y

[[largely]
ADVP
by declines on Wall Street and

weakness in the British pound]
PP
.
(Giá cổ phiếu của Luân Đôn chịu phần lớn ảnh
hướng [bởi sự suy giảm ở Phố Wall và điểm yếu
trong đồng bảng Anh]
PP
.)
9 PP In Japan, by contrast, companies tend to develop
their talent and [promote]
y
[from [within]
PP
]
PP
.
(Trái lại, ở Nhật Bản, các công ty có xu hướng
phát triển tài năng của họ và thúc đy [từ bên
trong]
PP
.)
Như vậy, các nốt cha thuộc phân cấp trên của những cụm này chủ yếu là những
cụm động từ VP hoặc mức câu S, chiếm tới 98%.
15

2.1.2 Nhập nhằng trong các mẫu từ vựng – cú pháp
Những cụm trạng từ và giới từ thường có độ nhập nhằng cao khi tác vụ xác
định ngữ nghĩa của nó. Trong PropBank, chỉ có 22.2% số câu chứa cụm trạng từ biểu
diễn quan hệ phương thức (30.3% biểu diễn quan hệ thời gian), và 6.6% cụm giới từ
bắt đầu với “in”, 6.1% cụm giới từ bắt đầu với “at” biểu diễn quan hệ phương thức

[2]
.
Như vậy, có thể kết luận là quan hệ phương thức khó được phát hiện từ cụm giới từ.
Ngay cả những cụm bắt đầu với “with”, “like”, “under” và “over” cũng có thể biểu
diễn quan hệ phương thức.
Ví dụ: A majority of an NIH-appointed panel recommended late last year that
the research continue under carefully controlled conditions.
(Phần lớn danh sách thiết bị NIH được đề nghị vào cuối năm ngoái để nghiên cứu tiếp
tục dưới những điều kiện được kiểm soát cn thận.)
Ví dụ: Bars where Japanese revelers sing over recorded music.
(Những quán bar nơi mà người Nhật tổ chức hát trên những bài hát được thu âm
lại.)
=> Trong cả 2 trường hợp, thì danh từ chính được chứa trong cụm giới từ là
“conditions” và “music”, những danh từ này đều thuộc các đối tượng trừu tượng không
chứa thời gian.
2.2 Hướng tiếp cận giải quyết vấn đề
2.2.1 Mô hình phân lớp SVM nhị phân
SVM ra đời từ lý thuyết học thống kê do Vapnik và Chervonenkis
[10]
xây dựng
và có nhiều tiềm năng phát triển về mặt lý thuyết cũng như ứng dựng trong thực tiễn.
Tư tưởng chung của học máy SVM như sau:
- Giai đoạn xây dựng mô hình: Cho một tập mẫu dữ liệu huấn luyện đã được gán
nhãn lớp, như vậy có một tập nhãn lớp tương ứng xác định tên tập mẫu. Mỗi
mẫu dữ liệu được biểu diễn dưới dạng một vector đặc trưng. Dựa vào vector
đặc trưng của các mẫu dữ liệu huấn luyện, mô hình máy vector hỗ trợ sẽ được
xây dựng để phân tách các mẫu học. Trong trường hợp khả tách tuyến tính, nó
là một siêu phẳng (hyperplane) trong không gian dùng để phân tách tuyến tính
các mẫu thuộc các nhãn lớp khác nhau với khoảng cách lớn nhất có thể. Trong
trường hợp không khả tách tuyến tính, chúng ta có thể sử dụng lề mềm (soft

margin) để phân tách mẫu học, hay sử dụng ánh xạ phi tuyến để chuyển không

×