Tải bản đầy đủ (.pdf) (51 trang)

Phát hiện kế thừa văn bản tiếng Việt dựa trên từ vựng và từ điển đồng nghĩa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (802.21 KB, 51 trang )




ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ


Hà Thị Oanh


PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT
DỰA TRÊN TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA




KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY
Ngành: Công nghệ Thông tin





Hà Nội – 2012




ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ



Hà Thị Oanh

PHÁT HIỆN KẾ THỪA VĂN BẢN TIẾNG VIỆT
DỰA TRÊN TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA


KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY
Ngành: Công nghệ Thông tin

Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS Phạm Quang Nhật Minh



Hà Nội – 2012



VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY

Ha Thi Oanh


RECOGNIZING VIETNAMESE TEXTUAL
ENTAILMENT BASED ON LEXICAL AND
SYNONYM DICTIONARY







Major: Information Technology

Supervisor: Assoc. Prof. Ha Quang Thuy
Co-Supervisor: Masters. Pham Quang Nhat Minh




HA NOI – 2012
i

LỜI CẢM ƠN

Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc nhất tới PGS.TS. Hà Quang Thụy,
ThS Phạm Quang Nhật Minh đã tận tình chỉ bảo và hướng dẫn em thực hiện khóa luận
tốt nghiệp.
Em xin cảm ơn các thầy, cô trong trường Đại học Công nghệ đã giảng dạy và cho
em những kiến thức quý báu, làm nền tảng để em hoàn thành khóa luận, cũng như
trong công việc tương lai.
Em xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên trong phòng thí nghiệm
KTLab: TS. Phan Xuân Hiếu, CN Lê Đức Trọng, CN Trần Xuân Tứ, Nguyễn Thị
Thùy Linh, … đã hỗ trợ em rất nhiều trong suốt quá trình làm khóa luận.
Em cũng xin được gửi lời tri ân tới các bạn trong lớp K53CLC, K53CC đã luôn
bên cạnh và ủng hộ em trong suốt quá trình học tập tại trường.
Cuối cùng, em muốn gửi lời cảm ơn sâu sắc tới gia đình và bạn bè - những người
thân yêu luôn ở bên yêu thương che chở em để em vượt qua những khó khăn trong

cuộc sống cũng như trong học tập.
Em xin chân thành cảm ơn!

Hà Nội, tháng 5 năm 2012
Sinh viên

Hà Thị Oanh

ii

PHÁT HIỆN KẾ THỪA VĂN BẢN DỰA TRÊN
TỪ VỰNG VÀ TỪ ĐIỂN ĐỒNG NGHĨA
Hà Thị Oanh
Khóa QH-2008-I/CQ, Ngành Công nghệ thông tin

Tóm tắt Khóa luận tốt nghiệp
Phát hiện quan hệ ngữ nghĩa (semantic relation) là một bài toán quan trọng trong lĩnh
vực xử lý ngôn ngữ tự nhiên và khai phá dữ liệu văn bản. Phát hiện kế thừa văn bản
(Recognizing Textual Entailment: RTE) là bài toán tìm mối quan hệ “kế thừa ngữ nghĩa” của
một văn bản T từ một văn bản giả thuyết H, là một bài toán có ý nghĩa khoa học – công nghệ
thời sự thu hút sự quan tâm của nhiều nhóm nghiên cứu trên thế giới. Nhiều công trình nghiên
cứu về RTE được công bố trên các tạp chí, tại các hội nghị khoa học quốc tế mà điển hình là
nhánh hội nghị khoa học về RTE trong dãy hội nghị thường niên về phân tích văn bản (Text
Analysis Conference: TAC) do Viện Tiêu chuNn và Công nghệ quốc gia Mỹ chủ trì.
Khóa luận tập trung nghiên cứu bài toán và các phương pháp phát hiện kế thừa văn
bản ti tại các hội nghị khoa học quốc tế RTE. Trên cơ sở tìm hiểu và so sánh các hướng tiếp
cận, khóa luận tập trung vào hướng tiếp cận xác định kế thừa văn bản dựa trên từ vựng và tri
thức miền.
Các nghiên cứu theo hướng tiếp cận này (Valentin Jijkoun và Maarten de Rijke, 2006
[20], Ken-ichi Yokote và cộng sự, 2012 [22]) cho thấy giá trị ngưỡng phán quyết kế thừa có ý

nghĩa quan trọng. Khóa luận đề xuất giải pháp xác định và tinh chỉnh ngưỡng phán quyết kế
thừa trong tiếp cận phát hiện kế thừa văn bản dựa trên từ vựng và đề nghị một mô hình phát
hiện kế thừa văn bản có tích hợp giải pháp xác định và tinh chỉnh ngưỡng phán quyết nói trên.
Thực nghiệm mô hình đề xuất trên dữ liệu tiếng Việt chứng tỏ giải pháp đề xuất có
tính hiệu quả: độ đo F1 của phán quyết sau khi tinh chỉnh trung bình tăng 3% so với chưa tinh
chỉnh
Từ khóa: Kế thừa ngữ nghĩa, RTE, từ điển đồng nghĩa

iii

RECOGNIZING VIETNAMESE TEXTUAL ENTAILMENT BASED ON
LEXICAL AND SYNONYM DICTIONARY
Oanh Ha Thi
QH-2008-I/CQ course, information technology faculty.
Abtract:
Recognizing semantic relation is an important task in the field of natural language
processing and data mining. Recoginzing textual entailment (RTE) is the task which finds the
“semantic inference” relationship of the text (T) from the hypothesis (H). RTE has the science
– technology meaning and attracts the attension of many research groups. Many research
projects in RTE were published in magazines in the international scientific conference which
has the typical branch about RTE in annual Text Analysis Conference. TAC was held by the
America national Institue of Standardization and Technology.
The thesis focused on researching and clarifying the RTE task and some methods to
recognize textual entailment on the conferences. On the basic of studying and comparing
some appoaches, the thesis proposed a model to RTE based on lexical combined domain
knowledge.
This appoach (Valentin Jijkoun and Maarten de Rijke, 2006 [20], Ken-ichi Yokote et
al [22]) showed the significant meaning of the thresold value of recognizing textual
entailment. The thesis proposed a solution and model to identify and refine the thresold in
recognizing textual entailment based on lexical.

Empirical by Vietnamese data shows that the proposed solution is effective: F1-measure of
recognization before and after refining threshold increases 3%.
Keywords: semantic inference, RTE, synonym dictionary.

iv

LỜI CAM ĐOAN

Em xin cam đoan mô hình phát hiện kế thừa văn bản dựa trên sự tương đồng tự
vựng với giải pháp xác định và chỉnh sửa ngưỡng phán quyết cũng như thực nghiệm
được trình bày trong khóa luận này là do em thực hiện dưới sự hướng dẫn của PGS.
TS. Hà Quang Thụy và ThS. Phạm Quang Nhật Minh.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận,
không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ
về tài liệu tham khảo.



Hà Nội, ngày 17 tháng 05 năm 2012
Sinh viên


Hà Thị Oanh


v

Nội dung
LỜI CẢM ƠN

………………………………………………………………………………………………………………………………i
PHÁT HIỆN KẾ THỪA VĂN BẢN DỰA TRÊN
…………………………………………………………… ii
LỜI CAM ĐOAN
………………………………………………………………………………………………………………………iv
Danh sách các từ viết tắt
………………………………………………………………………………………………………….vii
Danh sách bảng biểu
……………………………………………………………………………………………………………… viii
MỞ ĐẦU
………………………………………………………………………………………………………………………………………1
Chương 1 : Giới thiệu chung
……………………………………………………………………………………………………1
1.1.

Động lực và mục tiêu nghiên cứu
2
1.2.

Khái niệm kế thừa văn bản
4
1.3.

Bài toán phát hiện kế thừa văn bản
5
1.4.

Mối quan hệ giữa dịch máy và kế thừa văn bản
6
1.5.


Dãy hội nghị RTE
7
1.6.

Bộ dữ liệu trong hội nghị RTE và ứng dụng của phát hiện kế thừa văn bản
9
1.7.

Tóm tắt chương 1
11
Chương 2: Một số hướng tiếp cận giải quyết bài toán
………………………………………………………12
2.1.

Một số hướng tiếp cận giải quyết bài toán
12
2.2.

Hướng tiếp cận dựa trên từ vựng
13
2.2.1.

Một số công trình nghiên cứu liên quan
14
2.3.

Hướng tiếp cận dựa trên tri thức
16
2.4.


Kết luận
17
Chương 3: Mô hình phát hiện kế thừa văn bản tiếng Việt
……………………………………………….19
3.1.

Cơ sở lý thuyết
19
3.1.1.

Thuật toán độ tương đồng từ vựng
19
3.1.2.

Ngưỡng phán quyết kế thừa
20
3.1.3.

Trọng số của từ
20
3.2.

Độ đo độ tương đồng từ vựng (wordsim)
21
3.3.

Tri thức miền từ điển đồng nghĩa tiếng Việt
22
3.4.


Tinh chỉnh ngưỡng phán quyết kế thừa
23
3.4.1.

Ngưỡng phán quyết
23
3.5.

Phát biểu bài toán
25
vi

3.6.

Tóm tắt chương 3
28
Chương 4: Thực nghiệm……………………………………………………………
29
4.1.

Môi trường thực nghiệm
29
4.1.1.

Cấu hình phần cứng
29
4.1.2.

Công cụ phần mềm

29
4.2.

Dữ liệu thực nghiệm
30
4.3.

Thử nghiệm chương trình
31
4.4.

Đánh giá hệ thống
31
4.6.

Đánh giá
35
Kết luận và định hướng nghiên cứu tiếp theo
…………………………………………………………………….36
Tài liệu tham khảo
……………………………………………………………………………………………………………………37

vii


Danh sách các từ viết tắt
Viết tắt Tiếng Anh Tiếng Việt
H Hypothesis Giả thuyết
IE Information Extraction Trích xuất thông tin
IR Information Retrieval Thu thập thông tin

MT Machine Translation Dịch máy
NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên
QA Question Answering Hệ hỏi đáp
RTE Recognizing Textual Entailment

Phát hiện kế thừa văn bản
SUM Summarization Tóm tắt
T Text Văn bản
TE Textual Entailment

Kế thừa văn bản
CD Comparison Documents Tài liệu so sánh
RC Reading Comprehension Đọc hiểu
PP Paraphrase Acquisition Thu thập diễn giải

viii

Danh sách bảng biểu

Bảng 1: Một số ví dụ kế thừa văn bản trong hội nghị RTE-3 5
Bảng 2: Cấu hình phần cứng………………………………………………………… . 29
Bảng 3: Danh sách các phần mềm sử dụng 30
Bảng 4. Chú thích giá trị……………………………………………………… 32
Bảng 5: Kết quả thí nghiệm trước và sau tinh chỉnh ngưỡng 33
Bảng 6: Đánh giá kết quả thực nghiệm trong các kỳ hội nghị RTE [18] 35


ix

Danh sách hình vẽ

Hình 1: Tam giác dịch máy……………………………………………………………6
Hình 2: Hình chữ nhật RTE……………………………………………………………7
Hình 3: Một số hướng tiếp cận giải quyết bài toán………………………………… 13
Hình 4: Mô hình giải quyết bài toán………………………………………………….26
Hình 5: Dữ liệu thực nghiệm…………………………………………………… … 30
Hình 6: Kết quả thí nghiệm với trường hợp chưa tinh chỉnh ngưỡng……………… 34
Hình 7: Kết quả thí nghiệm với trường hợp đã tinh chỉnh ngưỡng………………… 34



1

MỞ ĐẦU
Một hiện tượng cơ bản của ngôn ngữ tự nhiên đó là sự nhập nhằng trong cách
diễn đạt. Cùng một nội dung có thể được diễn đạt bởi nhiều văn bản khác nhau dựa
trên sự thay đổi ngữ nghĩa. Trên cơ sở đó, từ một diễn đạt này chúng ta có thể suy
luận ra một diễn đạt khác nếu chúng nói về cùng một nội dung trong cùng một ngữ
cảnh cụ thể. Kế thừa (suy luận) được ứng dụng rộng rãi trong nhiều khía cạnh của đời
sống. Kế thừa xảy ra thường xuyên trong giao tiếp hàng ngày liên quan tới việc hiểu
và sử dụng ngôn ngữ tự nhiên. Thông thường khi nói chuyện, chúng ta không hiểu
theo nghĩa đen với mỗi lời phát biểu của người khác hoặc không diễn đạt đúng suy
nghĩ của bản thân theo cách tường minh nhất. Trong giao tiếp, con người xử lý rất tốt
vấn đề này. Tuy nhiên, máy tính thường khó suy luận và hiểu được những cuộc đối
thoại của con người. Do đó, nếu con người muốn xây dựng một hệ thống đối thoại thì
phải xử lý với sự ngụ ý hoặc sự kế thừa này như là một thách thức chính cần giải
quyết.
Ý thức được lợi ích của các bài toán xử lý ngôn ngữ tự nhiên nói chung và bài
toán kế thừa văn bản nói riêng, em chọn hướng nghiên cứu nhằm giải quyết bài toán
phát hiện kế thừa văn bản cho tiếng Việt làm đề tài khóa luận của mình.
Cấu trúc của khóa luận được chia thành 4 chương:

• Chương 1: Giới thiệu khái quát về kế thừa văn bản, bài toán phát hiện quan hệ
kế thừa, mối quan hệ giữa kế thừa và dịch máy và ứng dụng của bài toán trong
thực tiễn.
• Chương 2: Trình bày một số hướng tiếp cận giải quyết bài toán trong các kỳ
hội nghị RTE 1-7. Trong đó, em đi sâu vào phân tích hướng tiếp cận dựa trên từ
vựng cùng một số thuật toán áp dụng trên từ vựng đã được cài đặt trong các hệ
thống RTE cho kết quả tốt.
• Chương 3: Giới thiệu và trình bày một thuật toán phát hiện quan hệ kế thừa
dựa trên từ vựng theo đề xuất của Valentin Jijkoun và cộng sự [20], khảo sát
một số đặc trưng tiêu biểu của miền dữ liệu thực nghiệm tiếng Việt. Em đề xuất
một mô hình giải quyết bài toán phát hiện quan hệ kế thừa văn bản tiếng Việt
dựa trên từ vựng kết hợp với tri thức miền từ điển đồng nghĩa tiếng Việt và giải
pháp tinh chỉnh ngưỡng.
• Chương 4: Mô tả quy trình thực nghiệm, kết quả đạt được và kết luận định
hướng nghiên cứu tiếp theo.
2

Chương 1 : Giới thiệu chung
Trong cuộc sống thường nhật, con người sử dụng rất nhiều cách diễn đạt khác
nhau đối với cùng một nội dung. Cơ sở để xác định các diễn đạt khác nhau cùng nói về
một nội dung hay không đó chính là đánh giá độ tương tự về ngữ nghĩa. Kế thừa văn
bản (TE) là mối quan hệ giữa các biểu diễn của văn bản, ý nghĩa rút ra được từ một
biểu diễn này có thể suy luận được từ một biểu diễn khác của văn bản. Chương một
của khóa luận giới thiệu khái quát về các khái niệm liên quan tới kế thừa văn bản, bài
toán phát hiện quan hệ kế thừa cũng như ứng dụng thực tiễn của kế thừa văn bản trong
lĩnh vực xử lý ngôn ngữ tự nhiên.
1.1. Động lực và mục tiêu nghiên cứu
Một hiện tượng cơ bản của ngôn ngữ tự nhiên đó là sự nhập nhằng trong cách
diễn đạt. Cùng một nội dung có thể được diễn đạt bởi nhiều văn bản khác nhau dựa
trên sự thay đổi ngữ nghĩa. Trên cơ sở đó, từ một diễn đạt này chúng ta có thể suy

luận ra một diễn đạt khác nếu chúng nói về cùng một nội dung trong cùng một ngữ
cảnh cụ thể. Kế thừa (suy luận) được ứng dụng rộng rãi trong nhiều khía cạnh của đời
sống. Giả sử một ai đó đang tìm hiểu về một vấn đề, họ sẽ tìm kiếm câu trả lời qua
sách báo, bạn bè hay trên Web. Trong hầu hết các trường hợp, thông tin nhận được có
thể không chính xác mặc dù nó là đúng theo quan điểm của người nào đó. Chính vì
vậy, hậu quả của việc nắm bắt thông tin sai lệch là rất lớn. Do đó, suy luận đóng một
vài trò quan trọng trong việc xác nhận hoặc phủ nhận thông tin tìm kiếm ban đầu.
Xét ví dụ: An muốn biết liệu sông Amazon có phải là con sông dài nhất thế giới
hay không. Một cách tự nhiên, bạn ấy có thể tìm độ dài chính xác của sông Amazon và
các sông khác mà bạn ấy biết, sau đó so sánh chúng. Tuy nhiên, bạn ấy biết được rằng
Ai Cập là đất nước có con sông dài nhất thế giới chảy qua, trong khi đó Ai Cập và
Amazon không thuộc cùng một châu lục. Tương tự như vậy, John không biết chắc
chắn ai là tổng thống hiện tại của Mỹ. Bush hay Obama, khi mà John nhận được câu
trả lời do tìm kiếm là cả Bush và Obama đều là tổng thống của Mỹ. Nếu anh ấy thực
hiện một suy luận dựa trên tài liệu nhận được chứa câu: “George Bush đã về hưu”, câu
trả lời đúng sẽ là Obama.
Tóm lại, việc tìm được một thông tin hoàn toàn chính xác đối với câu hỏi đặt ra
là không phải luôn thực hiện được, nhưng suy luận có thể giúp rất nhiều. Trong cả hai
trường hợp trên, thông tin nhận được kế thừa (suy luận) từ câu trả lời thay vì là câu trả
lời chính xác.
3

Kế thừa xảy ra thường xuyên trong giao tiếp hàng ngày liên quan tới việc hiểu
và sử dụng ngôn ngữ tự nhiên. Thông thường khi nói chuyện, chúng ta không hiểu
theo nghĩa đen với mỗi lời phát biểu của người khác hoặc không diễn đạt đúng suy
nghĩ của bản thân theo cách tường minh nhất.
Xét đoạn hội thoại ngắn sau:
• A: Cậu đã nhìn thấy điện thoại Ipad mới của mình chưa?
• B: Ồ, đẹp! Mình cũng muốn có một cái.
• A: Bạn phải có một cái.

Đoạn hội thoại trên có vẻ không mạch lạc nếu chúng ta hiểu nó theo nghĩa đen và
đọc hiểu từng câu. A hỏi một câu hỏi có/không trong khi đó B lại trả lời theo một cách
khác. Tuy nhiên, người đọc và người nghe có thể thấy rõ ràng B đã đưa ra cho A một
câu trả lời mong muốn.
Nếu chúng ta giải thích theo nghĩa đen cuộc trò chuyện trên thì đây có thể là một khả
năng:
• A: Đây là điện thoại Ipad của mình.
• B: Mình chưa bao gờ nhìn thấy nó trước đó. Nó thật đẹp. Mình chưa có nhưng
mình muốn có một cái như vậy.
• A: Mình nghĩ bạn nên có nó.
Mặc dù phiên bản trên có thể dễ dàng hơn cho máy tính hiểu và xử lý các cuộc
đối thoại của con người. Tuy nhiên người đọc lại thấy nó có vẻ rất vụng về trong ngôn
ngữ giao tiếp và cuộc trò chuyện ban đầu xảy ra tự nhiên hơn trong cuộc sống hàng
ngày của chúng ta. Mỗi lời giải thích trong phiên bản trên là ngụ ý hoặc kế thừa một
cách chính xác những câu trong hội thoại ban đầu. Do đó, nếu con người muốn xây
dựng một hệ thống đối thoại thì phải xử lý với sự ngụ ý hoặc sự kế thừa này như là
một thách thức chính cần giải quyết [18].
Theo Chierchia và McConnell-Ginet (2000) [21], quan hệ giữa hai văn bản trên
là mối quan hệ kế thừa (Textual Entailment - TE). Hệ thống nhận dạng kế thừa văn
bản (Recognizing Textual Entailment - RTE) đòi hỏi phải xác định được mối quan hệ
kế thừa giữa hai văn bản được đưa ra, thường được khai báo như là văn bản (T) và giả
thuyết (H). Trong lĩnh vực xử lý ngôn ngữ tự nhiên, phát hiện kế thừa văn bản được
xem như một modun xử lý ngữ nghĩa chung, phục vụ các tác vụ khác. Ví dụ, RTE đã
được sử dụng rất thành công trong hệ hỏi đáp giúp xác nhận câu trả lời hợp lệ, trong
4

trích chọn thông tin, đánh giá dịch máy. Về lâu dài, RTE giữ vai trò quan trọng trong
việc hiểu đối thoại trò chuyện, Nn dụ và thậm chí là giao tiếp người máy [18].
1.2. Khái niệm kế thừa văn bản
Kế thừa văn bản bắt nguồn từ kế thừa trong logic học. Kế thừa văn bản (TE) là mối

quan hệ giữa các biểu diễn của văn bản, ý nghĩa rút ra được từ một biểu diễn có thể
suy luận được từ một biểu diễn khác của văn bản. Nói một cách chính xác hơn, kế thừa
văn bản có thể được hiểu là “một mối quan hệ giữa một văn bản nhất quán T với một
ngôn ngữ thể hiện của nó – giả thuyết H. Chúng ta nói T kế thừa H (H là một hệ quả
của T), ký hiệu là T=>H, nếu như ý nghĩa của H, đặt vào ngữ cảnh của T thì có thể
suy ra được từ ý nghĩa của T.”
Hiện nay có khá nhiều cách tiếp cận về khái niệm kế thừa văn bản. Một cách
chung nhất thì văn bản T được gọi là kế thừa từ giả thuyết H nếu như sự thật về H có
thể suy luận được từ T. Điều này có nghĩa là T bao hàm ý nghĩa của H khi đọc cả hai.
Hình thức hơn, ta có thể nói T kế thừa H khi một số biểu diễn của H có thể trùng khớp
(qua một số bước chuyển đổi bảo toàn ngữ nghĩa) với một số (hoặc một phần của) các
biểu diễn của T, ở một cấp độ chi tiết và trừu tượng nhất định.
Trong khóa luận này, em tiếp cận kế thừa văn bản theo cách định nghĩa của Iftene A
[11] trong hội nghị RTE4. Nội dung khái niệm được phát biểu như sau:
“T kế thừa H nếu như tính chất đúng của H có thể suy ra được từ T trong bối cảnh mà
T sinh ra.”
Dưới đây là một số ví dụ minh họa để hiểu rõ hơn về khái niệm kế thừa văn bản:
Văn bản Giả thuyết Kế
thừa
Blue Mountain Lumber là một chi
nhảnh của công ty lâm nghiệp đa quốc
gia Ernslaw One của Malaysia
Blue Mountain Lumber
sở hữu Ernlaw One.
No
Tập đoàn Boeing đặt tại Chicago đã
hủy bỏ ba đơn hàng vào năm 2006 mà
đã được đặt bởi Air Canada.
Trụ sở của tập đoàn
Boeing nằm ở Canada.

No
5

Mưa lớn 200 mm đã được ghi nhận ở
một số nơi ở British Columbia, trên bờ
biển phía tây của Canada từ thứ hai.
British Columbia nằm
ở Canada.
Yes
Khi các nhà lãnh đạo tập hợp ở
Argentina trước các buổi hội đàm trong
khu vực, Hugo Chavez, tổng thống
theo phái dân túy của Venezuela, đã sử
dụng lợi thế về năng lượng để tìm kiếm
đồng minh và tạo dựng hình ảnh của
mình trong chủ nghĩa xã hội của thế kỷ
21.
Chavez là một người
theo chủ nghĩa xã hội.
Yes
Chiếc xe hơi mà đã va vào hòm thư
thuộc về James Clark, 68 tuổi, một
người quen của gia đình James Jones.
Clark là một người họ
hàng của Jones.
No

Bảng 1: Một số ví dụ kế thừa văn bản trong hội nghị RTE-3
1.3. Bài toán phát hiện kế thừa văn bản
Bài toán phát hiện kế thừa văn bản là bài toán xác định quan hệ kế thừa giữa văn

bản T và giả thuyết H. Việc phân loại mối quan hệ kế thừa giữa văn bản và giả thuyết
có thể theo 2 cách dựa trên số nhãn kế thừa mà hệ thống gán cho một cặp văn bản giả
thuyết.
Phân loại kế thừa 3 lớp bao gồm các nhãn :
• Kế thừa: Khi T kế thừa H.
• Mâu thuẫn: Khi T không kế thừa H.
• Không xác định: Khi không có đủ điều kiện để xác định xem T kế thừa H
hay không.
Phân loại kế thừa 2 lớp: Trong phân loại 2 lớp, mối quan hệ mâu thuẫn và
không xác định đều được phân vào lớp “Không kế thừa”. 2 lớp sử dụng là:
• Kế thừa: Khi T kế thừa H.
• Không kế thừa: Khi nội dung trong T mẫu thuẫn với nội dung trong H hoặc
không xác định được quan hệ giữa T và H.
Hiện nay, đa số các hệ thống phát hiện kế thừa sử dụng sự phân lớp nhị phân
(hai nhãn). Việc phán quyết kế thừa được gán nhãn là YES/NO (YES: trong trường
6

hợp kế thừa và NO nếu ngược lại). Trong khóa luận này, em tiến hành thực nghiệm
theo nhãn nhị phân như trên.
Dựa trên tiếp cận về quan hệ kế thừa trên, bài toán được phát biểu như sau:
Đầu vào: Tập các cặp câu văn bản T và giả thuyết H thuộc cùng một chủ đề.
Đầu ra: Gán nhãn kế thừa YES/NO với từng cặp.
1.4. Mối quan hệ giữa dịch máy và kế thừa văn bản
Kế thừa văn bản và dịch máy có mối quan hệ với nhau [18]. Cấu trúc của chúng
có nhiều nét tương tự nhau. Nếu chúng ta tạo ra một minh họa tương tự như hình tam
giác trong cộng đồng dịch máy (Machine Translation - MT) (Hình 1) thì có thể hình
dung RTE như là một hình chữ nhật (Hình 2). Tam giác MT cho biết: văn bản được
dịch từ ngôn ngữ ban đầu sang ngôn ngữ đích, trong quá trình dịch tồn tại nhiều đường
đi có thể. Hệ thống có thể dịch trực tiếp dựa trên chuỗi biểu diễn hoặc trước khi dịch
áp dụng một số phân tích ngôn ngữ để có được ý nghĩa của hai văn bản. Ngoài ra, độ

sâu của phân tích ngôn ngữ là không cụ thể. Do đó biểu diễn ý nghĩa bản dịch có thể
thay đổi. Tương tự như vậy, hình chữ nhật RTE không yêu cầu một diễn đạt rõ ràng
hoặc đồng nghĩa. Tiêu chí là để xác thực kết luận hay mối quan hệ giả thiết giữa hai
bên.

Hình 1: Tam giác dịch máy
7


Hình 2: Hình chữ nhật RTE
Bên cạnh những điểm giống nhau thì MT và RTE có những điểm khác nhau như:
• Trong MT, với một văn bản ban đầu hệ thống phải tạo ra văn bản dịch tương
ứng với ngôn ngữ muốn chuyển đổi. Còn trong RTE, cả văn bản và giả thuyết
đều được đưa ra, hệ thống có nhiệm vụ phải xác định quan hệ kế thừa.
• Trong MT, văn bản nguồn và văn bản đích thuộc hai ngôn ngữ khác nhau.
Ngược lại, văn bản và giả thuyết trong RTE phải thuộc cùng một ngôn ngữ.
• Trong MT, hai văn bản cùng có một nội dung và ý nghĩa. Trong khi đó, RTE
có suy luận giữa hai ý nghĩa của văn bản và giả thuyết (có thể ở mức “sâu”
hơn). Nói cách khác, nếu một hệ thống dịch máy hiểu và biểu diễn nội dung
hoàn thiện của văn bản, thì chúng không cần những luật biến đổi. Còn trong
RTE phải có một quá trình so sánh cấu trúc nhận được từ những văn bản.
1.5. Dãy hội nghị RTE
Phát hiện kế thừa văn bản là bài toán mới trong lĩnh vực xử lý ngôn ngữ tự nhiên
(Natural Language Processing - NLP) và nhận được sự quan tâm rất lớn của các nhà
nghiên cứu. Đặc biệt, từ năm 2005 tới nay, hội thảo RTE được tổ chức hàng năm với
mục đích là tổng hợp các phương pháp phát hiện kế thừa văn bản cho kết quả tốt thông
qua các cuộc thi và nhận được sự quan tâm của nhiều nhóm nghiên cứu NLP trên thế
giới. Hội thảo RTE được tiến hành trong khuôn khổ các hội nghị thường niên Hiểu tài
liệu (DUC - Document Understanding Conference, 2001-2007) và Phân tích xử lý văn
8


bản (TAC - Text Analysis Conference, từ năm 2008 tới nay
1
). Tính tới nay, RTE đã
trải qua 7 kỳ hội nghị với hàng trăm bài báo với rất nhiều các công trình nghiên cứu
được công bố. Hội nghị RTE 7 được tổ chức tại Gaithersburg, Maryland, USA vào
tháng 12 năm 2011.
Theo tổng hợp của Dagan và cộng sự, 2005 [9], RTE-1 được tổ chức vào năm
2005 đã đưa ra chuNn đầu tiên cho bài toán phát hiện kế thừa văn bản. Tập dữ liệu
RTE-1 bao gồm tập các đoạn văn bản thông thường, bao gồm văn bản (T) gồm một
hoặc hai câu và giả thuyết (H) gồm một câu. Các hệ thống tham gia được yêu cầu đưa
ra phán quyết cho mỗi cặp (T,H) về việc có kế thừa hay không. Các cặp đại diện cho
sự phán quyết thành công hay thất bại của suy luận thuộc rất nhiều kiểu ứng dụng khác
nhau như: QA, IE, IR và MT.Trong cuộc thi này, hầu hết các nhóm tham gia đều tập
trung vào sự trùng lặp từ vựng giữa T và H, các hệ thống được xây dựng dựa trên
hướng logic, các mô hình xác suất hoặc mô hình học máy có giám sát. Bộ dữ liệu này
được chia thành 2 tập con, tập phát triển (development set) bao gồm 567 cặp và tập
kiểm tra (test set) bao gồm 800 cặp. Trong đó, số lượng các cặp tích cực (có kế thừa)
cân bằng với các cặp tiêu cực (không kế thừa).
Các hội nghị sau từ RTE-2 đến RTE-5 vẫn tiếp tục phát triển từ cuộc thi trước đó
với mục đích chính là nâng cao độ dài của văn bản đánh giá (nâng lên mức độ đoạn và
càng về sau thì độ dài trung bình của văn bản càng cao lên). Trong RTE-2
2
được tổ
chức vào năm 2006 với vấn đề trọng tâm là: làm sao để cung cấp nhiều hơn các ví dụ
thực tế của cặp văn bản-giả thuyết, chủ yếu dựa vào đầu ra của các hệ thống thực tiễn.
Tập dữ liệu của RTE-2
3
chứa 1600 cặp văn bản-giả thuyết và cũng được chia thành hai
tập: tập phát triển và tập kiểm tra với số lượng mỗi tập là 800 cặp. Các hệ thống cho

độ chính xác cao hơn, sử dụng thêm các thông tin về cú pháp và ngữ nghĩa từ rất nhiều
nguồn khác nhau.
Đặc biệt, các hội nghị RTE-6 và RTE-7 đã có sự khác biệt so với các hội nghị RTE
trước đây. Kế thừa văn bản được thực thi trên tập corpus thực sự và sử dụng tập hợp
cơ sở dữ liệu tri thức (knowledge base population: KBP) cho phát hiện kế thừa văn
bản. Cơ sở dữ liệu tri thức sẽ nâng cao kết quả cho bài toán phát hiện kế thừa văn bản.
Bài toán đặt ra là tập trung kế thừa dựa vào ngữ cảnh. Trong đó, việc quyết định kế
thừa dựa trên ngữ cảnh rộng hơn. RTE-7 tập trung vào kế thừa văn bản trong hai thiết

1

2
/>
3
RTE-2 data sets: />
9

lập ứng dụng: tóm tắt và tập hợp cơ sở tri thức. Bài toán chính trong RTE-7: Đưa ra
một tập corpus và một tập các câu ứng viên được lấy ra từ tập corpus từ Lucence (một
thư viện mã nguồn mở cho tìm kiếm toàn văn bản, được Dough Cutting phát triển.
Thư viện này cung cấp các hàm cơ bản hỗ trợ cho việc đánh chỉ mục và tìm kiếm), hệ
thống kế thừa văn bản được yêu cầu phải xác định các câu từ tập các câu ứng viên để
mà chúng kế thừa một giả thuyết đưa ra. Dựa trên bài toán chính, bài toán phụ sẽ tập
trung vào việc phát hiện tính mới, điều đó có nghĩa là các hệ thống kế thừa văn bản
được yêu cầu phải đánh giá thông tin chứa trong giả thuyết H liệu có mới so với thông
tin chứa trong tập corpus hay không. Nếu các câu kế thừa được tìm thấy trong câu giả
thuyết H được đưa ra thì nội dung của H là mới.
1.6. Bộ dữ liệu trong hội nghị RTE và ứng dụng của phát hiện kế thừa văn bản
Bộ dữ liệu trong hội nghị RTE được thu thập và chú thích bằng tay. Nó bao gồm 7
tập con tương ứng với các ví dụ điển hình trong các ứng dụng khác nhau. Đây là

những bộ dữ liệu văn bản – giả thuyết chuNn và được thực hiện bởi những người trong
ban tổ chức cuộc thi. Trong mỗi ứng dụng các cặp văn bản giả thuyết được chọn bao
gồm cả ví dụ kế thừa và không kế thừa. Thông thường, T chứa một (hai hoặc ba) câu,
H thường là một câu ngắn [18].
Tìm kiếm thông tin (Information Retrieval - IR): Các giả thuyết (H) được tạo ra
tương ứng với những câu truy vấn có nghĩa, biểu diễn một số quan hệ ngữ nghĩa cụ
thể. Những truy vấn này thường dài và cụ thể hơn so với một truy vấn từ khóa chuNn
và đại diện cho biến thể hướng ngữ nghĩa trong tìm kiếm thông tin. Các truy vấn được
lựa chọn bằng cách kiểm tra những câu nổi bật trong văn bản tin tức và sau đó được
tìm kiếm trên máy tìm kiếm web. Văn bản ứng viên (T) được lựa chọn từ những tài
liệu nhận được từ máy tìm kiếm. Trong đó, người ta chọn ra cả những trường hợp kế
thừa và không kế thừa để đảm bảo tính khách quan, bao trùm của dữ liệu. Vì vậy,
trong lĩnh vực IR, RTE chiếm một vị trí quan trọng trong việc tìm kiếm thông tin dựa
trên các nguồn dữ liệu có sẵn. Các hệ thống tìm kiếm thông tin nhận đầu vào là các từ
khóa và trả về tập dữ liệu chứa từ khóa đó. Kết quả trả về từ máy tìm kiếm thường rất
lớn. Người sử dụng muốn có được thông tin chính xác phải tự mình duyệt các câu trả
lời. Trong nhiều trường hợp, máy tìm kiếm trả về những kết quả không liên quan mấy
tới từ khóa hoặc bỏ qua những văn bản cần thiết. Một số tài liệu không chứa từ truy
vấn nhưng vẫn phù hợp. Ví dụ, một tài liệu về “orange” có thể phù hợp với những
truy vấn về “tropical fruit” , “tropical” hay “fruit” mặc dù những từ này không xuất
10

hiện trong tài liệu. RTE được sử dụng để xác định xem một tài liệu có phù hợp với câu
truy vấn hay không bất kể sự xuất hiện hay vắng mặt của từ truy vấn.
Tài liệu so sánh (Comparable Documents): Cặp T-H được xác định bằng cách kiểm
tra cụm những bài báo tin tức bao trùm một câu chuyện phổ biến. Sau đó con người
kiểm tra cặp câu “liên kết” có thành phần từ vựng trùng nhau một phần nhưng ngữ
nghĩa thì có hoặc không kế thừa. Một số cặp được lấy trên Web sử dụng Google news,
những cặp còn lại thu thập từ một nguồn có sẵn. Động lực của việc thu thập này là
việc thường sử dụng trùng lặp từ vựng là một gợi ý cho việc trùng lặp ngữ nghĩa trong

các tài liệu so sánh, ví dụ tóm tắt nhiều tài liệu.
Đọc hiểu (Reading Comprehension - RC): RC tương ứng với bài kiểm tra đọc hiểu
tiêu biểu trong việc dạy ngôn ngữ trong trường học, trong đó sinh viên được yêu cầu
đánh giá khi nào thì một lời khẳng định cụ thể có thể suy ra từ một văn bản. Người chú
thích được yêu cầu tạo ra các giả thuyết liên quan tới văn bản lấy từ những câu chuyện
mới, coi như một bài đọc hiểu cho học sinh cấp 3.
Hệ hỏi đáp (Question Answering - QA): Người ta tạo ra cặp T-H bằng cách sử
dụng hệ hỏi đáp dựa trên Web và các văn bản trực tuyến có sẵn, sử dụng một nguồn
câu hỏi từ CLEF-QA5 và TREC6 nhưng cũng có thể xây dựng những câu hỏi của
chính họ. Với mỗi câu hỏi được đưa ra, người chú thích chọn đoạn văn bản liên quan
đầu tiên được đề xuất bởi hệ hỏi đáp chứa câu trả lời đúng. Sau đó chuyển câu hỏi
thành câu khẳng định và dùng làm giả thuyết. Ví dụ, với câu hỏi “Ai là Ariel Sharon?”
và câu trả lời ứng viên nhận được là: “Tổng thống Israel, Ariel Sharon đã tới thăm
Prague” (T). Khi đó câu hỏi được chuyển thành câu giả thuyết: “Ariel Sharon là tổng
thống của Israel” tạo nên cặp văn bản – giả thuyết. Do đó, trong hệ hỏi đáp, với cùng
một câu hỏi đưa ra, hệ thống sẽ tìm các câu trả lời có quan hệ kế thừa ứng với câu tìm
kiếm và đưa ra được những câu trả lời chính xác nhất.
Trích xuất thông tin (Information Extraction - IE): Nhiệm vụ này bắt nguồn từ ứng
dụng trích xuất thông tin, thích hợp với cặp văn bản hơn là một văn bản và một mẫu
cấu trúc. Trong ứng dụng này, người chú thích sử dụng một tập dữ liệu có sẵn được
gán nhãn cho mối quan hệ IE là “kill” và “birth place”, cũng như các câu chuyện tin
tức nói chung trong đó họ xác định bằng tay các mối quan hệ IE điển hình. Ví dụ, đưa
ra một trích chọn thông tin xác định các vụ giết hại người dân và một văn bản “Du
kích đã giết hại một nông dân ở thành phố Flores” , giả thuyết tương ứng “Du kích đã
giết chết một thường dân” sẽ tạo ra một cặp văn bản – giả thuyết kế thừa.
Dịch máy (Machine Translation - MT): Hai bản dịch của cùng một văn bản, một
được dịch tự động và một được dịch bởi con người, được so sánh và sửa đổi để có
11

được một cặp văn bản – giả thuyết. Bản dịch tự động được thay thế lần lượt bởi văn

bản hoặc giả thuyết, khi đó một bản dịch đúng sẽ tương ứng với quan hệ kế thừa. Các
bản dịch đôi khi được chỉnh về mặt ngữ pháp để có thể chấp nhận được.
Thu thập diễn giải (Paraphrase Acquisition - PP): Hệ thống thu thập diễn giải cố
gắng tiếp cận cặp (hoặc bộ) biểu thức từ vựng, cú pháp để truyền đạt những nghĩa
tương đương hoặc kế thừa. Người chú thích chọn một văn bản T từ một vài câu
chuyện tin tức chứa một mối quan hệ nhất định, một quy tắc diễn giải và một hệ thống
thu thập diễn giải. Kết quả của việc áp dụng các quy tắc diễn giải trên T được chọn
như là H. Giả thuyết diễn giải đúng được gợi ý bởi hệ thống, được áp dụng trong một
ngữ cảnh thích hợp để tạo ra cặp văn bản – giả thuyết, ngược lại là một ví dụ sai. Ví
dụ, với câu “Cô gái đã được tìm thấy trong Drummondville”, và bằng cách áp dụng
quy tắc diễn giải “X được tìm thấy trong Y = Y chứa X”, chúng ta sẽ có câu giả thuyết
là “Drummondville chứa các cô gái” (có thể không kế thừa một cách chắc chắn).
1.7. Tóm tắt chương 1
Trong chương này, khóa luận đã giới thiệu khái quát về kế thừa văn bản, bài toán phát
hiện kế thừa văn bản thông qua việc tìm hiểu các kết quả tổng hợp và quá trình tiến
hóa qua các kỳ hội nghị RTE-1-7. Chương 2 của khóa luận trình bày một số hướng
tiếp cận đã và đang được sử dụng trong bài toán phát hiện kế thừa văn bản trong các
kỳ hội nghị.
12

Chương 2: Một số hướng tiếp cận giải quyết bài toán
Qua các kỳ hội nghị RTE, rất nhiều kỹ thuật và phương pháp được sử dụng để giải
quyết bài toán phát hiện quan hệ kế thừa. Với mục đích tìm hiểu các phương thức phát
hiện kế thừa văn bản, chương 2 sẽ trình bày các hướng tiếp cận giải quyết bài toán và
một số phương pháp đã được sử dụng trong các hệ thống phát hiện kế thừa văn bản và
cho kết quả tốt theo đánh giá của các hội nghị RTE.
2.1. Một số hướng tiếp cận giải quyết bài toán
RTE đã trải qua 7 kỳ hội nghị với rất nhiều các hệ thống phát hiện kế thừa văn bản
được công bố. Hướng giải quyết bài toán mà các tác giả đưa ra là rất phong phú và đa
dạng. Nhìn chung, hướng tiếp cận mà các tác giả sử dụng trong những năm gần đây

bao gồm [3]:
• Hướng tiếp cận dựa trên thuật ngữ (Term-based): Hầu hết các hệ thống dựa trên
phương pháp này đều xét tới hình thái và các biến thể từ vựng của các thuật ngữ
trong văn bản và giả thuyết. Việc đưa ra các quan hệ kế thừa thường dựa trên
độ tương đồng từ vựng.
• Hướng tiếp cận dựa trên chứng minh logic (Logic-proving): Các hệ thống theo
phương pháp này áp dụng các yếu tố cổ điển (classical) hoặc logic đáng tin cậy
để suy luận ý nghĩa của văn bản có kế thừa giả thuyết hay không. Kỹ thuật dựa
trên logic là tên gọi của những thành phần đặc trưng của văn bản và giả thuyết
như mệnh đề hay hình thức logic khác.
• Hướng tiếp cận dựa trên cú pháp (Syntax-based): Một số hệ thống hiện có tiến
hành thực hiện một phân tích độ tương đồng giữa cây cú pháp được trích xuất
từ văn bản và giả thuyết để xác định các mối quan hệ kế thừa. Ngoài ra cũng có
những hệ thống cần phải có một chiến lược phát hiện các diễn giải (paraphrase)
để sinh ra một tập các biểu diễn khác nhau của giả thuyết với mục đích tìm
kiếm một tập con trong số đó xuất hiện trong văn bản.
• Hướng tiếp cận dựa trên vai trò ngữ nghĩa (Semantic role-based): Có những hệ
thống lưu ý tới các câu của văn bản và giả thuyết với vai trò ngữ nghĩa (sử dụng
trình phân tích ngữ nghĩa nông) và sau đó phân tích sự trùng lặp giữa hai tập
được gán vai trò ngữ nghĩa.
• Hướng tiếp cận dựa trên tri thức (Knowledge-based or Corpus-based): Việc sử
dụng tri thức thế giới trong những hệ thống này giúp dễ dàng nhận ra các mối
13

quan hệ kế thừa khi mà từ vựng hay tri thức ngữ nghĩa không đủ để đưa ra mối
quan hệ kế thừa chính xác.

Hình 3: Một số hướng tiếp cận giải quyết bài toán
Mỗi hướng tiếp cận trên thông thường đều chỉ giải quyết được một vài khía cạnh
của bài toán (từ vựng, ngữ nghĩa, cú pháp, …). Rất khó để có thể nhận xét được

phương pháp nào là tối ưu hơn phương pháp nào. Cách tốt nhất để có thể giải quyết tốt
bài toán RTE là kết hợp nhiều phương pháp theo nhiều khía cạnh giải quyết vấn đề.
Trong khóa luận này, em xây dựng một hệ thống phát hiện quan hệ kế thừa sử dụng
hướng tiếp cận dựa trên thuật ngữ (từ vựng) và tri thức miền từ điển để tạo ra kết luận
về mối quan hệ kế thừa trong văn bản tiếng Việt. Sau đây khóa luận sẽ đi sâu vào phân
tích hai hướng tiếp cận: dựa trên từ vựng và tri thức.
2.2. Hướng tiếp cận dựa trên từ vựng
Bài toán phát hiện kế thừa văn bản (RTE) đã được đưa ra lần đầu tiên vào năm
2005. Trong các hướng tiếp cận giải quyết bài toán như trên thì hướng tiếp cận dựa
trên thuật ngữ (từ vựng) là hướng nghiên cứu phổ biến nhất. Nó có mặt trong hầu hết
các hệ thống xuyên suốt từ hội nghị RTE1 tới RTE7. Cơ sở của sự tương đồng về nội
dung, ngữ nghĩa là sự tương đồng trong cách diễn đạt, sử dụng từ ngữ mà điển hình là
sự trùng lặp từ vựng hoặc các từ đồng nghĩa, cấu trúc giống nhau. Chính vì vậy, một
hệ thống phát hiện quan hệ kế thừa với dữ liệu thuộc ngôn ngữ nào thì hướng tiếp cận
dựa trên từ vựng cũng là hướng tiếp cận được quan tâm xử lý đầu tiên. Động lực của
phương pháp này là việc thường sử dụng trùng lặp từ vựng là một gợi ý cho việc trùng
lặp ngữ nghĩa trong các cách diễn đạt, ví dụ trong tài liệu so sánh hay tóm tắt nhiều tài
liệu.
Số lượng các bài báo và công trình nghiên cứu về kế thừa văn bản dựa trên từ vựng
là rất lớn, các thuật toán mà các tác giả sử dụng là rất đa dạng. Tiêu biểu trong chuỗi
thuật toán từ vựng đó là các thuật toán liên quan tới việc chỉnh sửa xâu [11] [8] [14].

×