Tải bản đầy đủ (.pdf) (21 trang)

Phát hiện kế thừa văn bản đa ngôn ngữ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (653.99 KB, 21 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ DUNG

PHÁT HIỆN KẾ THỪA VĂN BẢN ĐA NGÔN NGỮ

LUẬN VĂN THẠC SỸ

HÀ NỘI – 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ DUNG

PHÁT HIỆN KẾ THỪA VĂN BẢN ĐA NGÔN NGỮ

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SỸ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HÀ QUANG THỤY

HÀ NỘI – 2015


i



Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS Hà
Quang Thụy đã tận tình hướng dẫn và chỉ bảo tôi trong suốt quá trình nghiên cứu khoa
học và thực hiện luận văn này.
Tôi xin chân thành cảm ơn các thầy, cô trong trường đại học Công Nghệ - đại học
Quốc gia Hà Nội đã tạo mọi điều kiện thuận lợi cho tôi học tập và nghiên cứu.
Tôi cũng xin gửi lời cảm ơn đến các anh chị, các bạn trong phòng thí nghiệm KTLab đã hỗ trợ tôi rất nhiều về kiến thức chuyên môn trong quá trình thực hiện luận văn.
Cuối cùng, tôi xin được gửi lời cám ơn vô hạn tới gia đình và bạn bè, những người
đã luôn bên cạnh, giúp và động viên tôi trong quá trình học tập cũng như trong suốt quá
trình thực hiện luận văn này.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày

tháng

năm 2015

Học viên

Nguyễn Thị Dung


ii

Lời cam đoan
Tôi xin cam đoan phương pháp phát hiện kế thừa văn bản đa ngôn ngữ cùng với
thực nghiệm được trình bày trong luận văn này là do tôi thực hiện dưới sự hướng dẫn của
PGS.TS Hà Quang Thụy.
Tất cả các tài liệu tham khảo từ các nghiên cứu liên quan đều có nguồn gốc rõ

ràng trong danh mục tài liệu tham khảo của luận văn. Trong luận văn, không có việc sao
chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo.


iii

MỤC LỤC
Lời cảm ơn .......................................................................................................................... i
Lời cam đoan ..................................................................................................................... ii
MỤC LỤC ......................................................................................................................... iii
Danh sách các bảng ........................................................................................................... v
Danh sách các hình vẽ ...................................................................................................... vi
Danh sách các từ viết tắt ................................................................................................. vii
Lời mở đầu ......................................................................................................................... 1
Chương 1:

Giới thiệu bài toán kế thừa văn bản đa ngôn ngữ ................................. 3

1.1
Khái quát về kế thừa văn bản .............................................................................. 3
1.1.1 Khái niệm kế thừa văn bản.............................................................................. 3
1.1.2 Phát biểu bài toán phát hiện kế thừa văn bản .................................................. 4
1.2
Kế thừa văn bản đa ngôn ngữ ............................................................................. 5
1.2.1 Động lực và mục tiêu ...................................................................................... 5
1.2.2 Khái niệm kế thừa văn bản đa ngôn ngữ ........................................................ 5
1.3
1.4

Các ứng dụng của bài toán phát hiện kế thừa văn bản đa ngôn ngữ ................... 7

Tóm tắt chương một ............................................................................................ 8

Chương 2:

Các hướng tiếp cận bài toán RTE và CLTE .......................................... 9

2.1
Hướng tiếp cận cho bài toán RTE ....................................................................... 9
2.1.1 Giới thiệu chung về hướng tiếp cận sử dụng học máy ................................... 9
2.1.2 Một số hệ thống phát hiện kế thừa văn bản có sử dụng học máy .......... Error!
Bookmark not defined.
2.2
Hướng tiếp cận cho bài toán CLTE ...................Error! Bookmark not defined.
2.2.1 Hướng tiếp cận cơ bản ...................................Error! Bookmark not defined.
2.2.2 Hướng tiếp cận nâng cao................................Error! Bookmark not defined.
2.3
Tiếp cận của luận văn với phát hiện kế thừa văn bản đa ngôn ngữ ........... Error!
Bookmark not defined.
2.4
Tóm tắt chương hai ............................................Error! Bookmark not defined.
Chương 3:
defined.

Mô hình phát hiện kế thừa văn bản đa ngôn ngữ ...Error! Bookmark not


iv
3.1

Giới thiệu............................................................Error! Bookmark not defined.


3.2

Mô hình đề xuất .................................................Error! Bookmark not defined.

3.2.1 Thành phần dịch máy .....................................Error! Bookmark not defined.
3.2.2 Thành phần phát hiện kế thừa ........................Error! Bookmark not defined.
3.3
Tóm tắt chương ba .............................................Error! Bookmark not defined.
Chương 4:
4.1

Thực nghiệm và đánh giá ............................Error! Bookmark not defined.

Môi trường thực nghiệm. ...................................Error! Bookmark not defined.

4.1.1

Cấu hình phần cứng. ......................................Error! Bookmark not defined.

4.1.2

Công cụ phần mềm. .......................................Error! Bookmark not defined.

4.2
Dữ liệu thực nghiệm...........................................Error! Bookmark not defined.
4.3
Thực nghiệm ......................................................Error! Bookmark not defined.
4.4
Đánh giá hệ thống ..............................................Error! Bookmark not defined.

4.4.1 Kết quả thực nghiệm. .....................................Error! Bookmark not defined.
4.4.2 Đánh giá hệ thống ..........................................Error! Bookmark not defined.
4.5
Tóm tắt chương bốn ...........................................Error! Bookmark not defined.
Kết luận và định hướng nghiên cứu tiếp theo ...................Error! Bookmark not defined.
Tài liệu tham khảo. ......................................................................................................... 11


v

Danh sách các bảng
Bảng 1: Một số ví dụ về kế thừa văn bản............................................................................ 4
Bảng 2: Một số ví dụ về kế thừa văn bản đa ngôn ngữ ....................................................... 6
Bảng 3: Các đặc trưng được sử dụng cho phân lớp cây quyết định [1] .. Error! Bookmark
not defined.
Bảng 4: Ý nghĩa của các tham số .......................................Error! Bookmark not defined.
Bảng 5: Giá trị độ đo của các tập dữ liệu khi sử dụng .......Error! Bookmark not defined.


vi

Danh sách các hình vẽ
Hình 1: Mô hình phát hiện kế thừa văn bản dựa trên học máy SVM của Julio Javier
Castillo [6] ..................................................................Error! Bookmark not defined.
Hình 2: Hệ thống CLTE theo hướng tiếp cận cơ bản ........Error! Bookmark not defined.
Hình 3: Mô hình đề xuất của Fandong Meng cộng sự [2] .Error! Bookmark not defined.
Hình 4: Hệ thống CLTE theo hướng tiếp cận nâng cao .....Error! Bookmark not defined.
Hình 5: Sử dụng một bảng cụm từ để ánh xạ các cụm từ giữa văn bản và giả thuyết
....................................................................................Error! Bookmark not defined.
Hình 6: Sử dụng bảng cụm từ kết hợp với hai bảng diễn giải để ánh xạ các cụm từ giữa

văn bản và giả thuyết .................................................Error! Bookmark not defined.
Hình 7: Hệ Thống CLTE dựa trên đối sánh từ...................Error! Bookmark not defined.
Hình 8: Hệ thống phát hiện kế thừa văn bản đa ngôn ngữ Việt-Anh ..... Error! Bookmark
not defined.
Hình 9: Thành phần dịch máy ............................................Error! Bookmark not defined.
Hình 10: Thành phần phát hiện kế thừa văn bản ...............Error! Bookmark not defined.
Hình 11: Dữ liệu thực nghiệm cho quá trình đào tạo (training) ...... Error! Bookmark not
defined.
Hình 12: Biểu đồ thể hiện kết quả trung bình của các thực nghiệm Error! Bookmark not
defined.


vii

Danh sách các từ viết tắt
STT
1

Tên viết tắt
TE

Cụm từ tiếng Anh
Textual Entailment

2

RTE

Recognizing Textual Entailment


3

NLP

Natural Language Processing

4

QA

Question Answering System

5

IR

Information Retrieval

6

MT

Machine Translation

7

IE

Information Extraction


8

SVMs

Support Vector Machines

9

CLTE

Cross Lingual Textual Entailment


1

Lời mở đầu
Trong những năm vừa qua, lĩnh vực xử lý ngôn ngữ tự nhiên đã thu hút được sự
quan tâm đặc biệt của các nhà nghiên cứu và đạt được nhiều thành tựu đáng kể. Trong đó,
thành công của nhiều ứng dụng ngôn ngữ tự nhiên tự động là do việc hiểu chính xác ngữ
nghĩa của văn bản dựa theo cấu trúc cú pháp bằng cách sử dụng máy tính. Điều này đã trở
thành thách thức với những văn bản cùng diễn đạt một ý nghĩa nhưng sử dụng các cấu
trúc cú pháp và các từ ngữ khác nhau. Các ứng dụng ngôn ngữ tự nhiên tự động đã tận
dụng các thành phần được làm mịn để xử lý hiệu quả hơn các văn bản có cấu trúc phức
tạp. Một trong những bài toán của xử lý văn bản là việc suy luận ngữ nghĩa của một đoạn
văn bản từ một đoạn trích trong văn bản tiềm năng khác. Bài toán này đã trở thành một
hướng nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên và được biết đến như bài toán
phát hiện kế thừa văn bản (Recognizing Textual Entailment: RTE). Bài toán phát hiện kế
thừa văn bản lần đầu tiên được Dagan và Glickman đề xuất [3]. Cho hai đoạn văn bản,
bài toán phát hiện kế thừa văn bản có mục đích xác định xem nghĩa của văn bản này có
thể được suy luận (kế thừa) từ văn bản còn lại hay không.

Từ nhu cầu thực tế của các lĩnh vực khác trong xử lý ngôn ngữ tự nhiên, bài toán
phát hiện kế thừa văn bản đã nhận được sự quan tâm của các nhà khoa học và các nhóm
nghiên cứu trên thế giới. Từ năm 2004 đến nay, hội nghị RTE đã tổ chức thường niên
hàng năm nhằm mục đích so sánh và tổng hợp lại các phương pháp phát hiện kế thừa văn
bản tốt. Hội nghị RTE tiến hành trong khuôn khổ các hội nghị thường niên Hiểu tài liệu
(DUC: Document Understanding Conference, 2001-2007) và Phân tích xử lý văn bản
(TAC: Text Analysis Conference, từ năm 2008 tới nay).
Gần đây, một trong nhưng thách thức của bài toán phát hiện kế thừa văn bản là phát
hiện mối quan hệ kế thừa cho những văn bản được viết bằng các ngôn ngữ khác nhau:
Anh, Tây Ban Nha, Pháp,…Chính vì thế, bài toán phát hiện kế thừa văn bản đa ngôn ngữ
đã được hình thành (Cross-lingual Textual Entailment - CLTE). Bài toán CLTE lần đầu
tiên được Mehdad đề xuất [14] như một sự mở rộng của kế thừa văn bản. Bài toán CLTE
được sử dụng trong đồng bộ hóa nội dung văn bản được tổ chức trong khuôn khổ của hội
nghị Đánh giá ngữ nghĩa SemEval-20121 (Semantic Evaluation).
Phát hiện kế thừa văn bản nói chung và phát hiện kế thừa văn bản đa ngôn ngữ nói
riêng là bài toán mới ở Việt Nam. Hiện tại, có rất ít nhóm nghiên cứu ở Việt Nam tìm
hiểu và nghiên cứu về bài toán này. Mặc dù có những phương pháp phát hiện kế thừa
văn bản mang lại kết quả khả quan trong tiếng Anh nhưng tính hiệu quả của chúng trong
1

/>

2
tiếng Việt còn cần được kiểm nghiệm. Vì thế, bài toán phát hiện kế thừa văn bản đối với
văn bản tiếng Việt hiện đang là một bài toán khó. Bởi vì những lý do này, luận văn sẽ
giới thiệu khái quát về bài phát hiện kế thừa văn bản đơn ngôn ngữ và đa ngôn ngữ, sau
đó, đề xuất một mô hình phát hiện kế thừa văn bản đa ngôn ngữ trên các cặp câu văn bản
Việt-Anh, cài đặt mô hình và tiến hành thực nghiệm kiểm định mô hình. Luận văn được
chia thành bốn chương với các nội dung:
Chương 1: Giới thiệu khái quát về bài toán phát hiện kế thừa văn bản đơn ngôn

ngữ và đa ngôn ngữ. Luận văn giới thiệu khái niệm kế thừa văn bản, phát biểu bài toán
phát hiện kế thừa văn bản, sau đó, luận văn giới thiệu về bài toán phát hiện kế thừa văn
bản đa ngôn ngữ. Ở cuối chương, luận văn trình bày các ứng dụng thực tiễn của phát hiện
kế thừa văn bản.
Chương 2: Trình bày hướng tiếp cận giải quyết bài toán phát hiện kế thừa văn bản
đa ngôn ngữ. Đầu tiên, luận văn trình bày các phương pháp phát hiện kế thừa văn bản đa
ngôn ngữ. Sau đó, luận văn đánh giá và lựa chọn một hướng tiếp cận thích hợp nhất để
đưa ra mô hình đề xuất.
Chương 3: Đề xuất ra mô hình phát hiện kế thừa văn bản đa ngôn ngữ trên các cặp
câu văn bản Việt-Anh. Đầu tiên, luận văn đề xuất ra mô hình phát hiện kế thừa văn bản
đa ngôn ngữ bằng việc kết hợp giữa phương pháp dịch máy và mô hình học máy SVM,
sau đó luận văn sẽ trình bày chi tiết từng bước của mô hình.
Chương 4: Trình bày quá trình thực nghiệm, tiến hành cài đặt và thử nghiệm trên
mô hình đề xuất với dữ liệu thực nghiệm là tập dữ liệu chuẩn trong hội nghị RTE-3 đã
được dịch ra tiếng Việt. Đồng thời, luận văn đưa ra kết quả đạt được và nhận xét.
Kết luận và định hướng phát triển tiếp theo: Tóm lược kết quả đã đạt được của
luận văn, chỉ ra những khuyết điểm cần khắc phục và đưa ra định hướng nghiên cứu tiếp
theo.


3

Chương 1: Giới thiệu bài toán kế thừa văn bản đa ngôn ngữ
1.1 Khái quát về kế thừa văn bản
Trong cuộc sống hằng ngày, bằng việc sử dụng ngôn ngữ tự nhiên, chúng ta có thể
diễn đạt một vấn đề theo nhiều cách khác nhau với các từ ngữ và cấu trúc cú pháp khác
nhau. Vấn đề biến đổi này trong biểu diễn ngữ nghĩa có thể được xem như là vấn đề nhập
nhằng trong ngôn ngữ tự nhiên. Các ứng dụng trong xử lý ngôn ngữ tự nhiên như: hệ hỏi
đáp (QA), trích xuất thông tin (IE), tóm tắt văn bản (Summarization), và đánh giá dịch
máy MT) cần một mô hình cho hiện tượng biến đổi này để phát hiện xem một ý nghĩa cụ

thể nào đó có được suy luận ra từ các biến thể văn bản khác nhau hay không.
Vào năm 2004, phát hiện kế thừa văn bản (RTE) đã được đề xuất như một bài toán
tổng quát để thu thập các nhu cầu liên quan đến suy luận ngữ nghĩa trên nhiều ứng dụng
xử lý ngôn ngữ tự nhiên. Từ năm 2004 đến nay, hội nghị RTE đã tổ chức thường niên
hàng năm (RTE-1 đến RTE-8) nhằm mục đích đánh giá, so sánh các phương pháp tiếp
cận của các nhà nghiên cứu. Ba hội nghị RTE đầu tiên (RTE-1 năm 2005, RTE-2 năm
2006 và RTE-3 năm 2007) được tổ chức tại chuỗi PASCAL (Pattern Analysis, Statistical
Modeling and Computational Learning). Các hội nghị RTE còn lại (RTE-4 năm 2008,
RTE-5 năm 2009, RTE-6 năm 2010, RTE-7 năm 2011 và RTE-8 năm 2012) được tổ
chức thuộc hội nghị Phân tích xử lý văn bản (TAC: Text Analysis Conference) của NIST
(National Institute of Standards and Technology). Hội nghị Phân tích và xử lý văn bản
TAC được tổ chức để khuyến khích nghiên cứu xử lý ngôn ngữ tự nhiên và các ứng dụng
liên quan bằng cách cung cấp tập các dữ liệu kiểm thử lớn, các thủ tục đánh giá và một
diễn đàn để các nhóm nghiên cứu chia sẻ kết quả của họ.
1.1.1 Khái niệm kế thừa văn bản
Hiện nay, khái niệm kế thừa văn bản có thể định nghĩa theo nhiều cách khác nhau.
Theo Glickman và Dagan [3], kế thừa văn bản là một mối quan hệ giữa một văn bản nhất
quán T với một thể hiện ngôn ngữ của nó – giả thuyết H (H là một hệ quả của T), ký hiệu
là T → H nếu như ý nghĩa của H, đặt vào ngữ cảnh của T thì có thể suy ra ý nghĩa của H.
Một cách chung nhất thì văn bản T được gọi là kế thừa giả thuyết H nếu như sự thật
về H có thể suy luận được từ T. Điều này có nghĩa là T bao hàm ý nghĩa của H khi đọc cả
hai. Do vậy, ta có thể nói T kế thừa H khi một số biểu diễn của H có thể trùng khớp (qua
một số bước chuyển đổi bảo toàn ngữ nghĩa) với một số (hoặc một phần của) các biểu
diễn của T, ở một cấp độ chi tiết và trừu tượng nhất định.
Dưới đây là một số ví dụ minh họa để giải thích về khái niệm kế thừa văn bản.


4
Bảng 1: Một số ví dụ về kế thừa văn bản
STT


Văn bản

Giả thuyết

Kế thừa

1

Bountiful đã tới sau khi chiến tranh Bountiful đã tới San Francisco
kết thúc, cập vịnh San Francisco vào vào tháng 8 năm 1945.
ngày 21 tháng 8 năm 1945. Bountiful
sau đó được chỉ định làm một tàu
bệnh viện ở Yokosuka, khởi hành từ
San Francisco vào ngày 1 tháng 11
năm 1945.

Yes

2

Tập đoàn Boeing đặt tại Chicago đã Trụ sở của tập đoàn Boeing
hủy bỏ ba đơn hàng vào năm 2006 nằm ở Canada.
mà Air Canada đã đặt.

No

3

Dưới tiêu đề "Greed instead of Hai quỹ đầu tư của Anh và

quality", Die Tageszeitung của Đức Mỹ đã thâu tóm Berliner
nói chẳng có điều gì tốt đẹp việc thâu Verlag.
tóm nhà xuất bản Berliner Verlag của
hai quỹ đầu tư của Anh và Mỹ.

Yes

4

Scott Island đã được thuyền trưởng Thuyền trưởng Scott đã đặt
William Colbeck người chỉ huy của chân tới đảo Scott Island vào
Morning, con tàu cứu viện cho cuộc tháng 12 năm 1902.
viễn chinh của thuyền trưởng Robert
F. Scott, tìm ra vào tháng 12 năm
1902.

No

5

Chiếc xe hơi đã va vào hòm thư Clark là một người họ hàng
thuộc về James Clark, 68 tuổi, một của Jones.
người quen của gia đình James
Jones.

No

1.1.2 Phát biểu bài toán phát hiện kế thừa văn bản
Phát hiện kế thừa văn bản là bài toán phát hiện mối quan hệ kế thừa giữa văn bản T
và giả thuyết H. Bài toán được phát biểu như sau:

 Đầu vào: Tập các cặp văn bản – giả thuyết <T, H> thuộc cùng một chủ đề.


5
 Đầu ra: Tập các cặp văn bản – giả thuyết đã được gán nhãn kế thừa “Yes” / “No”.
Nhãn “Yes” tương ứng với trường hợp văn bản T kế thừa giả thuyết H, nhãn “No”
tương ứng với trường hợp văn bản T không kế thừa giả thuyết H.

1.2 Kế thừa văn bản đa ngôn ngữ
1.2.1 Động lực và mục tiêu
Sự bùng nổ thông tin được viết bằng các ngôn ngữ khác nhau trên web đã giúp cho
người sử dụng có cơ hội tiếp cận và truyền tải thông tin về một chủ đề bằng ngôn ngữ của
họ. Sự phát triển mạnh mẽ của nội dung thông tin được viết bằng các ngôn ngữ khác
nhau cho thấy nhu cầu cao của người dùng về các ứng dụng xử lý ngôn ngữ tự nhiên đa
ngôn ngữ. Theo như thống kế vể top mười ngôn ngữ được sử dụng trên mạng Internet
năm 2013 thì tỉ lệ thông tin được người dùng viết bằng các ngôn ngữ Anh, Trung Quốc,
Tây Ban Nha, và Bồ Đầu Nha trên web tương ứng là 800.6, 649.4, 222.4, 121.8 (theo đơn
vị nghìn người sử dụng)2. Điều đó cho thấy được sự cần thiết của công nghệ đa ngôn ngữ
để giúp người dùng tiếp cận thông tin và giao tiếp với nhau trên Internet.
Phát hiện kế thừa văn bản đơn ngôn ngữ đã mang lại nhiều lợi ích cho các ứng dụng
xử lý ngôn ngữ tự nhiên. Tuy nhiên, các ứng dụng xử lý ngôn ngữ tự nhiên đa ngôn ngữ
không thể đạt được mục tiêu như mong muốn khi bị khuyết thiếu thành phần phát hiện kế
thừa văn bản đa ngôn ngữ. Chính vì thế, bài toán phát hiện kế thừa văn bản đa ngôn ngữ
đã được hình thành.
Từ những nhu cầu thực tế như đã đề cập ở trên, luận văn sẽ tìm hiểu về bài toán
phát hiện kế thừa văn bản đa ngôn ngữ, các hướng tiếp cận để giải quyết bài toán và đề
xuất mô hình phát hiện kế thừa văn bản đa ngôn ngữ trên các cặp câu văn bản Việt - Anh.
1.2.2 Khái niệm kế thừa văn bản đa ngôn ngữ
Kế thừa văn bản đa ngôn ngữ (Cross-lingual Textual Entailment - CLTE) lần đầu
tiên được Mehdad [14] đề xuất như là sự mở rộng của kế thừa văn bản. Kế thừa văn bản

đa ngôn ngữ được định nghĩa là mối quan hệ kế thừa giữa hai văn bản được viết bằng các
ngôn ngữ khác nhau. Đưa ra một cặp văn bản T1 và T2 được viết bằng hai ngôn ngữ khác
nhau, bài toán phát hiện kế thừa văn bản đa ngôn ngữ là bài toán xác định xem nghĩa của
văn bản T2 có được suy luận ra từ nghĩa của văn bản T1 hay không và ngược lại.
Theo Mehdad [14], có bốn trường hợp xảy ra trong bài toán phát hiện kế thừa văn
bản đa ngôn ngữ với cặp văn bản T1-T2:
 Kế thừa hai chiều - bidirectional (T1→T2 và T2→T1): Hai văn bản kế thừa
nhau, có nghĩa là hai văn bản tương đương nhau về mặt nội dung.
2

/>

6
 Kế thừa theo chiều xuôi - forward (T1→T2 và T2!→T1): T1 kế thừa T2 nhưng
T2 không kế thừa T1.
 Kế thừa theo chiều ngược - backward (T1!→ T2 và T2→T1): T2 kế thừa T1
nhưng T1 không kế thừa T2.
 Không kế thừa - no entailment (T1!→ T2 và T2!→T1): Không có mối quan hệ
kế thừa giữa T1 và T2.
Dưới đây là một số ví dụ minh họa để giải thích về khái niệm kế thừa văn bản đa
ngôn ngữ với văn bản thứ nhất được viết bằng tiếng Việt, văn bản thứ hai được viết bằng
tiếng Anh:
Bảng 2: Một số ví dụ về kế thừa văn bản đa ngôn ngữ
STT
1

Văn bản 1
Bountiful đã tới San Francisco
vào tháng 8 năm 1945.


Văn bản 2

Kế thừa

Bountiful arrived after war's
end,
sailing
into
San
Francisco Bay 21 August
1945. Bountiful was then
assigned as hospital ship at
Yokosuka, Japan, departing
San Francisco 1 November
1945.

Backward

2

Tập đoàn Boeing tại Chicago đã Boeing's headquarters is in
hủy bỏ ba đơn đặt hàng vào năm Canada.
2006 của Air Canada.

No
entailment

3

Dưới tiêu đề "Greed instead of British and US-based

quality", Die Tageszeitung của investment funds acquire
Đức nói chẳng có điều gì tốt đẹp Berliner Verlag.
việc thâu tóm nhà xuất bản
Berliner Verlag của hai quỹ đầu
tư của Anh và Mỹ.

4

Scott Island đã được thuyền Scott Island was discovered
trưởng William Colbeck, người and landed upon in December
chỉ huy của Morning, con tàu 1902 by Captain William

Forward

Bidirectional


7
cứu viện cho cuộc viễn chinh Colbeck commander of the
của thuyền trưởng Robert F. Morning, relief ship for Capt.
Scott, tìm ra vào tháng 12 năm Robert F. Scott's expedition.
1902.
5

Chiếc xe hơi đã va vào hòm thư Clark is a relative of Jones'.
của James Clark, 68 tuổi, một
người quen của gia đình James
Jones.

No

entailment

Theo các ví dụ trên:
 Cặp văn bản thứ nhất có mối quan hệ kế thừa là “backward” vì văn bản thứ nhất
được suy luận từ văn bản thứ hai nhưng văn bản thứ hai lại không được suy luận
từ văn bản thứ nhất.
 Cặp văn bản thứ hai và thứ năm có mối quan hệ là “no entailment” vì văn bản
thứ nhất không được suy luận từ văn bản thứ hai và ngược lại.
 Cặp văn bản thứ ba có mối quan hệ kế thừa là “forward” vì văn bản thứ hai
được suy luận từ văn bản thứ nhất nhưng văn bản thứ nhất lại không được suy
luận từ văn bản thứ hai.
 Cặp văn bản thứ tư có mối quan hệ kế thừa là “bidirectional” vì văn bản thứ
nhất được suy luận từ văn bản thứ hai và ngược lại.

1.3 Các ứng dụng của bài toán phát hiện kế thừa văn bản đa ngôn ngữ
Kế thừa văn bản giúp việc hiểu ngôn ngữ tự nhiên được tốt hơn. Ngoài ra, phát hiện
kế thừa văn bản được ứng dụng rộng rãi trong rất nhiều lĩnh vực của xử lý ngôn ngữ tự
nhiên như: Hệ thống hỏi đáp, trích chọn thông tin, tự động tóm tắt văn bản, đánh giá dịch
máy, so sánh tài liệu (Comparable Documents), đọc hiểu (Reading Comprehension),
đồng bộ hóa nội dung tự động (Automatic Content Synchronization).
Trong hệ thống hỏi đáp, phát hiện kế thừa văn bản được sử dụng để xác định những
câu trả lời có quan hệ kế thừa và đưa ra gợi ý về câu trả lời được mong muốn từ câu hỏi
của người dùng. Ví dụ, với câu hỏi được đặt ra: “Ai là người vẽ bức tranh Mona Lisa?”
thì đoạn văn bản “Bức tranh nàng Mona Lisa của Leonardo Da Vinci đã tạo cảm hứng
cho rất nhiều nhà phân tích, từ nghệ thuật tới khoa học, từ phân tích quang học tới phân
tích tâm lý học.” hay đoạn văn bản “Da Vinci bắt đầu vẽ Mona Lisa vào khoảng năm
1503, trong Thời Phục hưng Italia và theo Vasari.” kế thừa câu trả lời mong muốn là
“Leonardo Da Vinci là người vẽ bức tranh Mona Lisa.”.



8
Trong đánh giá dịch máy (Machine Translation), một bản dịch tự động được gọi là
chính xác khi nghĩa của nó tương đương với bản dịch theo chuẩn vàng, do đó cả hai bản
dịch nên kế thừa nhau.Vì thế, kế thừa văn bản dùng để đánh giá sự tương đương về mặt
ngữ nghĩa của các bản dịch.
Trong trích chọn thông tin (Information Extraction), các thông tin được trích chọn
nên kế thừa văn bản.
Trong tóm tắt văn bản, kế thừa văn bản được sử dụng để xác định hoặc rút gọn
lượng thông tin kế thừa trong văn bản cần tóm tắt, từ đó so sánh với văn bản khác. Điều
này được sử dụng để tránh dư thừa thông tin khi trong một văn bản có những đoạn là kế
thừa tri thức của nhau. Áp dụng điều này, tóm tắt văn bản sử dụng quan hệ kế thừa để bỏ
qua những thông tin không cần thiết giúp rút ngắn độ dài văn bản mà vẫn giữ được
những thông tin quan trọng.
Đặc biệt, chúng ta có thể giải quyết bài toán đồng bộ hóa nội dung cho hai văn bản
được viết bằng các ngôn ngữ khác nhau Mehdad [13] bằng bài toán phát hiện kế thừa văn
bản đa ngôn ngữ.

1.4 Tóm tắt chương một
Trong chương một, luận văn đã trình bày một số nội dung liên quan đến kế thừa văn
bản như khái niệm phát hiện kế thừa văn bản, khái niệm phát hiện kế thừa văn bản đa
ngôn ngữ và phát biểu bài toán, cuối cùng, luận văn trình bày về các ứng dụng của phát
hiện kế thừa văn bản trong lĩnh vực xử lý ngôn ngữ tự nhiên.
Chương tiếp theo sẽ trình bày chi tiết các hướng tiếp cận cho bài toán kế thừa văn
bản đa ngôn ngữ.


9

Chương 2: Các hướng tiếp cận bài toán RTE và CLTE
2.1 Hướng tiếp cận cho bài toán RTE

Từ năm 2005 tới nay, hội nghị khoa học quốc tế thường niên về phát hiện kế thừa
văn bản RTE (nhánh RTE của hội nghị phân tích văn bản: Text Analysis Conference) đã
tập hợp được nhiều công trình nghiên cứu về RTE. Trải qua tám kỳ hội nghị với hàng
trăm bài báo và nhiều công trình nghiên cứu được công bố, nhìn chung hướng tiếp cận
mà các tác giả sử dụng chủ yếu như: hướng tiếp cận sử dụng học máy với việc lựa chọn
các đặc trưng, hướng tiếp cận dựa trên đại diện ở các mức độ khác nhau của xử lý ngôn
ngữ tự nhiên (cú pháp, ngữ nghĩa), hướng tiếp cận dựa trên suy luận logic. Hầu hết các
hướng tiếp cận trên đều có thể dựa trên các cơ sở tri thức bên ngoài như WordNet3 (một
cơ sở dữ liệu từ vựng cho tiếng Anh. WordNet cung cấp các định nghĩa tổng quát liên
quan đến từ vựng, hữu ích trong việc xử lý ngôn ngữ tự nhiên). Một cơ sở dữ liệu từ vựng
tiếng Anh khác mà các tác giả cũng thường xuyên sử dụng là FrameNet4. Nhìn chung,
mỗi hướng tiếp cận đều có những ưu điểm riêng nhưng thông thường chỉ giải quyết được
một khía cạnh của bài toán, khó có thể đưa ra một cách tiếp cận nào rõ ràng giải quyết
được tất cả các vấn đề trong kế thừa văn bản.
Trên cơ sở tìm hiểu các phương pháp tiếp cận, Rui Wang [12] nhận xét rằng việc áp
dụng học máy vào bài toán phát hiện kế thừa văn bản có rất nhiều ưu điểm như: tránh
việc phải xác định ngưỡng kế thừa, có khả năng làm việc với một số lượng lớn các đặc
trưng, cho phép tích hợp các thông tin từ nhiều mức như cú pháp, ngữ nghĩa hoặc sự kế
hợp giữa chúng.
2.1.1 Giới thiệu chung về hướng tiếp cận sử dụng học máy
Theo Rui Wang [12], có hai bước cần thực hiện khi áp dụng phương pháp học máy.
Bước đầu tiên là tiến hành trích xuất đặc trưng từ cặp văn bản – giả thuyết đầu vào. Bước
tiếp theo là việc sử dụng các bộ phân lớp với các đặc trưng vừa được trích xuất. Các bộ
phân lớp thường được sử dụng bao gồm: bộ phân lớp cây quyết định (Decision TreesDTs), máy vector hỗ trợ (Support Vector Machines-SVMs), Entropy cực đại (Maximum
Entropy-ME), Naïve Bayes (NB). Kết quả phân lớp kế thừa không chỉ phụ thuộc vào bộ
phân lớp sử dụng, các đặc trưng được lựa chọn mà nó còn phụ thuộc vào cả dữ liệu huấn
luyện. Việc học dữ liệu huấn luyện có thể chia thành hai loại: học dựa trên các đặc trưng
intra-pair và học dựa trên các đặc trưng cross-pair. Phát hiện kế thừa văn bản là một bài
toán kiểm tra sự tồn tại của mối quan hệ kế thừa giữa hai đoạn văn bản (văn bản T và giả
thuyết H). Hầu hết các đặc trưng được trích xuất dựa trên mối quan hệ giữa T và H (các

3

/> />
4


10
đặc trưng intra-pair), tuy nhiên, cũng có một số đặc trưng khác được tính dựa trên các đặc
trưng giữa các cặp T-H với nhau (đặc trưng cross-pair).
2.1.1.1 Các đặc trưng Intra-pair (In-pair features)
Các đặc trưng Intra-pair là các đặc trưng được trích xuất từ việc so sánh cặp câu T
và H. Nếu chúng ta coi các câu như một nhóm các token (đơn vị từ vựng) thì sự trùng lặp
từ vựng sẽ là một chỉ số tốt. Ngoài ra, các đặc trưng có thể được trích xuất dựa từ cấu trúc
cú pháp hoặc các đại diện ngữ nghĩa hoặc thậm chí cả các hình thức logic. Nếu chúng ta
coi các câu như các túi từ (bag of words) thì các đặc trưng được xem xét bao gồm: số
lượng các từ trùng lặp giữa T và H hoặc tỉ lệ của số lượng từ trùng lặp với tổng số các từ
trong T hoặc H.
J. Bos và K. Market [5] kết hợp phương pháp dựa trên trùng lặp từ và phương pháp
dựa trên suy luận logic. Một số tác giả sử dụng các đặc trưng phong phú ở các cấp độ xử
lý đa dạng khác nhau. Sự kết hợp giữa các từ trong T và H được phát hiện và giúp cho
việc phân lớp trong giai đoạn tiếp theo.
A. Newman và cộng sự [1] đề xuất ra hai hệ thống, hệ thống đầu tiên sử dụng một
số độ đo tương tự, bao gồm ROUGE (Recall-Oriented Understudy for Gisting
Evaluation: một gói phần mềm với một tập các độ đo được sử dụng cho việc đánh giá
tóm tắt tự động và phần mềm dịch máy trong xử lý ngôn ngữ tự nhiên), độ đo Cosin, và
độ đo tương đồng cho danh từ dựa trên WordNet. Với các đặc trưng dựa trên động từ, các
tác giả sử dụng mạng ngữ nghĩa VerbOcean (một tài nguyên từ vựng cung cấp những mối
quan hệ ngữ nghĩa giữa các động từ). Trên thực tế, hầu hết các nhóm sử dụng các đặc
trưng từ vựng đều áp dụng các độ tương đồng giữa các từ dựa vào từ điển WordNet hoặc
các nguồn tài nguyên từ vựng khác.

Theo Rui Wang [12] thì R. Adam sử dụng khoảng cách chỉnh sửa từ vựng như là
một đặc trưng. Về cơ bản, tác giả đếm số các token không được ánh xạ sau khi so sánh
cặp <T, H> và sau đó mở rộng độ dài của H bằng toán tử chèn từ phép chỉnh sửa. T kế
thừa H nếu có một chuỗi các phép chuyển đổi được áp dụng để biến T thành H với tổng
thể chi phí ở dưới ngưỡng cho phép. Sự khác biệt ở đây là các tác giả tính toán khoảng
cách chỉnh sửa dựa trên cây phụ thuộc, bao gồm các phép toán: chèn, xóa và thay thế.
Các chi phí để xóa và thay thế là 0 nếu hai từ đó là tương đồng với nhau dựa theo từ điển
WordNet và là khác 0 trong các trường hợp khác.
Thêm nữa, Rui Wang [12] cũng chỉ ra rằng F. Schilder và B. T. McInnes sử dụng
khoảng cách chỉnh sửa cây như là một đặc trưng và áp dụng các độ đo tương tự cây xấp
xỉ khác. Đối với bài toán RTE, văn bản T thường dài hơn giả thuyết H, trong đó văn bản
T thường chứa các thông tin nhiễu mà không liên quan đến việc phát hiện mối quan hệ kế
thừa (đây chính là nguyên nhân vì sao mà phép xóa có chi phí là 0).


11

Tài liệu tham khảo.
[1]

Eamonn Newman, NicolaStokes, John Dunnion, and JoeCarthy, “Textual
Entailment Recognition Using aLinguistically–Motivated Decision Tree
Classifier”, Springer Berlin Heidelberg, 2006: 372-384.

[2]

Fandong Meng, Hao Xiong and Qun Liu, “A Translation based Method for Crosslingual Textual Entailment”, In Proceedings of the 6th International Workshop on
Semantic Evaluation (SemEval 2012).

[3]


Ido Dagan and Oren Glickman, “Generic Applied Modeling of Language
Variability”, In Proceedings of PASCAL Workshop on Learning Methods for Text
Understanding and Mining, Grenoble, France, 2004.

[4]

Jiang Zhao, Man Lan, Zheng-Yu Niu, “ECNUCS: Recognizing Cross-lingual
Textual Entailment Using Multiple Text Similarity and Text Difference Measures”,
In Proceedings of the Seventh International Workshop on Semantic Evaluation
(SemEval 2013).

[5]

Johan Bos and Katja Market, “When logical inference helps determining textual
entailment (and when it doesn’t)”, In Proceedings of Second PASCAL
Chanllenges Workshop on Recognising Textual Entailment, Venice, Italy, 2006.

[6]

Julio Javier Castillo, “An approach to Recognizing Textual Entailment and TE
SearchTask using SVM”, Procesamiento del Lenguaje Natural, Nº44, marzo de
2010: 139-145, />
[7]

Katharina W¨aschle and Sascha Fendrich, “HDU: Cross-lingual Textual
Entailment with SMT Features”, In Proceedings of the 6th International Workshop
on Semantic Evaluation (SemEval 2012), pages 467–471, Montreal, Canada.

[8]


Marco Turchi and Matteo Negri, “Word Alignment Features for Cross-lingual
Textual Entailment”, In Proceedings of the Seventh International Workshop on
Semantic Evaluation (SemEval 2013).

[9]

Minh Quang Nhat Pham, Minh Le Nguyen, Akira Shimazu, “Using Machine
Translation for Recognizing Textual Entailment in Vietnamese Language”,
In Computing and Communication Technologies, Research, Innovation, and
Vision for the Future (RIVF), 2012 IEEE RIVF International Conference}, pp.1-6,
March, 2012.


12
[10]

Minh-Tien Nguyen, Quang-Thuy Ha, Thi-Dung Nguyen, Tri-Thanh Nguyen and
Le-Minh Nguyen, “Recognizing Textual Entailment in Vietnamese Text: An
Experimental Study”, KSE 2015 (submitted).

[11]

Quang-Thuy Ha, Thi-Oanh Ha, Thi-Dung Nguyen, and Thuy-Linh Nguyen Thi,
“Refinding the Judgment Threshold to Improve Recognizing Textual Entailment
Using Simility”, ICCCI (2), 2012: 335-344.

[12]

Rui Wang, “Intrinsic and Extrinsic Approaches to Recognizing Textual

Entailment”, PhD Thesis, Saarland University, 2011.

[13]

Yashar Mehdad, “Cross-Lingual Textual Entailment and Applications”, PhD
Thesis, University of Trento, 2012.

[14]

Yashar Mehdad, Matteo Negri, Marcello Federico, “Towards Cross-Lingual
Textual Entailment”, In Proceedings of the 11th Annual Conference of the North
American Chapter of the Association for Computational Linguistics (NAACL
HLT 2010).

[15]

Yashar Mehdad, Matteo Negri, and Jose Guilherme C. de Souza, “FBK: crosslingual textual entailment without translation”. In Proceedings of the 6th
International Workshop on Semantic Evaluation (SemEval 2012), pages 701–705,
Montreal, Canada.

[16]

Yvette Graham, Bahar Salehi, Timothy Baldwin, “Cross-lingual Textual
Entailment with Word Alignment and String Similarity Features”, In Proceedings
of the Seventh International Workshop on Semantic Evaluation (SemEval 2013).

[17]

Ido Dagan, Dan Roth, Mark Sammons, and Fabio Massimo
Zanzotto, “Recognizing Textual Entailment: Models and Applications”, Morgan

& Claypool, 2013.



×