Tải bản đầy đủ (.pdf) (67 trang)

(Luận văn thạc sĩ) phát hiện kế thừa văn bản trên dữ liệu twitter

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.86 MB, 67 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

ĐẶNG NGỌC TÚ

PHÁT HIỆN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU
TWITTER

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI – 2019

Luan van


HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

ĐẶNG NGỌC TÚ

PHÁT HIỆN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU
TWITTER
CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN
MÃ SỐ:

8.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)


NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGÔ XUÂN BÁCH

HÀ NỘI – 2019

Luan van


i

LỜI CAM ĐOAN
Để có được kết quả học tập đến ngày hôm nay, em xin chân thành gửi đến
các thầy cô giáo trong khoa Công Nghệ Thông Tin – Học Viện Cơng Nghệ Bưu
Chính Viễn Thơng nói riêng và các thầy cơ giáo của trường Học Viện Cơng Nghệ
Bưu Chính Viễn Thơng nói chung lời cảm ơn chân thành nhất. Các thầy cô luôn
luôn nhiệt huyết truyền đạt cho em những kiến thức về bộ môn và những kinh
nghiệm trong thực tế.
Và đặc biệt để hoàn thành luận văn này, em xin chân thành cảm ơn thầy TS.
Ngô Xuân Bách đã tận tâm hướng dẫn em thực hiện và tìm hiểu mọi vấn đề. Nếu
khơng có những chỉ dẫn của thầy thì rất khó để em có thể tự mình hoàn thành luận
văn này. Một lần nữa em xin gửi lời cảm ơn chân thành nhất tới thầy.
Bên cạnh đó, em xin gửi lời cảm ơn đến gia đình và những người bạn đã
luôn tạo điều kiện tốt nhất và ln hỗ trợ giúp đỡ em khi gặp khó khăn.
Luận văn được thực hiện trong khoảng 2 tháng. Đây cũng là bước đầu em đi
sâu tìm hiểu, nghiên cứu và thực nghiệm một đề tài của ngành công nghệ thông tin
về xử lý ngôn ngữ tự nhiên. Do vậy, sẽ cịn nhiều thiếu sót, em rất mong nhận được
những ý kiến đóng góp của q Thầy Cơ và các bạn để em có thể hồn thiện luận
văn một cách tốt nhất.
Em xin chân thành cảm ơn!

Hà Nội, ngày 13 tháng 02 năm 2019


Đặng Ngọc Tú

Luan van


ii

LỜI CẢM ƠN
Trước tiên, tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo trong khoa
sau Đại Học nói riêng và các thầy cơ giáo của trường Học Viện Cơng Nghệ Bưu
Chính Viễn Thơng nói chung lời cảm ơn chân thành nhất.
Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc tới TS. Ngô Xuân Bách người đã tận
tình chỉ bảo, hướng dẫn tơi trong suốt q trình tìm hiểu, nghiên cứu để hồn thành
luận văn tốt nghiệp của mình. Nếu khơng có những hỗ trợ về kiến thức chun mơn
của thầy thì chắc chắn tơi khơng thể hồn thành đúng thời hạn.
Đồng thời, tơi xin cảm ơn tới gia đình, những người thân u ln bên
cạnh, động viên, giúp đỡ tơi trong suốt q trình học tập. Bên cạnh đó tơi cũng xin
gửi lời cảm ơn đến các anh chị và các bạn trong lớp M17CQIS01-B đã chia sẻ
những kinh nghiệm, kiến thức quý báu cho tơi trong q trình nghiên cứu thực hiện
luận văn.
Thời gian thực hiện luận văn còn khá ngắn, kinh nghiệm về lĩnh vực xử lý
ngôn ngữ tự nhiên của bản thân còn hạn chế, luận văn cũng còn nhiều thiếu sót rất
mong nhận được những ý kiến đóng góp của q Thầy Cơ và các bạn để tơi có thể
hồn thiện luận văn một cách tốt nhất.
Xin trân trọng cảm ơn!
Hà Nội, ngày 13 tháng 02 năm 2019
Tác giả

Đặng Ngọc Tú


Luan van


iii

MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CẢM ƠN ............................................................................................................ii
BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH................................................. v
BẢNG DANH SÁCH TỪ VIẾT TẮT .................................................................... vi
MỤC LỤC HÌNH ẢNH ..........................................................................................vii
MỤC LỤC BẢNG BIỂU ...................................................................................... viii
LỜI MỞ ĐẦU ............................................................................................................ 1
CHƯƠNG 1 TỔNG QUAN BÀI TOÁN KẾ THỪA VĂN BẢN TRÊN DỮ
LIỆU TWITTER ......................................................... Error! Bookmark not defined.
1.1. Giới thiệu về xử lý ngôn ngữ tự nhiên ............................................................. 4
1.2. Khát quát về kế thừa văn bản ........................................................................... 5
1.2.1 Khái niệm kế thừa văn bản ........................................................................ 5
1.2.2. Khái niệm kế thừa văn bản ....................................................................... 6
1.2.3. Phát biểu bài toàn phát hiện kế thừa văn bản ........................................... 7
1.3. Phát hiện kế thừa văn bản trên dữ liệu Twitter ............................................... 8
1.3.1. Khái niệm. ............................................................................................... 8
1.3.2. Phát biểu bài toàn phát hiện kế thừa văn bản trên dữ liệu Twitter. ......... 9
1.4. Các nghiên cứu liên quan.............................................................................. 11
1.5. Kết luận chương 1 .......................................................................................... 12
CHƯƠNG 2 PHƯƠNG PHÁP PHÁT HIỆN KẾ THỪA VĂN BẢN SỬ DỤNG
THUẬT TOÁN PHÂN LỚP .................................................................................. 13
2.1. Giải pháp phát hiện kế thừa văn bản trên dữ liệu Twitter ............................ 13
2.2. Tiền xử lý dữ liệu ........................................................................................... 17

2.3.1. Jaro-Winkler distance ............................................................................. 18
2.3.2. Levenshtein distance .............................................................................. 19
2.3.3. Euclidean distance .................................................................................. 20
2.3.4. Cosine similarity..................................................................................... 20
2.3.5. N-gram distance ..................................................................................... 21

Luan van


iv

2.3.6. Matching coefficient............................................................................... 23
2.3.7. Dice coefficient ...................................................................................... 23
2.3.8. Jaccard coefficient ................................................................................. 23
3.1. Các phương pháp học máy ............................................................................. 24
3.1.1. Máy vector hỗ trợ SVM (Support Vector Machine) .............................. 24
3.1.2. Thuật toán IBK ....................................................................................... 28
3.1.3. Các phương pháp cây quyết định ........................................................... 29
4.1. Kết luận chương 2 .......................................................................................... 32
CHƯƠNG 3 THỰC NGHIỆM VÀ KẾT QUẢ .................................................... 33
3.1. Dữ liệu thực nghiệm....................................................................................... 33
3.1.1. Mơ tả dữ liệu thực nghiệm ..................................................................... 33
3.1.2. Trích chọn đặc trưng .............................................................................. 36
3.2. Thiết lập thực nghiệm ................................................................................... 37
3.2.1. Yêu cầu cho thực nghiệm ....................................................................... 37
3.2.3. Phương pháp đánh giá tập dữ liệu .......................................................... 38
3.2.3. Chọn công cụ thực nghiệm .................................................................... 41
3.2.4. Giới thiệu chuẩn dữ liệu đầu vào cho thực nghiệm (ARFF) .................. 45
3.3. Tiến hành thực nghiệm và đánh giá kết quả thực nghiệm ............................. 47
3.3.1. Kết quả thực nghiệm với các thuật toán cho ba nhãn ............................ 47

3.3.2. Thực nghiệm với sự kết hợp các đặc trưng ............................................ 49
3.3.3. Thực nghiệm so sánh giữa thuật toán J48 với các phương pháp học máy
khác................................................................................................................... 50
3.4. Kết luận chương 3 .......................................................................................... 51
KẾT LUẬN .............................................................................................................. 52
DANH MỤC TÀI LIỆU THAM KHẢO ............................................................... 54
DANH MỤC WEBSITE THAM KHẢO .............................................................. 56
PHỤ LỤC ................................................................................................................. 57

Luan van


v

BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH
Tư tiếng anh

Ý nghĩa

Accuracy

Mức độ dự đốn (phân lớp) chính xác của hệ thống

Atrribute Regation File
Format
IBK

Định dạng tập tin thuộc tính liên quan

ID3


Thuật tốn Decision Tree

Natural Language Processing

Xử lý ngôn ngữ tự nhiên
Là tần suất xuất hiện của n kí tự ( hoặc từ ) liên
tiếp nhau có trong dữ liệu
Độ chính xác trong tập dữ liệu tìm được thì bao
nhiêu cái (phân loại) đúng
Thuật toán Random forest
Độ hồi tưởng trong số các tồn tại, tìm ra được bao
nhiêu cái (phân loại).

N-grams
Precision
Random Forest
Recall

Thuật tốn K-nearest nèighbors

Support Vector Machine

Máy vector hỗ trợ (SVM)

Tweets
Twitter

Trạng thái người dùng trên mạng xã hội Twitter
Mạng xã hội twitter


Weka

Bộ phần mềm học máy

Luan van


vi

BẢNG DANH SÁCH TỪ VIẾT TẮT
Viết tắt

Tiếng Anh

Tiếng Việt

CD

Comparison Documents

Tài liệu so sánh

CON

Contradiction

Mẫu thuẫn

DUC


Document Understanding
Conference

Hiểu tài liệu

ENT

Entailment

Liên quan

H

Hypothesis

Giả thuyết

IE

Information Extraction

Trích xuất thơng tin

IR

Information Retrieval

Thu thập thơng tin


KKN

K-Nearest Neighbors
algorithm

Thuật tốn láng giềng

MT

Machine Translation

Dịch máy

NLP

Natural Language Processing Xử lý ngôn ngữ tự nhiên

PP

Paraphrase Acquisition

Thu thập diễn giải

QA

Question Answering

Hệ hỏi đáp

RC


Reading Comprehension

Đọc hiểu

RTE

Recognizing Textual
Entailment

Phát hiện kế thừa văn bản

SUM

Summarization

Tóm tắt

SVM

Support vector machine

Máy hỗ trợ vector

T

Text

Văn bản


TAC

Text Analysis Conference

Phân tích tài liệu

TE

Textual Entailment

Kế thừa văn bản

UNK

Unknown

Không liên quan

Luan van


vii

MỤC LỤC HÌNH ẢNH
Hình 1.1: Số lượng người sử dụng một số mạng xã hội lớn ....................................... 9
Hình 1.2. Sơ đồ giả thiết bài tốn .............................................................................. 11
Hình 2.1: Mơ hình giai đoạn huấn luyện ................................................................. 14
Hình 2.2: Mơ hình giai đoạn phân lớp ..................................................................... 16
Hình 2.3: Ánh xạ dữ liệu từ không gian gốc sang không gian đặc trưng cho phép
phân chia dữ liệu bởi siêu phẳng ............................................................................... 25

Hình 2.4: Siêu phẳng với lề cực đại cho phép phân chia các hình vng khỏi các
hình trịn trong khơng gian đặc trọng ........................................................................ 25
Hình 2.5: Minh họa bài tốn phân 2 lớp bằng phương pháp SVM ........................... 27
Hình 2.6: Ví dụ cây quyết định ................................................................................. 30
Hình 2.7: Mã giải của thuật tốn phân lớp dựa trên cây quyết định ......................... 31
Hình 3.1: Dữ liệu thực nghiệm lấy file XML trong bộ dữ liệu của Twitter ............. 34
Hình 3.2: Dữ liệu được bóc tách thành cặp văn bản(T) và giả thuyết(H)................. 35
Hình 3.3: Hình ảnh stopword .................................................................................... 35
Hình 3.4: Trích chọn đặc trưng theo 08 phương pháp .............................................. 36
Hình 3.5: Minh họa K-fold cross validation ............................................................. 39
Hình 3.6: Giao diện weka ver 3.8.3 .......................................................................... 43
Hình 3.7. Màn hình Weka Explorer .......................................................................... 43
Hình 3.9: Giao diện weka khi tiến hành thực nghiệm .............................................. 45
Hình 3.10: Khuân dạng của tập dữ liệu dạng chuẩn Arff ......................................... 46
Hình 3.11: Ví dụ minh họa một phần biểu diễn của ARFF linh hoạt ....................... 47

Luan van


viii

MỤC LỤC BẢNG BIỂU
Bảng 1.1: Ví dụ về kế thừa văn bản ............................................................................ 7
Bảng 1.2: Ví dụ kế thưa với ba nhãn......................................................................... 10
Bảng 3.1: Bộ dữ liệu thực nghiệm ............................................................................ 37
Bảng 3.2: Bảng ma trận nhầm lẫn ............................................................................. 41
Bảng 3.3: Kết quả thực nghiệm độ đo chạy trên thuật toán tree J48 ........................ 48
Bảng 3.4: Kết quả thực nghiệm giữa độ đo của thuật toán chạy trên tree J48.......... 48
Bảng 3.5: Bảng kết quả thực nghiệm với sự kết hợp đặc trưng ................................ 49
Bảng 3.6: Bảng kết quả thực nghiệm sử dụng cơng cụ weka với các thuật tốn ...... 50

Bảng 3.7: Bảng biểu đồ so sánh các phương pháp SVM .......................................... 51

Luan van


1

LỜI MỞ ĐẦU
Trong những năm vừa qua, lĩnh vực xử lý ngôn ngữ tự nhiên đã thu hút được
sự quan tâm đặc biệt của các nhà nghiên cứu và đạt được nhiều thành tựu đáng kể.
Trong đó, thành cơng của nhiều ứng dụng ngôn ngữ tự nhiên tự động là do hiểu
chính xác ngữ nghĩa của văn bản dự theo cấu trúc cú phát bằng cách sử dụng máy
tính. Điều này đã trở thành thách thức với những văn bản cùng diễn đạt một ý
nghĩa nhưng sử dụng các cấu trúc và từ ngữ khác nhau. Các ứng dụng ngôn ngữ tự
nhiên tự động đã tận dụng các thành phần được làm mịn để xử lý hiệu quả hơn các
văn bản có cấu trúc phức tạp. Một trong nhưng bài toán xử lý văn bản là việc suy
luận ngữ nghĩa của một đoạn văn bản từ một đoạn trích trong văn bản tiềm năng
khác. Bài toán này trở thành một hướng nghiên cứu trong lĩnh vực xử lý ngôn ngữ
tự nhiên và được biết đến như bài toán phát hiện kế thừa văn bản (Recognixing
Textual Entailment: RTE). Bài toán phát hiện kế thừa văn bản lần đầu tiên được
Degan và Glickman đề xuất [3]. Cho hai đoạn văn bản bài tốn phát hiện kế thừa
văn bản có mục định xác định xem nghĩa của văn bản này có thể được suy luận (kế
thừa) từ văn bản cịn lại hay khơng.
Từ nhu cầu thực tế của các lĩnh vực khác trong xử lý ngơn ngữ tự nhiên, bài
tốn phát hiện kế thừa văn bản đã nhận được sự quan tâm của các nhà khoa học và
các nhóm nghiên cứu trên thế giới. Từ năm 2004 đến này, hội nghị RTE đã tổ chức
thường niên hàng năm nhằm mục đích so sánh và tổng hợp lại các phương pháp
phát hiện kế thừa văn bản tốt. Hội nghị RTE tiến hành trong khuôn khổ các hội nghị
thường niên Hiểu tài liệu (DUC: Document Understanding Conference, 2001-2007)
và Phân tích xử lý văn bản (TAC: Text Analysis Conference, từ năm 2008 tới nay).

Gần đây, một trong nhưng thách thức của bài toán phát hiện kế thừa văn bản
là phát hiện mối quan hệ kế thừa cho những văn bản được viết bằng các ngôn ngữ
khác nhau:Anh, Tây Ban Nha, Pháp,…Chính vì thế, bài tốn phát hiện kế thừa văn
trên dữ liệu Twitter.
Với sự phát triển nhanh chóng và mạnh mẽ của những mạng xã hội hiện đại
như ngày nay như: facebook, google +, twitter, v.v. Việc ứng dụng phát hiện kế

Luan van


2

thừa văn bản trong hệ hỏi đáp (QA), trích xuất thơng tin (IE), tóm tắt văn bản
(Summarization), và đánh giá dịch máy MT) cần một mơ hình cho hiện tượng biến
đổi này để phát hiện xem một ý nghĩa cụ thể nào đó có được suy luận ra từ các biến
thể văn bản khác nhau. Đã có nhiều cơng trình nghiên cứu liên quan đến bài toán
phát hiện kế thừa văn bản theo các phương pháp khác nhau từ nhiều nguồn dữ liệu
mà Twitter là một nguồn dữ liệu phổ biến.
Vì những lý do trên, cùng với mong muốn làm chủ công nghệ, làm chủ và
mở rộng các nghiên cứu về học máy ứng dụng vào bài toán phát hiện kế thừa văn
bản, dưới sự hướng dẫn của TS. Ngô Xn Bách và thơng qua tìm hiểu, phương
pháp kế thừa văn bản trên tập dữ liệu Twitter, tôi đã mạnh dạn tìm hiểu đề tài “Phát
hiện kế thừa văn bản trên dữ liệu Twitter” nhằm mục đích sử dụng học máy để
đưa ra phát hiện kế thừa văn bản trong việc tự động trả lời của con người dưới dạng
ngôn ngữ tự nhiên bằng cách truy suất thông tin từ một tập hợp dữ liệu. Luận văn
tập trung vào bài toán phát hiện kế thừa văn bản trên dữ liệu Twitter, phân loại làm
ba nhãn là: liên quan(Entailment), mâu thuẫn(Contradiction), không liên quan
(Unknown).
Các đặc trưng này sẽ được biểu diễn dưới dạng vector và làm đầu vào cho
các thuật toán. Sau khi thu được kết quả của các mơ hình phân lớp: Decision tree

(J48, Random forest) [30] , Support vector machine(SVM) [8] và IBK [4], luận văn
sử dụng phương pháp lập sơ đồ để kiểm tra và lựa chọn kết quả tốt nhất. Kết quả
thực nghiệm tốt nhất đạt được khi sử dụng thuật toán Decision tree (J48). Cụ thể kết
quả thực nghiệm cho kết quả tốt nhất với bài toán “ Phát hiện kế thừa văn bản trên
dữ liệu Twitter ”.
Nội dung của luận văn gồm 03 chương:
Chương 1: Giới thiệu tổng quát khái quát về bài toán phát hiện kế thừa văn
bản
Luận văn giới thiệu khái niệm kế thừa văn bản, phát biểu bài toán phát hiện
kế thừa văn bản, sau đó, luận văn giới thiệu về bài toán phát hiện kế thừa văn bản
trên dữ liệu Twitter.

Luan van


3

Chương 2: Phương pháp phát hiện kế thừa văn bản sử dụng thuật tốn phân
lớp.
Nội dung của chương là trình bày một số phương pháp trích chọn lấy đặc
trưng để giải quyết bài toán, các phương pháp học máy thống kê được sử dụng để
tiến hành thực nghiệm cho bài toán phát hiện kế thừa văn bản dựa trên dữ liệu mạng
xã hội Twitter.
Chương 3: Thực nghiệm và đánh giá
Nội dung chương nhằm nêu rõ và chi tiết các bước trong q trình giải quyết
bài tốn. Trong chương này cũng sẽ trình bày quá trình thực hiện và thực nghiệm,
đưa ra một số đánh giá, nhận xét các kết quả thu được.
Kết luận và định hướng phát triển tiếp theo: Tóm lược kết quả đã đạt được của
luận văn, chỉ ra những khuyết điểm cần khắc phục và đưa ra định hướng nghiên cứu
tiếp theo.


Luan van


4

CHƯƠNG 1
TỔNG QUAN BÀI TOÁN KẾ THỪA VĂN BẢN TRÊN DỮ LIỆU
TWITTER
Chương này của luận văn trình bày nội dung chính là:
Giới thiệu chung về lĩnh vực xử lý ngơn ngữ tự nhiên và các ứng dụng trong
thực tế.
Giới thiệu về bài toán phát hiện kế thừa văn bản và phát hiện kế thừa văn
bản trên dữ liệu Twitter.
Giới thiệu về mạng xã hội Twitter và tổng quan về bài toán phát hiện kế thừa
văn bản trên dữ liệu Twitter.
Các nghiên cứu liên quan đến bài toán dã được thực hiện và đưa ra trên thế
giới cũng như ở Việt Nam
Trình bày các nội dung sẽ thực hiện trong luận văn để đạt được mục tiêu đặt
ra, các nghiên cứu, đóng góp của luận văn

1.1.

Giới thiệu về xử lý ngơn ngữ tự nhiên
Xử lý ngôn ngữ tự nhiên (natural language processing – NLP) [4] [9] là một

lĩnh vực nghiên cứu của trí tuệ nhân tạo, tập trung vào nghiên cứu các phương pháp,
kỹ thuật cho phép xử lý ngôn ngữ tự nhiên bằng máy tính, từ đó xây dựng các
chương trình, hệ thống máy tính xử lý ngơn ngữ của con người.
Xử lý ngôn ngữ tự nhiên được áp dụng trong nhiều bài toán và ứng dụng

thực tế, trong nhiều lĩnh vực:
Nhận dạng chữ viết: Có hai kiểu nhận dạng. Thứ nhất là nhận dạng chữ in,
thứ hai, phức tạp hơn là nhận dạng chữ viết tay, có khó khăn bởi vì chữ viết tay
khơng có khn dạng rõ ràng và thay đổi từ người này sang người khác. Với
chương trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thư
viện thành văn bản điện tử trong thời gian ngắn. Nhận dạng chữ viết của con người
có ứng dụng trong khoa học hình sự và bảo mật thông tin (nhận dạng chữ ký điện
tử).

Luan van


5

Nhận dạng tiếng nói: Nhận dạng tiếng nói rồi chuyển chúng thành văn bản
tương ứng. Giúp thao tác của con người trên các thiết bị nhanh hơn và đơn giản
hơn. Đây cũng là bước đầu tiên cần phải thực hiện trong ước mơ thực hiện giao
tiếp giữa con người với robot. Nhận dạng tiếng nói có khả năng trợ giúp người
khiếm thị rất nhiều.
Tổng hợp tiếng nói: Từ một văn bản tự động tổng hợp thành tiếng nói.
Giống như nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho người
khiếm thị, nhưng ngược lại nó là bước cuối cùng trong giao tiếp giữa robot với
người.
Dịch máy (machine translate): Như tên gọi đây là chương trình dịch tự động
từ ngơn ngữ này sang ngơn ngữ khác.
Tìm kiếm và truy xuất thông tin: Đặt câu hỏi và chương trình tự tìm ra nội
dung phù hợp nhất. Thơng tin ngày càng đầy lên theo cấp số nhân, đặc biệt với sự
trợ giúp của internet việc tiếp cận thông tin trở lên dễ dàng hơn bao giờ hết. Việc
khó khăn lúc này là tìm đúng nhất thơng tin mình cần giữa bề bộn tri thức và đặc
biệt thơng tin đó phải đáng tin cậy.

Tóm tắt văn bản: Từ một văn bản dài tóm tắt thành một văn bản ngắn hơn
theo mong muốn nhưng vẫn chứa những nội dung thiết yếu nhất.
Khai phá dữ liệu: Từ rất nhiều tài liệu khác nhau phát hiện ra tri thức mới.
Thực tế để làm được điều này rất khó, nó gần như là mơ phỏng quá trình học tập,
khám phá khoa học của con người, đây là lĩnh vực đang trong giai đoạn đầu phát
triển.

1.2.

Khát quát về kế thừa văn bản
Trong cuộc sống hằng ngày, bằng việc sử dụng ngôn ngữ tự nhiên,

chúng ta có thể diễn đạt một vấn đề theo nhiều cách khác nhau với các từ ngữ
và cấu trúc cú pháp khác nhau. Vấn đề biến đổi này trong biểu diễn ngữ nghĩa
có thể được xem như là vấn đề nhập nhằng trong ngôn ngữ tự nhiên. Các ứng
dụng trong xử lý ngôn ngữ tự nhiên như: hệ hỏi đáp (QA), trích xuất thơng tin
(IE), tóm tắt văn bản (Summarization), và đánh giá dịch máy MT) cần một

Luan van


6

mơ hình cho hiện tượng biến đổi này để phát hiện xem một ý nghĩa cụ thể nào
đó có được suy luận ra từ các biến thể văn bản khác nhau hay không.
Vào năm 2004, phát hiện kế thừa văn bản (RTE) đã được đề xuất như một
bài toán tổng quát để thu thập các nhu cầu liên quan đến suy luận ngữ nghĩa trên
nhiều ứng dụng xử lý ngôn ngữ tự nhiên. Từ năm 2004 đến nay, hội nghị RTE đã tổ
chức thường niênhàng năm (RTE-1 đến RTE-8) nhằm mục đích đánh giá, so sánh
các phương pháp tiếp cận của các nhà nghiên cứu. Ba hội nghị RTE đầu tiên (RTE1 năm 2005, RTE-2 năm 2006 và RTE-3 năm 2007) được tổ chức tại chuỗi

PASCAL (Pattern Analysis, Statistical Modeling and Computational Learning). Các
hội nghị RTE còn lại (RTE-4 năm 2008,RTE-5 năm 2009, RTE-6 năm 2010, RTE-7
năm 2011 và RTE-8 năm 2012) được tổ chức thuộc hội nghị Phân tích xử lý văn
bản (TAC: Text Analysis Conference) của NIST (National Institute of Standards
and Technology). Hội nghị Phân tích và xử lý văn bản TAC được tổ chức để
khuyến khích nghiên cứu xử lý ngôn ngữ tự nhiên và các ứng dụng liên quan bằng
cách cung cấp tập các dữ liệu kiểm thử lớn, các thủ tục đánh giá và một diễn đàn để
các nhóm nghiên cứu chia sẻ kết quả của họ.

1.2.2. Khái niệm kế thừa văn bản
Hiện nay, khái niệm kế thừa văn bản có thể định nghĩa theo nhiều cách khác
nhau. Theo Glickman và Dagan [3], kế thừa văn bản là một mối quan hệ giữa một
văn bản T nhất quán T với một thể hiện ngôn ngữ của nó – giả thuyết H (H là một
hệ quả của T), ký hiệu là T → H nếu như ý nghĩa của H, đặt vào ngữ cảnh của T thì
có thể suy ra ý nghĩa của H. Một cách chung nhất thì văn bản T được gọi là kế thừa
giả thuyết H nếu như sự thật về H có thể suy luận được từ T. Điều này có nghĩa là T
bao hàm ý nghĩa của H khi đọc cả hai. Do vậy, ta có thể nói T kế thừa H khi một số
biểu diễn của H có thể trùng khớp (qua một số bước chuyển đổi bảo toàn ngữ nghĩa)
với một số (hoặc một phần của) các biểu diễn của T, ở một cấp độ chi tiết và trừu
tượng nhất định.

Luan van


7

Dưới đây là một số ví dụ minh họa để giải thích về khái niệm kế thừa văn
bản.
STT


1

2

3

4

5

Văn bản
Giả thuyết
Bountiful đã tới saiu khi chiến tranh kết
thúc, cập vịnh San Francisco vào ngày 21
tháng 8 năm 1945.Bountiful sau đó được chỉ Bountiful đã tới San
định làm tài bệnh viện ở Yokosuka, khởi
Francisco vào tháng 8
hành từ San Francisco vào ngày 1 tháng 11 năm 1945.
năm 1945.
Tập đoàn Boeing đặt tại Chicago đã hủy bỏ
ba đơn hang vào năm 2006 mà Air Canada
đã đặt.
Dưới tiêu đề “Greed instead of quanlity”,
Die Tageszeitung của Đưucs nói chẳng có
điều tốt đẹp việc thâu tóm xuất bản Berliner
Verlag của hai quỹ đầu tư của Anh và Mỹ.
Scott Island đã được thuyền trưởng William
Colbeck người chỉ huy của Morning, con tài
cứu viện cho cuộc viễn chinh của thuyền
trưởng Robert F.Scott, tìm ra vào tháng 12

năm 1902
Chiếc xe hơi đã và vào hòm thư thuộc về
James Clark, 68 tuổi, một người quen của
gia đình James Jones.

Kế thừa

YES

Trụ sở của tập đoàn
Boeing năm ở
Canada

NO

Hai quỹ đầu tư của
Anh và Mỹ đã thâu
tóm Berliner Verlag.

YES

Thuyền trưởng Scott
đã đặt chân tới đảo
Scott Island vào
tháng 12 năm 1902

NO

Clark là người họ
hang của Jones


NO

Bảng 1.1: Ví dụ về kế thừa văn bản

1.2.3. Phát biểu bài toán phát hiện kế thừa văn bản
Bài toán phát hiện kế thừa văn bản là bài toán xác định quan hệ kế thừa giữa
văn bản T và giả thuyết H. Việc phân loại mối quan hệ kế thừa giữa văn bản và giả
thuyết có thể theo 2 cách dựa trên số nhãn kế thừa mà hệ thống gán cho một cặp
văn bản giả thuyết. Phân loại kế thừa 3 lớp bao gồm các nhãn :


Kế thừa: Khi T kế thừa H.

Luan van


8




Mâu thuẫn: Khi T không kế thừa H.
Không xác định: Khi khơng có đủ điều kiện để xác định xem T kế
thừa H hay không.

Phân loại kế thừa 2 lớp: Trong phân loại 2 lớp, mối quan hệ mâu thuẫn và
không xác định đều được phân vào lớp “Không kế thừa”. 2 lớp sử dụng là:




Kế thừa: Khi T kế thừa H.
Không kế thừa: Khi nội dung trong T mẫu thuẫn với nội dung trong
H hoặc không xác định được quan hệ giữa T và H.

Hiện nay, đa số các hệ thống phát hiện kế thừa sử dụng sự phân lớp nhị
phân (hai nhãn). Việc phán quyết kế thừa được gán nhãn là YES/NO (YES:
trong trường hợp kế thừa và NO nếu ngược lại). Trong khóa luận này, em tiến
hành thực nghiệm theo nhãn nhị phân như trên.
Dựa trên tiếp cận về quan hệ kế thừa trên, bài toán được phát biểu như sau:
Đầu vào: Tập các cặp câu văn bản T và giả thuyết H thuộc cùng một chủ
đề.
Đầu ra: Gán nhãn kế thừa YES/NO với từng cặp.

1.3. Phát hiện kế thừa văn bản trên dữ liệu Twitter
1.3.1. Khái niệm
Sự bùng nổ thông tin được viết bằng các ngôn ngữ khác nhau trên web đã
giúp cho người sử dụng có cơ hội tiếp cận và truyền tải thơng tin về một chủ đề
bằng ngôn ngữ của họ. Với sự phát triển nhanh chóng và mạnh mẽ của những mạng
xã hội hiện đại như ngày nay như: facebook, google +, twitter, v.v. Việc ứng dụng
phát hiện kế thừa văn bản trong hệ hỏi đáp (QA), trích xuất thơng tin (IE), tóm tắt
văn bản (Summarization), và đánh giá dịch máy MT) cần một mơ hình cho hiện
tượng biến đổi này để phát hiện xem một ý nghĩa cụ thể nào đó có được suy luận ra
từ các biến thể văn bản khác nhau. Đã có nhiều cơng trình nghiên cứu liên quan đến
bài toán phát hiện kế thừa văn bản theo các phương pháp khác nhau từ nhiều nguồn
dữ liệu mà Twitter là một nguồn dữ liệu phổ biến.

Luan van



9

2.5

2

1.5

Facebook
Twitter

1

Google+

0.5

0
2015

2016

Qúy I - 2017

Hình 1.1: Số lượng người sử dụng một số mạng xã hội lớn[17]

Bài toán kế thừa văn bản dữ liệu trên mạng xã hội Twitter là một bài toán
nhằm phát hiện sự kế thừa về thực thể trên mạng xã hội Twitter. Tuy nhiên, việc kế
thừa văn bản với dữ liệu Twitter gặp khá nhiều khó khăn và thách thức. Khác với
các văn bản truyền thống, các tweet rất ngắn (tối đa 140 ký tự). Có thể nói mỗi

tweet chỉ là một câu hoặc một tiêu đề hơn là một tài liệu. Hơn nữa các tweet có rất
nhiều từ viết tắt, từ nóng, từ sai chính tả và viết không đúng cú pháp, chất lượng và
độ tin cậy thấp. Những yếu tố này làm giảm hiệu quả kế thừa văn bản dựa trên cách
xử lý truyền thống.
1.3.2. Phát biểu bài toán phát hiện kế thừa văn bản trên dữ liệu Twitter.
Phát hiện kế thừa văn bản là bài toán phát hiện mối quan hệ kế thừa giữa văn
bản T và giả thuyết H.[2] Bài toán được phát biểu như sau:
 Đầu vào: Tập các cặp văn bản – giả thuyết <T, H> thuộc cùng một chủ đề.
 Đầu ra: Tập các cặp văn bản – giả thuyết đã được gán nhãn kế thừa “Entailment” /
“Contradiction”/“Unknown”.
- “Entailment”: tương ứng với trường hợp văn bản (T) kế thừa giả thuyết (H).

Luan van


10

- “Contradiction”: tương ứng với trường hợp văn bản (T) mâu thuẫn kế thừa giả
thuyết (H).
- “Unknown”: tương ứng với trường hợp văn bản (T) không liên quan tới giả thuyết
(H).
Văn bản

STT

12 người hiện đã chết vì tay súng đã tấn
1

cơng Paris HQ của tạp chí Charlie Hebdo
URL


Giả thuyết

Kế thừa

11 người chết vì
một vụ tấn cơng
Tạp chí Paris. URL Contradiction
CharlieHebdo
URL

2

12 người hiện đã chết vì tay súng đã tấn
cơng Paris HQ của tạp chí Charlie Hebdo

Tạp chí Charlie
Hebdo URL đưa ra
con số là 12 người

URL

chết bởi một vụ bổ

Entailment

súng

12 người hiện đã chết vì tay súng đã tấn
3


cơng Paris HQ của tạp chí Charlie Hebdo
URL

Vụ nổ đánh bom
tại Paris làm nhiều
người chết và bị
thương do khủng
bố của IS

Bảng 1.2: Ví dụ kế thừa với ba nhãn

Luan van

Unknown


11

Văn bản T
(Đoạn văn thứ nhất)

Văn bản H
(Đoạn văn thứ hai)

Liên quan, mâu
thuẫn, khơng liên
quan

Hình 1.2. Sơ đồ giả thiết bài toán


1.4. Các nghiên cứu liên quan
Kế thừa văn bản giúp việc hiểu ngôn ngữ tự nhiên được tốt hơn. Ngoài ra,
phát hiện kế thừa văn bản được ứng dụng rộng rãi trong rất nhiều lĩnh vực của xử lý
ngôn ngữ tự nhiên như: Hệ thống hỏi đáp, trích chọn thơng tin, tự động tóm tắt văn
bản, đánh giá dịch máy, so sánh tài liệu (Comparable Documents), đọc hiểu
(Reading omprehension), đồng bộ hóa nội dung tự động (Automatic Content
Synchronization).
Trong hệ thống hỏi đáp, phát hiện kế thừa văn bản được sử dụng để xác định
những câu trả lời có quan hệ kế thừa và đưa ra gợi ý về câu trả lời được mong muốn
từ câu hỏi của người dùng. Ví dụ, với câu hỏi được đặt ra: “Ai là người vẽ bức tranh
Mona Lisa?” thì đoạn văn bản “Bức tranh nàng Mona Lisa của Leonardo Da Vinci
đã tạo cảm hứngcho rất nhiều nhà phân tích, từ nghệ thuật tới khoa học, từ phân
tích quang học tới phân tích tâm lý học.” hay đoạn văn bản “Da Vinci bắt đầu vẽ
Mona Lisa vào khoảng năm 1503, trong Thời Phục hưng Italia và theo Vasari.” kế
thừa câu trả lời mong muốn là “Leonardo Da Vinci là người vẽ bức tranh Mona
Lisa”. Trong trích chọn thơng tin (Information Extraction), các thơng tin được trích
chọn nên kế thừa văn bản.
Trong tóm tắt văn bản, kế thừa văn bản được sử dụng để xác định hoặc rút
gọn lượng thông tin kế thừa trong văn bản cần tóm tắt, từ đó so sánh với văn bản
khác. Điều này được sử dụng để tránh dư thừa thơng tin khi trong một văn bản có

Luan van


12

những đoạn là kế thừa tri thức của nhau. Áp dụng điều này, tóm tắt văn bản sử dụng
quan hệ kế thừa để bỏ qua những thông tin không cần thiết giúp rút ngắn độ dài văn
bản mà vẫn giữ được những thơng tin quan trọng.


1.5.

Kết quả đạt và đóng góp của luận văn

Luận văn đã đem lại một số đóng góp cơ bản như sau:
- Nghiên cứu các đặc trưng ngơn ngữ, các phương pháp trích chọn đặc trưng
với các mơ hình, thuật tốn học máy để phân lớp(mơ hình phân lớp).
- Thực nghiệm bài tốn với các phương pháp, kỹ thuật lựa chọn, đưa ra kết
quả, đánh giá và so sánh.
Phát hiện kế thừa văn bản được ứng dụng rộng rãi trong nhiều lĩnh vực của
xử lý ngôn ngữ tự nhiên như: Hệ thống hỏi đáp, trích chọn thong tin, tự động tóm
tắt văn bản, đánh giá dịch máy, so sánh tài liệu, đọc hiểu, đồng bộ hóa nội dung .
Kết quả của thực nghiệm là tiền đề cho xây dựng các công cụ, ứng dụng hỗ trợ nhận
biết văn bản, trả lời văn bản tự động trên mạng xã hội Twitter.

1.6.

Kết luận chương 1
Trong chương một, luận văn đã trình bày một số nội dung liên quan đến kế

thừa văn bản như khái niệm phát hiện kế thừa văn bản, khái niệm phát hiện kế thừa
văn bản trên dữ liệu Twitter và phát biểu bài toán, cuối cùng luận văn trình bày về
các ứng dụng của phát hiện kế thừa văn bản trong lĩnh vực xử lý ngơn ngữ tự nhiên.
Chương tiếp theo sẽ trình bày chi tiết các hướng tiếp cận cho bài toán kế thừa
văn trên dữ liệu Twitter.

Luan van



13

CHƯƠNG 2
PHƯƠNG PHÁP PHÁT HIỆN KẾ THỪA VĂN BẢN SỬ DỤNG
THUẬT TỐN PHÂN LỚP
Chương này đi vào trình bày phân tích bài tốn, phương pháp phân lớp phát
hiện kế thừa văn bản dựa trên học máy nói chung và áp dụng vào phát hiện kế thừa
văn bản trên dữ liệu Twitter nói riêng. Chương này cũng nói về các phương pháp
trích chọn đặc trưng được sử dụng trong luận văn. Cuối cùng, chương này trình
bày về thuật tốn học máy SVM cũng như cách áp dụng vào bài toán phân lớp.

2.1. Giải pháp phát hiện kế thừa văn bản trên dữ liệu Twitter
Qua quá trình nghiên cứu, tập hợp dữ liệu của Twitter [15] của 500 bài viết
của 70 tuyên bố bao gồm 21836 paris, phân phối trên bốn sự kiện gần đây được báo
cáo trong báo chí. Những cặp đôi này được dán nhãn quan hệ liên quan(
Entailment), quan hệ mâu thuẫn (Contradiction), quan hệ không liên quan(
Unknow).
Với mỗi cặp văn bản – giả thuyết (T, H), các tác giả coi mỗi câu như là một túi
các từ và tính tốn trọng số tương tự giữa các câu. Hệ thống đưa ra phán quyết kế
thừa bằng cách so sánh trọng số tương tự đó với một ngưỡng kế thừa cho trước. Đầu
tiên, các câu văn bản giả thuyết (T) được tiến hành tiền xử lý: tách câu, tách từ. Sau
đó, các tác giả sử dụng những chuỗi từ này làm đầu vào cho thuật tốn. Độ chính
xác của thuật toán phần lớn phụ thuộc vào việc xác định các tham số như: độ đo
tương tự.
Để giải quyết bài toán trên, quá trình phát hiện kế thừa văn bản trên dữ liệu
Twitter gồm 2 giai đoạn:
 Giai đoạn huấn luyện
 Giai đoạn phân lớp

Luan van



14

a) Giai đoạn huấn luyện
Giai đoạn này nhận dầu vào là tập dữ liệu huấn luyện gồm các nội dung dưới
dạng văn bản đã được gán nhãn, sau khi xử lý dữ liệu và áp dụng các thuật toán
huấn luyện sẽ cho đầu ra là mơ hình. Các bước thực hiện của giai đoạn huấn luyện
được biểu diễn như hình 2.1 như dưới:
Văn bản T
(Đoạn văn bản thứ
nhất)

Giả thuyết H
(Đoạn văn bản thứ
hai)

Tiền xử lý dữ liệu

Trích chọn đặc trưng

Chuyển đổi thành
vector đặc trưng

Thuật tốn huấn luyện

Mơ hình
Hình 2.1: Mơ hình giai đoạn huấn luyện

Luan van



15

Trong đó các bước cụ thể:

 Tiền xử lý dữ liệu: Chuyển đổi cặp văn bản T và giả thuyết H trong
tập dữ liệu thành một hình thức phù hợp để phát hiện kế thừa. Lọc bỏ
phần dữ liệu nhiễu, loại bỏ các thơng tin dư thừa.
 Trích chọn đặc trưng: Trích xuất ra các đặc trưng từ cặp văn bản sau
khi dữ liệu được xử lý dữ liệu là văn bản (T) và giả thuyết (H).
 Chuyển đổi thành vector đặc trưng: Mã hóa cặp văn bản bao gồm:
văn bản (T) và giả thuyết (H) bởi mơ hình trọng số.
 Thuật toán huấn luyện: Thủ tục huấn luyện để tìm ra các phương
pháp tối ưu, có thể sử dụng các thuật toán khác nhau, trong phạm vi luận
văn chúng tơi sử dụng 04 thuật tốn học máy gồm: Máy vector hỗ trợ
(SVM), K-Nearest neighbors(IBK ), Decision tree (J48, Randoom
forest).
b) Giai đoạn phân lớp
Nhận đầu vào là cặp văn bản dưới dạng ngơn ngữ tự nhiên, sau q trình
xử lý và áp dụng mơ hình sẽ cho ra nhãn phân loại của văn bản đầu vào, cụ thể
biểu diễn dưới dạng sơ đồ 2.2 sau:

Luan van


×