LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH: NGHIÊN CỨU PHÁT HIỆN SỰ KIỆN TỪ DỮ LIỆU VĂN BẢN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (454.46 KB, 57 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUY NHƠN

ĐỖ ĐÌNH LÂN

NGHIÊN CỨU PHÁT HIỆN SỰ KIỆN
TỪ DỮ LIỆU VĂN BẢN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Bình Định, năm 2017

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUY NHƠN

ĐỖ ĐÌNH LÂN

NGHIÊN CỨU PHÁT HIỆN SỰ KIỆN
TỪ DỮ LIỆU VĂN BẢN

Chuyên ngành
Mã số

: Khoa học máy tính
: 60 48 01 01

Người hướng dẫn: TS. Lê Quang Hùng

4

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này do tôi thực hiện dưới sự hướng dẫn của
TS. Lê Quang Hùng. Các nội dung trích dẫn từ các nghiên cứu của các tác giả
khác mà tôi trình bày trong luận văn này đã được ghi rõ nguồn trong phần tài
liệu tham khảo.
Bình Định, tháng 07 năm 2017

Đỗ Đình Lân

5

LỜI CẢM ƠN
Trước tiên, tôi xin được gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới
TS. Lê Quang Hùng đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ tôi
trong suốt quá trình thực hiện luận văn tốt nghiệp.
Tôi cũng cảm ơn các Thầy/Cô ở Trường Đại học Quy Nhơn đã tạo điều
kiện thuận lợi cho tôi học tập và nghiên cứu tại đây.
Tôi xin gửi lời cảm ơn tới các anh chị, các bạn học viên lớp Cao học
Khoa học máy tính K18 - Trường Đại học Quy Nhơn đã hỗ trợ tôi rất nhiều
trong quá trình thực hiện luận văn.
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những người
thân yêu luôn bên cạnh: quan tâm, động viên tôi trong suốt quá trình học tập
và thực hiện luận văn tốt nghiệp này.
Tôi xin chân thành cảm ơn!
Bình Định, tháng 07 năm 2017

Đỗ Đình Lân

6

MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt
ACE
IDF
k-NN
NER
NP
SVM
TDT
TF
VP

Cụm từ
Automatic Content Extraction
Inverse Document Frequency
k Nearest Neighbours
Name Entity Recognition
Noun Phrase
Support Vector Machine
Topic Detection and Tracking
Term Frequency
Verb Pharse

Ý nghĩa

Trích chọn nội dung tự động
Tần số tài liệu đảo ngược
K láng giềng gần nhất
Nhận dạng thực thể tên
Cụm danh từ
Máy véc-tơ hỗ trợ
Phát hiện và theo dõi chủ đề
Tần số từ
Cụm động từ

7

DANH MỤC CÁC BẢNG

8

DANH MỤC CÁC HÌNH

9

LỜI MỞ ĐẦU
1. Lí do chọn đề tài
Ngày nay, mạng Internet cung cấp cho người dùng một lượng lớn thông
tin và tri thức. Đặc biệt, trong những năm gần đây số lượng người dùng mạng
xã hội (social network) ngày càng tăng. Họ có thể dễ dàng trao đổi các kinh
nghiệm, thông tin, sự kiện về thế giới thực và những điều họ quan tâm trên
mạng này. Bởi sự tiện lợi, dễ dàng của nó mà những thông tin, sự kiện này

thường được đăng tải trên các mạng xã hội ngay khi nó xảy ra. Trong khi đó
các trang tin tức khác trên mạng thường đăng tải các thông tin này chậm hơn.
Thậm chí, nhiều thông tin được đăng tải trên các trang mạng xã hội nhưng
không được đăng tải trên các trang tin tức khác.
Tin tức, thông tin, sự kiện sẽ có giá trị cao khi nó được truyền tải đến
người dùng nhanh và chính xác, đặc biệt các thông tin, sự kiện liên quan đến
an ninh - chính trị, kinh tế, đời sống, giáo dục, pháp luật, thể thao,… Vậy làm
thế nào để phát hiện, tập hợp nhanh các sự kiện đó từ các văn bản, các trang
tin tức và trả lời được các câu hỏi “sự kiện gì? xảy ra ở đâu? thời gian nào?
diễn biến sự kiện như thế nào...” cho người dùng?
Xuất phát từ nhu cầu thực tiễn đó, chúng tôi lựa chọn thực hiện đề tài
“Phát hiện sự kiện từ dữ liệu văn bản”.
1. Mục tiêu nghiên cứu
Trong luận văn này, chúng tôi đặt ra mục tiêu: tìm hiểu về bài toán phát
hiện sự kiện từ dữ liệu văn bản và lựa chọn cách tiếp cận phù hợp để cài đặt
thực nghiệm trên dữ liệu văn bản tiếng Việt.

10

1. Bố cục của luận văn

Ngoài phần mở đầu và kết luận, luận văn được tổ chức thành 3 chương
với bố cục như sau:
Chương 1. GIỚI THIỆU. Chương đầu tiên của luận văn, chúng tôi giới
thiệu tổng quan về lĩnh vực phát hiện và trích chọn sự kiện. Sau đó, chúng tôi
trình bày sơ lược về bài toán phát hiện sự kiện từ dữ liệu văn bản cùng sự cần
thiết của nó trong nghiên cứu khoa học cũng như trong thực tiễn.
Chương 2. MỘT SỐ KỸ THUẬT PHÁT HIỆN SỰ KIỆN. Trong chương
này, chúng tôi trình bày một số cách tiếp cận bài toán phát hiện sự kiện từ dữ

liệu văn bản bao gồm: cách tiếp cận dựa trên luật, cách tiếp cận dựa trên học
máy và cách tiếp cận kết hợp luật và học máy.
Chương 3: MÔ HÌNH PHÁT HIỆN SỰ KIỆN TỪ DỮ LIỆU VĂN BẢN.
Trong chương cuối, chúng tôi tập trung phân tích làm rõ bài toán phát hiện sự
kiện. Trình bày mô hình và phương pháp giải quyết bài toán phát hiện sự kiện
từ dữ liệu văn bản. Cuối chương, chúng tôi trình bày phần thực nghiệm và
đánh giá kết quả.

11

Chương 1. GIỚI THIỆU
Chương đầu tiên của luận văn, chúng tôi giới thiệu tổng quan về bài
toán phát hiện sự kiện như: tổng quan về sự kiện; định nghĩa sự kiện; phát
biểu bài toán phát hiện sự kiện từ dữ liệu văn bản. Cuối chương, chúng tôi
trình bày một số khó khăn và thách thức khi giải quyết bài toán.
1.1 Tổng quan về sự kiện
Phát hiện và trích chọn sự kiện với vai trò phát hiện và trích chọn ra các
thông tin có ý nghĩa từ tập dữ liệu được cộng đồng khoa học rất quan tâm và
đầu tư nghiên cứu. Năm 1987, hội nghị MUC (Message Understanding
Conferences) được tổ chức với sự hỗ trợ của quỹ nghiên cứu Bộ quốc phòng
Hoa Kỳ và lần đầu tiên khái niệm “event” (sự kiện) được đề cập. Sau đó,
nhiều hội nghị được tổ chức tạo thành dãy hội nghị MUC. Các chủ đề nghiên
cứu trong hội nghị là các chủ đề về: tội phạm, khủng bố, đánh bom,… một
trong những đóng góp lớn của MUC là đưa ra việc trích chọn thông tin dựa
trên mẫu. Các mẫu được ban tổ chức quy định và các đội tham gia cần điền
thông tin vào các mẫu này một cách tự động. Cuối cùng, các sự kiện được
trích chọn gồm các thông tin: tổ chức, đối tượng tham gia (người, sự vật, sự
việc), thời gian, địa điểm, số lượng,… Độ chính xác và độ bao phủ của các
nghiên cứu tham dự MUC nằm trong khoảng 50% đến 60% [12].

Chương trình Phát hiện và theo dõi chủ đề TDT (Topic Detection and
Tracking) được tổ chức từ năm 1997 thu hút nhiều nhóm nghiên cứu từ các
trường đại học tham gia. Chương trình này được phối hợp bởi Viện công nghệ
và chuẩn hoá quốc gia Hoa Kỳ (NIST) nhằm giải quyết bài toán phát hiện,
theo dõi và xâu chuỗi sự kiện. Một số nhóm nghiên cứu tham gia chương
trình như: nhóm CMU của Đại học Carnegie Mellon, nhóm BBN từ công ty

12

BBN Technologies, nhóm DRAGON của công ty Dragon, nhóm UPENN của
Trường Đại học Pennsylvania (UPENN). Các bài toán quan trọng của TDT
gồm: theo dõi chủ đề, phát hiện chủ đề, phát hiện sự kiện khởi đầu và phát
hiện liên kết.
Chương trình Trích chọn nội dung tự động của Đại học Pennsylvania
cũng thu hút được nhiều quan tâm từ các cộng đồng nghiên cứu và trích chọn
thông tin cũng như trích chọn sự kiện. Chương trình này tập trung vào các
ngôn ngữ như tiếng Anh, Trung Quốc và Ả Rập. Các thông tin được trích
chọn gồm các thực thể, quan hệ giữa các thực thể và các sự kiện chúng tham
gia vào.
1.2 Định nghĩa sự kiện
Tùy theo từng lĩnh vực và dữ liệu, các nhà nghiên cứu có nhiều cách
định nghĩa sự kiện khác nhau. Trên miền tin tức, Allan và cộng sự (1998) định
nghĩa tin tức có chứa sự kiện nếu nó có bốn yếu tố sau: hành vi, chủ thể, thời
gian, địa điểm [7]. Hành vi là các hoạt động hay hành động gây ra sự kiện.
Chủ thể là con người, sự vật hoặc sự việc. Thời gian là thời gian xảy ra sự
kiện. Địa điểm là nơi diễn ra sự kiện.
Ví dụ: “Chiều ngày 20/06/2017 đã xảy ra một vụ tai nạn trên đường
Quốc lộ 19 làm cho 4 người chết và 3 người bị thương”.
Cũng theo nhóm nghiên cứu này, việc định nghĩa rõ ràng thế nào là một

sự kiện rất khó bởi sự đa dạng của ngôn ngữ, tính nhập nhằng liên quan tới
ngữ cảnh và sự phức tạp về văn hóa của mỗi cộng đồng. Ví dụ sau đây có đủ
bốn yếu tố nhưng vẫn không phải là sự kiện: “Theo thống kê, trong 3 tháng
cuối năm, số người tử vong do cháy nổ trên địa bàn Tỉnh Bình Định đã tăng

13

lên con số 19”. Trong phạm vi giải quyết bài toán phát hiện sự kiện, việc định
nghĩa rõ ràng sự kiện mà nghiên cứu quan tâm là yêu cầu trước tiên.
Tại hội nghị MUC (1987) cũng đã định nghĩa sự kiện như sau: “một sự
kiện có tác nhân, thời gian, địa điểm và tác động tới môi trường xung quanh”.
Chương trình ACE đã định nghĩa sự kiện như là một sự việc xảy ra rõ ràng có
liên quan đến người tham gia. Sự kiện được đề cập đến được mô tả bởi một
cụm từ hoặc một câu, nó bao gồm nguyên nhân xảy ra sự kiện và thành phần
liên quan. Mỗi sự kiện chỉ có một và chỉ một nguyên nhân và có thể có số
lượng tùy ý các thành phần liên quan. Các thành phần liên quan ở đây có thể
là các thực thể được đề cập đến có quan hệ với sự kiện và mối quan hệ của
các thực thể với nhau trong sự kiện. Ví dụ, sự kiện “bầu cử” thì phải có người
tham gia là “người bầu cử” hoặc “ứng cử viên”, còn các thành phần liên quan
có thể là “thời gian diễn ra” và “địa điểm diễn ra”. Hoặc, sự kiện có thể coi
như một mẫu (template) gồm nhiều thuộc tính.
Ví dụ: “Vào ngày 20/06/2017 một vụ tai nạn xảy ra trên Quốc lộ 1A đã
làm 3 người đi xe máy bị thương, nguyên nhân ban đầu là do xe máy chở 3 đi
ngược chiều”. → Các thuộc tính biểu diễn cho sự kiện {20/8/2015, Quốc lộ
1A, 3 người bị thương, xe máy}.
Trên thực tế, các nhóm nghiên cứu khác nhau quan tâm đến các lĩnh
vực khác nhau. Vì vậy, việc định nghĩa thế nào là sự kiện cũng được xem xét,
quyết định. Mỗi lĩnh vực khác nhau thì sự kiện được định nghĩa bởi các thuộc
tính có thể khác nhau, sự ưu tiên của các thuộc tính về sự kiện này cũng khác

nhau. Một sự kiện khi được đề cập đến không nhất thiết phải có đầy đủ các
thuộc tính như trong định nghĩa.

14

1.3 Bài toán phát hiện sự kiện từ dữ liệu văn bản
Phát hiện sự kiện là bài toán quan trọng trong lĩnh vực phát hiện và
trích chọn thông tin. Kết quả của bước phát hiện sự kiện là đầu vào cho quá
trình trích chọn sự kiện. Nếu kết quả của quá trình phát hiện sự kiện đạt kết
quả tốt sẽ nâng cao hiệu quả của quá trình trích chọn sự kiện.
Bài toán phát hiện sự kiện trả lời câu hỏi“làm thể nào để phát hiện
được một văn bản có chứa sự kiện?”.
Đầu vào: Văn bản T (ví dụ: bản tin trên các


trang báo điện tử).

Đầu ra: Văn bản T có chứa sự kiện hay


không?

Tức là, cho trước đầu vào là văn bản, làm thế nào để phát hiện văn bản
đó có chứa sự kiện? Theo Grishman và cộng sự [15], phát hiện sự kiện là quá
trình học không giám sát, tác giả sử dụng các từ, cụm từ để quyết định một
văn bản có chứa sự kiện dịch bệnh hay không. Hai cụm từ được
tác giả lớp
sử
Bộ phân

dụng là “outbreak of…” và “died from…”. Theo Doan và cộng sự [1], bài
toán phát hiện sự kiện có thể coi như quá trình học có giám sát. Trong nghiên
cứu của mình, tác giả sử dụng phương pháp học máy để phân lớp các tài liệu.
Bộ phân lớp này dựa trên một tập các dữ liệu đã được gán nhãn. Qua quá
trình huấn luyện, bộ phân lớp sẽ quyết định một văn bản đầu vào có chứa sự
kiện dịch bệnh hay không.
Từ nghiên cứu của Grishman và cộng sự hoặc nghiên cứu của Doan và
cộng sự, có các cách khác nhau để giải quyết bài toán phát hiện sự kiện dịch
bệnh. Do đó, có thể vận dụng phương pháp này cho việc phát hiện sự kiện từ

15

dữ liệu văn bản cùng với việc xây dựng bộ từ điển hoặc xây dựng một tập dữ
liệu đã được gán nhãn phù hợp cho từng loại sự kiện.
1.4 Khó khăn và thách thức
Bài toán phát hiện sự kiện thực sự là một bài toán khó. Về giai đoạn
phân loại sự kiện thuộc miền dữ liệu nào, chúng tôi gặp khó khăn trong việc
xây dựng bộ từ điển cho từng loại sự kiện, việc này cần có một lượng lớn dữ
liệu. Việc xử lý với một lượng lớn dữ liệu đòi hỏi nhiều thời gian cũng như
công sức.
Về giai đoạn phát hiện sự kiện, chúng tôi gặp những khó khăn chung
của lĩnh vực xử lý ngôn ngữ tự nhiên trên tiếng Việt. Bên cạnh đó, bài toán
đối mặt với các khó khăn về nhập nhằng ngữ cảnh, tính đa tham chiếu cũng
như tính đa hình cấu trúc ngữ pháp của văn bản tiếng Việt.
1.5 Kết luận chương
Trong Chương này, chúng tôi đã trình bày tổng quan bài toán phát hiện
sự kiện từ dữ liệu văn. Trọng tâm của Chương 1 là làm rõ bài toán phát hiện
sự kiện với các định nghĩa sự kiện, phát hiện sự kiện. Bên cạnh đó, chương
này cũng nêu lên những khó khăn, thách thức mà chúng tôi gặp phải trong

quá trình nghiên cứu và triển khai các cách tiếp cận phát hiện sự kiện, chi tiết
về các cách tiếp cận trong phát hiện sự kiện sẽ được chúng tôi đề cập trong
Chương 2.

16

Chương 2. MỘT SỐ KỸ THUẬT PHÁT HIỆN SỰ KIỆN
Trong chương này, chúng tôi trình bày một số cách tiếp cận bài toán
phát hiện sự kiện từ dữ liệu văn bản, bao gồm: (i) cách tiếp cận dựa trên luật,
(ii) cách tiếp cận dựa trên học máy và (iii) cách tiếp cận kết hợp luật và học
máy.
2.1 Cách tiếp cận dựa trên luật
1.1.1 Luật cú pháp
Luật cú pháp, đôi khi còn được gọi là mẫu cú pháp (lexico-syntactic
patterns) có thể coi là phương pháp được sử dụng sớm nhất để giải quyết bài
toán phát hiện và trích chọn sự kiện. Các mẫu này được xây dựng bởi chuyên
gia dưới dạng tập luật. Điển hình cho phương pháp này là các luật được biểu
diễn dưới dạng biểu thức chính quy.
Các luật cú pháp là sự kết hợp biểu diễn của các ký tự và các thông tin
cú pháp với các biểu thức chính quy. Sau khi các biểu thức chính quy đã được
xây dựng, các biểu thức này sẽ được so khớp với dữ liệu trong văn bản đầu
vào để phát hiện và trích chọn ra các thông tin tương ứng của các thuộc tính.
Đôi khi, luật cú pháp được biểu diễn ở dạng đơn giản hơn, đó là các từ khoá.
Tập luật cú pháp được sử dụng trong phát hiện và trích chọn sự kiện,
[9], [10]. Trong nghiên cứu của mình, Nishihara và cộng sự sử dụng các mẫu
về: địa điểm (place), đối tượng (object) và hành vi (action) để biểu diễn một
sự kiện được phát hiện và trích chọn từ blogs [3]. Trong lĩnh vực y sinh,
Yakushiji và cộng sự sử dụng một bộ phân tích kết hợp với ngữ pháp để xác
định mối quan hệ và các sự kiện [23]. Còn trong lĩnh vực tiền và chính trị

Aone và cộng sự đã dùng luật cú pháp để phát hiện và trích chọn thông tin

17

của sự kiện [2]. Luật cú pháp xác định các tham số bên trong văn bản không
xác định ý nghĩa văn bản.
Ví dụ về luật cú pháp:
• [NP][NER][VP]: Cử tri Việt Nam đi bầu cử.
• [NP][NER][NER][VP]: Đại sứ quán Pháp ở Libya bị đánh bom.
• [NP][NER][VP][NER][VP][NER]: Thủ tướng Việt Nam lên án
IS tấn công khủng bố tại Anh.
2.1.2 Luật ngữ nghĩa
Đôi khi phát hiện và trích chọn sự kiện phải trích chọn các khái niệm
có ý nghĩa đặc biệt hoặc mối quan hệ giữa các thành phần được trích chọn.
Do đó, để giải quyết được điều này, phương pháp thường sử dụng trong luật là
sử dụng luật ngữ nghĩa.
Các luật ngữ nghĩa không đơn giản là các từ được biểu diễn dưới dạng
biểu thức chính quy mà là các từ và mối quan hệ giữa chúng.
Ví dụ về luật ngữ nghĩa:
Trong câu: “Hội Lim được tổ chức ở Bắc Ninh”.
 (Hội Lim, Bắc Ninh) có mối quan hệ là “tổ chức”.
Luật ngữ nghĩa được sử dụng với nhiều mục đích và nhiều lĩnh vực
khác nhau. Ví dụ: Li Fang và cộng sự đã sử dụng luật nghữ nghĩa để phát hiện
và trích chọn thông tin từ sàn chứng khoán [6]; Cohen và cộng sự [4] sử dụng
khái niệm bộ nhận dạng trên miền dữ liệu y sinh để phát hiện và trích chọn
thông tin y sinh từ tập dữ liệu; Capet và các cộng sự sử dụng mẫu ngữ nghĩa

18

đề phát hiện sự kiện cho hệ thống cảnh báo sớm [17]; còn Vargas -Vera và
Celjuska đề xuất một bộ khung cho việc phát hiện các sự kiện tập trung trên
báo Knowledge Media Institute (KMI) [18]. Phát hiện và trích chọn sự kiện
trong văn bản phi cấu trúc có thể được ứng dụng trong nhiều lĩnh vực như:
giáo dục, tài chính, chứng khoán, y sinh, hình sự, cháy nổ, pháp luật,…
2.1.3 Biểu diễn tập luật
Theo Sunita Sarawagi [16], một luật cơ bản có dạng:
"mẫu theo ngữ cảnh → hành động".
Ví dụ: Mẫu biểu diễn cho sự kiện {thời gian, địa điểm, tác nhân,
hành động}.
“Vào ngày 20/8/2015 một vụ tai nạn xảy ra trên Quốc lộ 1A đã làm 3
người đi xe máy bị thương, nguyên nhân ban đầu là do xe máy chở 3 đi
ngược chiều”.
Một mẫu theo ngữ cảnh bao gồm một hoặc nhiều mẫu nhãn ghi lại
thuộc tính của một hoặc nhiều thực thể và bối cảnh xuất hiện trong văn bản.
Một mẫu được gán nhãn là so khớp một biểu thức chính quy được xác định
qua các tính năng của thẻ trong văn bản và một nhãn tùy chọn. Các thuộc tính
có thể được chỉ ra là thuộc tính của thẻ hoặc ngữ cảnh hoặc các văn bản trong
các thẻ xuất hiện.
Hầu hết các hệ thống dựa trên luật được liên tầng, luật được áp dụng
trong nhiều giai đoạn mà mỗi giai đoạn liên kết một dữ liệu đầu vào với một
chú thích như là tính năng đầu vào cho các giai đoạn tiếp theo.

19

Ví dụ, phát hiện các địa chỉ liên lạc của người được tạo ra trong hai giai
đoạn của luật: giai đoạn thứ nhất, nhãn thẻ cùng với nhãn thực thể như: tên
người, vị trí địa lý như tên đường, tên thành phố và địa chỉ thư điện tử. Giai

đoạn thứ hai, xác định khối địa chỉ cùng với đầu ra của giai đoạn thứ nhất như
là thuộc tính bổ sung.
2.1.3.1 Các thuộc tính của các thẻ
Mỗi một thẻ trong một câu thường được kết hợp cùng với tập thuộc
tính thu được thông qua một hoặc nhiều các tiêu chí sau:
• Các chuỗi đại diện cho thẻ.
• Các loại chính tả của thẻ có thể có dạng từ in hoa, từ in nhỏ, từ hỗn
hợp, số, ký hiệu đặc biệt, dấu cách, dấu chấm câu, …
• Nhãn từ loại (Part of speech).
• Danh sách xuất hiện các thẻ của từ điển. Thông thường, điều này có
thể được tiếp tục tinh chế để chỉ ra, nếu các thẻ phù hợp với từ bắt
đầu, kết thúc, hoặc từ giữa của từ điển. Ví dụ, một thẻ như " New "
phù hợp với từ đầu tiên của từ điển với tên thành phố, tên sẽ được
liên kết với một thuộc tính "Dictionary - Lookup = start of city".
• Chú thích kèm theo các bước xử lý trước đó.
Luật để xác định một thực thể đơn: Luật để nhận ra một thực thể đơn
đầy đủ bao gồm ba loại mẫu.
• Mẫu thứ nhất tùy chọn ghi lại bối cảnh trước khi bắt đầu của một
thực thể.

20

• Mẫu thứ hai mẫu kết hợp các thẻ trong các thực thể.
• Mẫu thứ ba tùy chọn để ghi lại bối cảnh sau khi kết thúc của thực
thể.
Ví dụ về một mẫu để xác định tên người có dạng "GS. Vũ Khiêu" bao
gồm một thẻ tiêu đề được liệt kê trong tập từ điển các chức danh (có chứa các
mục như: “GS”, “PGS”, “PGS.TS”, “TS”, “ThS”,…), một dấu chấm và hai từ
viết hoa là:

({Dictionary - Lookup = Titles}
{String = “.”}
{Orthography type =capitalized word}{2})
→Person Names.
Mỗi điều kiện trong dấu ngoặc nhọn là một điều kiện của một thẻ được
theo sau cùng với số tùy chọn và chỉ ra số lần lặp lại của thẻ. Ví dụ về một luật
để đánh dấu tất cả số đi sau các giới từ "by" và "in" là thực thể năm:
(String=“by”|String=“in”})
({Orthography type = Number}):y
→Year=:y.
Có hai mẫu trong luật này: mẫu đầu tiên để ghi lại ngữ cảnh xuất hiện
của các thực thể năm và mẫu thứ hai ghi lại các tính chất của thẻ tạo thành
"year".

21

Một ví dụ khác cho việc tìm kiếm tên công ty dạng “The ABC Corp.” or
“XYZ Ltd.” được tạo bởi:

({String=“The”}?
{Orthography type = All capitalized}
{Orthography type = Capitalized word, DictionaryType =Company end})

→Company name.
2.1.3.2 Các luật đánh dấu ranh giới thực thể
Đối với một số loại thực thể, đặc biệt như tiêu đề cuốn sách hay tiêu đề
các bài báo có số đơn vị từ quá dài, các luật đánh dấu ranh giới thực thể sẽ rất
hiệu quả để xác định sự bắt đầu và kết thúc một ranh giới thực thể. Đó là loại
bỏ một cách độc lập và tất cả các thẻ ở trong giữa hai thẻ đánh dấu đầu và

cuối được gọi là thực thể. Nhìn nhận vấn đề theo một cách khác, mỗi luật cơ
bản dẫn đến sự chèn của một đơn Thẻ SGML trong văn bản mà các thẻ này có
thể là một thẻ bắt đầu hoặc một thẻ kết thúc. Để giải quyết sự không nhất
quán khi có hai thực thể bắt đầu đánh dấu trước và chỉ một thực thể đánh dấu
kết thúc, điều này cần có một cách giải quyết đặc biệt.
Ví dụ, một quy tắc để chèn một thẻ <journal>, để đánh dấu sự bắt đầu
của một tên tạp chí trong một bản trích dẫn:
({String=“to”}

22

{String=“appear”}
{String=“in”}):jstart
({Orthography type = Capitalized word}{2-5})
→insert <journal> after:jstart.
2.1.3.3 Các luật cho đa thực thể
Một số luật có dạng biểu thức chính quy với nhiều slot, mỗi slot đại
diện cho một thực thể khác nhau sao cho luật này dẫn đến sự công nhận của
nhiều đối tượng cùng một lúc. Những luật này được sử dụng tốt hơn cho bản
ghi dữ liệu theo định hướng.
Ví dụ, hệ thống dựa trên luật WHISK [14] đã được nhắm tới cho việc
khai thác từ hồ sơ có cấu trúc như hồ sơ y tế, các bản ghi bảo trì thiết bị, và
phân loại quảng cáo. Các luật này được viết lại từ [14], để trích chọn hai thực
thể, số lượng phòng ngủ và cho thuê, từ một quảng cáo cho thuê căn hộ.
({Orthography type = Digit}):Bedrooms
({String =“BR”}) ({}*)
({String =“$”})
({Orthography type = Number}):Price
→Number of Bedrooms =:Bedroom, Rent =: Price

2.2 Cách tiếp cận dựa trên học máy

23

Cách tiếp cận dựa trên học máy đôi khi còn được gọi với tên là tiếp cận
dựa trên dữ liệu. Cách tiếp cận này thường được sử dụng cho các ứng dụng xử
lý ngôn ngữ tự nhiên và tập dữ liệu đủ lớn để huấn luyện cho phù hợp với các
hiện tượng ngôn ngữ [11]. Cách này thường dựa trên mô hình xác suất, lý
thuyết thông tin và đại số tuyến tính. Một số phương pháp cơ bản thường
được sử dụng là tần số xuất hiện của một từ trong văn bản và tần số nghịch
đảo của một từ trong tập văn bản (TF-IDF), n-grams hay phân cụm.
Có nhiều nghiên cứu áp dụng cách tiếp cận dựa trên dữ liệu để phát
hiện và trích chọn thông tin các sự kiện. Năm 2009, Okamoto và cộng sự [11]
dựng một khung để phát hiện các sự kiện cục bộ. Trong nghiên cứu tác giả sử
dụng các kỹ thuật phân cụm phân cấp. Trong khi đó, phân cụm có thể sinh ra
các kết quả tốt cho việc phát hiện và trích chọn sự kiện, Liu và cộng sự [8] kết
hợp các đồ thị có trọng số vô hướng chia đôi (weighted undirected bipartite
graphs) và phân cụm để phát hiện, trích chọn các thực thể chính cùng các sự
kiện có ý nghĩa từ các thông tin hàng ngày. Các kỹ thuật phân cụm cũng được
sử dụng bởi Tanev và cộng sự [5] để phát hiện và trích chọn các sự kiện: bạo
lực, thảm họa cho hệ thống giám sát.
Cách tiếp cận học máy không đòi hỏi người xây dựng cần đến các kiến
thức về ngôn ngữ và chuyên gia. Nhưng cách tiếp cận này lại đòi hỏi một
lượng dữ liệu lớn để làm tập huấn luyện. Cách tiếp cận dựa trên dữ liệu cần
xây dựng xác suất để xấp xỉ mô hình huấn luyện với dữ liệu.
2.2.1 Phương pháp k láng giềng gần nhất
Có nhiều phương pháp học máy được áp dụng vào bài toán phát hiện và
trích chọn sự kiện, trong đó k-NN là một trong những thuật toán được sử

24

dụng sớm nhất. Với học máy có giám sát, k-NN được biết đến là một phương
pháp phân lớp rất tốt trong việc nhận dạng các mẫu và phân loại văn bản.
Trong công bố của Yiming Yang và các cộng sự [20], nhóm đã tiến
hành áp dụng k-NN vào bài toán theo phát hiện và theo dõi chuỗi sự kiện, ưu
điểm của phương pháp này là kết quả rất tốt mà lại cần ít nhất số giả thiết về
các sự kiện.
Bộ phân lớp sẽ tiến hành học trên từng sự kiện riêng biệt, khi một sự
kiện mới được đưa vào, hệ thống sẽ mã hóa nó bằng một véc-tơ đặc trưng và
so sánh với các sự kiện đã có trong tập huấn luyện.
2.2.2 Phương pháp lai kNN-SVM
Máy véc-tơ hỗ trợ SVM (Support Vector Machine) được đánh giá là
một thuật toán có hiệu năng rất cao trong bài toán phân lớp văn bản, đặc biệt
là những bài toán với dữ liệu có số chiều lớn như véc-tơ biểu diễn văn bản .
Để tận dụng điều này, Zhen Lei và cộng sự đã đưa ra hướng giải quyết
bài toán trích chọn chuỗi sự kiện dựa trên ý tưởng kết hợp hai thuật toán SVM
và k-NN [24].
2.2.3 Phương pháp sử dụng trọng số TF – IDF
Phương pháp sử dụng các độ đo TF – IDF là một trong những phương
pháp thường được sử dụng trong thời kỳ mở đầu của bài toán phát hiện sự
kiện.
Để đánh giá khi so sánh văn bản d với tập đặc trưng q, Allan và cộng sự
[13] sử dụng hàm đánh giá sau:
(2.1)

25

Trong đó:
• wi là độ liên quan của đặc trưng qi.
• di là độ tin cậy được thể hiện ở công thức (2.2).

Độ tin cậy di được tính bởi công thức sau:
(2.2)
Trong đó:
• tf được thể hiện ở công thức (2.3).
• idf được thể hiện ở công thức (2.4).
• α là hằng số làm trơn, ở đây α = 0,4.
Độ đo TF được tính bởi công thức (2.3):
(2.3)
Trong đó:
• t là số lần xuất hiện của đặc trưng trong văn bản.
• dl là độ dài của văn bản tính theo đơn vị từ.
• avg_dl là số lượng trung bình đặc trưng trong một văn bản.
Độ đo idf được tính bởi công thức (2.4):
(2.4)
Trong đó:
• C là số văn bản trong bộ ngữ liệu đã được chuẩn hóa.
• df là số lượng văn bản có ít nhất một đặc trưng xuất hiện.

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH: NGHIÊN CỨU PHÁT HIỆN SỰ KIỆN TỪ DỮ LIỆU VĂN BẢN

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về