Trích rút sự kiện từ văn bản tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.46 MB, 63 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------

NGUYỄN VĂN CƢỜNG

TRÍCH RÚT SỰ KIỆN TỪ VĂN BẢN TIẾNG VIỆT

Chuyên ngành : Công Nghệ Thông Tin

LUẬN VĂN THẠC SĨ KỸ THUẬT
Công nghệ thông tin

NGƢỜI HƢỚNG DẪN KHOA HỌC :
PGS.TS. LÊ THANH HƢƠNG

Hà Nội – Năm 2015
1

MỤC LỤC
MỤC LỤC ...................................................................................................................2
LỜI CAM ĐOAN .......................................................................................................5
LỜI CẢM ƠN .............................................................................................................6
DANH MỤC CÁC TỪ VIẾT TẮT ............................................................................7
DANH MỤC CÁC HÌNH VẼ.....................................................................................8
MỞ ĐẦU .....................................................................................................................9
Chƣơng 1. TỔNG QUAN .........................................................................................10
1.1

Tên đề tài .....................................................................................................10

1.2

Lý do chọn đề tài .........................................................................................10

1.3

Mục tiêu nghiên cứu. ...................................................................................10

1.4

Phạm vi nghiên cứu .....................................................................................11

1.5

Đóng góp chính của luận văn ......................................................................11

1.6

Bố cục của luận văn .....................................................................................11

Chƣơng 2. TỔNG QUÁT VỀ TRÍCH RÚT THÔNG TIN SỰ KIỆN .....................13
2.1 Trích rút thông tin. ...........................................................................................13
2.2 Trích rút sự kiện ...............................................................................................14
2.2.1 Định nghĩa sự kiện .................................................................................... 15
2.2.2 Bài toán trích rút sự kiện ........................................................................... 15
2.3 Trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt ..............................16
2.4 Sự khác nhau giữa trích rút thông tin và trích rút sự kiện ...............................17
2.5 Ý nghĩa bài toán trích rút sự kiện hội thảo khoa học .......................................18
2.6 Kết luận chƣơng ...............................................................................................18

Chƣơng 3. PHƢƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN TRÍCH RÚT
SỰ KIỆN ...................................................................................................................19
3.1 Phƣơng pháp dựa trên tập luật .........................................................................19
3.1.1 Luật cú pháp .............................................................................................. 19
3.1.2 Luật ngữ nghĩa ........................................................................................... 20
3.1.3 Định dạng và biểu diễn của tập luật .......................................................... 20
2

3.1.3.1 Đặc điểm của các thẻ. .........................................................................20
3.1.3.2 Các luật để xác định một thực thể đơn................................................21
3.1.3.3 Các luật cho đa thực thể ......................................................................21
3.1.3.4 Lựa chọn định dạng của tập luật .........................................................22
3.2 Ƣu nhƣợc điểm của phƣơng pháp tiếp cận dựa trên luật .................................22
3.3 Tổng quan về Gate ...........................................................................................23
3.3.1 Giới thiệu Gate .......................................................................................... 23
3.3.2 Kiến trúc của Gate ..................................................................................... 24
3.3.3 ANNIE (A Nearly New Information Extraction System) ......................... 26
3.3.4 Bộ luật JAPE (Java Annotation Patterns Engine) ..................................... 27
3.4 Mô hình trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt .................29
3.4.1Thu thập dữ liệu.......................................................................................... 31
3.4.2 Tiền xử lý .................................................................................................. 31
3.4.2.1 Tách từ ................................................................................................31
3.4.2.2 Tách câu ..............................................................................................31
3.4.2.3 Gán nhãn dữ liệu .................................................................................32
3.4.3 So khớp luật ............................................................................................... 32
3.5 Phân tích và thiết kế hệ thống ..........................................................................33
3.6 Thiết kế cơ sở dữ liệu ......................................................................................34
3.7 Kết luận chƣơng ...............................................................................................35
Chƣơng 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ ........................................................36

4.1 Một số công cụ sử dụng trong thực nghiệm ....................................................36
4.1.1 Về thiết bị cấu hình phần cứng .................................................................. 36
4.1.2 Về công cụ phần mềm ............................................................................... 36
4.2 Xây dựng các luật trong Gate ..........................................................................36
4.2.1 Luật đƣợc xây dựng địa chỉ nhƣ sau: ........................................................ 36
4.2.2 Luật xây dựng thời gian nhƣ sau: .............................................................. 40
4.2.3 Luật xây dựng tên sự kiện nhƣ sau:........................................................... 43
4.2.4 Luật xây dựng link gốc .............................................................................. 45

3

4.3 Xây dựng hệ thống và giao diện thực nghiệm .................................................45
4.4 Đƣa dữ liệu lên Web, khai thác tìm kiếm thông tin.........................................52
4.5 Đánh giá quá trình rút sự kiện ........................................................................55
4.6 Kết luận chƣơng ..............................................................................................56
Chƣơng 5 KẾT QUẢ VÀ HƢỚNG PHÁT TRIỂN..................................................57
5.1 Các kết quả đạt đƣợc........................................................................................57
5.2 Hƣớng phát triển ..............................................................................................57
TÀI LIỆU THAM KHẢO .........................................................................................58
PHỤ LỤC ..................................................................................................................59

4

LỜI CAM ĐOAN
Tôi xin cam đoan giải pháp trích rút sự kiện từ văn bản tiếng Việt đƣợc trình
bày trong luận văn này là do tôi thực hiện dƣới sự hƣớng dẫn của PGS.TS Lê Thanh
Hƣơng.
Các kết quả trong luận văn tốt nghiệp là trung thực, chƣa công bố trên bất kỳ

công trình khoa học nào khác và không sao chép toàn văn của bất kỳ công trình nào
khác. Tôi xin chịu trách nhiệm về nội dung quyển luận văn này.
Tác giả

Nguyễn Văn Cƣờng

5

LỜI CẢM ƠN
Luận văn Trích rút sự kiện từ văn bản tiếng Việt là kết quả của quá trình học
tập và nghiên cứu trong suốt thời gian học tập Thạc Sỹ tại Trƣờng Đại học Bách
khoa Hà Nội. Trong suốt quá trình làm luận văn tác giả luôn nhận đƣợc sự chỉ bảo
tận tình và những yêu cầu nghiêm khắc của PGS.TS. Lê Thanh Hƣơng. Trƣớc hết
tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới PGS.TS. Lê Thanh Hƣơng,
ngƣời đã truyền đạt những kiến thức qúi báu cũng nhƣ những kinh nghiệm nghiên
cứu khoa học trong suốt thời gian tác giả làm luận văn.
Để hoàn thành luận văn này, tác giả xin chân thành cảm ơn đến Ban lãnh đạo
Viện Công nghệ thông tin và Truyền thông, Viện Đào tạo sau đại học, Bộ môn Hệ
thống Thông tin thuộc trƣờng Đại học Bách khoa Hà Nội đã tạo điều kiện thuận lợi
trong quá trình học tập và nghiên cứu để hoàn thành luận văn này.
Tác giả xin chân thành cảm ơn đến Ban Giám hiệu trƣờng Đại học Kỹ thuật Hậu cần CAND và anh em trong đơn vị đã tạo điều kiện cho tác giả đi học tập và
nghiên cứu.
Với năng lực còn hạn chế luận văn không tránh đƣợc những thiếu sót. Tác
giả rất mong đƣợc sự góp ý của quý thầy cô, anh em bạn bè đồng nghiệp để luận
văn đƣợc hoàn thiện hơn.
Tác giả

Nguyễn Văn Cƣờng

6

DANH MỤC CÁC TỪ VIẾT TẮT

MUC

Message Understanding Conference

ACE

Automatic Content Extraction

NER

Named Entity Recognition

RE

Relation Extraction

IE

Information Extraction

CSDL

Cơ sở dữ liệu

NLP

Natural Language Processing

EE

Event Extraction

DM

Data Mining

GATE

General Architecture for Text Engineering

ANNIE

A Nearly New Information Extraction System

JAPE

Java Annotation Patterns Engine

LHS

Left-Hand-Side

RHS

Right-Hand-Side

7

DANH MỤC CÁC HÌNH VẼ

Hình 3.1 Mô hình kiến trúc của GATE .....................................................................24
Hình 3.2 Mô hình quá trình trích rút sự kiện hội thảo khoa học ...............................30
Hình 3.3 Biểu đồ phân tích chức năng ......................................................................33
Hình 4.1 Giao diện chính hệ thống GATE ................................................................46
Hình 4.2 Giao diện vế trái của hệ thống GATE ........................................................47
Hình 4.3 Giao diện vế phải hệ thống GATE .............................................................48
Hình 4.4 Kết quả trích rút từ văn bản định dạng tự do .............................................49
Hình 4.5 Kết quả trích rút từ văn bản có định dạng ..................................................49
Hình 4.6 Thông tin về tên hội thảo đƣợc lƣu trong bảng tenhoithao ........................51
Hình 4.7 Dữ liệu đƣợc lƣu vào các bảng trong cơ sở dữ liệu ...................................51
Hình 4.8 Sau khi trích rút thông tin hiện thị trên website .........................................52
Hình 4.9 Kết quả tìm kiếm theo tên hội thảo ............................................................53
Hình 4.10 Kết quả tìm kiếm theo chủ đề và thời gian ..............................................53
Hình 4.11 Kết quả tìm kiếm kết hợp theo tên hội thảo và theo thời gian .................54
Hình 4.12 Giao diện sau khi kích vào đƣờng link ....................................................55

8

MỞ ĐẦU
Trên thế giới đã có rất nhiều công trình nghiên cứ về trích rút thông tin
(Information Extraction - IE), trích rút sự kiện (Event Extraction - EE) là một lĩnh
vực con của trích rút thông tin (Information Extraction - IE). Trong những năm gần
đây, trích rút sự kiện đã thu hút đƣợc rất nhiều sự quan tâm của các nhà khoa học

trên khắp thế giới, nó đã thu đƣợc nhiều kết quả và đƣợc cộng đồng trên khắp thế
giới quan tâm. Chính vì vậy mà trích rút sự kiện đã đƣợc ứng dụng vào rất nhiều
lĩnh vực khác nhau nhƣ kinh tế, chính trị, văn hóa, xã hội, y tế…
Ngày nay cùng với sự phát triển nhanh chóng của Internet với việc kết nối
máy tính băng thông rộng, việc tiếp cận khối lƣợng lớn từ các kho dữ liệu văn bản
khắp nơi trên thế giới. Chính vì vậy đặt ra câu hỏi làm thế nào chúng ta lấy đƣợc
những thông tin cần thiết và nhanh nhất từ lƣợng dữ liệu khổng lồ đó mà mất ít thời
gian nhất. Trích rút thông tin cho phép chúng ta thu thập và lọc ra những thông tin
cần thiết một cách dễ dàng nhanh chóng và thuận tiện…
Trên thế giới đã có nhiều công trình nghiên cứu về trích rút sự kiện, ở Việt
Nam các công trình nghiên cứu về vấn đề này còn ít. Trong luận văn này tác giả sẽ
trình bày trích rút thông tin, trích rút sự kiện, định nghĩa sự kiện, trích rút sự kiện từ
văn bản hội thảo khoa học tiếng Việt, ý nghĩa bài toán trích rút sự kiện, phƣơng
pháp sử dụng trong luận văn, công cụ sử dụng trong luận văn.

9

Chƣơng 1. TỔNG QUAN
1.1 Tên đề tài
Tên đề tài Tiếng Việt: Trích rút sự kiện từ văn bản tiếng Việt.
Tên đề tài Tiếng Anh: Event extraction from text Vietnamese.
1.2 Lý do chọn đề tài
Ngày nay, cùng với sự phát triển nhanh của đất nƣớc và hội nhập với khu
vực thì công nghệ thông tin đóng vai trò quan trọng, nó đang phát triển mạnh mẽ vì
thế nó đƣợc ứng dụng trong nhiều lĩnh vực của cuộc sống xã hội. Với sự phát triển
mạnh mẽ của Internet kết nối băng thông rộng cho phép chúng ta tìm kiếm thông tin
một cách dễ dàng cùng với nguồn dữ liệu rất đa dạng và phong phú từ Internet. Tuy
nhiên với một kho dữ liệu rất phong phú và đa dạng trên Internet đó thì không phải
dữ liệu nào cũng chính thống. Ngƣời sử dụng luôn mong muốn có những thông tin

chính xác và đƣợc tổng hợp từ nhiều nguồn khác nhau để dễ dàng theo dõi, tìm
kiếm, lƣu trữ,… vì vậy cần có một hệ thống trích rút sự kiện để ngƣời dùng dễ dàng
khai thác.
Trên thế giới, trích rút sự kiện đang rất đƣợc quan tâm. Để ứng dụng đƣợc
vào trong thực tế thì hệ thống trích rút sự kiện thƣờng đƣợc cài cho một ứng dụng
cụ thể. Có rất nhiều khía cạnh mà EE chƣa khai thác hết. Ở mỗi lĩnh vực khác nhau
thì có thể áp dụng phƣơng thức tiếp cận khác nhau để giải quyết.
Ở Việt Nam, các nghiên cứu về trích rút sự kiện còn ít nhất là trong lĩnh
vực trích rút sự kiện từ văn bản Tiếng Việt còn nhiều hạn chế. Chính vì vậy tôi đã
lựa chọn đề tài: “Trích rút sự kiện từ văn bản tiếng Việt” mong muốn tìm ra những
phƣơng pháp giải quyết tốt hơn hiệu quả hơn đạt kết quả tốt hơn, nghiên cứu sâu
hơn.
1.3 Mục tiêu nghiên cứu.
Từ lý do chọn đề tài nêu tại mục 1.2 trong luận văn tác giả nghiên cứu
phƣơng pháp tiếp cận giải quyết bài toán trích rút sự kiện để trích rút các thực thể.
Từ đó xây dựng và cài đặt một chƣơng trình demo ứng dụng trích rút sự kiện từ
văn bản hội thảo khoa học tiếng Việt để hỗ trợ ngƣời dùng.

10

1.4 Phạm vi nghiên cứu
Phạm vi nghiên cứu: Trong luận văn tập trung vào việc trích rút các thực
thể trong lĩnh vực hội thảo. Tập dữ liệu thử nghiệm đƣợc thu thập từ các trang
Website trực tuyến, các văn bản liên quan đến hội thảo. Trong luận văn tác giả sử
dụng hệ thống văn phạm JAPE trong bộ công cụ phần mềm mã nguồn mở GATE để
trích rút các thực thể, các thông tin liên quan đến trích rút nhƣ: Thời gian (bao gồm
giờ phút, ngày tháng năm), tên địa chỉ (địa chỉ diễn ra hội thảo ở đâu), tên hội thảo
là gì. Sau khi trích rút đƣợc các thực thể trên thì lƣu vào cơ sở dữ liệu. Sau đó đƣa
dữ liệu lên mạng để khai thác sử dụng tại đây ngƣời sử dụng có thể tìm kiếm theo

tên hội thảo, tìm kiếm theo thời gian.
1.5 Đóng góp chính của luận văn
-

Cung cấp phƣơng pháp tiếp cận giải quyết bài toán trích rút sự kiện và
công cụ để trích rút ra các thuộc tính của thực thể.

-

Đề xuất mô hình cho hệ thống trích rút sự kiện từ văn bản hội thảo khoa
học tiếng Việt

-

Đƣa ra cái nhìn tổng quát về lĩnh vực trích rút sự kiện hiện nay.

1.6 Bố cục của luận văn
Luận văn đƣợc chia làm năm chƣơng:
Chƣơng một là phần mở đầu tác giả trình bày lý do chọn đề tài, mục tiêu
nghiên cứu, phạm vi nghiên cứu và những đóng góp chính của luận văn.
Chƣơng hai tác giả tập trung giới thiệu trích rút thông tin, trích rút sự kiện,
định nghĩa sự kiện, bài toán trích rút sự kiện, trích rút sự kiện từ văn bản hội thảo
khoa học tiếng Việt, ý nghĩa bài toán trích rút sự kiện.
Chƣơng ba cung cấp phƣơng pháp, công cụ tiếp cận để trích rút các thực
thể, tổng quan về công cụ GATE (giới thiệu về Gate, kiến trúc của Gate, ANNIE,
bộ luật JAPE), mô hình trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt,
phân tích và thiết kế hệ thống, thiết kế cơ sở dữ liệu.
Chƣơng bốn thực nghiệm và đánh giá

11

Chƣơng năm là phần kết luận và tổng kết lại các kết quả đã đạt đƣợc của
luận văn và đề xuất các hƣớng nghiên cứu trong tƣơng lai có liên quan đến luận
văn.

12

Chƣơng 2. TỔNG QUÁT VỀ TRÍCH RÚT THÔNG TIN SỰ KIỆN
Ở trong chƣơng này tác giả tập trung chủ yếu giải quyết các vấn đề sau:
giới thiệu trích rút thông tin, trích rút sự kiện, định nghĩa sự kiện, bài toán trích rút
sự kiện, trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt, ý nghĩa bài toán
trích rút sự kiện.
2.1 Trích rút thông tin.
Ngày nay, trích rút thông tin (Information Extraction - IE ) có rất nhiều
cách định nghĩa khác nhau. Song có thể định nghĩa nhƣ sau Trích rút thông tin là
quá trình xử lý thông tin mà đầu vào là dạng văn bản bán cấu trúc hoặc văn bản phi
cấu trúc nhƣ: văn bản, trang web… Văn bản này sau khi đƣợc đi qua hệ thống sẽ tự
động trích rút ra các thực thể nhƣ: tên địa chỉ, tên ngƣời, tên quốc gia, tên cơ quan,
tên tổ chức thành dạng văn bản có cấu trúc nhằm thỏa mãn nhu cầu của ngƣời sử
dụng.
Để trích rút ra các thông tin có cấu trúc từ nguồn dữ liệu bán cấu trúc và phi
cấu trúc là một việc rất khó khăn, không hề dễ ràng chính vì thế nó đã thu hút đƣợc
sự quan tâm của rất nhiều các nhà nghiên cứu trong những năm qua. Chính vì vậy
trích rút thông tin ngày càng đƣợc quan tâm hơn bởi các nhà nghiên cứu khác nhau
về học máy, truy vấn thông tin, cơ sở dữ liệu. Do đó hai hội nghị đã diễn ra rất quan
trọng đối với các nghiên cứu về trích rút thông tin là: Message Understanding
Conference (MUC) và Automatic Content Extraction (ACE)
Trích rút thông tin từ văn bản có nhiều mức độ nhƣ: trích rút các thực thể

(Named Entity Recognition –NER), trích rút quan hệ giữa các thực thể (Relation
Extraction - RE), phân giải đồng tham chiếu (Co-reference Resolution). Các kỹ
thuật đƣợc sử đụng trong trích rút thông tin bao gồm: phân đoạn, phân lớp, kết hợp,
phân cụm.
Về ứng dụng trong trích rút thông tin rất rộng rãi, trên thế giới IE đƣợc ứng
dụng rất nhiều vào việc trích rút thông tin trên Internet nhƣ: lấy thông tin về tên các
công ty, tên giám đốc, theo dõi các sự kiện … Ngoài ra IE còn đƣợc ứng dụng vào
chăm sóc khách hàng nhƣ trích rút ra các thông tin của khách hàng : họ tên, địa chỉ,

13

số điện thoại, ngày tháng năm sinh của khách hàng, địa chỉ email, số nhà… sau đó
lƣu vào trong cơ sở dữ liệu với mục đích để chăm sóc khách hàng tốt hơn. Trong
những năm gần đây IE đặc biệt chú trọng và quan tâm trong lĩnh vực y học vì vậy
đã có khá nhiều nghiên cứu đƣợc tiến hành nhằm ứng dụng IE vào việc trích rút
thông tin các thực thể trong lĩnh vực ngành y nhƣ tên protein và gene. Các công cụ
trích rút thông tin tự động từ các trang website nhƣ hệ thống trích rút mối quan hệ
giữa các thực thể là rất cần thiết. Ngoài ra IE còn hỗ trợ hệ thống trả lời câu hỏi tự
động.
Bài toán trích rút thông tin từ văn bản có thể đƣợc phát biểu nhƣ sau:
+ Đầu vào: Dữ liệu văn bản bất kỳ
+ Đầu ra: Thông tin dƣới dạng có cấu trúc
2.2 Trích rút sự kiện
Trích rút sự kiện với mục đích là trích rút ra các thông tin có ý nghĩa từ tập
dữ liệu bán cấu trúc hay phi cấu trúc và đƣợc đông đảo cộng đồng các nhà khoa học
rất quan tâm và đầu tƣ nghiên cứu. Chính vì vậy khái niệm sự kiện lần đầu tiên
đƣợc tổ chức vào năm 1987 Message Understanding Conferences (MUC) với sự hỗ
trợ của Quỹ nghiên cứu của Bộ quốc phòng Hoa Kỳ. Sau đó có rất nhiều các hội
nghị đã đƣợc tổ chức tạo thành chuỗi hội nghị MUC. Tại mỗi hội nghị thì thông tin

cũng đƣợc quan tâm khác nhau nhƣng đều có đặc điểm chung là chúng đƣợc trích
rút từ dữ liệu nói về khủng hoảng. Các chủ đề trong dữ liệu thƣờng là khủng bố, tội
phạm, đánh bom và tại hội nghị này MUC đã đƣa ra đƣợc trích rút thông tin dựa
trên mẫu đó là một đóng góp lớn. Các mẫu này đƣợc ban tổ chức quy định vì vậy
các đội tham gia cần điền thông tin vào các mẫu này một cách tự động. Kết quả các
sự kiện đƣợc trích rút gồm các thông tin: ngƣời, sự việc, sự vật, tổ chức, thời gian,
địa chỉ, số lƣợng…Độ chính xác (precision) nằm trong khoảng từ 60% đến 70% và
hồi tƣởng (recall) từ 40% đến 50% [2]của các nghiên cứu tham dự MUC.
Trích rút nội dung tự động Automatic Content Extraction (ACE) của đại
học Pennsylvania đƣợc viết chủ yếu bằng các ngôn ngữ nhƣ: tiếng Anh, Trung
Quốc, Ả rập. Đây là một chƣơng trình cũng đã thu hút đƣợc nhiều sự quan tâm từ

14

cộng đồng các nhà nghiên cứu khoa học. Các thông tin đƣợc trích rút gồm các thực
thể, quan hệ giữa các thực thể, và các sự kiện tham gia vào.
Qua đó có thể thấy rằng trích rút sự kiện nói riêng và trích rút thông tin nói
chung. Đây là một vấn đề rất đƣợc quan tâm và chú trọng trong thời đại ngày nay,
nó nhận đƣợc rất nhiều sự quan tâm của cộng đồng và các nhà khoa học trên khắp
thế giới.
2.2.1 Định nghĩa sự kiện
Trích rút sự kiện đƣợc giới thiệu lần đầu tiên vào năm 1987 Message
Understanding Conference (MUC) [2] nó đánh dấu một bƣớc tiến trong trích rút sự
kiện. Khi đó một sự kiện đƣợc định nghĩa nhƣ sau: “một sự kiện có tác nhân, thời
gian, địa chỉ và tác động tới môi trƣờng xung quanh”.
Còn theo Doddington George và các cộng sự trong một chƣơng trình
Automatic Content Extraction (ACE) cũng đã đƣa ra định nghĩa về sự kiện nhƣ
sau: “một sự kiện là một hành động đƣợc tạo bởi những ngƣời tham gia”[4]. Trong
chƣơng trình ACE đã chia sự kiện ra thành các loại sau: tác nhân, đối tƣợng, nguồn

gốc, mục tiêu.
Qua các nghiên cứu của các nhà khoa học có thể thấy rằng các nghiên cứu
đều đồng ý sự kiện có thể coi nhƣ một mẫu gồm nhiều các thuộc tính. Quá trình
trích rút sự kiện quan tâm làm thế nào có thể điền các thông tin phù hợp từ các văn
bản gốc tƣơng ứng cho từng thuộc tính của nó.
2.2.2 Bài toán trích rút sự kiện
Trích rút sự kiện (Event Extraction - EE) là một lĩnh vực con của trích rút
thông tin. Nếu nhƣ trích rút thông tin chỉ quan tâm các dữ liệu rời rạc (tên ngƣời,
địa chỉ, cơ quan, số điện thoại,…) thì trích rút sự kiện quan tâm nhiều hơn tới tính
cấu trúc và mức độ liên quan của thông tin trong một sự kiện. Từ đó, ngƣời đọc có
thể dễ ràng suy luận ra các thông tin có ý nghĩa.
Trích rút sự kiện từ văn bản nhận đầu vào là các văn bản phi cấu trúc hoặc
văn bản bán cấu trúc đầu ra nó đƣợc biểu diễn dƣới dạng thông tin có cấu trúc.
Trích rút sự kiện có thể áp dụng cho một miền dữ liệu cụ thể nhƣ hội thảo khao học,

15

thông tin các tour du lịch, làm cha mẹ, họp hội đồng hƣơng, tai nạn giao thông, các
cuộc mitting biểu tình, các sự kiện cho quảng cáo,… các thông tin xung quanh sự
kiện thƣờng bao gồm: Thời gian, địa chỉ, tên sự kiện, số lƣợng ngƣời tham gia,
thành phần tham gia,….
Còn theo Grishman và cộng sự, trích rút sự kiện là một bài toán khó vì phải
xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) và đặc trƣng dữ liệu
[2]. Điều này dễ ràng nhận thấy trích rút sự kiện phụ thuộc nhiều vào ngôn ngữ tự
nhiên mà cụ thể là bài toán nhận dạng thực thể (Named Entity Recognition - NER).
Đồng thời, dữ liệu đầu vào của trích rút sự kiện rất đa dạng, phong phú do đó sẽ ảnh
hƣởng tới tính hiệu quả của trong quá trình trích rút.
Bài toán trích rút sự kiện nhiệm vụ của nó là: làm thế nào để trích rút các
thuộc tính của một sự kiện. Để giải quyết vấn đề này thì hiện nay có nhiều phƣơng

pháp trích rút ra thuộc tính của sự kiện, trong đó phải kể đến phƣơng pháp sử dụng
luật phƣơng pháp tập luật đƣợc sử dụng từ rất sớm ngày nay nó vẫn đang tiếp tục
đƣợc phát triển để giải quyết bài toán này[3]. Quá trình trích rút bằng phƣơng pháp
này thƣờng đƣợc sử dụng các luật dựa vào quá trình khảo sát dữ liệu để trích ra các
thuộc tính của một sự kiện.
2.3 Trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt
Trong những năm gần đây trích rút sự kiện đã thu hút đƣợc nhiều sự quan
tâm của nhiều nhà khoa học. Đây là bƣớc đi tốt cho việc khai thác tri thức trong văn
bản.
Trích rút sự kiện từ văn bản hội thảo khoa học tiếng Việt: Thời gian( giờ
phút ngày tháng năm), địa chỉ diễn ra hội thảo ở đâu? tên hội thảo là gì? Kết quả của
trích rút ra đƣợc đƣa vào trong cơ sở dữ liệu và đƣa lên trang web để thông báo,
khai thác các sự kiện hội thảo diễn ra.
Đầu vào: Là các văn bản hội thảo khoa học (văn bản phi cấu trúc hoặc bán
cấu trúc)
Đầu ra: Trích rút ra các thông tin sự kiện hội thảo(tên hội thảo, thời gian, địa
chỉ)

16

Ví dụ 1 Hội thảo khoa học đầu vào là dạng văn bản tự do
Nằm trong chuỗi các hoạt động khoa học dài hạn của Viện Nghiên cứu Đông
Bắc Á thuộc Viện Hàn lâm Khoa học xã hội Việt Nam (Viện Hàn lâm) đƣợc tổ
chức hàng năm với các chủ đề khác nhau về Nhật Bản; đƣợc đồng ý của Chủ tịch
Viện Hàn lâm và sự tài trợ của Quỹ Giao lƣu Quốc tế Nhật Bản (Japan Foundation),
ngày 03/9/2015, tại Hội trƣờng 3D, Liễu Giai, Ba Đình, Hà Nội, Viện Nghiên cứu
Đông Bắc Á (Viện Hàn lâm) tổ chức hội thảo tập huấn (workshop) quốc tế lần thứ
ba với chủ đề “Nghiên cứu lịch sử - văn hóa Nhật Bản” đợt I trong thời gian 5 ngày
(từ 3/9- 9/9/2015). Đây là khóa học ngắn ngày dành cho các cán bộ trẻ phục vụ

công tác nghiên cứu, giảng dạy về Nhật Bản tại các viện nghiên cứu và trƣờng đại
học tại Việt Nam.
Ví dụ 2 Hội thảo khoa học đầu vào dữ liệu có định dạng (tên hội thảo, thời
gian, địa chỉ)
Bộ Công Thƣơng phối hợp với Công ty TNHH Điện tử Samsung Việt Nam
tổ chức hội thảo về lĩnh vực công nghiệp hỗ trợ của Samsung nhằm tìm ra các
doanh nghiệp Việt Nam có khả năng trở thành nhà cung cấp trực tiếp hoặc gián tiếp
cho Samsung, cụ thể nhƣ sau:
- Tên Hội thảo: “Triển lãm Hội thảo công nghiệp hỗ trợ của Samsung Điện
tử”.
- Thời gian: 8h00, thứ Tƣ, ngày 15 tháng 7 năm 2015.
- Địa chỉ: Khách sạn Grand Plaza, 117 Trần Duy Hƣng, Trung Hòa, Cầu
Giấy, Hà Nội.
Trong khảo sát thực tế, cho thấy các hội thảo thƣờng ở dạng văn bản tự do
hoặc văn bản có định dạng sẵn, trong cả hai định dạng này thì các thuộc tính chính
cần trích rút là: tên hội thảo, thời gian, địa chỉ.
2.4 Sự khác nhau giữa trích rút thông tin và trích rút sự kiện
Trích rút sự kiện là một là một lĩnh vực con của trích rút thông tin, nếu nhƣ
trích rút thông tin quan tâm nhiều tới các dữ liệu rời rạc thì trích rút sự kiện quan

17

tâm nhiều hơn tới tính cấu trúc và mức độ liên quan của thông tin trong một sự kiện.
Từ đó, ngƣời đọc có thể dễ ràng suy luận ra các thông tin có ý nghĩa.
Trích rút sự kiện có thể áp dụng cho một miền dữ liệu cụ thể nhƣ vụ
tai nạn giao thông, bệnh dịch, thông tin các tour du lịch, đồng thời đƣa ra các
thông tin xung quanh sự kiện đó thƣờng bao gồm: Thời gian, địa điểm, tên sự kiện,
số lƣợng,…
2.5 Ý nghĩa bài toán trích rút sự kiện hội thảo khoa học

Ý nghĩa của bài toán trích rút sự kiện đƣợc rất nhiều các nhà khoa học và
cộng đồng quan tâm.
Kết quả trích rút sự kiện hội thảo khoa học từ văn bản tiếng Việt là cơ sở
cho việc khai thác thông tin, tổng hợp.
Ngoài ra nó còn giúp cho ngƣời dùng tìm kiếm thông tin liên quan đến hội
thảo khoa học một cách dễ dàng.
2.6 Kết luận chƣơng
Trong chƣơng này, luận văn đã trình bày cơ bản về trích rút thông tin, trích
rút sự kiện, định nghĩa sự kiện, bài toán trích rút sự kiện, trích rút sự kiện từ văn bản
hội thảo khoa học tiếng Việt; đồng thời nêu ý nghĩa của bài toán trích rút sự kiện từ
văn. Trong chƣơng 3, luận văn sẽ trình bày phƣơng pháp tiếp cận và công cụ để giải
quyết bài toán trích rút sự kiện.

18

Chƣơng 3. PHƢƠNG PHÁP TIẾP CẬN GIẢI QUYẾT BÀI TOÁN
TRÍCH RÚT SỰ KIỆN
Để giải quyết bài toán trích rút sự kiện, hiện nay có nhiều giải pháp đã đƣợc
đƣa ra để giải quyết bài toán này cụ thể nhƣ:
1. Phƣơng pháp dựa trên dữ liệu (data-driven) hay còn đƣợc gọi là phƣơng
pháp tiếp cận dựa trên học máy.
2. Phƣơng pháp dựa trên tri thức (knowledge - driven) hay còn gọi là
phƣơng pháp dựa trên tập luật.
3. Phƣơng pháp kết hợp luật và học máy.
Mỗi phƣơng pháp đều có những ƣu nhƣợc điểm riêng. Tuy nhiên, trong
luận văn này tác giả không sử dụng phƣơng pháp tiếp cận dựa trên học máy vì
phƣơng pháp này cần phải sử dụng một lƣợng dữ liệu lớn để làm tập huấn luyện mà
việc gán nhãn dữ liệu đôi khi còn tốn thời gian và chi phí. Tác giả lựa chọn phƣơng
pháp dựa trên luật vì tính tiện lợi và dễ sử dụng của nó. Do đó, trong chƣơng này,

luận văn trình bày chi tiết về phƣơng pháp dựa trên tập luật và công cụ hỗ trợ việc
trích rút thuộc tính và kiến trúc GATE trong bài toán trích rút sự kiện, mô hình trích
rút sự kiện từ văn bản hội thảo khao học tiếng Việt.
3.1 Phƣơng pháp dựa trên tập luật
Phƣơng pháp dựa trên tập luật hay còn gọi là phƣơng pháp dựa trên tri thức
(knowledge - driven). Phƣơng pháp dựa trên tập luật thƣờng sử dụng kiến thức
chuyên gia về miền để sinh ra tập luật. Ngƣời ta xây dựng một bộ tập các luật,
phƣơng pháp này có đặc điểm dễ thực hiện, thời gian thực thi nhanh và tối ƣu.
3.1.1 Luật cú pháp
Luật cú pháp hay còn đƣợc gọi là mẫu cú pháp (lexico-syntactic patterns)
luật cú pháp đã đƣợc sử dụng sớm trong bài toán trích rút sự kiện. Điển hình cho
phƣơng pháp này là các luật đƣợc biểu diễn dƣới dạng biểu thức chính quy. Các
mẫu này đƣợc sinh ra từ các chuyên gia miền dƣới dạng tập luật [1],[5].
Có thể nói luật cú pháp là sự kết hợp của các ký tự và các thông tin cú pháp
với các biểu thức chính quy sau khi các biểu thức chính quy này đã đƣợc xây dựng

19

các biểu thức này sẽ đƣợc so khớp với dữ liệu trong văn bản đầu vào để trích chọn
ra các thông tin tƣơng ứng của các thuộc tính. Trong một số trƣờng hợp luật cú
pháp đƣợc biểu diễn ở dạng đơn giản hơn, đó là các từ khoá. Tập luật cú pháp đƣợc
sử dụng trong trích rút sự kiện.
3.1.2 Luật ngữ nghĩa
Trong một số trƣờng hợp trích rút sự kiện phải trích rút các khái niệm có ý
nghĩa đặc biệt. Để giải quyết đƣợc điều này, phƣơng pháp thƣờng sử dụng và hợp lý
là sử dụng luật ngữ nghĩa. Các luật ngữ nghĩa không đơn giản là các từ đƣợc biểu
diễn dƣới dạng biểu thức chính quy mà là các từ và mối quan hệ giữa chúng.
Để hiểu rõ hơn về chúng ta tìm hiểu về định dạng và biểu diễn của tập luật
trong trích rút thực thể.

3.1.3 Định dạng và biểu diễn của tập luật
Theo Sunita Sarawagi[6], một luật cơ bản có dạng nhƣ sau: "mẫu ngữ cảnh
→ hành động". Một mẫu ngữ cảnh bao gồm một hoặc nhiều mẫu nhãn ghi lại thuộc
tính của một hoặc nhiều thực thể. Một mẫu đƣợc gán nhãn là bao gồm một mẫu có
biểu thức chính quy đƣợc xác định qua các tính năng của thẻ trong văn bản và một
nhãn tuỳ chọn. Các thuộc tính này có thể đƣợc chỉ ra là thuộc tính của thẻ hoặc ngữ
cảnh hoặc các văn bản trong các thẻ xuất hiện.
3.1.3.1 Đặc điểm của các thẻ.
Sự kết hợp giữa một thẻ trong một câu thƣờng đƣợc kết hợp cùng với tập
thuộc tính thu đƣợc thông qua một hoặc nhiều các tiêu chí nhƣ:
- Các chuỗi đại diện cho thẻ thông báo.
- Các loại chính tả của thẻ, có thể có dạng từ in hoa, từ in thƣờng, hỗn hợp
in hoa và in thƣờng, dấu cách, dấu chấm câu số, ký hiệu đặc biệt.
- Các phần của bài phát biểu của thẻ.
- Danh sách xuất hiện các thẻ của từ điển. Thông thƣờng điều này có thể
đƣợc tiếp tục tinh chế để cho biết, nếu các thẻ phù hợp với từ bắt đầu, kết thúc, hoặc
từ giữa một từ điển.

20

Ví dụ, một thẻ nhƣ “New” phù hợp với từ đầu tiên của từ điển với tên thành
phố, tên đó sẽ đƣợc liên kết với một thuộc tính “Dictionary - Lookup = start of
city.”
- Các chú thích kèm theo các bƣớc xử lý trƣớc đó.
3.1.3.2 Các luật để xác định một thực thể đơn
Các luật để nhận ra một thực thể đơn đầy đủ bao gồm ba loại mẫu sau:
- Một mẫu tùy chọn ghi lại bối cảnh trƣớc khi bắt đầu của một thực thể
- Một mẫu phù hợp với các thẻ trong các thực thể.
- Một mẫu tùy chọn để ghi lại bối cảnh sau khi kết thúc của thực thể.

Ví dụ về một mẫu để xác định tên ngƣời có dạng “Dr. Yair Weiss” bao gồm
một thẻ tiêu đề đƣợc liệt kê trong tập từ điển các chức danh (có chứa các mục nhƣ :
“Prof ”, “Dr”, “Mr” ), một dấu chấm, và hai từ viết hoa là
({Dictionary

- Lookup

=

Titles}{String =

“.”}{Orthography

type =

capitalized word}{2})→Person Names.
Mỗi điều kiện trong dấu ngoặc nhọn là một điều kiện của một thẻ đƣợc thông
báo theo sau cùng với số tùy chọn chỉ ra số lần lặp lại của thẻ.
Ví dụ về một luật để đánh dấu tất cả số đi sau các giới từ “by” và “in” là thực
thể năm:
(String=“by”|String=“in”})({Orthography type = Number}):y→Year=:y.
Có hai mẫu trong luật này: mẫu đầu tiên để ghi lại ngữ cảnh xuất hiện của
các thực thể năm và mẫu thứ hai ghi lại các tính chất của thẻ tạo thành “year”.
Một ví dụ khác cho việc tìm kiếm tên công ty dạng “The XYZ Corp.” or
“ABC Ltd.” đƣợc tạo bởi:
({String=“The”}? {Orthography type = All capitalized}{Orthography type =
Capitalized word, DictionaryType =Company end})→ Company name
3.1.3.3 Các luật cho đa thực thể
Một số luật có dạng biểu thức chính quy với nhiều slot, mỗi slot đại diện
cho một thực thể khác nhau do đó luật này dẫn đến sự công nhận của nhiều đối

tƣợng cùng một lúc. Những luật này đƣợc sử dụng tốt hơn cho bản ghi dữ liệu theo

21

định hƣớng. Ví dụ, hệ thống dựa trên luật WHISK [7] hệ thống dựa trên nguyên tắc
đã đƣợc nhắm mục tiêu cho việc khai thác từ hồ sơ có cấu trúc nhƣ hồ sơ y tế , các
bản ghi bảo trì thiết bị, và phân loại quảng cáo. Các luật này đƣợc viết lại từ [7], để
trích rút hai thực thể, số lƣợng phòng ngủ và tiền thuê, từ một quảng cáo cho thuê
căn hộ.
({Orthography type = Digit}):Bedrooms ({String =“BR”})({}*)
({String =“$”})({Orthography type = Number}):Price→Number
of Bedrooms =:Bedroom, Rent =: Price
3.1.3.4 Lựa chọn định dạng của tập luật
Có nhiều hệ thống dựa trên luật state-of-the-art cho phép các chƣơng trình
tùy chọn viết bằng ngôn ngữ thủ tục nhƣ Java và C + + thay cho hai thủ tục này là
các luật. GATE[8] hỗ trợ các chƣơng trình Java thay cho ngôn ngữ này bằng một
luật khác đƣợc gọi là JAPE trong hoạt động của một luật. JAPE đƣợc đánh giá là
một khả năng mạnh mẽ bởi vì nó cho phép phần hành động của các quy tắc để truy
cập các thuộc tính khác nhau mà đƣợc sử dụng trong phần mẫu của các quy tắc và
đƣợc sử dụng để chèn mới các trƣờng cho chuỗi chú thích. Các trƣờng mới có thể
đƣợc xem nhƣ các thuộc tính bổ sung cho một luật.
3.2 Ƣu nhƣợc điểm của phƣơng pháp tiếp cận dựa trên luật
Phƣơng pháp tiếp cận dựa trên tập luận có những ƣu điểm sau:
- Phƣơng pháp tiếp cận dựa trên luật cần sử dụng ít dữ liệu huấn luyện hơn
phƣơng pháp tiếp cận dựa trên dữ liệu.
- Phƣơng pháp này có thể xây dựng các biểu thức chính quy tốt cho trích rút
thông dựa trên cú pháp, từ vựng, và các thành phần ngữ nghĩa. Phƣơng pháp này
cho độ chính xác rất cao, độ hồi tƣởng thấp. Do đó phƣơng pháp này rất thích hợp
cho các bài toán chỉ quan tâm đến độ chính xác.

Nhƣợc điểm của phƣơng pháp tiếp cận dựa trên luật
Bên cạnh những ƣu điểm, phƣơng pháp tiếp cận dựa trên luật còn có những
nhƣợc điểm sau: Khi sử dụng phƣơng pháp này đòi hỏi ngƣời xây dựng đóng vai trò
nhƣ chuyên gia miền dữ liệu, ngƣời xây dựng phải có kiến thức về ngôn ngữ, từ

22

vựng và cú pháp, cần phải rất am hiểu dữ liệu. Ngoài ra, tập luật thƣờng đƣợc xây
dựng để lấy ra các thông tin đặc biệt, do đó khi thay đổi sang miền dữ liệu khác thì
lại phải xây dựng tập luật cho phù hợp. Mà việc xây dựng tập luật đôi khi rất tốn
thời gian.
3.3 Tổng quan về Gate
3.3.1 Giới thiệu Gate
GATE (General Architecture for Text Engineering) là một công cụ phần
mềm đƣợc xây dựng và phát triển các ứng dụng xử lý ngôn ngữ tự nhiên, nó đƣợc
phát triển bởi một nhóm nghiên cứu của Trƣờng Đại học Sheffield Anh Quốc từ
năm 1995. Từ đó đến nay, GATE đã trải qua nhiều phiên bản, phiên bản GATE 1.0
đƣợc giới thiệu vào năm 1996 và phiên bản hiện tại là Gate 8.0 (2014). Nó đƣợc sử
dụng trong các dự án nghiên cứu trong lĩnh vực trích rút thông tin trên nhiều ngôn
ngữ nhƣ tiếng Anh, Hy Lạp, Tây Ban Nha, Thụy Điển, Đức, Ý, Pháp... Gate cũng
hỗ trợ rất mạnh cho việc phát triển Web có ngữ nghĩa.

23

3.3.2 Kiến trúc của Gate
Sơ đồ kiến trúc của Gate nhƣ sau:

Hình 3.1 Mô hình kiến trúc của GATE

Mô hình kiến trúc GATE đƣợc chia làm 7 lớp chính:
 Lớp IDE GUI: Là lớp giao diện trực quan tƣơng tác với ngƣời dùng,
cho phép ngƣời dùng giao tiếp với GATE dễ dàng và thuận tiện hơn.
 Lớp Application: Lớp ứng dụng mà GATE đã xây dựng, tiêu biểu nhƣ
ANNIE, OBIE, hay các thành phần ứng dụng tích hợp (Plugin), có thể thêm hoặc
gỡ bỏ vác ứng dụng bằng cách đánh dấu vào các plugin cần thiết trong Manage
Creole plugins.
 Lớp Document Format: Lớp quản lý các loại tài liệu theo định dạng
khác nhau nhƣ xml, html, pdf,…

24

 Lớp Corpus: Lớp quản lý kho tài liệu gồm nhiều thành phần khác nhau
tập hợp một nhóm các tài liệu, lớp quản lý kho tài liệu đƣợc chia ra thành nhiều
mức khác nhau nhƣ:
- Corpus -> Document: Một kho dữ liệu bao gồm 1 hay nhiều tài liệu.
- Document Content -> Annotation Set: Từ nội dung tài liệu đến bộ
nhãn, nội dung của tài liệu liên kết với những bộ nhãn nào.
- Annotation --> Feature Map: Từ nhãn đến đặc trƣng của nhãn, một
nhãn sẽ có những đặc trƣng nào.
 Lớp Processing: Lớp này gồm các thành phần xử lý khác nhau nhƣ:
tách từ , gán nhãn từ loại, nhận dạng từ quan điểm.
 Lớp Language Resource: Lớp quản lý các đối tƣợng dữ liệu đặc biệt
trong GATE nhƣ: tập từ điển (Gazetteer), tập từ vựng (lexicon),…
 Lớp DataStore and Index: Lớp quản lý về lƣu trữ nhƣ lƣu lại trạng thái
của các tài liệu đã xử lý hay các đối tƣơng xử lý tài liệu.
GATE có các ƣu điểm nhƣ:
- Tính linh động: Gate có thể xử lý nhiều định dạng văn bản khác nhau nhƣ:
xml, pdf, text…

- Tính đầy đủ: Gate cung cấp đầy đủ các thành phần cơ bản nhƣ:
+ Thành phần ngôn ngữ (Language Resources): Có thể là một kho dữ liệu
(corpus) hoặc các tài nguyên khác nhƣ: tập từ điển (gazetteers), tập từ vựng
(lexicons) hay một cấu trúc (ontology)
+ Thành phần xử lý (Processing Resource): Là một chƣơng trình đƣợc cài
đặt thuật toán xử lý trên các thành phần ngôn ngữ.
- Tính khả dụng: Gate cung cấp một thƣ viện khá linh hoạt và đầy đủ cho
ngƣời lập trình java. Ngoài ra ta có thể rất dễ dàng thêm vào những thành phần tích
hợp (Plugin) mới, bởi cơ chế dễ dàng “thêm và tích hợp” của Gate
- Tính dễ dùng: Gate cũng cung cấp một giao diện đồ họa cho phép ngƣời
dùng có thể thao tác một cách dễ dàng và trực quan

25

Trích rút sự kiện từ văn bản tiếng việt

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về