Tải bản đầy đủ (.pdf) (66 trang)

Nghiên cứu các phương pháp trích chọn sự kiện và ứng dụng vào bài toán trích chọn sự kiện dịch bệnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.47 MB, 66 trang )

1

LỜI CAM ĐOAN
Tác giả Phạm Xuân Hà xin cam kết rằng nội dung của Luận văn này
chưa được nộp cho bất kỳ một chương trình cấp bằng cao học nào cũng như
bất kỳ một chương trình đào tạo cấp bằng nào khác.
Ngoài ra, tác giả cũng xin cam kết Luận văn thạc sĩ này là nỗ lực riêng
của cá nhân tác giả. Các kết quả, phân tích, kết luận trong Luận văn thạc sĩ này
(ngoài các phần được trích dẫn) đều là kết quả làm việc của cá nhân tác giả.
Thái Nguyên, ngày 10 tháng 5 năm 2016
Tác Giả

Phạm Xuân Hà


2

LỜI CẢM ƠN
Lời đầu tiên em xin gửi lời cảm ơn chân thành đến Các quý thầy cô giáo,
Tổ chuyên môn Trường Đại học Công nghệ thông tin và Truyền thông - Đại
học Thái Nguyên đã tận tình giảng dạy, truyền đạt những kiến thức, kinh
nghiệm quý báu trong suốt thời gian em theo học tại trường. Các kiến thức,
kinh nghiệm quý báu của các Quý thầy cô giáo không chỉ giúp cá nhân em
hoàn thiện hệ thống kiến thức trong học tập mà còn giúp em ứng dụng các
kiến thức đó trong công tác hiện tại tại đơn vị.
Đặc biệt, em xin chân thành cảm ơn GS. TS Vũ Đức Thi đã rất nhiệt tình
và tâm huyết trong việc định hướng và giúp đỡ em hoàn thành luận văn này.
Em cũng xin được bày tỏ tình cảm với gia đình, đồng nghiệp, bạn bè đã
tạo điều kiện để cá nhân em có thể dành thời gian cho khóa học. Xin chân
thành cảm ơn những người bạn lớp cao học CK13, trong 2 năm qua đã luôn
luôn động viên, khích lệ và hỗ trợ em trong quá trình học tập.


Trong quá trình thực hiện Luận văn mặc dù đã cố gắng hết mình, song
chắc chắn luận văn của em vẫn còn nhiều thiếu sót. Em rất mong nhận được
sự chỉ bảo vào đóng góp tận tình của các thầy cô để luận văn của em được
hoàn thiện hơn.
Thái Nguyên, ngày 10 tháng 5 năm 2016
Tác Giả

Phạm Xuân Hà


3

MỤC LỤC
Danh mục các bảng..............................................................................................................................................
Danh sách hình vẽ.................................................................................................................................................
MỞ ĐẦU.............................................................................................................................................................7
1.1. Sự cần thiết lựa chọn đề tài...........................................................................................7
1.2. Mục tiêu đề tài...............................................................................................................8
1.3. Đối tượng và phạm vi nghiên cứu................................................................................8
1.4. Phương pháp nghiên cứu ..............................................................................................8
1.5. Cấu trúc của luận văn....................................................................................................9
Chương 1. TỔNG QUAN VỀ TRÍCH CHỌN SỰ KIỆN....................................................................10
1.1. Tổng quan về trích chọn thông tin .............................................................................10
1.1.1. Bài toán trích chọn thông tin ..................................................................10
1.1.2. Cơ hội và thách thức cho bài toán trích chọn thông tin .........................11
1.2. Tổng quan về trích chọn sự kiện ................................................................................15
1.2.1. Định nghĩa sự kiện .................................................................................17
1.2.2. Trích chọn sự kiện..................................................................................19
1.3. Khó khăn và thách thức của trích chọn sự kiện ........................................................20
1.4. Một số phương pháp tiếp cận cho bài toán trích chọn sự kiện.................................21

1.4.1. Phương pháp tiếp cận dựa trên tập luật ..................................................21
1.4.2. Phương pháp tiếp cận dựa trên học máy ................................................24
1.4.3. Phương pháp kết hợp luật và học máy ...................................................25
1.4.4. Một số nhận xét ......................................................................................26
1.5. Kết luận chương..........................................................................................................28
Chương 2. BÀI TOÁN TRÍCH CHỌN SỰ KIỆN DỊCH BỆNH TRONG VĂN BẢN
TIẾNG VIỆT.........................................................................................................................29
2.1. Tổng quan bài toán trích chọn sự kiện dịch bệnh trong văn bản tiếng Việt ............29
2.1.1. Tầm quan trọng và ý nghĩa của trích chọn sự kiện dịch bệnh................29
2.1.2. Các đặc tính của sự kiện dịch bệnh ........................................................32
2.1.3. Phát biểu bài toán ...................................................................................33


4

2.2. Mô hình trích chọn sự kiện dịch bệnh .......................................................................34
2.2.1. Phương pháp sử dụng.............................................................................34
2.2.2. Mô hình phát hiện và trích chọn sự kiện dịch bệnh ...............................35
2.3. Phương pháp giải quyết bài toán phát hiện sự kiện dịch bệnh .................................37
2.3.1. Phát biểu bài toán ...................................................................................37
2.3.2. Xây dựng tập luật ...................................................................................38
2.3.3. Xây dựng mô hình phân lớp...................................................................40
2.4. Phương pháp giải quyết bài toán trích chọn sự kiện dịch bệnh................................41
2.4.1. Phát biểu bài toán ...................................................................................41
2.4.2. Trích chọn thời gian ...............................................................................42
2.4.3. Trích chọn tên bệnh................................................................................43
2.4.4. Trích chọn địa điểm ...............................................................................45
2.5. Tổng kết chương .........................................................................................................47
Chương 3. THỬ NGHIỆM BÀI TOÁN TRÍCH CHỌN SỰ KIỆN DỊCH BỆNH TRÊN
MỘT SỐ TRANG THÔNG TIN ĐIỆN TỬ.......................................................................48

3.1. Bài toán........................................................................................................................48
3.2. Môi trường và các công cụ thử nghiệm.....................................................................49
3.3. Thử nghiệm quy trình trích chọn dịch .......................................................................52
3.3.1. Thu thập dữ liệu (Web Crawler) ............................................................52
3.3.2. Phát hiện sự kiện dịch bệnh....................................................................53
3.3.3. Trích chọn sự kiện dịch bệnh .................................................................53
3.4. Thống kê báo cáo ......................................................................................................57
3.5 . Tổng kết chương……………………………………………………………..60
KẾT LUẬN.....................................................................................................................................................61
Tài liệu tham khảo...........................................................................................................................................62


5

DANH MỤC CÁC BẢNG
Bảng 1.1. Thống kê trên dữ liệu Twitter…………………………………….12
Bảng 2.1. Danh sách các từ/cụm từ thường xuyên………………………….39
Bảng 3.1. Cấu hình thử nghiệm……………………………………………..48
Bảng 3.2. Công cụ phần mềm có sẵn……………………………………….49
Bảng 3.3. Kết quả lọc các bài viết có chứa thông tin về các dịch bệnh.......53
Bảng 3.4. Kết quả trích chọn..........................................................................55
Bảng 3.5. Thống kê theo địa điểm………………………………………….57
Bảng 3.6. Thống kê theo thời gian………………………………………….58
Bảng 3.7 Thống kê theo tên dịch bệnh...........................................................59


6

DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Sự tăng trưởng dữ liệu từ năm 2004 đến năm 2020……………..12

Hình 1.2. Dữ liêu trên Internet trong 60 giây………………………………13
Hình 1.2. Các bước trong quá trình khám phá tri thức trong cơ sở dữ liệu...14
Hình 2.1. Quá trình phát hiện và trích chọn sự kiện………………………..36
Hình 2.2. Thành phần phát hiện sự kiện……………………………………37
Hình 2.3. Thành phần trích chọn sự kiện…………………………………...41
Hình 2.4. Biểu diễn của cây phân cấp địa điểm…………………………….46
Hình 3.1. Giao diện phần mềm crawler thu thập dữ liệu…………………..52
Hình 3.2. Kết quả thử nghiệm trích chọn sự kiện dịch bệnh……………….56
Hình 3.3. Biểu đồ thống kê theo địa điểm………………………………….57
Hình 3.4. Biểu đồ thống kê theo thời gian………………………………….58
Hình 3.5. Biều đồ thống kê theo tên dịch bệnh…………………………….59


7

MỞ ĐẦU
1.1.

Sự cần thiết lựa chọn đề tài
Sự phát triển nhanh chóng các ứng dụng công nghệ thông tin và Internet

vào nhiều lĩnh vực khác nhau của đời sống xã hội trong mấy năm gần đây đã
tạo ra nhiều cơ sở dữ liệu khổng lồ. Để khai thác hiệu quả nguồn thông tin trên
các cơ sở dữ liệu khổng lồ đó nhằm mục đích dự báo, hỗ trợ ra quyết định, bên
cạnh các phương pháp khai thác thông tin truyền thống, các nhà nghiên cứu đã
sử dụng công cụ máy tính điện tử để phát triển các phương pháp, kỹ thuật mới
hỗ trợ tiến trình khám phá, phân tích, tổng hợp thông tin. Lĩnh vực này được
gọi là khai phá dữ liệu và khám phá tri thức (Data Mining and Knowledge
Discovery) mà hạt nhân là các kỹ thuật phân tích dữ liệu (Data Analysis),
trong đó các phương pháp trích chọn thông tin, trích chọn sự kiện là mảng

nghiên cứu quan trọng và có ứng dụng rộng rãi trong thực tiễn.
Trích chọn sự kiện (Event Extraction - EE) là bài toán con trong trích
chọn thông tin (Information Extraction - IE) và là một lĩnh vực nghiên cứu
quan trọng trong khai phá dữ liệu và học máy, có nhiều ứng dụng quan trọng
trong thực tiễn. Kết quả của quá trình trích chọn là đầu vào cho các kỹ thuật
khai phá dữ liệu và học máy nhằm trích lọc ra các tri thức, quy luật có ích
trong dữ liệu, phục vụ công tác điều hành, dự báo, ra quyết định.
Những năm gần đây, trích chọn sự kiện đã thu hút nhiều sự quan tâm từ
các nhà khoa học trong lĩnh vực khai phá dữ liệu nói chung và trích chọn
thông tin nói riêng. Trích chọn sự kiện được đề xuất lần đầu tiên tại hội thảo
Message Understanding Conference năm 1987 [19]. Trong hội nghị này, một
sự kiện được định nghĩa như sau: một sự kiện bắt buộc phải có tác nhân, thời
gian xảy ra sự kiện, địa điểm và tác động tới môi trường xung quanh. Bên
cạnh đó, chương trình Automatic Content Extraction (ACE) đưa ra định nghĩa:
Sự kiện là một hành động được tạo ra bởi người tham gia và được chia thành


8

tám loại: Cuộc sống, sự di chuyển, sự chuyển, kinh doanh, xung đột, liên hệ,
con người và luật pháp. Còn theo định nghĩa của Allen và cộng sự [1], một sự
kiện bao gồm bốn thuộc tính: phương thức, sự phân cực, mức độ, và thời điểm.
Để có thể tìm hiểu sâu hơn về mô hình và phương pháp giải quyết bài
toán trích chọn sự kiện dịch bệnh, em đã chọn đề tài “Nghiên cứu các phương
pháp trích chọn sự kiện và ứng dụng vào bài toán trích chọn sự kiện dịch
bệnh” để làm luận văn thạc sĩ của mình.
1.2.

Mục tiêu đề tài
Tìm hiểu tổng quan về bài toán trích chọn sự kiện và các phương pháp


giải quyết bài toán trích chọn sự kiện, trên cơ sở đó xây dựng mô hình giải
quyết bài toán trích chọn sự kiện dịch bệnh từ các dữ liệu văn bản tiếng Việt.
Cài đặt và thử nghiệm mô hình trích chọn sự kiện dịch bệnh từ một số trang
thông tin điện tử tiếng Việt trên mạng Internet.
1.3.

Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của đề tài là các phương pháp, công cụ giải quyết

bài toán trích chọn sự kiện trong văn bản tiếng Việt và các trang thông tin
điện tử tiếng Việt trên mạng Internet về dịch bệnh.
Phạm vi nghiên cứu của đề tài là bài toán trích chọn sự kiện về các dịch
bệnh trên một số trang thôn tin điện tử tiếng Việt (website) trên mạng Internet.
1.4.

Phương pháp nghiên cứu
Phương pháp nghiên cứu của đề tài là nghiên cứu lý thuyết và nghiên

cứu thực nghiệm.
Về nghiên cứu lý thuyết, đề tài đã tổng hợp các kết quả nghiên cứu về
các phương pháp trích chọn sự kiện từ văn bản tiếng Việt phục vụ phân tích,
thống kê, báo cáo, ra quyết định. Về nghiên cứu thực nghiệm, đề tài xây dựng
và cài đặt, thử nghiệm mô hình trích chọn sự kiện dịch bệnh từ một số trang
thông tin điện tử (website) bằng tiếng Việt trên mạng Internet.


9

1.5.


Cấu trúc của luận văn
Cấu trúc luận văn gồm: mở đầu, ba chương chính, kết luận và tài liệu

tham khảo.
Phần mở đầu: Lý do chọn đề tài và bố cục luận văn
Chương 1: Giới thiệu tổng quan bài toán trích chọn sự kiện và một số
phương pháp tiếp cận giải quyết bài toán trích chọn sự kiện.
Chương 2: Trình bày bài toán trích chọn sự kiện dịch bệnh từ dữ liệu
văn bản tiếng Việt, bao gồm phát biểu bài toán, phương pháp đề xuất, mô hình
phát hiện và trích chọn sự kiện, ý nghĩa khoa học và thực tiễn của bài toán
trích chọn sự kiện dịch bệnh.
Chương 3: Trình bày kết quả thực nghiệm mô hình trích chọn sự kiện
dịch bệnh trên một số trang thông tin điện tử (website) bằng tiếng Việt trên
mạng Internet.
Phần kết luận: Tóm tắt các kết quả đạt được và hướng phát triển tiếp của
đề tài.


10

Chương 1
TỔNG QUAN VỀ TRÍCH CHỌN SỰ KIỆN
Chương này giới thiệu tổng quan về trích chọn sự kiện và các phương
pháp tiếp cận giải quyết bài toán trích chọn sự kiện.
1.1. Tổng quan về trích chọn thông tin
1.1.1. Bài toán trích chọn thông tin
Trích chọn thông tin là một lĩnh vực quan trọng trong khai phá dữ liệu
văn bản, nó được định nghĩa như sau: Trích chọn thông tin (IE - Information
Extraction) là quá trình lấy thông tin từ các nguồn ở những định dạng không

đồng nhất thậm chí không có định dạng cụ thể khi nó ở dạng văn bản diễn đạt
bằng ngôn ngữ tự nhiên, sau đó chuyển thành một dạng đồng nhất. Dữ liệu
sau khi trích chọn được sử dụng, trình bày trực tiếp cho người dùng, lưu vào
cơ sở dữ liệu để xử lý sau đó hay sử dụng cho những hệ thống tìm kiếm thông
tin như một dữ liệu đã qua bước tiền xử lý.
Trích chọn thông tin (IE) có thể được coi nằm giữa thu hồi thông tin
(Information Retrieval - IR) và hiểu văn bản (Text Understanding) [3]. Không
giống với thu hồi thông tin chỉ tập trung vào các mẩu thông tin có liên quan
trong văn bản, trích xuất thông tin còn quan tâm tới các sự kiện có liên quan
trong văn bản và biểu diễn chúng dưới dạng các khuôn mẫu (template). Bên
cạnh đó, khác với hiểu văn bản chỉ tập trung trên một phần nhỏ của văn bản
(câu, đoạn văn), trích xuất thông tin quan tâm tới toàn bộ nội dung văn bản.
Theo Peshkin và Pfeffer, trích chọn thông tin có thể được định nghĩa như
là một công việc điền thông tin vào các mẫu từ các dữ liệu không biết trước
trong miền được định nghĩa trước. Mục tiêu của trích chọn thông tin là lấy từ
các văn bản các thông tin nổi bật của các sự kiện, thực thể, hoặc các mối quan
hệ. Như vậy, có thể coi trích chọn thông tin là một kỹ nghệ lấy và biểu diễn tri


11

thức thành các thông tin có định dạng và hữu ích từ nguồn dữ liệu vô tận trên
Internet.
Vậy bài toán trích chọn thông tin có thể được phát biểu như sau:
1) Đầu vào: dữ liệu bất kỳ.
2) Đầu ra: thông tin hữu ích (tri thức) có cấu trúc.
Dữ liệu đầu vào cho bài toán trích chọn thông tin rất phong phú và đa
dạng. Dữ liệu có thể là có cấu trúc (structured), bán cấu trúc (semi-structured),
không có cấu trúc (unstructured), hoặc có thể là dữ liệu không gian (partial),
dữ liệu thời gian (temporal). Với bất kỳ dạng dữ liệu nào, nhiệm vụ của trích

chọn thông tin cũng phải đưa ra các kết quả có cấu trúc ngắn và ý nghĩa.
1.1.2. Cơ hội và thách thức cho bài toán trích chọn thông tin
Trong tài liệu số [26], John chỉ ra rằng chúng ta đang dư thừa dữ liệu tuy
nhiên lại nghèo nàn về tri thức “We are drowning in data, but starving for
knowledge!".
Theo thống kê của NOAA (National Oceanic and Atmospheric
Administration, USA) tính tới thời điểm tháng 04-2012, dữ liệu người dùng
tạo ra trên Internet khoảng gần 60.000 Terabytes và sẽ tăng lên khoảng
160.000 Terabytes trong vòng 8 năm tới. Sự tăng trưởng được minh họa trong
hình 1.1 ( />

12

Hình 1.1. Sự tăng trưởng dữ liệu từ năm 2004 đến năm 2020
Theo thống kê từ ngày
01/01/2014 trên dữ liệu Twitter, mỗi ngày có khoảng 135.000 người đăng
nhập vào Twitter, số lượng các thông điệp một ngày trên Twitter là khoảng 58
triệu tweet, trung bình mỗi giây có khoảng 9.100 thông điệp được người dùng
đưa lên Twitter. Số liệu chi tiết được minh hoạ trong Bảng 1.1.
Bảng 1.1. Thống kê trên dữ liệu Twitter
Thống kê từ Twitter

Dữ liệu

Số lượng các người dùng đăng ký tích cực

645.750.000

Số lượng các người dùng đăng nhập một ngày


135.000

Số lượng các trang đặc biệt được thăm hàng tháng

190 triêu

Số lượng thông điệp một ngày

58 triêu

Số lượng các truy vấn thông quan chức năng tìm kiếm một ngày

2.1 tỷ

Số lượng các người dùng tích cực hàng tháng

115 triêu

Số ngày mà tổng số thông điệp đạt tới 1 tỷ

5 ngày

Số lượng các thông điệp một giây

9.100

Theo thống kế của Qmee ( http:// www.independent.co.uk / life-style / gadgets-and-tech / news


13


/ what-happens-in-60-seconds-on-the-internet-8738267.html), dữ liệu trên
Internet trong 60 giây có thể được trực quan hóa như Hình 1.2 dưới đây:

Hình 1.2. Dữ liêu trên Internet trong 60 giây
Thông qua Hình 1.2, mỗi giây người dùng tải lên 72 giờ video, có
khoảng 2 triệu câu truy vấn trên Google, khoảng 41.000 thông điệp được
người dùng Facebook tải lên mỗi giây, khoảng 20 triệu bức ảnh được tải lên
Flick, 204 triệu email được gửi. Những con số thống kê trên cho thấy dữ liệu
được đưa lên Internet có số lượng lớn và phong phú về chủng loại.
Từ các thống kê trên, chúng ta có thể thấy rằng dữ liệu có xu hướng
bùng nổ trên Internet. Tuy nhiên, nhiều dữ liệu không đảm bảo rằng người
dùng có nhiều thông tin và càng không thể nói rằng người dùng có thể nắm
bắt được tri thức một cách hiển nhiên và dễ dàng. Trong thực tế, quá trình


14

biến đổi từ dữ liệu sang thông tin và cuối cùng sang tri thức là một quá trình
lâu dài, đòi hỏi nhiều phương pháp xử lý phức tạp. Quá trình biến đổi này có
thể được minh hoạ trong hình 1.3.

Hình 1.2. Các bước trong quá trình khám phá tri thức trong cơ sở
dữ liệu
Theo Fayyad và cộng sự [15], quá trình biến đổi từ dữ liệu thành tri thức
là một quá trình biến đổi lâu dài, cần nhiều bước xử lý phức tạp. Trong suốt
quá trình này, dữ liệu được thể hiện ở ba mức: dữ liệu, thông tin (mẫu), và tri
thức. Ở đây, dữ liệu có thể coi là một tập hợp các sự kiện (các bản ghi trong
cơ sở dữ liệu). Thông tin (mẫu) là một sự biểu diễn trong một ngôn ngữ mô tả
của một tập con dữ liệu. Cuối cùng, thông tin sẽ là tri thức nếu nó vượt qua

một ngưỡng (threshold).
Một điều rõ ràng, sự bùng nổ dữ liệu trên Internet tạo ra những thuận lợi
và thách thức: cho các nhà khoa học khi muốn thu hồi thông tin. Đầu tiên, sự
phát triển của Internet và sự bùng nổ thông tin tạo ra nhiều nguồn thông tin.
Nếu như trước đây, nguồn dữ liệu chủ yếu là văn bản (text) thì hiện nay dữ
liệu rất phong phú, bao gồm các dữ liệu văn bản, hình ảnh, âm thanh, các dữ
liệu thời gian, không gian...Những nguồn dữ liệu tạo điều kiện thuận lợicho
những nghiên cứu về trích chọn thông tin. Bên cạnh đó, dữ liệu hiện nay
không đơn 1thuần là tin tức, nó còn bao gồm thông tin cá nhân (cảm xúc, ý


15

kiến). Từ những dữ liệu mới này, trích chọn thông tin có thể thu hồi những
thông tin mới phục vụ cho quá trình tích hợp thông tin.
Tuy nhiên, bên cạnh những thuận lợi, sự bùng nổ về dữ liệu tạo ra những
thách thức không nhỏ trong lĩnh vực trích chọn thông tin. Đầu tiên, với sự ra
đời của các dữ liệu mới đòi hỏi cần phải có những kỹ thuật phù hợp. Đôi khi
trong một số trường hợp, trích chọn thông tin phải đương đầu với những dữ
liệu phức tạp như hình ảnh, âm thanh, dữ liệu không gian, hoặc thời gian. Thứ
hai, sự đang dạng về nguồn dữ liệu đòi hỏi quá trình tích hợp dữ liệu phức tạp.
Điều này xuất phát do mục đích của trích chọn thông tin là lấy ra một lượng
nhỏ thông tin có ý nghĩa, do đó, sau quá trình trích chọn, dữ liệu cần được
tổng hợp từ nhiều nguồn khác nhau để cuối cùng đưa ra dữ liệu có ý nghĩa với
người dùng. Cuối cùng, bài toán về tốc độ xử lý và tính toán cần được giải
quyết. Với sự bùng nổ về số lượng và phức tạp về nội dung yêu cầu các
phương pháp trích chọn thông tin phải có thời gian xử lý hợp lý.
Như đã đề cập ở trên, chúng ta có thể thấy rõ tầm ảnh hưởng của dữ liệu
lớn (Big Data) tới quá trình thu hồi thông tin của con người và vai trò của
trích chọn thông tin trong bối cảnh thông tin bùng nổ và gây khó khăn cho

người dùng trong quá trình tiếp cận tri thức.
1.2. Tổng quan về trích chọn sự kiện
Với vai trò trích chọn ra các thông tin có ý nghĩa từ tập lớn các dữ liệu,
trích chọn sự kiện được cộng đồng khoa học rất quan tâm và đầu tư nghiên
cứu. Năm 1987, Message Understanding Conferences (MUC) (http: //wwwnlpir.nist.gov/related_projects/muc) được tổ chức với sự hỗ trợ của Quỹ
nghiên cứu Bộ quốc phòng Hoa Kỳ (http: //en.wikipedia.org/wiki/DARPA) và
lần đầu tiên khái niệm sự kiện event được đề cập. Sau đó, rất nhiều hội nghị
được tổ chức tạo thành dãy hội nghị MUC. Với mỗi hội nghị, thông tin được
quan tâm khác nhau nhưng đều có đặc điểm chung là chúng được trích xuất từ


16

dữ liệu nói về khủng hoảng (crisis). Các chủ đề trong dữ liệu thường là tội
phạm, khủng bố, đánh bom...Một trong những đóng góp lớn của MUC là đưa
ra việc trích xuất thông tin dựa trên mẫu (scenario template). Các mẫu được
ban tổ chức quy định và các đội tham gia cần điền thông tin vào các mẫu này
một cách tự động. Cuối cùng, các sự kiện được trích chọn gồm các thông tin:
tổ chức, đối tượng tham gia (người, sự vật, sự việc), thời gian, địa điểm, số
lượng...Độ chính xác (precision) và hồi tưởng (recall) của các nghiên cứu
tham dự MUC nam trong khoảng 50% đến 60% [19].
Chương trình

Phát hiện và theo dõi chủ đề (Topic Detection and

Tracking, TDT) ( được tổ chức từ năm
1997 thu hút nhiều nhóm nghiên cứu từ các trường đại học tham gia. Chương
trình này được phối hợp tổ chức bởi Viện Công nghệ và Chuẩn hoá quốc gia
Hoa Kỳ (NIST) và DAPRA nham giải quyết bài toán phát hiện, theo dõi, và
xâu chuỗi sự kiện. Một số nhóm nghiên cứu tham gia chương trình này như:

nhóm CMU của đại học Carnegie Mellon, nhóm BBN từ công ty BBN
Technologies, nhóm DRAGON của công ty Dragon Systems, nhóm UPENN
của trường đại học Pennsylvania (UPENN). Các bài toán quan trọng của TDT
gồm: Story Segmentation, Topic Tracking, Topic Detection, First Story
Detection, and Link Detection (http: //www.itl.nist.gov/iad/mig//tests/tdt/).
Chương trình Trích xuất nội dung tự động (Automatic Content
Extraction, ACE)

10 11

của đại học Pennsylvania cũng thu hút được nhiều sự

quan tâm từ cộng đồng nghiên cứu về trích chọn thông tin cũng như trích
chọn sự kiện. Chương trình này tập trung vào các ngôn ngữ như tiếng Anh,
Trung Quốc, và A rập (Arabic). Các thông tin được trích chọn gồm các thực
thể, quan hệ giữa các thực thể, và các sự kiện chúng tham gia vào. ACE có
mục đích giống với MUC, tuy nhiên chương trình này tập trung vào các đối


17

tượng (thực thể, mối quan hệ thực thể và các sự kiện) hơn là tập trung vào các
từ (term of words) trong văn bản.
Như vậy, có thể thấy rằng trích chọn thông tin nói chung và trích chọn sự
kiện nói riêng là một vấn đề quan trọng và thời sự, nhận được rất nhiều quan
tâm từ cộng đồng khoa học. Trong phần tiếp theo, luận văn sẽ làm sáng tỏ
định nghĩa về sự kiện cũng như bài toán trích chọn sự kiện.
1.2.1. Định nghĩa sự kiện
Trích chọn sự kiện lần đầu tiên được giới thiệu như một chủ đề quan
trọng trong Message Understanding Conference (MUC) năm 1987 [19].

Trong MUC, một sự kiện được định nghĩa như sau: “một sự kiện phải có tác
nhân (actor), thời gian (time), địa điểm (place), và tác động tới môi trường
xung quanh”. Khi tham gia MUC, các nhóm nghiên cứu phải đề xuất phương
pháp đề điền các thông tin vào các mẫu cho trước (scenario template). Các
mẫu này gồm nhiều thành phần (slots/elements) khác nhau tương ứng với các
thành phần được định nghĩa bên trên. Thời gian ban đầu, MUC chỉ tập trung
nghiên cứu các sự kiện quân sự. Tuy nhiên, ở các lần tổ chức sau, các loại sự
kiện mới được bổ sung như khủng bố, đầu tư mạo hiểm, tai nạn máy bay...
Trong chương trình ACE, Dodington George R. và cộng sự đưa ra định
nghĩa sự kiện như sau: “một sự kiện là một hành động được tạo bởi những
người tham gia” [13]. ACE chia sự kiện thành 8 loại khác nhau gồm: LIFE
(sự sống-chết), MOVEMENT (sự di chuyển), TRANSACTION (giao dịch),
BUSINESS (kinh tế), CONFLICT (xung đột), CONTACT (giao thiệp, gặp
gỡ), PERSONNEL (nhận- đuổi việc), JUSTICE (pháp lý). Mỗi dạng sự kiện
lại phân biệt từng dạng con. Ví dụ, LIFE có các dạng sự kiện con như BEBORN (chào đời), INJURE (bị thương), DIE (chết), hay PERSONAL có
START-POSITION (vị trí khi nhận việc), ENDPOSITION (vị trí khi thôi
việc), NOMINATE (bổ nhiệm), ELECT (bầu chọn)...


18

Trong nghiên cứu của mình, Allen và cộng sự cho rằng một sự kiện được
phản ánh qua tin tức khi nó có 4 yếu tố: phương thức (modality), tính đối cực
(polarity), sự tổng quát (genericity), và thời điểm (tense) [1]. Trong đó,
phương thức là hành vi gây ra sự kiện; tính đối cực là sự kiện đó gây tác động
tốt hay xấu (possi- tive/negative); sự tổng quát là sự kiện đó có tính chung hay
riêng (specific/generic); và th ời điểm là thời gian xảy ra sự kiện (past,
present, future, hoặc unspecified).
Trong miền dữ liệu liên quan tới dịch bệnh, Gishman R. và cộng sự đưa
ra định nghĩa về một sự kiện như là một mẫu (template) gồm các thuộc tính:

tên bệnh (disease name), thời gian (date), địa điểm (location), số lượng nạn
nhân (victime number), mô tả về nạn nhân (victim descriptor), tình trạng
(victim status), loại nạn nhân (victim type), và sự kiện cha (parent event)
[17]. Sự khác biệt trong định nghĩa của Grishman với các định nghĩa khác ở
chỗ ông đề cập thêm tới sự kiện cha. Trong thực tế, một sự kiện có thể là sự
kiện bắt đầu hoặc được bắt đầu từ một sự kiện khác (parent event). Như vậy,
quá trình trích chọn sự kiện không đơn giản chỉ lấy ra các thông tin tương ứng
với mẫu được định nghĩa mà cần phát hiện thêm sự kiện ban đầu của sự kiện
hiện tại.
Trong công bố của Nguyen và cộng sự, các tác giả quan niệm một sự
kiện dịch bệnh là một mẫu (template) gồm các thuộc tính tên bệnh (disease
name), thời điểm bùng phát (time), và địa điểm bùng phát (location). Khác
với quan niệm của Grishman và cộng sự, các tác giả chỉ quan tâm tới ba thuộc
tính cho mục đích trực quan hoá hơn là trích chọn các thông tin chi tiết của sự
kiện và phát hiện chuỗi sự kiện. Trong miền dữ liệu tiếng Việt, Tran và các
cộng sự quan tâm tới ba loại sự kiện chính gồm: cháy nổ, tội phạm, và tại nạn
giao thông. Mục tiêu của tác giả là trích chọn ra các thông tin cơ bản của ba
loại sự kiện và trực quan hoá chúng trên một bản đồ theo dõi sự kiện.


19

Có thể thấy rằng các nghiên cứu liệt kê ở trên đều đồng ý rằng sự kiện có
thể coi như một mẫu (template) gồm nhiều các thuộc tính (elements). Quá
trình trích chọn sự kiện quan tâm tới việc làm thế nào có thể điền các thông
tin phù hợp từ văn bản gốc tương ứng với từng thuộc tính.
1.2.2. Trích chọn sự kiện
Trích xuất sự kiện có thể coi là một lĩnh vực con của trích chọn thông
tin. Tuy nhiên, trích chọn sự kiện có sự khác biệt với lĩnh vực cha của nó. Nếu
như trích chọn thông tin chỉ quan tâm với các dữ liệu rời rạc (tên người, địa

điểm, các con số,...) thì trích chọn sự kiện quan tâm nhiều hơn tới tính cấu
trúc và mức độ liên quan của thông tin trong một sự kiện. Qua đó, người đọc
có thể dễ dàng suy luận ra các thông tin có ý nghĩa. Ví dụ, với câu “Thêm một
trẻ tử vong do bệnh tay chân miệng tại Quảng Nam vào ngày 12/06/2012”.
Trong ví dụ này, trích chọn thông tin đưa ra các kết quả rời rạc như: một,
Quảng Nam, hoặc 12/06/2012; trong khi trích chọn sự kiện sẽ đưa ra một bộ
các thuộc tính biểu diễn cho sự kiện gồm {tay chân miệng, Quảng Nam,
12/06/2012}. Một ví dụ khác, “Ngay sáng ngày 30/4, trên đường Xuân Thuỷ,
thủ đô Hà Nội đã xảy ra vụ tai nạn nghiêm trong làm 2 người trên xe máy bị
thương nặng. Nguyên nhân bước đầu được cho là do tài xế tắc-xi đã tăng tốc
khi nhận điểm nên đã xô thẳng vào xe máy đi cùng chiều” Trong ví dụ này,
trích chọn thông tin đƣa ra các kết quả rời rạc nhƣ: 30/4, Hà Nội, 2 hoặc tắc
xi; trong khi đó trích chọn sự kiện thì quan tâm tới một bộ các thuộc tính biểu
diễn cho sự kiện gồm {30/4, Hà Nội, 2 ngƣời bị thƣơng, tắc-xi}. Rõ ràng, với
tập dữ liệu trên, thông tin là hữu ích và đầy đủ hơn các thông tin rời rạc.
Một cách tổng quát, có thể coi trích chọn sự kiện nhận đầu vào là các
văn bản không có cấu trúc và đầu ra là tri thức được biểu diễn dưới dạng
thông tin có cấu trúc. Những thông tin này có thể làm đầu vào cho những hệ
thống giám sát (monitoring systems) hoặc các hệ thống hỗ trợ ra quyết định


20

(supported decision systems). Trích chọn sự kiện có thể được áp dụng cho
một miền dữ liệu cụ thể (close domain) như dịch bệnh, cháy nổ,... hoặc miền
dữ liệu mở (open domain), đồng thời đưa ra các thông tin xung quang sự kiện
đó, thông thường bao gồm: tác nhân, thời gian, địa điểm, số lượng,...
Theo Grishman và cộng sự, trích chọn sự kiện là một bài toán khó do
vấn đề xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) và đặc
trưng dữ liệu [19]. Dễ dàng nhận thấy trích chọn sự kiện phụ thuộc nhiều vào

NLP, cụ thể là bài toán nhận dạng thực thể (Named Entity Recognition NER). Mặc dù NER đã thu được những kết quả khả quan, tuy nhiên vẫn còn
một số thách thức lớn, đặc biệt với các ngôn ngữ không phải tiếng Anh. Bên
cạnh đó, dữ liệu đầu vào của trích chọn sự kiện rất đa dạng nên sẽ ảnh hưởng
tới tính hiệu quả củaquá trình trích chọn.
1.3. Khó khăn và thách thức của trích chọn sự kiện
Mặc dù được nhiều nhà khoa học đầu tư nghiên cứu, tuy nhiên trích chọn
sự kiện vẫn phải đối mặt với nhiều thách thức trong việc nâng cao độ chính
xác của quá trình trích chọn. Đầu tiên, độ chính xác của quá trình trích chọn
phụ thuộc rất lớn vào bài toán phát hiện sự kiện. Trong khi đó, bài toán phát
hiện sự kiện phụ thuộc vào độ chính xác của bộ phân lớp (giám sát hoặc
không giám sát). Trong khi đó bài toán phân lớp đã đạt được những kết quả
khả quan trong tiếng Anh, nó vẫn gặp nhiều khó khăn trong tiếng Việt do đặc
trưng ngôn ngữ.
Thứ hai, do quá trình trích chọn phụ thuộc nhiều vào các kỹ thuật của
NLP, đặc biệt là NER. Tuy bài toán NER đã được giải quyết trên tiếng Anh
tuy nhiên trên tiếng Việt nó vẫn còn hạn chế. Hơn nữa, một số yếu tố về mặt
ngôn ngữ như nhập nhằng ngữ nghĩa (Word Sense Disambiguation), hiện
tượng đồng tham chiếu (Co-References), hoặc nhận dạng tính ngữ nghĩa của


21

tiêu đề bản tin (Syntactically Ambiguious Headlines) có ảnh tác động không
nhỏ tới độ chính xác của quá trình trích chọn.
Cuối cùng, quá trình trực quan hoá gặp khoá khăn khi dữ liệu trích chọn
không đầy đủ. Ví dụ, với câu “Bệnh sởi bùng phát tại Hà Nội từ đầu tháng 4
”, kết quả của quá trình trích chọn là {bệnh sởi, Hà Nội, tháng 4}. Với thông
tin về địa điểm không chi tiết, sẽ rất khó để biết chính xác dịch bệnh bùng
phát ở đâu (quận, huyện, hoặc đường). Bên cạnh đó, thời gian của sự kiện
cũng không cụ thể, dẫn đến việc tính thời gian chính xác của sự kiện gặp khó

khăn.
1.4. Một số phương pháp tiếp cận cho bài toán trích chọn sự kiện
Trong phần này, luận văn trình bày một số phương pháp tiếp cận cho
bài toán trích chọn sự kiện. Các phương pháp này bao gồm: phương pháp dựa
trên luật, phương pháp dựa trên học máy, và phương pháp kết hợp giữa luật
và học máy. Phần cuối cùng, luận văn đưa ra một số bàn luận về các phương
pháp. Dựa trên cơ sở này, luận sẽ lựa chọn phương pháp phù hợp cho bài toán
trích chọn sự kiện dịch bệnh ở Chương 2.
1.4.1. Phương pháp tiếp cận dựa trên tập luật
Trong nghiên cứu của mình, Hogenboom F. và cộng sự [20] cung cấp
một khảo sát để lựa chọn phương pháp phù hợp cho bài toán trích chọn sự
kiện trên văn bản. Bài báo đã chỉ ra rằng có ba phương pháp cơ bản để giải
quyết bài toán trích chọn sự kiện, đó là: phương pháp dựa trên dữ liệu (datadriven), phương pháp dựa trên tri thức (knowledge-driven), và phương pháp
lai (hybrid). Phương pháp thứ nhất thường sử dụng học máy (các mô hình xác
suất) trên một tập dữ liệu huấn luyện lớn để giải quyết bài toán trích chọn các
thông tin của một sự kiện. Điển hình cho phương pháp này là nhận dạng thực
thể (NER). Phương pháp thứ hai dựa trên kiến thức chuyên gia miền (thường
là những chuyên gia ngôn ngữ và chuyên gia miền dữ liệu) để sinh ra tập luật.


22

Tập luật này được sử dụng để trích chọn các thành phần của sự kiện. Phương
pháp cuối cùng kết hợp phương pháp thứ nhất và thứ hai. Trong khuôn khổ
luận văn, tác giả gọi phương pháp dựa trên dữ liệu là phương pháp sử dụng
học máy và phương pháp dựa trên tri thức là phương pháp sử dụng luật.
1.4.1.1.Luật cú pháp
Luật cú pháp, đôi khi còn được gọi là các mẫu cú pháp (lexico-syntactic
patterns) có thể coi là phương pháp được sử dụng sớm trong bài toán trích
chọn sự kiện. Các mẫu này được sinh ra từ các chuyên gia miền (domain

experts) dưới dạng các luật (rules) [20]. Điển hình cho phương pháp này
chính là các luật được biểu diễn dưới dạng biểu thức chính quy (regular
expression).
Các luật cú pháp kết hợp sự biểu diễn của các ký tự và các thông tin cú
pháp với các biểu thức chính quy. Sau khi các biểu thức chính quy được xây
dựng, những biểu thức này được so khớp với dữ liệu trong văn bản đầu vào để
trích chọn ra các thông tin tương ứng. Trong một số trường hợp, luật cú pháp
được biểu diễn ở dạng đơn giản hơn, đó là các từ khoá. Các luật cú pháp được
sử dụng trong trích chọn sự kiện [5, 11, 10]. Trong nghiên cứu của mình,
Nishihara và cộng sự sử dụng ba từ khoá: địa điểm (place), đối tượng (object),
và hành vi(action) để biểu diễn một sự kiện được trích chọn từ blogs. Trong
lĩnh vực tiền tệ và chính trị, Aone và cộng sự dùng các luật cú pháp để trích
chọn các thông tin của một sự kiện [2]. Xu và cộng sự sử dụng các mẫu cú
pháp để học các mẫu từ dữ liệu các sự kiện. Các mẫu này đóng vai trò là tập
nhân (seeds) trong kỹ thuật bootstrapping.
Đặc biệt, các luật cú pháp còn được sử dụng để trích chọn các thông tin
trong miền dữ y sinh. Yakushiji và cộng sự sử dụng một bộ phân tích kết hợp
với ngữ pháp để xác định mối quan hệ và các sự kiện. Các luật cú pháp định
nghĩa các cấu trúc tham số bên trong văn bản.


23

1.4.1.2.Luật ngữ nghĩa
Trong trích chọn sự kiện sử dụng luật, đôi khi phải trích chọn các khái
niệm có ý nghĩa đặc biệt hoặc các mối quan hệ giữa các thành phần được trích
chọn. Tuy nhiên, các luật cú pháp không giải quyết được vấn đề này. Để giải
quyết vấn đề này, phương pháp thường được áp dụng là sử dụng luật ngữ
nghĩa (lexico-semantic patterns). Các luật ngữ nghĩa không đơn giản là tập
hợp của các từ dưới dạng biểu thức chính quy mà là các mẫu được xây dựng

dưới dạng các từ và mối quan hệ giữa chúng.
Các luật này được sử dụng với nhiều mục đích khác nhau. Li Fang và
cộng sự đã sử dụng các luật ngữ nghĩa để trích chọn thông tin từ sàn giao dịch
trứng khoán (stock market) [14]. Cohen và cộng sự [8] sử dụng khái niệm bộ
nhận dạng (recognizer) trên miền dữ liệu y sinh để trích chọn các sự kiện y
sinh từ tập dữ liệu. Cách tiếp cận tương tự cũng được áp dụng bởi VargasVera và Celjuska [24] khi tác giả đề xuất một bộ khung (framework) cho việc
nhận diện các sự kiện tập trung trên các bài báo của Knowledge Media
Institute (KMI). Capet và cộng sự sử dụng các mẫu ngữ nghĩa để trích chọn
sự kiện cho hệ thống tự động cảnh báo sớm.
Trích chọn sự kiện từ các văn bản không có cấu trúc có thể được áp dụng
trong nhiều lĩnh vực, đặc biệt trong miền dữ liệu dịch bệnh. Grishman R. và
cộng sự đã sử dụng 120 mẫu sự kiện ngôn ngữ (linguasitc event patterns) để
phân tích các câu và trích chọn các thông tiên liên quan tới một sự kiện dịch
bệnh [17]. Các mẫu này được xây dựng dựa trên các từ cà mối quan hệ giữa
chúng. Ví dụ, mẫu “np (DISEASE) vp (KILL) np (VICTIM)" sẽ so khớp với
một mệnh đề như “Cholera killed 23 inhabitants". Một sự kiện được nhận
dạng khi nó chứa hai cụm từ “outbreak of..." và “people died from... ". Các
mẫu này được áp dụng để trích chọn các sự kiện dịch bệnh và đạt độ đo F (Fscore) xấp xỉ 53.98%.


24

1.4.2. Phương pháp tiếp cận dựa trên học máy
Phương pháp dựa trên học máy thường được sử dụng cho các ứng dụng
xử lý ngôn ngữ tự nhiên và yêu cầu tập dữ liệu huấn luyện lớn để huấn luyện
mô hình sao cho xấp xỉ với các hiện tượng ngôn ngữ [20]. Cách tiếp cận này
thường dựa trên mô hình xác suất (probabilistic models), lý thuyết thông tin
(information theory), và đại số tuyến tính (linear algebra). Trong thực tế, một
số cách tiếp cận cơ bản có thể chỉ ra là Term Frequency - Inverse Document
Frequency (TF-IDF), word sense disambiguation, n-grams, và phân cụm.

Có thể tìm thấy nhiều ví dụ về việc sử dụng các tiếp cận dựa trên dữ liệu
để trích chọn sự kiện trong các nghiên cứu về trích chọn thông tin. Năm 2009,
Okamoto và cộng sự [25] dựng một khung (framework) để phát hiện các sự
kiện cục bộ (local events). Trong nghiên cứu của mình, tác giả sử dụng các kỹ
thuật của phân cụm phân cấp. Trong khi bản thân phân cụm có thể sinh ra các
kết quả tốt cho trích chọn sự kiện, Liu M. và cộng sự [23] kết hợp các đồ thị
có trọng số vô hướng chia đôi (weighted undirected bipartite graphs) và phân
cụm để trích chọn các thực thể chín và các sự kiện có ý nghĩa từ các thông tin
hàng ngày. Các kỹ thuật phân cụm cũng được sử dụng bởi Tanev và cộng sự
để trích chọn các sự kiện bạo lực và thảm hoạ cho hệ thống giám sát.
Bên cạnh đó, các kỹ thuật dựa trên dữ liệu cũng được áp dụng cho miền
dữ liệu dịch bệnh. DoanS. và cộng sự [12] xây dựng hệ thống giám sát sức
khoẻ toàn cầu (Global Health Monitor system) hiển thị sự lây lan dịch bệnh
trên thế giới. Hệ thống này gồm ba thành phần chính: (1) phân lớp chủ đề, (2)
nhận dạng thực thể, và (3) phát hiện tên bệnh và địa điểm bùng phát dịch
bệnh. Trong thành phần thứ nhất, bộ phân lớp Naive Bayes được sử dụng và
độ chính xác của quá trình phân lớp khoảng 88.10% . Trong thành phần thứ
hai, tác giả sử dụng Support Vector Machine (SVM) cho bài toán nhận dạng
thực thể và độ chính xác khoảng 76.97% với độ đo F (F-score). Thành phần


25

cuối cùng tác giả sử dụng một ontology (BioCaster Ontology) để phát hiện
tên bệnh và địa điểm bùng phát. Độ chính xác của thành phần thứ ba này
khoảng 93.40%.
1.4.3. Phương pháp kết hợp luật và học máy
Phương pháp kết hợp (lai - hybrid) thường được sử dụng trong các bài
toán trích chọn sự kiện. Hầu hết các hệ thống hướng tri thức (knowledgedriven systems) được bổ sung bởi phương pháp dựa trên học máy, và như vậy,
nó có thể giải quyết khuyết điểm của phương pháp sử dụng luật. Ví dụ,

Jungermann và Morik [16] kết hợp các luật ngữ nghĩa với Conditional
Random Fields (CRFs - được biểu diễn như các đồ thị vô hướng) để trích
chọn các sự kiện từ phiên họp toàn thể của nghị viện Đức. Piskorski và cộng
sự sử dụng các kỹ thuật bootstrapping với thống kê để trích chọn các sự kiện
liên quan tới bạo lực từ các bản tin trực tuyến với độ chính xác và hồi tưởng
cao. Ở đây, tác giả đã giải quyết hạn chế của thuật toán học mẫu có giám sát
với các cụm. Chun và cộng sự [21] trích chọn các sự kiện y sinh bằng cách sử
dụng các luật cú pháp kết hợp với đồng tham chiếu (co-occurrences). Lee và
cộng sự [7] sử dụng ontology mờ (ontology-based fuzzy) để trích chọn sự
kiện từ các bản tin tiếng Trung Quốc. Tác giả đã sử dụng thống kê dựa trên
ngữ pháp (grammar-based statistical) và gán nhãn từ loại (part-of-speech
tagging); như vậy, phương pháp này có thể được coi là phương pháp lai.
Volkova S. và cộng sự sử dụng nhận dạng thực thể và phân lớp mức câu
để trích chọn các sự kiện dịch bệnh trên động vật. Quá trình nhận dạng thực
thể sự kiện gồm ba bước: (1) nhận dạng thực thể từ văn bản, (2) các câu được
phân loại dựa trên các thực thể, (3) và các thực thể trong một câu sự kiện
được tổ hợp để tạo thành một cấu trúc. Trong quá trình nhận dạng sự kiệ, các
sự kiện đúng phải chứa một tên bệnh và một động từ liên quan tới bệnh đó.
Độ chính xác của bộ nhận dạng sự kiện và bộ phân lớp mức câu là 75% và


×