Tải bản đầy đủ (.docx) (65 trang)

Trích chọn sự kiện trong văn bản tin tức tiếng việt 04

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (662.37 KB, 65 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

PHAN THỊ THUẬN

TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN
TIN TỨC TIẾNG VIỆT

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI - 2014


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

PHAN THỊ THUẬN

TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN
TIN TỨC TIẾNG VIỆT

Ngành
Chuyên ngành
Mã số

: Công nghệ thông tin
: Hệ thống thông tin

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: TS NGUYỄN TRÍ THÀNH



HÀ NỘI - 2014


LỜI CẢM ƠN
Trƣớc tiên, tôi xin đƣợc gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới
Thầy giáo, TS. Nguyễn Trí Thành đã tận tình chỉ bảo; hƣớng dẫn; động viên và
giúp đỡ tôi trong suốt quá trình thực hiện luận văn tốt nghiệp.
Tôi xin gửi lời cảm ơn tới Thầy giáo, PGS. TS. Hà Quang Thuỵ ngƣời đã
tận tình giúp đỡ, cổ vũ, và góp ý cho tôi trong suốt thời gian tôi nghiên cứu và
làm việc tại phòng thí nghiệm Công nghệ Tri thức (Knowledge Technology
Laboratory - KTLab).
Tôi xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên tại phòng thí
nghiệm Công nghệ Tri thức (KTLab) – Trƣờng Đại học Công nghệ đã hỗ trợ tôi
rất nhiều trong quá trình thực hiện luận văn.
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những ngƣời
thân yêu luôn bên cạnh: quan tâm; động viên tôi trong suốt quá trình học tập và
thực hiện luận văn tốt nghiệp này.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 20 tháng 6 năm 2014
Học viên

Phan Thị Thuận

i


LỜI CAM ĐOAN
Tôi xin cam đoan giải pháp trích chọn sự kiện trong văn bản tin tức tiếng
Việt đƣợc trình bày trong luận văn này do tôi thực hiện dƣới sự hƣớng dẫn của

TS. Nguyễn Trí Thành.
Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên
quan ở trong nƣớc và quốc tê. Tất cả những tham khảo từ các nghiên cứu liên
quan đều đƣợc nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo
trong luận văn.
Hà Nội, tháng 6 năm 2014
Tác giả luận văn

Phan Thị Thuận

ii


MỤC LỤC
DANH MỤC CÁC HÌNH............................................................................................ vi
DANH MỤC CÁC BẢNG........................................................................................... vi
MỞ ĐẦU..................................................................................................................... vii
Chƣơng 1. GIỚI THIỆU ĐỀ TÀI..................................................................................1

1.1. BÀI TOÁN TRÍCH CHỌN THÔNG TIN TRONG VĂN BẢN....................1
1.2. TỔNG QUAN VỀ SỰ KIỆN.........................................................................1
1.2.1. Định nghĩa sự kiện..................................................................................3
1.2.2. Trích chọn sự kiện...................................................................................3
1.3. TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT.....4
1.3.1. Bài toán trích chọn sự kiện vụ tai nạn.....................................................4
1.3.2. Phát hiện sự kiện.....................................................................................6
1.3.3. Trích chọn sự kiện...................................................................................6
1.4. Ý NGHĨA CỦA BÀI TOÁN TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN.........7
1.4.1. Ý nghĩa khoa học.................................................................................... 7
1.4.2. Ý nghĩa thực tiễn.....................................................................................7

1.5. KẾT LUẬN....................................................................................................8
Chƣơng 2. MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN......................................................9

2.1. PHƢƠNG PHÁP TIẾP CẬN DỰA TRÊN TẬP LUẬT (RULE – BASED) 9

2.1.1. Luật cú pháp (lexico-syntactic patterns)...............................................10
2.1.2. Luật ngữ nghĩa (lexico-semantic patterns)............................................11
2.1.3. Hình dạng và biểu diễn của tập luật (Form and Representation of Rules)
11

iii


2.2. PHƢƠNG PHÁP TIẾP CẬN DỰA TRÊN HỌC MÁY..............................15
2.3 PHƢƠNG PHÁP TIẾP CẬN KẾT HỢP LUẬT VÀ HỌC MÁY................17
2.5. TỔNG KẾT..................................................................................................18
Chƣơng 3. ĐỀ XUẤT MÔ HÌNH TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN...............19

3.1. CÁC ĐẶC TÍNH CỦA SỰ KIỆN VỤ TAI NẠN........................................19
3.2. PHÁT BIỂU BÀI TOÁN............................................................................. 19
3.3. MÔ HÌNH PHÁT HIỆN VÀ TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN......21
3.3.1. Phƣơng pháp đề xuất............................................................................ 21
3.3.2. Mô hình phát hiện và trích chọn sự kiện vụ tai nạn..............................22
3.4. GIẢI QUYẾT BÀI TOÁN PHÁT HIỆN SỰ KIỆN VÀ BÀI TOÁN TRÍCH
CHỌN SỰ KIỆN VỤ TAI NẠN.........................................................................23
3.4.1. Bài toán 1- Pháp hiện sự kiện vụ tai nạn (pha 1)..................................23
3.4.1.1. Phát biểu bài toán..................................................................... 23
3.4.1.2. Xây dựng tập luật...................................................................... 24
3.4.1.3. Xây dựng mô hình phân lớp...................................................... 28
3.4.2. Bài toán 2- Trích chọn sự kiện vụ tai nạn (pha 2).................................29

3.4.2.1. Phát biểu bài toán..................................................................... 29
3.4.2.2. Trích chọn thời gian.................................................................. 30
3.4.2.3. Trích chọn địa điểm...................................................................32
3.4.2.4. Trích chọn số thương vong........................................................32
3.4.2.5. Trích chọn phương tiện gây tai nạn...........................................33
3.5. TỔNG KẾT..................................................................................................34
Chƣơng 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ............................................................ 36

iv


4.1. MÔI TRƢỜNG VÀ CÁC CÔNG CỤ SỬ DỤNG THỰC NGHIỆM.........36
4.2. XÂY DỰNG TẬP DỮ LIỆU....................................................................... 37
4.2.1. Thu thập dữ liệu.................................................................................... 37
4.2.2. Tiền xử lý dữ liệu.................................................................................. 37
4.3. ĐÁNH GIÁ QUÁ TRÌNH PHÁT HIỆN SỰ KIỆN.....................................37
4.3.1. Đánh giá bộ lọc dữ liệu.........................................................................37
4.3.2. Đánh giá quá trình phân lớp..................................................................38
4.4. ĐÁNH GIÁ QUÁ TRÌNH TRÍCH CHỌN SỰ KIỆN................................. 39
4.4.1. Thực nghiệm không qua bộ phân lớp....................................................39
4.4.2. Thực nghiệm qua bộ phân lớp...............................................................41
4.4.3. Nhận xét................................................................................................41
4.5 PHÂN TÍCH LỖI..........................................................................................41
4.5.1. Phân tích lỗi quá trình phát hiện sự kiện...............................................41
4.5.2. Phân tích lỗi quá trình trích chọn sự kiện............................................. 42
4.6. MỘT SỐ KẾT QUẢ PHÂN TÍCH CÁC SỰ KIỆN.................................... 43
Biểu đồ 4.3. Thống kê số vụ tai nạn theo tỉnh.....................................................44
4.7. TỔNG KẾT..................................................................................................45
TÀI LIỆU THAM KHẢO........................................................................................... 48


v


DANH MỤC CÁC HÌNH
Hình 3.1: Quá trình phát hiện và trích chọn sự kiện vụ tai nạn......................... 22
Hình 3.2 Thành phần phát hiện sự kiện..............................................................24
Hình 3.3 Tiêu đề bản tin có chứa từ liên quan phương tiện giao thông.............25
Hình 3.4 Tiêu đề không chứa các từ liên quan đến phương tiện giao thông......26
Hình 3.5 Thành phần trích chọn sự kiện.............................................................30
Hình 4.1. Lỗi bộ lọc khi dữ liệu không thuộc miền tai nạn giao thông..............42

DANH MỤC CÁC BẢNG
Bảng 3.1Phương tiện giao thông........................................................................ 26
Bảng 4.1 Cấu hình phần cứng............................................................................ 36
Bảng 4.2. Công cụ phần mềm sử dụng............................................................... 36
Bảng 4.3. Các thành phần của một bản tin.........................................................37
Bảng 4.4. Tỷ lệ lỗi của quá trình lọc dữ liệu...................................................... 38
Bảng 4.5. Đánh giá kết quả phân lớp................................................................. 39
Bảng 4.6. Đánh giá quá trình trích chọn - dữ liệu không qua bộ phân lớp........41
Bảng 4.7. Đánh giá quá trình trích chọn - dữ liệu qua bộ phân lớp..................41
Bảng 4.8 Một số lỗi - trong quá trình trích chọn................................................43

vi


MỞ ĐẦU
Trích chọn thông tin (Information Extraction - IE), đặc biệt là trích chọn sự
kiện (Event Extraction - EE) là một lĩnh vực con trong khai phá dữ liệu (Data
Mining - DM). Những năm gần đây, trích chọn sự kiện đã thu hút nhiều sự quan
tâm từ các nhà khoa học trên thế giới và đã thu đƣợc nhiều kết quả trong thực tế.

Trích chọn sự kiện có thể áp dụng vào nhiều miền dữ liệu khác nhau nhƣ kinh
tế, văn hóa, y tế, xã hội (chẳng hạn nhƣ thông tin về các vụ tai nạn giao thông),
chính trị, ...
Theo những con số thống kê trên các trang báo điện tử về con số tai nạn
hàng năm, nhƣ: thông tin đăng trên báo điện tử , sáng
03 – 01-2013, Chính phủ tổ chức “Hội nghị trực tuyến tổng kết công tác trật tự
an toàn giao thông năm 2012 và triển khai nhiệm vụ năm 2013” do Phó Thủ
tƣớng Chính phủ Nguyễn Xuân Phúc chủ trì. Trong hội nghị, Ủy ban An toàn
giao thông ATGT Quốc gia đã thống kê: năm 2012, cả nước xảy ra 36.376 vụ tai
nạn giao thông, làm chết 9.838 người, bị thương 38.060 người. Cũng theo báo
điện tử , ngày 31-12-2013, Phó Thủ tƣớng Chính phủ,
Chủ tịch Ủy ban ATGT Quốc gia Nguyễn Xuân Phúc đã chủ trì hội nghị trực
tuyến với các bộ, ngành, địa phƣơng nhằm tổng kết công tác bảo đảm trật tự
ATGT năm 2013 và triển khai nhiệm vụ năm 2014. Theo thống kê của Ủy ban
ATGT Quốc gia, năm 2013 cả nước đã xảy ra 29.385 vụ tai nạn giao thông
(TNGT), làm chết 9.369 người, bị thương 29.500 người.
Từ các con số thống kê tai nạn giao thông hàng năm, chúng ta thấy số vụ
tai nạn còn rất cao, đi cùng với nó là con số tử vong và số thƣơng vong là rất
lớn. Mặt khác, bản tin vụ tai nạn đƣợc cập nhật khá đầy đủ và mang tính thời sự
trên các báo điện tử. Hơn nữa, trích chọn sự kiện đang rất phát triển, chúng ta có
thể sử dụng trích chọn sự kiện để trích chọn thông tin hữu ích từ các bản tin vụ
tai nạn, kết quả của quá trình này sẽ đƣợc thống kê thành các con số hữu ích
giúp các nhà quản lý và ngƣời dân tham gia giao thông đúng cách. Đó cũng là lý
do, tác giả chọn và nghiên cứu đề tài“Trích chọn sự kiện trong văn bản tin tức

vii


tiếng Việt” miền dữ liệu khai thác là sự kiện vụ tai nạn. Chi tiết luận văn đƣợc
chia thành 4 chƣơng:

Chƣơng 1. Giới thiệu đề tài
Chƣơng này trình bày cơ bản về bài toán trích chọn sự kiện trong bối cảnh
bùng nổ thông tin trên Internet. Hơn nữa nêu lên đƣợc ý nghĩa khoa học, ý nghĩa
thực tiễn, ứng dụng của đề tài trích chọn sự kiện vụ tai nạn giao thông trên miền
văn bản tiếng Việt.
Chƣơng 2.Một số phƣơng pháp tiếp cận
Chƣơng này tập trung trình bày các phƣơng pháp tiếp cận cho bài toán
trích chọn sự kiện đó là, phƣơng pháp tiếp cận dựa trên tâp luật, phƣơng pháp
tiếp cận dựa trên học máy, phƣơng pháp tiếp cận kết hợp luật và học máy, trong
mỗi phƣơng pháp đều có nhận xét hữu ích. Từ đó, luận văn sẽ chỉ ra phƣơng
pháp phù hợp cho bài toán trích chọn sự kiện vụ tai nạn.
Chƣơng 3. Đề xuất mô hình trích chọn sự kiện vụ tai nạn
Chƣơng này, phát biểu và mô tả mô hình tổng thể cho bài toán trích chọn
sự kiện vụ tai nạn. Sau đó, phát biểu, mô tả mô hình chi tiết và cách giải quyết
cho hai bài toán: phát hiện sự kiện và trích chọn sự kiện.
Chƣơng 4. Thực nghiệm và đánh giá
Chƣơng này, luận văn mô tả quá trình thực nghiệm và đánh giả kết quả đề
xuất dựa trên hai bài toán, đó là: bài toán phát hiện sự kiện và bài toán trích
chọn sự kiện. Ba độ đo đƣợc sử dụng trong pha phát hiện sự kiện là độ chính
xác (P - Precision), độ hồi tƣởng (R - Recall), và độ đo F1 (F1-score) và so sánh
với kết quả đánh giá thủ công (bằng tay) cho pha trích chọn sự kiện. Thống kê
và đánh giá (biểu đồ) các thuộc tính đã đƣợc trích chọn.
Phần kết luận: trình bày kết quả đạt đƣợc của luận văn, những hạn chế và
hƣớng phát triển của luận văn trong tƣơng lai.

viii


Chƣơng 1. GIỚI THIỆU ĐỀ TÀI
Trong chƣơng này, luận văn tập trung giải quyết các vấn đề sau: giới thiệu

bài toán trích chọn thông tin, tổng quan về sự kiện, trích chọn sự kiện trong văn
bản tin tức tiếng Việt (tin tức đƣợc đề cập là vụ tai nạn), ý nghĩa khoa học và ý
nghĩa thực tiễn của bài toán trích chọn sự kiện vụ tai nạn.
1.1. BÀI TOÁN TRÍCH CHỌN THÔNG TIN TRONG VĂN BẢN
Theo Douglas E. Appelt, trích chọn thông tin (Information Extraction- IE)
có thể đƣợc coi nằm giữa thu hồi thông tin (Information Retrieval - IR) và hiểu
văn bản (Text Understanding - UT) [2]. Không giống nhƣ thu hồi thông tin chỉ
tập trung vào các mẫu thông tin có liên quan trong văn bản mà không chú trọng
đến việc hiểu văn bản; trích chọn thông tin còn quan tâm tới các sự kiện có liên
quan trong văn bản và biểu diễn chúng dƣới dạng các khuôn mẫu thông tin có
liên quan trong văn bản và biểu diễn chúng dƣới dạng khuôn mẫu. Khác với
hiểu văn bản chỉ tập trung trên một phần nhỏ của văn bản (câu, đoạn), trích chọn
thông tin quan tâm tới toàn bộ nội dung văn bản.
Theo Peshkin và Pfeffer [11], trích chọn thông tin có thể đƣợc định nghĩa:
như là một công việc điền thông tin vào các mẫu từ các dữ liệu chưa biết trước
trong miền được định nghĩa trước. Mục tiêu của trích chọn thông tin là lấy từ
văn bản các thông tin nổi bật của các sự kiện, thực thể, các mối liên hệ. Nhƣ
vậy, có thể coi trích xuất thông tin là một kỹ nghệ lấy và biểu diễn tri thức thành
các thông tin có định dạng và hữu ích từ nguồn dữ liệu lớn trên Internet.
Bài toán trích chọn thông tin trong văn bản có thể đƣợc phát biểu nhƣ sau:
-

Đầu vào: dữ liệu văn bản bất kỳ

-

Đầu ra: thông tin hữu ích dƣới dạng có cấu trúc.

1.2. TỔNG QUAN VỀ SỰ KIỆN
Trích chọn sự kiện với vai trò trích chọn ra các thông tin có ý nghĩa từ tập

dữ liệu lớn và đƣợc cộng đồng khoa học rất quan tâm và đầu tƣ nghiên cứu.

1


Năm 1987, Message Understanding Conferences (MUC) 6 đƣợc tổ chức với sự
hỗ trợ của Quỹ nghiên cứu Bộ quốc phòng Hoa Kỳ 7 và lần đầu tiên khái niệm
event (sự kiện) đƣợc đề cập. Sau đó, rất nhiều hội nghị đƣợc tổ chức tạo thành
dãy hội nghị MUC. Với mỗi hội nghị, thông tin đƣợc quan tâm khác nhau
nhƣng đều có đặc điểm chung là chúng đƣợc trích xuất từ dữ liệu nói về khủng
hoảng (crisis). Các chủ đề trong dữ liệu thƣờng là tội phạm, khủng bố, đánh
bom… một trong những đóng góp lớn của MUC là đƣa ra việc trích chọn thông
tin dựa trên mẫu (scenariotemplate). Các mẫu đƣợc ban tổ chức quy định và các
đội tham gia cần điền thông tin vào các mẫu này một các tự động. Cuối cùng,
các sự kiện đƣợc trích chọn gồm các thông tin: tổ chức, đối tƣợng tham gia
(ngƣời, sự vật, sự việc), thời gian, địa điểm, số lƣợng…Độ chính xác
(precision) và hồi tƣởng (recall) của các nghiên cứu tham dự MUC nằm trong
khoảng 50% đến 60% [5].
Chƣơng trình Phát hiện và theo dõi chủ đề (Topic Detection and Tracking,
TDT)8 đƣợc tổ chức từ năm 1997 thu hút nhiều nhóm nghiên cứu từ các trƣờng
đại học tham gia. Chƣơng trình này đƣợc phối hợp bởi Viện Công nghệ và
Chuẩn hoá quốc gia Hoa Kỳ (NIST) và DAPRA nhằm giải quyết bài toán phát
hiện, theo dõi và xâu chuỗi sự kiện. Một số nhóm nghiên cứu tham gia chƣơng
trình nhƣ sau: nhóm CMU của đại học Carnegie Mellon, nhóm BBN từ công ty
BBN Technologies, nhóm DRAGON của công ty Dragon, nhóm UPENN của
trƣờng đại học Pennsylvania (UPENN). Các bài toán quan trọng của TDT gồm:
Story Segmentation, Topic Tracking, Topic Detection, First Story Detection, và
Link Detection.
Chƣơng trình Trích chọn nội dung tự động (Automatic Content Extraction,
ACE) của đại học Pennsylvania cũng thu hút đƣợc nhiều quan tâm từ các cộng

đồng nghiên cứu và trích chọn thông tin cũng nhƣ trích chọn sự kiện. Chƣơng
trình này tập trung vào các ngôn ngữ nhƣ tiếng Anh, Trung Quốc và Ả rập. Các
thông tin đƣợc trích chọn gồm các thực thể, quan hệ giữa các thực thể, và các sự
kiện chúng tham gia vào.

2


Nhƣ vậy, có thể thấy rằng trích chọn thông tin nói chung và trích chọn sự
kiện nói riêng là một vấn đề quan trọng và thời đại, nhận đƣợc rất nhiều quan
tâm từ cộng đồng khoa học. Trong phần tiếp theo luận văn sẽ làm sáng tỏ định
nghĩa sự kiện [1.2.1] và trích chọn sự kiện [1.2.2].
1.2.1. Định nghĩa sự kiện
Trích chọn sự kiện lần đầu tiên đƣợc giới thiệu nhƣ một chủ đề quan trọng
trong Message Understanding Conference (MUC) năm 1987 [21]. Trong MUC,
một sự kiện đƣợc định nghĩa nhƣ sau: “một sự kiện có tác nhân (actor), thời
gian (time), địa điểm (place) và tác động tới môi trường xung quanh”.
Trong chƣơng trình ACE, Dodington Deorge R và cộng sự đƣa ra định
nghĩa sự kiện nhƣ sau: “một sự kiện là một hành động được tạo bởi những
người tham gia”[22]. ACE chia sự kiện thành 8 loại khác nhau: LIFE (sự sống chết), MOVEMENT (sự di chuyển), TRANSACTION (giao dịch), BUSINESS
(kinh tế), CONFLICT (xung đột), CONTACT (giao thiệp), PERSONNEL (nhận
- đổi việc), JUSTICE (pháp lý). Mỗi dạng sự kiện lại phân biệt từng dạng con.
Ví dụ, LIFE có các dạng con nhƣ BE-BORN (chào đời), INJURE (bị thƣơng),
DIE (chết), hay PERSONAL có START-POSITION (vị trí khi nhận việc), ENDPOSITION (vị trí khi thôi việc), NOMINATE (bổ nhiệm), ELECT (bầu chọn),...
Có thể thấy rằng các nghiên cứu liệt kê ở trên đều đồng ý rằng sự kiện có
thể coi nhƣ một mẫu (template) gồm nhiều các thuộc tính (elements). Quá trình
trích chọn sự kiện quan tâm tới việc làm thế nào có thể điền các thông tin phù
hợp từ các văn bản gốc tƣơng ứng từng thuộc tính.
1.2.2. Trích chọn sự kiện
Trích chọn sự kiện và trích chọn thông tin có điểm gì chung? Có thể nói

rằng trích chọn sự kiện là một lĩnh vực con của trích chọn thông tin. Nếu nhƣ
trích chọn thông tin chỉ quan tâm các dữ liệu rời rạc (tên ngƣời, địa điểm, các
con số,…) thì trích chọn sự kiện quan tâm nhiều hơn tới tính cấu trúc và mức độ

3


liên quan của thông tin trong một sự kiện. Từ đó, ngƣời đọc có thể dễ ràng suy
luận ra các thông tin có ý nghĩa. Ví dụ, “ngay sáng ngày 30/4, trên đường Xuân
Thuỷ, thủ đô Hà Nội đã xảy ra vụ tai nạn nghiêm trong làm 2 người trên xe máy
bị thương nặng. Nguyên nhân bước đầu được cho là do tài xế tắc-xi đã tăng tốc
khi nhận điểm nên đã xô thẳng vào xe máy đi cùng chiều.” Trong ví dụ này, trích
chọn thông tin đƣa ra các kết quả rời rạc nhƣ: 30/4, Hà Nội, 2 hoặc tắc xi; trong
khi đó trích chọn sự kiện thì quan tâm tới một bộ các thuộc tính biểu diễn cho sự
kiện gồm {30/4, Hà Nội, 2 ngƣời bị thƣơng, tắc-xi}. Rõ ràng, với tập dữ liệu
trên, thông tin là hữu ích và đầy đủ hơn các thông tin rời rạc.
Một cách tổng quát, có thể coi trích chọn sự kiện trong văn bản nhận đầu
vào là các văn bản phi cấu trúc và đầu ra là tri thức đƣợc biểu diễn dƣới dạng
thông tin có cấu trúc. Những thông tin này rất hữu ích cho việc khai thác dữ liệu
nhƣ: thống kê, hệ thống giám sát, các hệ thống hỗ trợ ra quyết định. Trích chọn
sự kiện có thể áp dụng cho một miền dữ liệu cụ thể nhƣ vụ tai nạn giao thông,
thông tin các tour du lịch, bệnh dịch,… đồng thời đƣa ra các thông tin xung
quanh sự kiện đó thƣờng bao gồm: Thời gian, địa điểm, số lƣợng, …
Theo Grishman và cộng sự, trích chọn sự kiện là một bài toán khó do vấn
đề xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) và đặc trƣng
dữ liệu [21]. Dễ ràng nhận thấy trích chọn sự kiện phụ thuộc nhiều vào NLP, cụ
thể là bài toán nhận dạng thực thể (Named Entity Recognition - NER). Bên cạnh
đó, dữ liệu đầu vào của trích chọn sự kiện rất đa dạng nên sẽ ảnh hƣởng tới tính
hiệu quả của quá trình trích chọn.
1.3. TRÍCH CHỌN SỰ KIỆN TRONG VĂN BẢN TIN TỨC TIẾNG VIỆT

1.3.1. Bài toán trích chọn sự kiện vụ tai nạn
Trích chọn thông tin (Information Extraction - IE), đặc biệt là trích chọn sự
kiện (Event Extraction - EE) là một lĩnh vực con trong khai phá dữ liệu (Data
Mining - DM). Những năm gần đây, trích chọn sự kiện đã thu hút nhiều sự quan

4


tâm từ các nhà khoa học. Nó là bƣớc đi tốt cho việc khai thác tri thức trên văn
bản.
Trích chọn thông tin về sự kiện vụ tai nạn nhƣ: thời gian(giờ trong ngày),
thời gian (dd/mm/yyyy), thứ/tuần, tháng/năm, địa điểm xảy ra vụ tai nạn, số
thƣơng vong, phƣơng tiện tham gia trong vụ tai nạn, phƣơng tiện gây tai nạn,
độ tuổi của ngƣời điều khiển phƣơng tiện gây tai nạn, ngành nghề, địa hình gây
tai nạn, nguyên nhân gây tai nạn... Kết quả của quá trình trích chọn đƣợc làm
đầu vào cho hệ thống khai thác nhƣ thống kê và trực quan hoá trên bản đồ Việt
Nam những địa điểm nóng hay xảy ra tai nạn, thời gian nào trong ngày có nguy
cơ xảy ra tai nạn nhiều hơn, tháng nào hay mùa nào trong năm có nguy cơ tai
nạn giao thông nhiều hơn, độ tuổi có nguy cơ xảy ra tai nạn… Những điều đó
giúp ích cho các nhà quản lý có biệt pháp giúp khắc phục để giảm thiểu số vụ tai
nạn, đặt bảng biển báo hiệu nơi có nguy cơ tai nạn cao, có biệm pháp giáo dục
ngƣời dân khi tham gia giao thông. Mặt khác, giúp ngƣời dân biết cách tự
phòng tránh không để mình là mạn nhân đáng tiếc trong các vụ tai nạn.
Bài toán trích chọn sự kiện vụ tai nạn đƣợc phát biểu nhƣ sau:
Đầu vào: bản tin bất ký trên báo điện tử
Đầu ra: trích chọn những thông tin của sự kiện vụ tai nạn (nếu có).
Bài toán trích chọn sự kiện vụ tai nạn đƣợc chia thành hai bài toán. Bài
toán thứ nhất, phát hiện sự kiện vụ tai nạn, đầu vào là bản tin bất kỳ trên báo
điện tử, bài toán phải chỉ ra đâu là sự kiện vụ tai nạn. Kết quả của bài toán phát
hiện sự kiện sẽ là dữ liệu đầu vào cho bài toán trích chọn; thông tin đƣợc trích

chọn trong sự kiện vụ tai nạn có thể là thời gian, địa điểm xảy ra tai nạn, số
thƣơng vong, phƣơng tiện gây tai nạn, giờ (giờ nào trong ngày xảy ra tai nạn),
độ tuổi của ngƣời điều khiển phƣơng tiện xảy ra tai nạn, giới tính, địa hình xảy
ra tai nạn,… Trong giới hạn đề tài, tác giả tập trung vào việc trích chọn ra bộ các
thuộc tính nhƣ: (thời gian, địa điểm xảy ra tai nạn, số thƣơng vong, phƣơng tiện
gây tai nạn).

5


1.3.2. Phát hiện sự kiện
Bài toán phát hiện sự kiện trả lời câu hỏi “làm thể nào để phát hiện được
một văn bản có chứa sự kiện vụ tai nạn”. Tức là, cho trƣớc đầu vào là văn bản,
làm thế nào để phát hiện văn bản đó có chứa sự kiện vụ tai nạn? theo Grishman
và cộng sự [13], phát hiện sự kiện là quá trình học không giám sát, tác giả sử
dụng các từ khoá để quyết định một văn bản có chứa sự kiện dịch bệnh hay
không. Hai từ khoá đƣợc tác giả sử dụng là “outbreak of…” và “died from…”.
Theo Doan và cộng sự [14], bài toán phát hiện sự kiện có thể coi nhƣ quá trình
học có giám sát. Trong nghiên cứu của mình, tác giả sử dụng phƣơng pháp để
phân lớp các tài liệu. Bộ phân lớp này dựa trên một tập các dữ liệu đã đƣợc gán
nhãn. Qua quá trình huấn luyện, bộ phân lớp sẽ quyết định một văn bản đầu vào
có chứa sự kiện dịch bệnh hay không.
Từ nghiên cứu của Grishman và cộng sự hoặc nghiên cứu của Doan và
cộng sự, có các cách khác nhau để giải quyết bài toán phát hiện sự kiện dịch
bệnh. Do đó, có thể vận dụng phƣơng pháp này cho việc phát hiện sự kiện vụ tai
nạn giao thông cùng với việc xây dựng bộ từ khoá hoặc xây dựng một tập các dữ
liệu đã đƣợc gán nhãn phù hợp cho sự kiện vụ tai nạn giao thông.
1.3.3. Trích chọn sự kiện
Nhiệm vụ của bài toán trích chọn sự kiện phải trả lời câu hỏi “làm thế nào
để trích chọn các thuộc tính của một sự kiện”. Có nhiều phƣơng pháp cho việc

trích chọn sự kiên; trong đó phải kể đến phƣơng pháp sử dụng luật (học không
giám sát) đƣợc sử dụng từ rất sớm để giải quyết bài toán này[13]. Quá trình
trích chọn bằng phƣơng pháp này thƣờng đƣợc sử dụng các luật dựa vào quá
trình khảo sát dữ liệu để trích ra các thuộc tính của một sự kiện.
Phƣơng pháp sử dụng học máy và các kỹ thuật NLP để giải quyết bài toán
trích chọn sự kiện. Quá trình này thƣờng sử dụng Named Entity Recognition
(NER) để lấy ra các thuộc tính cơ bản của sự kiện: thời gian, địa điểm, tên
ngƣời,… sau đó kết hợp các thuộc tính này thành một sự kiện. [14].

6


Nhƣ vậy, bài toán trích chọn sự kiện nói chung hay bài toán trích chọn sự
kiện vụ tai nạn nói riêng có thể đƣợc chia thành hai bài toán con, đó là: phát
hiện sự kiện và trích chọn sự kiện. Trong luận văn này, tác giả sẽ mô tả chi tiết
các kỹ thuật đƣợc áp dụng để giải quyết hai bài toán này ở chƣơng 3.
1.4. Ý NGHĨA CỦA BÀI TOÁN TRÍCH CHỌN SỰ KIỆN VỤ TAI NẠN
1.4.1. Ý nghĩa khoa học
Ý nghĩa khoa học của bài toán trích chọn sự kiện đƣợc rất nhiều các nhà
khoa học quan tâm. Kết quả của bài toán trích chọn sự kiện vụ tai nạn làm tiền
đề cho việc khai thác dữ liệu nhƣ thống kê, dự đoán xu hƣớng, hệ thống giám
sát và hỗ trợ ra quyết định.
1.4.2. Ý nghĩa thực tiễn
Kết quả việc trích chọn sự kiện vụ tai nạn là dữ liệu đầu vào cho việc khai
thác: thống kê các con số liên quan đến vụ tai nạn nhƣ các vụ tai nạn hay xảy ra
vào thời gian nào trong ngày (vào buổi sáng, giờ đến công sở, buổi trƣa, giờ tan
tầm, hay vào đêm…), những tháng nào trong năm hay xảy ra tai nạn (vào mùa lễ
hội, mùa nghỉ mát hay mùa mƣa…), phƣơng tiện nào hay xảy ra tai nạn (xe
buýt, xe tải, tắc-xi, xe khách,…), độ tuổi của ngƣời điều kiển phƣơng tiện giao
thông (tuổi 18-20, tuổi ngoài 60, hay độ tuổi nào khác), nghề nghiệp của ngƣời

điều kiển phƣơng tiện giao thông (làm nghề tự do, xe ôm, công chức,..), địa
hình gây tai nạn (đƣờng vòng cua, đƣờng giao nhau, đƣờng rốc, đƣờng trơn,
đƣờng gồ ghề, đƣờng cao tốc,…) Từ những thống kê trên có thể trực quan hoá
trên bản đồ những địa điểm nhạy cảm hay xảy ra tai nạn.
Qua đó, cung cấp cho ngƣời dân có thêm kiến thức khi tham gia giao thông
nhƣ: trong khoảng thời gian nào, trên quãng đƣờng nào,… hay xảy ra ta nạn.
Điều đó có thể giúp ngƣời dân biết cách đề phòng tránh các nguy cơ có thể xảy
ra tai nạn.
Ngoài ra, nó còn giúp ngƣời dùng muốn tìm kiếm thông tin liên quan đến
vụ tai nạn giao thông.

7


Hơn thế nữa, kết quả của bài toán có thể giúp các nhà quản lý có cái nhìn
khách quan tình trạng tai nạn giao thông, có biệm pháp phòng ngừa các vụ tai
nạn nhƣ: sửa chữa nâng cấp cơ sở hạ tầng, có biệm pháp giáo dục ý thức ngƣời
dân khi tham gia, đặt biển cảnh báo nơi nào có nguy cơ cao xảy ra tai nạn, cần
phải giảm tốc độ, thận trọng quan sát đƣờng trong khi tham gia giao thông…
Ngoài ra, những con số thống kê từ việc trích chọn sự kiện vụ tai nạn. Còn
giúp các nhà quản lý so sánh quy mô mức độ nghiêm trọng của các vụ tai nạn
trong từng khoảng thời gian với nhau, từ đó đƣa ra bản đánh giá trung về sự
phát triển của các vụ tai nạn theo chiều hƣớng nào.
1.5. KẾT LUẬN
Trong chƣơng này, luận văn đã trình bày cơ bản bài toán trích chọn sự
kiện. Trọng tâm của chƣơng này trình bày những khái niệm cơ bản của bài toán
trích chọn sự kiện nói chung và bài toán trích chọn sự kiện vụ tai nạn nói riêng.
Bên cạnh đó, chƣơng này cũng đề cập tới hai bài toán cơ bản của trích chọn sự
kiện vụ tai nạn, đó là bài toán phát hiện sự kiện và bài toán trích chọn sự kiên;
đồng thời nêu ý nghĩa khoa học, ý nghĩa thực tiễn, những khó khăn khi giải

quyết bài toán trích chọn sự kiện vụ tai nạn. Trong chƣơng 2, luận văn sẽ trình
bày các phƣơng pháp tiếp cận để giải quyết bài toán phát hiện sự kiện và trích
chọn sự kiện vụ tai nạn.

8


Chƣơng 2. MỘT SỐ PHƢƠNG PHÁP TIẾP CẬN
Theo nghiên cứu của Hogenbcom F. và cộng sự [4] đã cung cấp một khảo
sát dựa trên ba phƣơng pháp cơ bản phù hợp cho bài toán trích chọn sự kiện
trong văn bản. Đó là các phƣơng pháp: phƣơng pháp dựa luật hay còn đƣợc gọi
là phƣơng pháp dựa ttrên tri thức (knowledge - driven), phƣơng pháp học máy
hay còn đƣợc gọi là phƣơng pháp dựa trên dữ liệu (data-driven), phƣơng pháp
kết hợp giữa hai phƣơng pháp trên hay còn đƣợc gọi là phƣơng pháp lai
(hybrid).
Phƣơng pháp thứ nhất dựa trên tri thức, thƣờng sử dụng kiến thức chuyên
gia miền để sinh ra tập luật (thƣờng là chuyên gia về ngôn ngữ và chuyên miền
dữ liệu); đòi hỏi đọc dữ liệu và hiểu dữ liệu sau đó sinh ra tập luật. Phƣơng pháp
thứ hai dựa trên dữ liệu, phƣơng pháp này dựa trên tri thức từ một tập dữ liệu
lớn để giải quyết bài toán trích chọn thông tin trong một sự kiện (thƣờng sử
dụng phƣơng pháp thống kê và mô hình toán học). Điển hình cho phƣơng pháp
này là nhận dạng thực thể (NER). Tập luật này thƣờng sử dụng để trích chọn
thuộc tính của sự kiện. Phƣơng pháp cuối cùng, sử dụng kết giữa hai phƣơng
pháp trên.
Trong chƣơng này, tác giả sẽ trình bày phƣơng pháp tiếp cận bài toán Trích
chọn sự kiện vụ tai nạn giao thông bao gồm: phƣơng pháp tiếp cận dựa trên luật
(rule - base), phƣơng pháp tiếp cận dựa trên học máy, phƣơng pháp tiếp cận kết
hợp luật và học máy. Phần cuối tác giả sẽ có những nhận xét và đƣa ra phƣơng
pháp giải quyết bài toán trong chƣơng 3. Chi tiết của từng phƣơng pháp sẽ
đƣợc trình bầy ở các mục [2.1], [2.2], [2.3].

2.1. PHƢƠNG PHÁP TIẾP CẬN DỰA TRÊN TẬP LUẬT (RULE –
BASED)
Phƣơng pháp dựa trên tập luật hay còn đƣợc gọi là phƣơng pháp dựa ttrên
tri thức (knowledge - driven). Phƣơng pháp này dựa trên tri thức, thƣờng sử
dụng kiến thức chuyên gia miền để sinh ra tập luật (thƣờng là chuyên gia về

9


ngôn ngữ và chuyên gia miền dữ liệu); đòi hỏi đọc và hiểu dữ liệu sau đó sinh ra
tập luật.
2.1.1. Luật cú pháp (lexico-syntactic patterns)
Luật cú pháp, đôi khi còn đƣợc gọi là mẫu cú pháp (lexico-syntactic
patterns) có thể coi là phƣơng pháp sử dụng sớm trong bài toán trích chọn sự
kiện. Các mẫu này đƣợc sinh ra từ các chuyên gia miền (expert knowledge)
dƣới dạng tập luật (rules) [4]. Điển hình cho phƣơng pháp này là các luật đƣợc
biểu diễn dƣới dạng biểu thức chính quy (regular expression).
Các luật cú pháp là sự kết hợp biểu diễn của các ký tự và các thông tin cú
pháp với các biểu thức chính quy. Sau khi các biểu thức chính quy đã đƣợc xây
dựng, các biểu thức này sẽ đƣợc so khớp với dữ liệu trong văn bản đầu vào để
trích chọn ra các thông tin tƣơng ứng của các thuộc tính. Đôi khi, luật cú pháp
đƣợc biểu diễn ở dạng đơn giản hơn, đó là các từ khoá. Tập luật cú pháp đƣợc
sử dụng trong trích chọn sự kiện [7], [5], [6]. Trong nghiên cứu của mình,
Nishihara và cộng sự sử dụng ba từ khoá: địa điểm (place), đối tƣợng (object),
và hành vi (action) để biểu diễn một sự kiện đƣợc trích chọn từ blogs [10].
Trong lĩnh vƣc y sinh, Yakushiji và cộng sự sử dụng một bộ phân tích kết hợp
với ngữ pháp để xác định mối quan hệ và các sự kiện [16]. Còn trong lĩnh vực
tiền và chính trị Aone và cộng sự đã dùng luật cú pháp để trích chọn thông tin
của sự kiện [24]. Luật cú pháp xác định các tham số bên trong văn bản không
xác định ý nghĩa văn bản.

Khi sử dụng luật để trích chọn sự kiện, đôi khi phải trích chọn khái niệm có
ý

nghĩa đặc biệt hoặc mối quan hệ giữa các thành phần đƣợc trích chọn. Do đó,

sử dụng luật cú pháp không đáp ứng đƣợc điều này. Để giải quyết đƣợc điều
này, phƣơng pháp thƣờng sử dụng trong (rule–based) là sử dụng luật ngữ nghĩa
(lexico-semantic patterns). Chi tiết của luật ngữ nghĩa sẽ đƣợc trình bày trong
mục [2.1.2].

1
0


2.1.2. Luật ngữ nghĩa (lexico-semantic patterns)
Đôi khi trích chọn sự kiện phải trích chọn các khái niệm có ý nghĩa đặc biệt
hoặc mối quan hệ giữa các thành phần đƣợc trích chọn. Do đó, để giải quyết
đƣợc điều này, phƣơng pháp thƣờng sử dụng trong (rule–based) là sử dụng luật
ngữ nghĩa. Các luật ngữ nghĩa không đơn giản là các từ đƣợc biểu diễn dƣới
dạng biểu thức chính quy mà là các từ và mối quan hệ giữa chúng.
Luật ngữ nghĩa đƣợc sử dụng với nhiều mục đích và nhiều lĩnh vực khác
nhau. Ví dụ nhƣ, Li Fang và cộng sự đã sử dụng luật nghữ nghĩa đề trích chọn
thông tin từ sàn chứng khoán (stock market) [25]; Hay, Cohen và cộng sự [17]
sử dụng khái niệm bộ nhận dạng (recognizer) trên miền dữ liệu y sinh để trích
chọn thông tin y sinh từ tập dữ liệu; Capet và các cộng sự sử dụng mẫu ngữ
nghĩa đề trích chọn sự kiện cho hệ thống cảnh báo sớm [27]; còn Vargas-Vera và
Celjuska đề xuất một bộ khung (framework) cho việc nhận diện các sự kiện tập
trung trên báo Knowledge Media Institute (KMI) [26].
Trích chọn sự kiện trong văn bản phi cấu trúc có thể đƣợc ứng dụng trong
nhiều lĩnh vực nhƣ: tài chính, chứng khoán, y sinh, bản tin pháp luật… Có lẽ sẽ

là chƣa đầy đủ nếu không đề cấp chi tiết hơn đến hình dạng và biểu diễn của tập
luật trong trích chọn thực thể. Điều này sẽ đƣơc trình bày tại mục [2.1.3].
2.1.3. Hình dạng và biểu diễn của tập luật (Form and Representation of
Rules)
Theo tài liệu Information Extraction của Sunita Sarawagi [1], một luật cơ
bản có dạng: "mẫu theo ngữ cảnh → hành động". Một mẫu theo ngữ cảnh báo
gồm một hoặc nhiều mẫu nhãn ghi lại thuộc tính của một hoặc nhiều thực thể và
bối cảnh xuất hiện trong văn bản. Một mẫu đƣợc gán nhãn là so khớp một biểu
thức chính quy đƣợc xác định qua các tính năng của thẻ trong văn bản và một
nhãn tuỳ chọn. Các thuộc tính có thể đƣợc chỉ ra là thuộc tính của thẻ hoặc ngữ
cảnh hoặc các văn bản trong các thẻ xuất hiện.

11


Hầu hết các hệ thống dựa trên luật đƣợc liên tầng; luật đƣợc áp dụng trong
nhiều giai đoạn mà mỗi giai đoạn liên kết một dữ liệu đầu vào với một chú thích
nhƣ là tính năng đầu vào cho các giai đoạn tiếp theo. Ví dụ, một trích chọn cho
các địa chỉ liên lạc của ngƣời đƣợc tạo ra trong hai giai đoạn của luật: giai đoạn
thứ nhất nhãn thẻ cùng với nhãn thực thể nhƣ: tên ngƣời, vị trí địa lý nhƣ tên
đƣờng, tên thành phố, và địa chỉ thƣ điện tử. Giai đoạn thứ hai, xác định khối
địa chỉ cùng với đầu ra của giai đoạn thứ nhất nhƣ là thuộc tính bổ sung.
1/. Các thuộc tính của các thẻ (Features of Tokens)
Mỗi một thẻ trong một câu thƣờng đƣợc kết hợp cùng với tập thuộc tính
thu đƣợc thông qua một hoặc nhiều các tiêu chí sau:
-

Các chuỗi đại diện cho thẻ .
Các loại chính tả của thẻ có thể có dạng từ in hoa, từ in nhỏ, từ hỗn hợp,
số, ký hiệu đặc biệt, dấu cách, dấu chấm câu, …


-

Các phần phát biểu (part of speech) của thẻ

-

Danh sách xuất hiện các thẻ của từ điển. Thông thƣờng, điều này có thể
đƣợc tiếp tục tinh chế để chỉ ra, nếu các thẻ phù hợp với từ bắt đầu, kết
thúc, hoặc từ giữa của từ điển. Ví dụ, một thẻ nhƣ " New " phù hợp với từ
đầu tiên của từ điển với tên thành phố, tên sẽ đƣợc liên kết với một thuộc
tính
"Dictionary - Lookup = start of city . "

-

Chú thích kèm theo các bƣớc xử lý trƣớc đó.
Luật để xác định một thực thể đơn (Rules to Identify a Single Entity):
Luật để nhận ra một thực thể đơn đầy đủ bao gồm ba loại mẫu.

-

Một mẫu tùy chọn ghi lại bối cảnh trƣớc khi bắt đầu của một thực thể .

-

Một mẫu kết hợp các thẻ trong các thực thể.

-


Một mẫu tùy chọn để ghi lại bối cảnh sau khi kết thúc của thực thể.

12


Ví dụ về một mẫu để xác định tên ngƣời có dạng "Dr. Yair Weiss" bao gồm
một thẻ tiêu đề đƣợc liệt kê trong tập từ điển các chức danh (có chứa các mục
nhƣ : “Prof ”, “Dr”, “Mr” ), một dấu chấm, và hai từ viết hoa là
({Dictionary - Lookup = Titles}{String = “.”}{Orthography type
=capitalized word}{2})→Person Names.
Mỗi điều kiện trong dấu ngoặc nhọn là một điều kiện của một thẻ đƣợc
theo sau cùng với số tùy chọn và chỉ ra số lần lặp lại của thẻ.Ví dụ về một luật
để đánh dấu tất cả số đi sau các giới từ "by" và "in" là thực thể năm:
(String=“by”|String=“in”})({Orthography type = Number}):y→Year=:y. Có hai
mẫu trong luật này: mẫu đầu tiên để ghi lại ngữ cảnh xuất hiện của các thực thể
năm và mẫu thứ hai ghi lại các tính chất của thẻ tạo thành " year". Một ví dụ
khác cho việc tìm kiếm tên công ty dạng “The XYZ Corp.” or “ABC Ltd.” đƣợc
tạo bởi:
({String=“The”}? {Orthography type = All capitalized}{Orthography type
= Capitalized word, DictionaryType =Company end})→Company name
2/. Các luật đánh dấu ranh giới thực thể (Rules to Mark Entity Boundaries)
Đối với một số loại thực thể, trong các đơn vị dài đặc biệt nhƣ tiêu đề cuốn
sách, nó là hiệu quả hơn để xác định các luật đặc biệt để đánh dấu sự bắt đầu và
kết thúc một ranh giới thực thể. Đó là loại bỏ một cách độc lập và tất cả các thẻ
ở trong giữ hai thẻ đánh dấu đầu và cuối đƣợc gọi là thực thể. Nhìn nhận vấn đề
theo một cách khác, mỗi luật cơ bản dẫn đến sự chèn của một đơn Thẻ SGML
trong văn bản mà các thẻ này có thể là một thẻ bắt đầu hoặc một thẻ kết thúc. Để
giải quyết sự không nhất quán khi có hai thực thể bắt đầu đánh dấu trƣớc và chỉ
một thực thể đánh dấu kết thúc, điều này cần có một cách giải quyết đặc biệt. Ví
dụ, một quy tắc để chèn một thẻ <journal>, để đánh dấu sự bắt đầu của một tên

tạp chí trong một bản trích dẫn:
({String=“to”} {String=“appear”} {String=“in”}):jstart

13


({Orthography

type

=

Capitalized

word}{2-5})→insert

<journal>

after:jstart.
Nhiều hệ thống trích chọn dựa trên luật thành công đã dựa trên các luật nhƣ
vậy, nhƣ (LP)2 [60], STALKER [156], Rapier [ 43 ], và WEIN [121 , 23].
3/. Các luật cho đa thực thể (Rules for Multiple Entities)
Một số luật có dạng biểu thức chính quy với nhiều slot, mỗi slot đại diện
cho một thực thể khác nhau sao cho luật này dẫn đến sự công nhận của nhiều đối
tƣợng cùng một lúc. Những luật này đƣợc sử dụng tốt hơn cho bản ghi dữ liệu
theo định hƣớng. Ví dụ, hệ thống dựa trên luật WHISK [18] đã đƣợc nhắm tới
cho việc khai thác từ hồ sơ có cấu trúc nhƣ hồ sơ y tế , các bản ghi bảo trì thiết
bị, và phân loại quảng cáo. Các luật này đƣợc viết lại từ [18], để trích chọn hai
thực thể, số lƣợng phòng ngủ và cho thuê, từ một quảng cáo cho thuê căn hộ.
({Orthography type = Digit}):Bedrooms ({String =“BR”})({}*)

({String =“$”})({Orthography type = Number}):Price→Number
of Bedrooms =:Bedroom, Rent =: Price
4/. Chọn lựa hình dạng của tập luật (Alternative Forms of Rules)
Có nhiều hệ thống dựa trên luật state-of-the-art cho phép các chƣơng trình
tùy ý viết bằng ngôn ngữ thủ tục nhƣ Java và C + + thay cho cả hai thành phần
mẫu và phần hành vi của các luật. Ví dụ, GATE[19] hỗ trợ các chƣơng trình
Java thay cho ngôn ngữ hình thức các luật tùy chỉnh của nó đƣợc gọi là JAPE
trong hoạt động của một luật. Đây là một khả năng mạnh mẽ bởi vì nó cho phép
phần hành vi của các quy tắc để truy cập các thuộc tính khác nhau mà đƣợc sử
dụng trong phần mẫu của các quy tắc và đƣợc sử dụng để chèn các trƣờng mới
cho chuỗi chú thích. Ví dụ, phần hoạt động có thể dẫn đến chèn các dạng chuẩn
của một chuỗi trong từ điển. Các trƣờng mới có thể đƣợc xem nhƣ các thuộc
tính bổ sung cho một luật trong các đƣờng lấy tin riêng. Tƣơng tự, trong các
công thức Prolog-based từ [20] thì bất kỳ mã thủ tục nào cũng có thể đƣợc thay
thế nhƣ là so khớp mẫu cho bất kỳ tập hợp con của các loại thực thể.

14


Nhìn chung, trong các hệ thống tri thức (knowledge systems), ban đầu
thƣờng đƣợc sử dụng phƣơng pháp tiếp cận dựa trên luật (rule-based). Ƣu
điểm của phƣơng pháp này, thứ nhất, cần sử dụng ít dữ liệu huấn luyện hơn
phƣơng pháp tiếp cận dựa trên dữ liệu. Thứ hai, phƣơng pháp này có thể xây
dựng các biểu thức chính quy tốt cho trích chọn thông dựa trên cú pháp, từ
vƣng, và các thành phần ngữ nghĩa. Phƣơng pháp tiếp cận dựa trên luật phù hợp
với bài toán trích chọn các thông tin về thời gian (“rạng sáng hôm qua”, “giữa
trưa hôm nay”). Phƣơng pháp này cho độ chính xác rất cao (do đƣợc xây dựng
để lấy ra các thông tin đặc biệt), độ hồi tƣởng thấp. Do đó phƣơng pháp này rất
thích hợp cho các bài toán chỉ quan tâm đến độ chính xác.
Bên cạnh những ƣu điểm, phƣơng pháp tiếp cận dựa trên luật còn có

những nhƣợc điểm. Khi sử dụng phƣơng pháp này đòi hỏi ngƣời xây dựng
đóng vai trò nhƣ chuyên gia miền dữ liệu, cần phải rất am hiểu dữ liệu, ngƣời
xây dựng phải có kiến thức về ngôn ngữ, tự vựng, và cú pháp. Hơn nữa, tập luật
thƣờng đƣợc xây dựng để lấy ra các thông tin đặc biệt, dó đó khi thay đổi sang
miền dữ liệu khác thì lại phải xây dựng tập luật cho phù hợp. Việc xây dựng tập
luật đôi khi rất tốn thời gian và chi phí.
2.2. PHƢƠNG PHÁP TIẾP CẬN DỰA TRÊN HỌC MÁY
Phƣơng pháp này đôi khi còn đƣợc gọi với tên là tiếp cận dựa trên dữ liệu
(data-driven). Phƣơng pháp tiếp cận dựa trên học máy thƣờng đƣợc sử dụng
cho các ứng dụng xử lý ngôn ngữ tự nhiên và tập dữ liệu huấn luyện lớn để huấn
luyện cho phù hợp với các hiện tƣợng ngôn ngữ [9]. Phƣơng pháp này thƣờng
dựa trên mô hình xác suất (probabilistic models), lý thuyết thông tin
(information theory), và đại số tuyến tính (linear algebra). Một số cách tiếp cận
cơ bản thƣờng đƣợc sử dụng là Term Frequency - Inverse Document Frequency
(TF-IDF), n-grams hay phân cụm.
Có rất nhiều ví dụ về áp dụng phƣơng pháp tiếp cận dựa trên dữ liệu để
trích chọn thông tin trong các sự kiện. Năm 2009, Okamoto và cộng sự [9]

15


×