Tải bản đầy đủ (.pdf) (72 trang)

Trích chọn sự kiện tai nạn giao thông trong văn bản tin tức tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.64 MB, 72 trang )

i
LỜI CAM ĐOAN
Tác giả Phùng Chí Quốc xin cam đoan giải pháp trích chọn sự kiện trong
văn bản tin tức tiếng Việt được trình bày trong luận văn này do tôi thực hiện
dưới sự hướng dẫn của TS Nguyễn Long Giang.
Tác giả đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu
liên quan ở trong nước và quốc tê. Tất cả những tham khảo từ các nghiên cứu
liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham
khảo trong luận văn.

Thái Nguyên, ngày 28 tháng 6 năm 2016
Tác giả

Phùng Chí Quốc


ii
LỜI CẢM ƠN
Trước tiên, em xin được gửi lời cảm ơn và lòng biết ơn sâu sắc tới Thầy
giáo, TS Nguyễn Long Giang đã tận tình chỉ bảo, hướng dẫn, động viên và
giúp đỡ em trong suốt quá trình thực hiện luận văn tốt nghiệp.
Em xin bày tỏ lòng biết ơn đến các thầy cô trong trường Trường Đại học
Công nghệ thông tin & Truyền thông – Đại học Thái Nguyên đã tận tình
giảng dạy, truyền đạt những kiến thức làm nền tảng để nghiên cứu hoàn thành
luận văn tốt nghiệp và còn giúp em ứng dụng những kiến thức đó trong công
việc hiện tại.
Em xin gởi lời cảm ơn tới những người bạn thân yêu, đặc biệt là các bạn
trong lớp K13E đã đoàn kết, động viên, giúp đỡ em hoàn thành luận văn tốt
nghiệp cũng như vượt qua những khó khăn trong học tập.
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những người
thân yêu luôn bên cạnh: quan tâm; động viên tôi trong suốt quá trình học tập


và thực hiện luận văn tốt nghiệp này.
Trong quá trình thực hiện Luận văn mặc dù đã cố gắng hết mình, song
chắc chắn luận văn của em vẫn còn nhiều thiếu sót. Em rất mong nhận được
sự chỉ bảo vào đóng góp tận tình của các thầy cô để luận văn của em được
hoàn thiện hơn.
Thái Nguyên, ngày 28 tháng 6 năm 2016
Tác giả

Phùng Chí Quốc


iii
MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................................................i
LỜI CẢM ƠN ................................................................................................................................................ii
MỤC LỤC .....................................................................................................................................................iii
DANH MỤC CÁC BẢNG........................................................................................................................vi
DANH MỤC CÁC BIỂU ĐỒ...................................................................................................................vi
DANH MỤC CÁC HÌNH.........................................................................................................................vii
MỞ ĐẦU ........................................................................................................................................................2
1.1. Sự cần thiết lựa chọn đề tài ............................................................................................... 2
1.2. Mục tiêu đề tài .................................................................................................................... 3
1.3. Đối tượng và phạm vi nghiên cứu .................................................................................... 3
1.4. Phương pháp nghiên cứu................................................................................................... 3
1.5. Cấu trúc của luận văn......................................................................................................... 3
Chương 1. TỔNG QUAN VỀ TRÍCH CHỌN THÔNG TIN .........................................................5
1.1.

Bài toán trích chọn thông tin trong văn bản (IE)..........................................................................5


1.2. Các khái niệm cơ bản về sự kiện và trích chọn sự kiện (EE) ........................................ 6
1.2.1. Định nghĩa sự kiện ................................................................................................ 7
1.2.2. Trích chọn sự kiện ................................................................................................. 8

1.3. Ý nghĩa khoa học và thực tiễn của bài toán trích chọn sự kiện tai nạn giao thông...... 9
1.3.1. Ý nghĩa khoa học ................................................................................................... 9
1.3.2. Ý nghĩa thực tiễn ................................................................................................... 9

1.4. Kết luận ............................................................................................................................. 10
Chương 2. CÁC PHƯƠNG PHÁP TRÍCH CHỌN SỰ KIỆN VÀ TIÊU CHUẨN ĐÁNH
GIÁ THUẬT TOÁN ..................................................................................................................................12
2.1. Các phương pháp dựa trên tập luật (rule-based) ........................................................... 13
2.1.1. Luật cú pháp (lexico-syntactic patterns) ............................................................ 13
2.1.2. Luật ngữ nghĩa (lexico-semantic patterns) ........................................................ 14
2.1.3. Hình dạng và biểu diễn của tập luật (Form and Representation of Rules) ...... 15

2.2. Phương pháp tiếp cận dựa trên học máy........................................................................ 19
2.3. Các phương pháp kết hợp luật và học máy ................................................................... 20


iv
2.4. Tiêu chuẩn đánh giá thuật toán ....................................................................................... 21
2.5. Kết luận ............................................................................................................................. 23
Chương 3. LỰA CHỌN PHƯƠNG PHÁP VÀ THỬ NGHIỆM BÀI TOÁN TRÍCH CHỌN
SỰ KIỆN TAI NẠN GIAO THÔNG .....................................................................................................24
3.1. Bài toán trích chọn sự kiện các vụ tai nạn giao thông .................................................. 24
3.1.1. Phát biểu bài toán ................................................................................................ 25
3.1.2. Phát hiện sự kiện ................................................................................................. 27
3.1.3. Trích chọn sự kiện ............................................................................................... 27


3.2. Lựa chọn phương pháp giải quyết bài toán trích chọn sự kiện tai nạn giao thông .... 28
3.2.1. Lựa chọn phương pháp giải quyết bài toán ....................................................... 28
3.2.2. Mô hình phát hiện và trích chọn sự kiện vụ tai nạn .......................................... 29
3.2.4. Giải quyết bài toán phát hiện sự kiện vụ tai nạn (pha 1) .................................. 31
3.2.5. Giải quyết bài toán trích chọn sự kiện vụ tai nạn (Pha 2) ................................. 35

3.3. Đánh giá thuật toán .......................................................................................................... 41
3.4. Kết luận ............................................................................................................................. 42
Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ .................................................................................43
4.1. Bài toán trích chọn sự kiện.............................................................................................. 43
4.2. Môi trường và các công cụ thự nghiệm: ........................................................................ 43
4.2.1. Về phần cứng: ...................................................................................................... 43
4.2.2. Về công cụ phần mềm sử dụng để thử nghiệm: ................................................ 44

4.3. Xây dựng cơ sở dữ liệu.................................................................................................... 45
4.3.1. Bảng dữ liệu lưu trữ các website ........................................................................ 45
4.3.2. Bảng dữ liệu lưu trữ các bản tin chứa thông tin về sự kiện vụ tai nạn giao
thông sau khi qua bộ lọc dữ liệu ..................................................................................... 45
4.3.3. Bảng dữ liệu lưu trữ chi tiết các thuộc tính của các vụ tai nạn......................... 45

4.4. Các bước thử nghiệm bài toán ........................................................................................ 46
4.5. Thử nghiệm quy trình trích chọn thông tin.................................................................... 46
4.5.1. Thu thập dữ liệu: ................................................................................................. 46
4.5.2. Lọc dữ liệu: .......................................................................................................... 48
4.5.3. Trích chọn thông tin sự kiện về tai nạn giao thông ........................................... 49


v
4.6. Đánh giá kết quả thực nghiệm ........................................................................................ 51
4.6.1. Đánh giá quá trình lọc dữ liệu: ........................................................................... 51

Kết quả cho thấy độ chính xác của chức năng lọc dữ liệu là 81.4%. Tuy nhiên vẫn có
những bản tin chứa sự kiện tai nạn giao thông nhưng bị bỏ qua. Nguyên nhân của quá
trình này sẽ được trình bày trong mục 4.6 phân tích lỗi ................................................ 51
4.6.2. Đánh giá quá trình trích chọn sự kiện ................................................................ 51

4.7. Phân tích lỗi: ..................................................................................................................... 52
4.7.1. Phân tích lỗi trong pha phát hiện sự kiện – quá trình lọc dữ liệu ..................... 52
4.7.2. Phân tích lỗi quá trình trích chọn sự kiện .......................................................... 54

4.8. Một số ứng dụng kết quả trích chọn thông tin: ............................................................. 55
4.8.1. Thống kê số vụ tai nạn giao thông theo địa điểm .............................................. 55
4.8.2. Thống kế số vụ tai nạn giao thông theo Tháng ................................................. 57
4.8.3. Thống kê số vụ tai nạn giao thông theo phương tiện ........................................ 58
4.8.4. Đánh giá chung .................................................................................................... 59

4.9. Kết luận ............................................................................................................................. 60
KẾT LUẬN ..................................................................................................................................................61
1. Những kết quả chính của luận văn .................................................................................... 61
2. Một số hạn chế..................................................................................................................... 61
3. Định hướng tương lai .......................................................................................................... 62
TÀI LIỆU THAM KHẢO.........................................................................................................................63


vi
DANH MỤC CÁC BẢNG
Bảng 3.1. Phương tiện giao thông................................................................. 33
Bảng 4.1. Cấu hình hệ thống phần cứng thực nghiệm................................... 44
Bảng 4.2. Công cụ phần mềm sử dụng có sẵn .............................................. 44
Bảng 4.3. Độ chính xác của chức năng lọc dữ liệu ....................................... 51
Bảng 4.4. Đánh giá quá trình trích chọn thông tin vụ tai nạn giao thông....... 52

Bảng 4.5. Một số lỗi trong quá trình trích chọn .......................................... 555
Bảng 4.6. Thống kê số vụ tai nạn giao thông theo tỉnh ............................... 566

DANH MỤC CÁC BIỂU ĐỒ
Biểu đồ 4.1. Thống kê số vụ tai nạn theo địa điểm ....................................... 56
Biểu đồ 4.2. Biểu đồ thống kê số vụ tai nạn giao thống kê theo Tháng ......... 57
Biểu đồ 4.3. Thống kê theo phương tiện gây tai nạn giao thông ................. 599


vii
DANH MỤC CÁC HÌNH
Hình 3.1. Quá trình phát hiện và trích chọn sự kiện vụ tai nạn ..................... 30
Hình 3.2. Mô hình làm việc của bộ thu thập dữ liệu ..................................... 31
Hình 3.3. Thành phần phát hiện sự kiện ....................................................... 32
Hình 3.4. Thành phần trích chọn sự kiện ...................................................... 36
Hình 4.1. Thu thập dữ liệu từ .. 47
Hình 4.2. Thu thập dữ liệu từ 47
Hình 4.3. Kết quả lọc các bản tin có chứa thông tin về tai nạn giao thông .... 49
Hình 4.4. Kết quả phát hiện sự kiện tai nạn .................................................. 50
Hình 4.5. Giao diện trích chọn thông tin sự kiện tai nạn ............................... 50
Hình 4.6. Lỗi bộ lọc khi dữ liệu không thuộc miền tai nạn giao thông .......... 53
Hình 4.7. Lỗi bộ lọc khi dữ liệu thuộc miền tai nạn giao thông nhưng bị loại ...........53


2
MỞ ĐẦU
1.1. Sự cần thiết lựa chọn đề tài
Trích chọn thông tin (Information Extraction - IE) là một lĩnh vực quan
trọng trong khai phá dữ liệu và học máy (Data mining and machine learning)
có nhiều ứng dụng trong thực tiễn với mục tiêu là trích lọc các thông tin có

định dạng và hữu ích từ các nguồn dữ liệu lớn trên Internet [1, 2]. Trích chọn
sự kiện (Event Extraction – EE) là bài toán con của trích chọn thông tin với
mục tiêu là trích lọc ra các sự kiện từ các nguồn số liệu. Đầu vào của trích
chọn sự kiện là các văn bản lấy từ nhiều nguồn số liệu khác nhau như văn bản
tin tức, mạng xã hội...đầu ra là các tri thức biểu diễn dưới dạng thông tin có
cấu trúc. Những thông tin nay rất hữu ích cho việc khai thác dữ liệu như
thống kê, giám sát, hỗ trợ ra quyết định. Trích chọn sự kiện có thể áp dụng
cho một miền dữ liệu cụ thể như các vụ tai nạn giao thông, dịch bệnh, các tour
du lịch...và có nhiều ứng dụng trong các lĩnh vực khác nhau của đời sống xã
hội như kinh tế, văn hóa, y tế, giáo dục…[3, 4, 5, 6, 7, 8]
Một trong những ứng dụng quan trọng của trích chọn sự kiện là trích
chọn các sự kiện về các vụ tai nạn giao thông của các trang báo điện tử trên
Internet. Theo những con số thống kê trên các trang báo điện tử về số vụ tai
nạn giao thông hàng năm (, ),
năm 2012 cả nước xảy ra 36.376 vụ tai nạn giao thông, làm chết 9.838 người,
bị thương 38.060 người; năm 2013 cả nước đã xảy ra 29.385 vụ tai nạn giao
thông, làm chết 9.369 người, bị thương 29.500 người. Từ các con số thống kê
về tai nạn giao thông hàng năm, chúng ta thấy số vụ tai nạn còn rất cao, đi
cùng với nó là con số tử vong và số thương vong là rất lớn. Mặt khác, bản tin
vụ tai nạn được cập nhật khá đầy đủ và mang tính thời sự trên các báo điện tử,
do đó nguồn thông tin rất đa dạng, phong phú. Việc ứng dụng các phương


3
pháp trích chọn sự kiện để trích chọn các thông tin về các vụ tai nạn giao
thông là nhu cầu cấp thiết nhằm trích chọn thông tin hữu ích từ các bản tin vụ
tai nạn. Kết quả của quá trình này sẽ được phân tích, thống kê thành các con
số hữu ích giúp các nhà quản lý điều hành, ra các chính sách giao thông hợp
lý nhằm giảm thiểu tai nạn giao thông và góp phần nâng cao ý thức của người
dân trong việc tham gia giao thông. Do đó, học viên chọn đề tài luận văn thạc

sỹ “Trích chọn sự kiện tai nạn giao thông trong văn bản tin tức tiếng Việt”.
1.2. Mục tiêu đề tài
Tìm hiểu các phương phương pháp trích chọn thông tin và xây dựng
mô hình giải quyết bài toán trích chọn sự kiện tai nạn giao thông trong văn
bản tin tức tiếng Việt.
1.3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của đề tài là các phương pháp tiếp cận giải quyết
bài toán trích chọn thông tin trong văn bản tiếng Việt và các trang thông tin
điện tử tiếng Việt trên mạng Internet về sự kiện vụ tai nạn giao thông.
Phạm vi nghiên cứu của đề tài là bài toán trích chọn sự kiện tai nạn giao
thông trong văn bản tin tức tiếng Việt
1.4. Phương pháp nghiên cứu
Nghiên cứu các kết quả đã công bố trong lĩnh vực trích chọn thông tin
(IE) và trích chọn sự kiện (EE), bài toán trích chọn sự kiện tai nạn giao thông.
Phân tích, tổng hợp, đánh giá các kết quả.
Phân tích lý thuyết và xây dựng chương trình để thử nghiệm bài toán
trích chọn sự kiện tai nạn giao thông.
1.5. Cấu trúc của luận văn
Cấu trúc luận văn gồm: mở đầu, bốn chương chính, kết luận và tài liệu


4
tham khảo.
Phần mở đầu: Lý do chọn đề tài và bố cục luận văn
Chương 1: Giới thiệu tổng quan bài toán trích chọn thông tin và một số
lĩnh vực nghiên cứu liên quan.
Chương 2: Trình bày một số phương pháp tiếp cận bài toán và chỉ ra
một số ưu nhược điểm của từng phương pháp.
Chương 3: Tập trung vào bài toán trích chọn sự kiện các vụ tai nạn giao
thông: tìm hiểu các đặc tính của sự kiện vụ tai nạn; pháp biểu bài toán, đề

xuất mô hình, cách giải quyết chi tiết hai bài toán quan trọng trong luận văn là
bài toán phát hiện sự kiện vụ tai nạn và bài toán trích chọn sự kiện vụ tai nạn.
Chương 4: Trình bày về môi trường, công cụ, cũng như các gói được
tác giả xây dựng và cài đặt, thử nghiệm mô hình trích chọn sự kiện tai nạn
giao thông trên một số trang web đăng tin về tai nạn giao thông bằng tiếng
Việt trên mạng Internet.
Phần kết luận: Tóm tắt các kết quả đạt được và hướng phát triển tiếp
của đề tài.


5
Chương 1.
1.1.

TỔNG QUAN VỀ TRÍCH CHỌN THÔNG TIN

Bài toán trích chọn thông tin trong văn bản (IE)
Nhóm Carnegie Group [22], vào thập kỷ 70 của thế kỷ trước cho rằng:

Trong khi một chương trình máy tính có thể cung cấp sự hiểu biết đầy đủ các
văn bản đầu vào bất kỳ vẫn còn là một giấc mơ xa vời, tức là có thể xây dựng
hệ thống xử lý ngôn ngữ tự nhiên cung cấp một sự hiểu biết một phần của
một số loại văn bản với độ chính xác hạn chế. Hơn nữa, hệ thống như vậy có
thể cung cấp các giải pháp hiệu quả chi phí về các vấn đề kinh doanh thương
mại có ý nghĩa. Họ đã mô tả một hệ thống như vậy gọi là JASPER. JASPER
là một hệ thống khai thác đã phát triển và triển khai bởi Carnegie Group cho
hãng Reuters. JASPER sử dụng một cách tiếp cận mẫu điều khiển, kỹ thuật
hiểu biết một phần và tìm ra các thủ tục để trích xuất một số phần quan trọng
của thông tin từ một phạm vi giới hạn của văn bản.
Theo Douglas E. Appelt, trích chọn thông tin (Information Extraction- IE)

có thể được coi nằm giữa thu hồi thông tin (Information Retrieval - IR) và
hiểu văn bản (Text Understanding - UT) [2]. Không giống như thu hồi thông
tin chỉ tập trung vào các mẫu thông tin có liên quan trong văn bản mà không
chú trọng đến việc hiểu văn bản; trích chọn thông tin còn quan tâm tới các sự
kiện có liên quan trong văn bản và biểu diễn chúng dưới dạng các khuôn mẫu
thông tin có liên quan trong văn bản và biểu diễn chúng dưới dạng khuôn
mẫu. Khác với hiểu văn bản chỉ tập trung trên một phần nhỏ của văn bản (câu,
đoạn), trích chọn thông tin quan tâm tới toàn bộ nội dung văn bản.
Theo Peshkin và Pfeffer [9], trích chọn thông tin có thể được định nghĩa
như là một công việc điền thông tin vào các mẫu từ các dữ liệu chưa biết
trước trong miền được định nghĩa trước. Mục tiêu của trích chọn thông tin là
lấy từ văn bản các thông tin nổi bật của các sự kiện, thực thể, các mối liên hệ.
Như vậy, có thể coi trích xuất thông tin là một kỹ nghệ lấy và biểu diễn tri


6
thức thành các thông tin có định dạng và hữu ích từ nguồn dữ liệu lớn trên
Internet.
Bài toán trích chọn thông tin trong văn bản có thể được phát biểu như sau:
- Đầu vào: dữ liệu văn bản bất kỳ
- Đầu ra: thông tin hữu ích dưới dạng có cấu trúc.
1.2.

Các khái niệm cơ bản về sự kiện và trích chọn sự kiện (EE)
Năm 1987, Hội nghị Message Understanding Conferences (MUC) [23]

đã được khởi xướng và tài trợ bởi Quỹ nghiên cứu Bộ quốc phòng Hoa Kỳ để
khuyến khích sự phát triển các phương pháp mới và tốt hơn để trích chọn
thông tin. Sau đó, rất nhiều hội nghị được tổ chức tạo thành dãy hội nghị
MUC. Với mỗi hội nghị, như là một diễn đàn cho các báo cáo đánh giá về hệ

thống nhận biết, hiểu văn bản. Hội nghị đã đưa ra phương pháp trích chọn sự
kiện theo khung mẫu với mục đích là trích chọn lấy các thông tin liên quan
đến sự kiện.
Chương trình phát hiện và theo dõi (Topic Detection and Tracking - TDT)
[24] được tổ chức từ năm 1997 là một sáng kiến do DARPA tài trợ để điều tra
trạng thái của kỹ thuật trong việc tìm kiếm và theo dõi sự kiện mới. Các vấn
đề TDT gồm ba nhiệm vụ chính: (1) phân chia một chuỗi bài phát biểu ghi
nhận vào những câu chuyện riêng biệt; (2) xác định những câu chuyện mới để
thảo luận về một sự kiện mới xảy ra trong các bản tin; và (3) đưa ra một số
lượng nhỏ các mẫu câu chuyện tin tức về một sự kiện, tìm kiếm tất cả những
câu chuyện theo chuỗi các sự kiện. Một số nhóm nghiên cứu chính tham gia
chương trình như: DARPA, Đại học Carnegie Mellon, Dragon Systems, và
Đại học Massachusetts tại Amherst. Các bài toán quan trọng của TDT gồm:
Story Segmentation, Topic Tracking, Topic Detection, First Story Detection,
và Link Detection.
Chương trình Trích chọn nội dung tự động (Automatic Content


7
Extraction, ACE) của đại học Pennsylvania cũng thu hút được nhiều quan
tâm từ các cộng đồng nghiên cứu và trích chọn thông tin cũng như trích chọn
sự kiện. Chương trình này tập trung vào các ngôn ngữ như tiếng Anh, Trung
Quốc và Ả rập. Các thông tin được trích chọn gồm các thực thể, quan hệ giữa
các thực thể, và các sự kiện chúng tham gia vào.
Như vậy, có thể thấy rằng trích chọn thông tin nói chung và trích chọn sự
kiện nói riêng là một vấn đề quan trọng và thời đại, nhận được rất nhiều quan
tâm từ cộng đồng khoa học. Trong phần tiếp theo luận văn sẽ làm sáng tỏ
định nghĩa sự kiện [1.2.1] và trích chọn sự kiện [1.2.2].
1.2.1. Định nghĩa sự kiện
Tùy theo từng lĩnh vực và dữ liệu người ta có nhiều cách định nghĩa sự

kiện. Trên miền tin tức, James Allan và cộng sự định nghĩa tin tức chứa sự
kiện nếu nó có bốn yếu tố: hành vi, chủ thể, thời gian và địa điểm [19]. Trích
chọn sự kiện lần đầu tiên được giới thiệu như một chủ đề quan trọng MUC
năm 1987. Hội nghị MUC quan tâm đến các sự kiện như khủng bố, đầu tư
mạo hiểm, tai nạn máy bay, quân sự …Một sự kiện được định nghĩa như sau:
“một sự kiện có tác nhân (actor), thời gian (time), địa điểm (place) và tác
động tới môi trường xung quanh”.
Trong chương trình ACE (Automatic Content Extraction) [25], mục tiêu
nghiên cứu được xem là phát hiện với các đặc tính của thực thể, quan hệ, và
sự kiện. Sự kiện đơn giản là một sự thay đổi trạng thái. Loại sự kiện và các
thuộc tính sự kiện được quy định chặt chẽ hơn. Có tất cả tám loại sự kiện
được sử dụng bao gồm business (kinh tế), conflict (xung đột), contact (liên
lạc), justice (pháp lý), life (cuộc sống), movement (sự di chuyển), personnel
(nhân sự) và transaction (giao dịch). Mỗi loại sự kiện sau đó lại được chia
thành từng dạng con. Ví dụ như sự kiện pháp lý bao gồm một số dạng như bắt
giữ – bỏ tù, kết án, phạt…


8
Thông thường các nghiên cứu thường chỉ tập trung vào giải quyết vấn đề
trong một lĩnh vực cụ thể. Yoko Nishihara quan tâm sự kiện trong lĩnh vực
mạng xã hội [10]. Silja và Roman Yangaber quan tâm tới tăng cường tiếp cận
với các báo cáo dịch bệnh [5], trong khi K. Bretonnel Cohen lại tập trung vào
sự kiện y sinh [12].
Có thể thấy rằng các nghiên cứu liệt kê ở trên đều đồng ý rằng sự kiện có
thể coi như một mẫu (template) gồm nhiều các thuộc tính (elements). Trong
phạm vi khóa luận, tác giả quan tâm đến sự kiện thuộc chủ đề tai nạn giao
thông trên một số trang tin tức tiếng Việt. Như vậy trích chọn sự kiện đề cập
tới việc làm thế nào có thể điền các thông tin phù hợp từ các văn bản gốc
tương ứng.

1.2.2. Trích chọn sự kiện
Trích chọn sự kiện là bài toán con của trích chọn thông tin với mục tiêu
là trích lọc ra các sự kiện từ các nguồn số liệu. Nếu như trích chọn thông tin
chỉ quan tâm các dữ liệu rời rạc (tên người, địa điểm, các con số,.) thì trích
chọn sự kiện quan tâm nhiều hơn tới tính cấu trúc và mức độ liên quan của
thông tin trong một sự kiện. Từ đó, người đọc có thể dễ ràng suy luận ra các
thông tin có ý nghĩa. Ví dụ, “chiều ngày 29/12, trên đường Thanh Xuân, Hà
Nội đã xảy ra vụ tai nạn nghiêm trong làm 2 người đi xe máy bị thương nặng.
Nguyên nhân bước đầu được cho là do người điều khiển xe máy vượt ẩu xe
tải đi cùng chiều” Trong ví dụ này, trích chọn thông tin đưa ra các kết quả rời
rạc như: 29/12, Hà Nội, 2 hoặc xe máy; trong khi đó trích chọn sự kiện thì
quan tâm tới một bộ các thuộc tính biểu diễn cho sự kiện gồm {29/12, Hà Nội,
2 người bị thương, xe máy, xe tải}. Rõ ràng, với tập dữ liệu trên, thông tin là
hữu ích và đầy đủ hơn các thông tin rời rạc.
Một cách tổng quát, đầu vào của trích chọn sự kiện là các văn bản lấy từ
nhiều nguồn số liệu khác nhau như văn bản tin tức, mạng xã hội...đầu ra là


9
các tri thức biểu diễn dưới dạng thông tin có cấu trúc. Những thông tin này rất
hữu ích cho việc khai thác dữ liệu như: thống kê, hệ thống giám sát, các hệ
thống hỗ trợ ra quyết định. Trích chọn sự kiện có thể áp dụng cho một miền
dữ liệu cụ thể như các vụ tai nạn giao thông, dịch bệnh, các tour du lịch...và
có nhiều ứng dụng trong các lĩnh vực khác nhau của đời sống xã hội như kinh
tế, văn hóa, y tế, giáo dục…
Trích chọn sự kiện thực sự là một bài toán khó. Ngoài vấn đề xây dựng
các bộ nhận dạng sự kiện nó còn gặp phải vấn đề xử lý ngôn ngữ tự nhiên
(Natural Language Processing - NLP). Dễ ràng nhận thấy trích chọn sự kiện
phụ thuộc nhiều vào NLP, cụ thể là bài toán nhận dạng thực thể (Named
Entity Recognition - NER). Bên cạnh đó, theo David McClosky cấu trúc sự

kiện trong miền các văn bản mở thường là rất phức tạp và lồng nhau: một sự
kiện "tội phạm" có thể dẫn đến một sự kiện "điều tra", có thể dẫn đến một sự
kiện "Bắt giữ" [13]. Chính vì thế dữ liệu đầu vào của trích chọn sự kiện rất đa
dạng nên sẽ ảnh hưởng tới tính hiệu quả của quá trình trích chọn.
1.3.

Ý nghĩa khoa học và thực tiễn của bài toán trích chọn sự kiện tai
nạn giao thông

1.3.1. Ý nghĩa khoa học
Ý nghĩa khoa học của bài toán trích chọn sự kiện được rất nhiều các nhà
khoa học quan tâm. Kết quả của bài toán trích chọn sự kiện vụ tai nạn làm
tiền đề cho việc khai thác dữ liệu như thống kê, dự đoán xu hướng, hệ thống
giám sát và hỗ trợ ra quyết định.
1.3.2. Ý nghĩa thực tiễn
Kết quả việc trích chọn sự kiện vụ tai nạn là dữ liệu đầu vào cho việc
khai thác: thống kê các con số liên quan đến vụ tai nạn như các vụ tai nạn hay
xảy ra vào thời gian nào trong ngày (vào buổi sáng, giờ đến công sở, buổi
trưa, giờ tan tầm, hay vào đêm. ), những tháng nào trong năm hay xảy ra tai


10
nạn (vào mùa lễ hội, mùa nghỉ mát hay mùa mưa. ), phương tiện nào hay xảy
ra tai nạn (xe buýt, xe tải, tắc-xi, xe khách,.), độ tuổi của người điều kiển
phương tiện giao thông (tuổi 18-20, tuổi ngoài 60, hay độ tuổi nào khác),
nghề nghiệp của người điều khiển phương tiện giao thông (sinh viên, công
nhân, công chức,..), địa hình gây tai nạn (đường vòng cua, đường giao nhau,
đường rốc, đường trơn, đường gồ ghề, đường cao tốc,.) Từ những thống kê
trên có thể trực quan hoá trên bản đồ những địa điểm nhạy cảm hay xảy ra tai
nạn.

Qua đó, cung cấp cho người dân có thêm kiến thức khi tham gia giao
thông như: trong khoảng thời gian nào, trên quãng đường nào hay xảy ra tai
nạn. Điều đó có thể giúp người dân biết cách đề phòng tránh các nguy cơ có
thể xảy ra tai nạn. Nó còn giúp người dùng muốn tìm kiếm thông tin liên
quan đến vụ tai nạn giao thông.
Hơn thế nữa, kết quả của bài toán có thể giúp các nhà quản lý có cái nhìn
khách quan tình trạng tai nạn giao thông, có biệm pháp phòng ngừa các vụ tai
nạn như: sửa chữa nâng cấp cơ sở hạ tầng, có biệm pháp giáo dục ý thức
người dân khi tham gia, đặt biển cảnh báo nơi nào có nguy cơ cao xảy ra tai
nạn, cần phải giảm tốc độ, thận trọng quan sát đường trong khi tham gia giao
thông...
Ngoài ra, những con số thống kê từ việc trích chọn sự kiện vụ tai nạn.
Còn giúp các nhà quản lý so sánh quy mô mức độ nghiêm trọng của các vụ tai
nạn trong từng khoảng thời gian với nhau, từ đó đưa ra bản đánh giá trung về
sự phát triển của các vụ tai nạn theo chiều hướng nào.
1.4.

Kết luận
Trong chương một, tác giả của luận văn đã trình bày cơ bản bài toán

trích chọn thông tin trong văn bản. Trọng tâm của chương đề cập tới các khái
niệm về sự kiện và trích chọn sự kiện. Đồng thời nêu ý nghĩa khoa học, ý


11
nghĩa thực tiễn, những khó khăn khi giải quyết bài toán trích chọn sự kiện vụ
tai nạn. Trong chương 2, luận văn sẽ trình bày các phương pháp tiếp cận để
giải quyết bài toán phát hiện sự kiện và trích chọn sự kiện vụ tai nạn.



12
Chương 2.

CÁC PHƯƠNG PHÁP TRÍCH CHỌN SỰ KIỆN VÀ
TIÊU CHUẨN ĐÁNH GIÁ THUẬT TOÁN

Theo nghiên cứu của Hogenbcom F. và cộng sự [3] cho rằng một ứng
dụng phổ biến của khai phá văn bản là trích chọn sự kiện, trong đó bao gồm
suy luận tri thức liên quan đến các thông tin nêu trong các văn bản. Trích
chọn sự kiện có thể được áp dụng cho nhiều loại hình văn bản, ví dụ như,
(trực tuyến) thông báo tin tức, blog, và bản thảo. Các tài liệu khảo sát này
đánh giá các kỹ thuật khai phá văn bản được sử dụng cho mục đích khai thác
sự kiện khác nhau. Nó cung cấp hướng dẫn chung về cách để lựa chọn một kỹ
thuật trích trọn sự kiện đặc biệt tùy thuộc vào người sử dụng, các nội dung có
sẵn và các kịch bản sử dụng.
Cũng theo Hogenbcom F. và cộng sự phân biệt giữa ba phương pháp
chính để trích chọn sự kiện. Đó là các phương pháp: phương pháp học máy
hay còn được gọi là phương pháp dựa trên dữ liệu (data-driven), phương pháp
dựa trên tập luật hay còn được gọi là phương pháp dựa trên tri thức
(knowledge - driven), phương pháp kết hợp giữa hai phương pháp trên hay
còn được gọi là phương pháp lai (hybrid).
Phương pháp dựa trên dữ liệu, phương pháp này dựa trên tri thức từ một
tập dữ liệu lớn nhằm mục đích để chuyển đổi dữ liệu kiến thức thông qua việc
sử dụng các số liệu thống kê, học máy, đại số tuyến tính . Phương pháp dựa
trên tri thức, thường sử dụng kiến thức chuyên gia miền để sinh ra tập luật
trong đó trích xuất những kiến thức thông qua các đại diện và khai thác kiến
thức chuyên môn, thường là bằng phương tiện của phương pháp tiếp cận dựa
trên mô hình. Điển hình cho phương pháp này là nhận dạng thực thể (NER).
Tập luật này thường sử dụng để trích chọn thuộc tính của sự kiện. Phương
pháp lai (hybrid), sử dụng kết giữa hai phương pháp trên.

Trong chương này, tác giả sẽ trình bày phương pháp tiếp cận bài toán


13
Trích chọn sự kiện vụ tai nạn giao thông bao gồm: phương pháp tiếp cận dựa
trên luật (rule - base), phương pháp tiếp cận dựa trên học máy, phương pháp
tiếp cận kết hợp luật và học máy. Phần tiếp theo tác giả sẽ có những nhận xét,
phát biểu và đưa ra phương pháp giải quyết bài toán trong chương 3.
2.1.

Các phương pháp dựa trên tập luật (rule-based)
Phương pháp dựa trên tập luật hay còn được gọi là phương pháp dựa trên

tri thức, thường sử dụng kiến thức chuyên gia miền để sinh ra tập luật trong
đó trích xuất những kiến thức thông qua các đại diện và khai thác kiến thức
chuyên môn, thường là bằng phương tiện của phương pháp tiếp cận dựa trên
mô hình. Điển hình cho phương pháp này là nhận dạng thực thể (NER). Tập
luật này thường sử dụng để trích chọn thuộc tính của sự kiện
2.1.1. Luật cú pháp (lexico-syntactic patterns)
Luật cú pháp, đôi khi còn được gọi là mẫu cú pháp (lexico-syntactic
patterns) có thể coi là phương pháp sử dụng sớm trong bài toán trích chọn sự
kiện. Các mẫu này được sinh ra từ các chuyên gia miền (expert knowledge)
dưới dạng tập luật (rules) [3]. Điển hình cho phương pháp này là các luật
được biểu diễn dưới dạng biểu thức chính quy (regular expression).
Các luật cú pháp là sự kết hợp biểu diễn của các ký tự và các thông tin
cú pháp với các biểu thức chính quy. Sau khi các biểu thức chính quy đã được
xây dựng, các biểu thức này sẽ được so khớp với dữ liệu trong văn bản đầu
vào để trích chọn ra các thông tin tương ứng của các thuộc tính. Đôi khi, luật
cú pháp được biểu diễn ở dạng đơn giản hơn, đó là các từ khoá. Trong lĩnh
vưc y sinh, Akane Yakushiji và cộng sự đã thiết kế và thực nghiệm một hệ

thống trích chọn thông tin bằng cách sử dụng cú pháp đầy đủ để điều tra tính
hợp lý của việc phân tích đầy đủ các văn bản sử dụng chung - phân tích cú
pháp và ngữ pháp với mục đích áp dụng cho miền y sinh [21]; Jari Björne [26]
và cộng sự đã giới thiệu ứng dụng đầu tiên của sự kiện theo cách khai thác sự


14
tương tác y sinh học từ tập dữ liệu (dataset) quy mô lơn trong thực tế, 1% của
các cơ sở dữ liệu trích dẫn PubMed [27]. Họ kết hợp các hệ thống phát hiện
sự kiện của J.Björne, các hệ thống chiến thắng của BioNLP'09 Shared Task,
với các phân tích cú pháp Charniak-Johnson (Charniak và Johnson, 2005)
được trang bị với các mô hình y sinh miền của McClosky (2009) và
BANNER dò tên thực thể (Leaman và Gonzalez, 2008), tạo ra một hệ thống
có khả năng trích chọn sự kiện từ văn bản y sinh chưa được ghi chú
(unannotated). Trong nghiên cứu của Nishihara và cộng sự sử dụng ba từ
khoá: địa điểm (place), đối tượng (object) và hành vi (action) để biểu diễn
một sự kiện được trích chọn từ blogs [10]. Luật cú pháp xác định các tham số
bên trong văn bản không xác định ý nghĩa văn bản.
Khi sử dụng luật để trích chọn sự kiện, đôi khi phải trích chọn khái niệm
có ý nghĩa đặc biệt hoặc mối quan hệ giữa các thành phần được trích chọn.
Do đó, sử dụng luật cú pháp không đáp ứng được điều này. Để giải quyết
được điều này, phương pháp thường sử dụng trong (rule-based) là sử dụng
luật ngữ nghĩa (lexico-semantic patterns).
2.1.2. Luật ngữ nghĩa (lexico-semantic patterns)
Đôi khi trích chọn sự kiện phải trích chọn các khái niệm có ý nghĩa đặc
biệt hoặc mối quan hệ giữa các thành phần được trích chọn. Do đó, để giải
quyết được điều này, phương pháp thường sử dụng trong (rule-based) là sử
dụng luật ngữ nghĩa. Các luật ngữ nghĩa không đơn giản là các từ được biểu
diễn dưới dạng biểu thức chính quy mà là các từ và mối quan hệ giữa chúng.
Luật ngữ nghĩa được sử dụng với nhiều mục đích và nhiều lĩnh vực khác

nhau. Trong nghiên cứu của Li Fang và cộng sự đã sử dụng luật nghữ nghĩa
đề trích chọn thông tin từ sàn chứng khoán (stock market) [7]; Cohen và
cộng sự [12] sử dụng khái niệm bộ nhận dạng (recognizer) trên miền dữ liệu y
sinh để trích chọn thông tin y sinh từ tập dữ liệu; Capet và các cộng sự sử


15
dụng mẫu ngữ nghĩa đề trích chọn sự kiện cho hệ thống cảnh báo sớm [8];
Trích chọn sự kiện trong văn bản phi cấu trúc có thể được ứng dụng
trong nhiều lĩnh vực như: tài chính, chứng khoán, y sinh, bản tin pháp luật...
2.1.3. Hình dạng và biểu diễn của tập luật (Form and Representation of
Rules)
Theo tài liệu Information Extraction của Sunita Sarawagi [1], một luật
cơ bản có dạng: "mẫu theo ngữ cảnh ^ hành động". Một mẫu theo ngữ cảnh
báo gồm một hoặc nhiều mẫu nhãn ghi lại thuộc tính của một hoặc nhiều thực
thể và bối cảnh xuất hiện trong văn bản. Một mẫu được gán nhãn là so khớp
một biểu thức chính quy được xác định qua các tính năng của thẻ trong văn
bản và một nhãn tuỳ chọn. Các thuộc tính có thể được chỉ ra là thuộc tính của
thẻ hoặc ngữ cảnh hoặc các văn bản trong các thẻ xuất hiện.
Hầu hết các hệ thống dựa trên luật được liên tầng; luật được áp dụng
trong nhiều giai đoạn mà mỗi giai đoạn liên kết một dữ liệu đầu vào với một
chú thích như là tính năng đầu vào cho các giai đoạn tiếp theo. Ví dụ, một
trích chọn cho các địa chỉ liên lạc của người được tạo ra trong hai giai đoạn
của luật: giai đoạn thứ nhất nhãn thẻ cùng với nhãn thực thể như: tên người,
vị trí địa lý như tên đường, tên thành phố, và địa chỉ thư điện tử. Giai đoạn
thứ hai, xác định khối địa chỉ cùng với đầu ra của giai đoạn thứ nhất như là
thuộc tính bổ sung.
2.1.3.1. Các thuộc tính của các thẻ (Features of Tokens)
Mỗi một thẻ trong một câu thường được kết hợp cùng với tập thuộc tính
thu được thông qua một hoặc nhiều các tiêu chí sau:

Các chuỗi đại diện cho thẻ .
Các loại chính tả của thẻ có thể có dạng từ in hoa, từ in nhỏ, từ hỗn hợp,
số, ký hiệu đặc biệt, dấu cách, dấu chấm câu, ...
Các phần phát biểu (part of speech) của thẻ


16
Danh sách xuất hiện các thẻ của từ điển. Thông thường, điều này có thể
được tiếp tục tinh chế để chỉ ra, nếu các thẻ phù hợp với từ bắt đầu, kết thúc,
hoặc từ giữa của từ điển. Ví dụ, một thẻ như " New " phù hợp với từ đầu tiên
của từ điển với tên thành phố, tên sẽ được liên kết với một thuộc tính
"Dictionary - Lookup = start of city . "
Chú thích kèm theo các bước xử lý trước đó.
Luật để xác định một thực thể đơn (Rules to Identify a Single Entity):
Luật để nhận ra một thực thể đơn đầy đủ bao gồm ba loại mẫu.
Một mẫu tùy chọn ghi lại bối cảnh trước khi bắt đầu của một thực thể .
Một mẫu kết hợp các thẻ trong các thực thể.
Một mẫu tùy chọn để ghi lại bối cảnh sau khi kết thúc của thực thể.
Ví dụ về một mẫu để xác định tên người có dạng "Dr. Yair Weiss" bao
gồm một thẻ tiêu đề được liệt kê trong tập từ điển các chức danh (có chứa các
mục như : “Prof ”, “Dr”, “Mr” ), một dấu chấm, và hai từ viết hoa là
({Dictionary - Lookup = Titles}{String = “”}{Orthography type
=capitalized word}{2})^-Person Names.
Mỗi điều kiện trong dấu ngoặc nhọn là một điều kiện của một thẻ được
theo sau cùng với số tùy chọn và chỉ ra số lần lặp lại của thẻ. Ví dụ về một
luật để đánh dấu tất cả số đi sau các giới từ "by" và "in" là thực thể năm:
(String=“by”|String=“in”})({Orthography type = Number}):y^Year=:y. Có
hai mẫu trong luật này: mẫu đầu tiên để ghi lại ngữ cảnh xuất hiện của các
thực thể năm và mẫu thứ hai ghi lại các tính chất của thẻ tạo thành " year".
Một ví dụ khác cho việc tìm kiếm tên công ty dạng “The XYZ Corp.” or

“ABC Ltd.” được tạo bởi:
({String-‘The”}? {Orthography type = All capitalized}{Orthography type
= Capitalized word, DictionaryType -Company end})^Company name


17
2.1.3.2. Các luật đánh dấu ranh giới thực thể (Rules to Mark Entity
Boundaries)
Đối với một số loại thực thể, trong các đơn vị dài đặc biệt như tiêu đề
cuốn sách, nó là hiệu quả hơn để xác định các luật đặc biệt để đánh dấu sự bắt
đầu và kết thúc một ranh giới thực thể. Đó là loại bỏ một cách độc lập và tất
cả các thẻ ở trong giữ hai thẻ đánh dấu đầu và cuối được gọi là thực thể. Nhìn
nhận vấn đề theo một cách khác, mỗi luật cơ bản dẫn đến sự chèn của một
đơn Thẻ SGML trong văn bản mà các thẻ này có thể là một thẻ bắt đầu hoặc
một thẻ kết thúc. Để giải quyết sự không nhất quán khi có hai thực thể bắt đầu
đánh dấu trước và chỉ một thực thể đánh dấu kết thúc, điều này cần có một
cách giải quyết đặc biệt. Ví dụ, một quy tắc để chèn một thẻ <journal>, để
đánh dấu sự bắt đầu của một tên tạp chí trong một bản trích dẫn:
({String=“to”} {String=“appear”} {String=“in”}):jstart
({Orthography type = Capitalized word}{2-5})^-insert <joumal>
after:jstart.
2.1.3.3. Các luật cho đa thực thể (Rules for Multiple Entities)
Một số luật có dạng biểu thức chính quy với nhiều slot, mỗi slot đại diện
cho một thực thể khác nhau sao cho luật này dẫn đến sự công nhận của nhiều
đối tượng cùng một lúc. Những luật này được sử dụng tốt hơn cho bản ghi dữ
liệu theo định hướng. Hệ thống dựa trên luật WHISK [14] đã được nhắm tới
cho việc khai thác từ hồ sơ có cấu trúc như hồ sơ y tế , các bản ghi bảo trì
thiết bị, và phân loại quảng cáo. Các luật này được viết lại từ, để trích chọn
hai thực thể, số lượng phòng ngủ và cho thuê, từ một quảng cáo cho thuê căn
hộ. ({Orthography type = Digit}):Bedrooms ({String =“BR”})({}*)

({String =“$”})({Orthography type = Number}):Price^Number
of Bedrooms =:Bedroom, Rent =: Price
2.1.3.4. Chọn lựa hình dạng của tập luật (Alternative Forms of Rules)


18
Có nhiều hệ thống dựa trên luật state-of-the-art cho phép các chương
trình tùy ý viết bằng ngôn ngữ thủ tục như Java và C + + thay cho cả hai
thành phần mẫu và phần hành vi của các luật. Trong nghiến cứu của H.
Cunningham và cộng sự sử dụng hỗ trợ các chương trình Java thay cho ngôn
ngữ hình thức các luật tùy chỉnh của nó được gọi là JAPE trong hoạt động
của một luật. Đây là một khả năng mạnh mẽ bởi vì nó cho phép phần hành vi
của các quy tắc để truy cập các thuộc tính khác nhau mà được sử dụng trong
phần mẫu của các quy tắc và được sử dụng để chèn các trường mới cho chuỗi
chú thích [17].
Nhìn chung, trong các hệ thống tri thức (knowledge systems), ban đầu
thường được sử dụng phương pháp tiếp cận dựa trên luật (rule-based).
Phương pháp này có những ưu điểm và nhược điểm sau:
Về ưu điểm:
- Cần sử dụng ít dữ liệu huấn luyện hơn phương pháp tiếp cận dựa trên
dữ liệu.
- Phương pháp này có thể xây dựng các biểu thức chính quy tốt cho trích
chọn thông dựa trên cú pháp, từ vưng, và các thành phần ngữ nghĩa. Phương
pháp tiếp cận dựa trên luật phù hợp với bài toán trích chọn các thông tin về
thời gian (“rạng sáng hôm qua ”, “giữa trưa hôm nay”). Phương pháp này cho
độ chính xác rất cao (do được xây dựng để lấy ra các thông tin đặc biệt), độ
hồi tưởng thấp. Do đó phương pháp này rất thích hợp cho các bài toán chỉ
quan tâm đến độ chính xác.
Về nhược điểm:
- Khi sử dụng phương pháp này đòi hỏi người xây dựng đóng vai trò

như chuyên gia miền dữ liệu, cần phải rất am hiểu dữ liệu, người xây dựng
phải có kiến thức về ngôn ngữ, tự vựng và cú pháp. Hơn nữa, tập luật thường
được xây dựng để lấy ra các thông tin đặc biệt, dó đó khi thay đổi sang miền


19
dữ liệu khác thì lại phải xây dựng tập luật cho phù hợp. Việc xây dựng tập
luật đôi khi rất tốn thời gian và chi phí.
2.2.

Phương pháp tiếp cận dựa trên học máy
Phương pháp tiếp cận dựa trên học máy còn được gọi là phương pháp

tiếp cận dựa trên dữ liệu (data-driven). Phương pháp tiếp cận này không đòi
hỏi người xây dựng phải thành thạo về ngôn ngữ, lĩnh vực nghiên cứu như
các chuyên gia. Nhưng lại đòi hỏi một lượng lớn dữ liệu để xây dựng tập
huấn luyện tốt vả đủ lớn dùng cho bộ phân lớp tối ưu. Phương pháp này
thường dựa trên mô hình xác suất (probabilistic models), lý thuyết thông tin
(information theory) và đại số tuyến tính (linear algebra). Một bộ đoán nhận
sẽ thực hiện việc gán cho kho dữ liệu văn bản các nhãn phù hợp với từng lớp.
Sau khi có tập dữ liệu huấn luyện phù hợp đã được gán nhãn, thuật toán huấn
luyện được sử dụng, hệ thống sẽ sử dụng kết quả trả về từ thuật toán huấn
luyện để phục vụ cho quá trình phân tích văn bản mới. Một số cách tiếp cận
cơ bản thường được sử dụng là Term Frequency - Inverse Document
Frequency (TF-IDF), n-grams hay phân cụm.
Trong nghiên cứu của Okamoto và cộng sự dựng một khung (frameword)
để phát hiện các sự kiện cục bộ (loacal events). Trong nghiên cứu tác giả sử
dụng các kỹ thuật phân cụm phân cấp [15]. Trong khi đó, phân cụm có thể
sinh ra các kết quả tốt cho trích chọn sự kiện, Mingrong Liu và các cộng sự
kết hợp các đồ thị có trọng số vô hướng chia đôi (weighted undirected

bipartite graphs) và phân cụm để trích chọn các thực thể chính và các sự kiện
có ý nghĩa từ các thông tin hàng ngày [4]. Các kỹ thuật phân cụm cũng được
sử dụng bởi Hristo Tanev và cộng sự để trích chọn các sự kiện bạo lực và
thảm hoạ cho hệ thống giám sát [16].
Phương pháp tiếp cận dựa trên dữ liệu cần xây dựng xác suất để xấp sỉ
mô hình huấn luyện với dữ liệu. Phương pháp này có ưu điểm nhưng vẫn tồn


×