Tải bản đầy đủ (.pdf) (4 trang)

Trích chọn sự kiện trong văn bản tin tức tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (212.89 KB, 4 trang )

Trích chọn sự kiện trong văn bản tin tức tiếng Việt



Phan Thị Thuận


Trường Đại học Công nghệ
Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 01 04
Người hướng dẫn: TS. Nguyễn Trí Thành
Năm bảo vệ: 2014


Keywords. Hệ thống thông tin; Trích chọn thông tin; Văn bản tiếng Việt

Content
Trích chọn thông tin (Information Extraction - IE), đặc biệt là trích chọn sự kiện (Event
Extraction - EE) là một lĩnh vực con trong khai phá dữ liệu (Data Mining - DM). Những năm gần
đây, trích chọn sự kiện đã thu hút nhiều sự quan tâm từ các nhà khoa học trên thế giới và đã thu được
nhiều kết quả trong thực tế. Trích chọn sự kiện có thể áp dụng vào nhiều miền dữ liệu khác nhau như
kinh tế, văn hóa, y tế, xã hội (chẳng hạn như thông tin về các vụ tai nạn giao thông), chính trị,
Theo những con số thống kê trên các trang báo điện tử về con số tai nạn hàng năm, như: thông
tin đăng trên báo điện tử , sáng 03 – 01-2013, Chính phủ tổ chức “Hội nghị
trực tuyến tổng kết công tác trật tự an toàn giao thông năm 2012 và triển khai nhiệm vụ năm 2013”
do Phó Thủ tướng Chính phủ Nguyễn Xuân Phúc chủ trì. Trong hội nghị, Ủy ban An toàn giao thông
ATGT Quốc gia đã thống kê: năm 2012, cả nước xảy ra 36.376 vụ tai nạn giao thông, làm chết
9.838 người, bị thương 38.060 người. Cũng theo báo điện tử , ngày 31-12-
2013, Phó Thủ tướng Chính phủ, Chủ tịch Ủy ban ATGT Quốc gia Nguyễn Xuân Phúc đã chủ trì hội
nghị trực tuyến với các bộ, ngành, địa phương nhằm tổng kết công tác bảo đảm trật tự ATGT năm
2013 và triển khai nhiệm vụ năm 2014. Theo thống kê của Ủy ban ATGT Quốc gia, năm 2013 cả
nước đã xảy ra 29.385 vụ tai nạn giao thông (TNGT), làm chết 9.369 người, bị thương 29.500 người.


Từ các con số thống kê tai nạn giao thông hàng năm, chúng ta thấy số vụ tai nạn còn rất cao, đi
cùng với nó là con số tử vong và số thương vong là rất lớn. Mặt khác, bản tin vụ tai nạn được cập
nhật khá đầy đủ và mang tính thời sự trên các báo điện tử. Hơn nữa, trích chọn sự kiện đang rất phát
triển, chúng ta có thể sử dụng trích chọn sự kiện để trích chọn thông tin hữu ích từ các bản tin vụ tai
nạn, kết quả của quá trình này sẽ được thống kê thành các con số hữu ích giúp các nhà quản lý và
người dân tham gia giao thông đúng cách. Đó cũng là lý do, tác giả chọn và nghiên cứu đề tài“Trích
chọn sự kiện trong văn bản tin tức tiếng Việt” miền dữ liệu khai thác là sự kiện vụ tai nạn. Chi tiết
luận văn được chia thành 4 chương:
Chương 1. Giới thiệu đề tài
Chương này trình bày cơ bản về bài toán trích chọn sự kiện trong bối cảnh bùng nổ thông tin
trên Internet. Hơn nữa nêu lên được ý nghĩa khoa học, ý nghĩa thực tiễn, ứng dụng của đề tài trích
chọn sự kiện vụ tai nạn giao thông trên miền văn bản tiếng Việt.
Chương 2.Một số phương pháp tiếp cận
Chương này tập trung trình bày các phương pháp tiếp cận cho bài toán trích chọn sự kiện đó là,
phương pháp tiếp cận dựa trên tâp luật, phương pháp tiếp cận dựa trên học máy, phương pháp tiếp
cận kết hợp luật và học máy, trong mỗi phương pháp đều có nhận xét hữu ích. Từ đó, luận văn sẽ chỉ
ra phương pháp phù hợp cho bài toán trích chọn sự kiện vụ tai nạn.
Chương 3. Đề xuất mô hình trích chọn sự kiện vụ tai nạn
Chương này, phát biểu và mô tả mô hình tổng thể cho bài toán trích chọn sự kiện vụ tai nạn.
Sau đó, phát biểu, mô tả mô hình chi tiết và cách giải quyết cho hai bài toán: phát hiện sự kiện và
trích chọn sự kiện.
Chương 4. Thực nghiệm và đánh giá
Chương này, luận văn mô tả quá trình thực nghiệm và đánh giả kết quả đề xuất dựa trên hai bài
toán, đó là: bài toán phát hiện sự kiện và bài toán trích chọn sự kiện. Ba độ đo được sử dụng trong
pha phát hiện sự kiện là độ chính xác (P - Precision), độ hồi tưởng (R - Recall), và độ đo F1 (F1-
score) và so sánh với kết quả đánh giá thủ công (bằng tay) cho pha trích chọn sự kiện. Thống kê và
đánh giá (biểu đồ) các thuộc tính đã được trích chọn.
Phần kết luận: trình bày kết quả đạt được của luận văn, những hạn chế và hướng phát triển của
luận văn trong tương lai.




References
Tài liệu tiếng Anh
[1] Sunita Sarawagi (2008), Information Extraction, Indian Institute of Technology, CSE, Mumbai
400076, India,
[2] Douglas E. Appelt. Introduction to information extraction technology. In Tutorial held at IJCAI-
99, Stockholm, Sweden, 1999.
[3] Young-Sook Hwang Chun Hong-Woo and Hae-Chang Rim. Unsupervised event extraction from
biomedical literature using co-occurrence information and basic patterns. In: 1st International Joint
Conference on Natural Language Processing (IJCNLP 2004). Lecture Notes in Computer Science.
Springer-Verlag Berlin Heidelberg, vol. 3248:777786, 2004.
[4] Uzay Kaymak Frederik Hogenboom, Flavius Frasincar and Franciska de Jong. An overview of
event extraction from text. Workshop on Detection, Representation, and Exploitation of Events in the
Semantic Web (DeRiVE 2011) at Tenth International Semantic Web Conference (ISWC 2011),
779:pp. 4857, 2011.10
[5] M.A Hearst. Automatic acquisition of hyponyms from large text corpora. In: 14th Conference on
Computational Linguistics (COLING 1992), vol. 2:539545, 1992.
[6] M.A Hearst. Wordnet: An electronic lexical database and some of its applications. In Automated
Discovery of WordNet Relations, pp. 131151. MIT Press, 1998.
[7] Frederik Hogenboom Jethro Borsje and Flavius Frasincar. Semi-automatic financial events
discovery based on lexico-semantic patterns. International Journal of Web Engineering and
Technology, 6(2):115140, 2010.
[8] Yea-Juan Chen Lee Chang-Shing and Zhi-Wei Jian. Ontology-based fuzzy event extraction agent
for chinese e-news summarization. In Expert Systems with Applications 25(3), 431 447, 2003.
[9] Okamoto Masayuki and Masaaki Kikuchi. Discovering volatile events in your neighborhood:
Local-area topic extraction from blog entries. In: 5th Asia Information Retrieval Symposium (AIRS
2009). Lecture Notes in Computer Science. Springer-Verlag Berlin Heidelberg, vol. 5839:181192,
2009.
[10] Liang Xiang Xing Chen Mingrong Liu, Yicen Liu and Qing Yang. Extracting key entities and

significant events from online daily news. In: 9th International Conference on Intel- ligent Data
Engineering and Automated Learning (IDEAL 2008). Lecture Notes in Computer Science. Springer-
Verlag Berlin Heidelberg, vol. 5326:201209, 2008.
[11] L. Peshkin and A. Pfeffer. Bayesian information extraction network. In Proc.of the 18th
International Joint Conference on Artificial Intelligence (IJCAI), 2003.
[12] Hristo Tanev Piskorski Jakub and Pinar Oezden Wennerberg. Extracting violent events from on-
line news for ontology population. In: 10th International Conference on Business Information
Systems (BIS 2007). Lecture Notes in Computer Science. Springer-Verlag Berlin Heidelberg, vol.
4439:287300, 2007.
[13] Silja Huttunen Ralph Grishman and Roman Yangaber. Information extraction for enhenced
access to disease outbreak reports. Journal of Biomedical Informastic, 35(4):pp. 236246, 2002.
[14] Ai Kawazoe Son Doan and Nigel Collier. Global health monitor - a web-based system for
detecting and mapping infectious diseases. Proc. International Joint Conference on Natural
Language Processing (IJCNLP), Companion Volume,Hyderabad, India:pp. 951956, 2008.
[15] William H. Hsu Svitlana Volkova, Doina Caragea and Swathi Bujuru. Animal disease event
recognition and classification. 2010
[16] Yusuke Miyao Akane Yakushiji, Yuka Tateisi and Jun ichi Tsujii. Event extraction from
biomedical papers using a full parser. In In: 6th Pacific Symposium on Biocomputing (PSB 2001):pp.
408419, 2001.
[17] Helen L. Johnson Chris Roeder Philip V. Ogren-William A. Baumgartner Jr. Elizabeth White
Hannah Tipney K. Bretonnel Cohen, Karin Verspoor and Lawrence Hunter. High-precision
biological event extraction with a concept recognizer. In In: Workshop on BioNLP: Shared Task
collocated with the NAACL-HLT 2009 Meeting. pp. 5058. Association for Computational
Linguistics, 2009.
[18] S. Soderland, “Learning information extraction rules for semi-structured and free text,” Machine
Learning, vol. 34, 1999.
[19] H. Cunningham, D. Maynard, K. Bontcheva, and V. Tablan, “Gate: A framework and graphical
development environment for robust nlp tools and applications,” in Proceedings of the 40th
Anniversary Meeting of the Association for Computational Linguistics, 2002
[20] W. Shen, A. Doan, J. F. Naughton, and R. Ramakrishnan, “Declarative information extraction

using datalog with embedded extraction predicates,” in VLDB, pp. 1033–1044, 2007.
[21] Ralph Grishman and Beth Sundheim. Message understanding conference-6: a brief history.
Proceedings of the 16th conference on Computational linguistics, COLING, Stroudsburg, PA,
USA, Volume 1:pp. 466471, 1996.
[22] Doddington George R. The automatic content extraction (ace) program tasks, data, and
evaluation. In LREC, 2004
[23] Keita Sato Nishihara, Yoko and Wataru Sunayama. Event extraction and visualization for
obtaining personal experiences from blogs. In: Symposiumon Human Interface 2009 on Human
Interface and the Management of Information. Information and Interaction. Part II. Lecture Notes in
Computer Science, Springer-Verlag Berlin Heidelberg, vol. 5618:315324, 2009.
[24] Chinatsu Aone and Mila Ramos-Santacruz. Rees: A large-scale relation and event extraction
system. In In: 6th Applied Natural Language Processing Conference (ANLP 2000):pp. 7683.
Association for Computational Linguistics, 2000.
[25] Huanye Sheng Li Fang and Dongmo Zhang. Event pattern discovery from the stock market
bulletin. In: 5th International Conference on Discovery Science (DS 2002). Lecture Notes in
Computer Science, Springer-Verlag Berlin Heidelberg, vol. 2534:3549, 2002.
[26] Vargas-Vera Maria and David Celjuska. Event recognition on news stories and semi-automatic
population of an ontology. In In: 3rd IEEE/WIC/ACM International Conference on Web Intelligence
(WI 2004). pp. 615618 , 2004.
[27] Takuya Nakamura Agnes Sandor Cedric Tarsitano Philippe Capet, Thomas Delavallade and
Stavroula Voyatzi. A risk assessment system with automatic extraction of event types. Intelligent
Information Processing IV, IFIP International Federation for Information Processing. Springer
Boston, vol. 288:220229, 2008.





×