Tải bản đầy đủ (.pdf) (4 trang)

DSpace at VNU: Một giải thuật Tri-train chỉnh sửa và ứng dụng vào bài toán phân lớp câu hỏi

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (82.06 KB, 4 trang )

Một giải thuật Tri-train chỉnh sửa và ứng dụng
vào bài toán phân lớp câu hỏi
Nguyễn Minh Hải
Trường Đại học Công nghệ
Luận văn ThS. Hệ thống thông tin; Mã số: 60 48 01 04
Người hướng dẫn: TS. Nguyễn Trí Thành
Năm bảo vệ: 2014
Abstract. Các hệ thống hỏi đáp (Question Answering System) là một trong những
hướng quan trọng trong xử lý ngôn ngữ tự nhiên. Một trong những thành phần
quan trọng của các hệ thống này là module phân lớp câu hỏi. Chất lượng của
module này có ý nghĩa rất quan trọng vì nó xác định được miền dữ liệu cũng
như phương pháp trích chọn câu trả lời cho câu hỏi đưa ra. Luận văn tập trung
tìm hiểu các phương pháp nhằm làm tăng hiệu năng phân lớp của module phân
lớp câu hỏi.
Bài toán phân lớp câu hỏi đã được đặt ra và giải quyết từ khá lâu với hai
hướng chủ đạo: dựa trên luật và dựa trên xác suất, tuy nhiên cho đến nay nó vẫn
là bài toán được nhiều người quan tâm. Luận văn tập trung khảo sát các phương
pháp được áp dụng cho phân lớp câu hỏi. Trên cơ sở đó lựa chọn nghiên cứu về
giải thuật học bán giám sát. Trong các giải thuật học bán giám sát, tác giả lựa
chọn nghiên cứu cách cải tiến giải thuật Tri-Train áp dụng cho bài toán phân lớp
câu hỏi. Kế thừa trên một đề xuất cải tiến của Nguyễn Trí Thành và các cộng sự
được công bố vào năm 2008, luận văn đưa ra đề xuất cải tiến và thực hiện nhiều
thử nghiệm minh họa sau đó thống kê và phân tích các thử nghiệm.


Keywords. Hệ thống thông tin; Giải thuật Tri-train; Bài toán phân lớp
Content.
Luận văn được tổ chức như sau:
Chương 1: giới thiệu về hệ thống hỏi đáp, tầm quan trọng của module phân
lớp câu hỏi và phát biểu bài toán phân lớp câu hỏi.
Chương 2: khảo sát các đề tài nghiên cứu liên quan đến phân lớp câu hỏi và


những thành tựu nghiên cứu trên thế giới đã đạt được.
Chương 3: trình bày sơ lược về học bán giám sát, giải thuật Tri-Train, đưa ra
và trình bày chi tiết đề xuất chỉnh sửa nhằm tăng hiệu quả cho bài toán phân lớp
câu hỏi.
Chương 4: trình bày quá trình làm thực nghiệm và các kết quả đạt được.
Tác giả xin chân thành cảm ơn sự hướng dẫn và chỉ bảo tận tình của thầy
Nguyễn Trí Thành, cảm ơn các thầy cô giáo trong khoa Hệ Thống Thông Tin
trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội đã tạo điều kiện giúp tác
giả hoàn thành luận văn này.
References.
Tiếng Anh
[1]. Mohan John Blooma, Dion Hoe-Lian Goh, Alton Yeow Kuan
Chua, Question Classification in Social Media, The International Journal of
Information Studies: Volume 1, Number 2, 2009, pp 101 – 109.
[2]. Ali Harb, Michel Beigbeder, Kristine Lund, Jean-Jacques Girardot,
Enhanced semantic expansion for question classification, International
Journal of Internet Technology and Secured Transactions 3, 2 (2011) Pages
134-148.
[3]. Baoli Li, Y. Liu and Eugene Agichtein, CoCQA: Co-Training Over


Questions and Answers with an Application to Predicting Question
Subjectivity Orientation, Conference on Empirical Methods in Natural
Language Processing (EMNLP 2008).
[4]. David Tomás,José L. Vicedo, Minimally supervised question
classification on fine-grained taxonomies, Knowledge and Information
Systems August 2013, Volume 36, Issue 2, pp 303-334.
[5]. Håkan Sundblad, Question Classification in Question Answering
Systems, Linköping Studies in Science and Technology Thesis No. 1320,
2007.

[6]. Jaime Carbonell, Donna Harman , Eduard Hovy, and Steve
Maiorano, John Prange and Karen Sparck-Jones, Vision Statement to Guide
Research in Question & Answering (Q&A) and Text Summarization, Final
version 1. 2000.
[7]. Jinzhong Xu - Sch. of Comput. Sci., Zhongyuan Univ. of Technol.,
Zhengzhou, China - Yanan Zhou - Yuan Wang, A Classification of
Questions Using SVM and Semantic Similarity Analysis, Internet Computing
for Science and Engineering (ICICSE), 2012 Sixth International Conference
on.
[8]. Kadri Hacioglu and Wayne Ward, Question Classification with
Support Vector Machines and Error Correcting Codes, In Proceedings of
HLT-NAACL, pp. 28-30, Edmonton, Canada, May, 2003.
[9]. Nguyen Thanh Tri, Minh Le Nguyen, Akira Shimazu, Improving
the Accuracy of Question Classification with Machine Learning, RIVF
2007: 234-241.
[10]. Tri Thanh Nguyen, Le Minh Nguyen, and Akira Shimazu , Using


Semi-supervised Learning for Question Classification, Journal of Natural
Language Processing, Vol. 15, No. 1, pp. 3-22, 2008.
[11]. Xin Li, Dan Roth, Learning Question Classifiers, COLING'02,
Aug., 2002.
[12]. Zhang D., Lee W.S, Question Classification using Support Vector
Machines, In Proceedings of the 26th ACM SIGIR Conference on Research and
Development in Information Retrieval (SIGIR), Toronto, Canada, 2003.
[13]. Zhi-Hua Zhou, Ming Li, Tri-Train: exploiting unlabeled data using
three classifiers, Knowledge and Data Engineering, IEEE Transactions on
(Volume:17 , Issue: 11 ), 2005.
Website
[14]. />[15]. />



×