Question-Oriented Multi Document Summarization
Trần Mai Vũ
Giới thiệu
• Đặt vấn đề:
– Duc 2005-2007
– Hệ thống Q&A
Start SYSTEM (MIT)
Tài liệu
• [1] A Semantic Free-text Summarization System
Using Ontology Knowledge
R. Verma, University of Houston
P. Chen, University of Houston-Downtown
W. Lu, University of Texas-Austin,DUC 07
• [2] Language Model Passage Retrieval for Quest
ion-Oriented Multi Document Summarization
J.-C. Ying, S.-J. Yen, Y.-S. Lee, Y.-C. Wu, J.-C.
Yang, National Central University,DUC 07
Mơ hình đã áp dụng
Độ tương đồng ngữ nghĩa
• Sử dụng mạng ngữ nghĩa (Tri thức miền)
– Wordnet
– Wikipedia
• Phân tích chủ đề
– Hidden topic
– Phân tích chủ đề bằng Wordnet
-> Sử dụng các tri thức miền(Ontology) tương
ứng với từng chủ đề cụ thể để tăng cường ngữ
nghĩa
Sự tương đồng
• Sự tương đồng giữa các mạng ngữ nghĩa và
kiến trúc của ontology.
– Tổ chức theo từng domain/class chủ đề
– Từng domain/class chứa nhiều các đối tượng
– Giữa các đối tượng của domain/class có mối liên
hệ với nhau
[1]
• Wordnet
• UMLS (Unified
Medical Language
System)
– Metathesaurus
– Semantic Network
– Specialist lexicon
[1]
• Quy trình của hệ thống
– Xây dựng bộ truy vấn các từ/khái niệm trên
Wordnet/UMLS
– Loại bỏ các câu gần nhau
– Xác định câu quan trọng bằng việc tính các độ đo
tương đồng giữa các câu dựa vào độ tương đồng
từ.
Mơ hình Q&A đơn giản
[2]
• Phân đoạn các đoạn văn bản/các câu
• Phân cụm các đoạn văn bản/các câu
• Trích chọn các đoạn văn bản/các câu tương
ứng với câu truy vấn
• Sinh tóm tắt cho cụm văn bản được trích chọn
ra.
[2]
• Phân cụm các đoạn văn bản / các câu
– Sử dụng túi từ
– Sử dụng giải thuật Kmean
• Trích chọn các đoạn văn bản / các câu tương
ứng với câu truy vấn
– Sử dụng mơ hình ngơn ngữ n-gram (Chen &
Goodman 1998)
[2]
• Sinh tóm tắt cho cụm văn bản:
– Rút ra câu có độ tương đồng cao nhất với tâm
cụm đầu tiên (top-1) đưa vào văn bản tóm tắt.
– Rút các câu có độ khác biệt nhất với văn bản tóm
tắt trong các cụm văn bản tiếp theo để cho vào
văn bản tóm tắt.
Tài ngun
• Tài ngun
– Cơng cụ tính độ tương đồng ngữ nghĩa của
concept trên wikipedia
– Ontology y tế của nhóm Ngân
– Cơng cụ tóm tắt đa văn bản dựa vào giải thuật
MMR và chủ đề ẩn
Mơ hình
Các bước triển khai
• Phân đoạn các câu
• Trích chọn các câu có độ tương đồng ngữ
nghĩa với câu hỏi/câu truy vấn
– Sử dụng phương pháp kết hợp 2 độ đo tương
đồng về ngữ nghĩa trên wikipedia và ontology y tế
– Dựa vào một ngưỡng xác định để đưa ra danh
sách các câu phù hợp
Các bước triển khai
• Phân cụm các câu trả về từ quá trình trước
– Sử dụng giải thuật KMEAN (Sử dụng bộ cơng cụ
của chị Tú&Trang)
• Tóm tắt đa văn bản với các cụm dữ liệu.
– Sử dụng giải pháp bài báo [2]
– Sử dụng MMR