Question Oriented Multi Docu ment Summarization

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (392.94 KB, 17 trang )

Question-Oriented Multi Document Summarization
Trần Mai Vũ

Giới thiệu
• Đặt vấn đề:
– Duc 2005-2007
– Hệ thống Q&A

Start SYSTEM (MIT)

Tài liệu
• [1] A Semantic Free-text Summarization System
Using Ontology Knowledge
R. Verma, University of Houston
P. Chen, University of Houston-Downtown
W. Lu, University of Texas-Austin,DUC 07
• [2] Language Model Passage Retrieval for Quest
ion-Oriented Multi Document Summarization
J.-C. Ying, S.-J. Yen, Y.-S. Lee, Y.-C. Wu, J.-C.
Yang, National Central University,DUC 07

Mơ hình đã áp dụng

Độ tương đồng ngữ nghĩa
• Sử dụng mạng ngữ nghĩa (Tri thức miền)
– Wordnet

– Wikipedia

• Phân tích chủ đề
– Hidden topic
– Phân tích chủ đề bằng Wordnet

-> Sử dụng các tri thức miền(Ontology) tương
ứng với từng chủ đề cụ thể để tăng cường ngữ
nghĩa

Sự tương đồng
• Sự tương đồng giữa các mạng ngữ nghĩa và
kiến trúc của ontology.
– Tổ chức theo từng domain/class chủ đề
– Từng domain/class chứa nhiều các đối tượng
– Giữa các đối tượng của domain/class có mối liên
hệ với nhau

[1]
• Wordnet
• UMLS (Unified
Medical Language
System)
– Metathesaurus
– Semantic Network
– Specialist lexicon

[1]
• Quy trình của hệ thống
– Xây dựng bộ truy vấn các từ/khái niệm trên
Wordnet/UMLS
– Loại bỏ các câu gần nhau
– Xác định câu quan trọng bằng việc tính các độ đo
tương đồng giữa các câu dựa vào độ tương đồng
từ.

Mơ hình Q&A đơn giản

[2]
• Phân đoạn các đoạn văn bản/các câu
• Phân cụm các đoạn văn bản/các câu
• Trích chọn các đoạn văn bản/các câu tương
ứng với câu truy vấn
• Sinh tóm tắt cho cụm văn bản được trích chọn
ra.

[2]
• Phân cụm các đoạn văn bản / các câu
– Sử dụng túi từ
– Sử dụng giải thuật Kmean

• Trích chọn các đoạn văn bản / các câu tương
ứng với câu truy vấn
– Sử dụng mơ hình ngơn ngữ n-gram (Chen &

Goodman 1998)

[2]
• Sinh tóm tắt cho cụm văn bản:
– Rút ra câu có độ tương đồng cao nhất với tâm
cụm đầu tiên (top-1) đưa vào văn bản tóm tắt.
– Rút các câu có độ khác biệt nhất với văn bản tóm
tắt trong các cụm văn bản tiếp theo để cho vào
văn bản tóm tắt.

Tài ngun
• Tài ngun
– Cơng cụ tính độ tương đồng ngữ nghĩa của
concept trên wikipedia
– Ontology y tế của nhóm Ngân
– Cơng cụ tóm tắt đa văn bản dựa vào giải thuật
MMR và chủ đề ẩn

Mơ hình

Các bước triển khai
• Phân đoạn các câu
• Trích chọn các câu có độ tương đồng ngữ
nghĩa với câu hỏi/câu truy vấn
– Sử dụng phương pháp kết hợp 2 độ đo tương
đồng về ngữ nghĩa trên wikipedia và ontology y tế

– Dựa vào một ngưỡng xác định để đưa ra danh
sách các câu phù hợp

Các bước triển khai
• Phân cụm các câu trả về từ quá trình trước
– Sử dụng giải thuật KMEAN (Sử dụng bộ cơng cụ
của chị Tú&Trang)

• Tóm tắt đa văn bản với các cụm dữ liệu.
– Sử dụng giải pháp bài báo [2]
– Sử dụng MMR

Question Oriented Multi Docu ment Summarization

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về