Đề tài: Mơ hình chủ đề ẩn trích
xuất thực thể y sinh
Nhóm:
Trần Thắng Bình
Ngơ Mạnh Quyền
Chu Thị Phương Thảo
Hà nội, tháng 11 năm 2013
Nội dung
Mơ hình chủ để: LSA, LDA
Nguồn dữ liệu và tài nguyên: Pubmed Central, UMLS
Công cụ: Mallet
Mơ hình
Kết quả
Đánh giá chất lượng cụm tự động
Hướng nghiên cứu tiếp
Định hướng nghiên cứu
Mục đích nghiên cứu:
Xây dựng các cụm từ vựng(word clusters) liên quan đến nhau thuộc miền dữ
liệu y sinh dựa vào mơ hình học khơng giám sát
Nghiên cứu các phương pháp sinh ra các cụm từ vựng:
Mơ hình chủ đề: LSA, LDA (thực tập chuyên ngành)
Gom cụm từ vựng (Word clustering)
Phương pháp biểu diễn từ vựng Word2vector
Tìm hiểu nguồn dữ liệu và các tài nguyên ngôn ngữ trong miền dữ liệu y sinh
Xây dựng mơ hình đánh giá chất lượng các cụm từ vựng tự động
LSA (Latent Semantic Analysis)
Là một mơ hình chủ đề được sử dụng để phân tích tài liệu đưa ra
những ý nghĩa của tài liệu đó. [ls]
Các bước thực hiện:
Tạo ma trận chủ đề - từ (đếm số lần xuất hiện của từ trong tài liệu)
Sử dụng giá trị tf-idf để đánh trọng số cho từng từ
Loại bỏ những từ nhiễu và tạo lại ma trận.
Gom cụm tài liệu, gom cụm từ.
LSA (Latent Semantic Analysis)
Một số hạn chế của mô hình LSA:
LSA sử dụng phân phối Gaussian có thể khơng phù hợp với nhiều trường
hợp. Ví dụ như các từ trong tài liệu thường có phân phối tuân theo phân
phối Poisson hơn.
LSA không thể xử lý trường hợp đa nghĩa (một từ có nhiều nghĩa)
Khó cập nhật lại khi có một tài liệu mới xuất hiện.
LDA (Latent Dirichlet Allocation)
LDA giả sử mơ hình sinh cho mỗi tài liệu
Sinh ngẫu nhiên ra phân bố chủ đề của văn bản đó
Với mỗi từ trong văn bản
Chọn ngẫu nhiên chủ đề từ phân bố chủ đề ở trên
Chọn ngẫu nhiên từ trong phân bố từ của chủ đề.
Input: Tập các tài liệu
Output:
Ma trận Từ - Chủ đề
Ma trận Chủ đề - Tài liệu
LDA (Latent Dirichlet Allocation)
LDA bao gồm các bước lặp và sau mỗi vịng lặp sẽ tối ưu hóa lại các giá
trị xác suất trong 2 ma trận Từ - Chủ đề và Chủ đề - Tài liệu [bl11]
Vòng lặp sẽ dừng lại khi hội tụ hoặc chạy hết số vòng lặp cho trước
Nguồn dữ liệu và tài nguyên
Pubmed Central
PMC là kho lưu trữ tài liệu y sinh và tạp chí khoa học tại Thư viện y khoa quốc gia Hoa kỳ(NLM) – thư viện y
khoa lớn nhất thế giới. Các bài báo đều là full – text (các bài đầy đủ)[pm]
Cách thu thập dữ liệu:
Lấy các tất cả các bài báo theo tên tạp chí và định dạng tgz: />
Lấy bài báo bằng id: />
Lấy theo ngày: />
Lấy 1000 bài tiếp theo trong một tập kết quả: http
://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?resumptionToken=843921!20120101000000!!!6e8a2c112f595273
Lấy những bài có định dạng PDFs : http
://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?from=2013-01-01&format=pdf
Nguồn dữ liệu và tài nguyên
Pubmed Central
Số lượng dữ liệu đã thu thập: 623.989 bài báo y sinh từ PMC( 02/10/2013)
Xử lý dữ liệu:
Dữ liệu down về dưới dạng nén “tar.gz” chứa các file dạng “nxml”
Nguồn dữ liệu và tài nguyên
Pubmed Central
Xử lý dữ liệu:
Nguồn dữ liệu và tài nguyên
UMLS:
UMLS là tập các file và phần mềm đưa ra nhiều tập từ vựng về y sinh [um]
3 công cụ UMLS:
Metathesaurus: Thuật ngữ và mã số từ nhiều tập từ vựng như CPT, ICD-10-CM,
MeSH,…
Semantic Network: các loại ngữ nghĩa và quan hệ giữa chúng.
SPECIALIST lexicon và Lexical Tools: công cụ xử lý ngơn ngữ tự nhiên.
Số liệu thống kê: UMLS có 133 nhãn về lĩnh vực hoặc chủ đề y sinh gồm
khoảng 6 triệu từ vựng.
Nguồn dữ liệu và tài nguyên
UMLS có cấu trúc rõ ràng:
Nguồn dữ liệu và tài nguyên
UMLS:
Thu thập:
Local Installation: Cài đặt UMLS trên máy tính và down các file về. Có thể lưu dữ
liệu tải về vào hệ thống cơ sở dữ liệu như MySQL, Oracle.
Web browsers: Tìm kiếm dữ liệu thông qua các ứng dụng.
Web Services APIs: Sử dụng giao diện chương trình ứng dụng để yêu cầu UMLS
trong ứng dụng.
Xử lý dữ liệu:
Từ 623.989 bài báo y sinh ở trên, lọc qua từ vựng UMLS thu được 2 triệu từ có trong
UMLS và cũng có trong dữ liệu.
Cơng cụ
•
Mallet được viết bởi: Andrew McCallum và cộng sự.
•
Trang chủ: />
•
Mallet là cơng cụ cho xử lí ngơn ngữ tự nhiên, phân loại tài liệu, gom cụm, mơ hình
chủ đề, trích xuất thơng tin và các ứng dụng học máy khác bằng thống kê.
•
Bộ cơng cụ Mallet cho mơ hình chủ đề hoạt động dựa trên sự thi hành của Latent
Dirichlet Allocation, Pachinko Allocation, and Hierarchical LDA.
Công cụ
Input
File dữ liệu text đầu vào với mỗi dòng là một document.
Tham số k(số chủ đề muốn sinh ra từ tập dữ liệu đầu vào).
Output
Ma trận từ/chủ đề
Mơ hình
Download
Tiền xử lý
PMC
UMLS
Docs
Website
Tiền xử lý
Longest
matching
Dict
K=200
Mallet
UMLS term
Ma trận
từ/chủ đề
Model
Ma trận tài
liệu/chủ đề
Loại bỏ từ có trọng số thấp
Web
UMLS
Kết quả
Bảng 1
Bảng 2
Kết quả các cụm từ
Kết quả các cụm từ
Big question: Làm thế nào đánh giá chất lượng cụm từ vựng ?
Phương pháp thông thường: đánh giá thủ công dựa trên tư tưởng
Một cụm được đánh giá là tốt nếu tập chung vào một vài chủ đề có liên
quan đến nhau (1)
Key: Mỗi một từ trong UMLS sẽ thuộc một số nhãn ngữ nghĩa.
Dựa trên (1),(2) Có thể sử dụng các nhãn ngữ nghĩa của UMLS để
đánh giá chất lượng cụm từ vựng
Kết quả
Cụm tốt
Các từ hướng đến một hoặc một số ít
các nhãn (biểu đồ chỉ có một số ít
cột nổi trội).
Kết quả
Cụm nhiễu
Các từ trong 1 cụm hướng đến
nhiều nhãn.
(không xuất hiện các cột nổi trội)
Cơng việc tiếp theo
Hồn thành đánh giá chất lượng cụm được sinh ra bởi mơ hình chủ đề
Hồn thành thực tập chuyên ngành (20/11/2013)
Viết một báo cáo gửi Workshop sinh viên tại EACL 2013 (deadline: 22/11/2013)
Nghiên cứu tiếp 2 nhóm phương pháp về sinh cụm từ vựng
Áp dụng các cụm từ vựng cho một bài toán cụ thể (dự kiến: active re-ranking
model for biomedical search engine)
Tài liệu tham khảo
[bl03] 03_#Latent Dirichlet Allocation_BleiNgJordan2003
[bl11] Blei2011_Probabilistic topic models
[ls]
/>atent-semantic-analysis-tutorial.html?start=5
[pm] /> [um] />