Tải bản đầy đủ (.pptx) (23 trang)

Báo cáo thực tập chuyên ngành LDA y sinh : Mô hình chủ đề ẩn trích xuất thực thể y sinh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.63 MB, 23 trang )

Đề tài: Mơ hình chủ đề ẩn trích
xuất thực thể y sinh
Nhóm:
Trần Thắng Bình
Ngơ Mạnh Quyền
Chu Thị Phương Thảo

Hà nội, tháng 11 năm 2013


Nội dung
 Mơ hình chủ để: LSA, LDA
 Nguồn dữ liệu và tài nguyên: Pubmed Central, UMLS
 Công cụ: Mallet
 Mơ hình
 Kết quả
 Đánh giá chất lượng cụm tự động
 Hướng nghiên cứu tiếp


Định hướng nghiên cứu
 Mục đích nghiên cứu:
 Xây dựng các cụm từ vựng(word clusters) liên quan đến nhau thuộc miền dữ

liệu y sinh dựa vào mơ hình học khơng giám sát

 Nghiên cứu các phương pháp sinh ra các cụm từ vựng:


Mơ hình chủ đề: LSA, LDA (thực tập chuyên ngành)




Gom cụm từ vựng (Word clustering)



Phương pháp biểu diễn từ vựng Word2vector

 Tìm hiểu nguồn dữ liệu và các tài nguyên ngôn ngữ trong miền dữ liệu y sinh
 Xây dựng mơ hình đánh giá chất lượng các cụm từ vựng tự động


LSA (Latent Semantic Analysis)
 Là một mơ hình chủ đề được sử dụng để phân tích tài liệu đưa ra

những ý nghĩa của tài liệu đó. [ls]

 Các bước thực hiện:
 Tạo ma trận chủ đề - từ (đếm số lần xuất hiện của từ trong tài liệu)
 Sử dụng giá trị tf-idf để đánh trọng số cho từng từ
 Loại bỏ những từ nhiễu và tạo lại ma trận.
 Gom cụm tài liệu, gom cụm từ.


LSA (Latent Semantic Analysis)
 Một số hạn chế của mô hình LSA:
 LSA sử dụng phân phối Gaussian có thể khơng phù hợp với nhiều trường

hợp. Ví dụ như các từ trong tài liệu thường có phân phối tuân theo phân
phối Poisson hơn.


 LSA không thể xử lý trường hợp đa nghĩa (một từ có nhiều nghĩa)
 Khó cập nhật lại khi có một tài liệu mới xuất hiện.


LDA (Latent Dirichlet Allocation)
 LDA giả sử mơ hình sinh cho mỗi tài liệu
 Sinh ngẫu nhiên ra phân bố chủ đề của văn bản đó
 Với mỗi từ trong văn bản


Chọn ngẫu nhiên chủ đề từ phân bố chủ đề ở trên



Chọn ngẫu nhiên từ trong phân bố từ của chủ đề.

 Input: Tập các tài liệu
 Output:
 Ma trận Từ - Chủ đề
 Ma trận Chủ đề - Tài liệu


LDA (Latent Dirichlet Allocation)

 LDA bao gồm các bước lặp và sau mỗi vịng lặp sẽ tối ưu hóa lại các giá

trị xác suất trong 2 ma trận Từ - Chủ đề và Chủ đề - Tài liệu [bl11]

 Vòng lặp sẽ dừng lại khi hội tụ hoặc chạy hết số vòng lặp cho trước



Nguồn dữ liệu và tài nguyên
 Pubmed Central
 PMC là kho lưu trữ tài liệu y sinh và tạp chí khoa học tại Thư viện y khoa quốc gia Hoa kỳ(NLM) – thư viện y

khoa lớn nhất thế giới. Các bài báo đều là full – text (các bài đầy đủ)[pm]

 Cách thu thập dữ liệu:


Lấy các tất cả các bài báo theo tên tạp chí và định dạng tgz: />


Lấy bài báo bằng id: />


Lấy theo ngày: />




Lấy 1000 bài tiếp theo trong một tập kết quả: http
://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?resumptionToken=843921!20120101000000!!!6e8a2c112f595273
Lấy những bài có định dạng PDFs : http
://www.pubmedcentral.nih.gov/utils/oa/oa.fcgi?from=2013-01-01&format=pdf


Nguồn dữ liệu và tài nguyên
 Pubmed Central

 Số lượng dữ liệu đã thu thập: 623.989 bài báo y sinh từ PMC( 02/10/2013)
 Xử lý dữ liệu:


Dữ liệu down về dưới dạng nén “tar.gz” chứa các file dạng “nxml”


Nguồn dữ liệu và tài nguyên
 Pubmed Central
 Xử lý dữ liệu:


Nguồn dữ liệu và tài nguyên
 UMLS:
 UMLS là tập các file và phần mềm đưa ra nhiều tập từ vựng về y sinh [um]
 3 công cụ UMLS:


Metathesaurus: Thuật ngữ và mã số từ nhiều tập từ vựng như CPT, ICD-10-CM,
MeSH,…



Semantic Network: các loại ngữ nghĩa và quan hệ giữa chúng.



SPECIALIST lexicon và Lexical Tools: công cụ xử lý ngơn ngữ tự nhiên.

 Số liệu thống kê: UMLS có 133 nhãn về lĩnh vực hoặc chủ đề y sinh gồm


khoảng 6 triệu từ vựng.


Nguồn dữ liệu và tài nguyên
 UMLS có cấu trúc rõ ràng:


Nguồn dữ liệu và tài nguyên
 UMLS:


Thu thập:



Local Installation: Cài đặt UMLS trên máy tính và down các file về. Có thể lưu dữ
liệu tải về vào hệ thống cơ sở dữ liệu như MySQL, Oracle.





Web browsers: Tìm kiếm dữ liệu thông qua các ứng dụng.

Web Services APIs: Sử dụng giao diện chương trình ứng dụng để yêu cầu UMLS
trong ứng dụng.

Xử lý dữ liệu:



Từ 623.989 bài báo y sinh ở trên, lọc qua từ vựng UMLS thu được 2 triệu từ có trong
UMLS và cũng có trong dữ liệu.


Cơng cụ


Mallet được viết bởi: Andrew McCallum và cộng sự.



Trang chủ: />


Mallet là cơng cụ cho xử lí ngơn ngữ tự nhiên, phân loại tài liệu, gom cụm, mơ hình
chủ đề, trích xuất thơng tin và các ứng dụng học máy khác bằng thống kê.



Bộ cơng cụ Mallet cho mơ hình chủ đề hoạt động dựa trên sự thi hành của Latent
Dirichlet Allocation, Pachinko Allocation, and Hierarchical LDA.


Công cụ
 Input
 File dữ liệu text đầu vào với mỗi dòng là một document.

 Tham số k(số chủ đề muốn sinh ra từ tập dữ liệu đầu vào).


 Output

Ma trận từ/chủ đề


Mơ hình
Download

Tiền xử lý

PMC

UMLS

Docs

Website

Tiền xử lý

Longest
matching

Dict

K=200
Mallet

UMLS term
Ma trận

từ/chủ đề

Model
Ma trận tài
liệu/chủ đề

Loại bỏ từ có trọng số thấp

Web
UMLS


Kết quả

Bảng 1

Bảng 2


Kết quả các cụm từ


Kết quả các cụm từ
 Big question: Làm thế nào đánh giá chất lượng cụm từ vựng ?
 Phương pháp thông thường: đánh giá thủ công dựa trên tư tưởng

Một cụm được đánh giá là tốt nếu tập chung vào một vài chủ đề có liên
quan đến nhau (1)
 Key: Mỗi một từ trong UMLS sẽ thuộc một số nhãn ngữ nghĩa.
 Dựa trên (1),(2) Có thể sử dụng các nhãn ngữ nghĩa của UMLS để


đánh giá chất lượng cụm từ vựng


Kết quả
Cụm tốt
Các từ hướng đến một hoặc một số ít
các nhãn (biểu đồ chỉ có một số ít
cột nổi trội).


Kết quả
Cụm nhiễu
Các từ trong 1 cụm hướng đến
nhiều nhãn.
(không xuất hiện các cột nổi trội)


Cơng việc tiếp theo
 Hồn thành đánh giá chất lượng cụm được sinh ra bởi mơ hình chủ đề
 Hồn thành thực tập chuyên ngành (20/11/2013)
 Viết một báo cáo gửi Workshop sinh viên tại EACL 2013 (deadline: 22/11/2013)
 Nghiên cứu tiếp 2 nhóm phương pháp về sinh cụm từ vựng
 Áp dụng các cụm từ vựng cho một bài toán cụ thể (dự kiến: active re-ranking

model for biomedical search engine)


Tài liệu tham khảo
 [bl03] 03_#Latent Dirichlet Allocation_BleiNgJordan2003

 [bl11] Blei2011_Probabilistic topic models
 [ls]

/>atent-semantic-analysis-tutorial.html?start=5

 [pm] /> [um] />


×