Topic models MDA Topic model

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (79.02 KB, 1 trang )

*Topic models: là mô hình xác suất cho việc phát hiện các cấu trúc ngữ nghĩa tiềm ẩn
của một bộ tài liệu dựa trên một phân tích mạng Bayesian có thứ bậc của các văn bản
gốc. Bằng cách khám phá việc sử dụng các mẫu từ và kết nối các tài liệu có chứa các
mẫu tương tự, topic models đã nổi lên như là một kỹ thuật mới mạnh mẽ cho việc tìm
kiếm cấu trúc hữu ích trong một bộ sưu tập không có cấu trúc khác.
*LATENT DIRICHLET ALLOCATION (LDA)
Tạm dịch là Mô hình Dirichlet ẩn, dựa trên ý tưởng: mỗi tài liệu là sự trộn lẫn của
nhiều chủ đề, trong đó mỗi chủ đề là một phân bố trên một tập từ vựng. Cụ thể là, ta có
K chủ đề (topics) ứng với một tập tài liệu (collection), mỗi tài liệu (document) liên quan
đến các chủ đề này theo các tỷ lệ khác nhau. Lấy ví dụ về "Tập tài liệu khoa học của
JSTOR", trong đó trình bày một loạt các lĩnh vực nhưng mỗi document có thể kết hợp
chúng theo những cách khác nhau. Một tài liệu có thể thuộc về di truyền học (genetics)
và khoa học thần kinh (neuroscience), cái khác có thể vể di truyền học và công nghệ
(technology), cái khác nữa có thể thuộc thần kinh học và công nghệ. Thách thức ở đây
là các chủ đề này không được biết trước, mục tiêu cuả chúng ta là phải học chúng từ
các tập dữ liệu.
LDA bố trí các trực giác này thành một mô hình biến ẩn (hidden variable model)
của documents. Mô hình biến ẩn là một phân phối có cấu trúc trong đó những dữ liệu
quan sát được sẽ tương tác với các biến ẩn ngẫu nhiên. Với một mô hình biến ẩn,
người chuyên môn sẽ sắp đặt một cấu trúc ẩn vào trong các dữ liệu quan sát, và sau
đó học cách cấu trúc sử dụng sự suy luận theo xác suất.
Trong LDA, các dữ liệu quan sát được là những từ (words) của mỗi document và
các biến ẩn đại diện cho cấu trúc chủ để tiềm ẩn (latent topical structure), tức là các chủ
để của chính nó và cách mà những document này biểu diễn chúng. Với một collection,
các biến ẩn về sau được dùng để các document quan sát được xác định suy luận một
chủ đề ẩn của collection đó.
Sự tương tác giữa các tài liệu quan sát được và cấu trúc chủ đề ẩn được biểu
hiện trong quá trình tạo chủ để theo xác suất kết hợp với LDA. Các quá trình tạo ngẫu
nhiên này được giả định là đã có dữ liệu quan sát.

Gọi K là số chủ để xác định, V là kích thước của từ vựng, Vector a là K-vector

dương và η là vô hướng. Chúng ta đặt Dir (vector a) biểu diễn V-chiều Dirichlet với
vector tham số a và Dir (η ) biểu diễn K-chiều dirichlet đối xứng với tham số vô hướng
η.
v

K

Topic models MDA Topic model

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về