NHẬN DẠNG THỰC THỂ TRONG SINH HỌC BẰNG HMM (Hidden Markov Model )

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (823.6 KB, 17 trang )


NHẬN DẠNG THỰC THỂ TRONG
SINH HỌC BẰNG HMM
(Hidden Markov Model )
Giảng viên: TS. Nguyễn Trí Thành
Nhóm 5

Nội dung chính
I. Giới thiệu bài toán nhận dạng thực thể
trong sinh học
II. Cơ sở lý thuyết về HMM
III. Phương pháp giải quyết bài toán
IV. Thực nghiệm
V. Kết luận

Trích xuất thông tin là gì?
Trích chọn thông tin là một lĩnh vực quan trọng trong khai
phá dữ liệu văn bản.
Trích xuất thông tin là thực hiện việc trích rút các thông
tin có cấu trúc từ các văn bản không có cấu trúc
Tức là rút ra những thông tin đã được định nghĩa trước về
các thực thể và mối quan hệ giữa các thực thể từ một văn
bản dưới dạng ngôn ngữ tự nhiên và điền những thông tin
này vào một văn bản ghi dữ liệu có cấu trúc hoặc một
dạng mẫu được định nghĩa trước đó


Giới thiệu bài toàn nhận dạng thực
thể sinh học trong văn bản
Bài toán nhận dạng thực thể sinh học trong văn bản
là bài toán phân loại các từ, ngữ liên quan đến các

thuật ngữ trong sinh học và tên gọi
VD: Các loại Gen, Protein,DNA, Cell
Mục đích: Nhận dạng, thống kê các thực thể sinh học
từ đó xây dựng quan hệ quan hệ giữa các thực thể



Các thuật ngữ trong y sinh học rất nhiều, rất phức tạp và không có
quy luật nhận biết cụ thể

Các thuật ngữ tồn tại nhiều ngoại lệ

Từ điển về y sinh học chưa có chuẩn

Các thực thể về y sinh phần lớn không phải là danh từ riêng, không
được viết hoa

Tên thực thể Y sinh thường bao gồm nhiều từ ví dụ: CD28 surface
receptor và tên thực thể ngắn có thể kết hợp để tạo ra tên thực thể
dài hơn. Vì vậy, khó xác định được biên của tên thực thể.
Các khó khăn của bài toán

Cơ sở lý thuyết về HMM
(Hidden Markov Model)
Mô hình Markov ẩn được giới thiệu và nghiên
cứu vào cuối những năm 1960 và đầu những năm
1970 ,cho đến nay nó được ứng dụng nhiều trong
nhận dạng tiếng nói, tin sinh học và xử lý ngôn
ngữ tự nhiên
HMM là mô hình máy trạng thái hữu hạn

(probabilistic finite state machine) với các tham
số biểu diễn xác suất chuyển trạng thái và xác
suất sinh dữ liệu quan sát tại mỗi trạng thái.

Đồ thị có hướng mô tả mô hình HMM
Si là trạng thái tại thời điểm t=i trong chuỗi trạng thái S,
Oi là dữ liệu quan sát được tại thời điểm t=i trong chuỗi O.
Xác suất P(S,O) như sau:
Quá trình tìm ra chuỗi trạng thái tối ưu mô tả tốt nhất chuỗi dữ liệu
quan sát cho trước có thể được thực hiện bởi một kĩ thuật lập trình quy
hoạch động sử dụng thuật toán Viterbi.

Mô hình giải quyết bài
toán

Thực nghiệm

Môi trường:
Chip: Intel(R) Core(TM) 2 Duo CPU 1.8GHz
Ram: 1.00 GB
Hệ điều hành: Microsoft Windows 7, XP2, Linux
Trình duyệt Mozila Firefox 5.0

Công cụ
Geniatagger-1.0
Đây là công cụ đánh phân biệt và đánh dấu các
thực thể tên y sinh học trong văn bản như Gen,
Protien, DNA, RNA
Công cụ do Tsujii laboratory, University of Tokyo
phát triển.


GENIA Tagger Demo
Site dùng demo chức năng cho Geniatagger-1.0
/>
File thử nghiệm
Analysis of myeloid-associated genes in human
hematopoietic progenitor cells.
Bello-Fernandez et al. Exp Hematol. 1997 Oct;25(11)
Các
thẻ
viết
tắt

Kết quả gán các thẻ cho các từ loại

Kết quả nhận dạng các thực thể


Báo cáo đã hệ thống hóa một số vấn đề lý thuyết về trích chọn thông tin,
bài toán nhận biết loại thực thể sinh học đồng thời trình bày, phân tích, đánh
giá một số hướng tiếp cận bài toán nhận biết loại thực thể. Một số vấn đề và
giải pháp đối với bài toán nhận biết loại thực thể sinh học dựa trên mô hinh
HMM đã được đề xuất, thực nghiệm và thu được một số kết quả rất khả
quan.

Trên cơ sở bài toán trích chọn thực thể sinh học, chúng tôi dự định tìm
hiểu và xây dựng một hệ thống trích chọn quan hệ giữa các thực thể sinh học
(protein/gen) từ đó tìm ra mối quan hệ như nơi sinh của một người Và
chúng tôi hi vọng sẽ mở rộng framework đối với nhiều loại thực thể khác
như dịa danh, tên người, tên bệnh, thuốc và áp dụng cho nhiều dữ liệu hơn

nữa.
Kết luận


[1]. Hồ Tú Bảo. Giới thiệu về tin sinh học. Viện Công nghệ Thông tin, TTKHTN&CNQG, Viện Khoa học và Công nghệ Tiến tiến Nhật Bản (JAIST).

[2]. Nguyễn Cẩm Tú. Nhận biết các loại thực thể trong văn bản tiếng Việt nhằm hỗ trợ web ngữ nghĩa và tìm kiếm hướng thực thể, Khóa luận tốt nghiệp
đại học, Trường Đại học Công Nghệ - ĐH Quốc Gia Hà Nội, 2005.

[3]. Trần Thị Ngân, Lê Hoàng Quỳnh, Nguyễn Thanh Sơn. Nhận biết một số thực thể đặc trưng cho dữ liệu y tế tiếng Việt tiếp cận học bán giám sát, Báo
cáo NCKH năm 2009, Trường Đại học Công Nghệ - ĐH Quốc Gia Hà Nội.

[4]. Đào Minh Tùng, Chu Thị Thủy, Hà Thị Oanh, Trần Phi Dũng. Mô hình trích chọn quan hệ tương tác Protein-Gen dựa trên kỹ thuật Boostrapping
và học máy SVM. Báo cáo NCKH năm 2011, Trường ĐH Công Nghệ - ĐH Quốc Gia Hà Nội.

[5]. Hanna Wallach. Efficient Training of Conditional Random Fields. Doctor of Philosophy, University Of Edinburgh, 2002

[6]. Marie-Francine Moens. Information Extraction: Algorithms and Prospects in a Retrieval Context, Katholieke Universiteit Leuven, Belgium.

[7]. Nigel Collier, Chikashi Nobata and Jun-ichi Tsujii. Extracting the Names of Genes and Gene Products with a Hidden markov Model. Department of
Infomation Science Graduate School of Science University of Tokyo, Hongo-7-3-1 Bunkyo-ku, Tokyo 113, Japan.

[8]. Huang M. và cộng sự. Discovering patterns to extract protein-protein interactions from full biomedical texts. Bioinformatics, 360-3612

[9]. Kim S. và cộng sự. PIE: an online prediction system for protein-protein interactions from text. Nucleic Acids Research, Special Issue on Web Services.

[10]. Miwa M. và cộng sự. Combining multiple layers of syntactic information for protein-protein interaction extraction. In Proceeding of Third International
Symposium on Semantic Mining in Biomedicine (SMBM), 101-108, September 2008.

[11]. Van Landeghem S. và cộng sự. Extracting protein-protein interactions from text using rich feature vectors and feature selection. In Proceeding of Third

International Symposium on Semantic Mining in Biomedicine (SMBM), TUCS, Turku, Finland, pp.77-84.

[12]. GuoDong Zhou, Jian Su. Named Entity Recognition using an HMM-based Chunk Tagger.

[13].Website: />Một số tài liệu tham
khảo

Thank you !

NHẬN DẠNG THỰC THỂ TRONG SINH HỌC BẰNG HMM (Hidden Markov Model )

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về