Tải bản đầy đủ (.pdf) (53 trang)

trích chọn sự kiện y sinh phức hợp dựa vào mô hình phân tích cây phụ thuộc trong văn bản về bệnh ung thư di truyền

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.6 MB, 53 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ



Phí Văn Thủy




TRÍCH CHỌN SỰ KIỆN Y SINH PHỨC HỢP
DỰA VÀO MÔ HÌNH PHÂN TÍCH CÂY PHỤ THUỘC
TRONG VĂN BẢN VỀ BỆNH UNG THƯ DI TRUYỀN


KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin










HÀ NỘI - 2013

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ





Phí Văn Thủy



TRÍCH CHỌN SỰ KIỆN Y SINH PHỨC HỢP
DỰA VÀO MÔ HÌNH PHÂN TÍCH CÂY PHỤ THUỘC
TRONG VĂN BẢN VỀ BỆNH UNG THƯ DI TRUYỀN


KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: TS. Phan Xuân Hiếu



Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ









VIETNAM NATIONAL UNIVERSITY, HANOI

UNIVERSITY OF ENGINEERING AND TECHNOLOGY



Phi Van Thuy



A COMPLEX EVENT EXTRACTION METHOD
BASED ON DEPENDENCY PARSING
FOR CANCER GENETICS DATASET



Major: Information Technology

Supervisor: Dr. Xuan-Hieu Phan
Co-Supervisor: MSc. Mai-Vu Tran







HA NOI - 2013





Lời cảm ơn

Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư
Tiến sĩ Hà Quang Thụy, Tiến sĩ Phan Xuân Hiếu, và Thạc sĩ Trần Mai Vũ – những
người đã tận tình chỉ bảo và hướng dẫn tôi trong quá trình thực hiện khoá luận tốt
nghiệp.
Tôi xin gửi lời cảm ơn chân thành tới Phó Giáo sư Tiến sĩ Nigel H. Collier,
thuộc Viện Thông tin quốc gia Nhật Bản (NII), người đã tận tình hỗ trợ về kiến thức
chuyên môn, giúp đỡ tôi hoàn thành khóa luận.
Tôi chân thành cảm ơn các thầy, cô và cán bộ của trường Đại Học Công Nghệ
đã tạo những điều kiện thuận lợi cho tôi học tập và nghiên cứu.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phòng thí
nghiệm KT-Lab đã giúp tôi rất nhiều trong việc thu thập và xử lý dữ liệu.
Cuối cùng, tôi muốn gửi lời cảm ơn tới gia đình và bạn bè, những người thân
yêu luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn !

Hà Nội, ngày 15 tháng 5 năm 2013
Sinh viên
Phí Văn Thủy


i

TRÍCH CHỌN SỰ KIỆN Y SINH PHỨC HỢP
DỰA VÀO MÔ HÌNH PHÂN TÍCH CÂY PHỤ THUỘC
TRONG VĂN BẢN VỀ BỆNH UNG THƯ DI TRUYỀN
Phí Văn Thủy
Khóa QH-2009-I/CQ , ngành Công nghệ thông tin
Tóm tắt Khóa luận tốt nghiệp:

Thuật ngữ trích chn s kiện y sinh hc được sử dụng đ đề cập đến bài toán trích
chọn sự mô tả về các hoạt động và quan hệ giữa một hoc nhiều thực th t tài liệu y sinh học.
Việc tự động nhận dạng bất kì đối tượng của một lớp sự kiện riêng, trích chọn các tham số
liên quan của chúng và biu diễn thông tin được trích chọn vào một dạng có cấu trúc t các
công trình khoa học giúp cộng đồng nghiên cứu y sinh học nhanh chóng thu nhận được các
kết quả nghiên cứu mới nhất trong lĩnh vực liên quan mật thiết tới việc đảm bảo sức khe con
người.
Các kết quả mới nhất cho thấy hiệu năng khi trích chọn các sự kiện phức hợp (sự kiện
có th nhận tham số là thực th hoc sự kiện khác) chỉ đạt khoảng 40-50% F1 tại BioNLP
Shared Task 2011. Khóa luận này đề xuất một mô hình học máy cho bài toán trích chn s
kiện y sinh phức hợp và áp dụng vào Cancer Genetics (CG) task – một bài toán trích chọn
thông tin trong BioNLP Shared Task (ST) 2013. Mục đích của CG task là trích chọn thông tin
tự động t các văn bản về quá trình sinh học, liên quan đến sự phát trin và tiến trin của bệnh
ung thư. Mô hình của chúng tôi gồm ba thành phần chính: (1) nhận diện trigger; (2) trích chọn
ứng viên sự kiện; (3) xếp hạng và đưa ra kết quả. Khi đánh giá trên tập dữ liệu phát trin được
cung cấp bi BioNLP-ST 2013, với khoảng 1000 câu lấy t PubMed, chúng tôi thu được kết
quả bước đầu khá khả quan: độ đo F1 khi trích chọn các sự kiện phức hợp đạt t 50% đến
70%. Mô hình mới phù hợp với miền dữ liệu về bệnh ung thư di truyền và cho hiệu năng tốt
hơn mô hình cơ s chúng tôi đưa ra.
Từ khóa: Event extraction, Dependency tree, Cancer Genetics Task.



ii

A COMPLEX EVENT EXTRACTION METHOD
BASED ON DEPENDENCY PARSING
FOR CANCER GENETICS DATASET
Phi Van Thuy
Course: QH-2009-I/CQ , major: Information technology

Abstract:
The term biomedical event extraction is used to refer to the task of extracting
descriptions of actions and relations among one or more entities from the biomedical
literature. Generally, event extraction is to identify any instance of a particular class of events
in a biomedical text, to extract the relevant arguments of the event, and to represent the
extracted information into a structured form. This helps the community of biomedical
researchers to quickly get the latest research results in the fields closely related to ensuring
human health.
The final results enabled to observe the state-of-the-art performance of the community
on the bio-event extraction task, which showed that the automatic extraction of complex
events was a lot more challenging, having achieved 40-50% in F1-score, in BioNLP Shared
Task 2011. In this thesis, we propose a machine learning model for complex event extraction
task and apply to Cancer Genetics (CG) task – the information extraction task in BioNLP-ST
2013. The CG task aims to advance the automatic extraction of information from statements
on the biological processes relating to the development and progression of cancer. Our model
consists of three modules: (1) trigger detection; (2) candidate event extraction; (3) ranking and
returning output. Our approach obtains competitive results in the extraction of complex events
from the BioNLP-ST Shared Task 2013 with a F1-score of 50-70% in development. The new
model fits the data domain of cancer genetics and perform better than the base model we
proposed.
Keywords: Event extraction, Dependency tree, Cancer Genetics Task.


iii

Lời cam đoan
Em xin cam đoan rằng đây là công trình nghiên cứu của mình, có sự giúp đỡ t
giáo viên hướng dẫn là Tiến sĩ Phan Xuân Hiếu và Thạc sĩ Trần Mai Vũ. Các nội dung
nghiên cứu và kết quả trong đề tài này là trung thực, không sao chép t bất cứ nguồn
nào có sẵn. Tất cả những tham khảo t các nghiên cứu liên quan đều được nêu nguồn

gốc một cách rõ ràng t danh mục tài liệu tham khảo trong khóa luận. Trong khóa
luận, không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không
chỉ rõ về tài liệu tham khảo.
Nếu phát hiện có bất kỳ sự gian lận nào, em xin hoàn toàn chịu trách nhiệm
trước hội đồng, cũng như kết quả khóa luận tốt nghiệp của mình.
Sinh viên

Phí Văn Thủy


















iv

Mục lục


Tóm tắt nội dung i
Lời cam đoan ii
Mục lục iv
Danh sách bảng vi
Danh sách hình vẽ vii
Bảng các ký hiệu viii
Mở đầu 1
Chương 1. Bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền
trong văn bản y sinh học 3
1.1. Giới thiệu chung 3
1.2. Các khái niệm liên quan đến bài toán 5
1.3. Phát biu bài toán 7
1.4. Khó khăn và thách thức 8
1.5. Phương pháp đánh giá 9
1.5.1. Khớp nhau hoàn toàn 10
1.5.2. Khớp biên xấp xỉ 10
Chương 2. Các hướng tiếp cận giải quyết bài toán trích chọn sự kiện trong
văn bản y sinh học 11
2.1. Trích chọn sự kiện dựa vào phân tích phụ thuộc cú pháp 11
2.2. Trích chọn sự kiện dựa vào hệ thống đường ống 12
2.3. Mô hình học máy đã đề xuất cho bài toán trích chọn sự kiện liên quan
đến bệnh ung thư di truyền 14
2.3.1. Thành phần nhận diện trigger 15
2.3.2. Thành phần trích chọn sự kiện đơn 16
2.3.3. Thành phần trích chọn sự kiện phức 17
Chương 3. Mô hình giải quyết bài toán trích chọn sự kiện y sinh phức hợp
dựa vào mô hình phân tích cây phụ thuộc 19

v


3.1. Cơ s lý thuyết 19
3.1.1. Chuyn đổi cấu trúc sự kiện sang dạng biu diễn cây phụ thuộc 19
3.1.2. Giải thuật Earley paresr 21
3.2. Mô hình đề xuất giải quyết bài toán 23
3.2.1. Thành phần nhận diện trigger 24
3.2.2. Thành phần trích chọn ứng viên sự kiện 25
3.2.3. Thành phần xếp hạng và đưa ra kết quả 26
Chương 4. Thực nghiệm và đánh giá 28
4.1. Môi trường và dữ liệu thực nghiệm 28
4.1.1. Môi trường thực nghiệm 28
4.1.2. Dữ liệu thực nghiệm 28
4.2. Giới thiệu phần mềm thực nghiệm 31
4.3. Thực nghiệm 32
4.3.1. Hướng tiếp cận thực nghiệm 32
4.3.2. Thực nghiệm nhận diện trigger 32
4.3.3. Thực nghiệm trích chọn sự kiện phức hợp 34
4.4. Nhận xét và thảo luận 36
Kết luận và định hướng 39
Tài liệu tham khảo 40
Tiếng Anh 40



vi

Danh sách bảng
Bảng 1: Các kiu thc th trong CG task 5
Bảng 2: Các kiu s kiện trong CG task 6
Bảng 3: Kt quả vi tp kim th theo các lp s kiện 12
Bảng 4: Phân loại các kiu s kiện trong CG task 17

Bảng 5: Kt quả vi trích chn các s kiện phức hợp liên quan đn bệnh ung thư di
truyền 18
Bảng 6: Các loại đặc trưng trong thành phần nhn diện trigger 26
Bảng 7: Môi trường thc nghiệm 30
Bảng 8: Thng kê chung về d liệu thc nghiệm 33
Bảng 9: Thng kê các s kiện trong tp d liệu 33
Bảng 10: Các loại đặc trưng trong nhn diện trigger 35
Bảng 11: Kt quả vi trích chn các s kiện phức hợp liên quan đn bệnh ung thư di
truyền da vào mô hình phân tích cây phụ thuộc 36
Bảng 12: Một s kiu lỗi nhn diện thiu s kiện 36
Bảng 13: Thng kê các kiu thc th/s kiện là tham s cho s kiện Regulation 37
Bảng 14: Mẫu các s kiện phức hợp trong CG task 38
Bảng 15: So sánh kt quả gia mô hình cơ sở và mô hình mi đề xuất (dạng bảng) 38





vii

Danh sách hình vẽ
Hình 1: Trang chủ BioNLP-ST 2013 4
Hình 2: Ví dụ về trích chn s kiện liên quan đn bệnh ung thư di truyền 5
Hình 3: Minh ha đầu vào và đầu ra của bài toán trích chn s kiện liên quan đn
bệnh ung thư di truyền 8
Hình 4: Cấu trúc s kiện y sinh hc 8
Hình 5: Mô hình của hưng tip cn da vào phân tích phụ thuộc cú pháp 11
Hình 6: Hệ thng EventMine 13
Hình 7: Mô hình giải quyt bài toán Trích chn s kiện liên quan đn bệnh ung thư di
truyền 14

Hình 8a: Câu gc vi các s kiện 20
Hình 8b: Sau khi chuyn đi sang s phụ thuộc s kiện 20
Hình 9: Mô hình giải quyt bài toán Trích chn s kiện y sinh phức hợp trong văn bản
về bệnh ung thư di truyền 25
Hình 10: Minh ha dạng biu diễn hai cây s kiện cho hai s kiện phức hợp 27
Hình 11: Các mô-đun chính trong phần mềm thc nghiệm 34
Hình 12: Ví dụ về một câu trong tp d liệu huấn luyện cho nhn diện trigger 35
Hình 13: So sánh kt quả gia mô hình cơ sở và mô hình mi đề xuất (dạng biều đồ)38




viii

Bảng các ký hiệu

Từ viết tắt
Thuật ngữ
BioNLP-ST
BioNLP Shared Task
CG Task
Cancer Genetics Task
SVM
Support Vector Machine

1

Mở đầu

Trích chọn sự kiện y sinh học là bài toán trích chọn sự mô tả về các hoạt động

và quan hệ giữa một hoc nhiều thực th t tài liệu y sinh học. Đây là một vấn đề khó
trong lĩnh vực xử lý ngôn ngữ tự nhiên [10] [11], nhận được nhiều sự quan tâm của
các nhà nghiên cứu, các hội nghị lớn trên thế giới như: ACL (Association for
Computational Linguistics), BioNLP-ST (BioNLP Shared Task), CoNLL (Conference
on Computational Natural Language Learning) Tại BioNLP-ST 2013, trích chọn sự
kiện liên quan đến bệnh ung thư di truyền (Cancer Genetics (CG) Task) là một trong
sáu bài toán mới nhất cần được giải quyết. Nếu một phương pháp được đề xuất cho kết
quả tốt thì nhiều bài toán khác như: xác định đồng tham chiếu
1
(Co-reference), xác
định ngữ cảnh phủ định và suy luận của sự kiện (Negative and speculation
recognition), trích chọn quan hệ giữa các thực th
2
(Entity Relations) … sẽ được cải
thiện về chất lượng một cách đáng k. Các kết quả mới nhất cho bài toán trích chọn sự
kiện, cho thấy hiệu năng với trích chọn sự kiện đơn (simple event) – chỉ nhận các thực
th là tham số (chẳng hạn gene expression, localization ), có th đạt khoảng 70% F1,
nhưng với trích chọn các sự kiện phức hợp (complex event) – có th nhận cả thực th
và sự kiện khác là tham số (chẳng hạn regulation, positive regulation ), bài toán gp
rất nhiều thách thức, hiệu năng chỉ đạt khoảng 40-50% F1 [12]. Xuất phát t lý do đó
và mong muốn nâng cao chất lượng đề tài nghiên cứu khoa học sinh viên 2012 – 2013
(“Một mô hình hc máy trích chn s kiện y sinh trong văn bản về bệnh ung thư di
truyền”), khóa luận chọn bài toán trích chọn sự kiện y sinh phức hợp trong văn bản về
bệnh ung thư di truyền, là nội dung tập trung nghiên cứu và xây dựng mô hình giải
quyết.
Trích chọn sự kiện phức hợp liên quan đến bốn kiu sự kiện trong CG Task:
Regulation, Positive regulation, Negative regulation và Planned process. Các phương
pháp tiếp cận ban đầu chủ yếu dựa trên các phương pháp tiếp cận kinh nghiệm. Cho
tới nay có rất nhiều phương pháp tiếp cận khác nhau đã được đề xuất đ giải quyết bài
toán chung trích chọn sự kiện y sinh học. Khóa luận này giới thiệu hai hướng tiếp cận

giải quyết đin hình: dựa vào phân tích phụ thuộc cú pháp và dựa vào hệ thống đường
ống. Những công trình này mang tính ứng dụng cao, đang ngày càng được cải tiến cho
hiệu quả tốt hơn.


1

2


2

Dựa trên những hướng tiếp cận này cùng với một mô hình học máy đã đề xuất
trong đề tài nghiên cứu khoa học sinh viên, chúng tôi đề xuất một mô hình phân tích
cây phụ thuộc cho việc giải quyết bài toán trích chọn sự kiện y sinh phức hợp trong
văn bản về bệnh ung thư di truyền. Kết quả thực nghiệm bước đầu cho thấy mô hình
mới phù hợp với miền dữ liệu y sinh và cho hiệu năng tốt hơn mô hình cơ s đã đề
xuất: độ đo F1 khi trích chọn các sự kiện phức hợp đạt t 50% đến 70%. Các kết quả này khá
khả quan, th hiện được ưu đim của mô hình đề xuất.
Nội dung của khóa luận bao gồm có 4 chương:
Chương 1: Giới thiệu khái quát về bài toán trích chọn sự kiện liên quan đến
bệnh ung thư di truyền cũng như các khái niệm liên quan.
Chương 2: Giới thiệu một số hướng tiếp cận giải quyết bài toán trích chọn sự
kiện y sinh học, bao gồm hướng tiếp cận dựa vào phân tích phụ thuộc cú pháp và
hướng tiếp cận dựa vào hệ thống đường ống. Đây là cơ s lý thuyết, phương pháp luận
quan trọng đ khóa luận đưa ra mô hình trích chọn các sự kiện y sinh phức hợp 
chương 3.
Chương 3: Trên cơ s những hướng tiếp cận trình bày  chương 2 và thông qua
khảo sát miền dữ liệu văn bản y sinh học về bệnh ung thư di truyền, khóa luận đã lựa
chọn phương pháp dựa vào mô hình phân tích cây phụ thuộc là cơ s của việc giải

quyết bài toán trích chọn sự kiện y sinh phức hợp. Nội dung chính của chương này
trình bày một số đc trưng của văn bản y sinh học về bệnh ung thư di truyền, bài toán
trích chọn sự kiện y sinh phức hợp và mô hình đề xuất.
Chương 4: Thực nghiệm, kết quả và đánh giá. Tiến hành thực nghiệm nhận
diện trigger và trích chọn các sự kiện phức hợp dựa trên dập dữ liệu phát trin được
cung cấp bi BioNLP-ST 2013. Trong chương này đánh giá, so sánh kết quả giữa mô
hình đề xuất và mô hình cơ s mà khóa luận dựa trên.
Phần kết luận và định hướng phát triển: Tóm lược những kết quả đạt được
của khóa luận. Đồng thời đưa ra những hạn chế, những đim cần khắc phục và đưa ra
định hướng nghiên cứu trong thời gian sắp tới.



3

Chương 1. Bài toán trích chọn sự kiện liên quan đến
bệnh ung thư di truyền trong văn bản y sinh học
1.1. Giới thiệu chung
Trong những năm gần đây, nghiên cứu về khai phá văn bản y sinh học đã có
những tiến bộ đáng k. Những khám phá mới đã tạo ra một lượng lớn dữ liệu thực
nghiệm và tính toán, cùng với đó số lượng các ấn phẩm mô tả những khám phá này
cũng tăng lên theo cấp số mũ đòi hi sự quan tâm của những nhà khoa học đ tìm ra
các công cụ khai phá văn bản phát hiện tri thức. Tuy nhiên, hầu hết các tri thức này
đều ẩn giấu trong các bài báo, sách và tạp chí khoa học đã xuất bản. Đến nay đã có
hơn 22 triệu trích dẫn các bài báo như vậy có sẵn trong hệ cơ s dữ liệu MEDLINE
3
.
Những bài toán được đưa ra nhằm đánh giá các chiến lược khai phá dữ liệu y
sinh tập trung vào hai bài toán con: nhận diện thực th và trích chọn sự kiện. Nhận
diện thực th là một trong những tác vụ quan trọng nhằm xác định những cụm t

tương ứng với tên thực th y sinh, những thực th được quan tâm đến nhiều nhất là
Protein, Gen, Tế bào, Bệnh Trước khi có th xác định được mối quan hệ giữa các
thực th chúng ta phải xác định được đâu là các thực th tham gia vào mối quan hệ đó.
Vì vậy, bài toán nhận diện thực th (BioNER) là bài toán cơ bản và đơn giản nhất
trước khi giải quyết các bài toán phức tạp hơn trong lĩnh vực này. Đến nay đã có rất
nhiều công trình nghiên cứu về BioNER được công bố, cùng với đó là hàng loạt kho
ngữ liệu và ontology được xây dựng nhằm tổ chức và lưu trữ thông tin về nhiều kiu
thực th khác nhau (Gene Ontology (gen), CHEBI (hóa chất), Cell type, CARO (cơ th
chung), PRO (protein) ).
Các bài toán trong khai phá dữ liệu miền y sinh học gần đây tập trung vào trích
chọn sự kiện – chứa quan hệ giữa các thực th trong văn bản. Mc dù những nghiên
cứu gần đây trong khai phá văn bản y sinh đã đạt được một sự tiến bộ đáng k, nhưng
hiệu suất của các hệ thống trích chọn sự kiện hiện tại vẫn còn cần được cải thiện. Ý
thức được tầm quan trọng cũng như tiềm năng của hướng nghiên cứu này, nhóm chúng
tôi tập trung giải quyết bài toán trích chọn sự kiện liên quan đến bệnh ung thư di
truyền trong văn bản y sinh học – một trong những bài toán mới nhất cần được nghiên
cứu giải quyết tại BioNLP Shared Task 2013.


3


4

Các hội thảo BioNLP Shared Task
4
(BioNLP-ST) đại diện cho một xu hướng
toàn cộng đồng trong khai phá văn bản y sinh học nhằm mục đích trích chọn thông tin
(IE) miền y sinh học. Hai sự kiện trước, BioNLP-ST 2009 và 2011 đã thu hút sự chú ý
rộng lớn, với hơn 30 đội (team) xác nhận kết quả cuối cùng. Tại BioNLP-ST 2011, kết

quả tốt nhất cho bài toán chính (GE task) cao hơn khoảng 10% so với kết quả tốt nhất
trên dữ liệu BioNLP-ST 2009 (F1 đạt 53.29%, Miwa và cộng sự, 2010b) [10] [11]
[12]. Các bài toán và dữ liệu của họ đã tr thành nền tảng cho nhiều nghiên cứu, hệ
thống trích chọn sự kiện và tập dữ liệu được công bố.
Hội thảo BioNLP-ST 2013 sắp tới dự kiến diễn ra vào ngày 8-9/8/2013 (các đội
xác nhận kết quả vào khoảng giữa tháng 4/2013) tiếp nối những đc đim và mục tiêu
chung của các bài toán trước đó. Các bài toán trong BioNLP-ST 2013 bao gồm nhiều
chủ đề “nóng” trong y sinh học liên quan mật thiết tới nhu cầu của các nhà sinh vật
học. BioNLP-ST 2013 m rộng phạm vi của những miền ứng dụng khai phá văn bản y
sinh học bằng cách giới thiệu những vấn đề mới như bệnh ung thư di truyền (cancer
genetics). Nó cũng xây dựng dựa trên những tập dữ liệu phổ biến (GENIA, LLL/BI và
BB) đề xuất nhiều bài toán thực tế hơn đã được quan tâm trước đó, gần với yêu cầu
thực tế của việc tích hợp dữ liệu y sinh.
BioNLP-ST 2013 gồm sáu bài toán trích chọn sự kiện: [GE] Genia Event
Extraction for NFkB knowledge base construction, [CG] Cancer Genetics, [PC]
Pathway Curation, [GRO] Corpus Annotation with Gene Regulation Ontology, [GRN]
Gene Regulation Network in Bacteria, [BB] Bacteria Biotopes (semantic annotation
by an ontology).

Hình 1: Trang chủ BioNLP-ST 2013


4


5

Cancer Genetics (CG) Task là một trong sáu bài toán trích chọn thông tin trong
BioNLP-ST 2013. Mục đích của bài toán nhằm tự động trích chọn thông tin t các tài
liệu về quá trình y sinh học liên quan đến sự phát trin và tiến trin của bệnh ung thư.



Hình 2: Ví dụ về trích chn s kiện liên quan đn bệnh ung thư di truyền
Số lượng tài liệu khoa học về bệnh ung thư vô cùng lớn, và sự hiu biết của
chúng ta về cơ chế phân tử của bệnh ung thư đang phát trin nhanh chóng: một truy
vấn PubMed về “cancer” trả về khoảng 2.7 triệu chỉ dẫn bài báo khoa học
5
, với khoảng
140,000 chỉ dẫn liên quan đến ung thư (cancer). Đ xây dựng và lưu trữ các tri thức
cập nhật mới nhất về bệnh ung thư di truyền, việc tự động trích chọn thông tin t các
tài liệu y sinh học là rất cần thiết.
1.2. Các khái niệm liên quan đến bài toán
Phần này trình bày số khái niệm cơ bản liên quan đến bài toán trích chọn sự kiện
liên quan đến bệnh ung thư di truyền trong văn bản y sinh học:
 Thực thể: các thực th (entity) trong miền y sinh học như protein, tế bào, mô
Trong CG task, có 18 kiu thực th được định nghĩa với tham chiếu đến những
ontology và cơ s dữ liệu (CSDL) miền chuẩn, đc biệt là Gene Ontology
(GO), Cell Ontology (CL) và Common Anatomy Reference Ontology (CARO).
Bảng 1: Các kiu thc th trong CG task
STT
Kiểu thực thể
STT
Kiểu thực thể
1
Organism
10
Organism subdivision
2
Anatomical system
11

Organ
3
Multi-tissue structure
12
Tissue
4
Developing anatomical structure
13
Cell
5
Cellular component
14
Organism substance
6
Immaterial anatomical entity
15
Gene or gene product
7
Simple chemical
16
Protein domain or region
8
DNA domain or region
17
Pathological formation
9
Cancer
18
Amino acid



5


6

 Sự kiện: sự kiện (event) y sinh học được mô tả là một thay đổi về trạng thái của
một hoc nhiều phân tử sinh học
6
. Nó được định nghĩa như một quan hệ giữa
một hoc nhiều thực th thực hiện các vai trò khác nhau. Trong CG task, có 40
kiu sự kiện được định nghĩa với tham chiếu đến Gene Ontology (GO),
Biological process subontology.
Bảng 2: Các kiu s kiện trong CG task
STT
Kiểu sự kiện
STT
Kiểu sự kiện
1
Development
21
Phosphorylation
2
Blood vessel development
22
Dephosphorylation
3
Growth
23
DNA methylation

4
Death
24
DNA demethylation
5
Cell death
25
Pathway
6
Breakdown
26
Localization
7
Cell proliferation
27
Binding
8
Cell division
28
Dissociation
9
Remodeling
29
Regulation
10
Reproduction
30
Positive regulation
11
Mutation

31
Negative regulation
12
Carcinogenesis
32
Planned process
13
Metastasis
33
Acetylation
14
Metabolism
34
Glycolysis
15
Synthesis
35
Glycosylation
16
Catabolism
36
Cell transformation
17
Gene expression
37
Cell differentiation
18
Transcription
38
Ubiquitination

19
Translation
39
Amino acid catabolism
20
Protein processing
40
Infection
Một sự kiện có th là sự kiện đơn hoc sự kiện lồng nhau (hay sự kiện
phức) [16]. Sự kiện đơn chỉ chứa các tham số là thực th, trong khi sự kiện
phức hợp có tham số là thực th hoc sự kiện khác. Một sự kiện cũng có th
chứa nhiều tham số giống nhau (chẳng hạn, một sự kiện có hai tham số với vai
trò là Theme được kí hiệu lần lượt là Theme1, Theme2).
Bốn kiu sự kiện phức hợp: Regulation, Positive regulation, Negative
regulation và Planned Process là mục tiêu chính cho bài toán trích chọn sự
kiện y sinh học được giải quyết trong khóa luận này.


6


7

 Kiểu thực thể/sự kiện: thường được gán nhãn t một ontology, phân loại kiu
của thông tin được biu diễn bi thực th hoc sự kiện (như trong bảng 1 và
bảng 2).
 Trigger: t hoc cụm t trong câu, chỉ ra sự xuất hiện của sự kiện và mang kiu
của sự kiện (chứa trigger đó).
 Tham số (của sự kiện): các thực th hoc các sự kiện khác góp phần mô tả sự
kiện, cũng là một phần của sự biu diễn sự kiện, và thường được phân loại theo

vai trò ngữ nghĩa.
 Các vai tr tham số: trong CG task, các vai trò của tham số được định nghĩa:
o Theme: thực th/sự kiện bị tác động bi sự kiện hiện tại
o Cause: thực th/sự kiện gây ra sự kiện hiện tại
o AtLoc, FromLoc, ToLoc: vị trí, nguồn hoc đích xảy ra sự kiện
o Site, CSite: miền/vùng tương ứng với Theme/Cause
o Instrument: thực th được sử dụng đ thực hiện sự kiện Planned process
o Participant: kiu vai trò chung xác định một entity tham gia vào quá
trình mức khái quát (chỉ áp dụng cho sự kiện Pathway và Infection)
1.3. Phát biểu bài toán
Bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền sử dụng dữ
liệu được cung cấp bi BioNLP-ST 2013 cho quá trình huấn luyện và kim thử. CG
task là một bài toán trích chọn sự kiện nối tiếp dạng biu diễn và các giả thiết t
BioNLP-ST 2009 và BioNLP-ST 2011. Dạng biu diễn liên quan đến hai loại gán
nhãn chính: nhãn thực th và nhãn sự kiện. Các đội tham gia CG task sẽ được cung
cấp nhãn chuẩn cho các thực th, k cả dữ liệu kim thử. Vì vậy bài toán tập trung vào
nhiệm vụ chính trích chọn sự kiện.
Đầu vào:
 Tập văn bản về bệnh ung thư di truyền.
 Các thực th y sinh học được gán nhãn chuẩn bằng tay, liên kết tới văn bản
thông qua vị trí các kí tự (character offset).
Đầu ra:
 Các sự kiện y sinh học được trích chọn và biu diễn theo cấu trúc được định
nghĩa trước.

8


Hình 3: Minh ha đầu vào và đầu ra của bài toán trích chn s kiện liên quan đn
bệnh ung thư di truyền

Mục đích của bài toán: nhằm nhận dạng bất kì đối tượng của một lớp sự kiện
riêng trong văn bản về bệnh ung thư di truyền, trích chọn các tham số liên quan của sự
kiện và biu diễn thông tin được trích chọn vào một dạng có cấu trúc [1]. Sự kiện được
trích chọn bao gồm: một trigger, một kiu sự kiện và một (hoc nhiều) tham số.

Hình 4: Cấu trúc s kiện y sinh hc
Với đầu vào là đoạn văn bản “ binding of SNAP23, syntaxin and VAMP-2 ”
và các thực th (in đậm) được cung cấp sẵn, cấu trúc của sự kiện được trích chọn là:
 Trigger: binding
 Kiu: BINDING
 Các tham số: Theme1 (PROTEIN), Theme2 (PROTEIN), Theme3 (PROTEIN)
1.4. Khó khăn và thách thức
Bài toán trích chọn sự kiện liên quan đến bệnh ung thư di truyền là một bài toán
khó với nhiều thách thức được đt ra như:
Sự kiện
Trigger
Kiu sự kiện
Tham số

9

 Đây là bài toán mới và có rất ít công trình nghiên cứu về trích chọn sự kiện
miền ung thư di truyền.
 Không có bộ t đin đầy đủ cho các loại tên thực th/trigger, vấn đề tên viết tắt,
t đồng nghĩa, tên lồng nhau, các tên biến th [2].
 Số kiu thực th (18 kiu) và sự kiện (40 kiu) lớn.
 Sự nhập nhằng của trigger: một trigger có th thuộc nhiều kiu sự kiện khác
nhau, tùy vào ngữ cảnh [3].
 Một sự kiện có th là sự kiện đơn hoc sự kiện lồng nhau. Hiện tượng các sự
kiện lồng nhau thường xuyên xuất hiện trong văn bản y sinh học [4] [5]. Một sự

kiện cũng có th chứa nhiều vai trò tham số giống nhau.
 Các vai trò tham số của mỗi kiu sự kiện khác nhau (Theme, Cause, Site,
Csite, ), một số vai trò tham số mới được định nghĩa trong CG task
(Instrument, Participant).
 Một sự kiện có th có nhiều tham số, và thứ tự của các tham số này hầu hết
không tuân theo một nguyên tắc cố định.
1.5. Phương pháp đánh giá
Theo BioNLP-ST 2009, sự đánh giá dựa vào sự khớp nhau của các sự kiện
được định nghĩa bên dưới
7
. Kết quả đánh giá được báo cáo bằng cách sử dụng các độ
đo chuẩn: độ chính xác, độ hồi tưng và độ đo F1.
Một số khía cạnh cho sự khớp nhau của các sự kiện bao gồm kiu sự kiện,
nhận dạng những t biu diễn sự kiện (trigger), các tham số của sự kiện và tính chính
xác của các thực th và sự kiện chúng tham chiếu tới.
Một số khía cạnh cho sự khớp nhau của các sự kiện bao gồm kiu sự kiện,
nhận dạng những t biu diễn sự kiện (trigger), các thành phần và tham số của sự kiện
và tính chính xác của các thực th và sự kiện chúng tham chiếu tới. Một số tiêu chí
chính xác khác nhau được áp dụng:
 strict equality (khớp nhau hoàn toàn): một sự kiện là chính xác phải khớp
với sự kiện đã được gán nhãn theo tất cả khía cạnh được đề cập  trên.
 approximate boundary matching (khớp biên xp x): cụm tên thực th và
trigger cho phép khác so với cụm tên chính xác.


7


10


Định nghĩa chi tiết được đưa ra dưới đây. Chú ý rằng tất cả tiêu chí yêu cầu
kiu của sự kiện chính xác và tất cả thành phần và tham số là chính xác. Kết hợp các
tiêu chí được xt dưới đây. Hai tiêu chí phổ biến sau được áp dụng.
1.5.1. Khớp nhau hoàn toàn
Tiêu chí khớp nhau hoàn toàn yêu cầu một sự kiện được xác nhận khớp với một
sự kiện đã được gán nhãn chuẩn:
 Kiu sự kiện như nhau
 Trigger như nhau
 Với mỗi tham số sự kiện, có một tham số khớp trong đó các thực th/sự kiện
được tham chiếu khớp:
o Các kiu như nhau (cả thực th và sự kiện)
o Cụm tên thực th/trigger như nhau
o Các tham số của sự kiện như nhau
Hai cụm tên thực th/trigger (begin
1
, end
1
) và (begin
2
, end
2
) là khớp nhau nếu
begin
1
= begin
2
và end
1
= end
2

.
1.5.2. Khớp biên xp x
Khác với tiêu chí khớp nhau hoàn toàn ở phần in đậm:
 Kiu sự kiện như nhau
 Trigger được dự đoán tương đương với kết quả gán nhn chun
 Với mỗi tham số sự kiện, có một tham số khớp trong đó các thực th/sự kiện
được tham chiếu khớp:
o Các kiu như nhau (cả thực th và sự kiện)
o Cụm tên thực thể/trigger tương đương với kết quả gán nhn chun
o Các tham số của sự kiện như nhau
Với khớp xấp xỉ, sự tương đương được định nghĩa: một cụm dự đoán là tương
đương với cụm gán nhãn chuẩn nếu nó nằm hoàn toàn trong phần m rộng của cụm
gán nhãn chuẩn bi một t  cả hai phía trái và phải.
Ví dụ, cụm dự đoán (gạch chân) A plays role in [ ] là tương đương với (giả
định) cụm gán nhãn chuẩn A plays role in [ ] vì nó nằm trong cụm m rộng A plays
role in [ ].

11

Chương 2. Các hướng tiếp cận giải quyết bài toán
trích chọn sự kiện trong văn bản y sinh học
Phần này trình bày hai hướng tiếp cận được được sử dụng khá phổ biến trong
các hệ thống trích chọn sự kiện y sinh học gần đây. Chúng tôi cũng phân tích một số
thuận lợi và khó khăn đối với hai hướng tiếp cận này. Cuối cùng chúng tôi giới thiệu
một mô hình học máy đã được đề xuất đ giải quyết cho bài toán trích chọn sự kiện
liên quan đến bệnh ung thư di truyền.
2.1. Trích chọn sự kiện dựa vào phân tích phụ thuộc c
pháp
Trong công trình của David McClosky và cộng sự [5], họ đề xuất một hướng tiếp
cận mới cho bài toán trích chọn sự kiện. Họ tạo ra cây các chứa các quan hệ và tham

số của chúng, và sử dụng trực tiếp chúng đ biu diễn trong một bộ phân tích phụ
thuộc cú pháp.
Hình 5 biu diễn hướng tiếp cận. Họ chuyn đổi dạng biu diễn sự kiện gốc
sang cây phụ thuộc chứa cả trigger và thực th, sau đó huấn luyện bộ phân tích cú
pháp nhằm nhận dạng những cấu trúc này. Những cây tạo nên sử dụng trigger được dự
đoán bi một bộ phân lớp riêng. Trong mô hình này, các thực th được cho sẵn. Các
phiên bản của bộ phân tích phụ thuộc cú pháp MSTParser
8
được thiết lập với nhiều
decoder khác nhau. Đầu ra t bộ xếp hạng phân tích cú pháp được chuyn đổi ngược
về dạng biu diễn sự kiện gốc và đi qua một thành phần tái xếp hạng [7], điều chỉnh đ
tối ưu hóa độ đo đánh giá bài toán.

Hình 5: Mô hình của hưng tip cn da vào phân tích phụ thuộc cú pháp


8


12

Thực nghiệm của họ tiến hành trên kho ngữ liệu BioNLP-ST 2009 (Kim và
cộng sự, 2009) bao gồm 800 bản tóm tắt y sinh học (7449 câu, 8597 sự kiện) trong tập
huấn luyện và 150 bản tóm tắt (1450 câu, 1809 sự kiện) trong tập phát trin. Tập kim
thử chứa 260 bản tóm tắt, 2447 câu và 3182 sự kiện. Kết quả được th hiện trong bảng
3 với độ đo xấp xỉ đã được mô tả trong phần II.4)
Bảng 3: Kt quả vi tp kim th theo các lp s kiện

Hướng tiếp cận dựa vào phân tích phụ thuộc cú pháp xt sự phụ thuộc giữa các
trigger và thực th: trigger và thực th được xử lý tại cùng một thời đim. Một số

trigger có th bị loại b trong quá trình xử lý khi đi qua bộ tái xếp hạng. Hướng tiếp
cận này có tiềm năng cho kết quả khá tốt, tuy nhiên việc cài đt theo nó tương đối
phức tạp.
2.2. Trích chọn sự kiện dựa vào hệ thống đường ống
EventMine
9
[14] là một hệ thống đường ống dựa vào học máy, trích chọn sự kiện
t những tài liệu đã được gán nhãn tên thực th (chẳng hạn gen, protein…). Đưa vào
dữ liệu thích hợp, nó có th được huấn luyện đ trích chọn nhiều kiu và cấu trúc sự
kiện khác nhau. Hệ thống gồm 4 mô-đun phát hiện chính, hoạt động dựa trên đầu ra
của bộ phân tích cú pháp, được minh họa trong hình 6.
Các mô-đun hoạt động như sau:
 Trigger/Entity Detection: Mô-đun này xác định những t và cụm t nào trong
câu có khả năng tham gia cấu thành sự kiện, và gán kiu cho chúng. Những t
và cụm t có th là thực th hoc trigger. Trong câu ví dụ  hình 5, các t


9


13

phospholylation, inhibits và binding được xác định có khả năng là trigger cho
các sự kiện Phosphorylation, Negative regulation và Binding.
 Argument Detection: Mô-đun này tìm ra tng cp quan hệ giữa trigger và
tham số, và gán kiu ngữ nghĩa thích hợp cho quan hệ. Trong câu ví dụ  hình
5, sáu quan hệ như vậy được tìm ra.
 Multi-argument Event Detection: Mô-đun này kết hợp các cp quan hệ độc
lập thành các cấu trúc sự kiện hoàn chỉnh.
 Modification Detection: Mô-đun này gán thông tin modification (chẳng hạn

negation hoc speculation) cho mỗi sự kiện. Trong hình 5, sự xuất hiện của t
hypothesized (giả thiết) xác định sự kiện Negative regulation được suy đoán
(speculation).

Hình 6: Hệ thng EventMine
Mô hình theo hướng tiếp cận dựa vào hệ thống đường ống xt quá trình nhận
diện trigger và tham số là độc lập. Bài toán trích chọn sự kiện được phân rã thành các
bài toán con: nhận diện trigger được thực hiện trước khi nhận diện sự kiện và trigger
chỉ phụ thuộc vào đc trưng ngữ cảnh. Các trigger đã nhận diện được giữ nguyên trong
suốt quá trình xử lý. Việc cài đt theo mô hình này đơn giản hơn so với cài đt theo
mô hình phân tích phụ thuộc ngữ pháp.

×