Tải bản đầy đủ (.docx) (34 trang)

Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (398.36 KB, 34 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN MAI VŨ

NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN VÀ
THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG
Chuyên ngành: Hệ thống thơng tin
Mã số: 62.48.05.01

TĨM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2018


Cơng trình được hồn thành tại: Trường Đại học Cơng nghệ,
Đại học Quốc gia Hà Nội

Người hướng dẫn khoa học: PGS.TS. Hà Quang Thụy
PGS.TS. Nguyễn Lê Minh
Phản biện: PGS.TS Lương Chi Mai

Phản biện: PGS.TS. Lê Thanh Hương

Phản biện: PGS.TS Nguyễn Đình Hóa

Luận án sẽ được bảo vệ trước Hội đồng cấp Đại học Quốc
gia chấm luận án tiến sĩ họp tại
vào hồi 9 giờ ngày 07 tháng 02 năm 2018

Có thể tìm hiểu luận án tại:


Thư viện Quốc gia Việt Nam
Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội


DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ CĨ LIÊN
QUAN ĐẾN LUẬN ÁN
1. [CTLA1] Nigel Collier, Ferdinand Paster, Mai-Vu Tran
(2014). The impact of near domain transfer on biomedical
named entity recognitions LOUHI 2014, EACL 2014,
Sweden, 2014.
2. [CTLA2] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le,
Quang-Thuy

Ha, Anika

Oellrich,

Dietrich

Rebholz-

Schuhmann (2013). Learning to Recognize Phenotype
Candidates in the Auto-Immune Literature Using SVM ReRanking. PLoS ONE 8(10): e72965, October 2013.
3. [CTLA3] Mai-Vu Tran, Duc-Trong Le (2013). vTools:
Chunker and Part-of-Speech tools, RIVF-VLSP 2013
Workshop.
4. [CTLA4] Nigel Collier, Mai-Vu Tran, Hoang-Quynh Le,
Anika Oellrich, Ai Kawazoe, Martin Hall-May, Dietrich
Rebholz-Schuhmann (2012). A Hybrid Approach to Finding
Phenotype Candidates in Genetic Texts, COLING 2012: 647662.

5. [CTLA5] Mai-Vu Tran, Duc-Trong Le, Xuan-Tu Tran and
Tien-Tung Nguyen (2012). A Model of Vietnamese Person
Named Entity Question Answering System, PACLIC 2012,
Bali, Indonesia, October 2012.
6. [CTLA6] Hoang-Quynh Le, Mai-Vu Tran, Nhat-Nam Bui,
Nguyen-Cuong Phan, Quang-Thuy Ha (2011). An Integrated
Approach Using Conditional Random Fields for Named

1


Entity Recognition and Person Property Extraction in
Vietnamese Text. IALP 2011:115-118.
7. [CTLA7] Hoang-Quynh Le, Mai-Vu Tran, Thanh Hai Dang,
Nigel Collier (2015). The UET-CAM System in the
BioCreAtIvE V CDR Task. In Proceedings of the fifth
BioCreative challenge evaluation workshop, Sevilla, Spain,
2015.

2


MỞ ĐẦU
Lý do chọn đề tài
Nhận dạng thực thể có tên (Named entity recognition: NER;
còn được gọi là “nhận dạng thực thể định danh”) là một bài tốn
chính thuộc lĩnh vực xử lý ngôn ngữ tự nhiên (NLP). Đây là một bài
toán tiền đề cho các hệ thống về hiểu ngơn ngữ hay khai phá văn bản
như trích xuất sự kiện, hỏi đáp tự động hay tìm kiếm ngữ nghĩa.
Chính vì vậy, cùng với sự phát triển của dữ liệu văn bản trên Internet,

bài toán này cũng nhận được sự quan tâm của cộng đồng nghiên cứu
trong khoảng 20 năm trở lại đây.
Mặc dù đã có khá nhiều cơng trình nghiên cứu cho một số
loại thực thể thông thường trong văn bản tiếng Anh chuẩn tuy nhiên
những nghiên cứu liên quan đến các thực thể trong ngôn ngữ khác
như tiếng Việt hay các miền dữ liệu đặc biệt như miền dữ liệu y sinh
vẫn còn rất nhiều hạn chế và thách thức. Có thể kể đến là sự khuyết
thiếu các tập dữ liệu gán nhãn chuẩn, tài nguyên ngôn ngữ về tri thức
miền hay các định nghĩa hình thức về kiểu thực thể cần nhận dạng…
Luận án này sẽ tiếp nối những nghiên cứu trước đó nhằm giải quyết
một phần những hạn chế được nêu ra ở trên. Mục tiêu cụ thể và phạm
vi nghiên cứu của luận án sẽ được mô tả kỹ hơn ở phần tiếp theo.
Mục tiêu cụ thể và phạm vi nghiên cứu của luận án
Luận án sẽ tập trung vào bài toán nhận dạng thực thể với hai
loại dữ liệu thuộc hai ngôn ngữ khác nhau là các thực thể thuộc dữ
liệu văn bản tiếng Việt và các thực thể thuộc dữ liệu văn bản y sinh
học.
1


Mục tiêu cụ thể của luận án là phát triển vấn đề, đề xuất giải
pháp và xây dựng thực nghiệm cho việc nhận dạng các loại thực thể
thuộc hai miền dữ liệu trên.
Cụ thể, luận án giải đáp các vấn đề nghiên cứu sau đây:


Khảo sát và đưa ra các phương án xử lý các đặc điểm riêng
biệt của với dữ liệu tiếng Việt và dữ liệu y sinh học trong văn
bản tiếng Anh.




Đề xuất phương án tiếp cận mới tận dụng được các nghiên
cứu trước đó và tiếp cận giải quyết được những đặc điểm
riêng biệt của miền dữ liệu đang xem xét.



Xây dựng bộ dữ liệu phục vụ cho thực nghiệm.



Xây dựng các thực nghiệm để đánh giá các mơ hình giải
quyết bài tốn đã đề xuất.



Xây dựng hệ thống chạy thực tế đối với các mơ hình đạt kết
quả khả quan.



Định hướng phát triển nâng cấp nghiên cứu.
Về nghiên cứu lý thuyết, luận án tập trung đề xuất một số

giải pháp nhận dạng thực thể cho dữ liệu văn bản tiếng Việt và dữ
liệu văn bản y sinh tiếng Anh. Các giải pháp tập trung vào vấn đề kết
hợp các mơ hình học máy cũng như các tri thức nguồn liên quan đến
miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài toán. Kết
quả của các mơ hình đạt hiệu quả khả quan có thể áp dụng được

trong các hệ thống chạy thực tế.
Các kết quả nghiên cứu lý thuyết trên đây được cơng bố
trong một số ấn phẩm khoa học có uy tín là minh chứng cho ý nghĩa
khoa học của luận án.
2


Về triển khai ứng dụng, luận án đã đề xuất thực mơ hình hỏi
đáp tự động tiếng Việt dựa trên nhận dạng thực thể [CTLA6]. Xây
dựng hệ thống tra cứu và tham khảo các mối quan hệ giữa thực thể
biểu

hiện



bệnh

PhenoMiner

(tại

địa

chỉ

/>Kết quả triển khai ứng dụng thông qua các hệ thống thử
nghiệm và tra cứu nói trên cho thấy luận án có ý nghĩa thực tiễn.
Cấu trúc của luận án



Chương 1 của luận án hệ thống lại các lý thuyết cơ bản
về nhận dạng thực thể cũng như khảo sát lịch sử nghiên
cứu và điểm lại một số nghiên cứu tiêu biểu.



Chương 2 trình bày về bài tốn nhận dạng thực thể và
ứng dụng nhận dạng thực thể vào bài toán hỏi đáp tự
động trong văn bản tiếng Việt.



Chương 3 trình bày một mơ hình nhận dạng thực thể biểu
hiện và các thực thể liên quan cũng như vấn đề thích
nghi miền giữa các tập dữ liệu y sinh học



Chương 4, luận án giới thiệu một kỹ thuật nâng cấp hiệu
quả của mơ hình đề xuất trong chương 3 bằng kỹ thuật
lai ghép các mơ hình (ensemble models) dựa trên tri thức
và dựa trên học máy để nhận dạng thực thể trong văn bản
y sinh tiếng Anh.



Phần kết luận tổng hợp các kết quả đạt được cũng như
nêu lên một số hạn chế của luận án, và đồng thời trình
bày một số định hướng nghiên cứu trong tương lai.


3


CHƯƠNG 1 – KHÁI QUÁT VỀ NHẬN DẠNG
THỰC THỂ
1.1. Một số khái niệm cơ bản
1.1.1. Định nghĩa bài toán nhận dạng thực thể
Luận án sử dụng định nghĩa của bài toán nhận dạng thực thể
được phát biểu bởi Aggarwal và Zhai [AZ12]:
“Bài toán nhận dạng thực thể (Named entity recognition,
NER) là bài toán xác định thực thể định danh từ các văn bản dưới
dạng tự do và phân lớp chúng vào một tập các kiểu được định nghĩa
trước như người, tổ chức và địa điểm.”
1.1.2. Thách thức
Tuy là một bài toán cơ bản, nhưng nhận dạng thực thể cũng
gặp phải khơng ít thách thức cần giải quyết do sự phong phú và các
nhập nhằng của ngơn ngữ. Ví dụ, "JFK" có thể chỉ tới người "John F.
Kennedy”, địa điểm "sân bay quốc tế JFK", hoặc bất kỳ loại nào khác
có cùng dạng viết tắt đó. Tương tự “Sơng Lam Nghệ An” có thể là
địa điểm chỉ tên một con sơng tại tỉnh Nghệ An hay tên một đội bóng
“Sơng Lam Nghệ An”. Để xác định loại cho thực thể "JFK" hay
“Sông Lam Nghệ An” xuất hiện trong một tài liệu cụ thể, cần phải
xem xét đến ngữ cảnh chứa nó.
Bên cạnh yếu tố về ngữ nghĩa, các yếu tố liên quan đến đặc
trưng ngơn ngữ cũng góp phần làm bài tốn nhận dạng thực thể trở
nên khó khăn. Một số ngơn ngữ như tiếng Việt ngồi việc thiếu các
tài ngun xử lý ngơn ngữ tự nhiên cịn phải thực hiện một số bài
4



toán con như tách từ trước khi nhận dạng thực thể, tỷ lệ lỗi của các
bài toán con sẽ ảnh hưởng đến kết quả của bài toán nhận dạng thực
thể. Ngồi ra, từng loại thực thể cũng có những thách thức riêng khác
nhau ảnh hưởng đến hiệu quả của mô hình nhận dạng.
1.1.3. Độ đo đánh giá
Các số đo đánh giá điển hình được sử dụng cho nhận dạng
thực thể là độ chính xác (precision - P), độ hồi tưởng (recall - R) và
độ đo F1 (F1-measure). Độ chính xác được tính bằng phần trăm các
kết quả đúng trong tổng số kết quả nhãn dương của hệ thống.
1.1.4. Ứng dụng của nhận dạng thực thể
Có thể kể đến nhận dạng thực thể xuất hiện trong một số các
ứng dụng sau:


Trích xuất quan hệ là bài toán nhận diện các mối quan hệ ngữ
nghĩa giữa hai thực thể hay giữa một thực thể và một khái
niệm [GLR06]. Thành phần nhận diện thực thể là pha đầu
tiên trước khi giải quyết vấn đề xác định quan hệ.



Trích xuất sự kiện là bài tốn phức tạp hơn trích xuất quan hệ
khi sự kiện là một tổ hợp của nhiều yếu tố thể hiện các thơng
tin biểu diễn về ai/cái gì đã làm gì, với ai/cái gì, bao giờ, ở
đâu, bằng cách và tại sao. Tương tự như trích xuất quan hệ,
trong trích xuất sự kiện vấn đề nhận dạng thực thể cũng đặt
lên hàng đầu khi yêu cầu phải nhận ra đủ và chính xác các
thành phần cấu thành nên sự kiện.




Khá nhiều các hệ thống hỏi đáp tự động dựa trên khai phá
văn bản cần đến nhận dạng thực thể như là một yếu tố làm
5


tăng khả năng phân tích, hiểu câu hỏi và dữ liệu trả lời trong
hệ thống [HWY05].
1.2. Lịch sử nghiên cứu và một số hướng tiếp cận giải
quyết bài toán
Bài toán nhận dạng thực thể đã xuất hiện từ đầu những năm
90 [RA91], nhưng chỉ được chính thức giới thiệu vào năm 1995 tại
hội nghị MUC-6 với tư cách là một bài tốn con của trích xuất thơng
tin [GS96]. Kể từ đó, NER đã thu hút nhiều sự chú ý của cộng đồng
nghiên cứu. Đã có khá nhiều hệ thống và chương trình được xây
dựng thực thi bài tốn này, có thể kể đến Automatic Content
Extraction1, các công bố trong nhiệm vụ cộng đồng thuộc hội nghị
Conference on Natural Language Learning (CoNLL) năm 2002 và
2003 [TD03], và chuỗi nhiệm nhận dạng thực thể y sinh tại hội thảo
BioCreative2 (Critical Assessment of Information Extraction Systems
in Biology).
Các nghiên cứu đạt hiệu quả cao đối với nhận dạng thực thể
thường dựa trên các kỹ thuật học máy thống kê và hầu hết trong số
đó xử lý bài toán này như một bài toán gán nhãn chuỗi (sequence
labeling). Một trong những phương pháp học máy đầu tiên được áp
dụng cho NER là mơ hình Markov ẩn (Hidden Markov Models,
HMM). Các phương pháp học máy cho NER được xây dựng sau đó
đã có một sự chuyển dịch từ mơ hình sinh như HMM sang mơ hình
mơ hình rời rạc (discriminative models) nhằm khắc phục các nhược

1 Automatic content extraction (ACE) evaluation.
/>2 />
6


điểm của HMM. Một mơ hình rời rạc thơng dụng được sử dụng trong
nhận dạng thực thể là mơ hình entropy cực đại (Maximum Entropy
Model, MaxEnt) [BPP96].
Kết hợp mơ hình MEM với một giả định Markov, được gọi là
mơ hình Markov entropy cực đại (Maximum Entropy Markov
Models, MEMM).
Trường ngẫu nhiên có điều kiện (Conditional Random
Fields, CRF) là một mơ hình rời rạc tiêu biểu khác để xử lý bài toán
gán nhãn chuỗi. Phương pháp này được giới thiệu bởi Lafferty và các
cộng sự cho bài toán gán nhãn chuỗi [LMP01].
1.3. Nhận dạng thực thể trong dữ liệu văn bản tiếng Việt
và một số nghiên cứu liên quan
Bắt nhịp với tình hình phát triển chung trên tồn thế giới, các
văn bản tiếng Việt cũng ngày càng xuất hiện nhiều dưới dạng văn bản
điện tử, và cùng với đó chính là sự phát sinh nhu cầu khai thác thơng
tin có giá trị từ các văn bản này. Nhận dạng thực thể đóng một vai trị
chủ chốt trong khai phá văn bản, chính vì thế nó cũng nhanh chóng
trở thành một lĩnh vực nghiên cứu được nhiều nhà khoa học trong
nước quan tâm. Áp dụng được NER cho dữ liệu tiếng Việt đồng
nghĩa với việc đặt một nền tảng quan trọng trong việc xây dựng được
các hệ thống ứng dụng cho nhiều lĩnh vực khác như tài chính, kinh
tế, xã hội, y sinh học, v.v.. phù hợp với tình hình trong nước.
1.4. Nhận dạng thực thể trong dữ liệu văn bản y sinh
tiếng Anh và một số nghiên cứu liên quan


7


Hiện nay, số lượng các văn bản y tế và sinh học dưới dạng
điện tử trên Internet cũng như được lưu trữ trong các hệ thống y tế
đang tăng với tốc độ chóng mặt. Việc khai thác hiệu quả nguồn tài
nguyên này có thể đưa tới nguồn tri thức hữu ích cho người dùng như
phát hiện bệnh dịch sớm, tổng hợp các kinh nghiệm phòng và chữa
bệnh, nghiên cứu các cơ chế di truyền, tuyên truyền và nâng cao sức
khỏe cộng đồng, v.v.. Những nghiên cứu liên quan đến xử lý ngôn
ngữ tự nhiên cho văn bản y sinh học (Biomedical Natural Language
Processing; BioNLP) đã mang đến nhiều lợi ích cho việc khai thác
nguồn dữ liệu y sinh học, có thể kể đến những cơ sở dữ liệu hay
ontology y sinh được xây dựng tự động hỗ trợ cho những nhà nghiên
cứu sinh và hay bác sĩ hay những hệ thống theo dõi thông tin về diễn
biến dịch bệnh truyền nhiễm đang phát triển trên thế giới.
Trong những hệ thống đấy, nhận dạng thực thể y sinh là một
thành phần quan trọng trong q trình phân tích và tổng hợp thông
tin từ văn bản y sinh học. Đây là một bài tốn khó vì mỗi một loại
thực thể y sinh lại bao hàm nhiều tính chất đặc thù khác nhau về
ngơn ngữ và y sinh học địi hỏi người nghiên cứu cần phải có sự kết
hợp kiến thức cả xử lý ngôn ngữ tự nhiên và kiến thức y sinh học mới
có thể đưa ra một phương pháp hay mơ hình nhận dạng thực thể hiệu
quả.

8


Chương 2 – NHẬN DẠNG THỰC THỂ TÊN
NGƯỜI KẾT HỢP VỚI NHẬN DẠNG THUỘC TÍNH

THỰC THỂ CĨ TÊN TRONG VĂN BẢN TIẾNG
VIỆT
2.1. Giới thiệu
Tên người và những thông tin liên quan đến người là một
trong những từ khóa được tìm kiếm thường xun nhất trên các cơng
cụ tìm kiếm web, tuy nhiên, các kết quả tìm kiếm và thơng tin trả về
đơi khi cịn rất mơ hồ. Vì vậy, nhu cầu về một hệ thống đầy đủ thơng
tin, chính xác và tập trung vào thực thể người là rất lớn. Thực thể tên
người luôn gắn liền với một số các thuộc tính [SJ09, JAJ10], đó là
các đặc trưng hoặc tính chất của một thực thể và trích chọn thuộc tính
là trích chọn các đặc trưng hoặc tính chất tương ứng với một thực thể
từ dữ liệu văn bản [GR08]. Do đó, trích chọn thuộc tính đóng một vai
trị chủ chốt trong việc xử lý nhập nhằng tên người [SJ09]. Ngoài ra,
việc trích chọn thực thể tên người cùng với các thuộc tính của chúng
cũng góp một phần quan trọng để mở rộng các cơ sở dữ liệu và
ontology.
2.2. Cơ sở lý thuyết và mơ hình đề xuất
2.2.1. Mơ hình Entropy cực đại giải mã bằng tìm kiếm
chùm (MEM+BS)
Mơ hình Entropy cực đại (Maximum Entropy Model,
Maxent Model) [BPP96] là một thuật tốn học máy thơng dụng dựa
trên xác suất có điều kiện được sử dụng trong nhiều nghiên cứu về
9


nhận dạng thực thể y sinh học [CN02, BON03, CC03, LTC04]. Trong
đó, entropy là độ đo về tính đồng đều hay tính khơng chắc chắn của
một phân phối xác suất, một phân phối xác suất có Entropy càng cao
thì phân phối của nó càng đều.
2.2.2. Phương pháp trường ngẫu nhiên có điều kiện (CRF)

Trường ngẫu nhiên có điều kiện (Conditional Random
Fields, CRF) là một là một mơ hình rời rạc dựa trên ý tưởng gốc từ
mơ hình Markov ẩn (Hidden Markov Model, HMM) [RA89] và được
cải thiện để khắc phục các nhược điểm của HMM cũng như mơ hình
markov entropy cực đại (Maximum Entropy Markov Model,
MEMM) [MFP00]. CRF được giới thiệu bởi Lafferty và các cộng sự
cho bài tốn trích xuất thơng tin [LMP01]. Tính ưu việt của CRF so
với HMM thể hiện ở việc nó ước lượng các phân phối xác suất có
điều kiện theo trình tự gán nhãn, tính ưu việt này đã được chứng
minh qua nhiều nghiên cứu [ML03, SE04]), và cho đến nay CRF vẫn
đang là một trong những phương pháp học máy được ứng dụng nhiều
trong lĩnh vực NLP.
2.3.3. Mơ hình đề xuất
Mơ hình được đề xuất gồm có ba pha chính, được mơ hình
hóa trong hình 2.3. Đầu vào của mơ hình là từng câu trong văn bản
và đầu ra là các câu đã được gán nhãn dựa trên mơ hình nhận dạng.
Hình 2.3. Mơ hình tích hợp NER và trích chọn thuộc tính của
thực thể tên người
Pha 1: Huấn luyện mơ hình
10


Pha 2: Gán nhãn dữ liệu dựa trên mơ hình nhân dạng thực thể
và thuộc tính
Pha 3 - Lọc câu lọc dữ liệu đã được gán nhãn thu được ở pha
2 và chỉ giữ lại các câu nhãn phù hợp.
2.2.3. Tập đặc trưng
Bảng 2.3. Tập đặc trưng được sử dụng
STT


Đặc trưng

Ký hiệu

Từ đang xét

W0

Nhãn từ loại của từ đang xét (POS)

POS (W0)

Từ đang xét là chữ thường, viết hoa đầu từ
hay viết hoa toàn bộ?

Is_Lower(0,0)
Is_Initial_Cap (0,0)
Is_All_Cap (0,0)

Ngữ cảnh

Wi (i = -2,-1,1,2))

11


Liên kết từ vựng

Syllable_Conj (-2,2))


Biểu thức chính quy

Regex(0,0)
Is_Valid_Vietnamese_

Nhận dạng tiếng Việt

Syllable(0,0)
dict:name,
dict:first_name
dict:vname
dict:vfirst_name

Từ điển

prefix:per
prefix:loc
prefix:org

Tiền tố

2.4. Thực nghiệm, kết quả và đánh giá
Thực nghiệm được tiến hành trên 10.000 câu được thu thập từ
Wikipedia3 tiếng Việt. Các câu này được gán nhãn thủ công
để phục vụ cho huấn luyện và kiểm thử. Đánh giá dựa trên
các độ đo chính xác (P), độ đo hồi tưởng (R) và độ đo F với
phương pháp kiểm thử chéo 10 lần. Kết quả được xem xét ở
cả mức tổng thể và cho từng thuộc tính.
Kết quả thực nghiệm đánh giá trên toàn hệ thống:
Bảng 2.4. Kết quả đánh giá toàn hệ thống trên hai phương pháp

MEM+BS và CRF

MEM

+

Đ

Đ

Đơ





đo

c

h

F

h



í


i

n

t

h

ư

x



á

n

c

g

8

8

3 />
12

83.



BS

3

2

(beam=3)

.

.

7

5

2

4

13

8

8

83.


4

2

39

CRF

.
5
6

Kết quả thực nghiệm đánh giá trên từng nhãn
Bảng 2.5. Kết quả thực nghiệm đối với từng nhãn
STT

N

P

h

(

ã

%

n


)

O

9

P

1

e

.

r

3

R (%)

F (%)

90.33

90.84

90.44

90.16


STT

Nhã

P

R

F

n

(%)

(%)

(%)

R_

91.6

85.19

88.31

Oth

7


83.30

82.63

81.74

81.31

5
N

8

i

9

c

.

erN

k

8

ame

P


8

e
r
R

8

R_R

81.9

P

0

78.65

79.54

elati

8

e

.

ons


r

4

hip

6
V

8

R_

80.8

B

3

87.91

85.62

Wh

9

o


.

ere

13


r

4

Bor

n

5

n

L
o
c
V

8

D

0


80.09

80.22

R_

80.2

Wh

3

e

.

ere

a

3

Dea

d

5

d


85.36

82.72

85.99

85.82

75.64

76.49

73.21

74.54

65.30

69.06

L
o
c
V

9

R_

85.6


H

3

91.77

92.57

Wh

5

o

.

enD

m

3

ead

e

9

L

o
c
V

7

J

8

o

.

b

2

O

5

83.69

80.88

R_J

77.3


ob

5

r
g
V

8

R_

75.9

J

1

78.22

79.82

Wh

2

o

.


ereJ

b

4

ob

9
V

9

S

0

e

.

x

4

87.56

88.98

5


14

R_S

73.2

ex

9


V

8

R_

85.7

B

3

90.39

86.95

Wh


5

o

.

enB

r

7

orn

n

7

83.22

84.47

72.77

74.40

T
i
m
e

V

8

R_

76.1

D

0

87.28

83.70

Wh

0

e

.

enD

a

4


ead

d

0

T
i
m
e

2.3. Một mơ hình hỏi đáp tên người áp dụng nhận dạng
thực thể tiếng Việt
2.3.1. Khái quát bài toán
Trong tiếng Việt, câu hỏi về người thường chứa các từ để hỏi
như: là ai, ai là, của ai, do ai, vì ai, người nào… Hệ thống QA được
xây dựng trong luận án yêu cầu đầu vào là các câu hỏi đơn giản
(factoid question) tiếng Việt với kết quả trả lời là tên người. Có thể
xem các câu hỏi đầu vào của hệ thống là dạng các câu hỏi
WHO/WHOM/WHOSE trong tiếng Anh. Các khái niệm liên quan
đến câu hỏi đơn giản và đặc trưng của câu hỏi trong tiếng Việt sẽ
được giới thiệu trong phần 3.3.1.
2.3.2. Đặc trưng câu hỏi liên quan đến thực thể người
trong tiếng Việt
15


Dạng hai lớp tân ngữ có các câu trúc sau:
-


Chủ thể + Hành động + Tân ngữ trực tiếp

-

Tân ngữ trực tiếp + Chủ thể + Hành động
Tân ngữ trực tiếp + Hành động + Chủ thể
Dạng ba lớp tân ngữ có các cấu trúc sau:

-

Cấu trúc 1: Chủ thể + Hành động + Tân ngữ trực tiếp + Tân
ngữ gián tiếp

-

Cấu trúc 2: Chủ thể + Tân ngữ trực tiếp + Tân ngữ gián tiếp
2.3.3. Mơ hình đề xuất

Mơ hình hỏi đáp thực thể tên người cho tiếng Việt được đề xuất
và đặt tên là VPQA. Mơ hình sử dụng phương pháp phân tích
câu hỏi bằng kỹ thuật học máy CRF cùng với chiến lược trả
lời tự động dựa trên thơng tin được truy vấn từ máy tìm
kiếm. Mơ hình tổng quát của hệ thống được nêu ra trong hình
2.4.
Hình 2.4. Mơ hình hệ thống hỏi đáp thực thể tên người tiếng Việt
2.3.4. Phương pháp và dữ liệu đánh giá mơ hình hỏi đáp
tự động

16



Có nhiều phương pháp để đánh giá kết quả của hệ thống hỏi
đáp tự động, ở đây nghiên cứu sinh chọn phương pháp đánh giá phổ
biến nhất là nhóm ba độ đo gồm độ đo chính xác, độ đo hồi tưởng và
độ đo F, đây cũng là độ đo được sử dụng tại chuỗi nhiệm vụ TREC
[Vo03].
Tập dữ liệu đánh giá bao gồm 1000 câu hỏi được xây dựng
và gán nhãn thủ công. Các câu hỏi là dạng câu hỏi đơn giản hỏi về
thực thể người và được gán các nhãn thành.
2.3.5. Thực nghiệm và đánh giá
a. Thực nghiệm đánh giá hiệu quả phân tích câu hỏi
17


Bảng 2.10. Kết quả đánh giá thành phần phân tích câu hỏi
Đ


Đ

c





hồ

Độ


n

i

đo

h



F

x

ởn

á

g

c
F
o
l
d

1

8
9.


90

89.

7

.2

95

F
o
l
d

2

9

95

4.

.0

94.

1


5

57

F
o
l
d

3

9

96

6.

.8

96.

4

3

61

F
o
l

d

9
3.

94

0

.2

4

7

3

64

F

9

96

95.

18

93.



o
l
d

5

4.
5

.1

8

1

33

F
o
l
d

6

9
2.

93


4

.4

92.

3

5

93

F
o
l
d

7

9

92

1.

.6

91.


3

7

98

F
o
l
d

8

8
8.

89

3

.4

88.

5

5

89


F
o
l
d

9

92

1.

.1

9

5

1

80

F

9

95

94.

o


3.

.0

15

l

3

1

d

2

1

19

91.


0
T
r
u
n
g


b

9

ì

2.

n
h

4

93

7

.5

92.

5

1

99

b. Thực nghiệm đánh giá hiệu quả trả lời tự động của
mơ hình hỏi đáp

Bảng 2.11. Kết quả đánh giá của hệ thống trả lời tự động
Top 1
T

Top 3

Top 5

P

R

F

P

R

F

P

R

F

62

54.36


42.13

47.47

60.19

45.59

51.88

62.78

50.12

55.74

58

79.68

55.6

65.50

89.39

60.3

72.02


90.03

60.2

72.15

S

2805

71.44

90

79.65

72.18

91.3

80.62

73.17

91.7

81.39

E


9

74.63

87.9

80.72

79.62

89.3

84.18

80.02

91.1

85.20

(ms)
B
a
s
e
li
n
e
K
L

B

B
K

1163

L

0

20


B
+
S
E
B

Chương 3 – NHẬN DẠNG THỰC THỂ BIỂU
HIỆN TRONG VĂN BẢN Y SINH TIẾNG ANH
3.1. Giới thiệu
Dưới đây là định nghĩa về nhận dạng thực thể y sinh
[CTLA5].
“Nhận dạng thực thể y sinh (Biomedical NER) là một (nhóm) kỹ
thuật tính toán được dùng để nhận dạng và phân lớp các
chuỗi văn bản chỉ đến các khái niệm quan trọng trong văn
bản y sinh học.”
3.2. Vấn đề về thích nghi miền trong nhận dạng thực thể

y sinh
Một thách thức lớn nữa đối với bài toán NER trong dữ liệu y sinh
và vấn đề thích ứng khi thích nghi miền dữ liệu. Các nghiên
cứu NER y sinh học thường sử dụng một tập nhỏ các dữ liệu
được gán nhãn để nghiên cứu và thực nghiệm. Vì tính chất
phong phú và hướng chun ngành của dữ liệu y sinh học,
một bộ dữ liệu thường sẽ chỉ hướng về một chủ đề hay có
cùng tính chất nào đó. Hệ thống được xây dựng phù hợp cho
dữ liệu thuộc về chủ đề này chưa chắc có thể hoạt động hiệu
quả khi chuyển sang tập dữ liệu thuộc chủ đề khác hay các
tập dữ liệu trộn lẫn của nhiều chủ đề khác nhau, mặc dù
21


×