Tải bản đầy đủ (.docx) (130 trang)

Luận án: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.19 MB, 130 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẠI HỌC
GIA HÀ
NỘI
TRƯỜNG
ĐẠI QUỐC
HỌC CÔNG
NGHỆ
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN
TRẦN MAI
MAI VŨ


NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN
VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG
NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN
VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG

Chuyên ngành: Hệ thống thông tin
Mã số: 62.48.05.01
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Hà Quang Thụy
2. PGS.TS. Nguyễn Lê Minh

Hà Nội – 2018
Hà Nội – 2018




LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết quả được
viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi
đưa vào luận án. Các kết quả nêu trong luận án là trung thực và chưa từng được
công bố trong các công trình nào khác.
Tác giả

Trần Mai Vũ

2


LỜI CẢM ƠN
Luận án được thực hiện tại Bộ môn Hệ thống thông tin - Khoa Công nghệ
thông tin - Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, dưới sự hướng
dẫn khoa học của PGS.TS. Hà Quang Thụy và PGS.TS. Nguyễn Lê Minh.
Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy PGS.TS. Hà Quang
Thụy và PGS.TS. Nguyễn Lê Minh, những người đã đưa tôi đến với lĩnh vực
nghiên cứu này. Các thầy đã tận tình giảng dạy, hướng dẫn giúp tôi tiếp cận và đạt
được thành công trong công việc nghiên cứu của mình. Các thầy đã luôn tận tâm
động viên, khuyến khích và chỉ dẫn giúp tôi hoàn thành được bản luận án này.
Tôi xin bày tỏ lòng biết ơn tới các Thầy Cô thuộc Khoa Công nghệ thông tin
và cán bộ Phòng Đào tạo - Trường Đại học Công nghệ, đã tạo mọi điều kiện thuận
lợi giúp đỡ tôi trong quá trình học tập và nghiên cứu tại trường.
Tôi xin cảm ơn PGS. TS. Nigel Collier và cộng sự đã đóng góp ý kiến quý báu
giúp tôi hoàn thiện bản luận án.
Sự động viên, cổ vũ của bạn bè là nguồn động lực quan trọng để tôi hoàn
thành luận án. Tôi xin bày tỏ lòng biết ơn sâu sắc tới gia đình, vợ và các con tôi đã

tạo điểm tựa vững chắc cho tôi có được thành công như ngày hôm nay.
Tác giả

Trần Mai Vũ

3


MỤC LỤC

4


Kí hiệu

Tiếng Anh

Tiếng Việt

NER

Named Entity Recognition

Nhận dạng thực thể định
danh

NLP

Natural Language Processing


Xử lý ngôn ngữ tự nhiên

BioNLP

Biomedical Natural Language Xử lý ngôn ngữ tự nhiên cho
Processing
dữ liệu y sinh

IE

Information Extraction

Trích xuất thông tin

CRF

Conditional Random Fields

Trường ngẫu nhiên có điều
kiện

SVM

Support Vector Machine

Máy véctơ hỗ trợ

SVM-LTR

SVM-Learn to rank


Học xếp hạng máy véctơ hỗ
trợ

ME
Model, Maximum Entropy Model
Maxent Model
MEM+BS

Maximum Entropy
with Beam Search

Mô hình Entropy cực đại

Model Mô hình Entropy cực đại với
giải mã tìm kiếm chùm

5


DANH MỤC CÁC BẢNG

6


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

7



Lý do chọn đề tài
Nhận dạng thực thể có tên (Named entity recognition: NER; còn được gọi là
“nhận dạng thực thể định danh”) là một bài toán chính thuộc lĩnh vực xử lý ngôn
ngữ tự nhiên (NLP). Đây là một bài toán tiền đề cho các hệ thống về hiểu ngôn ngữ
hay khai phá dữ liệu văn bản như trích xuất sự kiện, hỏi đáp tự động hay tìm kiếm
ngữ nghĩa. Chính vì vậy, cùng với sự phát triển của dữ liệu văn bản trên Internet,
bài toán này cũng nhận được sự quan tâm của cộng đồng nghiên cứu trong khoảng
20 năm trở lại đây.

Hình 0.1. Thống kê các công trình nghiên cứu liên quan đến cụm từ “named entity
recognition” trên Springer từ 2002 - tháng 11/2017
Kết quả trả lời của trang web tìm kiếm của Springer với truy vấn “Named
entity recognition” theo cách chính xác cụm từ (“with the exact phrase”) 1 cho thấy
từ năm 2002 đến nay có trên 3500 công trình liên quan, với trên 1800 công trình
công bố trong 5 năm gần đây từ 2013 đến 2017 (khoảng 350 công trình/năm) như
chỉ ra ở Hình 0.1. Không chỉ nhiều về số lượng, các nghiên cứu về NER cũng xuất
hiện thường xuyên tại các hội nghị thường niên hàng đầu về NLP như ACL,
EMNLP, NAACL,… hay các tạp chí danh tiếng có chỉ số IF (impact factor) cao như
PLOS ONE, Bioinformatics, TKDE, TACL,…
Mặc dù đã có khá nhiều công trình nghiên cứu cho một số loại thực thể thông
thường trong văn bản tiếng Anh tuy nhiên những nghiên cứu liên quan đến các thực
thể trong ngôn ngữ khác như tiếng Việt hay các miền dữ liệu đặc biệt như miền dữ
liệu y sinh vẫn còn rất nhiều hạn chế và thách thức. Có thể kể đến là sự khuyết thiếu
các tập dữ liệu gán nhãn chuẩn, tài nguyên ngôn ngữ về tri thức miền hay các định
nghĩa hình thức về kiểu thực thể cần nhận dạng… Luận án này tiếp nối những
nghiên cứu trước đó nhằm giải quyết một phần những hạn chế được nêu ra ở trên.
Mục tiêu cụ thể và phạm vi nghiên cứu của luận án sẽ được mô tả kỹ hơn ở phần
tiếp theo.
1 />%22&date-facet-mode=between&facet-start-year=1998&showAll=true#


8


Mục tiêu cụ thể và phạm vi nghiên cứu của luận án
Như đã nêu trong lý do chọn đề tài, luận án tập trung vào bài toán nhận dạng
thực thể với hai loại dữ liệu thuộc hai ngôn ngữ khác nhau là các thực thể thuộc dữ
liệu văn bản tiếng Việt và các thực thể thuộc dữ liệu văn bản y sinh.
Mục tiêu cụ thể của luận án là phát triển vấn đề, đề xuất giải pháp và xây dựng
thực nghiệm cho việc nhận dạng các loại thực thể thuộc hai miền dữ liệu trên.
Nhìn chung, bài toán nhận dạng thực thể đã được quan tâm nghiên cứu và đạt
được một số kết quả nhất định, tuy nhiên các kết quả này hầu hết chỉ xử lý cho các
thực thể thông thường trong văn bản tiếng Anh. Trong khi đấy, nhận dạng thực thể
với miền dữ liệu văn bản thông thường tiếng Việt và văn bản y sinh vẫn còn nhiều
vấn đề lớn đặt ra như không có một tập dữ liệu chuẩn cùng những mô tả rõ ràng về
khái niệm liên quan đến các thực thể hay các tài nguyên công cụ phục vụ cho việc
nhận dang. Nhìn nhận được các hạn chế này, luận án tập trung vào giải quyết hai bài
toán nói trên trong phạm vi dữ liệu có tính chất đặc thù hơn, cụ thể là:
• Giải quyết bài toán nhận dạng thực thể cho dữ liệu văn bản tiếng Việt.
Nghiên cứu sinh đi sâu vào việc tìm hiểu những thành quả nghiên cứu tiên
tiến về nhận dạng thực thể với mong muốn áp dụng và đề xuất các cải tiến
mới nhằm áp dụng và cải thiện hiệu quả cho quá trình nhận dạng thực thể
trong văn bản tiếng Việt. Bên cạnh đấy, luận án tìm hiểu một trong những
hướng ứng dụng điển hình của các mô hình nhận dạng thực thể tiếng Việt, cụ
thể ở đây là bài toán hỏi đáp tự động cho tiếng Việt.
• Giải quyết bài toán nhận dạng thực thể cho dữ liệu y sinh (tiếng Anh).
Số lượng dữ liệu y sinh dưới dạng điện tử đang tăng với tốc độ cao tạo nên
tiềm năng lớn phục vụ cho một loạt các ứng dụng xã hội, đặc biệt là y tế
cộng đồng. Với tiềm năng nói trên và tính chất phức tạp từ đặc thù chuyên
ngành, khai phá dữ liệu y sinh đang là một thách thức lớn đối với các nhà
khoa học trên toàn thế giới. Nắm bắt được xu hướng nghiên cứu này, luận án

khảo sát và đề xuất phương án giải quyết bài toán nhận dạng thực thể trong
văn bản y sinh kết hợp nhiều nguồn tài nguyên tri thức cũng như các kỹ thuật
học máy thống kê. Luận án tập trung vào bài toán nhận dạng thực thể biểu

9


hiện (phenotype) và các thực thể liên quan như: gene, bệnh, bộ phận cơ thể,
….
Trên cơ sở phân tích công phu các giải pháp tiên tiến trên thế giới, luận án
được định hướng vào việc nghiên cứu phát triển các giải pháp hiệu quả tương thích
với miền dữ liệu có nhiều đặc trưng đặc biệt và xây dựng thực nghiệm đánh giá. Cụ
thể, luận án giải đáp các vấn đề nghiên cứu sau đây:
• Khảo sát và đưa ra các phương án xử lý các đặc điểm riêng biệt của với dữ
liệu tiếng Việt và dữ liệu y sinh tiếng Anh.
• Đề xuất phương án tiếp cận mới tận dụng được các nghiên cứu tiên tiến trước
đó và tiếp cận giải quyết được những đặc điểm riêng biệt của miền dữ liệu
đang xem xét.
• Xây dựng bộ dữ liệu phục vụ cho thực nghiệm.
• Xây dựng các thực nghiệm để đánh giá các mô hình giải quyết bài toán đã đề
xuất.
• Xây dựng hệ thống chạy thực tế đối với các mô hình đạt kết quả khả quan.
• Định hướng phát triển nâng cấp nghiên cứu.
Ở Việt Nam, đã có một số luận án tiến sĩ nghiên cứu về các bài toán nhận dạng
thực thể trong tiếng Việt. Luận án tiến sĩ của Sam Chanrathany (2013) [SC13] làm
về trích xuất thực thể và một số mối quan hệ hai ngôi giữa các thực thể trong tiếng
Việt sử dụng phương pháp học bán giám sát. Luận án tiến sĩ của Nguyễn Thanh
Hiên (2011) [NTH11] giải quyết vấn đề phân biệt nhập nhằng giữa các thực thể dựa
trên nguồn tri thức từ các ontology miền đóng và miền mở. Cả hai luận án này đã
đưa ra được một số cách giải quyết nhận dạng thực thể cùng xử lý nhập nhằng

thông qua các thuộc tính có quan hệ đến thực thể. Tuy nhiên tập dữ liệu đánh giá là
tương đối nhỏ (1200 câu) chưa thể hiện rõ được hiệu quả mà các phương pháp đem
lại.
Luận án khảo sát một số luận án Tiến sỹ trên thế giới liên quan đến chủ đề
nhận dạng thực thể gene và thực thể biểu hiện, điển hình là [VA10, KM14]. Vlachos
(2010) [VA10] tập trung giải quyết hai bài toán là nhận dạng thực thể các thực thể
gene và trích xuất sự kiện tại hội thảo BioNLP, các phương pháp được áp dụng hầu
hết dựa trên kỹ thuật nhận dạng bằng luật và một ít kỹ thuật học máy nên các mô
hình chưa cho kết quả cao. Khordad (2014) [KM14] đi sâu vào bài toán nhận dạng
thực thể biểu hiện và thực thể gene, sau đó dựa vào kết quả nhận dạng để phát hiện

10


các mỗi quan hệ giữa biểu hiện – gene. Luận án này mặc dù đã đề cập đến thực thể
biểu hiện tuy nhiên chưa nêu được một định nghĩa rõ ràng về thực thể biểu hiện nên
bỏ sót khả nhiều kết quả trong quá trình nhận dạng, bên cạnh đấy, luận án này cũng
chỉ quan tâm đến mối quan hệ giữa biểu hiện – gene mà chưa quan tâm đến mối
quan hệ giữa biểu hiện và các loại thực thể khác như bệnh, hóa chất, bộ phận cơ thể
v.v..
Đối sánh nội dung các công trình nghiên cứu trong và ngoài nước, trong đó có
luận án Tiến sỹ, luận án của nghiên cứu sinh có những điểm khác biệt về khía cạnh
phương pháp tiếp cận cũng như về khía cạnh dữ liệu. Cụ thể là:
- Đối với bài toán nhận dạng thực thể trong văn bản tiếng Việt, luận án tập
trung vào hai vấn đề đó là kết hợp cùng lúc cả nhận dạng thực thể và nhận
dạng thuộc tính thực thể trong cùng một mô hình và kiểm chứng trên tập
dữ liệu đủ tin cậy (10.000 câu gán nhãn). Hơn nữa, nghiên cứu sinh cũng
áp dụng mô hình đề xuất vào bài toán hỏi đáp tự động để kiểm định hiệu
-


quả thực tế của mô hình.
Đối với bài toán nhận dạng thực thể y sinh trong văn bản tiếng Anh, luận
án đưa ra những định nghĩa cụ thể hơn về các khái niệm liên quan đến các
thực thể biểu hiện, xây dựng hai tập dữ liệu đánh giá tin cậy (900 câu gán
nhãn mỗi tập) cũng như các thử nghiệm khách quan với các độ đo chuẩn
cho nhận dạng thực thể y sinh.

Luận án là kết quả của việc kết hợp nghiên cứu lý thuyết với nghiên cứu thực
nghiệm, thông qua một quá trình lô-gic từ khảo sát bài toán, nghiên cứu lý thuyết
nền tảng, tiến tới đề xuất giải pháp đối với bài toán, xây dựng thực nghiệm đánh giá
giải pháp được đề xuất, rút ra kết luận và công bố kết quả nghiên cứu.
Về nghiên cứu lý thuyết, luận án tập trung đề xuất một số giải pháp nhận dạng
thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các giải
pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng như các tri thức
nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài
toán. Kết quả của các mô hình đạt hiệu quả khả quan có thể áp dụng được trong các
hệ thống chạy thực tế.
Luận án trình bày một cách hệ thống các vấn đề liên quan đến bài toán nhận
diện thực thể biểu hiện và các thực thể liên quan như: định nghĩa cụ thể về khái
11


niệm thực thể biểu hiện, cách thức gán nhãn dữ liệu, phương pháp đánh giá và kiểm
thử hiệu quả hay vấn đề thích nghi miền (domain adaptation) trong miền dữ liệu
thực thể biểu hiện. Hơn nữa, luận án cũng đưa ra được một số khung làm việc
(framework) cho việc trích xuất sự kiện cho tiếng Việt cũng như sự kiện trong văn
bản y sinh tiếng Anh.
Các kết quả nghiên cứu lý thuyết của luận án được công bố trong các ấn phẩm
khoa học chuyên ngành có uy tín [CTLA1, CTLA2, CTLA4 - CTLA7] là minh
chứng cho ý nghĩa khoa học của luận án.

Về triển khai ứng dụng, luận án đã đề xuất thực thi mô hình hỏi đáp tự động
tiếng Việt dựa trên nhận dạng thực thể [CTLA5]. Xây dựng hệ thống tra cứu và
tham khảo các mối quan hệ giữa thực thể biểu hiện – bệnh PhenoMiner (tại địa chỉ
/>Kết quả triển khai ứng dụng thông qua các hệ thống thử nghiệm và tra cứu nói
trên cho thấy luận án có ý nghĩa thực tiễn.

Cấu trúc của luận án
Tiếp nối phần mở đầu này, nội dung chính của luận án được bố cục thành bốn
chương và phần kết luận. Chương 1 của luận án trình bày hệ thống các lý thuyết cơ
bản về nhận dạng thực thể cũng như khảo sát lịch sử nghiên cứu và điểm lại một số
nghiên cứu tiêu biểu. Các chương tiếp theo đi sâu vào những bài toán con được luận
án tập trung giải quyết. Chương 2 trình bày về bài toán nhận dạng thực thể và ứng
dụng nhận dạng thực thể vào bài toán hỏi đáp tự động trong văn bản tiếng Việt. Tiếp
theo đó, chương 3 trình bày một mô hình nhận dạng thực thể biểu hiện và các thực
thể liên quan cũng như vấn đề thích nghi miền giữa các tập dữ liệu y sinh. Chương
4, luận án giới thiệu một kỹ thuật nâng cấp hiệu quả của mô hình đề xuất trong
chương 3 bằng kỹ thuật lai ghép các mô hình (ensemble models) dựa trên tri thức và
dựa trên học máy để nhận dạng thực thể trong văn bản y sinh tiếng Anh. Phần kết
luận tổng hợp các kết quả đạt được cũng như nêu lên một số hạn chế của luận án và
trình bày một số định hướng nghiên cứu trong tương lai.
Dưới đây là danh sách các công trình đã công bố của nghiên cứu sinh liên
quan được sử dụng trong các chương của luận án.

12


Hình 0.2. Biểu đồ phân bố các công trình đã công bố của nghiên cứu sinh tương
ứng với các chương của luận án

13



Chương 1 - KHÁI QUÁT VỀ NHẬN DẠNG THỰC THỂ
Chương 1 của luận án hệ thống hóa các lý thuyết cơ bản về nhận dạng thực
thể. Chương này được cấu trúc thành bốn phần nội dung chính. Phần 1 trình bày và
phân tích các khái niệm cơ bản và các thuật ngữ cần quan tâm trong lĩnh vực nghiên
cứu, ngoài các định nghĩa, phần này cũng khái quát hóa các độ đo thường được sử
dụng trong nhận dạng thực thể. Phần 2 nêu ra một số hướng tiếp cận giải quyết
chính cũng như một số hướng tiếp cận mới trong nghiên cứu về nhận dạng thực thể.
Các hướng tiếp cận này sẽ được nêu ra trong hai phần, tương ứng với từng loại dữ
liệu là dữ liệu văn bản tiếng Anh và dữ liệu văn bản tiếng Việt. Phần 3 trình bày cụ
thể một số kỹ thuật học máy tiêu biểu thường được sử dụng trong nhận dạng thực
thể cũng như trong các nghiên cứu của luận án. Cuối cùng, phần 4 nêu ra tiềm năng
nghiên cứu và điểm qua một vài ứng dụng nổi bật của nhận dạng thực thể.

1.1.

Một số khái niệm cơ bản

1.1.1. Định nghĩa bài toán nhận dạng thực thể
Bài toán nhận dạng thực thể (hay còn gọi là bài toán nhận dạng thực thể định
danh; Named Entity Recognition; NER) là bài toán xác định (phát hiện) các biểu
diễn trong văn bản và phân lớp chúng vào các kiểu thực thể định danh được định
nghĩa trước như Người, Địa danh, Thời gian, Số, tiền tệ, v.v.. Bài toán này có thể
bao gồm cả việc nhận dạng các thông tin hay thuộc tính mô tả về thực thể. Ví dụ,
trong trường hợp của thực thể tên người, hệ thống NER có thể trích xuất cả các
thông tin về Chức danh, Quốc tịch, Địa chỉ, Giới tính, v.v..
Một thực thể định danh là một chuỗi các từ chỉ đến một thực thể trong thế giới
thực, ví dụ như "California", “Hà Nội”, “Võ Nguyên Giáp”, "Steve Jobs" và
"Apple". Một thực thể định danh có thể được xếp vào một loại thực thể nào đó, như

Người, Địa điểm, Tổ chức, Thời gian, v.v.. Như vậy, các thực thể chính là những đối
tượng cơ bản nhất trong một văn bản dù ở bất kì ngôn ngữ nào.

14


Luận án sử dụng định nghĩa bài toán nhận dạng thực thể do Aggarwal và Zhai
phát biểu [AZ12]:
“Bài toán nhận dạng thực thể (Named entity recognition, NER) là
bài toán xác định thực thể định danh từ các văn bản dưới dạng tự do và
phân lớp chúng vào một tập các kiểu được định nghĩa trước như người,
tổ chức và địa điểm.”
Các kiểu thực thể định danh không chỉ bao gồm một số kiểu thông dụng như
tên người, địa danh, tên tổ chức mà còn có rất nhiều kiểu khác phụ thuộc vào đặc
trưng của loại dữ liệu, miền dữ liệu hay mục đích của hệ thống ứng dụng nhận dạng
thực thể. Có thể kể đến một số kiểu thực thể được nêu ra tại các nhiệm vụ xử lý
ngôn ngữ tự nhiên (task/shared task) như sau:
- Những kiểu thực thể định danh thông dụng nhất được tập trung nghiên cứu là
người, tổ chức và địa điểm, chúng được định nghĩa lần đầu tại Message
Understanding Conference-6 (MUC-6). Những kiểu thực thể này là phổ biến đủ để
có thể trở nên hữu ích trong nhiều miền ứng dụng. Việc trích xuất các biểu diễn
ngày tháng, giờ, tiền tệ và tỷ lệ phần trăm, cũng được MUC-6 giới thiệu, thường
cũng được xử lý trong NER, mặc dù nói đúng ra thì các biểu diễn này không phải là
thực thể định danh.
- Nhiệm vụ tại chương trình Automatic Content Extraction (ACE) đưa ra thêm
nhiều loại thực thể mới, các loại thực thể được tổ chức dưới dạng cây phân cấp, chi
tiết hơn MUC6. Ví dụ như kiểu thực thể tên tổ chức (organisation) có các loại con
như tên tổ chức chính phủ, tổ chức giáo dục hay tổ chức thương mại [DMP04].
- Bên cạnh các kiểu thực thể thông thường trong văn bản tin tức, các loại thực
thể liên quan đến y sinh cũng nhận được nhiều sự quan tâm. Hội thảo

BioNLP/JNLPBA 2004 có nhiệm vụ yêu cầu nhận diện thực thể y sinh gene và
protein [KOT04] hay nhiệm vụ Track3-CDR tại hội thảo BioCreative V (2015) yêu
cầu phát hiện thực thể bệnh và thuốc [WPL15].

15


1.1.2. Thách thức
Tuy là một bài toán cơ bản, nhưng nhận dạng thực thể cũng gặp phải không ít
thách thức cần giải quyết do độ phong phú và sự nhập nhằng của ngôn ngữ. Thông
thường thì bài toán này không thể được thực hiện một cách đơn giản nếu chỉ sử
dụng đối sánh chuỗi với các từ điển đã được xây dựng trước vì các thực thể định
danh của một kiểu thực thể thường không phải là một một tập đóng, do đó bất kỳ từ
điển nào cũng sẽ là không đầy đủ. Một lý do khác là loại thực thể định danh có thể
phụ thuộc vào ngữ cảnh. Ví dụ, "JFK" có thể chỉ tới người "John F. Kennedy”, địa
điểm "sân bay quốc tế JFK", hoặc bất kỳ loại nào khác có cùng dạng viết tắt đó.
Tương tự “Sông Lam Nghệ An” có thể là địa điểm chỉ tên một con sông tại tỉnh
Nghệ An hay tên một đội bóng “Sông Lam Nghệ An”. Để xác định loại cho thực thể
"JFK" hay“Sông Lam Nghệ An” xuất hiện trong một tài liệu cụ thể, cần phải xem
xét đến ngữ cảnh chứa nó.
Bên cạnh yếu tố về ngữ nghĩa, các yếu tố liên quan đến đặc trưng ngôn ngữ
cũng góp phần làm bài toán nhận dạng thực thể trở nên khó khăn. Một số ngôn ngữ
như tiếng Việt ngoài việc thiếu các tài nguyên xử lý ngôn ngữ tự nhiên còn phải
thực hiện một số bài toán con như tách từ trước khi nhận dạng thực thể, tỷ lệ lỗi của
các bài toán con sẽ ảnh hưởng đến kết quả của bài toán nhận dạng thực thể. Ngoài
ra, từng loại thực thể cũng có những thách thức riêng khác nhau ảnh hưởng đến hiệu
quả của mô hình nhận dạng. Ví dụ thực thể tên tổ chức “Ủy ban nhân dân Thành
phố Hà Nội” có chứa thực thể tên địa danh “Thành phố Hà Nội”.
1.1.3. Độ đo đánh giá
Để đánh giá các mô hình nhận dạng thực thể cần phải tạo ra tập các tài liệu

được gán nhãn bằng tay. Đối với việc đánh giá trên từng miền cụ thể, các tài liệu
được lựa chọn gán nhãn phải liên quan đến dữ liệu miền mục tiêu. Ví dụ, để đánh
giá việc trích xuất các thực thể gen và protein, ta phải sử dụng các tài liệu y sinh
như các tóm tắt từ kho dữ liệu PubMed. Nhưng nếu mục đích là để đánh giá so sánh
giữa các kỹ thuật nhận diện thực thể nói chung, cần phải sử dụng một tập dữ liệu

16


tiêu chuẩn đã được cộng đồng nghiên cứu chấp nhận [AZ12]. Các tập dữ liệu
thường được dùng để đánh giá chung cho các loại thực thể định danh thông thường
có thể kể đến là tập dữ liệu của hội nghị MUC, CoNLL-2003 và ACE 2004, còn để
đánh giá cho các loại thực thể trong y sinh có thể sử dụng tập dữ liệu GENIA
[KOT03], CHEMDNER [KLR15].
Các số đo đánh giá điển hình được sử dụng cho nhận dạng thực thể là độ chính
xác (precision - P), độ hồi tưởng (recall - R) và độ đo F1 (F1-measure). Độ chính
xác được tính bằng phần trăm các kết quả đúng trong tổng số kết quả nhãn dương
của hệ thống. Độ hồi tưởng là phần trăm các trường hợp được gán nhãn đúng trong
tất cả các mẫu dương có trong dữ liệu. Độ đo F1 là trung bình điều hòa của độ chính
xác và độ hồi tưởng. Hình 1.1. mô tả một cách trực quan các độ đo này.

Hình 1.1. Mô tả các độ đo độ chính xác, độ hồi tưởng và độ đo F1
Trong nhận dạng thực thể, nói một cách chính xác thì một thực thể định danh
được nhận dạng cần phải thỏa mãn hai tiêu chí: Một là xác định đúng biên thực thể
và hai là xác định đúng kiểu thực thể. Hầu hết các đánh giá đòi hỏi việc ánh xạ
chính xác biên thực thể. Tuy nhiên, đôi khi trong một số trường hợp thì việc ánh xạ
một phần cũng được chấp nhận, ví dụ khi mục tiêu chỉ là xác định liệu thực thể nào
đó có được nhắc đến trong văn bản hay câu hay không [TWC06].

17



1.1.4. Ứng dụng của nhận dạng thực thể
Nhận dạng thực thể là một bài toán quan trọng, thường được sử dụng như là
một bước tiền xử lý trong các hệ thống trích xuất thông hay trích chọn thông tin
phức tạp. Có thể kể đến nhận dạng thực thể xuất hiện trong một số các ứng dụng
sau:
• Trích xuất quan hệ là bài toán nhận diện các mối quan hệ ngữ nghĩa giữa hai
thực thể hay giữa một thực thể và một khái niệm [GLR06], ví dụ như mối
quan hệ người-nơi làm việc (Ronaldo, Real Madrid) hay quan hệ nơi sinh
(Hồ Chí Minh, Nghệ An). Trong bài toán này, bài toán nhận diện thực thể là
vấn đề đầu tiên cần được giải quyết trước khi trích xuất quan hệ.
• Trích xuất sự kiện là bài toán phức tạp hơn trích xuất quan hệ khi sự kiện là
một tổ hợp của nhiều yếu tố thể hiện các thông tin biểu diễn về ai/cái gì đã
làm gì, với ai/cái gì, bao giờ, ở đâu, bằng cách nào và tại sao. Các sự kiện có
thể là một sự kiện trong thế giới thực như sự kiện khủng bố, sự kiện tài
chính,… hay cũng có thể là một sự kiện xảy ra của một quá trình tự nhiên
như các sự kiện y sinh liên quan đến biến đổi gene hay gene gây bệnh.
Tương tự như trích xuất quan hệ, trong trích xuất sự kiện vấn đề nhận dạng
thực thể cũng đặt lên hàng đầu khi yêu cầu phải nhận ra đủ và chính xác các
thành phần cấu thành nên sự kiện. Nhiều hệ thống về trích xuất sự kiện đã áp
dụng thành công NER trong các thành phần xử lý như hệ thống BioCaster.
• Hệ thống hỏi đáp tự động đang là một lĩnh vực nhận được sự quan tâm lớn
trong thời điểm lượng thông tin và tri thức bùng nổ. Khá nhiều các hệ thống
hỏi đáp tự động dựa trên khai phá văn bản cần đến nhận dạng thực thể như là
một yếu tố làm tăng khả năng phân tích, hiểu câu hỏi và dữ liệu trả lời trong
hệ thống [HWY05]. Có thể kể đến một số nghiên cứu sử dụng nhận dạng
thực thể cho hệ thống hỏi đáp như nghiên cứu của Yao và Van Durme (2014)
[YD14] sử dụng NER trong pha phân tích câu hỏi để xác định chủ đề hỏi hay
hệ hỏi đáp của West và cộng sự (2014) [WGM14] áp dụng NER cho việc


18


phát hiện các mối quan hệ có trong log được trả về từ máy tìm kiếm hỗ trợ
cho thành phần trả lời câu hỏi.

1.2. Sơ lược về lịch sử nghiên cứu và một số hướng giải quyết bài toán
Bài toán nhận dạng thực thể đã xuất hiện từ đầu những năm 1990 [RA91],
nhưng chỉ được chính thức giới thiệu vào năm 1995 tại hội nghị MUC-6 với tư cách
là một bài toán con của trích xuất thông tin. Kể từ đó, NER đã thu hút nhiều sự chú
ý của cộng đồng nghiên cứu. Đã có khá nhiều hệ thống và chương trình được xây
dựng thực thi bài toán này, có thể kể đến Automatic Content Extraction 2, các công
bố trong nhiệm vụ cộng đồng thuộc hội nghị Conference on Natural Language
Learning (CoNLL) năm 2002 và 2003, và chuỗi nhiệm vụ nhận dạng thực thể y sinh
tại hội thảo BioCreative3 (Critical Assessment of Information Extraction Systems in
Biology).
Các giải pháp ban đầu cho nhận dạng thực thể dựa vào các mẫu được tạo một
cách thủ công [AHB93]. Sau đó các nghiên cứu đầu nhưng năm 2000 về nhận dạng
thực thể đã đạt được rất nhiều kết quả khả quan bằng việc sử dụng các phương pháp
học máy thống kê. Một loạt các mô hình học máy khác nhau đã được đề xuất để giải
quyết bài toán nhận dạng thực thể như mô hình Entropy cực đại (Maximum Entropy
Model, MaxEnt Model) [BPP96], mô hình trường ngẫu nhiên điều kiện
(Conditional Random Field; CRF) [LMP01]. Bên cạnh sử dụng từng phương pháp
riêng biệt để giải quyết bài toán, các phương pháp kết hợp hoặc lai ghép các mô
hình học máy (ensemble models method) để đưa ra kết quả tốt hơn cũng là một
hướng đi đạt được hiệu quả cao, điển hình là nghiên cứu của Florian và cộng sự
(2003) đã đạt được hiệu quả tốt nhất (88,76) tại nhiệm vụ CONLL-2003 [FIJ03].
Sau khi các phương pháp học máy đạt được nhiều hiệu quả khả quan đối với
nhận dạng thực thể trong văn bản tiếng Anh thông thường, các nghiên cứu gần đây

đi theo hai hướng chính [AZ12]:

2 Automatic content extraction (ACE) evaluation. />3 />
19


• Hướng tiếp tục nâng cấp hiệu quả của phương pháp nhận dạng thực thể bằng
cách đưa thêm các thông tin được sinh ra từ một lượng lớn dữ liệu không có
nhãn, điển hình của hướng đi này là việc áp dụng các kỹ thuật học máy bán
giám sát (semi-supervised) và học máy sâu (deep learning). Ando và Zhang
áp dụng học máy bán giám sát sử dụng 27 triệu từ chưa gán nhãn để nâng
cấp chất lượng nhận dạng [AZ05], Ratinov và Roth cũng sử dụng bán giám
sát với dữ liệu từ Wikipedia kết hợp với các cụm từ vựng (word clusters)
được sinh ra bằng phương pháp gom cụm Brown [RR09]. Kết quả của hai
nhóm đều đạt cao hơn mô hình của Florian và cộng sự (2003) với các độ đo
F1 tương ứng là 90,8 và 89,31. Collobert và cộng sự (2011) đưa ra một cách
giải quyết khác bằng việc sử dụng kỹ thuật học sâu với việc áp dụng mạng
nơron nhiều tầng để huấn luyện mô hình nhận dạng thực thể kết hợp với các
thông tin hỗ trợ từ 852 triệu từ chưa được gán nhãn, kết quả trên độ đo F1 đạt
được là 89,59 cũng cao hơn mô hình cơ sở của Florian và cộng sự. Mặc dù
kết quả tăng chưa cao so với mô hình chuẩn tuy nhiên các nghiên cứu này
tạo được sự quan tâm lớn của cộng đồng nghiên cứu khi đưa ra một hướng đi
mới cho việc tăng cường ngữ nghĩa thông qua lượng dữ liệu lớn chưa có
nhãn.
• Một hướng đi khác của cộng đồng nghiên cứu là áp dụng các kỹ thuật học
máy đã có vào các dạng thực thể khó hơn trong các miền dữ liệu khác như
dữ liệu y sinh, địa lý, mạng xã hội,… hay một loại ngôn ngữ khác không
nhiều tài nguyên như tiếng Anh. Bên cạnh đấy việc nghiên cứu các kỹ thuật
thích nghi miền (domain adaptation) cũng được đặt ra khi các nhà nghiên
cứu cố gắng áp dụng những mô hình nhận dạng thực thể đã tốt cho một miền

dữ liệu mới chưa có dữ liệu gán nhãn. Một số nghiên cứu có thể kể đến như
nghiên cứu của Daume (2007) đánh giá việc thích nghi miền giữa một số tập
dữ liệu nhận dạng thực thể [DA07] hay nghiên cứu của Wang và cộng sự
(2009) đánh giá thích nghi miền trong nhận diện các thực thể protein
[WKS09].

20


1.3. Nhận dạng thực thể trong dữ liệu văn bản tiếng Việt và một số
nghiên cứu liên quan
Bắt nhịp với tình hình phát triển chung trên toàn thế giới, các văn bản tiếng
Việt cũng ngày càng xuất hiện nhiều dưới dạng văn bản điện tử, và cùng với đó
chính là nguyên nhân phát sinh nhu cầu khai thác thông tin có giá trị từ các văn bản
này. Nhận dạng thực thể đóng một vai trò chủ chốt trong khai phá văn bản, chính vì
thế nó cũng nhanh chóng trở thành một lĩnh vực nghiên cứu được nhiều nhà khoa
học trong nước quan tâm.
Áp dụng được NER cho dữ liệu tiếng Việt đồng nghĩa với việc đặt một nền
tảng quan trọng trong việc xây dựng được các hệ thống ứng dụng cho nhiều lĩnh
vực khác như tài chính, kinh tế, xã hội, y sinh, v.v.. phù hợp với tình hình trong
nước.
Trong mục này, luận án tóm tắt về một số thách thức cần giải quyết khi xử lý
văn bản tiếng Việt, động cơ nghiên cứu và tầm quan trọng của bài toán bài toán
nhận dạng thực thể tiếng Việt, điểm qua một số tài nguyên hữu ích cũng như tình
hình nghiên cứu hiện tại.
1.3.1. Những thách thức đối với xử lý dữ liệu tiếng Việt
Có thể nêu ra một số đặc điểm của tiếng Việt khiến cho nó trở nên khác biệt
và khó xử lý như sau, một số các đặc điểm dưới đây được tham khảo từ tài liệu
[DH96] và một số khác dựa trên quan điểm của nghiên cứu sinh về tiếng Việt:
• Khác với tiếng Anh, Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng

(âm tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết. Từ
tiếng, người ta tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện
tượng v.v.., chủ yếu nhờ phương thức ghép và phương thức láy, ví dụ: “con
người”, “khoa học”, “công nghệ thông tin”, “đu đủ”, “thừa thãi”, v.v.. Các
từ này được viết rời theo từng âm tiết chứ không theo từng từ. Chính điều
này khiến cho việc xác định biên của một từ trong tiếng Việt trở nên khó
khăn hơn.

21


• Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một cách dễ dàng đã
tạo điều kiện thuận lợi cho sự phát triển vốn từ nhưng đồng thời cũng gây
khó khăn trong việc bao quát các thể hiện của ngôn ngữ. Ví dụ, bên cạnh các
yếu tố cấu tạo từ thuần Việt, tiếng Việt có vay mượn từ các ngôn ngữ khác để
tạo ra các từ mới, như “ghi đông”, “karaoke”, “siêu liên kết”, v.v.. Các từ
địa phương xuất hiện trong văn bản cũng là một yếu tố khiến tiếng Việt trở
nên phức tạp hơn.
• Hiện tượng đồng âm khác nghĩa trong tiếng Việt là khá phổ biến, Ví dụ:
“lợi” (có ích lợi – tương ứng với “benefit” trong tiếng Anh) và “lợi” (“lợi”
thuộc về răng hàm mặt – “alveolar”).
• Ngược lại, cùng một sự vật, hiện tượng, một hoạt động hay một đặc trưng lại
có thể có nhiều từ ngữ khác nhau biểu thị. Hiện tượng các từ gần nghĩa, đồng
nghĩa nhưng cách dùng khác nhau và không thể thay cho nhau trong mọi ngữ
cảnh cũng khá phổ biến, ví dụ: “hội đàm”, “hội nghị”, “hội thảo”, “toạ
đàm” hay “tìm” và “kiếm”.
• Ngữ pháp Việt Nam là ngữ pháp cực kỳ phức tạp. Đối với hầu hết người Việt
Nam, câu nói “phong ba bão táp không bằng ngữ pháp Việt Nam” chắc chắn
không phải là xa lạ. Ngữ pháp Việt Nam phức tạp không phải bởi vì nó có bộ
luật cồng kềnh và chặt chẽ như nhiều ngôn ngữ khác, mà ngược lại, vì nó

quá linh động với vô số biến thể và trường hợp ngoại lệ. Sự phức tạp của ngữ
pháp Việt Nam được thể hiện ở nhiều khía cạnh, nó có thể bởi cách tư duy
khác nhau của người Việt (ví dụ “áo ấm” và “áo lạnh” là hai từ đồng nghĩa
trong khi “lạnh” và “ấm” là hai từ trái nghĩa), do thói quen sử dụng từ (ví
dụ, về mặt lý thuyết thì “con” được dùng trước danh từ chỉ động vật, nhưng
trong thực tế “con” lại kết hợp được với một số từ chỉ bất động vật như “con
mắt”, “con đường”, “con dao”, v.v..), hay do bản thân các cấu trúc trật tự từ
(ví dụ, Trong câu hỏi về tương lai, các từ bao giờ, khi nào, bao nhiêu thường
được đặt ở đầu câu, trong khi đó nếu để hỏi về quá khứ thì chúng thường
được đặt ở cuối câu).

22


Một vấn đề khác mang tính kỹ thuật hơn. Đó là vì sự phát triển còn non trẻ của lĩnh
vực xử lý ngôn ngữ tự nhiên cũng như khai phá văn bản trong nước, các tài nguyên
ngôn ngữ và công cụ hỗ trợ được xây dựng cho tiếng Việt còn rất ít và có nhiều hạn
chế. Cộng đồng nghiên cứu tiếng Việt cũng chưa có sự liên kết chặt chẽ, dẫn tới mỗi
nghiên cứu lại có tính cá nhân mà chưa tận dụng được hết những kết quả của các
nghiên cứu trước đó.
1.3.2. Động cơ nghiên cứu
Như đã được trình bày, tiếng Việt có những đặc điểm khác biệt so với các
ngôn ngữ khác (ví dụ như tiếng Anh), vì vậy, nhiều phương pháp nhận dạng thực
thể đã được áp dụng thành công cho tiếng Anh song không đảm bảo đem lại kết quả
tương ứng khi sử dụng cho dữ liệu tiếng Việt. Vì vậy việc đề xuất một phương pháp
hiệu quả đối với dữ liệu tiếng Việt là nhiệm vụ bức thiết của chính những nhà
nghiên cứu trong nước, trong đó có nghiên cứu sinh.
Nắm bắt được nhu cầu thực tế và với mong muốn được cống hiến công sức
của mình để nghiên cứu tiếng mẹ đẻ từ đó góp phần đem lại thêm những tri thức có
giá trị đến với cộng đồng khoa học trong nước, nghiên cứu sinh coi việc tập trung

nghiên cứu bài toán nhận dạng thực thể trong văn bản tiếng Việt là một trong hai
mục tiêu nghiên cứu chính của luận án.
1.3.3. Các nghiên cứu liên quan
Nhận dạng thực thể trong tiếng Việt đang nhận được nhiều sự quan tâm của
cộng đồng nghiên cứu trong nước cũng như các nhà nghiên cứu đang sống và làm
việc tại nước ngoài. Nhiều công trình nghiên cứu về trích xuất thông tin tiếng Việt
đã được đăng và xuất bản tại các hội nghị uy tín như: EACL, IJNLP, PAKDD,…
hay các tạp chí có chỉ số cao như TALIP, TKDE,… bên cạnh đấy một số hội nghị
cũng đã có những phiên làm việc tập trung về lĩnh vực này cho tiếng Việt như KSE,
RIVF, SoICT,…
Phần lớn các nghiên cứu về nhận dạng thực thể tiếng Việt cũng đi theo xu
hướng của các nghiên cứu trên thế giới là dựa vào các phương pháp học máy, bên

23


cạnh đấy, một số nghiên cứu áp dụng một số luật để nhận dạng như luật rippledown-rule [NP12, NHP10] hay luật ngữ pháp [LN10, LDN13] cũng được sử dụng.
Các phương pháp nói trên cho hiệu quả khá tốt với độ đo F nằm trong khoảng 8090% đối với một số loại thực thể phổ biến như người, địa danh, tổ chức, thời gian.
Các phương pháp học máy được sử dụng để giải quyết bài toán nhận dạng
thực thể tiếng Việt chủ yếu là giám sát và bán giám sát. Đối với học máy giám sát,
Nguyen Cam Tu và cộng sự [TOH05] áp dụng phương pháp trường ngẫu nhiên có
điều kiện (CRF) trên tập dữ liệu huấn luyện tự xây dựng gồm 8 loại thực thể (tên
người, địa danh, tổ chức, tiền tệ, thời gian, số, phần trăm, một số loại khác) kết quả
đạt 85,51% với độ đo F. Cũng sử dụng phương pháp CRF, tuy nhiên, Le và cộng sự
[LV13] và Nguyen và cộng sự [NC12] đã đưa thêm một số đặc trưng liên quan đến
ontology và kỹ thuật lựa chọn đặc trưng dựa trên giải thuật di truyền nhằm nâng cao
chất lượng nhận dạng. Tran và cộng sự [TTQ07] huấn luyện mô hình nhận dạng
thực thể tiếng Việt dựa trên phương pháp máy vector hỗ trợ (SVM) bằng công cụ
Yamcha4, mô hình cho kết quả tương đối khả quan khi so sánh với phương pháp
CRF trên độ đo F, đạt 87,75% so với 86,48%. Thao và cộng sự [TTD07] đã cải tiến

kết quả của Tran và cộng sự bằng việc tổ hợp kết quả đã có với nhiều kết quả của
các phương pháp học khác nhau (ensemble learning) thông qua kỹ thuật bình chọn
(voting), phương pháp này làm tăng hiệu quả của mô hình nhận dạng từ 87,75% lên
88,02%.
Bên cạnh các phương pháp học giám sát, các phương pháp học bán giám sát
(semi-supervised learning) cũng được áp dụng trong nhiều nghiên cứu. Trong
[SLT11a], Sam và cộng sự sử dụng phương pháp học bán giám sát lan truyền nhãn
dựa trên đồ thị tương tự. Với ưu điểm của các phương pháp học máy bán giám sát là
tận dụng các nguồn dữ liệu lớn chưa được gán nhãn để hỗ trợ thông tin cho mô hình
học, phương pháp này đã đạt được những kết quả khả quan trong nhận diện ba thực
thể phổ biến là người, địa danh, tổ chức. Một hướng tiếp cận khác của học bán giám
sát là học dựa trên các mẫu (pattern-based), Le Trung và cộng sự [LLL14] đã áp
4 />
24


dụng phương pháp mồi dữ liệu (bootstrapping) để tự động sinh ra các mẫu nhận
dạng thực thể từ một số lượng nhỏ các thực thể hạt giống (seed), phương pháp này
cho hiệu quả tốt nếu tập dữ liệu huấn luyện nhỏ, tuy nhiên việc quản lý nhập nhằng
giữa các mẫu ngữ pháp của các thực thể khác nhau là một thách thức không nhỏ khi
vòng lặp sinh mẫu lớn hay số loại thực thể nhiều.
Bên cạnh các nghiên cứu về nhận dạng thực thể, một số các nghiên cứu ứng
dụng nhận dạng thực thể cũng được các nhà nghiên cứu trong nước nêu ra như trích
xuất quan hệ và sự kiện tiếng Việt. Sam và cộng sự (2011) [SLT11b] đã áp dụng
phương pháp học bán giám sát mồi dữ liệu (bootstrapping) để sinh ra các mẫu ngôn
ngữ nhận biết các cặp thực thể có quan hệ với nhau, bên cạnh đấy nghiên cứu cũng
áp dụng phương pháp SVM để xác định loại quan hệ cũng như làm tốt hơn kết quả
trích xuất các mẫu ngôn ngữ. Trong nghiên cứu về trích xuất sự kiện của mình,
Nguyen và cộng sự [NN13] đã thực hiện việc trích xuất các sự kiện liên quan đến
dịch bệnh trong miền dữ liệu văn bản tiếng Việt, các sự kiện dịch bệnh sẽ là một tổ

hợp các thực thể liên quan đến dịch bệnh xuất hiện trong văn bản được xét và được
nhận dạng dựa trên mô hình nhận dạng thực thể. Việc xem xét các mối quan hệ giữa
sự kiện và thực thể hay giữa các thực thể và thực thể được thực hiện dựa vào một số
luật đơn giản, chính vì thế hiệu quả của mô hình trích xuất sự kiện chưa đạt kết quả
cao như các phương pháp sử dụng các kỹ thuật phân tích ngữ nghĩa sâu trong xử lý
ngôn ngữ tiếng Anh.

1.4. Nhận dạng thực thể trong dữ liệu văn bản y sinh tiếng Anh và một số
nghiên cứu liên quan
1.4.1. Những thách thức đối với xử lý dữ liệu y sinh
Khai phá văn bản y sinh nói chung và nhận dạng thực thể y sinh nói riêng có
nhiều điểm khác biệt so với lĩnh vực nghiên cứu này cho dữ liệu thông thường.
Nhận xét này thể hiện ở hai điểm: Thứ nhất, do mục tiêu cụ thể của các hệ thống
khai phá văn bản y sinh, bên cạnh những đối tượng kinh điển như người, tổ chức,
địa điểm, v.v.. hệ thống khai phá văn bản y sinh thường hướng tới một số đối tượng

25


×