Tải bản đầy đủ (.pdf) (137 trang)

Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.14 MB, 137 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN MAI VŨ

NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN
VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội–2018


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN MAI VŨ

NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN
VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG

Chuyên ngành: Hệ thống thông tin
Mã số: 62.48.05.01
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC:
1. PGS.TS. Hà Quang Thụy
2. PGS.TS. Nguyễn Lê Minh

Hà Nội – 2018
Họ và tên tác giả luận án




LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết quả đƣợc
viết chung với các tác giả khác đều đƣợc sự đồng ý của các đồng tác giả trƣớc khi
đƣa vào luận án. Các kết quả nêu trong luận án là trung thực và chƣa từng đƣợc
công bố trong các công trình nào khác.
Tác giả

Trần Mai Vũ

1


LỜI CẢM ƠN
Luận án đƣợc thực hiện tại Bộ môn Hệ thống thông tin - Khoa Công nghệ
thông tin - Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội, dƣới sự hƣớng
dẫn khoa học của PGS.TS. Hà Quang Thụy và PGS.TS. Nguyễn Lê Minh.
Trƣớc tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy PGS.TS. Hà Quang
Thụy và PGS.TS. Nguyễn Lê Minh, những ngƣời đã đƣa tôi đến với lĩnh vực
nghiên cứu này. Các thầy đã tận tình giảng dạy, hƣớng dẫn giúp tôi tiếp cận và đạt
đƣợc thành công trong công việc nghiên cứu của mình. Các thầy đã luôn tận tâm
động viên, khuyến khích và chỉ dẫn giúp tôi hoàn thành đƣợc bản luận án này.
Tôi xin bày tỏ lòng biết ơn tới các Thầy Cô thuộc Khoa Công nghệ thông tin
và cán bộ Phòng Đào tạo - Trƣờng Đại học Công nghệ, đã tạo mọi điều kiện thuận
lợi giúp đỡ tôi trong quá trình học tập và nghiên cứu tại trƣờng.
Tôi xin cảm ơn PGS. TS. Nigel Collier và cộng sự đã đóng góp ý kiến quý báu
giúp tôi hoàn thiện bản luận án.
Sự động viên, cổ vũ của bạn bè là nguồn động lực quan trọng để tôi hoàn
thành luận án. Tôi xin bày tỏ lòng biết ơn sâu sắc tới gia đình, vợ và các con tôi đã

tạo điểm tựa vững chắc cho tôi có đƣợc thành công nhƣ ngày hôm nay.
Tác giả

Trần Mai Vũ

2


MỤC LỤC
LỜI CAM ĐOAN

1

LỜI CẢM ƠN

2

MỤC LỤC

3

DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT

7

DANH MỤC CÁC BẢNG

8

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ


10

MỞ ĐẦU

11

Lý do chọn đề tài

11

Mục tiêu cụ thể và phạm vi nghiên cứu của luận án

12

Cấu trúc của luận án

15

Chƣơng 1 - KHÁI QUÁT VỀ NHẬN DẠNG THỰC THỂ
1.1.

Một số khái niệm cơ bản

17
17

1.1.1. Định nghĩa bài toán nhận dạng thực thể

17


1.1.2. Thách thức

19

1.1.3. Độ đo đánh giá

19

1.1.4. Ứng dụng của nhận dạng thực thể

21

1.2. Sơ lƣợc về lịch sử nghiên cứu và một số hƣớng giải quyết bài toán

22

1.3.Nhận dạng thực thể trong dữ liệu văn bản tiếng Việt và một số nghiên cứu
liên quan

24

1.3.1. Những thách thức đối với xử lý dữ liệu tiếng Việt

24

1.3.2. Động cơ nghiên cứu

26


1.3.3. Các nghiên cứu liên quan

26

1.4.Nhận dạng thực thể trong dữ liệu văn bản y sinh tiếng Anh và một số
nghiên cứu liên quan

29

1.4.1. Những thách thức đối với xử lý dữ liệu y sinh

29

1.4.2. Động cơ nghiên cứu

30

1.4.3. Các nghiên cứu liên quan

31
3


1.5. Tổng kết chƣơng

34

Chƣơng 2 – NHẬN DẠNG THỰC THỂ TÊN NGƢỜI KẾT HỢP VỚI NHẬN
DẠNG THUỘC TÍNH THỰC THỂ CÓ TÊN TRONG VĂN BẢN
TIẾNG VIỆT


36

2.1. Giới thiệu

36

2.2. Các nghiên cứu liên quan

38

2.2.1. Các nghiên cứu liên quan trên thế giới

38

2.2.2. Các nghiên cứu liên quan ở Việt Nam

39

2.3. Một mô hình giải quyết bài toán nhận dạng thực thể tên ngƣời kết hợp với
nhận dạng thuộc tính thực thể

40

2.3.1. Mô hình Entropy cực đại giải mã bằng tìm kiếm chùm (MEM+BS)

40

2.3.2. Phƣơng pháp trƣờng ngẫu nhiên có điều kiện (CRF)


41

2.3.3. Mô hình đề xuất

42

2.3.4. Tập đặc trƣng

46

2.4. Thực nghiệm, kết quả và đánh giá

47

2.4.1. Công cụ và dữ liệu đánh giá

47

2.4.2. Kết quả thực nghiệm đánh giá trên toàn hệ thống

49

2.4.3. Kết quả thực nghiệm đánh giá trên từng nhãn

50

2.5. Mô hình áp dụng vào hệ thống hỏi đáp tên ngƣời tiếng Việt

52


2.5.1. Khái quát bài toán

52

2.5.2. Đặc trƣng câu hỏi liên quan đến thực thể tên ngƣời trong tiếng Việt

53

2.5.3. Mô hình đề xuất

55

2.5.4. Phƣơng pháp và dữ liệu đánh giá mô hình hỏi đáp tự động

61

2.5.6. Thực nghiệm và đánh giá

61

2.6. Tổng kết chƣơng

64

Chƣơng 3 – NHẬN DẠNG THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN Y SINH
TIẾNG ANH

66

3.1. Giới thiệu


66

3.1.1. Động cơ và khái quát bài toán nhận dạng thực thể biểu hiện

4

66


3.1.2. Một số khái niệm cơ bản liên quan đến thực thể biểu hiện và một số
thực thể liên quan

69

3.1.3. Vấn đề về thích nghi miền trong nhận dạng thực thể y sinh

73

3.2. Mô hình nhận dạng thực thể biểu hiện và một số thực thể liên quan

75

3.2.1. Cơ sở lý thuyết

75

3.2.2. Dữ liệu đánh giá và tài nguyên hỗ trợ

77


3.2.3. Mô hình đề xuất

82

3.2.4. Tập đặc trƣng và đánh giá đặc trƣng

83

3.2.5. Phƣơng pháp đánh giá

87

3.3. Thực nghiệm

88

3.3.1. Thực nghiệm 1: đánh giá hiệu quả của mô hình đề xuất với các kỹ
thuật học máy khác nhau

88

3.3.2. Thực nghiệm 2: so sánh kết quả của mô hình đề xuất với một số
nghiên cứu liên quan

90

3.3.3. Thực nghiệm 3: đánh giá đóng góp của từng tài nguyên đối với kết
quả nhận diện thực thể


93

3.3.4. Thực nghiệm 4: ứng dụng mô hình đề xuất để nhận dạng thực thể y
sinh trong cuộc thi BioCreAtIvE V CDR Task

94

3.4. Thích nghi miền dữ liệu trong nhận dạng thực thể y sinh

96

3.4.1. Thực nghiệm

97

3.4.2. Kết quả và đánh giá

98

3.5. Tổng kết chƣơng

100

Chƣơng 4 – MỘT MÔ HÌNH NÂNG CẤP HIỆU QUẢ NHẬN DẠNG THỰC THỂ
Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC XẾP HẠNG 102
4.1. Mô hình nâng cấp nhận dạng thực thể biểu hiện và các thực thể liên quan 102
4.2. Các phƣơng pháp lai ghép đƣợc đề xuất

104


4.2.1 Phƣơng pháp lai ghép sử dụng luật

104

4.2.2 Phƣơng pháp lai ghép sử dụng học máy gán nhãn chuỗi

107

4.2.3 Phƣơng pháp lai ghép sử dụng học xếp hạng

108

5


4.3. Thực nghiệm và đánh giá kết quả

110

4.3.1. Phƣơng pháp đánh giá

110

4.3.2 Thực nghiệm đánh giá hiệu quả của từng phƣơng pháp lai ghép

111

4.3.3 Thực nghiệm kiểm thử tin cậy trong quá trình đánh giá hiệu quả của
các tài nguyên


113

4.3.4 Thảo luận và phân tích lỗi

114

4.4. Kết luận chƣơng

117

KẾT LUẬN

119

DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ CÓ LIÊN QUAN ĐẾN
LUẬN ÁN

121

TÀI LIỆU THAM KHẢO

122

6


DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT
Kí hiệu

Tiếng Anh


Tiếng Việt

NER

Named Entity Recognition

Nhận dạng thực thể định
danh

NLP

Natural Language Processing

Xử lý ngôn ngữ tự nhiên

BioNLP

Biomedical Natural Language Xử lý ngôn ngữ tự nhiên cho
Processing
dữ liệu y sinh

IE

Information Extraction

Trích xuất thông tin

CRF


Conditional Random Fields

Trƣờng ngẫu nhiên có điều
kiện

SVM

Support Vector Machine

Máy véctơ hỗ trợ

SVM-LTR

SVM-Learn to rank

Học xếp hạng máy véctơ hỗ
trợ

MEModel,
Maxent Model

Maximum Entropy Model

Mô hình Entropy cực đại

MEM+BS

Maximum Entropy
with Beam Search


Model Mô hình Entropy cực đại với
giải mã tìm kiếm chùm

7


DANH MỤC CÁC BẢNG
Bảng 2.1. Một ví dụ về trích chọn thực thể tên ngƣời và các thuộc tính liên quan

37

Bảng 2.2. Các nhãn đƣợc sử dụng trong mô hình

43

Bảng 2.3. Tập đặc trƣng đƣợc sử dụng

46

Bảng 2.4. Thống kê thực thể trong tập dữ liệu đƣợc gán nhãn

48

Bảng 2.5. Kết quả đánh giá toàn hệ thống trên hai mô hình với hai phƣơng pháp
MEM+BS và CRF

49

Bảng 2.6. Kết quả thực nghiệm đối với từng nhãn


51

Bảng 2.7. Ví dụ về một số thành phần câu hỏi

56

Bảng 2.8. Các thành phần xuất hiện trong câu hỏi về thực thể tên ngƣời

57

Bảng 2.9. Ví dụ gán nhãn tổng quát cho câu hỏi về thực thể tên ngƣời tiếng Việt

58

Bảng 2.10. Thống kê trên tập dữ liệu câu hỏi đánh giá

61

Bảng 2.11. Kết quả đánh giá thành phần phân tích câu hỏi

62

Bảng 2.12. Kết quả đánh giá của hệ thống trả lời tự động

63

Bảng 3.1. Danh sách các bệnh tự miễn dịch đƣợc sử dụng để xây dựng dữ liệu
Phenominer A

78


Bảng 3.2. Các đặc điểm của dữ liệu Phenominer A về bệnh tự miễn dịch và
Phenominer B về bệnh tim mạch

80

Bảng 3.3. Các đặc trƣng sử dụng trong thực nghiệm

84

Bảng 3.4. Thực nghiệm so sánh các phƣơng pháp học máy khác nhau

89

Bảng 3.5. Thực nghiệm so sánh mô hình đề xuất và các hệ thống khác

91

Bảng 3.6. Kết quả đánh giá tài nguyên của mô hình nhận dạng thực thể

93

Bảng 3.7. Thống kê trên ba tập dữ liệu của nhiệm vụ CDR [WPL15]

95

Bảng 3.8. Kết quả mô hình nhận dạng trên tập dữ liệu kiểm thử

96


Bảng 3.9. Kết quả F1 của hệ thống NER sử dụng phƣơng pháp thực nghiệm 1-6.

98

Bảng 4.1. Các đặc trƣng đƣợc MEM + BS sử dụng để quyết định kết quả

108

Bảng 4.2. Kết quả của mô hình trên tập dữ liệu Phenominer A khi sử dụng các
phƣơng pháp khác nhau để lai ghép kết quả
8

111


Bảng 4.3. Kiểm thử độ tin cậy dựa trên thống kê về sự khác biệt hiệu năng sử dụng
xấp xỉ ngẫu nhiên đối với các thực nghiệm loại bỏ lần lƣợt từng tài
nguyên.

112

Bảng 4.4. Kiểm thử độ tin cậy dựa trên thống kê về sự khác biệt hiệu năng sử dụng
xấp xỉ ngẫu nhiên đối với các thực nghiệm

113

Bảng 4.5. Các lỗi của mô đun quyết định kết quả sử dụng danh sách ƣu tiên (PL) và
học xếp hạng sử dụng SVM (LTR)

9


115


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 0.1. Thống kê các công trình nghiên cứu liên quan đến cụm từ ―named entity
recognition‖ trên Springer từ 2002 - tháng 11/2017

11

Hình 0.2. Biểu đồ phân bố các công trình đã công bố của nghiên cứu sinh tƣơng ứng
với các chƣơng của luận án

16

Hình 1.1. Mô tả các độ đo độ chính xác, độ hồi tƣởng và độ đo F1

20

Hình 1.2. Các nhiệm vụ về xử lý ngôn ngữ tự nhiên cho văn bản y sinh trong giai
đoạn 2002-2014 [HL15]

31

Hình 2.1. Đồ thị vô hƣớng mô tả CRF

41

Hình 2.2. Một ví dụ về câu đƣợc gán nhãn


44

Hình 2.3. Mô hình tích hợp NER và trích chọn thuộc tính của thực thể tên ngƣời

45

Hình 3.1. Biểu diễn của biểu hiện trong văn bản tƣờng thuật và các thuật ngữ trƣớc
và sau biên soạn.

67

Hình 3.2. Ví dụ chứa các thực thể biểu hiện, gen, bệnh và mối quan hệ giữa chúng

68

Hình 3.3. Lƣợc đồ ngữ nghĩa của các loại thực thể nhận dạng trong luận án

73

Hình 3.4. Mô hình nhận dạng thực thể biểu hiện của Khordad và cộng sự [KMR11] 76
Hình 3.5. Mô hình nhận dạng thực thể biểu hiện và các thực thể liên quan

82

Hình 4.1. Kiến trúc tổng quan của hệ thống NER y sinh

103

Hình 4.2. Một ví dụ gán nhãn các đặc trƣng dựa trên tài nguyên trong câu


104

Hình 4.3. Mô hình hệ thống sử dụng danh sách ƣu tiên để quyết định kết quả

106

Hình 4.4. Nhập nhằng và không nhập nhằng

106

Hình 4.5. Mô hình hệ thống sử dụng MEM + BS để quyết định kết quả

107

Hình 4.6. Mô hình hệ thống sử dụng SVM-LTR để quyết định kết quả

109

10


MỞ ĐẦU
Lý do chọn đề tài
Nhận dạng thực thể có tên (Named entity recognition:NER; còn đƣợc gọi là
―nhận dạng thực thể định danh‖) là một bài toán chính thuộc lĩnh vực xử lý ngôn
ngữ tự nhiên (NLP). Đây là một bài toán tiền đề cho các hệ thống về hiểu ngôn ngữ
hay khai phá dữ liệu văn bản nhƣ trích xuất sự kiện, hỏi đáp tự động hay tìm kiếm
ngữ nghĩa.Chính vì vậy, cùng với sự phát triển của dữ liệu văn bản trên Internet, bài
toán này cũng nhận đƣợc sự quan tâm của cộng đồng nghiên cứu trong khoảng 20
năm trở lại đây.


Số công trình xuất bản

Named Entity Recognition
450
400
350
300
250
200
150
100
50
0

340 356

136
24

30

160 145

182 187

217

243


382 382

357

268

61

2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Năm

Hình 0.1. Thống kê các công trình nghiên cứu liên quan đến cụm từ “named entity
recognition” trên Springer từ 2002 - tháng 11/2017
Kết quả trả lời của trang web tìm kiếm của Springervới truy vấn ―Named
entity recognition‖theo cách chính xác cụm từ (―with the exact phrase”)1cho thấy
từ năm 2002 đến nay có trên 3500công trình liên quan,với trên 1800 công trình
công bố trong 5 năm gần đây từ 2013 đến 2017(khoảng 350công trình/năm) nhƣ chỉ
ra ở Hình 0.1. Không chỉ nhiều về số lƣợng, các nghiên cứu về NER cũng xuất hiện

1

/>ate-facet-mode=between&facet-start-year=1998&showAll=true#

11


thƣờng xuyên tại các hội nghị thƣờng niên hàng đầu về NLP nhƣ ACL, EMNLP,
NAACL,… hay các tạp chí danh tiếng có chỉ số IF (impact factor) cao nhƣ
PLOSONE, Bioinformatics, TKDE, TACL,…
Mặc dù đã có khá nhiều công trình nghiên cứu cho một số loại thực thể thông

thƣờng trong văn bản tiếng Anh tuy nhiên những nghiên cứu liên quan đến các thực
thể trong ngôn ngữ khác nhƣ tiếng Việt hay các miền dữ liệu đặc biệt nhƣ miền dữ
liệu y sinh vẫn còn rất nhiều hạn chế và thách thức. Có thể kể đến là sự khuyết thiếu
các tập dữ liệu gán nhãn chuẩn, tài nguyên ngôn ngữ về tri thức miền hay các định
nghĩa hình thức về kiểu thực thể cần nhận dạng…Luận án này tiếp nối những
nghiên cứu trƣớc đó nhằm giải quyết một phần những hạn chế đƣợc nêu ra ở trên.
Mục tiêu cụ thể và phạm vi nghiên cứu của luận án sẽ đƣợc mô tả kỹ hơn ở phần
tiếp theo.

Mục tiêu cụ thể và phạm vi nghiên cứu của luận án
Nhƣ đã nêu trong lý do chọn đề tài, luận án tập trung vào bài toán nhận dạng
thực thể với hai loại dữ liệu thuộc hai ngôn ngữ khác nhau là các thực thể thuộc dữ
liệu văn bản tiếng Việt và các thực thể thuộc dữ liệu văn bản y sinh.
Mục tiêu cụ thể của luận án là phát triển vấn đề, đề xuất giải pháp và xây dựng
thực nghiệm cho việc nhận dạng các loại thực thể thuộc hai miền dữ liệu trên.
Nhìn chung, bài toán nhận dạng thực thể đã đƣợc quan tâm nghiên cứu và đạt
đƣợc một số kết quả nhất định, tuy nhiên các kết quả này hầu hết chỉ xử lý cho các
thực thể thông thƣờng trong văn bản tiếng Anh.Trong khi đấy, nhận dạng thực thể
với miền dữ liệu văn bản thông thƣờng tiếng Việt và văn bản y sinh vẫn còn nhiều
vấn đề lớn đặt ra nhƣ không có một tập dữ liệu chuẩn cùng những mô tả rõ ràng về
khái niệm liên quan đến các thực thể hay các tài nguyên công cụ phục vụ cho việc
nhận dang. Nhìn nhận đƣợc các hạn chế này, luận án tập trung vào giải quyết hai
bài toán nói trên trong phạm vi dữ liệu có tính chất đặc thù hơn, cụ thể là:
 Giải quyết bài toán nhận dạng thực thể cho dữ liệu văn bản tiếng Việt.
Nghiên cứu sinh đi sâu vào việc tìm hiểu những thành quả nghiên cứu tiên
tiến về nhận dạng thực thể với mong muốn áp dụng và đề xuất các cải tiến
mới nhằm áp dụng và cải thiện hiệu quả cho quá trình nhận dạng thực thể
trong văn bản tiếng Việt. Bên cạnh đấy, luận án tìm hiểu một trong

12



nhữnghƣớng ứng dụng điển hình của các mô hình nhận dạng thực thể tiếng
Việt, cụ thể ở đây là bài toán hỏi đáp tự động cho tiếng Việt.
 Giải quyết bài toán nhận dạng thực thể cho dữ liệu y sinh (tiếng Anh).
Số lƣợng dữ liệu y sinh dƣới dạng điện tử đang tăng với tốc độ cao tạo nên
tiềm năng lớn phục vụ cho một loạt các ứng dụng xã hội, đặc biệt là y tế
cộng đồng. Với tiềm năng nói trên và tính chất phức tạp từ đặc thù chuyên
ngành, khai phá dữ liệu y sinh đang là một thách thức lớn đối với các nhà
khoa học trên toàn thế giới. Nắm bắt đƣợc xu hƣớng nghiên cứu này, luận án
khảo sát và đề xuất phƣơng án giải quyết bài toán nhận dạng thực thể trong
văn bản y sinh kết hợp nhiều nguồn tài nguyên tri thức cũng nhƣ các kỹ thuật
học máy thống kê. Luận án tập trung vào bài toán nhận dạng thực thể biểu
hiện (phenotype) và các thực thể liên quan nhƣ: gene, bệnh, bộ phận cơ
thể,….
Trên cơ sở phân tích công phu các giải pháp tiên tiến trên thế giới, luận án
đƣợc định hƣớng vào việc nghiên cứu phát triển các giải pháp hiệu quả tƣơng thích
với miền dữ liệu có nhiều đặc trƣng đặc biệt và xây dựng thực nghiệm đánh giá. Cụ
thể, luận án giải đáp các vấn đề nghiên cứu sau đây:
 Khảo sát và đƣa ra các phƣơng án xử lý các đặc điểm riêng biệt của với dữ
liệu tiếng Việt và dữ liệu y sinh tiếng Anh.
 Đề xuất phƣơng án tiếp cận mới tận dụng đƣợc các nghiên cứu tiên tiến trƣớc
đó và tiếp cận giải quyết đƣợc những đặc điểm riêng biệt của miền dữ liệu
đang xem xét.
 Xây dựng bộ dữ liệu phục vụ cho thực nghiệm.
 Xây dựng các thực nghiệm để đánh giá các mô hình giải quyết bài toán đã đề
xuất.
 Xây dựng hệ thống chạy thực tế đối với các mô hình đạt kết quả khả quan.
 Định hƣớng phát triển nâng cấp nghiên cứu.
Ở Việt Nam, đã có một số luận án tiến sĩ nghiên cứu về các bài toán nhận dạng

thực thể trong tiếng Việt. Luận án tiến sĩ của Sam Chanrathany (2013) [SC13] làm
về trích xuất thực thể và một số mối quan hệ hai ngôi giữa các thực thể trong tiếng
13


Việt sử dụng phƣơng pháp học bán giám sát. Luận án tiến sĩ của Nguyễn Thanh
Hiên (2011) [NTH11] giải quyết vấn đề phân biệt nhập nhằng giữa các thực thể dựa
trên nguồn tri thức từ các ontology miền đóng và miền mở. Cả hai luận án này đã
đƣa ra đƣợc một số cách giải quyết nhận dạng thực thể cùng xử lý nhập nhằng
thông qua các thuộc tính có quan hệ đến thực thể. Tuy nhiên tập dữ liệu đánh giá là
tƣơng đối nhỏ (1200 câu) chƣa thể hiện rõ đƣợc hiệu quả mà các phƣơng pháp đem
lại.
Luận án khảo sát một số luận án Tiến sỹ trên thế giới liên quan đến chủ đề
nhận dạng thực thể gene và thực thể biểu hiện, điển hình là [VA10, KM14].
Vlachos (2010) [VA10] tập trung giải quyết hai bài toán là nhận dạng thực thể các
thực thể gene và trích xuất sự kiện tại hội thảo BioNLP, các phƣơng pháp đƣợc áp
dụng hầu hết dựa trên kỹ thuật nhận dạng bằng luật và một ít kỹ thuật học máy nên
các mô hình chƣa cho kết quả cao. Khordad (2014) [KM14] đi sâu vào bài toán
nhận dạng thực thể biểu hiện và thực thể gene, sau đó dựa vào kết quả nhận dạng để
phát hiện các mỗi quan hệ giữa biểu hiện – gene. Luận án này mặc dù đã đề cập đến
thực thể biểu hiện tuy nhiên chƣa nêu đƣợc một định nghĩa rõ ràng về thực thể biểu
hiện nên bỏ sót khả nhiều kết quả trong quá trình nhận dạng, bên cạnh đấy, luận án
này cũng chỉ quan tâm đến mối quan hệ giữa biểu hiện – gene mà chƣa quan tâm
đến mối quan hệ giữa biểu hiện và các loại thực thể khác nhƣ bệnh, hóa chất, bộ
phận cơ thể v.v..
Đối sánh nội dung các công trình nghiên cứu trong và ngoài nƣớc, trong đó có
luận án Tiến sỹ, luận án của nghiên cứu sinh có những điểm khác biệt về khía cạnh
phƣơng pháp tiếp cận cũng nhƣ về khía cạnh dữ liệu. Cụ thể là:
- Đối với bài toán nhận dạng thực thể trong văn bản tiếng Việt, luận án tập
trung vào hai vấn đề đó là kết hợp cùng lúc cả nhận dạng thực thể và nhận

dạng thuộc tính thực thể trong cùng một mô hình và kiểm chứng trên tập
dữ liệu đủ tin cậy (10.000 câu gán nhãn). Hơn nữa, nghiên cứu sinh cũng
áp dụng mô hình đề xuất vào bài toán hỏi đáp tự động để kiểm định hiệu
quả thực tế của mô hình.
-

Đối với bài toán nhận dạng thực thể y sinh trong văn bản tiếng Anh, luận
án đƣa ra những định nghĩa cụ thể hơn về các khái niệm liên quan đến các
thực thể biểu hiện, xây dựng hai tập dữ liệu đánh giá tin cậy (900 câu gán

14


nhãn mỗi tập) cũng nhƣ các thử nghiệm khách quan với các độ đo chuẩn
cho nhận dạng thực thể y sinh.
Luận án là kết quả của việckết hợp nghiên cứu lý thuyết vớinghiên cứu thực
nghiệm, thông qua một quá trình lô-gic từ khảo sát bài toán, nghiên cứu lý thuyết
nền tảng, tiến tớiđề xuất giải pháp đối với bài toán, xây dựng thực nghiệm đánh giá
giải pháp đƣợc đề xuất, rút ra kết luận và công bố kết quả nghiên cứu.
Về nghiên cứu lý thuyết, luận án tập trung đề xuất một số giải pháp nhận dạng
thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các
giải pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng nhƣ các tri thức
nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài
toán. Kết quả của các mô hình đạt hiệu quả khả quan có thể áp dụng đƣợc trong các
hệ thống chạy thực tế.
Luận án trình bày một cách hệ thống các vấn đề liên quan đến bài toán nhận
diện thực thể biểu hiện và các thực thể liên quan nhƣ: định nghĩa cụ thể về khái
niệm thực thể biểu hiện, cách thức gán nhãn dữ liệu, phƣơng pháp đánh giá và kiểm
thử hiệu quả hay vấn đề thích nghi miền (domain adaptation) trong miền dữ liệu
thực thể biểu hiện.Hơn nữa, luận án cũng đƣa ra đƣợc một số khung làm việc

(framework) cho việc trích xuất sự kiện cho tiếng Việt cũng nhƣ sự kiện trong văn
bản y sinh tiếng Anh.
Các kết quả nghiên cứu lý thuyết của luận án đƣợc công bố trong các ấn phẩm
khoa học chuyên ngành có uy tín [CTLA1, CTLA2, CTLA4 -CTLA7]là minh
chứng cho ý nghĩa khoa học của luận án.
Về triển khai ứng dụng, luận án đã đề xuất thựcthi mô hình hỏi đáp tự động
tiếng Việt dựa trên nhận dạng thực thể[CTLA5]. Xây dựng hệ thống tra cứu và
tham khảo các mối quan hệ giữa thực thể biểu hiện – bệnh PhenoMiner (tại địa chỉ
/>Kết quả triển khai ứng dụng thông qua các hệ thống thử nghiệm và tra cứu nói
trên cho thấy luận án có ý nghĩa thực tiễn.

Cấu trúc của luận án
Tiếp nối phần mở đầu này, nội dung chính của luận án đƣợc bố cục thành bốn
chƣơng và phần kết luận. Chƣơng 1 của luận án trình bày hệ thống các lý thuyết cơ

15


bản về nhận dạng thực thể cũng nhƣ khảo sát lịch sử nghiên cứu và điểm lại một số
nghiên cứu tiêu biểu. Các chƣơng tiếp theo đi sâu vào những bài toán con đƣợc luận
án tập trung giải quyết. Chƣơng 2 trình bày về bài toán nhận dạng thực thể và ứng
dụng nhận dạng thực thể vào bài toán hỏi đáp tự động trong văn bản tiếng Việt.
Tiếp theo đó, chƣơng 3 trình bày một mô hình nhận dạng thực thể biểu hiện và các
thực thể liên quan cũng nhƣ vấn đề thích nghi miền giữa các tập dữ liệu y sinh.
Chƣơng 4,luận án giới thiệu một kỹ thuật nâng cấp hiệu quả của mô hình đề xuất
trong chƣơng 3 bằng kỹ thuật lai ghép các mô hình (ensemble models) dựa trên tri
thức và dựa trên học máy để nhận dạng thực thể trong văn bản y sinh tiếng Anh.
Phần kết luận tổng hợp các kết quả đạt đƣợc cũng nhƣ nêu lên một số hạn chế của
luận án và trình bày một số định hƣớng nghiên cứu trong tƣơng lai.
Dƣới đây là danh sách các công trình đã công bố của nghiên cứu sinh liên

quan đƣợc sử dụng trong các chƣơng của luận án.

Hình 0.2. Biểu đồ phân bố các công trìnhđã công bố của nghiên cứu sinh tương ứng
với các chương của luận án

16


Chƣơng 1 - KHÁI QUÁT VỀ NHẬN DẠNG THỰC THỂ
Chƣơng 1 của luận án hệ thống hóa các lý thuyết cơ bản về nhận dạng thực
thể. Chƣơng này đƣợc cấu trúc thành bốn phần nội dung chính. Phần 1 trình bày và
phân tích các khái niệm cơ bản và các thuật ngữ cần quan tâm trong lĩnh vực nghiên
cứu, ngoài các định nghĩa, phần này cũng khái quát hóa các độ đo thƣờng đƣợc sử
dụng trong nhận dạng thực thể. Phần 2 nêu ra một số hƣớng tiếp cận giải quyết
chính cũng nhƣ một số hƣớng tiếp cận mới trong nghiên cứu về nhận dạng thực thể.
Các hƣớng tiếp cận này sẽ đƣợc nêu ra trong hai phần, tƣơng ứng với từng loại dữ
liệu là dữ liệu văn bản tiếng Anh và dữ liệu văn bản tiếng Việt.Phần 3 trình bày cụ
thể một số kỹ thuật học máy tiêu biểu thƣờng đƣợc sử dụng trong nhận dạng thực
thể cũng nhƣ trong các nghiên cứu của luận án. Cuối cùng, phần 4nêu ra tiềm năng
nghiên cứu và điểm qua một vài ứng dụng nổi bật của nhận dạng thực thể.

1.1.

Một số khái niệm cơ bản

1.1.1. Định nghĩa bài toán nhận dạng thực thể
Bài toán nhận dạng thực thể (hay còn gọi là bài toán nhận dạng thực thể định
danh;Named Entity Recognition; NER)là bài toán xác định (phát hiện) các biểu diễn
trong văn bản và phân lớp chúng vào các kiểu thực thể định danh đƣợc định nghĩa
trƣớc nhƣ Ngƣời, Địa danh, Thời gian, Số, tiền tệ, v.v.. Bài toán này có thể bao gồm

cả việc nhận dạng các thông tin hay thuộc tính mô tả về thực thể. Ví dụ, trong
trƣờng hợp của thực thể tên ngƣời, hệ thống NER có thể trích xuất cả các thông tin
về Chức danh, Quốc tịch, Địa chỉ, Giới tính, v.v..
Một thực thể định danh là một chuỗi các từ chỉ đến một thực thể trong thế giới
thực, ví dụ nhƣ "California", “Hà Nội”, “Võ Nguyên Giáp”, "Steve Jobs" và
"Apple". Một thực thể định danh có thể đƣợc xếp vào một loại thực thể nào đó, nhƣ
Ngƣời, Địa điểm, Tổ chức, Thời gian, v.v.. Nhƣ vậy, các thực thể chính là nhƣ̃ng
đố i tƣơ ̣ng cơ bản nhất trong mô ̣t văn bản dù ở bấ t kì ngôn ngƣ̃ nào .

17


Luận án sử dụng định nghĩa bài toán nhận dạng thực thểdo Aggarwal và Zhai
phát biểu [AZ12]:
“Bài toán nhận dạng thực thể (Named entity recognition, NER) là
bài toán xác định thực thể định danh từ các văn bản dưới dạng tự do và
phân lớp chúng vào một tập các kiểu được định nghĩa trước như người,
tổ chức và địa điểm.”
Các kiểu thực thể định danh không chỉ bao gồm một số kiểu thông dụng nhƣ
tên ngƣời, địa danh, tên tổ chức mà còn có rất nhiều kiểu khác phụ thuộc vào đặc
trƣng của loại dữ liệu, miền dữ liệu hay mục đích của hệ thống ứng dụng nhận dạng
thực thể. Có thể kể đến một số kiểu thực thể đƣợc nêu ra tạicác nhiệm vụ xử lý ngôn
ngữ tự nhiên (task/shared task) nhƣ sau:
- Những kiểu thực thể định danh thông dụng nhất đƣợc tập trung nghiên cứu là
ngƣời, tổ chức và địa điểm, chúng đƣợc định nghĩa lần đầu tại Message
Understanding Conference-6 (MUC-6). Những kiểu thực thể này là phổ biến đủ để
có thể trở nên hữu ích trong nhiều miền ứng dụng. Việc trích xuất các biểu diễn
ngày tháng, giờ, tiền tệ và tỷ lệ phần trăm, cũng đƣợcMUC-6 giới thiệu, thƣờng
cũng đƣợc xử lý trong NER, mặc dù nói đúng ra thì các biểu diễn này không phải là
thực thể định danh.

- Nhiệm vụ tại chƣơng trình Automatic Content Extraction (ACE) đƣa ra thêm
nhiều loại thực thể mới, các loại thực thể đƣợc tổ chức dƣới dạng cây phân cấp, chi
tiết hơn MUC6. Ví dụ nhƣ kiểu thực thể tên tổ chức (organisation) có các loại con
nhƣ tên tổ chức chính phủ, tổ chức giáo dục hay tổ chức thƣơng mại [DMP04].
- Bên cạnh các kiểu thực thể thông thƣờng trong văn bản tin tức, các loại thực
thể liên quan đến y sinh cũng nhận đƣợc nhiều sự quan tâm. Hội thảo
BioNLP/JNLPBA 2004 có nhiệm vụ yêu cầu nhận diện thực thể y sinh gene và
protein [KOT04] hay nhiệm vụ Track3-CDR tại hội thảo BioCreative V (2015) yêu
cầu phát hiện thực thể bệnh và thuốc [WPL15].

18


1.1.2. Thách thức
Tuy là một bài toán cơ bản, nhƣng nhận dạng thực thể cũng gặp phải không ít
thách thức cần giải quyết do độ phong phú và sự nhập nhằng của ngôn ngữ. Thông
thƣờng thì bài toán này không thể đƣợc thực hiện một cách đơn giản nếu chỉ sử
dụng đối sánh chuỗi với các từ điển đã đƣợc xây dựng trƣớc vì các thực thể định
danh của một kiểu thực thể thƣờng không phải là một một tập đóng, do đó bất kỳ từ
điển nào cũng sẽ là không đầy đủ. Một lý do khác là loại thực thể định danh có thể
phụ thuộc vào ngữ cảnh. Ví dụ, "JFK" có thể chỉ tới ngƣời "John F. Kennedy”, địa
điểm "sân bay quốc tế JFK", hoặc bất kỳ loại nào khác có cùng dạng viết tắt đó.
Tƣơng tự “Sông Lam Nghệ An” có thể là địa điểm chỉ tên một con sông tại tỉnh
Nghệ An hay tên một đội bóng “Sông Lam Nghệ An”. Để xác định loại cho thực thể
"JFK"hay“Sông Lam Nghệ An” xuất hiện trong một tài liệu cụ thể, cần phải xem
xét đến ngữ cảnh chứa nó.
Bên cạnh yếu tố về ngữ nghĩa, các yếu tố liên quan đến đặc trƣng ngôn ngữ
cũng góp phần làm bài toán nhận dạng thực thể trở nên khó khăn. Một số ngôn ngữ
nhƣ tiếng Việt ngoài việc thiếu các tài nguyên xử lý ngôn ngữ tự nhiên còn phải
thực hiện một số bài toán con nhƣ tách từ trƣớc khi nhận dạng thực thể, tỷ lệ lỗi của

các bài toán con sẽ ảnh hƣởng đến kết quả của bài toán nhận dạng thực thể.
Ngoàira, từng loại thực thể cũng có những thách thức riêng khác nhau ảnh hƣởng
đến hiệu quả của mô hình nhận dạng. Ví dụ thực thể tên tổ chức ―Ủy ban nhân dân
Thành phố Hà Nội‖ có chứa thực thể tên địa danh ―Thành phố Hà Nội‖.
1.1.3. Độ đo đánh giá
Để đánh giá các mô hình nhận dạng thực thể cần phải tạo ra tập các tài liệu
đƣợc gán nhãn bằng tay. Đối với việc đánh giá trên từng miền cụ thể, các tài liệu
đƣợc lựa chọn gán nhãn phải liên quan đến dữ liệu miền mục tiêu. Ví dụ, để đánh
giá việc trích xuất các thực thể gen và protein, ta phải sử dụng các tài liệu y sinh
nhƣ các tóm tắt từ kho dữ liệu PubMed. Nhƣng nếu mục đích là để đánh giá so sánh
giữa các kỹ thuật nhận diện thực thể nói chung, cần phải sử dụng một tập dữ liệu

19


tiêu chuẩn đã đƣợc cộng đồng nghiên cứu chấp nhận [AZ12]. Các tập dữ liệu
thƣờng đƣợc dùng để đánh giá chung cho các loại thực thể định danh thông thƣờng
có thể kể đến là tập dữ liệu của hội nghị MUC, CoNLL-2003 và ACE 2004, còn để
đánh giá cho các loại thực thể trong y sinh có thể sử dụng tập dữ liệu GENIA
[KOT03], CHEMDNER [KLR15].
Các số đo đánh giá điển hình đƣợc sử dụng cho nhận dạng thực thể là độ chính
xác (precision - P), độ hồi tƣởng (recall - R) và độ đo F1 (F1-measure). Độ chính
xác đƣợc tính bằng phần trăm các kết quả đúng trong tổng số kết quả nhãn dƣơng
của hệ thống. Độ hồi tƣởng là phần trăm các trƣờng hợp đƣợc gán nhãn đúng trong
tất cả các mẫu dƣơng có trong dữ liệu. Độ đo F1 là trung bình điều hòa của độ chính
xác và độ hồi tƣởng. Hình 1.1. mô tả một cách trực quan các độ đo này.

Hình 1.1. Mô tả các độ đo độ chính xác, độ hồi tưởng và độ đo F1
Trong nhận dạng thực thể, nói một cách chính xác thì một thực thể định danh
đƣợc nhận dạng cần phải thỏa mãn hai tiêu chí: Một là xác định đúng biên thực thể

và hai là xác định đúng kiểu thực thể. Hầu hết các đánh giá đòi hỏi việc ánh xạ
chính xác biên thực thể. Tuy nhiên, đôi khi trong một số trƣờng hợp thì việc ánh xạ
một phần cũng đƣợc chấp nhận, ví dụ khi mục tiêu chỉ là xác định liệu thực thể nào
đó có đƣợc nhắc đến trong văn bản hay câu hay không [TWC06].

20


1.1.4. Ứng dụng của nhận dạng thực thể
Nhận dạng thực thể là một bài toán quan trọng, thƣờng đƣợc sử dụng nhƣ là
một bƣớc tiền xử lý trong các hệ thống trích xuất thông hay trích chọn thông tin
phức tạp. Có thể kể đến nhận dạng thực thể xuất hiện trong một số các ứng dụng
sau:
 Trích xuất quan hệ là bài toán nhận diện các mối quan hệ ngữ nghĩa giữa hai
thực thể hay giữa một thực thể và một khái niệm [GLR06], ví dụ nhƣ mối
quan hệ người-nơi làm việc (Ronaldo, Real Madrid) hay quan hệ nơi sinh
(Hồ Chí Minh, Nghệ An). Trong bài toán này, bài toán nhận diện thực thể là
vấn đề đầu tiên cần đƣợc giải quyết trƣớc khi trích xuất quan hệ.
 Trích xuất sự kiện là bài toán phức tạp hơn trích xuất quan hệ khi sự kiện là
một tổ hợp của nhiều yếu tố thể hiện các thông tin biểu diễn về ai/cái gì đã
làm gì, với ai/cái gì, bao giờ, ở đâu, bằng cách nào và tại sao. Các sự kiện có
thể là một sự kiện trong thế giới thực nhƣ sự kiện khủng bố, sự kiện tài
chính,… hay cũng có thể là một sự kiện xảy ra của một quá trình tự nhiên
nhƣ các sự kiện y sinh liên quan đến biến đổi gene hay gene gây bệnh.
Tƣơng tự nhƣ trích xuất quan hệ, trong trích xuất sự kiện vấn đề nhận dạng
thực thể cũng đặt lên hàng đầu khi yêu cầu phải nhận ra đủ và chính xác các
thành phần cấu thành nên sự kiện. Nhiều hệ thống về trích xuất sự kiện đã áp
dụng thành công NER trong các thành phần xử lý nhƣ hệ thống BioCaster.
 Hệ thống hỏi đáp tự động đang là một lĩnh vực nhận đƣợc sự quan tâm lớn
trong thời điểm lƣợng thông tin và tri thức bùng nổ. Khá nhiều các hệ thống

hỏi đáp tự động dựa trên khai phá văn bản cần đến nhận dạng thực thể nhƣ là
một yếu tố làm tăng khả năng phân tích, hiểu câu hỏi và dữ liệu trả lời trong
hệ thống [HWY05]. Có thể kể đến một số nghiên cứu sử dụng nhận dạng
thực thể cho hệ thống hỏi đáp nhƣ nghiên cứu của Yao và Van Durme (2014)
[YD14] sử dụng NER trong pha phân tích câu hỏi để xác định chủ đề hỏi hay
hệ hỏi đáp của West và cộng sự (2014) [WGM14] áp dụng NER cho việc

21


phát hiện các mối quan hệ có trong log đƣợc trả về từ máy tìm kiếm hỗ trợ
cho thành phần trả lời câu hỏi.

1.2. Sơ lƣợc về lịch sử nghiên cứu và một số hƣớng giải quyết bài toán
Bài toán nhận dạng thực thể đã xuất hiện từ đầu những năm 1990 [RA91],
nhƣng chỉ đƣợc chính thức giới thiệu vào năm 1995 tại hội nghị MUC-6với tƣ cách
là một bài toán con của trích xuất thông tin. Kể từ đó, NER đã thu hút nhiều sự chú
ý của cộng đồng nghiên cứu. Đã có khá nhiều hệ thống và chƣơng trình đƣợc xây
dựng thực thi bài toán này, có thể kể đến Automatic Content Extraction2, các công
bố trong nhiệm vụ cộng đồng thuộc hội nghị Conference on Natural Language
Learning (CoNLL) năm 2002 và 2003, và chuỗi nhiệm vụ nhận dạng thực thể y sinh
tại hội thảoBioCreative3(Critical Assessment of Information Extraction Systems in
Biology).
Các giải pháp ban đầu cho nhận dạng thực thể dựa vào các mẫu đƣợc tạo một
cách thủ công [AHB93]. Sau đó các nghiên cứu đầu nhƣng năm 2000 về nhận dạng
thực thểđã đạt đƣợc rất nhiều kết quả khả quan bằng việc sử dụng các phƣơng pháp
học máy thống kê. Một loạt các mô hình học máy khácnhau đã đƣợc đề xuất để giải
quyết bài toán nhận dạng thực thể nhƣ mô hình Entropy cực đại (Maximum Entropy
Model, MaxEnt Model)[BPP96], mô hình trƣờng ngẫu nhiên điều kiện (Conditional
Random Field; CRF) [LMP01].Bên cạnh sử dụng từng phƣơng pháp riêng biệt để

giải quyết bài toán, các phƣơng pháp kết hợp hoặc lai ghép các mô hình học máy
(ensemble models method) để đƣa ra kết quả tốt hơn cũng là một hƣớng đi đạt đƣợc
hiệu quả cao, điển hình là nghiên cứu của Florianvà cộng sự (2003) đã đạt đƣợc
hiệu quả tốt nhất (88,76) tại nhiệm vụ CONLL-2003 [FIJ03].

2

Automatic content extraction (ACE) evaluation. />
3

/>
22


Sau khi các phƣơng pháp học máy đạt đƣợc nhiều hiệu quả khả quan đối với
nhận dạng thực thể trong văn bản tiếng Anh thông thƣờng, các nghiên cứu gần đây
đi theo hai hƣớng chính [AZ12]:
 Hƣớng tiếp tục nâng cấp hiệu quả của phƣơng pháp nhận dạng thực thể bằng
cách đƣa thêm các thông tin đƣợc sinh ra từ một lƣợng lớn dữ liệu không có
nhãn, điển hình của hƣớng đi này là việc áp dụng các kỹ thuật học máy bán
giám sát (semi-supervised) và học máy sâu (deep learning). Ando và Zhang
áp dụng học máy bán giám sát sử dụng 27 triệu từ chƣa gán nhãn để nâng
cấp chất lƣợng nhận dạng [AZ05], Ratinov và Roth cũng sử dụng bán giám
sát với dữ liệu từ Wikipedia kết hợp với các cụm từ vựng (word clusters)
đƣợc sinh ra bằng phƣơng pháp gom cụm Brown [RR09].Kết quả của hai
nhóm đều đạt cao hơn mô hình của Florian và cộng sự (2003) với các độ đo
F1 tƣơng ứng là 90,8 và 89,31. Collobertvà cộng sự (2011) đƣa ra một cách
giải quyết khác bằng việc sử dụng kỹ thuật học sâu với việc áp dụng mạng
nơron nhiều tầng để huấn luyện mô hình nhận dạng thực thể kết hợp với các
thông tin hỗ trợ từ 852 triệu từ chƣa đƣợc gán nhãn, kết quả trên độ đo F1

đạtđƣợc là 89,59 cũng cao hơn mô hình cơ sở của Florian và cộng sự. Mặc
dù kết quả tăng chƣa cao so với mô hình chuẩn tuy nhiên các nghiên cứu này
tạo đƣợc sự quan tâm lớn của cộng đồng nghiên cứu khi đƣa ra một hƣớng đi
mới cho việc tăng cƣờng ngữ nghĩa thông qua lƣợng dữ liệu lớn chƣa có
nhãn.
 Một hƣớng đi khác của cộng đồng nghiên cứu là áp dụng các kỹ thuật học
máy đã có vào các dạng thực thể khó hơn trong các miền dữ liệu khác nhƣ
dữ liệu y sinh, địa lý, mạng xã hội,… hay một loại ngôn ngữ khác không
nhiều tài nguyên nhƣ tiếng Anh. Bên cạnh đấy việc nghiên cứu các kỹ thuật
thích nghi miền (domain adaptation) cũng đƣợc đặt ra khi các nhà nghiên
cứu cố gắng áp dụng những mô hình nhận dạng thực thể đã tốt cho một miền
dữ liệu mới chƣa có dữ liệu gán nhãn. Một số nghiên cứu có thể kể đến nhƣ
nghiên cứu của Daume (2007) đánh giá việc thích nghi miền giữa một số tập

23


×