Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (831.12 KB, 48 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phạm Thị Quỳnh Trang

Phân tích dữ liệu văn bản
dựa trên học máy thế giới mở
và ứng dụng
LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY
Ngành: Hệ thống thông tin

Hà Nội, 12/2019

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phạm Thị Quỳnh Trang

Phân tích dữ liệu văn bản dựa trên học máy thế giới mở
và ứng dụng
LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY
Ngành: Hệ thống thông tin

Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy

HÀ NỘI - 2019

LỜI CẢM ƠN

Đầu tiên, em xin gửi lời biết ơn chân thành và sâu sắc nhất đến thầy giáo PGS. TS.
Hà Quang Thụy, người đã luôn động viên, nhiệt tình hướng dẫn và tạo mọi điều kiện tốt
nhất cho em hoàn thành được luận văn.
Em xin chân thành cảm ơn các thầy cô, các anh chị em trong phòng thí nghiệm Công
nghệ và tri thức đã luôn giúp đỡ và động viên tinh thần trong thời gian em học tập và
công tác.
Em chân thành cảm ơn quý Thầy, Cô trong Khoa Công Nghệ Thông Tin nói riêng và
trường đại học Công Nghệ - Đại học Quốc Gia Hà Nội nói chung đã tận tình truyền đạt
những kiến thức quý báu trong quá trình học tập tại Trường.
Cuối cùng, em xin cảm ơn những người thân yêu của em, đặc biệt là chồng em đã
luôn động viên, tạo điều kiện tốt nhất cho em trong quá trình học tập và hoàn thành luận
văn.
Em xin chân thành cảm ơn!
Luận văn này được thực hiện trong khuôn khổ đề tài Nafostef mã số: 102.052016.14 “Nghiên cứu và phát triển các mô hình học máy tiên tiến phát hiện và trích xuất
mối quan hệ tác dụng phụ của thuốc/hóa chất và bệnh từ văn bản y-sinh”, năm 2016.

i

LỜI CAM ĐOAN
Tôi xin cam đoan rằng luận văn thạc sĩ công nghệ thông tin “Phân tích dữ liệu văn
bản dựa trên học máy thế giới mở và ứng dụng” là công trình nghiên cứu của riêng tôi,
không sao chép lại của người khác. Trong toàn bộ nội dung của luận văn, những điều đã
được trình bày hoặc là của chính cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài
liệu. Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp.
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho
lời cam đoan này.

Hà Nội, ngày 15 tháng 12 năm 2019
Học viên

Phạm Thị Quỳnh Trang

ii

Mục Lục
LỜI CẢM ƠN ........................................................................................................................ i
LỜI CAM ĐOAN .................................................................................................................ii
TÓM TẮT............................................................................................................................ iv
DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT .............................................................. v
DANH SÁCH BẢNG .......................................................................................................... vi
DANH SÁCH HÌNH ẢNH ................................................................................................vii
Mở đầu .................................................................................................................................. 1
Chương 1. Học máy thế giới mở và bài toán chuẩn hóa tên thực thể bệnh ........................ 3
1.1 Học máy truyền thống .................................................................................................. 3
1.2. Học máy suốt đời ........................................................................................................... 5
1.2.1 Định nghĩa học máy suốt đời .............................................................................. 7
1.2.2. Các hướng nghiên cứu LL ............................................................................... 12
1.3. Học máy thế giới mở .................................................................................................. 12
1.4. Mục tiêu của luận văn.................................................................................................. 15
Kết luận Chương 1.............................................................................................................. 17
Chương 2. Học sâu thế giới mở cho văn bản ..................................................................... 18
2.1. Học thế giới mở không gian đơn giản trung tâm......................................................... 18
2.1.1 Tăng cường cập nhật mô hình học CBS ........................................................... 18
2.1.2 Kiểm tra mô hình học CBS ............................................................................... 20
2.1.3 Học CBS cho phát hiện lớp chưa thấy .............................................................. 20
2.2. Học sâu thế giới mở phân lớp văn bản ........................................................................ 21
2.2.1 CNN và các lớp chuyển tiếp của DOC ............................................................. 22
2.2.2 Tầng 1- với-phần còn lại ................................................................................... 23

2.2.2 Giảm rủi ro không gian mở ............................................................................... 23
Kết luận Chương 2.............................................................................................................. 24

Chương 3: Ứng dụng mô hình DOC vào chuẩn hóa tên bệnh ........................................... 25
3.1. Ứng dụng chuẩn hóa tên thực thể bệnh ....................................................................... 25
3.2.1. Mô hình đề xuất ........................................................................................................ 27
Bộ phân giải viết tắt ................................................................................................... 28
Mạng nơ ron học sâu thế giới mở .............................................................................. 28
Kết luận Chương 3.............................................................................................................. 30
Chương 4: Thực nghiệm và đánh giá ................................................................................. 31
4.1. Dữ liệu thực nghiệm chuẩn hoá tên bệnh .................................................................... 31
4.2 Môi trường và các công cụ thực nghiệm ...................................................................... 32
4.3 Kết quả và đánh giá ...................................................................................................... 32
Kết luận............................................................................................................................... 36
Tài liệu tham khảo .............................................................................................................. 37

TÓM TẮT
Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng
Phạm Thị Quỳnh Trang
Khóa học: QH-2013- I/CQ

Ngành: Hệ thống thông tin

Tóm tắt: Học máy suốt đời (Lifelong Machine Learning: LML) là một tiếp cận học máy liên tục,
trích chọn và lưu giữ tri thức từ quá khứ để sử dụng khi giải quyết các bài toán học mới. Học thế
giới mở, một dạng của học máy suốt đời, có năng lực phát hiện các trường hợp chưa từng thấy để
hình thành các bài toán mới. Phân lớp thế giới mở thực hiện ba bài toán thành phần là (i) Phát
hiện những thực thể mới, không thể thuộc vào các lớp hiện có, (ii) Xây dựng mô hình phân lớp

cho các lớp mới, và (iii) hiệu chỉnh các mô hình phân lớp vốn có để nâng cao hiệu năng bộ phân
lớp khi có thêm các lớp mới.
Dựa trên mô hình phân lớp học sâu thế giới mở DOC (Deep Open Classification) của L.
Shu và cộng sự, luận văn đề nghị mô hình ứng dụng phân lớp học sâu thế giới mở cho bài toán
chuẩn hoá thực thể tên và phân lớp quan hệ trong văn bản y sinh. Việc trích xuất tự động tri thức
từ văn bản đóng vai trò quan trọng trong học suốt đời. Nó bao gồm ba bước chính: nhận dạng các
thực thể tên, chuẩn hoá thực thể tên và phân loại quan hệ giữa chúng. Hai bước sau thường hay
xuất hiện các đối tượng mới, đặc biệt là trong lĩnh vực y sinh.
Các kết quả thực nghiệm trên bộ dữ liệu chuẩn đã chỉ ra tính hiệu quả của mô hình đề xuất
trong vấn đề nhận dạng được các đối tượng mới chưa xuất hiện khi huấn luyện mô hình và trong
vấn đề chuẩn hoá tên. Đặc biệt, mô hình chuẩn hoá thực thể tên có thể đạt giá trị độ đo F1 = 80%,
tốt hơn của các phương pháp cùng thể loại tính đến thời điểm hiện tại.
Từ khóa: Học máy suốt đời, học thế giới mở, học sâu, chuẩn hoá tên thực thể bệnh.

iv

DANH SÁCH THUẬT NGỮ VÀ TỪ VIẾT TẮT

SVM

Support Vector Machines/Máy vector hỗ trợ

CNN

Convolutional neural network/Mạng nơ ron tích chập

LL

Life long learning/Học suốt đời

ML

Machine learning/Học máy

DOC

Deep Open Classification/Phân lớp mở sâu

CBS

Center Based Similarity/Độ tương tự dựa trên trung tâm

NNO

Nearest Non-Outlier/Không ngoại lai gần nhất

v

DANH SÁCH BẢNG

Bảng 1.1: Bảng 1.1 - Một ví dụ về bài toán chuẩn hoá tên bệnh. ................ 17
Bảng 3.1 - Một ví dụ về bài toán chuẩn hoá tên thực thể thuốc …………………….27

Bảng 4.1: Thống kê dữ liệu thực nghiệm chuẩn hóa tên bệnh ...................... 33
Bảng 4.2: Các công cụ thực nghiệm .............................................................. 34
Bảng 4.3: So sánh kết quả sử dụng dữ liệu cả câu và dữ liệu SDP trên số lớp đã
biết khác nhau của tập dữ liệu SemEval-2010 Task 8. .................................. 37
Bảng 4.4: Tổng hợp kết quả mô hình DOC chuẩn hóa thực thể tên bệnh. .... 38

Bảng 4.5: Kết quả thực nghiệm và so sánh.................................................... 38

vi

DANH SÁCH HÌNH ẢNH
Hình 1.1: Kiến trúc mô hình học máy cổ điển. .................................................. 4
Hình 2.1: Kiến trúc tổng quan của hệ thống học suốt đời ................................. 10
Hình 2.1: Mô hình tổng quan DOC ................................................................. 22
Hình 2.2: Mô hình tổng quan DOC ................................................................. 23
Hình 3.1: Định danh, tên chính hay dùng và các tên đồng nghĩa của một bệnh trong
MEDIC. ........................................................................................................... 27
Hình 3.1: Mô hình đường ống chuẩn hoá thực thể tên bệnh. ............................. 28
Hình 3.2: Kiến trúc hệ thống chuẩn hoá tên thực thể y sinh dựa trên mạng nơ ron tích
chập do Cho và cộng sự đề xuất [9].. ................................................................ 28

.

vii

Mở đầu
Trong cuộc sống, con người học hỏi suốt đời để tích lũy tri thức, vận dụng tri thức và kỹ
năng tích lũy được để giải quyết các vấn đề/tác vụ mới gặp phải, từ đó giúp cho việc học
nhanh hơn và hiệu quả hơn. Trong quá trình tiến hóa hàng triệu năm của loài người, khả
năng học suốt đời đã giúp con người thích nghi, tồn tại và phát triển được trong nhiều môi
trường sống khắc nghiệt khác nhau.
Học máy suốt đời, là một hướng nghiên cứu học máy mới nhằm mục đích bắt chước
quá trình và khả năng học tập suốt đời của con người trong các môi trường mở, đầy biến
động. Kiểu học này khá tự nhiên vì mọi thứ xung quanh chúng ta có liên quan chặt chẽ và

liên kết với nhau. Con người chúng ta luôn giữ lại kiến thức đã học trong quá khứ và sử
dụng nó để giúp học tập và giải quyết vấn đề trong tương lai. Học máy suốt đời là bước
tiến hoá hợp lý tiếp theo của học máy cổ điển; nó là hướng nghiên cứu mới nổi và đầy
hứa hẹn để khắc phục những thiếu sót đó của học máy cổ điển, với mục tiêu cuối cùng là
xây dựng những cỗ máy học hỏi như con người.
Học thế giới mở, là một hình thức của học máy suốt đời, không yêu cầu giả định thế
giới đóng, có khả năng phát hiện các trường hợp của các lớp chưa thấy trong quá trình
hoạt động của hệ thống học. Nó có khả năng xây dựng mô hình phân lớp cho các lớp mới
và cập nhật mô hình phân lớp cho các lớp đã có mà không học lại toàn bộ các mô hình từ
đầu.
Việc trích xuất tự động tri thức từ văn bản đóng vai trò quan trọng trong học suốt đời.
Nó bao gồm ba bước chính: nhận dạng các thực thể tên, chuẩn hoá thực thể tên và phân
loại quan hệ giữa chúng. Hai bước sau thường hay xuất hiện các đối tượng mới, đặc biệt
là trong lĩnh vực y sinh, với rất nhiều thách thức, khi cần phải xác định một biểu hiện tên
bệnh mới xuất hiện có thuộc về một thực thể tên bệnh đã có hay là biểu hiện của một tên
bệnh mới. Trong trường hợp này, mô hình phân lớp thế giới mở là phù hợp để giải quyết
bài toán.
Nội dung của luận văn được tổ chức thành các chương như sau:

1

Chương 1 trình bày một giới thiệu tổng quan về học máy suốt đời và học máy thế
giới mở. Tiếp đó, bài toán chuẩn hoá thực thể tên bệnh trong văn bản y sinh được giới
thiệu.
Chương 2 trình bày mô hình phân lớp văn bản thế giới mở dựa trên kỹ thuật học sâu.
Chương 3 trình bày mô hình ứng dụng phân lớp thế giới mở dựa trên kỹ thuật học
sâu cho chuẩn hoá thực thể tên bệnh, là bước tiền đề cho việc trích xuất các quan hệ giữa
các thực thể y sinh. Các quan hệ được biểu diễn trong văn bản là các tri thức tồn tại dưới
định dạng chỉ con người mới “đọc hiểu” được. Việc trích xuất quan hệ từ văn bản sẽ tạo

ra cơ sở dữ liệu tri thức, là thành phần quan trọng của học máy suốt đời.
Chương 4 trình bày các kết quả thực nghiệm của mô hình ứng dụng được đề xuất
trong Chương 3, cũng như các phân tích các kết quả thực nghiệm này.
Phần Kết luận tóm lược kết quả đạt được của khóa luận và định hướng phát triển
tương lai.

2

Chương 1. Học máy thế giới mở
và bài toán chuẩn hóa tên thực thể bệnh
Học máy (Machine Learning: ML) đã là công cụ cho sự tiến bộ của cả phân tích dữ
liệu và trí tuệ nhân tạo (Artificial Intelligence: AI). Thành công gần đây của học sâu đã
đưa ML lên một tầm cao mới. Các thuật toán ML đã được áp dụng trong hầu hết các lĩnh
vực khoa học máy tính, khoa học tự nhiên, kỹ thuật, khoa học xã hội và hơn thế nữa. Nếu
không có thuật toán ML hiệu quả, nhiều ngành sẽ không tồn tại hoặc phát triển, ví dụ:
thương mại điện tử và tìm kiếm trên web. Tuy nhiên, mô hình ML hiện tại không phải
không có điểm yếu. Trước tiên luận văn sẽ giới thiệu về mô hình ML cổ điển và những
thiếu sót của nó, sau đó giới thiệu Lifelong ML (Học suốt đời (LL) và học thế giới mở
(OpenWorld ML, một dạng học máy suốt đời) như một hướng đi mới nổi và đầy hứa hẹn
để khắc phục những thiếu sót đó với mục tiêu cuối cùng là xây dựng những cỗ máy học
hỏi như con người [2]. Bài toán chuẩn hóa tên thực thể bệnh trong văn bản y sinh dưới
dạng một bài toán học thế giới mở sẽ được giới thiệu ở cuối chương.

1.1 Học máy truyền thống
Mô hình ML phổ biến hiện nay là chạy thuật toán ML trên tập dữ liệu đã cho để tạo
mô hình. Mô hình này sau đó được áp dụng trong các nhiệm vụ thực tế. Mô hình học này
được gọi là mô hình cô lập bởi vì nó không xem xét bất kỳ thông tin liên quan nào khác
hoặc tri thức đã học, tích luỹ được trước đó (xem Hình 1) [2]. Vấn đề cơ bản của mô hình
học tập cô lập này là nó không lưu giữ và tích lũy kiến thức đã học trong quá khứ và sử

dụng nó trong tương lai. Điều này trái ngược hoàn toàn với việc học của con người. Con
người chúng ta luôn tích luỹ lại kiến thức đã học trong quá khứ và sử dụng nó để giúp học
tập và giải quyết vấn đề mới trong tương lai. Không có khả năng tích lũy và sử dụng kiến
thức trong quá khứ, thuật toán ML thường cần một số lượng lớn các ví dụ huấn luyện để
học hiệu quả. Các môi trường học thường là tĩnh và đóng. Đối với việc học có giám sát,
việc gán nhãn dữ liệu huấn luyện thường được thực hiện thủ công, rất tốn công sức và
thời gian. Vì thế giới quá phức tạp với nhiều nhiệm vụ khác hẳn nhau, nên gần như không
thể gán nhãn một số lượng lớn các ví dụ cho mọi nhiệm vụ để thuật toán ML có thể học
hiệu quả. Tệ hơn nữa, mọi thứ xung quanh chúng ta luôn thay đổi liên tục, do đó việc gán
nhãn cần phải được thực hiện liên tục; đó là một việc hết sức khó khăn đối với con người.
3

Ngay cả đối với học không giám sát, việc thu thập một khối lượng dữ liệu lớn có thể
không thực hiện được trong nhiều trường hợp.

Hình 1.1. Kiến trúc mô hình học máy cổ điển [2].
Mô hình học cô lập cổ điển không thể thực hiện được việc học suốt đời. Như đã đề
cập trước đó, nó chỉ phù hợp cho các nhiệm vụ hẹp và hạn chế trong môi trường kín. Nó
cũng có thể không đủ để xây dựng một hệ thống thông minh có thể học liên tục để đạt
được mức độ thông minh như con người. LL nhằm mục đích đạt được tiến bộ theo hướng
này. Với sự phổ biến của robot, trợ lý ảo thông minh, LL ngày càng trở nên quan trọng vì
các hệ thống này phải tương tác với con người và/hoặc các hệ thống khác, liên tục học hỏi
trong quá trình hoạt động và duy trì kiến thức đã học trong các tương tác của chúng trong
các môi trường khác nhau, qua đó có thể hoạt động tốt hơn theo thời gian.
Trong 25 năm qua, đã có những tiến bộ đáng kể trong lý thuyết học máy và thuật
toán. Tuy nhiên, hiện vẫn có rất ít thuật toán có khả năng học nhiều nhiệm vụ khác nhau
trong một thời gian dài.
Học có giám sát cổ điển đưa ra giả định thế giới khép kín, có nghĩa là tất cả các lớp
dữ liệu lúc kiểm tra đều đã xuất hiện trong lúc học [1, 5, 6]. Mặc dù giả định này đúng

trong nhiều ứng dụng, nhưng nó bị vi phạm ở nhiều ứng dụng khác, đặc biệt là trong môi
trường động và mở; trong đó các dữ liệu của các lớp không mong muốn có thể xuất hiện
trong lúc kiểm tra hoặc hệ thống đi vào hoạt động. Ví dụ, khi đọc, hệ thống có thể thấy
một từ mới mà nó không biết, khi đó hệ thống phải học nó bằng cách tra từ trong từ điển.
Trong cuộc trò chuyện giữa người và máy, trợ lý ảo có thể không hiểu một số điều được
nói bởi người dùng và sau đó nó cần yêu cầu người dùng giải thích thêm để tìm hiểu. Để
4

học trong một môi trường mở như vậy, chúng ta cần học thế giới mở (phân loại thế giới
mở hoặc đơn giản là phân loại mở), trong đó phải phát hiện được các lớp chưa xuất hiện
trong quá trình huấn luyện mô hình, và sau đó thêm dần các lớp mới này vào mô hình mà
không phải huấn luyện lại toàn bộ mô hình từ đầu. Hình thức học này còn được gọi là học
tích lũy trong [5]. Luận văn này sẽ tập trung vào mô hình học có giám sát thế giới mở.
Học có giám sát truyền thống dựa trên giả định thế giới đóng với các lớp trong tập
dữ liệu kiểm tra (test) đều đã xuất hiện trong dữ liệu huấn luyện D khi huấn luyện mô
hình.
D = {(x1, y1), (x2, y2), ..., (xn, yn)}
-xi là dữ liệu thứ i, yi ∈ {l1, l2, ..., lm} = Y là lớp/nhãn của xi.

Khi đó cần xây mô hình f(x) có khả năng phân loại dữ liệu x trong tập test vào một

trong m lớp đã biết trong Y.
Giả thiết thế giới đóng không đúng với nhiều ứng dụng trong thực tế, đặc biệt trong
môi trường mở, biến động. Ví dụ, đối với dữ liệu truyền thông mạng xã hội luôn có thêm
những chủ đề mới được bàn luận, hay với ứng dụng xe tự lái thường có các lớp đối tượng
mới xuất hiện, hay các tên bệnh mới có thể chưa có số định danh trong CSDL.

1.2. Học máy suốt đời
Trong cuộc sống, con người luôn phải học hỏi suốt đời, thông qua việc tích lũy, vận

dụng tri thức và kỹ năng có sẵn để giải quyết các vấn đề/tác vụ mới gặp phải, từ đó giúp
cho việc học nhanh hơn và hiệu quả hơn. Trong quá trình tiến hóa hàng triệu năm của loài
người, khả năng học suốt đời đã giúp con người thích nghi, sống sót và phát triển được
trong nhiều môi trường sống khắc nghiệt khác nhau.
Lấy ví dụ về năng lực giao tiếp, học suốt đời giúp chúng ta có khả năng sử dụng
ngôn ngữ để giao tiếp với nhau thông qua các công cụ, các khái niệm (tri thức) hữu dụng
học được từ cha mẹ và giáo viên. Đầu tiên, các từ và cụm từ có ý nghĩa gần như giống
nhau trong tất cả các lĩnh vực và tất cả các nhiệm vụ. Thứ hai, các câu trong mỗi ngữ cảnh
sử dụng đều tuân theo cùng một cú pháp. Thứ ba, gần như tất cả các vấn đề về ngôn ngữ
tự nhiên có liên quan chặt chẽ với nhau, điều đó có nghĩa là chúng có liên kết với nhau và
ảnh hưởng lẫn nhau theo một số cách.

5

Hai lý do đầu tiên ở trên đảm bảo rằng kiến thức đã học có thể được sử dụng trong
các tác vụ khác nhau (của các lĩnh vực khác nhau). Đó là lý do tại sao con người chúng ta
không cần phải học lại ngôn ngữ (hoặc học một ngôn ngữ mới) mỗi khi chúng ta bắt gặp
một miền ứng dụng mới. Ví dụ, giả sử chúng ta chưa bao giờ nghiên cứu tâm lý học, và
bây giờ muốn nghiên cứu nó. Chúng ta không cần phải học lại ngôn ngữ được sử dụng
trong văn bản tâm lý học, ngoại trừ một số khái niệm mới trong lĩnh vực tâm lý học. Lý
do thứ ba ở trên đảm bảo rằng kiến thức về ngôn ngữ của chúng ta có thể được sử dụng
trên các loại nhiệm vụ khác nhau. Ví dụ, giả sử chúng ta đã tích luỹ được tri thức rằng:
“iPhone là sản phẩm và mọi sản phẩm đều có giá của nó” và tính từ “đắt” mô tả thuộc
tính giá của một sản phẩm. Sau đó, từ câu nhận xét: “Chất lượng hình ảnh của iPhone
rất tuyệt, nhưng nó khá đắt”, thông qua việc sử dụng các kiến thức được tích luỹ từ trước,
chúng ta có thể dễ dàng nhận ra rằng “chất lượng hình ảnh” là một tính năng hoặc thuộc
tính của iPhone và “nó/it” là để chỉ “iPhone” chứ không phải là thuộc tính “chất lượng
hình ảnh” của iPhone. Hai vấn đề này có liên quan chặt chẽ với nhau và có thể giúp đỡ
lẫn nhau vì kết quả từ một vấn đề có thể hữu ích cho những người khác, trong việc xử lý

nhiệm vụ khác.
Hiện tượng trên không chỉ đúng cho khả năng học ngôn ngữ của con người mà còn
đúng cho bất kỳ lĩnh vực nào khác bởi vì mọi thứ trên thế giới có liên quan và liên kết với
nhau. Do đó, kiến thức học được trong quá khứ trong một số lĩnh vực có thể được áp
dụng trong một số lĩnh vực khác có bối cảnh tương tự.
Học máy suốt đời được phát triển nhằm mục đích bắt chước quá trình và khả năng
học tập suốt đời của con người. Kiểu học này khá tự nhiên vì mọi thứ xung quanh chúng
ta có liên quan chặt chẽ và liên kết với nhau. Kiến thức đã học về một số môn học có thể
giúp chúng ta hiểu và học một số môn học khác. Ví dụ, con người chúng ta không cần
1.000 đánh giá tích cực và 1.000 đánh giá tiêu cực về phim trực tuyến như thuật toán ML
cần để xây dựng bộ phân loại đánh giá tích cực và tiêu cực về các bộ phim. Trong thực tế,
đối với nhiệm vụ này, không cần có một ví dụ huấn luyện, con người chúng ta cũng đã có
thể thực hiện nhiệm vụ phân loại này. Lý do rất đơn giản. Đó là bởi vì con người chúng ta
đã tích lũy rất nhiều kiến thức trong quá khứ về các cách mà mọi người sử dụng để khen
hoặc chỉ trích mọi thứ, mặc dù có thể rất ít trong số những lời khen hoặc phê bình đó là về
các bộ phim trực tuyến.

6

Nếu chúng ta không có kiến thức tích luỹ được từ quá khứ như vậy, con người chúng
ta có thể không thể tự xây dựng một bộ phân loại tốt ngay cả khi có tập huấn luyện gồm
1.000 đánh giá tích cực và 1.000 đánh giá tiêu cực. Ví dụ: nếu bạn không có kiến thức về
tiếng Ả Rập và ai đó cung cấp cho bạn 2.000 đánh giá được dán nhãn bằng tiếng Ả Rập
và yêu cầu bạn xây dựng một bộ phân loại theo cách thủ công, rất có thể bạn sẽ không thể
làm điều đó nếu không sử dụng trình dịch.
Mặc dù LL đã được đề xuất hơn 20 năm trước, nhưng nghiên cứu trong lĩnh vực này
vẫn chưa phát triển mạnh. Một số lý do có thể như sau [2]:
-

Đầu tiên, cộng đồng nghiên cứu ML trong 20 năm qua đã tập trung vào các phương
pháp thống kê và thuật toán. LL thường cần một cách tiếp cận hệ thống kết hợp nhiều
thành phần và thuật toán học.

-

Thứ hai, phần lớn các nghiên cứu và ứng dụng ML trước đây tập trung vào việc học
có giám sát bằng cách sử dụng dữ liệu có cấu trúc, điều này không dễ dàng đối với
LL vì có rất ít điểm giống nhau giữa các nhiệm vụ hoặc lĩnh vực. Ví dụ, kiến thức học
được từ hệ thống học có giám sát trong đơn xin vay vốn khó được sử dụng trong ứng
dụng y tế hoặc giáo dục vì chúng không có nhiều điểm chung. Ngoài ra, hầu hết các
thuật toán học có giám sát không tạo ra tri thức nào ngoài mô hình phân lớp cuối cùng.
Mô hình được tạo ra rất khó được sử dụng làm tri thức tiền nghiệm cho một nhiệm vụ
phân lớp khác, ngay cả trong một lĩnh vực tương tự.

-

Thứ ba, nhiều phương pháp ML hiệu quả như SVM và học sâu không thể dễ dàng sử
dụng tri thức tiền nghiệm. Các bộ phân lớp này là hộp đen với cơ chế hoạt động rất
khó để giải thích. Chúng thường hoạt động chính xác hơn trên dữ liệu huấn luyện;
càng nhiều dữ liệu hoạt động càng tốt.
1.2.1 Định nghĩa học máy suốt đời
Năm 1996, Thrun đã đưa ra một định nghĩa về học máy suốt đời như sau:
“Tại bất kỳ thời điểm nào, hệ thống đã học cách thực hiện N nhiệm vụ. Khi đối
mặt với nhiệm vụ N + 1, nó sử dụng kiến thức thu được từ N nhiệm vụ trước để
giúp giải quyết nhiệm vụ thứ N + 1.” [2].
Năm 2018, Z. Chen và B. Liu [2] đã mở rộng định nghĩa này bằng cách cung cấp

cho nó thêm các chi tiết và các tính năng bổ sung, bao gồm: (i) một hệ cơ sở tri thức

7

tường minh (Knowlegde Base) được thêm vào để lưu lại tri thức đã học được từ các
nhiệm vụ trước; (ii) khả năng khám phá các nhiệm vụ học mới; (iii) khả năng học trong
khi làm (hoặc học trong công việc). Định nghĩa của Chen và Liu được phát biểu như sau:
“Học máy suốt đời (LL) là một quá trình học liên tục. Tại bất kỳ thời điểm nào, bộ
học đã thực hiện một chuỗi N nhiệm vụ học T1, T2, ..., TN. Các nhiệm vụ này, còn
được gọi là các nhiệm vụ trước, có N bộ dữ liệu tương ứng D1, D2, ..., DN. Các
nhiệm vụ có thể thuộc các loại khác nhau và từ các miền khác nhau. Khi phải đối
mặt với nhiệm vụ mới N + 1 là TN+1 (được gọi là nhiệm vụ mới hoặc hiện tại) với
dữ liệu DN+1, bộ học có thể tận dụng kiến thức trong quá khứ được lưu trong hệ cơ
sở tri thức (KB) để giải quyết TN+1. Nhiệm vụ có thể được đưa ra hoặc được phát
hiện bởi chính hệ thống (xem bên dưới). Mục tiêu của LL thường là tối ưu hóa hiệu
suất của nhiệm vụ mới TN+1, nhưng nó có thể tối ưu hóa bất kỳ nhiệm vụ nào bằng
cách coi các nhiệm vụ còn lại là các nhiệm vụ trước. KB duy trì tri thức đã học và
tích lũy từ việc học các nhiệm vụ trước đó. Sau khi hoàn thành việc học T N+1, KB
được cập nhật tri thức mới có được từ việc học TN+1. Việc cập nhật có thể liên
quan đến việc kiểm tra tính nhất quán, lập luận và khai phá siêu tri thức cấp cao
hơn” [2].
Có hai loại nhiệm vụ trong hệ thống học suốt đời:
-

Nhiệm vụ độc lập: Mỗi nhiệm vụ Ti độc lập với các nhiệm vụ khác. Điều này có
nghĩa là mỗi nhiệm vụ có thể được học độc lập, mặc dù do sự tương đồng và chia sẻ
một số cấu trúc hoặc kiến thức tiềm ẩn, việc học Ti có thể tận dụng kiến thức thu
được từ việc học các nhiệm vụ trước đó.

-

Nhiệm vụ phụ thuộc: Mỗi nhiệm vụ Ti có một số phụ thuộc vào một số nhiệm vụ
khác. Ví dụ, trong học tập thế giới mở, mỗi nhiệm vụ học có giám sát mới sẽ thêm
một lớp mới vào bài toán phân lớp trước đó và cần xây dựng một trình phân lớp nhiều
lớp mới có khả năng phân loại dữ liệu từ tất cả các lớp trước và hiện tại.

Việc chuyển sang nhiệm vụ mới có thể xảy ra đột ngột hoặc dần dần, và các nhiệm vụ và
dữ liệu của chúng không phải được cung cấp bởi một số hệ thống bên ngoài hoặc người
dùng. Một bộ học suốt đời lý tưởng có thể tự phát hiện ra các nhiệm vụ học và dữ liệu đào
tạo của riêng mình khi tương tác với con người và môi trường hoặc sử dụng kiến thức đã
học trước đó để thực hiện học trong thế giới mở và tự giám sát.
8

Từ định nghĩa trên, có thể thấy LL có năm đặc điểm chính sau [2]:
1. Học liên tục.
2. Tri thức được tích luỹ và lưu giữ trong KB.
3. Sử dụng tri thức tích lũy trong quá khứ để học trong tương lai
4. Có khả năng khám phá ra các nhiệm vụ mới
5. Có khả năng học trong khi làm việc hoặc học trong công việc.
Không có những khả năng này, một hệ thống ML sẽ không thể tự học trong môi
trường mở, luôn biến động; hệ quả là sẽ không bao giờ thực sự thông minh.
Vì kiến thức được tích lũy và sử dụng trong LL, do đó, LL có liên quan đến nhiều
khía cạnh khác của trí tuệ nhân tạo cho ML, ví dụ: biểu diễn tri thức, thu nhận, lập luận và
duy trì tri thức. Tri thức tích luỹ được không chỉ có thể giúp cải thiện việc học trong
tương lai, mà còn có thể giúp thu thập và gán nhãn dữ liệu huấn (tự giám sát) và khám
phá các nhiệm vụ mới có khả năng sẽ được học. Con người có khả năng tích hợp của cả
học dựa trên dữ liệu và học dựa trên tri thức. ML hiện tại tập trung gần như hoàn toàn vào
việc học tối ưu dựa trên dữ liệu, điều mà con người chúng ta không giỏi. Thay vào đó,
chúng ta rất giỏi học dựa trên tri thức trước đây của chúng ta. Chúng ta càng biết nhiều thì
chúng ta học càng dễ hơn.

LL có thể yêu cầu một cách tiếp cận có hệ thống kết hợp nhiều thuật toán học và các
sơ đồ biểu diễn tri thức khác nhau. Một thuật toán học duy nhất có thể không đạt được
mục tiêu của LL. Trên thực tế, LL đại diện cho một không gian vấn đề rất lớn và phong
phú. Kiến trúc hệ thống LL được thể hiện trong Hình 1.2. Không phải tất cả các hệ thống
LL hiện có đều sử dụng tất cả các thành phần như trong hình. Trong thực tế, hầu hết các
hệ thống hiện tại đơn giản hơn nhiều. Hơn nữa, vẫn chưa có một hệ thống LL chung có
thể thực hiện LL trong tất cả các miền có thể, cho tất cả các loại nhiệm vụ có thể. Trong
thực tế, chúng ta vẫn còn ở rất xa điều đó.

9

Hình 1.2. Kiến trúc tổng quan của hệ thống học suốt đời [2].
Một hệ thống LL điển hình sẽ có các thành phần cơ bản sau [2]:
-

Hệ cơ sở tri thức (KB): Chủ yếu để lưu trữ tri thức đã học trước đó. Nó có một vài
thành phần phụ:
 Kho thông tin quá khứ (PIS): lưu trữ thông tin kết quả từ quá trình học trước
đây, bao gồm các mô hình kết quả, mô hình hoặc các dạng kết quả khác. PIS
có thể chứa các thông tin liên quan như: (1) dữ liệu gốc được sử dụng trong
mỗi nhiệm vụ trước, (2) kết quả trung gian từ mỗi nhiệm vụ trước và (3) mô
hình cuối cùng hoặc các mẫu được học từ mỗi nhiệm vụ trước.
 Công cụ khai thác kiến thức tổng hợp (MKM): thực hiện khai thác siêu kiến
thức trong PIS và trong kho siêu tri thức (xem bên dưới).
 Kho siêu kiến thức (MKS): lưu trữ kiến thức được khai thác hoặc tích hợp từ
PIS và cũng như từ chính MKS.
 Bộ lập luận trên tri thức (KR): suy luận dựa trên tri thức trong MKB và PIS để
tạo thêm tri thức mới. Hầu hết các hệ thống hiện tại không có thành phần phụ
này. Tuy nhiên, với sự tiến bộ của LL, thành phần này sẽ ngày càng trở nên

quan trọng.

10

-

Bộ học dựa trên tri thức (KBL): Đối với LL, bộ học cần có khả năng sử dụng tri
thức tích luỹ được khi học. Một bộ học như vậy là bộ học dựa trên tri thức, có thể
tận dụng tri thức trong KB để học nhiệm vụ mới. Thành phần này có thể có hai
thành phần phụ:
 Công cụ khai phá tri thức nhiệm vụ (TKM), sử dụng thông tin hoặc thông tin thô
trong KB để khai thác hoặc xác định kiến thức phù hợp với nhiệm vụ hiện tại.
Điều này là cần thiết bởi vì trong một số trường hợp, KBL không thể sử dụng
trực tiếp kiến thức thô trong KB mà cần một số kiến thức cụ thể và cụ thể hơn
được khai thác từ KB.
 Bộ học có thể tận dụng kiến thức khai thác trong quá trình học.

-

Công cụ khai thác kiến thức dựa trên nhiệm vụ (TKM): Mô-đun này khai thác
kiến thức từ KB đặc biệt cho nhiệm vụ mới

-

Mô hình: Đây là các mô hình đã học, có thể là mô hình dự đoán hoặc phân loại
trong học tập được giám sát, các cụm hoặc chủ đề trong học tập không giám sát, một
chính sách trong học tập củng cố, v.v.

-

Ứng dụng: Đây là ứng dụng của mô hình trong thế giới thực. Điều quan trọng cần
lưu ý là trong quá trình áp dụng mô hình, hệ thống vẫn có thể học kiến thức mới (tức
là, kiến thức về các kết quả, và có thể khám phá các nhiệm vụ mới sẽ được học. Ứng
dụng cũng có thể cung cấp phản hồi cho người học dựa trên kiến thức để cải tiến mô
hình.

-

Trình quản lý tác vụ (TM): Nó nhận và quản lý các tác vụ đến trong hệ thống, xử
lý sự thay đổi nhiệm vụ và trình bày nhiệm vụ học tập mới cho KBL theo cách trọn
đời.

-

Quy trình học tập suốt đời: Một quy trình LL điển hình bắt đầu bằng Trình quản lý
tác vụ gán một nhiệm vụ mới cho KBL (nhiệm vụ có thể được đưa ra hoặc tự động
phát hiện). KBL sau đó hoạt động với sự trợ giúp của kiến thức trong quá khứ được
lưu trữ trong KB để tạo ra một mô hình đầu ra cho người dùng và cũng gửi thông tin
hoặc kiến thức cần được giữ lại để sử dụng trong tương lai cho KB. Trong quá trình
ứng dụng, hệ thống cũng có thể khám phá các nhiệm vụ mới và học trong khi làm
việc (học trong công việc). Một số kiến thức thu được trong các ứng dụng cũng có
thể được giữ lại để giúp học tập trong tương lai.

11

1.2.2. Các hướng nghiên cứu LL
Học có giám sát suốt đời: Một số kỹ thuật LL đã được đề xuất dựa trên mạng nơ
ron, Naïve Bayesian, mô hình trường ngẫu nhiên có điều kiện (CRF).

Học liên tục sử dụng các mạng nơ ron sâu: Trong vài năm qua, do sự phổ biến của
học sâu, nhiều nhà nghiên cứu đã nghiên cứu vấn đề liên tục học một chuỗi các nhiệm vụ
sử dụng kỹ thuật học sâu. Trong cộng đồng nghiên cứu học sâu thì LL cũng được gọi là
học liên tục. Mục tiêu của nó xây dựng mạng nơ ron sâu có khả năng học thêm từng
nhiệm vụ mới mà không quên đi các mô hình đã học cho các nhiệm vụ trước.
Học thế giới mở: Học có giám sát truyền thống đòi hỏi giả định thế giới đóng phải
đúng: các lớp của các dữ liệu mới phải được nhìn thấy trong quá trình học/huấn luyện [6].
Điều này không phù hợp để học trong các môi trường mở và biến động với những lớp
mới luôn xuất hiện.
Học không giám sát suốt đời: Các nghiên cứu trong hướng này chủ yếu là về mô
hình hoá chủ đề suốt đời và trích chọn thông tin suốt đời. Các kỹ thuật này đều dựa trên
khai thác cấp độ meta, tức là khai thác kiến thức được chia sẻ qua các tác vụ.
Học bán giám sát suốt đời: Nghiên cứu điển hình trong hướng này là hệ thống hệ
thống NELL (Bộ học ngôn ngữ không ngừng). Nó đã đọc nội dung trên Internet liên tục
từ tháng 1 năm 2010 để khai thác thông tin, và đã tích lũy được hàng triệu thực thể và
quan hệ giữa chúng.
Học tăng cường suốt đời: Hướng nghiên cứu này tập trung xây dựng các tác nhân
(agent) học liên tục có khả năng giải quyết dần các nhiệm vụ phức tạp bằng cách học giải
quyết các nhiệm vụ dễ dàng trước tiên.

1.3. Học máy thế giới mở
Do thế giới thực có tính chất mở, luôn có biến động chúng ta cần xây dựng mô hình
có thể nhận ra các lớp mới. Học máy có giám sát thế giới mở nhằm xây dựng các bộ phân
lớp có khả năng nhận ra các lớp đã biết và các lớp chưa từng thấy. Điều này trái ngược
với học máy có giám sát thế giới đóng.
Hiện nay công nghệ đang phát triển theo hướng trợ lý ảo cá nhân hóa một cách
thông minh, xe tự lái, các robot làm việc trong môi trường mở và tương tác với con người,

12

v.v. Việc xây dựng bộ phân lớp trong thế giới mở đang trở nên rất quan trọng. Lấy ví dụ:
ứng dụng đầu tiên về trợ lý cá nhân hóa thông minh (như Amazon Alexa, Google
Assistant và Microsoft Cortana, v.v.) sử dụng những bài viết của người dùng để phân lớp
ý định người dùng và miền ứng dụng (ví dụ: Alexa’s skills, Google’s actions và Cortana’s
skills), từ đó cũng phát hiện ra các bài viết không thuộc vào một trong những lớp ý định
và miền đã biết. Hầu hết các giải pháp hiện có cho học thế giới mở được xây dựng dựa
trên các mô hình phân lớp thế giới đóng. Thêm nữa, các mô hình này rất khó có thể phát
hiện các lớp mới (chưa thấy) vào tập các lớp đã thấy mà không cần học lại hoặc học tăng
cường. Ví dụ: Alexa cho phép các nhà phát triển bên thứ 3 thêm các kỹ năng mới (ứng
dụng mới), tức là các miền mới hoặc các lớp mục đích mới. Điều này đặt ra một thách
thức lớn đối với việc duy trì triển khai mô hình và dữ liệu đào tạo cho các lớp mới.
Xây dựng một mô hình có khả năng phân loại dữ liệu trong tập test vào một trong
những lớp đã biết hoặc bác bỏ nó (dữ liệu đó không thuộc về bất kỳ lớp nào trong tập
huấn luyện, hay thuộc lớp chưa được thấy). Nói cách khác, xây dựng 1 bộ phân lớp f(x)
cho (m + 1) lớp thuộc tập C = {l1, l2, …, lm, rejection}. Học máy thế giới mở được định
nghĩa như sau [1, 5].
1. Tại một thời điểm nào đó, bộ học đã xây dựng được một mô hình phân lớp FN dựa
trên N lớp từ tập dữ liệu huấn luyện trước đây: Dp = {D1, D2, …, DN} với các lớp
tương ứng YN = {l1, l2, …, lN}. FN có khả năng phân loại một đối tượng dữ liệu vào
một trong các lớp li thuộc YN hoặc bác bỏ nó và để nó vào tập bị bác bỏ R.
2. Bộ phân loại hoặc người dùng sẽ xác định tập các lớp chưa xuất hiện C trong R và
thu thập dữ liệu huấn luyện cho các lớp chưa xuất hiện này.
3. Giả sử rằng có k lớp mới trong C có đủ dữ liệu huấn luyện. Bộ học sẽ học tăng dần
cho k lớp này dựa trên dữ liệu học của chúng. Mô hình FN hiện có được cập nhật để
tạo thành mô hình FN+k mới.
Học thế giới mở là một hình thức học suốt đời (LL) vì nó phù hợp với định nghĩa
của LL. Cụ thể, nhiệm vụ học mới TN+1 là để xây dựng một bộ phân lớp mở đa lớp dựa
trên tất cả dữ liệu quá khứ và hiện tại các lớp đã được học. Hệ cơ sở tri thức (KB) chứa
mô hình quá khứ FN và tất cả tập dữ liệu huấn luyện trong quá khứ [2].

Lưu ý rằng nhiệm vụ thứ ba của việc học tăng dần các lớp mới ở đây khác với việc
học lớp tăng dần truyền thống (ICL) được nghiên cứu ở các miền khác nhau vì ICL truyền
13

thống vẫn học trong thế giới khép kín (nghĩa là nó không thực hiện việc bác bỏ lớp chưa
xuất hiện) mặc dù nó có thể thêm các lớp mới tăng dần vào hệ thống phân loại mà không
cần học lại từ đầu toàn bộ mô hình.
Ví dụ, chúng ta muốn xây dựng một robot chào mừng cho một khách sạn. Tại bất kỳ
thời điểm nào, robot đã học cách nhận ra tất cả khách hiện tại của khách sạn. Khi thấy
một vị khách cũ nó có thể gọi tên và trò chuyện với anh ấy/cô ấy. Đồng thời, nó cũng phải
phát hiện bất kỳ vị khách mới nào mà nó chưa từng thấy trước đây. Khi nhìn thấy một vị
khách mới, nó có thể nói xin chào, hỏi tên của khách, chụp một số ảnh và học cách nhận
ra vị khách đó. Lần sau khi gặp lại người đó, nó có thể gọi tên của anh ấy/cô ấy và trò
chuyện như một người bạn cũ. Kịch bản trong xe tự lái cũng tương tự vì rất khó, nếu
không muốn nói là không thể huấn luyện một hệ thống có khả năng nhận ra mọi vật thể
có thể xuất hiện trên đường. Hệ thống phải nhận ra các vật thể mà nó chưa học trước đó
và học chúng trong khi lái xe (có thể thông qua tương tác với hành khách của con người)
để khi nhìn thấy các vật thể lần sau, nó sẽ không gặp vấn đề gì khi nhận ra chúng.
Fei và cộng sự [5] đã đưa ra một ví dụ khác trong phân loại văn bản. Cuộc bầu cử
tổng thống năm 2016 tại Hoa Kỳ là một chủ đề nóng trên phương tiện truyền thông xã hội
và nhiều nhà nghiên cứu khoa học xã hội đã dựa vào các cuộc thảo luận được thu thập để
thực hiện nghiên cứu của họ. Trong chiến dịch, mọi đề xuất mới của một ứng cử viên sẽ
được thảo luận sôi nổi trên phương tiện truyền thông xã hội. Bộ phân loại được xây dựng
ban đầu chắc chắn sẽ gặp các chủ đề mới (ví dụ, kế hoạch cải cách nhập cư của Donald
Trump, hoặc đề xuất tăng thuế của Hillary Clinton), những chủ đề đã không xuất hiện
trong quá trình huấn luyện mô hình trước đó. Trong trường hợp này, trước tiên bộ phân
loại nên nhận ra các chủ đề mới này thay vì phân loại chúng vào một số chủ đề hiện có.
Thứ hai, sau khi thu thập đủ các ví dụ huấn luyện cho các chủ đề mới, bộ phân loại hiện
có nên kết hợp các chủ đề mới một cách tăng dần mà không cần phải huấn luyện lại toàn

bộ hệ thống phân loại từ đầu.
Bendale và Boult [1] đã cố gắng giải quyết vấn đề học thế giới mở để phân loại ảnh.
Phương pháp của nó được gọi là Phương pháp không ngoại lai gần nhất (Nearest NonOutlier, NNO), được phát triển từ phương pháp Trung bình lớp gần nhất (Nearest Class
Mean) do Mensink và cộng sự đề xuất. Trong NNO, mỗi ảnh được biểu diễn dưới dạng
một vectơ đặc trưng và mỗi lớp được biểu diễn bằng vector trung bình của các vectơ đặc
14

trưng của tất cả các ảnh trong lớp đó. Khi kiểm tra mô hình, vectơ đặc trưng của ảnh kiểm
tra được so sánh với từng vector trung bình của mỗi một lớp và phân ảnh vào lớp có
vector trung bình gần nhất. NNO thêm tính năng bác bỏ lớp mới vào mô hình chỉ đơn
giản bằng cách thêm vector trung bình của lớp mới vào tập vector của lớp hiện có. Năng
lực bác bỏ của NNO đã được cải thiện trong OpenMax [1]. OpenMax, dựa trên học sâu,
thay tầng phân loại softmax truyền thống bằng một tầng mới, gọi là tầng OpenMax, (từ đó
cho phép bác bỏ) để ước lượng xác suất dữ liệu đầu vào là từ một lớp chưa nhìn thấy. Tuy
nhiên, việc huấn luyện OpenMax cần các dữ liệu ví dụ cho một số lớp chưa nhìn thấy
(không nhất thiết là các lớp trong tập dữ liệu kiểm tra) để tinh chỉnh các tham số. Shu và
cộng sự [13] đã giới thiệu mô hình DOC, dựa trên tư tưởng của OpenMax, được chứng tỏ
là vượt trội hơn OpenMax cho cả phân loại mở cả văn bản lẫn ảnh mà không yêu cầu bất
kỳ dữ liệu ví dụ huấn luyện nào cho lớp chưa nhìn thấy.
Trong miền ứng dụng xử lý dữ liệu y văn, các tên thực thể y sinh (thuốc, bệnh, gien,
protein, v.v) cần được phân vào các khái niệm y sinh được lưu trữ trong một, hoặc nhiều
bộ CSDL từ vựng chuẩn cho trước. Quá trình này được gọi là quá trình chuẩn hoá tên
thực thể y sinh. Trong thực tế, nhiều trường hợp các tên thực thể y sinh được nhắc đến
trong các tài liệu là mới, chưa được lưu trữ trong các CSDL từ vựng cho trước. Có nhiều
hệ thống chuẩn hóa tên thực thể y sinh khác nhau đã được phát triển trong thập kỷ qua.
Tuy vậy, theo hiểu biết của tôi, đến thời điểm hiện tại tất cả các phương pháp này đều
không phải là học thế giới mở, dẫn đến việc các tên mới đều phải được phân vào ít nhất 1
khái niệm trong CSDL từ vựng cho trước. Vì những lý do trên, luận văn này sẽ tập trung
nghiên cứu ứng dụng học thế giới mở vào bài toán chuẩn hoá tên thực thể bệnh (gọi tắt là

tên bệnh), là một thực thể y sinh quan trọng, nhận được nhiều quan tâm nghiên cứu của
cộng đồng nghiên cứu y-sinh.

1.4. Mục tiêu của luận văn
Có thể thấy rằng, cơ sở dữ liệu tri thức tích luỹ được là hết sức quan trọng, và thiết
yếu đối với học suốt đời. Các tri thức được lưu trữ dưới định dạnh có cấu trúc, có thể “đọc”
được bởi máy tính, từ đó có thể thực hiện các phép suy diễn. Tuy nhiên, lúc đầu các tri
thức lại thường được thể hiện dưới dạng văn bản phi cấu trúc, do con người viết ra và chỉ
con người mới hiểu được. Các tri thức thường là mối quan hệ giữa các đối tượng, hiện
tượng nào đó. Việc trích xuất tự động tri thức được viết trong văn bản đang ngày trở nên
15

Phân tích dữ liệu văn bản dựa trên học máy thế giới mở và ứng dụng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về