ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC Y DƯỢC
------
LÊ VĂN TUYÊN
BƯỚC ĐẦU XÂY DỰNG MẠNG TƯƠNG TÁC Y HỌC
ÁP DỤNG TRÍ TUỆ NHÂN TẠO LÊN DỮ LIỆU
SÁCH Y KHOA CỦA ĐẠI HỌC OXFORD
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGÀNH DƯỢC HỌC
HÀ NỘI - 2022
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC Y DƯỢC
------
Người thực hiện: LÊ VĂN TUYÊN
BƯỚC ĐẦU XÂY DỰNG MẠNG TƯƠNG TÁC Y HỌC
ÁP DỤNG TRÍ TUỆ NHÂN TẠO LÊN DỮ LIỆU
SÁCH Y KHOA CỦA ĐẠI HỌC OXFORD
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC NGÀNH DƯỢC HỌC
Khóa: QH.2017.Y
Cán bộ hướng dẫn 1: ThS. LÊ ĐÌNH KHIẾT
Cán bộ hướng dẫn 2: ThS. NGUYỄN THÁI HÀ DƯƠNG
HÀ NỘI - 2022
LỜI CẢM ƠN
Em là Lê Văn Tuyên, sinh viên K6 Dươc̣ ho ̣c. Lời đầu tiên em xin gửi lời cảm
ơn đến toàn thể Ban Giám hiệu Trường Đại học Y Dược, Đại học Quốc Gia Hà Nội
và Bộ môn Y Dược học cơ sở đã tạo điều kiện cho em được làm khóa luận tốt nghiệp.
Em xin chân thành cảm ơn các thầy cơ giáo trong trường đã dìu dắt, giúp đỡ em hồn
thành chương trình học tập suốt 5 năm qua. Sau này dù có ra trường, em sẽ vẫn nhớ
rằng mình là một người con, một người trị của ngơi trường thân thương đã ni nấng
mình lên người. Những kỉ niệm ở đây em chắc chắn không bao giờ quên.
Em xin bày tỏ lòng biết ơn sâu sắc đến ThS. Lê Đình Khiết và ThS. Nguyễn
Thái Hà Dương, những người đã ln tận tình hướng dẫn, tạo điều kiện giúp đỡ em
hồn thành khóa l ̣n, nhờ sự chỉ bảo của hai thầy em đã học hỏi được rất nhiều điều
bổ ích. Thầy là nguồn cảm hứng và tạo cho em động lực rất nhiều.
Cảm ơn em Vi Thế Quang và Nguyễn Quang Trung đã giúp đỡ anh rất nhiều
trong bài nghiên cứu này, nhờ có hai em mà anh đã giải quyết được rất nhiều khó
khăn khi thực hiện đề tài.
Cuối cùng em xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè và người thân đã
ln quan tâm, động viên giúp em hồn thành khóa luận.
Dù đã rất cố gắng, nhưng lần đầu làm nghiên cứu em khó tránh khỏi những
thiếu sót. Em rất mong nhận được ý kiến đóng góp của các thầy cơ để khố luận thêm
hồn thiện.
Em xin chân thành cảm ơn!
Hà Nội, ngày 26 tháng 06 năm 2022
Sinh viên
Lê Văn Tuyên
DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT
AI
EMR
KG
Artificial Intelligence (Trí tuệ nhân tạo)
Electronic Medical Records (Hồ sơ bệnh án điện tử)
Knowledge Graph (Mạng tương tác)
NLP
Natural Language Processing( Xử lý ngôn ngữ tự nhiên)
TMK
Textual Medical Knowledge (Kiến thức Y tế dạng văn bản)
DANH MỤC CÁC BẢNG
Bảng 3.1. Bảng thông kê tập dữ liệu gốc ................................................................... 15
Bảng 3.2. Bảng thông kê tập dữ liệu nghiên cứu ....................................................... 15
Bảng 3.3. Bảng thống kê tập dữ liệu gốc sau tiền xử lý ............................................. 16
Bảng 3.4. Danh sách các từ khóa .............................................................................. 17
Bảng 3.5. Bảng thống kê giá trị tương tác giữa các thực thể của tập dữ liệu gốc ....... 20
Bảng 3.6. Bảng thống kê giá trị tương tác giữa các thực thể của tập dữ liệu Tim mạch
................................................................................................................................. 22
Bảng 3.7. Bảng thống kê giá trị tương tác giữa các thực thể của tập dữ liệu Nội tiết 24
Bảng 3.8. Bảng thống kê giá trị tương tác giữa các thực thể của tập dữ liệu Thần kinh
................................................................................................................................. 26
Bảng 3.9. Bảng thống kê giá trị tương tác giữa Triệu chứng và Cơ quan của tập dữ
liệu gốc ..................................................................................................................... 28
Bảng 3. 10. Bảng thống kê giá trị tương tác giữa Triệu chứng và Cơ quan của tập dữ
liệu Tim mạch........................................................................................................... 30
Bảng 3.11. Bảng thống kê giá trị tương tác giữa Triệu chứng và Cơ quan của tập dữ
liệu Nội tiết............................................................................................................... 32
Bảng 3.12. Bảng thống kê giá trị tương tác giữa Triệu chứng và Cơ quan của tập dữ
liệu Thần kinh........................................................................................................... 34
Bảng 3.13. Bảng thống kê giá trị tương tác giữa Bệnh và Triệu chứng của tập dữ liệu
gốc............................................................................................................................ 36
Bảng 3.14. Bảng thống kê giá trị tương tác giữa Bệnh và Triệu chứng của tập dữ liệu
Tim Mạch ................................................................................................................. 38
Bảng 3.15. Bảng thống kê giá trị tương tác giữa Bệnh và Triệu chứng của tập dữ liệu
Nội tiết ..................................................................................................................... 40
Bảng 3.16. Bảng thống kê giá trị tương tác giữa Bệnh và Triệu chứng của tập dữ liệu
Thần kinh ................................................................................................................. 42
DANH MỤC CÁC HÌ NH
Hình 1. 1. Minh họa một mạng tương tác ................................................................ 3
Hình 1. 2. Mạng tương tác được tạo bằng cách trích xuất thực thể và quan hệ........ 5
Hình 2. 1. Minh họa cách lượng hóa ảnh hưởng của từ khóa B lên từ khóa A…… 12
Hình 3. 1. Mạng tương tác Y học dưới góc nhìn tồn cảnh của tập dữ liệu gốc…. 19
Hình 3. 2. Mạng tương tác Y học dưới góc nhìn tồn cảnh của tập dữ liệu Tim mạch
.............................................................................................................................. 21
Hình 3. 3. Mạng tương tác Y học dưới góc nhìn tồn cảnh của tập dữ liệu Nội tiết 23
Hình 3. 4. Mạng tương tác Y học dưới góc nhìn tồn cảnh của tập dữ liệu Thần kinh
.............................................................................................................................. 25
Hình 3. 5. Mạng tương tác Triệu chứng và Cơ quan của tập dữ liệu gốc ............... 27
Hình 3. 6. Mạng tương tác Triệu chứng và Cơ quan của tập dữ liệu Tim mạch ..... 29
Hình 3. 7. Mạng tương tác Triệu chứng và Cơ quan của tập dữ liệu Nội tiết ......... 31
Hình 3. 8. Mạng tương tác Triệu chứng và Cơ quan của tập dữ liệu Thần kinh ..... 33
Hình 3. 9. Mạng tương tác Bệnh và Triệu chứng của tập dữ liệu gốc .................... 35
Hình 3. 10. Mạng tương tác Bệnh và Triệu chứng của tập dữ liệu Tim mạch ......... 37
Hình 3. 11. Mạng tương tác Bệnh và Triệu chứng của tập dữ liệu Nội tiết............. 39
Hình 3. 12. Mạng tương tác Bệnh và Triệu chứng của tập dữ liệu Thần kinh......... 41
MỤC LỤC
LỜI CẢM ƠN
DANH MỤC CÁC KÝ HIỆU, TỪ VIẾT TẮT
DANH MỤC CÁC BẢNG
DANH MỤC CÁC HÌNH
MỞ ĐẦU ................................................................................................................ 1
CHƯƠNG 1: TỔNG QUAN ................................................................................... 3
1.1. Tổng quan về mạng tương tác trong trí tuệ nhân tạo ................................... 3
1.1.1.
Khái niệm mạng tương tác ................................................................ 3
1.1.2.
Trí tuệ nhân tạo ................................................................................ 3
1.1.3.
Xây dựng mạng tương tác bằng trí tuệ nhân tạo ................................ 4
1.2. Mạng tương tác trong Y học ....................................................................... 5
1.3. Các nghiên cứu liên quan ........................................................................... 7
1.3.1.
Mạng tương tác trong lĩnh vực Y tế .................................................. 7
1.3.2.
Mạng tương tác Y học trong thế giới thực: xây dựng và ứng dụng .... 7
1.3.3.
Nghiên cứu mạng tương tác Y học về đột quỵ .................................. 8
1.4. Ý nghĩa của nghiên cứu .............................................................................. 9
CHƯƠNG 2: ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU ....................... 10
2.1. Đối tượng nghiên cứu ............................................................................... 10
2.2. Phương pháp nghiên cứu .......................................................................... 10
2.2.1.
Xây dựng mạng ................................................................................. 10
2.2.2.
Kiểm định mạng ................................................................................ 13
CHƯƠNG 3: KẾT QUẢ VÀ BÀN LUẬN ............................................................ 15
3.1.
Dữ liệu .................................................................................................. 15
3.2.
Xây dựng mạng ..................................................................................... 16
3.2.1.
Tiền xử lý dữ liệu ........................................................................... 16
3.2.2.
Danh sách từ khóa .......................................................................... 16
3.2.3.
Ma trận tương tác ........................................................................... 17
3.3.
Mạng tương tác và kiểm định định tính ................................................. 17
3.3.1.
Mạng tương tác tổng thể ................................................................. 19
3.3.2.
Mạng tương tác Triệu chứng và Cơ quan ........................................ 27
3.3.3.
Mạng tương tác Bệnh và Triệu chứng ............................................. 35
CHƯƠNG 4: KẾT LUẬN ..................................................................................... 43
TÀI LIỆU THAM KHẢO
PHỤ LỤC
MỞ ĐẦU
Sự vận động bình thường, ổn định của cơ thể sống là kết quả của sự tương tác
đa chiều, phức tạp của rất nhiều yếu tố. Sự bất thường của yếu tố này dẫn đến tới sự
bất thường trong hoạt động của các yếu tố khác thông qua sự tương tác. Việc hiểu
được sự tương tác, mối quan hệ của các yếu tố mở ra cơ hội hiểu được và kiểm sốt
các bất thường và từ đó nhanh chóng xử lý tình trạng bệnh lý. Tuy nhiên việc xây
dựng được biểu đồ tương tác phức tạp này trong lĩnh vực Y học tương đối khó khăn.
Những thách thức đó đến cả từ việc cần xử lý một lượng rất lớn các thông tin lẫn sự
phức tạp đặc thù của dữ liệu. Thông thường, các mạng tương tác (Knowledge GraphKG) thường được xây dựng bởi các chuyên gia của các chuyên ngành hẹp và thường
ở dạng tri thức ẩn (taxit knowledge). Cũng do đó, các mạng này thường có kích thước
nhỏ và phụ thuộc vào năng lực lẫn kinh nghiệm của các chuyên gia.
Những năm gần đây, cùng với giai đoạn dữ liệu của tất cả các ngành bắt đầu
có dấu hiệu bùng nổ. Việc phân tích dữ liệu bằng sức người trở thành vấn đề khi mà
tốc độ phân tích đáp ứng khơng kịp với nhu cầu phát triển thì lĩnh vực trí tuệ nhân tạo
(Artificial Intelligence-AI) bắt đầu có những bước tiến đáng kể. Trí tuệ nhân tạo là
sự kết hợp giữa năng tư duy của con người và năng lực tính tốn của máy tính, cho
phép tăng tốc các q trình xử lý. Nó đã có những bước tiến lớn trong các bài toán
xử lý ảnh, nhận diện hình ảnh, dịch máy,… tiêu biểu trong game khi robot Alpha-Go
đã chơi thắng nhà vô địch cờ vây thế giới. Hiện nay, trí tuệ nhân tạo đang được nghiên
cứu để áp dụng cho hầu hết các lĩnh vực của cuộc sống. Cũng như thế, trong lĩnh vực
Y tế nó cịn được gọi là health-informatics hay medical informatics, được kì vọng sẽ
tạo ra sự bùng nổ tri thức, giảm bớt được sức người.
Trong nghiên cứu này, chúng tôi cũng sử dụng hướng tiếp cận trí tuệ nhân tạo,
dùng các thuật tốn học máy phân tích trên dữ liệu Y học để xây dựng mạng tương
tác. Tuy nhiên, chúng tơi có sự cải biến khi áp dụng trên dữ liệu văn bản Y khoa là
các sách thay vì dữ liệu bệnh án. Sự khác nhau về cấu trúc dữ liệu, cũng như mật độ
thơng tin lỗng hơn, và lượng tri thức nhiều hơn có thể dẫn tới sự khó khăn trong việc
1
cô đọng thông tin. Tuy nhiên, chúng tôi kỳ vọng xây dựng được mạng tương tác có
tính phổ dụng rộng và ít bị chi phối hơn bởi thiên lệch trong phân bố dữ liệu.
Xuấ t phát từ những thực tế trên, đề tài “Xây dựng mạng tương tác Y học áp
dụng trí tuệ nhân tạp lên dữ liệu văn bản” đươc̣ thực hiê ̣n với những mu ̣c tiêu:
1. Xây dựng được mạng tương tác nhờ của các phương pháp học máy của trí
tuệ nhân tạo dối với tập dữ liệu thu thập được.
2. Kiểm định định tính được mạng tương tác đã xây dựng.
2
CHƯƠNG 1: TỔNG QUAN
1.1.
Tổng quan về mạng tương tác trong trí tuệ nhân tạo
1.1.1. Khái niệm mạng tương tác
Mạng tương tác (KG) là một cách biểu diễn dữ liệu bằng đồ thị, nó bao gồm
“nốt - cạnh – nốt” biểu thị mối quan hệ phong phú của các thực thể với nhau trong
thế giới thực. Nốt đại diện cho “một yếu tố”, “một thực thể” hoặc “một khái niệm”
và cạnh biểu thị mối quan hệ giữa hai thực thể. Ví dụ, trong Hình 1. 1., một bộ ba:
Thực thể 1, Thực thể 2 và Quan hệ 1 liên kết giữa chúng. KG có thể kết hợp cả dữ
liệu khơng có cấu trúc và dữ liệu có cấu trúc [1].
Thực
thể 1
Thực
thể 5
Quan hệ 4
Thực
thể 4
Quan hệ 6
Thực
thể 2
Thực
thể 6
Quan hệ 3
Quan hệ 2
Thực
thể 3
Hình 1. 1. Minh họa một mạng tương tác
Việc xây dựng các mạng tương tác thường bị hạn chế vì tính phức tạp và tính
đồ sộ của lượng thơng tin - tích lũy từ trước và ngày càng tăng nhanh theo thời gian.
Vì vậy, sự hỗ trợ của AI có vai trị rất quan trọng trong việc tổng hợp, xây dựng một
mạng tương tác hồn chỉnh, chính xác [33].
1.1.2. Trí tuệ nhân tạo
Trí tuệ nhân tạo (AI) được định nghĩa là một lĩnh vực khoa học máy tính [26].
Trí tuệ nhân tạo là trí tuệ do con người lập trình với mục tiêu giúp máy tính có thể tự
động hóa các hành vi thơng minh như con người. Sau một thời gian khó khăn trong
việc tìm kiếm tài trợ cho các dự án AI [34] và tốn nhiều chi phí, đến thế kỷ 21, AI đã
3
hồi sinh sau những tiến bộ vượt bậc của sức mạnh máy tính, Big Data,… AI đã trở
thành một phần thiết yếu của ngành công nghệ.
Trong các công việc thường ngày, con người có thể nhầm lẫn khi mắc lỗi hoặc
thực hiện nhiều công việc lặp đi lặp lại như gửi thư cảm ơn, trả lời email, ... Khi sử
dụng AI, các dữ liệu được áp dụng các bộ thuật tốn cụ thể. AI có thể xử lý hiệu quả
các công việc thông thường này, loại bỏ các công việc “nhàm chán” và có thể đạt
được độ chính xác ở mức độ cao hơn [4].
1.1.3. Xây dựng mạng tương tác bằng trí tuệ nhân tạo
Những năm gần đây, cùng với giai đoạn dữ liệu của tất cả các ngành bắt đầu
có dấu hiệu bùng nổ. Việc phân tích dữ liệu bằng sức người trở thành vấn đề khi mà
tốc độ phân tích khơng kịp đáp ứng với nhu cầu phát triển thì lĩnh vực trí tuệ nhân tạo
bắt đầu có những bước tiến đáng kể. Trí tuệ nhân tạo là sự kết hợp giữa năng tư duy
của con người và năng lực tính tốn của máy tính, cho phép tăng tốc các q trình xử
lý. Nó đã có những bước tiến lớn trong các bài toán xử lý ảnh, nhận diện hình ảnh,
dịch máy,… tiêu biểu trong game khi robot Alpha-Go đã thắng nhà vô địch cờ vây
thế giới. Hiện nay, trí tuệ nhân tạo đang được nghiên cứu để áp dụng cho hầu hết các
lĩnh vực của cuộc sống. Và việc xây dựng mạng tương tác bằng trí tuệ nhân tạo là
một thách thức lớn trong thời đại công nghệ ngày nay.
Có hai hình thức xây dựng mạng tương tác là thủ công hoặc bán tự động. Việc
xây dựng các mạng tương tác theo cách thủ công vẫn rất tốn kém. Do đó, bất kỳ sự
tự động hóa nào cũng có thể đạt được một mạng tương tác hiệu quả, tiết kiệm chi phí
hơn. Cho đến một vài năm trước, các thuật tốn xử lý ngơn ngữ tự nhiên (Natural
Language Processing-NLP) và thị giác máy tính (Computer Vision) đang cố gắng
trong việc nhận dạng thực thể từ văn bản và phát hiện đối tượng từ hình ảnh. Do
những tiến bộ gần đây, các thuật toán này đang bắt đầu vượt ra khỏi các nhiệm vụ cơ
bản để trích xuất các mối quan hệ giữa các thực thể. Trong đó các quan hệ được trích
xuất có thể được lưu trữ để xử lý và suy luận thêm. Trích xuất thực thể và trích xuất
quan hệ từ văn bản là hai nhiệm vụ cơ bản trong NLP. Các phương pháp tiếp cận dựa
trên quy tắc cú pháp của câu hoặc các thực thể, mối quan hệ có thể được xác định
trong văn bản đầu vào [31].
Thơng tin được trích xuất từ nhiều phần của văn bản cần phải có mối tương
quan. Ví dụ, trong Hình 1. 2., có các thực thể: “Albert Einstein, Đức, Nhà vật lý lý
thuyết, Thuyết tương đối” và các quan hệ: “sinh ở, nghề nghiệp, đã phát triển”. Khi
4
đoạn kiến thức này được kết hợp vào một KG lớn hơn, có thể sử dụng suy luận
logic để có được các liên kết (quan hệ) bổ sung (được thể hiện bằng các đường nét
đứt), chẳng hạn như Nhà vật lý lý thuyết thuộc về Nhà vật lý và Thuyết tương đối là
một nhánh của Vật lý [31].
Đức
Nhà vật lý
lý thuyết
Albert
Einstein
Nhà vật lý
thực hành
Thuyết
tương đối
Vật lý
Hình 1. 2. Mạng tương tác được tạo bằng cách trích xuất thực thể và quan hệ
1.2.
Mạng tương tác trong Y học
Các nghiên cứu đã khám phá ra các ứng dụng tiềm năng của trí tuệ nhân tạo
trong lĩnh vực Y học [13, 20]. Ứng dụng của công nghệ AI trong lĩnh vực phẫu thuật
lần đầu tiên được Gunn nghiên cứu thành công vào năm 1976, khi ơng khám phá ra
khả năng chẩn đốn cơn đau bụng cấp tính bằng cách phân tích thơng qua máy tính
[9]. Từ đó đến nay đã chứng kiến sự quan tâm đáng kể của AI trong lĩnh vực Y học,
ví dụ như hệ thống hỗ trợ quyết định lâm sàng để chẩn đoán và điều trị [3, 5, 22, 32],
tự chẩn đoán để hỗ trợ bệnh nhân đánh giá tình trạng sức khỏe dựa trên các triệu
chứng [8, 30]. Hầu hết các cơng trình trước đây đều cố gắng xây dựng KG từ các bài
báo liên quan đến Y học. Một số được xây dựng theo cách thủ công và một số khác
là bán tự động. Tuy nhiên, việc xây dựng KG theo cách thủ cơng địi hỏi thời gian và
công sức rất nhiều từ các chuyên gia lâm sàng. Ví dụ, có báo cáo rằng cần khoảng
mười lăm năm để xây dựng cơ sở kiến thức Internist-1/QMR [21, 28]. Bán tự động
xây dựng KG từ các bài báo là một cơng việc đầy thách thức vì các dữ liệu gần như
khơng có cấu trúc, rất khó xử lý bằng máy tính.
5
Y học hiện đại đang phải đối mặt với thách thức trong việc tiếp thu, phân tích
và áp dụng một lượng lớn các kiến thức cần thiết để giải quyết các vấn đề lâm sàng
phức tạp. Trong khi đó thơng tin chăm sóc sức khỏe đang phát triển bùng nổ, kiến
thức Y tế dạng văn bản (Textual Medical Knowledge-TMK) đang ngày càng chiếm
một vị trí quan trọng trong hệ thống thơng tin chăm sóc sức khỏe. Vì vậy, một số
nghiên cứu đã phát triển và tích hợp TMK vào mạng tương tác để cung cấp cho máy
tính việc truy xuất và giải thích các kiến thức Y khoa một cách nhanh chóng và chính
xác. Ernst và cộng sự, đề xuất phương pháp xây dựng một mạng tương tác lớn một
cách tự động. Nguồn dữ liệu của họ là từ điển đồng nghĩa từ (Unified Medical
Language System) và nguồn đầu vào từ nhiều ấn phẩm khoa học và bài đăng trên các
cổng thông tin sức khỏe khác nhau [7]. Shi và cộng sự, cung cấp một thuật toán để
loại bỏ suy luận vô nghĩa trên biểu đồ kiến thức để cải thiện hiệu suất của kết quả suy
luận [27]. Rotmensch và cộng sự, đề xuất tạo một biểu đồ quan hệ giữa các bệnh với
các triệu chứng mà dữ liệu có thể lấy từ EMR một cách tự động. Nguồn dữ liệu của
họ bao gồm hồ sơ Y tế ở khoa cấp cứu của hơn 270,000 lượt bệnh nhân [25].
Những cách tiếp cận để xây dựng các mạng tương tác Y học phụ thuộc vào
thuật ngữ Y tế tiêu chuẩn, vốn cịn thiếu trong một số ngơn ngữ như tiếng Trung
Quốc. Do đó, những nỗ lực xây dựng các mạng tương tác Y học trên các ngôn ngữ
như vậy luôn nhận được kết quả có độ chính xác tương đối thấp. Các thuật toán xây
dựng vẫn cần được cải thiện để giải quyết các vấn đề như vậy trong công việc trong
tương lai [37].
Sự phát triển của trí tuệ nhân tạo trong việc giúp các bác sĩ lâm sàng chẩn
đoán, đưa ra quyết định điều trị và dự đoán kết quả. Chúng được thiết kế để hỗ trợ
nhân viên Y tế trong công việc hàng ngày của họ dựa vào các thao tác máy móc với
các dữ liệu và kiến thức đã được lưu trữ. Các hệ thống như vậy bao gồm mạng nơ ron
nhân tạo (Artificial Neural Network), hệ thống chuyên gia mở, hệ thống thông minh
kết hợp, …[23]. Và nhờ sự tiến bộ của công nghệ xử lý dữ liệu lớn (big data) và NLP,
tự động khái thác dữ liệu từ hồ sơ sức khỏe điện tử (Electronic Medical RecordsEMR) [10, 12, 14-16, 18, 19, 29, 32, 35], khai thác dữ liệu từ các văn bản Y khoa trở
thành một xu hướng nghiên cứu đầy hứa hẹn trong việc xây dựng mạng tương tác.
6
1.3.
Các nghiên cứu liên quan
1.3.1. Mạng tương tác trong lĩnh vực Y tế
Năm 2020, Gyanesh Anand [2] đã xây dựng mạng tương tác Y học với tập dữ
liệu đã được thu thập từ các nguồn khác nhau. Nguồn nổi bật là trang web MedIndia.
Các nguồn khác là Medline, WebMD và trang web NIH. Dữ liệu Y tế dạng văn bản
đã được thu thập từ Bách khoa toàn thư Y tế với mã nguồn mở có sẵn trên mạng
internet. Sau khi thu thập dữ liệu, dữ liệu phải được xử lý. Dữ liệu đã xử lý được lưu
trữ ở định dạng JSON. Số trang sau khi xử lý còn lại 1742. Tác giả tạo bản thể
MedOnto để mơ hình hóa các khái niệm khác nhau trong lĩnh vực Y tế. Dữ liệu thực
tế được đưa vào bản thể một cách tự động. Phương pháp Entity Recognition (NER)
trích xuất thực thể trong trường hợp văn bản ở định dạng ngôn ngữ tự nhiên thuần
túy tiếng Anh. MetaMap NER của Unified Medical Language System đã được sử
dụng để trích xuất các thực thể mong muốn từ các đoạn văn. Hai phương pháp phân
biệt đã được sử dụng để trích xuất các thực thể có liên quan sau đó được thêm vào
mạng tương tác.
1.3.2. Mạng tương tác Y học trong thế giới thực: xây dựng và ứng dụng
Năm 2020, Linfeng Li cùng các cộng sự [17] đã xây dựng mạng tương tác Y
học từ các EMR quy mơ lớn. Quy trình xây dựng KG bao gồm 8 bước, đó là chuẩn
bị dữ liệu, nhận dạng các thực thể, chuẩn hóa thực thể, trích xuất quan hệ, tính tốn
thuộc tính, làm sạch biểu đồ, xếp hạng thực thể liên quan và xây dựng KG tương ứng.
Mạng tương tác Y học được xây dựng dựa trên dữ liệu y tế từ năm 2015 đến 2018,
bao gồm 16,217,270 lượt khám chưa xác định của tổng số 3,767,198 bệnh nhân. Các
triệu chứng được trích xuất từ lịch sử bệnh Named Entity Recognition (NER), tất cả
các thực thể khác được trích xuất trực tiếp từ trường cấu trúc của EMR. Có thể tồn
tại các thuật ngữ khác nhau cho cùng một thực thể, chuẩn hóa chúng đưa về thuật ngữ
chuẩn duy nhất (ví dụ Bệnh tật dùng thuật ngữ chuẩn của ICD-10). Khai thác quan
hệ, xác định mối liên hệ giữa 2 thực thể. Đối với mỗi quan hệ, bốn thuộc tính cơ bản
được tính tốn, đó là số lần cùng xuất hiện, xác suất, tính đặc hiệu và độ tin cậy. Các
quan hệ và thực thể ở dưới ngưỡng chỉ định sẽ bị xóa. Một thực thể sẽ liên quan dến
rất nhiều thực thể khác, vì thế các thực thể được xếp hạng mức độ liên quan bằng
cách sử dụng hàm Probability-Specificity-Reliability (PSR). PrTransH được sử dụng
để tạo vectơ cho mỗi thực thể và mối quan hệ, chúng được đưa vào một chiều không
gian để tạo được một KG hoàn chỉnh.
7
1.3.3. Nghiên cứu mạng tương tác Y học về đột quỵ
Năm 2021, Binjie Cheng cùng các cộng sự [6] đã xây dựng một mạng tương
tác về bệnh đột quỵ. Đầu tiên, tác giả xây dựng từ điển xoay quanh bệnh đột quỵ, sử
dụng chú thích bán tự động và xây dựng mơ hình bản thể của KG kết hợp với thuật
ngữ Y tế tiêu chuẩn quốc tế như ICD-10. Nghiên cứu xây dựng mơ hình bản thể dựa
trên phương pháp xây dựng bán tự động kết hợp chú thích thủ cơng. Phương pháp
này có thể thu được bản thể với chất lượng cao hơn và tiết kiệm nguồn nhân lực. Thứ
hai, tổng hợp dữ liệu thông tin về bệnh đột quỵ tại 2 trang web: Xunyiwenyao.com,
Dingxiangyuan.com và bách khoa toàn thư Baidu. Các nguồn dữ liệu khác nhau yêu
cầu các phương pháp xử lý khác nhau, nghiên cứu này sử dụng trình thu thập thơng
tin phân tán để tự động thu thập dữ liệu Y tế. Và thu được 4,113 thực thể liên quan
đến bệnh đột quỵ, thuộc 8 loại thuộc tính. Đồng nhất dữ liệu bằng việc căn chỉnh
thuộc tính và chuẩn hóa các giá trị của thuộc tính. Sau đó tính tốn độ tương đồng,
xác định mối quan hệ giữa các thực thể. Liên kết các thực thể bằng cách ánh xạ
vector. Sau đó, KG được xây dựng. Cơ sở dữ liệu bản thể học đột quỵ đã được xây
dựng trước đó tiếp tục được cải thiện và bổ sung các dữ liệu mới để KG được cập
nhật liên tục để tăng độ chính xác của mối liên kết giữa các thực thể.
Với mong muốn khắc phục các khó khăn tồn tại trong việc nghiên cứu và phân
tích dữ liệu Y khoa từ đó tạo ra một cơng cụ hỗ trợ chẩn đoán (Medical Diagnostic
Decision Support), trong nghiên cứu này, chúng tôi đề xuất xây dựng mạng tương tác
của các yếu tố Y học bằng sự hỗ trợ của các thuật tốn trí tuệ nhân tạo. Cụ thể, chúng
tơi phân tích dữ liệu văn bản, lọc ra các từ khoá và lượng hoá mối quan hệ của các từ
khố với nhau, sau đó biểu diễn mối quan hệ đó thành một mạng lưới tương tác và
đánh giá kết quả.
Thơng qua nghiên cứu này, chúng tơi kỳ vọng đóng góp một phương pháp xây
dựng các mạng tương tác biểu diễn tri thức Y học một cách toàn diện và hiệu quả, hỗ
trợ cho các bác sĩ trong chẩn đoán và bệnh nhân trong việc tiếp cận các thông tin Y
khoa. Bên cạnh đó, ứng dụng của nghiên cứu này còn mở ra nhiều triển vọng trong
liên ngành Y sinh- tin học.
8
1.4.
Ý nghĩa của nghiên cứu
Ý nghĩa khoa học:
- Nghiên cứu đưa ra cách xây dựng mạng tương tác Y học áp dụng trí tuệ nhân
tạo bằng các thuật tốn khác nhau.
-
Các thuật tốn được sử dụng có độ chính xác khác nhau khi áp dụng dữ liệu
văn bản Y khoa được đưa vào máy tính, nghiên cứu này cho phép đánh giá
-
được sự chính xác của từng thuật tốn đối với bộ dữ liệu đã sử dụng.
Diễn giải được cách thức xử lý thơng tin của máy tính, đánh giá kết quả được
đưa ra, từ đó có thể đánh giá và điều chỉnh nếu có sai sót trong việc đưa ra kết
quả đánh giá.
Giá trị thực tiễn:
- Phục vụ cho nhân viên Y tế trong việc đưa ra chẩn đoán và quyết định điều trị
cho bệnh nhân.
- Cung cấp cơng cụ hữu ích với tính cập nhật cao phục vụ trong Y tế.
-
Xử lý được lượng thông tin lớn một cách nhanh chóng và chính xác.
Giá trị giáo dục:
- Trang bị cho chính mình các kiến thức về trí tuệ nhân tạo và ứng dụng trong
Y học, cụ thể là ứng dụng trí tuệ nhân tạo vào xây dựng mạng tương tác Y
-
học.
Nghiên cứu có thể làm tài liệu tham khảo cho học sinh và sinh viên của các
-
trường đại học Y Dược.
Nghiên cứu có thể dùng làm tài liệu tham khảo và phát triển cho các đề tài sau
này dựa vào những kết đã thu được.
9
CHƯƠNG 2: ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
2.1.
Đối tượng nghiên cứu
Dữ liệu được lựa chọn để phân tích là các Y văn, được viết bằng tiếng Anh và
được sử dụng để giảng dạy cũng như áp dụng lâm sàng của các cơ sở giáo dục, Y học
đã được công nhận trên thế giới, cụ thể các Y văn này là các sách, giáo trình của
trường Đại học Oxford. Các Y văn này được biên soạn bởi các giáo sư, phó giáo sư
và có sự tham gia của các giảng viên chuyên ngành, các thạc sỹ, các học giả, … là
những người có kiến thức, nghiên cứu chuyên sâu trong lĩnh vực nhất định. Các Y
văn tiếng Anh được viết rất chi tiết, đầy đủ và sử dụng từ ngữ chuyên ngành một cách
chính xác chuẩn Quốc tế phù hợp với tất cả độc giả.
Dữ liệu được thu thập tại trang web: .
2.2.
Phương pháp nghiên cứu
2.2.1. Xây dựng mạng
2.2.1.1. Tiền xử lý dữ liệu
Hệ thống tiền xử lý dữ liệu (Preprocessing) của Python (ngơn ngữ lập trình)
[11] được sử dụng để đọc và nhận diện văn bản thành các trang, từ. Các hình vẽ, mục
lục, tài liệu tham khảo, phụ lục đều bị loại bỏ. Các từ tiếng Anh được chuyển về dạng
từ gốc, ví dụ “program”, “programs”, “programer”, “programing” đều được chuyển
thành “program”. Các từ không mang nghĩa đặc trưng cho Y học hay các lĩnh vực
đặc thù (còn gọi là stopword) cũng bị loại bỏ. Sau quá trình này, tất cả các trang trong
cùng một nhóm sách được chia ngẫu nhiên thành các tập con, mỗi tập con gồm
khoảng 1000 trang và việc có nhiều tập con được dùng cho kiểm định giả thuyết thống
kê, đánh giá mức độ tin cậy của giá trị tương tác.
2.2.1.2. Bán tự động đề xuất từ khóa
Các từ khố có thể được tạo ra bằng cách chỉ định trực tiếp bởi con người hoặc
do máy đề xuất căn cứ vào tần suất xuất hiện. Ở đây, chúng tôi kết hợp cả hai phương
thức trên. Thuật toán học máy tiến hành đếm số lần xuất hiện của mỗi từ có trong dữ
liệu. Bằng cách đưa vào giá trị ngưỡng, thuật toán tự động loại bỏ các từ có tần suất
10
dưới ngưỡng. Bước tiếp theo, chúng tôi lọc thủ công tối đa các từ hợp lý (liên quan
đến Y học) làm từ khố.
2.2.1.3. Lượng hóa ma trận tương tác
Lượng hố ma trận tương tác: giá trị tương tác giữa các thực thể xuất phát từ
vị trí tương đối của chúng trong văn bản. Chúng xuất hiện càng gần nhau thì khả năng
có sự tương tác giữa chúng càng lớn và ngược lại. Trong định lượng, chúng tôi xây
dựng thử nghiệm một hàm đánh giá tường minh f cho các cặp từ khoá (A, B) thoả
mãn giả thuyết trên.
Cụ thể f(A, B) lượng hoá giá trị tương tác của B với A, được gọi là “A cites
B” nghĩa là sự xuất hiện của A kéo theo sự xuất hiện của B. Gọi x và y lần lượt là thứ
tự của câu chứa từ khoá A và B. Do giả thuyết về A xuất hiện trước rồi mới kéo theo
B nên chúng ta chỉ lấy các cặp (x, y) thoả mãn x≤y. Khoảng các câu giữa cặp (A, B)
này được định nghĩa là d(A, B) = (y–x).
Giá trị tương tác của A kéo theo B trong tập dữ liệu là một phép tổng:
n
m
F(A, B) = ∑ ∑ f(d(Ax , By ))
x=0 y≥x
Trong nghiên cứu thử nghiệm, chúng tôi sử dụng f là hàm Laplacian [36] với
ý nghĩa mức độ tương tác sẽ giảm hàm mũ bậc nhất theo khoảng cách: f(x) = e−αx
(α là hệ số dương).
Với định nghĩa trên, giá trị tương tác là một số dương, giá trị của nó càng lớn
khi cặp từ khố có càng nhiều vị trí gần nhau. Cũng lưu ý rằng: F(A, B) và F(B, A)
là khác nhau, nó phù hợp với việc phản ánh thực tế rằng kết quả của sự tương tác ảnh
hưởng lên mỗi yếu tố có mức độ nặng nhẹ khác nhau.
11
Như vậy, giá trị của “A cites B” là tổng khoảng cách của tất cả các cặp Ax, B y
sao cho By chỉ tính cho Ax duy nhất đứng trước nó trong văn bản. Điều này được
minh hoạ ở Hình 2. 1.
Hình 2. 1. Minh họa cách lượng hóa ảnh hưởng của từ khóa B lên từ khóa A
2.2.1.4. Lược giản mạng tương tác
Kiểm định thống kê mạng tương tác: Mạng tương tác được biểu diễn bởi một
ma trận vuông từ sự tương tác của n thực thể. Tuy nhiên có những giá trị tương tác
mang tính ngẫu nhiên đến từ tập dữ liệu. Ma trận này được xây dựng từ các tập con
của dữ liệu, sử dụng kiểm định giả thuyết thống kê để bác bỏ các tương tác có độ tin
cậy thấp.
̅̅̅
̅̅̅̅
𝑥 ̅−𝑥
Kiểm định thơng kê t-test: t = 1 2 .
𝑆∆
𝑆 2
𝑆 2
Trong đó: S∆ = √ 1 + 2
𝑛1
𝑛2
̅̅̅
𝑥1 : Giá trị trung bình của tập con thứ nhất
̅̅̅
𝑥2 : Giá trị trung bình của tập con thứ 2
S1: Độ lệch chuẩn của tập con thứ nhất
S2: Độ lệch chuẩn của tập con thứ 2
12
n1: Tổng số giá trị trong tập con thứ nhất
n2: Tổng số giá trị trong tập con thứ 2
Từ t ta sẽ suy ra được giá trị P-value (sử dụng Python), P-value > 0,01 thì được
coi là kết nối có độ tin cậy thấp.
2.2.2.5. Biểu diễn mạng tương tác
Ma trận tương tác là kết quả sau khi tính tốn cho tất cả các cặp tương tác chéo
trong của các từ trong tập hợp từ khoá. KG được vẽ dựa trên các tương tác có giá trị
của ma trận và được hiệu chỉnh bằng thuật tốn PageRank.
PageRank là cơng thức Tốn học đánh giá giá trị của trang (Web Page) thông
qua việc xem xét số lượng và chất lượng các trang liên kết đến nó. Trong nghiên cứu
này, thay vì đánh giá giá trị của các trang ta sẽ đánh giá giá trị của các thực thể.
Thuật toán PageRank:
PR(T)= (1-d) + d*(
𝑃𝑅(𝑇1)
𝑃𝑅(𝑇2)
+
+
𝐶(𝑇1)
𝐶(𝑇2)
⋯+
𝑃𝑅(𝑇𝑛)
)
𝐶(𝑇𝑛 )
Trong đó:
PR(T) + PR(T1) + PR(T2) +…+ PR(Tn) = 1
PR: Giá trị (Rank) của thực thể
C: Số liên kết của 1 thực thể
T, T1, T2, …Tn: Các thực thể
d: Xác suất lựa chọn thực thể
Và chúng tôi sử dụng phần mềm Gephi [24] để vẽ mạng tương tác.
2.2.2. Kiểm định mạng
Kiểm định mạng: Mạng tương tác biểu thị mối quan hệ giữa các thực thể bản
chất là Unsupervised Learning chỉ đánh giá kết quả định tính, khơng đánh giá kết quả
định lượng. Định tính hiệu quả của mạng là kiểm chứng sự phù hợp của các tri thức
Y học (sự liên quan của các thực thể) với kiến thức lâm sàng.
Để đánh giá định tính hiệu quả của mạng tương tác, ta dự đoán mối liên quan
giữa các thực thể. Ví dụ ta dự đốn mối liên quan Triệu chứng với Cơ quan. Một triệu
chứng bất kỳ có thể có liên quan tới nhiều cơ quan, nhưng dựa vào trọng số (giá trị
13
tương tác) nó cho phép sắp xếp khả năng liên quan của các cơ quan theo thứ tự giảm
dần.
14
CHƯƠNG 3: KẾT QUẢ VÀ BÀN LUẬN
3.1.
Dữ liệu
Sau khi tìm kiếm, chúng tôi thu thập được 97 đầu sách giáo trình của Oxfords
(tái bản mới nhất) với tổng cộng 76,277 trang và 32,334,498 từ được đề cấp tại Bảng
3.1. (chi tiết tại Phụ lục 1).
Bảng 3.1. Bảng thông kê tập dữ liệu gốc
Số trang
Tên Sách
Số từ
Oxford American Handbook of Cardiology
658
164,638
Oxford American handbook of clinical
pharmacy
752
173,881
Oxford American Handbook of Disaster
Medicine
801
183,485
Oxford American handbook of
endocrinology and diabetes
697
167,800
…
…
76,277
32,334,498
…
Tổng dữ liệu
Các sách còn được lựa chọn để xếp vào 3 nhóm nhỏ hơn: nhóm Nội tiết, Thần
kinh và Tim mạch để phục vụ cho việc đánh giá sự phụ thuộc của mạng tương tác
vào nhóm các ngành hẹp hơn. Chi tiết về 3 nhóm được chỉ ra ở Bảng 3.2.
Bảng 3.2. Bảng thông kê tập dữ liệu nghiên cứu
Lĩnh vực
Số trang
Tất cả các đầu sách
Số từ
76,277
32,334,498
Tim mạch
9,161
3,693,693
Nội tiết
5,440
1,713,569
13,665
8,112,976
Thần kinh
Trong nghiên cứu này, tôi xây dựng mạng tương tác Y học dựa vào phân tích
dữ liệu văn bản Y khoa. Khác với các nghiên cứu trước của Linfeng Li cùng các cộng
sự [17] phân tích hồ sơ bệnh án điện tử (EMR), các sách thường được trình bày chi
15
tiết hơn về mối quan hệ của các yếu tố, nhưng đồng thời cũng có nhiều từ nhiễu hơn,
cấu trúc câu phức tạp hơn. Tính trật tự của việc sắp xếp các yếu tố cũng cao hơn so
với bệnh án. Ví dụ: kiểu liệt kê triệu chứng ở bệnh án, các triệu chứng về mặt xuất
hiện là ngang hàng. Tuy nhiên trong các sách, có thể sự sắp xếp trước sau của từng
triệu chứng phản ánh mối tương tác nào đó giữa chúng hoặc giữa chúng với yếu tố
khác. Mặc dù, nghiên cứu phân tích hồ sơ bệnh án có thể tìm ra tri thức mới, tuy nhiên
chúng cần được kiểm chứng trước khi có thể phục vụ cho mục đích Y học. Do đó,
việc phân tích dữ liệu sách kì vọng đưa ra được biểu đồ tương tác chi tiết, phục vụ
cho đa mục đích.
3.2.
Xây dựng mạng
3.2.1. Tiền xử lý dữ liệu
Dữ liệu từ 76,277 trang ban đầu với 32,334,498 từ, sau khi loại bỏ các trang
phụ và các từ khơng được chọn đã giảm xuống cịn 52,571 trang và 7,080,850 từ được
đề cập tại Bảng 3.3. (chi tiết tại Phụ lục 1). Chúng được chia ngẫu nhiên tập hợp
trang thành 50 tập con. Mỗi tập con có 1051 trang và 141,617 từ.
Bảng 3.3. Bảng thống kê tập dữ liệu gốc sau tiền xử lý
Số trang sau
tiền xử lý
Tên Sách
Số từ sau
tiền xử lý
Oxford American Handbook of Cardiology
355
22,326
Oxford American handbook of clinical pharmacy
359
22,563
Oxford American Handbook of Disaster
Medicine
365
27,131
Oxford American handbook of endocrinology
and diabetes
510
32,103
…
…
52,571
7,080,850
…
Tổng dữ liệu
3.2.2. Danh sách từ khóa
Từ khố được tạo chung từ toàn bộ tập dữ liệu. Sau bước tiền xử lý, các từ cịn
lại được tính số lần lặp lại trong mỗi tập con. Các từ có tần suất xuất hiện dưới ngưỡng
mặc định 20 lần bị loại bỏ (các lần chạy thử đã cho thấy các từ có tần suất dưới
ngưỡng đều bị loại bỏ khi áp dụng kiểm định giả thuyết thống kê). Tiến hành hợp
nhất các từ được lựa chọn ở tất cả các tập dữ liệu con và lọc thủ công các thuật ngữ
16
Y khoa thu được 438 từ khoá. Các từ khoá này được phân thành 3 nhóm: cơ quan,
triệu chứng và bệnh. Danh sách từ khoá được đề cập tại Bảng 3.4. (chi tiết tại Phụ
lục 2).
Bảng 3.4. Danh sách các từ khóa
Nhóm
Từ khóa
abdomen, airway, ankl, aorta, arteri, arteriol, axon, bladder, blood,
Cơ quan
bone, bowel, brain,brainstem, breast, breech, bronchiol, bulbar, …
abscess, acidosis, addict, alkalosi, amnesia, anorexia, anxieti,
Triệu chứng
apnea, ataxia, atrophi, bacteraemia, bleed, blister, …
adenocarcinoma, adenoma, allergi, alzheim, amyloidosi, anaemia,
Bệnh
anderson, aneurysm, anthrax, aphasia, arrhythmia, …
3.2.3. Ma trận tương tác
Mỗi tập con trong 50 tập con chúng tơi tiến hành tính tốn ma trận tương tác
riêng rẽ. Kết quả tạo ra 50 ma trận tương tác, mỗi ma trận có kích thước 438x438,
tương đương với 191,406 kết nối. Kiểm định giả thuyết thống kê t-test được áp dụng
cho mỗi kết nối trên 50 ma trận để loại bỏ những kết nối ý nghĩa thấp. Kết quả số kết
nối có ý nghĩa giảm từ 191,406 xuống cịn 1,950 (1%). Ở dạng số hố, số lượng kết
nối này chính là mạng tương tác. Trong việc dựng hình minh hoạ, để thuận tiện 1000
kết nối có giá trị lớn nhất được lựa chọn.
Tuy nhiên, đối với các tập dữ liệu Tim mạch, Nội tiết, Thần kinh thuộc các
ngành hẹp hơn, khi đó lượng dữ liệu sẽ ít hơn so với tập dữ liệu gốc tương ứng số
lượng các thực thể và kết nối cũng ít hơn.
3.3.
Mạng tương tác và kiểm định định tính
Trên tập dữ liệu tồn thể, mạng tương tác của tất cả các thực thể với 1000 kết
nối mạnh nhất được thể hiện ở Hình 3. 1.. Các thực thể quan trọng (được hiểu là có
sự ảnh hưởng to lớn đến nhiều yếu tố khác) có kích thước biểu diễn lớn, ví dụ như:
máu (Blood), nhiễm khuẩn (Infect), tim (Heart), đau (Pain),… Sự mạnh yếu của
tương tác đang phản ánh góc nhìn tập dữ liệu từ cách thức xây dựng phương pháp.
Để kiểm chứng khả năng hợp lý của mạng, thuật toán cũng tự động chia các
từ khố thành các nhóm dựa vào sự ảnh hưởng qua lại lẫn nhau của các thực thể. Trên
hình vẽ các thực thể cùng nhóm thể hiện qua cùng màu sắc và chúng có xu hướng tập
17