Tải bản đầy đủ (.pdf) (6 trang)

Hướng đến khung phần mềm khai thác thông tin y tế dựa trên khái niệm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (320.77 KB, 6 trang )

HƢỚNG ĐẾN KHUNG PHẦN MỀM
KHAI THÁC THÔNG TIN Y TẾ DỰA TRÊN KHÁI NIỆM
Huỳnh Hữu Nghĩa
Khoa Giáo dục Đại cương, Đại học Lao động – Xã hội, thành phố Hồ Chí Minh

TĨM TẮT
Cộng đồng nghiên cứu đang rất quan tâm đến lĩnh vực khai thác văn bản y tế, họ đã đưa ra những bài tốn
liên quan đến mơ hình khai thác thông tin y tế tổng quát, chẳng hạn như: rút trích khái niệm y tế và rút
trích mối quan hệ giữa các khái niệm. Ngoài ra, cộng đồng cũng đã phát triển một số nguồn tài nguyên và
công cụ hỗ trợ khai thác thông tin y tế. Các bài toán đang được giải quyết một cách rời rạc, chưa có sự kết
nối tự động và chưa có khung kiến trúc chung khai thác văn bản y tế đáp ứng nhu cầu thông tin đa dạng
của người dùng. Mục tiêu bài báo trình bày đề xuất hướng tới một khung phần mềm tổng quát cho hệ
thống khai thác văn bản y tế. Với ý nghĩa là cung cấp cái nhìn tổng thể của một hệ thống khai thác văn bản
y tế cần có để làm cơ sở phát triển các hệ thống khai thác thông tin y tế, giúp cho cộng đồng nghiên cứu
tiết kiệm được thời gian và công sức phát triển hệ thống khai thác thông tin y tế.
Từ khóa: Khai thác thơng tin y tế, rút trích khái niệm y tế, rút trích mối quan hệ y tế.

1. GIỚI THIỆU
Những tiến bộ trong tin học y tế như hồ sơ bệnh án điện tử (EHR), các hệ thống chăm sóc y tế và những
ứng dụng trong y sinh học (biomedical) đã sinh ra khối lượng dữ liệu lớn được lưu trữ trong hàng trăm cơ
sở dữ liệu. Ngồi ra, việc số hóa dữ liệu y tế quan trọng như các báo cáo phịng thí nghiệm, tài liệu nghiên
cứu và hình ảnh giải phẫu cũng đã tạo ra dữ liệu chăm sóc bệnh nhân khổng lồ được lưu trữ trên máy tính.
Sự phát triển của Internet cũng làm xuất hiện nhiều trang web tư vấn cách chăm sóc sức khỏe và đặc biệt
là sự phát triển của bách khoa tồn thư mở Wikipedia chia sẻ thơng tin và hình ảnh y khoa. Bên cạnh đó,
ngày càng nhiều tạp chí y khoa điện tử đăng tải những thành tựu khoa học kỹ thuật y khoa. Đây là nguồn
tài ngun dữ liệu lớn có thể cung cấp những thơng tin bổ ích cho người dùng trong lĩnh vực y tế.
Trong lĩnh vực y tế, những người dùng như: bác sĩ, y tá, nhà nghiên cứu y khoa, sinh viên chuyên ngành y
khoa, công ty bảo hiểm, bệnh nhân và người thân bệnh nhân đang có các nhu cầu thơng tin đa dạng như:
Bác sĩ cần những bằng chứng từ các tài liệu khoa học để hỗ trợ ra các quyết định lâm sàng trong thực
hành. Sinh viên chuyên ngành và nhà nghiên cứu y khoa cần những bằng chứng từ các tài liệu huấn luyện,
những trường hợp điều trị cụ thể đã thực hiện, kết quả xét nghiệm và chẩn đốn, tạp chí, bài báo hoặc sách


có liên quan hay những tóm tắt thơng tin quan trọng, các ví dụ về những trường hợp cụ thể trong y tế.
Bệnh nhân và người thân bệnh nhân cần tìm và hiểu biết về nguyên nhân bệnh, điều kiện điều trị y khoa,
lựa chọn cách điều trị, theo dõi quá trình điều trị. Các công ty bảo hiểm cần giám sát việc sử dụng các điều
kiện điều trị với chi phí thấp, kiểm soát rủi ro và hỗ trợ mức dịch vụ tốt nhất, xác minh các thủ tục chẩn
đoán và theo dõi kết quả điều trị.
Nhằm đáp ứng nhu cầu người dùng nêu trên, việc phát triển mơ hình khai thác thông tin y tế dựa trên khái
niệm và mối quan hệ là rất cần thiết với các tính năng tự động gồm phân tích nội dung tài liệu y tế, rút
trích khái niệm, rút trích mối quan hệ giữa các khái niệm, tổ chức lưu trữ (khái niệm và mối quan hệ)
thành kho tri thức và phát triển các ứng dụng tương tác người dùng nhằm cung cấp tri thức cho người
dùng.
199


Khai thác văn bản y tế dựa trên mơ hình khai thác khái niệm và mối quan hệ là quá trình xử lý liên quan
đến các ứng dụng như: phân tích nội dung tài liệu, rút trích khái niệm và mối quan hệ từ nội dung tài liệu
để phục vụ cho một lớp các ứng dụng khác nhau như: lập chỉ mục, tìm kiếm, tóm tắt tài liệu, hỗ trợ tư vấn
người dùng,... Các ứng dụng này thao tác trên một tài liệu hoặc một tập tài liệu, được gọi là kho ngữ liệu
(Corpus) và có thể sử dụng một số tài nguyên ngôn ngữ học như các danh sách cho trước (Gazetteers),
danh mục từ (lexicons), hoặc các ontology,…
Khi các ứng dụng này được phát triển một cách rời rạc, thao tác trên những kho ngữ liệu với định dạng
khác nhau thì sẽ dẫn đến một hệ quả là khơng thể tích hợp trao đổi kết quả với nhau, mà đây là u cầu
khơng thể thiếu được trong q trình khai thác tài liệu y tế. Kết quả của một ứng dụng này có thể là đầu
vào cho một ứng dụng khác để hình thành nên một ứng dụng hồn chỉnh. Cụ thể như: với ứng dụng rút
trích mối quan hệ giữa các khái niệm thì cần phải thực hiện việc rút trích các khái niệm trước.
Khi các bài tốn (con) này được cài đặt theo cách khác nhau, thao tác trên những định dạng tài liệu khác
nhau thì rất khó để có thể kết nối lại với nhau. Chính vì lý do đó nếu chúng ta nhìn bài tốn khai thác văn
bản y tế ở mức tổng quát hơn, xác định rõ các đối tượng dữ liệu cũng như các xử lý tham gia vào bài tốn
này từ đó đưa ra một khung kiến trúc chung để tích hợp chúng lại với nhau trong một tổng thể hồn chỉnh
thì sẽ dễ dàng cho việc phát triển, tích hợp cũng như tiến hoá của cả hệ thống khai thác tài liệu y tế.
Mục tiêu của bài báo trình bày đề xuất hướng đến phát triển một khung phần mềm khai thác thông tin y tế

dựa trên khái niệm nhằm hỗ trợ phát triển các hệ thống ứng dụng khai thác thông tin y tế dựa trên khái
niệm.

2. HƢỚNG ĐẾN KHUNG PHẦN MỀM KHAI THÁC THÔNG TIN Y TẾ DỰA TRÊN
KHÁI NIỆM
Qua một loạt các nghiên cứu [1–8] được tác giả tổng hợp và đề xuất một khung phần mềm khai thác thông
tin y tế dựa trên khái niệm được biểu diễn như hình 1. Khung phần mềm đề xuất được phát triển theo kiến
trúc thành phần, đảm bảo tính đóng gói và khớp nối lỏng lẻo giữa các thành phần. Mỗi thành phần gồm
nhiều thành phần con, mỗi thành phần con là một cơng việc (bài tốn) cụ thể, được thiết kế dưới dạng như
các khe cắm (plugins) nhằm mục tiêu tháo lắp dễ dàng tạo ra tính linh hoạt cho khung phần mềm. Chi tiết
các thành phần của khung phần mềm được trình bày như sau:

2.1. Thành phần xử lý ngôn ngữ tự nhiên
Thành phần xử lý ngôn ngữ tự nhiên quản lý tất cả các công cụ và chương trình hỗ trợ quá trình xử lý và
chuyển đổi văn bản khơng có cấu trúc hoặc bán cấu trúc về dạng có cấu trúc (đoạn (paragraph), câu
(sentence), từ (token), … ) để có thể xử lý tự động hay thủ cơng trên máy tính. Các chức năng gồm tách
đoạn, tách câu, tách token, gán nhãn từ loại (part-of-speech), phân tích cấu trúc cú pháp và cấu trúc phụ
thuộc các từ trong câu. Ngoài những chức năng cơ bản nêu trên có thể bổ sung thêm chức năng chuẩn hố
từ, chức năng chuẩn hoá từ được nhiều hệ thống xử lý ngôn ngữ tự nhiên áp dụng nhằm biến đổi những từ
xuất hiện trong văn bản về từ gốc và chuẩn để tăng hiệu quả cho hệ thống.

2.2. Thành phần nguồn tài nguyên
Thành phần nguồn tài nguyên quản lý tất cả những tài nguyên hỗ trợ cho các thành phần rút trích khái
niệm và rút trích mối quan hệ. Các nguồn tài nguyên có thể bao gồm kho ngữ liệu gán nhãn khái niệm và
mối quan hệ, các từ điển thuộc lĩnh vực y tế, nguồn tri thức ngôn ngữ hoặc các ontology y tế.

200


2.3. Thành phần rút trích khái niệm

Thành phần rút trích khái niệm quản lý chương trình với chức năng liên quan đến những bài tốn rút trích
khái niệm y tế, bài tốn rút trích khái niệm có thể chia thành các bài tốn con như: rút trích khái niệm
[5,6], mở rộng chữ viết tắt và chuẩn hoá khái niệm[5,6]. Các cơng trình nghiên cứu trước đây, gom chung
việc mở rộng ký tự/chữ viết tắt vào bài tốn rút trích khái niệm dẫn đến hiệu quả thấp tập trung ở ký
tự/chữ viết tắt, cho nên tại diễn đàn nghiên cứu ShARe/CLEF eHealth 2013 đã tách chức năng xác định ký
tự/chữ viết tắt thành một bài toán con là mở rộng ký tự/chữ viết tắt và mời gọi cộng đồng nghiên cứu đề
xuất giải pháp giải quyết.

Hình 1. Khung phần mềm khai thác thông tin y tế dựa trên khái niệm

2.4. Thành phần rút trích mối quan hệ giữa các khái niệm
Thành phần rút trích mối quan hệ thực hiện các chức năng liên quan đến những bài tốn rút trích mối
quan hệ giữa các khái niệm y tế. Bài toán rút trích mối quan hệ gồm nhiều bài tốn con cụ thể như: phân
lớp các mối quan hệ được định nghĩa trước giữa các khái niệm y tế (như: vấn đề y tế, điều trị và xét
nghiệm) trong I2B2 2010, phân lớp mối quan hệ đồng tham chiếu được định nghĩa trong lĩnh vực y tế (các
đồng thm chiếu như: chỉ người “coref_person”, chỉ vấn đề y tế “coref_problem”, chỉ điều trị
“coref_treatment” và chỉ xét nghiệm “coref_test”) trong I2B2 2011, phân lớp mối quan hệ thời gian giữa
bệnh/rối loạn và thời gian viết tài liệu, xác định giá trị cho các thuộc tính của khái niệm (hay gọi là bài
tốn điền mẫu) [2,3,4,7] và rút trích sự kiện [1].

2.5. Thành phần ứng dụng
Thành phần ứng dụng là phần không thể thiếu trong hệ thống khai thác thông tin y tế dựa trên khái niệm
và mối quan hệ, quản lý các chương trình ứng dụng cung cấp thơng tin cho người dùng. Việc biểu diễn các
khái niệm và mối quan hệ giữa các khái niệm sao cho người dùng dễ dàng đọc hiểu thật sự không đơn
giản. Trong diễn đàn nghiên cứu ShARe/CLEF eHealth 2014 đã đưa ra bài toán thách thức “Tìm kiếm
tương tác trực quan và khám phá dữ liệu y tế” yêu cầu người tham gia thiết kế những hiển thị tương tác
nhằm giúp cho bệnh nhân hiểu rõ hơn về tóm tắt xuất viện của họ và khám phá thêm các tài liệu liên quan
201



từ các nguồn tài liệu trên Internet và những khía cạnh khác trong bối cảnh của họ. Ngoài ra, việc kết hợp,
biểu diễn khái niệm và mối quan hệ để xây dựng thành các phác đồ điều trị khác nhau liên quan đến một
bệnh cụ thể hoặc tái hiện lịch sử bệnh án của bệnh nhân, … điều này vô cùng quan trọng đối với người
dùng là bác sĩ, nhà nghiên cứu y khoa hay những người thực hành y tế.
Việc phát triển các chương trình ứng dụng tương tác thân thiện với người dùng cần phải có những nghiên
cứu sâu hơn về nhu cầu thông tin của người dùng trong lĩnh vực y tế. Phần tiếp theo bài báo trình bày một
tình huống nghiên cứu đề cập đến một kịch bản cụ thể được tổ chức CLEF eHealth 2014 đưa ra trong task
1: Information Visualisation.

3. TÌNH HUỐNG NGHIÊN CỨU
Hiện nay, bệnh nhân và thân nhân đang gặp khó khăn trong việc đọc hiểu được nội dung hồ sơ bệnh án, vì
hồ sơ bệnh án có nhiều ký tự/chữ viết tắt và thuật ngữ chuyên ngành, việc bệnh nhân và thân nhân hiểu
biết về bệnh án sẽ giúp cho quá trình điều trị được tốt hơn. Cụ thể, một đoạn trong tài liệu tóm tắt xuất
viện ở bệnh viện của Mỹ như sau: “AP: 72 yo f w/ ESRD on HD, CAD, HTN, asthma p/w significant
hyperkalemia & associated arrythmias.” với nội dung này bệnh nhân và thân nhân có thể hiểu được ý
nghĩa một cách chính xác thật khơng đơn giản.
Một kịch bản do tổ chức CLEF eHealth đưa ra rằng bệnh nhân và những người dùng khác có thể dễ dàng
hiểu thông tin y tế sau khi tài liệu y tế được xử lý nhận diện khái niệm, mở rộng chữ viết tắt, sửa chữa lỗi
chính tả, chuẩn hóa tất cả các điều kiện y tế đến các thuật ngữ chuẩn và liên kết các thuật ngữ xuất hiện
trong tài liệu mà người dùng muốn tìm kiếm trên Internet. Trong trường hợp câu ví dụ cụ thể nêu trên có
kết quả xử lý như sau: “Description of the patient's active problem: 72 year old female with dependence
on hemodialysis, coronary heart disease, hypertensive disease, and asthma who is currently presenting
with the problem of significant hyperkalemia and associated arrhythmias (Việc mô tả vấn đề thực sự của
bệnh nhân: người phụ nữ 72 tuổi với quen thuốc thẩm tách máu, bệnh tim mạch vành, bệnh tăng huyết
áp và hen suyễn người mà hiện tại đang chỉ định với vấn đề việc tăng kali huyết đáng kể và những loạn
nhịp tim liên quan).” với kết quả này người dùng có thể dễ dàng hiểu được nội dung của tài liệu sau khi
những chữ viết tắt được mở rộng, các thuật ngữ được nhận diện. Bên cạnh đó các thuật ngữ (chữ đậm)
xuất hiện trong tài liệu có thể được liên kết đến những định nghĩa liên quan trong các nguồn tài nguyên có
sẵn thân thiện với người dùng. Chẳng hạn, một số nguồn tài nguyên như: Wikipedia, Consumer Health
Vocabulary, SNOMED-CT … Hơn nữa, có thể cung cấp việc giải thích mối quan hệ giữa các thuật ngữ

xuất hiện trong tài liệu thông qua các nguồn tài nguyên. Ví dụ, từ các nguồn tài ngun có sẵn trích ra
đoạn văn bản giải thích mối quan hệ giữa hai thuật ngữ hyperkalemia (tăng kali huyết) và arrhythmias
(loạn nhịp tim) như sau: “Extreme hyperkalemia (having too much potassium in the blood) is a medical
emergency due to the risk of potentially fatal arrhythmias (abnormal heart rhythms) (Việc tăng kali huyết
cực độ (có quá nhiều kali trong máu) là một tình trạng cấp cứu y tế do nguy cơ loạn nhịp tim gây tử vong
(nhịp tim bất thường)).” việc giải thích này càng giúp cho người dùng hiểu biết nhiều hơn về nội dung tài
liệu. Ngoài ra, việc cung cấp những tài liệu đáng tin cậy và liên quan đến vấn đề y tế của người dùng cũng
rất quan trọng nhằm giúp cho sự hiểu biết của bệnh nhân. Sự hiểu biết này giúp hỗ trợ cho bác sĩ trong quá
trình điều trị được tốt hơn.
Một hệ thống có thể giải quyết kịch bản nêu trên cần phải có các chức năng cơ bản như sau: làm nổi bậc
những khái niệm y tế xuất hiện trong tài liệu (rút trích khái niệm), chuẩn hóa khái niệm, xác định giá trị
cho các thuộc tính của khái niệm (rút trích mối quan hệ), liên kết những khái niệm đến các nguồn tài
ngun có sẵn nhằm giải thích ngữ nghĩa cho khái niệm và tìm kiếm những tài liệu y tế có liên quan đến
khái niệm. Việc phát triển một hệ thống đáp ứng được những nhu cầu người dùng theo kịch bản thì khơng
phải ngày một ngày hai có thể đạt được và hiện nay cộng đồng nghiên cứu trong lĩnh vực cũng đang từng
202


bước thực hiện. Kịch bản này được tác giả vận dụng như một tình huống nghiên cứu cụ thể minh họa việc
sử dụng đề xuất “Hướng đến khung phần mềm khai thác thông tin y tế dựa trên khái niệm” để phát triển
công cụ phần mềm phục vụ cho bệnh nhân và người thân có thể hiểu được rõ ràng ý nghĩa của các khái
niệm xuất hiện trong tóm tắt xuất viện của bệnh nhân.

4. TRIỂN KHAI HỆ THỐNG PHẦN MỀM DỰA TRÊN KHUNG ĐỀ XUẤT
Dựa trên khung kiến trúc phần mềm khai thác thông tin y tế dựa trên khái niệm đã được đề xuất để phát
triển hệ thống phần mềm với mục đích là hỗ trợ bệnh nhân và thân nhân dễ dàng đọc hiểu được nội dung
tài liệu trong hồ sơ bệnh án điện tử, các tóm tắt xuất viện. Hệ thống tự động phân tích nội dung tài liệu,
nhận diện các khái niệm y tế, xác định các giá trị chuẩn hố cho những thuộc tính liên quan đến khái niệm
và liên kết các khái niệm xuất hiện trong tài liệu đến các nguồn tri thức mở liên quan trên Internet như:
MedLine, Wikipedia và các trang web y tế.

Để hỗ trợ người dùng dễ dàng đọc và hiểu được nội dung tài liệu lâm sàng, bài tốn áp dụng trong tình
huống nghiên cứu được mơ tả như sau: người dùng mở tài liệu lâm sàng (tóm tắt xuất viện, kết quả xét
nghiệm, …) thông qua giao diện tương tác người dùng, những khái niệm xuất hiện trong tài liệu được tự
động làm nổi bật lên, ánh xạ các khái niệm đến ontologies thuộc lĩnh vực y tế (UMLS, …) để xác định
khái niệm nào trùng với thuật ngữ đã được định nghĩa trong các ontology thì hiển thị mã số định danh
(CUI) tương ứng ngược lại thì gán giá trị “CUI-less”, tạo liên kết giữa khái niệm và các nguồn tài nguyên
liên quan đến những giải thích ý nghĩa của khái niệm hoặc truy hồi những tài liệu liên quan đến khái niệm
và cho biết giá trị chuẩn hố của các thuộc tính liên quan đến những khái niệm (xem hình 2).

Hình 2. Hệ thống khai thác khái niệm và mối quan hệ trong tài liệu lâm sàng

203


5. KẾT LUẬN
Khung phần mềm tổng quát dùng để phát triển các hệ thống khai thác thông tin y tế dựa trên khái niệm là
rất cần thiết. Bài báo đã trình bày đề xuất hướng đến khung phần mềm tổng quát khai thác thông tin y tế
dựa trên khái niệm. Với đề xuất này cho thấy các thành phần quan trọng cần có đối với một hệ thống khai
thác thơng tin y tế. Bài báo cũng đã trình bày việc sử dụng khung phần mềm đề xuất để phát triển một hệ
thống phần mềm cụ thể hỗ trợ bệnh nhân và người thân có thể dễ dàng hiểu được các khái niệm y tế xuất
hiện trong hồ sơ bệnh án hay các tóm tắt xuất viện khi đọc.
Trong thời gian tới, khung phần mềm sẽ được hoàn thiện trở thành khung phần mềm tổng quát thuận lợi
và tiết kiệm chi phí cho việc phát triển các thống phần mềm khai thác thông tin y tế dựa trên khái niệm
trong lĩnh vực y tế tương lai. Khung phần mềm này sẽ trở thành một khung phần mềm có kiến trúc mở
linh hoạt và là nguồn mở.

TÀI LIỆU THAM KHẢO
[1]

Huỳnh Hữu Nghĩa, Hồ Bảo Quốc. Hệ Thống Rút Trích Sự Kiện Trên Văn Bản Sinh Học. Kỷ yếu

Hội nghị Quốc gia lần thứ VII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR),
pages 160-166, Thái Nguyên, ngày 19–20/06/2014, ISBN: 978-604-913-300-8. DOI
10.15625/FAIR VII.2014-0337.

[2]

Huynh Huu Nghia, Vu Son Lam and Ho Bao Quoc. ShARe/CLEFeHealth: A Hybrid Approach for
Task 2. Working Notes for CLEF 2014 Conference, pages 103 – 110, Sheffield, UK, September 1518, 2014. ISSN 1613-0073, Vol-1180.

[3]

Huỳnh Hữu Nghĩa, Vũ Sơn Lâm, Hồ Bảo Quốc. Một Hướng Tiếp Cận Xác Định Mối Quan Hệ giữa
Bệnh và Thời Gian Viết Tài Liệu Lâm Sàng. Hội thảo quốc gia lần thứ XVII: Một số vấn đề chọn
lọc của Công nghệ thông tin và Truyền thông, pages 155 – 160, Đắk Lắk, 30-31/10/2014.

[4]

Huỳnh Hữu Nghĩa, Hồ Bảo Quốc, Nguyễn An Tế. Một Hướng Tiếp Cận Rút Trích Mối Quan Hệ Y
Tế. Tạp chí: Phát triển khoa học & công nghệ, Đại học Quốc Gia Thành phố Hồ Chí Minh, tập 20,
số Q3-2017, trang 51-63. ISSN 2588 – 1051.

[5]

Huỳnh Hữu Nghĩa, Hồ Bảo Quốc. Rút trích và chuẩn hóa khái niệm y tế trên tài liệu lâm sàng. Kỷ
yếu Hội nghị Quốc gia lần thứ X về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin
(FAIR’10), pages 832-840, Đà Nẵng, ngày 17–18/08/2017. ISBN: 978-604-913-614-6.

[6]

Huynh Nghia, Ho Quoc. TeamHCMUS: Analysis fo Clinical Text. Proceedings of the 9th

International Workshop on Semantic Evaluation (SemEval 2015), pages 370–374, Denver,
Colorado, June 4-5, 2015. ISBN 978-1-941643-24-2.

[7]

Huynh Nghia, Ho Quoc. A Combined Approach for Disease/Disorder Template Filling.
Proceedings: 2015 Seventh International Conference on Knowledge and Systems Engineering,
pages 328–331. Ho Chi Minh City, Vietnam, October 2015. ISBN 978-1-4673-8013-3/15 $31.00 ©
2015 IEEE DOI 10.1109/KSE.2015.62.

204



×