Tải bản đầy đủ (.pdf) (74 trang)

Rút trích thuật ngữ y khoa trong văn bản lâm sàng tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.18 MB, 74 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƢỜNG ĐẠI HỌC BÁCH KHOA
--------------------------

TRƢƠNG THỊ MỸ NGỌC

RÚT TRÍCH THUẬT NGỮ Y KHOA
TRONG VĂN BẢN LÂM SÀNG TIẾNG VIỆT

Chuyên ngành: Khoa Học Máy Tính
Mã số: 60.48.01

LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, tháng 6 năm 2018


CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI
TRƢỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG - HCM
Cán bộ hƣớng dẫn khoa học 1: GS.TS. Cao Hoàng Trụ ......................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ hƣớng dẫn khoa học 2: TS. Võ Thị Ngọc Châu......................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 1: ...................................................................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 2: ...................................................................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Luận văn thạc sĩ đƣợc bảo vệ tại: Trƣờng Đại Học Bách Khoa, ĐHQG TP. HCM
ngày 17 tháng 6 năm 2018
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. .......................................................................................................................................


2. .......................................................................................................................................
3. .......................................................................................................................................
4. .......................................................................................................................................
5. .......................................................................................................................................
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trƣởng Khoa quản lý chuyên ngành sau
khi luận văn đã đƣợc sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

TRƢỞNG KHOA…………

i


ĐẠI HỌC QUỐC GIA TP.HCM
TRƢỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập -Tự do -Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: TRƢƠNG THỊ MỸ NGỌC ................... MSHV: 7140830 ..................
Ngày, tháng, năm sinh: 17/10/1988 ...................................... Nơi sinh: Tỉnh. Long An ......
Chuyên ngành: KHOA HỌC MÁY TÍNH ............................ Mã số: 604801 .....................
I. TÊN ĐỀ TÀI:
RÚT TRÍCH THUẬT NGỮ Y KHOA TRONG VĂN BẢN LÂM SÀNG TIẾNG VIỆT
(Terminology extraction from Vietnamese clinical texts).
NHIỆM VỤ VÀ NỘI DUNG:
- Tìm hiểu các cơng trình liên quan bài tốn rút trích thuật ngữ trong văn bản lâm sàng.
- Tìm hiểu các cơng trình liên quan bài tốn rút trích thuật ngữ trong văn bản lâm sàng tiếng
Việt.

- Xây dựng phƣơng pháp rút trích thuật ngữ trong văn bảng lâm sàng tiếng Việt dựa trên quy
tắc ngữ pháp và các độ đo thống kê thuật ngữ.
- Thực hiện đánh giá phƣơng pháp đề xuất của đề tài, so sánh với cơng trình liên quan bài tốn
rút trích thuật ngữ trong văn bản lâm sàng tiếng Việt.
- Báo cáo kết quả thực hiện đề tài và chuẩn bị luận văn.
II. NGÀY GIAO NHIỆM VỤ: …………….04/09/2017.............................................
III. NGÀY HOÀN THÀNH NHIỆM VỤ:…17/06/2018.…........................................

IV. CÁN BỘ HƢỚNG DẪN: GS.TS. CAO HOÀNG TRỤ
TS. VÕ THỊ NGỌC CHÂU.

ii


TP. HCM, ngày . . . . tháng .. . . năm 20…
CÁN BỘ HƢỚNG DẪN 1
(Họ tên và chữ ký)

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
(Họ tên và chữ ký)

GS.TS. CAO HOÀNG TRỤ

CÁN BỘ HƢỚNG DẪN 2
(Họ tên và chữ ký)

TRƢỞNG KHOA….……………
(Họ tên và chữ ký)

TS. VÕ THỊ NGỌC CHÂU


iii


LỜI CẢM ƠN
Xin đƣợc gởi lời cảm ơn chân thành tới Thầy hƣớng dẫn của tơi là
GS.TS Cao Hồng Trụ. Thầy đã hƣớng dẫn chúng tôi cách tiếp cận bài tốn
và cách giải bài tốn trong khoa học. Chúng tơi không chỉ đƣợc học hỏi ở Thầy
về kiến thức, mà còn học đƣợc phong cách làm việc của một nhà khoa học,
một nhà giáo ƣu tú.
Xin đƣợc gởi lời cảm ơn chân thành tới Cô hƣớng dẫn của tôi là
TS. Võ Thị Ngọc Châu. Cơ đã tận tâm, nhiệt tình, trách nhiệm, đồng hành cùng
tôi trong giai đoạn hiện thực lời giải bài tốn. Nếu khơng có sự hƣớng
dẫn của Cơ thì tơi khơng có cơ hội hồn thành luận văn.
Xin đƣợc gởi lời cảm ơn anh Phan Trƣờng Khoa (Postdoctoral researcher
tại University College London) đã giúp tơi có đƣợc những bài báo có bản quyền.
Cảm ơn những ngƣời bạn phòng AC Lab, HPC Lab. Cảm ơn hai bạn sinh viên Ngô
Tấn Trung, Bùi Tuấn Đại, và các anh chị, các bạn khóa K14, K15.
Cảm ơn q Thầy, Cơ trong khoa Khoa Học & Kỹ Thuật Máy Tính
ĐH Bách Khoa TpHCM.
Cảm ơn Giai Đình ln là chỗ dựa, nguồn động viên tinh thần giúp tơi
hồn thành luận văn.

iv


TĨM TẮT
Một phƣơng pháp mới trong việc rút trích thuật ngữ y khoa trong văn bản lâm sàng
tiếng Việt. Bài tốn rút trích thuật ngữ y khoa trong văn bản lâm sàng, với dữ liệu y
khoa có tính riêng tƣ nên việc tiếp cận nguồn dữ liệu bị hạn chế. Chúng tôi đã dựa

trên phƣơng pháp khai thác thuật ngữ y khoa đối với tiếng Ba Lan, tiếng Anh, v.v
để áp dụng cho tiếng Việt , ngay cả ở những tập dữ liệu đầu vào không lớn, nếu biết
cách nhận diện thì những thuật ngữ quan trọng bị lồng ghép bên trong những cấu
trúc ngữ pháp, ngữ cảnh phức tạp cũng đƣợc tìm ra.
Chúng tơi dựa trên bảy luật của cấu trúc ngữ pháp cụm danh từ, cụm động từ, rút
trích những cụm từ dài nhất có thể. Bƣớc tiếp theo, dựa vào độ liên kết của hai từ
liên tiếp nhau (bi-gram) chúng tơi tách cụm ở vị trí có độ liên kết thấp nhất và thỏa
điều kiện ngữ pháp. Qua nhiều cơng đoạn, chúng tơi rút trích đƣợc những thuật ngữ
y khoa.
Phƣơng pháp của chúng tôi đƣợc đánh giá và so sánh hiệu quả với cơng trình “Trích
xuất thuật ngữ y học trong bệnh án điện tử tiếng Việt”_công trình đầu tiên dành cho
tiếng Việt. Kết quả đánh giá cho thấy phƣơng pháp của chúng tơi có hiệu quả cao
hơn dựa trên chỉ số Recall, Precision và F-measure. Các thuật ngữ tìm thấy có thể
giúp ích cho việc xây dựng hoặc bổ sung thuật ngữ cho bộ từ điển y khoa, hỗ trợ
tiền xử lý cho bài toán hệ hỗ trợ chẩn đốn bệnh, quan hệ bệnh-thuốc, khai thác
thơng tin từ bệnh án v.v.

v


ABSTRACT
Terminology extraction from Vietnamese clinical texts. Clinical textss contain free
text describing the most important facts relating to patient's illnesses. These texts
are written in specific language containing medical terminology related to hospital
treatment.
It would be helpful if term were possible to automatically extraction. An set of
terms which could be used for the purpose of information extraction.
We propose a new method for identifying nested terms based on a combination of
two aspects: grammatical correctness and normalised pointwise mutual information
(NPMI) counted for all bigrams in a given corpus.

In our solution we use NPMI to recognise the weakest points to suggest the best
place for division of a phrase into two parts. By creating, at most, two nested
phrases in each step and important terms can extract within complex constructions.
Appropriate recognition of nested terms can thus influence the content of the
extracted candidate term list and its order.

vi


LỜI CAM KẾT
Tôi là Trƣơng Thị Mỹ Ngọc học viên cao học khoa Khoa Học và Kỹ Thuật
Máy Tính, Đại học Bách Khoa TP.HCM, MSHV 7140830. Tôi xin cam đoan rằng
luận văn "Rút trích thuật ngữ y khoa trong văn bản lâm sàng tiếng Việt" là kết quả
quá trình tìm hiểu và nghiên cứu đƣợc tôi ghi chép lại với những cam kết sau:
-

Luận văn đƣợc thực hiện cho mục đích tìm hiểu và nghiên cứu ở bậc cao
học.

-

Các cơng trình, bài báo tham khảo để xây dựng nên luận văn này đều đƣợc
trích dẫn, tham khảo.
Tất cả các tài liệu đƣợc trích dẫn và có tính kế thừa từ các tạp chí và các
cơng trình nghiên cứu đã đƣợc cơng bố.
Những cơng cụ, phần mềm cho q trình thực hiện luận văn đều là phần
mềm mã nguồn mở.
Hình ảnh và số liệu đƣợc trích dẫn nguồn tham khảo rõ ràng.
Kết quả nghiên cứu đƣợc trình bày trung thực dựa trên số liệu thực tế khi
chạy chƣơng trình.


TP.HCM, ngày 17 tháng 6 năm 2018.

Trƣơng Thị Mỹ Ngọc.

vii


MỤC LỤC

MỤC LỤC ........................................................................................................... viii
DANH MỤC HÌNH ................................................................................................ x
DANH MỤC BẢNG .............................................................................................. xi
CHƢƠNG 1 TỔNG QUAN .................................................................................... 1
1.1. Bối cảnh đề tài .............................................................................................. 1
1.2. Mục tiêu của đề tài........................................................................................ 3
1.3. Phạm vi của đề tài ......................................................................................... 4

1.4. Cấu trúc luận văn .......................................................................................... 6
CHƢƠNG 2 CÁC CƠNG TRÌNH LIÊN QUAN ..................................................... 7
2.1. Các hƣớng tiếp cận bài toán .......................................................................... 7

2.2. Phƣơng pháp ngôn ngữ học........................................................................... 8
2.3. Phƣơng pháp thống kê .................................................................................. 9
2.4. Phƣơng pháp học máy................................................................................... 9
2.5. Phƣơng pháp sử dụng tri thức ngoài ............................................................ 11
2.6. Phƣơng pháp lai .......................................................................................... 11
CHƢƠNG 3 KIẾN THỨC NỀN TẢNG ................................................................ 13
3.1. Bệnh án điện tử (BAĐT) ............................................................................. 13


3.2. Các định nghĩa cơ bản................................................................................. 14
3.3. Ngữ pháp Tiếng Việt .................................................................................. 16
CHƢƠNG 4 PHƢƠNG PHÁP ĐỀ XUẤT ............................................................ 21
4.1. Tổng quan bài toán ..................................................................................... 21
4.2. Ý tƣởng hiện thực ....................................................................................... 21
4.3. Thành phần ngôn ngữ học ........................................................................... 23

viii


4.4. Thành phần thống kê................................................................................... 24

CHƢƠNG 5 HIỆN THỰC QUY TRÌNH .............................................................. 26
5.1. Tiền xử lý ................................................................................................... 26
5.2. Tách từ và gán nhãn từ loại ......................................................................... 28
5.3. Rút trích cụm từ tìm năng là thuật ngự y khoa dựa theo luật văn phạm ....... 30
5.4. Loại bỏ những cụm từ có chứa từ trong danh sách dừng (stoplist) ............. 344
5.5. Sắp xếp và lấy k tỷ lệ danh sách thuật ngữ tiềm năng ................................ 347
5.6. Rút trích thuật ngữ lồng nhau bằng phƣơng pháp NPMI ............................. 37
5.7. Tính tốn C-Value ...................................................................................... 41
CHƢƠNG 6 ĐÁNH GIÁ HIỆU QUẢ ................................................................... 47
6.1. Thƣớc đo hiệu suất cơ bản trong trích xuất thuật ngữ .................................. 47

6.2. Xây dựng danh sách thuật ngữ tham khảo để đánh giá kết quả .................... 47
6.3. Thí nghiệm đánh giá ................................................................................... 49
CHƢƠNG 7 KẾT LUẬN ...................................................................................... 56
7.1. Kết quả đạt đƣợc ......................................................................................... 56
7.2. Hƣớng phát triển ......................................................................................... 56
TÀI LIỆU THAM KHẢO ..................................................................................... 58


ix


DANH MỤC HÌNH

Hình 1.1: Hai giai đoạn khai thác bệnh án điện tử (BAĐT)...................................... 3
Hình 2.6: Mơ hình hệ thống thƣờng đƣợc sử dụng ................................................. 12
Hình 3.1: Mối quan hệ giữa thuật ngữ, khái niệm và đối tƣợng.............................. 14
Hình 5.1 : Quy trình rút trích thuật ngữ y khoa trong văn bản lâm sàng tiếng Việt. 27
Hình 5.2.1: Sơ đồ ví dụ việc tách từ và gán nhãn của Vitk. .................................... 29
Hình 5.3.1: Luật 1 ngữ pháp cụm danh từ. ............................................................. 31
Hình 5.3.2: Luật 2 ngữ pháp cụm danh từ. ............................................................. 32
Hình 5.3.3: Luật 3 ngữ pháp cụm danh từ. ............................................................. 32
Hình 5.3.4: Luật 4 ngữ pháp cụm danh từ. ............................................................. 32
Hình 5.3.5: Luật 2 ngữ pháp cụm danh từ. ............................................................. 33
Hình 5.3.6: Luật 3 ngữ pháp cụm động từ. ............................................................. 33
Hình 5.3.7: Luật 4 ngữ pháp cụm động từ. ............................................................. 33
Hình 5.6.2: Cụm từ đƣợc cắt dựa theo quy tắc ngữ pháp. ....................................... 39
Hình 5.6.4: Cụm từ đƣợc cắt dựa theo chỉ số NPMI............................................... 41
Hình 5.7.3: So sánh log2 (x) và log2 (x+0.1) ......................................................... 43
Hình 6.3.2:Biểu đồ biểu diễn hiệu quả của quy trình bị ảnh hƣởng bởi luật cụm từ.
.............................................................................................................................. 50
Hình 6.3.6: Biểu đồ biểu diễn hiệu quả của hệ thống bị ảnh hƣởng bởi hệ số k ..... 52
Hình 6.3.8: Biểu đồ so sánh độ đo hiệu quả của hai cơng trình rút trích thuật ngữ y
khoa tiếng Việt. ..................................................................................................... 53
Hình 6.3.9: Quy trình của cơng trình [18] và cơng trình của chúng tơi ................... 54

x



DANH MỤC BẢNG
Bảng 1.3: Mẫu văn bản lâm sàng ............................................................................. 5
Bảng 2.4: Các đặc trƣng sử dụng trong phƣơng pháp học máy. ............................. 10
Bảng 3.3: Phân loại từ trong tiếng Việt. ................................................................. 19
Bảng 5.2.2: Bảng kí hiệu nhãn từ loại của công cụ Vitk. ........................................ 30
Bảng 5.4: Danh sách từ cần loại bỏ (stoplist) ......................................................... 35
Bảng 5.5: Hiệu quả thay đổi theo tỷ lệ chọn thuật ngữ dài nhất trong danh sách. . 408
Bảng 5.6.3 Tần suất xuất hiện trong văn bản của mỗi từ; chỉ số NPMI ở từng vị trí
bigrams.................................................................................................................. 40
Bảng 5.7.4: Ví dụ về cách tính C-Value................................................................. 46
Bảng 6.2.1: Kết quả trích xuất thuật ngữ thủ cơng. ................................................ 48
Bảng 6.2.2: Một số cụm từ của danh sách thuật ngữ tham khảo ............................. 49
Bảng 6.3.1: Hiệu quả của quy trình bị ảnh hƣởng bởi luật văn phạm của cụm từ (cấu
trúc ngữ pháp) ....................................................................................................... 50
Bảng 6.3.3: Hiệu quả của cơng đoạn rút trích cụm từ dựa theo luật văn phạm so với
22 bộ lọc................................................................................................................ 50
Bảng 6.3.4: Hiệu quả của hệ thống bị ảnh hƣởng bởi danh sách stoplist ................ 51
Bảng 6.3.5: Hiệu quả của hệ thống bị ảnh hƣởng bởi hệ số k ................................. 52
Bảng 6.3.7: So sánh hiệu quả của hệ thống ............................................................ 53
Bảng 6.3.10: Bộ lọc của cơng trình [18]. ............................................................... 55

xi


CHƢƠNG 1
TỔNG QUAN

1.1. Bối cảnh đề tài
Một hƣớng đi mới làm cho máy tính thơng minh nhƣ một bác sĩ giàu kinh nghiệm:
dựa vào các triệu chứng thì chẩn đốn đúng bệnh; biết đƣợc bệnh thì kê những loại

thuốc phù hợp để chữa trị. Hỗ trợ chẩn đoán bệnh bằng máy tính là một bài tốn
truyền thống của tin – y học từ nhiều chục năm qua. Các hệ chuyên gia với kỹ thuật
suy diễn dựa vào tri thức của con ngƣời trong y học đƣợc kỳ vọng rất nhiều nhƣng
đã khơng thành cơng, chủ yếu vì khơng biểu diễn đƣợc tri thức y học phức tạp của
con ngƣời dƣới dạng máy có thể dùng đƣợc. Một hƣớng đi mới là dùng các kỹ thuật
học máy theo quy nạp với bệnh án điện tử (BAĐT), máy tính hồn tồn có thể hỗ
trợ hiệu quả cho con ngƣời trong công việc phức tạp này.
Xƣa nay, mọi hiểu biết về bệnh tật đều do các thầy thuốc phát hiện khi phân tích,
đúc rút từ những gì thấy đƣợc trong quá trình khám và chữa bệnh cho rất nhiều
ngƣời. Các ghi chép lâm sàng trong BAĐT chính là “những gì thấy đƣợc” của rất
nhiều thầy thuốc trong lúc khám chữa bệnh. Con ngƣời chỉ có thể xem từng bệnh án
trên giấy, nhƣng máy tính có thể cùng một lúc “xem” rất nhiều (hàng ngàn hàng
triệu) BAĐT để phân tích, so sánh chúng, để hiểu hơn về bệnh tật, về chữa trị, về
tác dụng của thuốc, về quản lý khám chữa bệnh, thuốc men,… tìm ra những hiểu
biết mới của y học. Làm cho máy tính “hiểu” đƣợc văn bản lâm sàng là bƣớc quyết
định để tìm ra các tri thức y học mới.

1


Từ vài năm gần đây, BAĐT đƣợc nói nhiều ở các nƣớc phát triển nhƣ con đƣờng
dẫn đến sự thay đổi sâu sắc trong khám chữa bệnh và nghiên cứu y học. Năm 2009,
sau khi trở thành Tổng thống và trong kế hoạch hồi sinh nền kinh tế, Tổng thống
Mỹ Barack Obama đã yêu cầu nƣớc Mỹ hiện đại hóa việc chăm sóc sức khỏe dựa
vào việc chuẩn hóa và số hóa mọi bệnh án trong bệnh viện, và chủ trƣơng “Trong
vòng 5 năm, mọi bệnh án của nƣớc Mỹ phải đƣợc số hóa”. Ở Nhật Bản, chính phủ
cũng có chính sách ƣu tiên kinh phí để xây dựng BAĐT. Tính đến năm 2011, 51.5%
trong số 822 bệnh viện cỡ lớn (hơn 400 giƣờng bệnh) ở Nhật đã xây dựng BAĐT;
27,3% bệnh viện cỡ vừa (200-399 giƣờng bệnh) đã có BAĐT và 13,5% bệnh viện
cỡ nhỏ có BAĐT [17].

Tại Mỹ, I2B2-Trung tâm Quốc gia về Tính tốn Y – Sinh hàng năm tổ chức các
cuộc thi tìm các phƣơng pháp phân tích văn bản lâm sàng của BAĐT tiếng Anh.
Một vài thách thức những năm qua:
- Thách thức 2008: làm sao dùng BAĐT để phân loại các nhóm bệnh nhân béo phì
và các bệnh phát sinh do béo phì.
- Thách thức 2009: rút trích thơng tin từ BAĐT về việc dùng thuốc, liều lƣợng,
hiệu quả, quản lý thuốc.
- Thách thức 2012: phát hiện từ BAĐT các sự kiện về bệnh và điều trị gắn với thời
gian và quan hệ phụ thuộc thời gian giữa chúng.
- Thách thức 2014: phát hiện, lọc bỏ các thông tin cá nhân từ BAĐT và các yếu tố
rủi ro của bệnh tim.
Câu chuyện BAĐT cũng đã bắt đầu ở nƣớc ta với nỗ lực đặt những viên gạch đầu
cho con đƣờng dài này. Từ năm 2013 bệnh viện đa khoa Vân Đồn của tỉnh Quảng
Ninh là cơ quan y tế đầu tiên ở nƣớc ta có một Hệ thơng tin bệnh viện hiện đại với
các BAĐT hồn chỉnh (có thơng tin quản lý, văn bản lâm sàng và các thông tin
khám chữa bệnh khác); và từ năm 2014 có thêm bệnh viện phụ sản-nhi Đà Nẵng,
bệnh viện đa khoa Cẩm Phả Cẩm Phả, bệnh viện sản-nhi Hƣng Yên, bệnh viện ydƣợc cổ truyền tỉnh Quảng Ninh [17].

2


Khai thác BAĐT gồm 2 giai đoạn. Giai đoạn 1 nhằm xác định và xây dựng công
nghệ nền để khai thác BAĐT Tiếng Việt và ứng dụng thử nghiệm: chuẩn hóa, làm
sạch dữ liệu, lọc thơng tin riêng tƣ. Điển hình là dự án KC.01/06-10 về xây dựng
cơng cụ và tài nguyên cho xử lý tiếng nói và văn bản Tiếng Việt 2007-2010 trong
đó có phân tích tự động Tiếng Việt, chunking. Giai đoạn 2 nhằm sử dụng các công
nghệ nền vào khai thác BAĐT để giải quyết một số bài toán quan trọng trong
nghiên cứu y học và chăm sóc sức khỏe ở Việt Nam. Hình 1.1.

Hình 1.1: Hai giai đoạn khai thác bệnh án điện tử (BAĐT)[17].

1.2. Mục tiêu của đề tài
Văn bản lâm sàng (clinical text) do bác sĩ và y tá ghi chép hàng ngày về việc khám
chữa và tình trạng ngƣời bệnh. Chúng thƣờng ngắn, mang tính trần thuật, thƣờng
khơng tn theo các quy ƣớc ngữ pháp ngôn ngữ một cách chặt chẽ và đặc biệt hơn
cả là chúng chứa rất nhiều thuật ngữ y khoa, tải theo nhiều tri thức của ngành y.
Chính phần nội dung này tạo ra giá trị và ý nghĩa đặc biệt của BAĐT trong chăm
sóc sức khỏe và nghiên cứu y khoa.
Do đó, mục tiêu của đề tài là trích xuất các thuật ngữ từ các văn bản lâm sàng tiếng
Việt. Đầu vào của q trình trích xuất này là các văn bản lâm sàng tiếng Việt. Đầu
ra là một danh sách các thuật ngữ y khoa đƣợc rút trích từ các văn bản lâm sàng đó.
Những thuật ngữ liên quan tới y khoa đƣợc xếp ở đầu danh sách, những cụm danh
3


từ không liên quan đƣợc xếp cuối danh sách. Các thuật ngữ mới đƣợc rút trích này
dùng để bổ sung, cập nhật thuật ngữ cho từ điển y khoa; đánh chỉ mục index; xây
dựng ontology; khai thác thông tin [26] [27], dùng làm đầu vào cho hệ hỗ trợ chẩn
đoán bệnh, hệ phân tích quan hệ bệnh-thuốc.

1.3. Phạm vi của đề tài
Rút trích thuật ngữ y khoa trong văn bản lâm sàng Tiếng Việt. Công việc này là một
cộng đoạn đầu của giai đoạn 2, thuộc một phần của khai thác thơng tin từ BAĐT
đƣợc thể hiện ở Hình 1.1.
Văn bản lâm sàng chỉ là 1 phần trong 3 phần của bệnh án điện tử. BAĐT gồm:
- Dữ liệu cơ bản cho quản lý gồm :họ tên bệnh nhân, năm sinh, nghề nghiệp, quê
quán, bảo hiểm y tế, v.v
- Dữ liệu cận lâm sàng gồm: siêu âm, nội soi, X_quang, CT scan, MRI, v.v
- Dữ liệu lâm sàng (văn bản lâm sàng) của ngƣời bệnh trong một lần nằm viện gồm:
phiếu điều trị: ghi chép các chẩn đoán, nhận định và y lệnh hàng ngày của bác sĩ về
bệnh nhân; phiếu chăm sóc: ghi chép mơ tả của y tế về tình trạng bệnh nhân khi

chăm sóc hàng ngày; hồ sơ xuất viện: tổng hợp các dữ liệu và thông tin cơ bản của
bệnh nhân trong toàn bộ một lần điều trị.
Văn bản lâm sàng chứa nhiều thông tin y khoa, thuật ngữ nhất nên chúng tôi quyết
định khai thác ở phần văn bản này. Cơng trình này chúng tơi quyết định chủ yếu
phân tích và rút trích cụm danh từ. Vì cụm danh từ là thành phần chính trong câu,
mang đƣợc nhiều thông tin. Theo đặc trƣng của tiếng Việt trong thuật ngữ y khoa
cũng có xuất hiện cụm động từ (Ví dụ: hạ sốt, tràn dịch màn phổi,…) chúng tơi bổ
sung thêm rút trích cụm động từ.
Chúng tơi kế thừa lại công đoạn tiền xử lý; tách từ và gán nhãn từ loại; xếp hạng
thuật ngữ; đánh giá của cơng trình liên quan [18].

4


Vì lý do bảo mật thơng tin, dữ liệu chúng tôi nhận đƣợc không đƣợc tiết lộ tên bệnh
viện, thông tin bệnh nhân. Văn bản lâm sàng của BAĐT mà chúng tơi nhận đƣợc có
dạng nhƣ Bảng 1.3.
Bảng 1.3: Mẫu văn bản lâm sàng.
Tiêu đề

Nội dung

Ngày nhập viện

06/05/2014

Ngày xuất viện

07/05/2014


Lý do vào viện

Yếu ½ ngƣời (P)

Bệnh sử

Cách 5 ngày bệnh nhân đột ngột bị chóng mặt xoay trịn, buồn
nơn, nơn, khơng đau đầu -> khám BS tƣ, chẩn đốn hội chứng
tiền định, uống thuốc hết chóng mặt. Cách nhập viện 2 giờ bệnh
nhân đang đi thì đột ngột yếu ½ ngƣời (P) , nói đớ, khơng đau
đầu, khơng chóng mặt, không té ngã, kéo dài 30 phút tự hết ->
cấp cứu.

Tiền sử

Tăng huyết áp đang dùng Bisoprolol

Khám bệnh

1: Khám toàn thân: Bệnh nhân tỉnh, tiếp xúc tốt, không rối loạn
ngôn ngữ, da niêm hồng, thở êm không phù.
2: Khám bộ phận:
a) Tuần hồn: Tim nhịp đều, T1 T2 rõ, khơng âm thổi.
b) Hô hấp: Phổi không ran, âm phế bào rõ.
c) Tiêu hóa: Bụng mềm, gan lạch khơng sờ chạm.
d) Thận: Chƣa phát hiện bất thƣờng.
e) Cơ quan khác:
Thần kinh: Yếu nhẹ ½ ngƣời (P), Babinski khơng đáp ứng, nói
đớ (+), không mất cảm giác nông sâu, không thất điều, không


5


dấu màng não.
Cơ: Không sƣng, biến dạng khớp.
Nội tiết: Chƣa phát hiện bất thƣờng.
Tai mũi họng: Chƣa phát hiện bất thƣờng.
Răng hàm mặt: Chƣa phát hiện bất thƣờng.
Mắt: Đồng tử đều 2 bên, 2mm, PXAS (+)
Tóm tắt bệnh MRI não: nhồi máu cao ở cầu trái, chẩm trái và tiểu não phải án

ECG: nhịp xong 66 lần/ phút - LDL = 5.22 mmoL / L - Xét
nghiệm khác bình thƣờng, - MRI não : nhồi máu cao ở cầu trái,
chẩm trái và tiểu não phải - ECG: nhịp xoang 66 lần/ phút LDL = 5.22 mmoL /L - Xét nghiệm khác bình thƣờng.

Chẩn đốn

Hội chứng ure huyết cao - Suy thận mãn giai đoạn cuối - Xuất
huyết tiêu hóa do loét dạ dày tá tràng - Tăng huyết áp.

Điều trị

Chống kết tập tiểu cầu kép, statin, tăng tuần hoàn não, truyền
dịch, chuyển BV Chợ Rẫy theo yêu cầu thân nhân bệnh nhân.

1.4. Cấu trúc luận văn
Chúng tơi xin đƣợc trình bày cấu trúc của luận văn để quý đọc giả tiện theo dõi.
Chƣơng 1: Giới thiệu về bối cảnh ra đời, nhu cầu thực tiễn của bệnh án điện tử. Giai
đoạn xây dựng và khai thác BAĐT ở Việt Nam. Phạm vi và mục tiêu của đề tài.
Chƣơng 2: Trình bày một vài cơng trình ở các nƣớc phát triển họ đã thực hiện, các

phƣơng pháp tiếp cận khác nhau cho bài tốn rút trích thuật ngữ.
Chƣơng 3: Nhắc lại một số khái niệm về ngôn ngữ, kiến thức cơ bản.
Chƣơng 4: Trình bày phƣơng pháp giải bài tốn.
Chƣơng 5: Trình bày từng cơng đoạn của quy trình, giải thuật và ví dụ.
Chƣơng 6: Kết quả, đánh giá hiệu suất quy trình, so sánh với cơng trình tƣơng
đƣơng, một số hạn chế, hƣớng phát triển, cải tiến thêm cho quy trình.
6


CHƢƠNG 2
CÁC CƠNG TRÌNH LIÊN QUAN

2.1. Các hƣớng tiếp cận bài toán
Trong lĩnh vực sinh học phân tử, tên protein, gen [2] thay đổi rất nhanh chóng.
Trong lĩnh vực ổn định hơn, nhƣ y học lâm sàng, tồn tại nhiều thuật ngữ địa phƣơng
mà chƣa đƣợc liệt kê trong bất kỳ từ điển nào. Vì thế việc khai thác thuật ngữ một
cách tự động trong văn bản lâm sàng là việc rất cần thiết hiện nay. Thế giới có cơng
trình tiếng Anh [3], tiếng Thụy Điển [8], tiếng Pháp [28][6], tiếng Đức [4], tiếng Hà
Lan [7], tiếng Tây Ban Nha [1], gần đây nhất là cơng trình tiếng Ba Lan [10]. Ở
Việt Nam có cơng trình đầu tiên về trích xuất thuật ngữ y học trong BAĐT tiếng
Việt [18] .
Rút trích thuật ngữ tự động (Automatic Term Extraction – ATE) là phƣơng pháp sử
dụng máy tính để nhận dạng các chuỗi từ có tiềm năng là thuật ngữ trong đoạn văn
bản. Việc trích xuất thuật ngữ sử dụng máy tính có thể hiện thực hồn tồn tự động,
hoặc bán tự động kết hợp với các chuyên gia để tăng độ chính xác trong kết quả
hoặc trƣờng hợp trích xuất thuật ngữ trong các đoạn văn bản mang tính chất đặc
biệt. Tự động trích xuất thuật ngữ đóng vai trị cực kỳ quan trọng trong nhiều hệ
thống nhƣ truy hồi thông tin, hệ thống vấn đáp, xây dựng và tự động mở rộng các
bộ từ điển hay bản thể học (Ontology) và mạng ngữ nghĩa từ (WordNet).
Từ khi phát triển tới nay, rất nhiều phƣơng pháp tiếp cận đƣợc đề xuất cho vấn đề tự

động trích xuất thuật ngữ nhƣ: sử dụng kỹ thuật ngôn ngữ học [9], sử dụng kỹ thuật
thống kê [23], hoặc sử dụng kết hợp cả hai kỹ thuật. Để tăng thêm độ chính xác của
kết quả đầu ra, các tài ngun có sẵn bên ngồi khác (Ví dụ: từ điển chuyên ngành,
tập văn bản chuyên ngành,…) có thể đƣợc sử dụng để hỗ trợ cho quá trình đánh giá
thuật ngữ. Bên cạnh các kỹ thuật về ngơn ngữ học và xác suất, ngƣời ta cịn sử dụng
học máy trong trích xuất thuật ngữ [18].

7


Bƣớc đầu tiên của trích xuất thuật ngữ là trích xuất các thuật ngữ tiềm năng từ tập
văn bản. Ở bƣớc này, kỹ thuật ngôn ngữ học thƣờng đƣợc áp dụng. Bƣớc tiếp theo
là xếp hạng các thuật ngữ tiềm năng dựa trên điểm số thống kê của chúng, điều này
nhằm đƣa các từ có tiềm năng cao là thuật ngữ lên đầu của dãy kết quả.
Dựa trên tổng hợp của Kruthmmer and Nenadic 2004 [24], các hƣớng tiếp cận của
bài tốn ATE đƣợc chia ra làm 4 loại chính là: ngôn ngữ học, giá trị thống kê, học
máy và lai (kết hợp các phƣơng pháp với nhau). Ngoài ra, cịn có phƣơng pháp hỗ
trợ là sử dụng tri thức ngồi.

2.2. Phƣơng pháp ngơn ngữ học
Trong bài tốn tự động trích xuất thuật ngữ, phƣơng pháp ngơn ngữ học thƣờng là
bƣớc đầu tiên để trích xuất các thuật ngữ tiềm năng từ văn bản. Vì thuật ngữ chỉ
xuất hiện trong một số giới hạn cấu trúc ngữ pháp là danh từ, động từ hay tính từ.
Việc sử dụng kỹ thuật ngôn ngữ học để lọc bớt số chuỗi từ không phải là thuật ngữ
tiềm năng, đây là bƣớc quan trọng cải thiện độ chính xác của tập đầu ra, cũng nhƣ
kết quả cuối cùng của ATE.
Thơng thƣờng, việc trích xuất thuật ngữ tiềm năng từ văn bản khi sử dụng phƣơng
pháp ngôn ngữ học sẽ theo các bƣớc sau:
- Gán nhãn từ loại cho tồn bộ văn bản cần trích xuất, với những phân tích sâu hơn,
văn bản cũng có thể đƣợc đánh dấu bởi các thông tin cú pháp phức tạp hơn.

- Trích xuất các thuật ngữ tiềm năng bằng các bộ lộc nhƣ: ngữ nghĩa, từ vựng, hình
thái. Việc chọn lựa giữa các bộ lọc tùy thuộc vào đặc trƣng của thuật ngữ ( thuật
ngữ đơn từ, thuật ngữ đa từ, hay thuật ngữ có tiền tố - hậu tố đặc biệt.
- Tùy thuộc vào đặc trƣng của bài tốn có thể loại bỏ bớt các thuật ngữ tiềm năng
bằng danh sách từ loại bỏ (list of stop-words).
Ví dụ: đã, dễ, này, kia, nọ, xong, thỉnh_thoảng, ...[18]
Dựa vào mục đích của việc trích xuất mà thuật ngữ tiềm năng có thể là kết quả cuối
cùng của hệ thống, hoặc đƣợc chuyển tiếp sang các bƣớc ATE khác. Công trình
LEXTER của Bourigault vào năm 1992 trên tiếng Pháp [9] là một ví dụ của hệ
thống ATE chỉ sử dụng thuần kỹ thuật ngôn ngữ học. Nghiên cứu này dựa trên nhãn
từ loại (PoS tagging) để lọc thuật ngữ tiềm năng bằng bộ lộc ngữ nghĩa. Bên cạnh
việc sử dụng đặc trƣng từ loại để nhận dạng thuật ngữ, một số ngơn ngữ có đặc tính
8


biến hình nhƣ tiếng Anh, tiếng LaTinh cịn sử dụng đặc trƣng là các tiếp đầu ngữ
(prefix) và tiếp vị ngữ (suffix) để nhận dạng thuật ngữ. Hoặc đối với các ngơn ngữ
đơn hình nhƣ tiếng Trung Quốc, tiếng Nhật là sử dụng các đầu tố đặc biệt.
Tuy nhiên, việc sử dụng thuần phƣơng pháp ngôn ngữ học, chỉ giúp phát hiện các từ
có cấu trúc về mặt ngơn ngữ tƣơng tự với các thuật ngữ mà không xét tới độ liên
quan của từ đó với chuyên ngành của thuật ngữ cần trích xuất cũng nhƣ độ quan
trọng của từ đó trong văn bản đang xét. Điều này khiến cho việc chỉ sử dụng bộ lọc
ngôn ngữ sẽ đem lại kết quả khơng cao. Vì vậy, phƣơng pháp ngơn ngữ học thƣờng
đƣợc kết hợp sử dụng với kỹ thuật thống kê, hoặc học máy, sự kết hợp này đƣợc gọi
là phƣơng pháp lai.

2.3. Phƣơng pháp thống kê
Đối với phƣơng pháp này, các từ và cụm từ sẽ đƣợc hệ thống đánh giá theo một
trong hai thang đo chính: Termhood và Unihood. Thang đo Termhood thể hiện độ
liên quan của từ, cụm từ so với nội dung của văn bản đầu vào. Ngƣợc lại, thang đo

Unihood thể hiện độ liên kết giữa các từ, cụm từ với nhau trong văn bản.
Trƣớc khi sử dụng đƣợc phƣơng pháp thống kê, hƣớng tiếp cận này cần xác định
các từ, cụm từ để đánh giá hay cịn gọi là thuật ngữ tiềm năng. Có hai cách để xác
định thuật ngữ tiềm năng: dùng phƣơng pháp n-gram hoặc dùng phƣơng pháp ngơn
ngữ học đã trình bày ở trên. Với phƣơng pháp n-gram, hệ thống sẽ lấy ra tất cả các
cụm từ có khơng nhiều hơn n từ. Ví dụ, với 3-gram, hệ thống sẽ lấy tất cả các từ có
1, 2, và 3 tiếng trong tồn bộ văn bản. Do đó, khi sử dụng n-gram, số lƣợng thuật
ngữ tiềm năng là rất lớn khi n lớn.
Một số cơng trình nhƣ [20] [3] sử dụng thang đo Termhood. Ngƣợc lại, cơng trình
nhƣ [25] sử dụng thang đo Unihood hoặc sử dụng kết hợp cả hai thang đo
Termhood và Unihood trong cùng một hệ thống nhƣ [10].

2.4. Phƣơng pháp học máy
Trong bài báo [26], tác giả Jody Foo sử dụng phƣơng pháp học máy theo luật
(Learning Rules) cụ thể là sử dụng thuật toán Ripper. Một trong những lý do quan
trọng mà tác giả dùng học máy theo luật là vì kết quả của hệ thống cuối cùng có thể
đọc hiểu đƣợc, chúng ở dạng các quy luật, có thể biểu diễn trực tiếp (dùng luật nếuthì : if-then rules) hoặc biểu diễn gián tiếp ( dùng cây quyết định: Decision Tree).
9


Với thuật toán Ripper, tác giả thực hiện huấn luyện cho hệ thống trích xuất thuật
ngữ dựa trên các đặc trƣng của từ, cụm từ trong Bảng 2.4.
Các đặc trƣng POS, msd, func, sem đƣợc sinh ra bởi bộ gắn nhãn FDG. Đặc trƣng
freg đƣợc đếm trong tập văn bản đầu vào. Các đặc trƣng zeroprobs, logprob, ppl1
và ppl2 đƣợc tác giả xây dựng bằng cách xây dựng mơ hình ngơn ngữ sử dụng gói
phần mềm SRILM [26].
Tuy nhiên, cách tiếp cận này cho bài tốn trích xuất thuật ngữ trong bệnh án điện tử
tiếng Việt gặp nhiều trở ngại. Trong tiếng Việt, chƣa có các cơng trình nghiên cứu
hay một bộ phần mềm tƣơng tự SRILM. Do đó có nhiều đặc trƣng chƣa thể sử dụng
đƣợc. Đồng thời, để xây dựng một mơ hình ngơn ngữ địi hỏi khối lƣợng công việc

khá nhiều, không thể đáp ứng trong khoảng thời gian chúng tơi làm luận văn.
Ngồi ra, một số phƣơng pháp học máy khác nhƣ mơ hình Markov ẩn (Hidden
Markov Model), vector hỗ trợ (Support Vector Machine) cũng đƣợc sử dụng nhƣ
một phƣơng pháp tiếp cận. Tuy nhiên, những bài tốn thƣờng đƣợc áp dụng chỉ là
tự động trích xuất cụm từ khóa (Automatic Keyphrase Extraction – AKE) hoặc trích
xuất thuật ngữ dạng tên thực thể nhƣ tên bệnh, tên gen, tên phòng khoa tham gia,
v.v, các loại thuật ngữ khác đạt kết quả không cao.
Bảng 2.4 Các đặc trƣng sử dụng trong phƣơng pháp học máy.
Đặc trƣng

Mô tả

POS

Từ loại

msd

Hình thái cú pháp

func

Chức năng ngữ pháp

sem

Thơng tin ngữ nghĩa

freg


Tần số ngram trong văn bản

zeroprobs

Số token với xác suất bằng khơng trong mơ hình ngơn ngữ

logprob

Giá trị xác suất. bỏ qua các từ và token chƣa biết

ppl1

Giá trị trung bình của 1/ xác suất của mỗi token

ppl2

Trung bình độ hỗn loạn của mỗi từ

10


2.5. Phƣơng pháp sử dụng tri thức ngồi
Một số cơng trình nghiên cứu và xây dựng hệ thống áp dụng phƣơng pháp sử dụng
tri thức ngoài nhƣ [10][27]. Nhƣng đa số phƣơng pháp này chỉ là phần giúp cải
thiện độ chính xác của hệ thống, là một thành phần trong phƣơng pháp lai. Cách
tiếp cận của phƣơng pháp này trong các bài nghiên cứu là sử dụng một trong ba loại
tri thức ngoài: WordNet, văn bản thƣờng và từ điển chun ngành. Cơng trình trích
xuất thuật ngữ sử dụng văn bản thƣờng điển hình nhƣ của tác giả Chung cơng bố
năm 2003 [28]. Hai tác giả Fukushige and Noguchi thì sử dụng cả 2 loại văn bản
thƣờng và từ điển chun ngành [29]. Loại tri thức ngồi WordNet ít đƣợc sử dụng

bởi vì mặt hạn chế về số lƣợng cũng nhƣ độ đầy đủ của chúng, do hiện tại, đa số
cơng trình WordNet đều đƣợc tổng hợp thủ cơng hoặc bán tự động.

2.6. Phƣơng pháp lai
Đây là phƣơng pháp kết hợp nhiều phƣơng pháp tiếp cận khác nhƣ phƣơng pháp
ngôn ngữ học, phƣơng pháp thống kê, phƣơng pháp sử dụng tri thức ngoài, phƣơng
pháp học máy. Ƣu điểm lớn nhất của phƣơng pháp lai là việc tận dụng đƣợc ƣu
điểm của từng phƣơng pháp thành phần, đồng thời giảm các hạn chế khi sử dụng
các phƣơng pháp thành phần một cách riêng lẻ [18].
Đa số các cơng trình liên quan lựa chọn kết hợp giữa ba phƣơng pháp ngôn ngữ
học, phƣơng pháp thống kê và phƣơng pháp sử dụng tri thức ngồi và sử dụng mơ
hình hệ thống nhƣ sơ đồ Hình 2.6. Với dữ liệu đầu vào, phƣơng pháp ngơn ngữ học
sẽ trích xuất ra các từ và cụm từ đƣợc cho là thuật ngữ tiềm năng. Phƣơng pháp
thống kê sẽ sử dụng danh sách thuật ngữ tiềm năng này để đánh giá thuật ngữ tiềm
năng, sau đó kết hợp với phƣơng pháp sử dụng tri thức ngoài để sắp xếp danh sách
thuật ngữ tiềm năng.
Với những ƣu điểm vƣợt trội và độ linh hoạt trong sự kết hợp giữa các phƣơng pháp
khác nhau, phƣơng pháp lai đƣợc sử dụng nhiều trong các cơng trình nhƣ
[10][20][30]. Trong tiếng Việt chƣa có cơng trình nghiên cứu nào cho bài tốn trích
xuất thuật ngữ y khoa, nên phƣơng pháp lai cịn có thể giúp so sánh giữa các
phƣơng pháp thành phần với nhau, đánh giá sự phù hợp của phƣơng pháp đối với
đặc trƣng tiếng Việt.

11


Hình 2.6: Mơ hình hệ thống thƣờng đƣợc sử dụng.

12



CHƢƠNG 3
KIẾN THỨC NỀN TẢNG

3.1. Bệnh án điện tử (BAĐT)
Trong những năm gần đây, với sự phát triển của công nghệ thơng tin, các bệnh viện
đều đã có hệ thống thơng tin bệnh viện. Ngồi chức năng cơ bản là quản lý bệnh
viện và ngƣời bệnh, các hệ thống này cịn có các chức năng quan trọng là quản lý
các hồ sơ về bệnh phí, bảo hiểm, viện phí, quản lý các dữ liệu cận lâm sàng (nhƣ kết
quả xét nghiệm máu, nƣớc tiểu, X quang, …) cuối cùng là xây dựng và quản lý
BAĐT.
Bệnh án là những ghi chép về các thông tin cá nhân, thông tin kết quả cận lâm sàng,
các chẩn đoán lâm sàng và các kết quả theo dõi bệnh hàng ngày của bệnh nhân. Có
thể nói bệnh án chính là sự đúc kết kinh nghiệm cũng nhƣ các phƣơng pháp điều trị
của bác sĩ trong q trình chữa trị bệnh. Trong đó dữ liệu về chẩn đốn lâm sàng có
ý nghĩa đặc biệt quan trọng trong nghiên cứu y khoa. Dữ liệu chẩn đoán lâm sàng có
thể chia làm 3 loại sau:
- Phiếu điều trị: là các chẩn đoán và phƣơng pháp điều trị hằng ngày của bác sĩ.
- Phiếu chăm sóc: là thơng tin đƣợc y tá ghi lại trong q trình chăm sóc bệnh nhân
và thực hiện y lệnh của bác sĩ.
- Hồ sơ xuất viện: là dữ liệu điều trị và thông tin cơ bản của bệnh nhân trong toàn
bộ thời gian điều trị.
Trƣớc đây các thông tin này đƣợc ghi chép và lƣu trữ dƣới dạng giấy, dẫn tới nhiều
bất tiện trong lƣu trữ quản lý và truy xuất thông tin. BAĐT là bệnh án đƣợc số hóa
bằng hệ thống thơng tin bệnh viện. BAĐT đƣợc lƣu trữ dƣới dạng số hóa nhờ đó có
một số ƣu điểm sau:
- Lƣu trữ thơng tin chính xác, khơng bị thất lạc và trùng lặp.

13



×