Khai thác yếu tố tần suất triệu chứng trong chẩn đoán giai đoạn ban đầu bằng các giải thuật học sâu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (549.38 KB, 6 trang )

Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

Khai thác yếu tố tần suất triệu chứng trong
chẩn đoán giai đoạn ban đầu bằng các giải
thuật học sâu
Huỳnh Trung Trụ và Nguyễn Trung Hiếu
Khoa Công Nghệ Thông Tin II,
Học Viện Công Nghệ Bưu Chính Viễn Thơng
Email: ,
Abstract— Các triệu chứng người bệnh mơ tả có nhiều ý
nghĩa trong q trình chẩn đốn và chữa bệnh. Trong
đó, tần suất xuất hiện các triệu chứng là yếu tố quan
trọng không thể bỏ qua. Xây dựng được các hệ thống
thông minh hiểu được các thơng tin này nhằm chẩn đốn
bệnh ban đầu sẽ giúp việc phân luồng người bệnh vào
khám chuyên khoa nhanh chóng và hiệu quả hơn. Bài
báo này đề xuất phương pháp chẩn đốn bệnh từ thơng
tin mơ tả triệu chứng từ người bệnh bằng tiếng Việt, có
chú ý khai thác yếu tố tần suất xuất hiện của các triệu
chứng dựa trên các phương pháp học sâu. So với các
cơng trình trước đây khơng chú ý đến yếu tố tần suất, độ
chính xác đạt được của bài báo này cải thiện được trên
2%. Kết quả thử nghiệm đạt độ chính xác cao là rất đáng
khích lệ cho hướng tiếp cận này.
Keywords- Corpus,
Physical exam.

I.

Deep

Learning,

cho đến dữ liệu cảm biến. Đặc điểm chung của các loại
dữ liệu này là phức tạp, không đồng nhất, chú thích
kém và cơ bản là khơng có cấu trúc. Để xử lý tốt các
dữ liệu này cần nền tảng kiến thức miền đầy đủ và
chuyên sâu.
Bài báo này đề xuất phương pháp xử lý và khai phá
dữ liệu không chun sâu. Đó là dữ liệu mơ tả triệu
chứng của người bệnh. Thông thường, những mô tả về
triệu chứng chưa thể là cơ sở cho các bác sỹ nhận định
bệnh. Tuy nhiên, đó cũng cũng là những thơng tin có
nhiều ý nghĩa trong q trình chẩn đốn bệnh. Vì vậy,
nghiên cứu khai thác nguồn dữ liệu này là động lực cho
các tác giả thực hiện bài báo này.
Phần tiếp theo của bài báo sẽ trình bày một số cơng
trình liên quan về học sâu và về y tế ở mục 2. Mục 3 sẽ
trình bày về phương pháp thực hiện của bài báo này từ
quá trình chuyển đổi và xử lý dữ liệu đến các cấu hình
của một số giải thuật học sâu dùng trong thử nghiệm để
đánh giá phương pháp đề xuất. Mục 4 sẽ trình bày các
kết quả đạt được và các ý kiến thảo luận. Phần trình
bày những ý kiến kết luận và hướng phát triển tiếp dựa
trên kết quả đạt được từ bài báo này sẽ trình được bày
trong mục 5.

Healthcare,

GIỚI THIỆU

Ứng dụng các kỹ thuật tuệ nhân tạo trong lĩnh vực
y tế đã được quan tâm từ rất lâu. Mong muốn xây dựng
các hệ thống hỗ trợ chăm sóc sức khỏe hoặc thăm
khám bệnh tự động là mong muốn rất lớn của mọi
người không chỉ của các nhà khoa học. Khoa học kỹ
thuật và công nghệ phát triển, nhất là sự phát triển của
khoa học máy tính, cùng với các phương pháp học sâu.
Nhiều cơng trình nghiên cứu về lĩnh vực này trên thế
giới với những kết quả rất tốt đã được công bố [1]. Ứng
dụng tiến bộ của khoa học máy tính trong các cơng
trình nghiên cứu này khá đa dạng, từ thị giác máy tính,
nhận dạng giọng nói cho đến xử lý ngơn ngữ tự nhiên
cho tiếng Anh. Khi xử lý dữ liệu lĩnh vực y khoa,
những cơng trình xử lý bài tốn chuyên sâu theo
chuyên ngành hẹp như [6] và [7] cần chi phí và cơng
sức rất lớn.
Học hiểu tri thức y sinh là điều khó khăn nhưng rất
quan trọng. Q trình thu thập tri thức, học để hiểu biết
từ dữ liệu chủ đề này phức tạp, nhiều chiều và không
đồng nhất vẫn là một thách thức lớn trong việc xây
dựng kho dữ liệu để huấn luyện các hệ thống học sâu.
Dữ liệu của lĩnh vực y tế là rất nhiều và đa dạng. Nhiều
loại dữ liệu khác nhau xuất hiện trong nghiên cứu y
sinh hiện đại, từ hồ sơ sức khỏe điện tử, hình ảnh, …

ISBN 978-604-80-7468-5

II.

CÁC CƠNG TRÌNH LIÊN QUAN

Do được quan tâm nhiều nên các thử nghiệm dùng trí
tuệ nhân tạo trong y học khá đa dạng. Các công trình
thường nghiên cứu chuyên sâu vào một bệnh cụ thể.
Madison Beary và cộng sự [14] giới thiệu một mơ
hình học sâu phân loại trẻ em khỏe mạnh hoặc có khả
năng mắc chứng tự kỷ. Mơ hình Madison Beary sử
dụng là CNN kết hợp với mơ hình MobileNet [15].
Kết quả Madison Beary đạt được rất tốt, độ chính xác
đạt đến 94,6%. Tác giả Amjad Rehman [16] và các
cộng sự phân loại bệnh bạch cầu mãn tính dòng tế bào
lympho sử dụng mơ CNN phân loại ảnh chụp tế. Độ
chính xác mà Amjad Rehman và cộng sự đạt được lên
đến 97.78%. Tác giả A.Z. Peixinho [17] và cộng sự
thử nghiệm chẩn đoán ký sinh trùng đường ruột ở
người bằng phương pháp học mạng nơ-ron tính chập
ConvNet. Độ chính xác trong thử nghiệm của [17]
cũng đạt mức 96.49%. Trong cơng trình [18], Jae-

409

Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

không thể bỏ qua các thơng số cơ bản này vì chúng
góp phần vào nhận định phân loại bệnh trong giai đoạn
đầu của quá trình khám chữa bệnh.
Bài báo này đề xuất phương pháp tiếp cận xử lý biến
đổi các thông tin mô tả bệnh thành cơ sở tri thức cho
các giải thuật học sâu ở dạng ngôn ngữ tự nhiên.

Hong Leea và các cộng sự thử nghiệm phát hiện và
chẩn đoán sâu răng dựa vào thuật toán hoạc sâu mạng
nơ-ron CNNs, kết quả đạt được cũng rất tốt, độ chính
xác ở mức 95%.
Các cơng trình đề cập ở phần trên đạt được độ chính
xác rất cao khi thử nghiệm giải quyết bài tốn xác định
một loại bênh cụ thể. Ở một khía cạnh khác của các
vấn đề liên quan đến y tế, Adnan Muhammad Shah [2]
và các cộng sự thử nghiệm phân tích tâm lý của bệnh
nhân về chất lượng cung cấp dịch vụ châm sóc sức
khỏe dựa trên các ý kiến và các hình ảnh. Khả năng
hiểu dữ liệu của các giải thuật học sâu trong lĩnh vực
này cũng rất tốt. Độ chính xác tốt nhất mà Adnan
Muhammad Shah cùng với các cộng sự thu được lên
đến 97.75%. Với tiếng Việt, các giải thuật học sâu
trong lĩnh vực xử lý ngôn ngữ tự nhiên cũng được
dùng trong nhiều cơng trình, nhất là cho lĩnh vực phân
loại ý kiến đánh giá sản phẩm như [19] và [20]. Độ
chính xác đạt được trong các cơng trình này cũng khá
tốt, ở mức trên 80%. Ở cơng trình [19] Duy Nguyen
Ngoc và các cộng sự đã thử nghiệm phân loại ý kiến
cho tiếng Anh và tiếng Việt để nhận thấy các giải thuật
học sâu không phụ thuộc vào ngơn ngữ và chủ đề.
Nhóm tác giả [21] đề xuất phương pháp khai phá
thông tin mô tả bệnh tiếng Việt để chẩn đoán một số
bệnh bằng phương pháp học sâu. Phương pháp bài báo
này đề xuất dựa trên các kỹ thuật xử lý ngôn ngữ tự
nhiên đối với tiếng Việt, nhưng chưa chú ý khai thác
yếu tố tần suất triệu chứng, trong quá trình xây dựng

kho dữ liệu huấn luyện hệ thống học sâu, độ chính xác
đạt 82.31%. Vì vậy, vấn đề sử dụng các giải thuật học
sâu cho lĩnh vực xử lý ngôn ngữ tự nhiên là cần xây
dựng kho ngữ liệu chất lượng để chúng có thể học tốt
tri thức của lĩnh vực cần xử lý. Từ những kết quả đạt
được của các nghiên cứu trên, bài báo này đề xuất thử
nghiệm các phương pháp học sâu đối với miền dữ liệu
là các mô tả triệu chứng của người bệnh, nhằm tìm
kiếm khả năng hỗ trợ chẩn đoán bệnh. Việc xây dựng
được một hệ thống chẩn đốn bệnh như vậy sẽ góp
phần mang lại lợi ích cho cả người bệnh lẫn các cơ sở
y tế.
III.

A. Xây dựng kho dữ liệu mô tả bệnh
1. Tiền xử lý dữ liệu
Dữ liệu thử nghiệm của bài báo này được các tác
giả thu thập từ các bệnh án ở một số bệnh viện và
phòng khám tư nhân. Các bệnh án thường được lưu
trong các hệ quản trị cơ sở dữ liệu quan hệ, trong các
trường riêng biệt. Để cùng dữ liệu này huấn luyện các
giải thuật học sâu, các tác giả rút trích dữ liệu và kết
hợp thành một văn bản duy nhất. Quá trình xử lý tạo
kho dữ liệu được thực hiện theo các bước:
Bước 1: Rút trích dữ liệu của mỗi ca khám và kết
luận của các bác sỹ thực hiện khám.
Bước 2: Tạo văn bản cho mỗi ca khám bệnh. Dữ
liệu mỗi ca khám sẽ được tạo thành một văn bản.
Trong đó, mỗi câu trong văn bản là một thơng tin theo
khía cạnh như tiền sử bệnh, chẩn đốn, kết luận …

Ví dụ 1: “Cao 165 cm, nặng 42 kg, huyết áp … Đã
bị lao cách đây 8 năm. Hay chóng mặt, chống váng,
mờ mắt, ngất, run tay, thiếu cân. Khả năng bị hạ huyết
áp”.
Sau khi xử lý các yếu tố về tần suất, ví dụ mô tả
bệnh trên trở thành:
“Cao 165 cm, nặng 42 kg, huyết áp … Đã bị lao
cách đây 8 năm. Hay chóng mặt, thỉnh thoảng chống
váng, mờ mắt, đơi khi ngất, thường xuyên run tay, thiếu
cân. Khả năng bị hạ huyết áp”.
Ví dụ 2: “Cao 153 cm, nặng 56 kg. Hay nôn,
thường đi tiêu chảy, mạch lên dội, thừa cân. Khả năng
bị viêm đường ruột”.
Sau khi xử lý các yếu tố về tần suất, ví dụ mơ tả
bệnh trên trở thành:
“Cao 153 cm, nặng 56 kg. Hay nôn, thường đi tiêu
chảy, thỉnh thoảng mạch lên dội, thừa cân. Khả năng bị
viêm đường ruột”.
Sau quá trình thu thập và xử lý dữ liệu như trên, bài
báo có được một kho dữ liệu với số liệu như bảng 1.
Số văn bản dùng làm dữ liệu thử nghiệm được chọn
ngẫu nhiên bằng giải thuật của hệ quản trị MS SQL
Server 2014.

PHƯƠNG PHÁP ĐỀ XUẤT

Để chẩn đoán và chữa bệnh, các bác sỹ sẽ cần rất
nhiều thơng tin liên quan đến người bệnh. Vì vậy, các
bệnh án thường là tập hợp của nhiều yếu tố như số đo
huyết áp, thân nhiệt, hoặc các chỉ số trong xét nghiệm

… Đây là những giá trị có ý nghĩa quan trọng thuộc về
chuyên ngành khoa học sức khỏe. Các giá trị này
thường là các giá trị định lượng nên nếu chỉ xem các
giá trị này như một từ hoặc cụm từ trong ngơn ngữ tự
nhiên có thể dẫn đến chẩn đoán hoặc nhận định sai
trong khám chữa bệnh. Tuy nhiên, bên cạnh những giá
trị định lượng của kết quả trong khám cận lâm sàng có
tính chun mơn sâu về y khoa, những thơng số của
q trình khám tổng quát như chiều cao, cân nặng,
huyết áp … không đòi độ chính xác cao. Tuy nhiên,

ISBN 978-604-80-7468-5

Bảng 1. Số liệu kho dữ liệu bệnh án bằng tiếng Việt
Đặc tính
Số bệnh nhân
Số văn bản huấn luyện
Số văn bản thử nghiệm
Số loại nhãn (loại bệnh)

Số lượng
7.123
11.794
3001
3

2. Tạo dữ liệu cho mô hình học sâu
Bài báo này sử dụng phương pháp word2vec [12]
tính toán đặc trưng của dữ liệu để tạo ma trận dữ liệu
đầu vào cho các mơ hình học sâu. Word2vec chứa mơ

hình Continuous Bag-of-Words (CBOW) và mơ hình

410

Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

Skip-Gram [13]. Mô hình CBOW dự đốn từ mục tiêu
(ví dụ: từ “chẩn” có thể tìm ra khi dùng từ “đốn” nếu
trong kho ngữ liệu có hai từ, và hai từ này cùng xuất
hiện trong một số ngữ cảnh) từ các từ cùng ngữ cảnh
với nó. Tương tự như CBOW, mơ hình Skip-Gram
cũng thực hiện tính tốn độ tương quan giữa các từ
trong kho ngữ liệu. Tuy nhiên, Skip-Gram thực hiện
ngược lại, lấy một từ làm đầu vào và dự đoán tất cả
những từ khác ở đầu ra.

của full-connected là kết quả cuối cùng của q trình
huấn luyện.
2. LSTM: Mơ hình LSTM [8] thuộc nhóm phương
pháp học sâu hồi quy (Recurrent Neural Networks –
RNN) được mơ tả như ở hình 2. Mơ hình LSTM có
các kết nối giữa các neural tạo thành dạng có hướng có
tính chu kỳ. Mơ hình này có khả năng học các phụ
thuộc dài đối với dữ liệu tuần tự. Cấu trúc một module
lặp RNN trong LSTM có bốn lớp tương tác theo các
chức năng riêng biệt. Bên cạnh đó, nó có hai trạng
thái: trạng thái ẩn và trạng thái tế bào (cell state). Hình
2 minh họa mơ hình LSTM. Tại thời điểm t, trước hết,
LSTM quyết định thông tin nào sẽ được đổ vào trạng

thái tế bào. Quyết định này được thực hiện bởi hàm
sigmoid hoặc tầng , còn được gọi là cổng quên
(forget gate). Hàm lấy ℎt-1 ở đầu ra từ lớp ẩn trước đó,
và xt, đầu vào hiện tại, và xuất ra một số có giá trị
trong đoạn [0, 1]. Trong đó, giá trị 1 có nghĩa là giữ
hồn tồn, giá trị 0 có nghĩa là bỏ qua hồn tồn theo
cơng thức (2).
ft = (Wfxt + Ufht-1)
(2)
Bộ LSTM quyết định những thông tin mới nào sẽ
lưu trữ trong trạng thái tế bào thông qua hai bước. Ở
bước thứ nhất, một hàm, hay lớp sigmoid, được gọi là
cổng đầu vào như ở công thức (3), xác định giá trị nào
LSTM sẽ cập nhật. Bước thứ hai, một hàm tanh tạo ra

B. Sơ lược một số phương pháp học sâu
1. CNN [3]: CNN là một mơ hình học sâu tiên tiến
được nhiều nhà khoa học biết đến. Mô hình này giúp
cho chúng ta xây dựng được những hệ thống xử lý
thơng minh, cho kết quả có độ chính xác cao trong
nhiều lĩnh vực như thị giác máy tính cũng như xử lý
ngơn ngữ tự nhiên. Mơ hình CNN được trình bày ở
hình 1 có các layer liên kết được với nhau thơng qua
cơ chế tích chập (convolution). Dữ liệu đầu vào của
layer này là kết quả tích chập từ layer trước đó nên
chúng ta có được các kết nối cục bộ trong q trình
tính tốn. Sự kết hợp này giúp chúng ta biểu diễn
thông tin từ mức độ thấp đến mức độ cao về sự trừu
tượng thông qua tích chập (convolution) từ các bộ lọc.
Tầng Word embedding là một tập các ma trận trọng số

đặc trưng của dữ liệu. Việc chuyển các từ trong câu
thành ma trận trọng số trong bài tốn xử lý ngơn ngữ
tự nhiên dùng ở tầng này có thể được tạo từ cơng cụ
word2vec hay Glove. Các ma trận ở tầng này có kích
thước n x k. Trong đó, n là số từ trong câu, mỗi từ biểu
diễn một vector k chiều. Ma trận trọng số của tầng này
là cơ sở biểu diễn mỗi từ trong câu được chọn thành
một vector từ. Đặt l  R là chiều dài câu, |D|  R là
kích thước từ vựng và W(l)  Rkx|D| là ma trận nhúng
các vector từ k chiều. Từ thứ i trong câu được chuyển
thành một vector k chiều wi bằng công thức (1):
wi = W(l)xi
(1)
trong đó xi là một biểu diễn one-hot vector cho từ thứ
i.

Word
embedding
Layer

Convolutional
Layer

Pooling
Layer

~

một vectơ các giá trị ứng viên mới C . Tiếp theo, hệ
thống cập nhật trạng thái tế bào cũ Ct-1 vào trạng thái tế

bào mới Ct như cơng thức (5). Cổng qn (forget gate)
ft có thể kiểm sốt độ dốc đi qua nó. Cổng này cũng
cho phép xóa và cập nhật bộ nhớ một cách tường minh.
Điều này giúp giảm bớt sự hao hụt của độ dốc hoặc
làm bùng nổ về độ dốc trong RNN tiêu chuẩn.

fullyconnected
layer

it = (Wixt + Uiht-1)

(3)

~
C = tanh(W n xt +U n ht −1 )

(4)

~
Ct = ft *Ct −1 +it *Ct

(5)

ot = (W 0 xt +U 0ht −1 )

(6)

ht = ot * tanh( Ct )

(7)

Hình 1. Mơ hình Convolutional Neural Network

Tầng Convolutional sử dụng cửa sổ trượt (slide
windows) với kích thước cố định (cịn gọi là kernel)
thực hiện xử lý tính tốn tích chập dữ liệu trên ma trận
dữ liệu đầu vào để thu được kết quả đã được tinh
chỉnh. Tầng Pooling xử lý các vector kết quả của tầng
Convolution, tổng hợp và trả ra những vector quan
trọng nhất. Tầng full-connected là mơ hình một mạng
nơ-ron truyền thống. Tầng này sử dụng những vector
kết quả đầu ra của tầng Pooling làm đầu vào. Đầu ra

ISBN 978-604-80-7468-5

Hình 2. Mơ hình Long Short Term Memory network

411

Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

Bộ LSTM quyết định đầu ra dựa trên trạng thái tế
bào qua các bước như sau:
Bước thứ nhất, LSTM chạy một lớp sigmoid, quyết
định phần nào của trạng thái tế bào sẽ xuất ra theo công
thức (6) ở ngõ ra (output gate).
Bước thứ hai, LSTM đặt trạng thái tế bào vào hàm
tanh và nhân nó với đầu ra của cổng sigmoid. Điều này
nhằm mục đích giúp cho bộ LSTM chỉ xuất ra các phần

mà nó quyết định như cơng thức (7).
3. Bidirectional LSTM (Bi_LSTM): Mơ hình BiLSTM [8] được mơ tả như hình 3. Đầu ra tại mỗi thời
điểm có thể xem là khơng chỉ phụ thuộc vào các yếu tố
trước đó trong chuỗi, mà chúng còn phụ thuộc vào các
yếu tố tiếp theo trong chuỗi. Ví dụ, để dự đốn một
mục từ cịn thiếu trong một câu, chúng ta có thể cần
phải xem xét cả các mục từ theo ngữ cảnh bên trái và
bên phải của mục từ này.

Với một từ vựng xác định, biểu diễn đầu vào của nó
được xây dựng bằng cách tính tổng các từ vựng (token
embedding), sentence embedding và Transformer
position embedding. Với bài toán phân loại, từ đầu tiên
của chuỗi được xác định bằng mã thông báo [CLS], và
một lớp kết nối đầy đủ được kết nối ở vị trí [CLS] của
tầng mã hóa cuối cùng.
5. CNN-LSTM: Lớp Convolutional của CNN tạo
ra một vectơ đặc trưng của đối tượng. Số vectơ đặc
trưng bằng số bộ lọc được sử dụng trong q trình tích
chập. Ở lớp Pooling, các giá trị đặc trưng tốt nhất từ
mỗi lớp sẽ được chọn để lấy đặc trưng quan trọng nhất
của ý kiến. Các vectơ đặc trưng qua lớp fully
connected tạo ra một tập hợp các tham số ở đầu ra của
CNN. Bộ LSTM sử dụng các tham số đầu ra của CNN
để thực hiện quá trình phân loại các ý kiến.
6. CNN-Bi-LSTM: Tương tự như mơ hình CNNLSTM, bộ Bi-LSTM sử dụng các tham số đầu ra của
CNN để thực hiện quá trình phân loại các ý kiến.
IV.

Hình 3. Mơ hình Bidirectional RNN [8]

Như mơ tả ở hình 3, một bộ Bi-LSTM bao gồm hai
bộ RNN ngược hướng liên kết với nhau. Một bộ RNN
xử lý chuỗi dữ liệu đầu vào theo thứ tự ban đầu và một
bộ RNN xử lý chuỗi dữ liệu đầu vào đảo ngược. Dữ
liệu dầu ra được tính toán dựa trên trạng thái ẩn của cả
hai bộ RNN.
4. BERT: BERT [9] là một mơ hình biểu diễn
ngơn ngữ mới do Devlin và các cộng sự tại nhóm
nghiên cứu Google AI Language giới thiệu. BERT sử
dụng mạng Bidirectional Transformer [10] để huấn
luyện trước một mơ hình ngơn ngữ trên một kho ngữ
liệu lớn và tinh chỉnh mơ hình đã huấn luyện trước
(pre-trained) trên các tác vụ khác.
Phương pháp BERT xử lý dữ liệu dựa trên phương
pháp Wordpiece [11] tách từ bằng ký tự đặc biệt ##, sử
dụng các token [CLS], [SEP] để phân biệt đầu chuỗi
hay đầu câu, token [MASK] dùng để che dấu từ.
Trường hợp có một cặp câu được ghép lại thành một
chuỗi thì chúng được đánh dấu thành các đoạn
(segment) khác nhau sau mỗi token [SEP]. Hình 4 là ví
dụ cho chuỗi gồm hai câu được đánh dấu thành hai
segment A và B. Câu hoặc cặp câu được biểu diễn dưới
dạng một chuỗi các từ vựng.

THỬ NGHIỆM

Bài báo thực hiện thử nghiệm phân loại bệnh dựa
trên mô tả triệu chứng theo hai trường hợp: xác định
một loại bệnh và phân loại bệnh.

Xác định một loại bệnh: trường hợp này tương
đương với bài toán phân loại nhị phân. Một nhãn là
bệnh muốn xác định, nhãn còn lại dành cho các loại
bệnh khác.
Phân loại bệnh: trường hợp này tương đương với
bài toán phân loại đa nhãn. Trong bài báo này số nhãn
là ba, tương ứng với nhãn Hạ huyết áp, Viêm đường
ruột và Chưa xác định.
Các thử nghiệm được thực hiện trên máy tính có
cấu hình như sau: CPU: core i5; GPU: Tesla K80
24GB (2 nhân GPU); Bộ nhớ RAM: 48 GB; Hệ điều
hành: Ubuntu 20.04 LTS
A. Cấu hình các mơ hình học sâu dùng cho thử
nghiệm
1. LSTM: Dựa trên thư viện Keras. Các thông
số được chọn để thử nghiệm như liệt kê ở bảng 2
Bảng 2. Thông số thử nghiệm mơ hình LSTM
Đặc tính

Giá trị

Số neural ẩn
dropout
Recurrent_dropout
Epoch
Kích thước word embedding

300
0.2
0.2

300
300

Hàm activation

sigmoid

2. CNN: Dựa trên thư viện Tensorflow. Các
thông số được chọn để thử nghiệm như liệt kê ở bảng
Bảng 3. Thơng số thử nghiệm mơ hình CNN
Đặc tính

Hình 4. Tiền xử lý dữ liệu của giải thuật BERT

ISBN 978-604-80-7468-5

412

Giá trị

Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2022)

Kích thước embedding word

300

Số bộ lọc
Dropout
Epoch

L2
Hàm activation
Kích thước bộ lọc

300
0.5
300
0.0008
Sigmoid
3,4,5

6. BERT: Dựa trên thư viện Tensorflow. Các
thông số được chọn để thử nghiệm như liệt kê ở bảng 7.
Phương pháp BERT chỉ thực hiện thử nghiệm với dữ
liệu hai nhãn (nhị phân) trong bài báo này.
Bảng 7. Thơng số thử nghiệm mơ hình BERT

3. Bi-LSTM: Dựa trên thư viện Keras. Các
thông số được chọn để thử nghiệm như liệt kê ở bảng 4

100, 200
0.2
0.2
300
300

Hàm activation

Phương pháp

ReLU

CNN
LSTM
Bi_LSTM
CNNBi_LSTM
CNN-LSTM
BERT base

Bảng 5. Thông số thử nghiệm mô hình CNN + LSTM
Giá trị

Epoch
LSTM
Số bộ lọc
Hàm activation
CNN
Kích thước embedding word
Số bộ lọc
Kích thước bộ lọc
Pool size
Hàm activation

300
softmax
300
300
3
2
sigmoid

Bảng 6. Thơng số thử nghiệm mơ hình CNN + Bi-LSTM
Giá trị

Epoch
Bi-LSTM
Số bộ lọc
Hàm activation
CNN
Kích thước embedding word

300
softmax

Số bộ lọc
Kích thước bộ lọc
Pool size
Hàm activation

300
3
2
sigmoid

ISBN 978-604-80-7468-5

300
64

Hạ huyết

áp
89.79
88.91
88.78
90.03

Viêm đường
ruột
92.02
89.79
91.77
90.97

Chưa xác
định
88.95
88.78
91.12
92.53

89.23
81.41

93.34
84.26

90.73
82.37

Từ kết thu được về độ chính xác của các phương

dùng trong thử nghiệm xác định một loại bệnh của bài
báo này như trình bày trong bảng 8, một số nhận xét
được rút ra như sau:
- Khơng có phương pháp học nào thể hiện được
ưu thế rõ rật với dữ liệu thử nghiệm của bài báo này.
Sự kết hợp bộ CNN và bộ LSTM, cũng như CNN và
Bi-LSTM, tạo được sự cải thiện được một phần hiệu
năng, khi so với khi thực thi riêng từng giải thuật này.
Trong đó, giải thuật LSTM thể hiện khơng được tốt
như các giải thuật khác, trừ giải thuật BERT.
- Mặc dù là sự kết hợp hai bộ LSTM theo hai
chiều khác nhau nhưng bộ Bi-LSTM khơng có được
kết quả tốt hơn LSTM trong trường hợp thử nghiệm
dữ liệu của bài báo này.
- Giải thuật BERT thu được kết quả kém hơn các
giải thuật học sâu khác khá nhiều, trong mọi loại nhãn
bệnh được thử nghiệm. Kết quả có thể do các nguyên
nhân như dữ liệu huấn luyện chư đủ lớn, cấu hình
phần cứng chưa giúp cho cấu hình BERT đạt được
mức tốt nhất của BERT base.
- So với kết quả của Trụ và cộng sự [21], hầu hết
các mô hình đều có cải thiện. Mức cải thiện tốt nhất là
CNN-LSTM cải thiện được khoảng 2%.
Phân loại bệnh

300

5. CNN – Bi-LSTM kết hợp
Dựa trên thư viện Keras. Các thông số được chọn
để thử nghiệm như liệt kê ở bảng 6.

Đặc tính

bert_uncased_L-12_H-768_A-12/1

Bảng 8. Độ chính xác (accuracy - %) tốt nhất của mơ hình
trong các thử nghiệm xác định một loại bệnh

4. CNN-LSTM kết hợp
Dựa trên thư viện Keras. Các thông số được chọn
để thử nghiệm như liệt kê ở bảng 5.
Đặc tính

Pre-trained model

7. Kết quả thử nghiệm
Kết quả thử nghiệm trên bộ dữ liệu trình bày ở
phần A được trình bày trong bảng 8.
Xác định một loại bệnh

Giá trị

Số neural ẩn
dropout
Recurrent_dropout
Epoch
Kích thước word embedding

Giá trị

Epoch

Batch size

Bảng 4. Thơng số thử nghiệm mơ hình Bi-LSTM
Đặc tính

Đặc tính

300

300

Bảng 9. Độ chính xác (accuracy - %) tốt nhất của mơ hình
trong các thử nghiệm phân loại bệnh
Phương pháp
CNN

413

Độ chính xác
81.26

Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

LSTM
Bi_LSTM
CNN-Bi_LSTM
CNN-LSTM

79.44

82.23
84.19
82.18

[8]

Các kết thu được trình bày ở bảng 9 trong thử
nghiệm này thấp hơn khá nhiều, xấp xỉ 10%, khi so
với số liệu ở bảng 8. Tuy nhiên, so với kết quả đạt
được của Trụ và cộng sự [21] phương pháp đề xuất
của bài báo này đã cải thiện được gần 2%. Cũng có
một trường hợp ngoại lệ, đó là trường hợp mơ hình
LSTM giảm độ chính xác khoảng 1%. Tuy nhiên, hiệu
năng của các giải thuật trong phân loại là tương đồng
nhau trong hai trường hợp thử nghiệm. Sự kết hợp bộ
CNN và bộ LSTM, cũng như khi kết hợp bộ CNN và
bộ Bi-LSTM đạt độ chính xác tốt hơn khi để các bộ
học sâu này thực thi riêng.
V.

[9]

[10]

[11]

KẾT LUẬN

[12]

Kết quả thử nghiệm chẩn đoán bệnh dựa trên các
khai báo từ người bệnh có khai thác yếu tố tần suất của
triệu chứng trong bài báo này cho thấy phương pháp
tiếp cận của bài báo có nhiều triển vọng. Mơ hình định
bệnh này có ưu điểm là linh hoạt, tạo sự thuận lợi cao
cho việc xây dựng ứng dụng đối với các cơ sở y tế. Nếu
được ứng dụng trong xây dựng website hoặc ứng dụng
di động sẽ dễ tiếp cận và dễ sử dụng với nhiều đối
tượng người bệnh cũng như các cơ sở y tế. Kết quả
nghiên cứu này mới chỉ là các kết quả thử nghiệm trên
dữ liệu được thu thập chưa ở quy mô lớn, số bệnh để
xác định chưa nhiều. Để có thể đưa mơ hình vào ứng
dụng thực tế, việc thu thập dữ liệu, nghiên cứu phân
tích bệnh án cần được thu thập ở quy mô lớn hơn, phân
loại triệu chứng cho nhiều loại bệnh hơn, và thử
nghiệm với nhiều mơ hình học sâu khác.

[13]

[14]

[15]

[16]

[17]

TÀI LIỆU THAM KHẢO
[1]

[2]

[3]

[4]

[5]

[6]
[7]

Riccardo Miotto, Fei Wang, Shuang Wang, Xiaoqian Jiang,
Joel T Dudley, “Deep learning for healthcare: review,
opportunities and challenges. Briefings in bioinformatics”, vol
19, isuue 6, pp 1236-1246, 2018.
Adnan Muhammad Shah, Xiangbin Yan, Syed Asad Ali Shah,
and Gulnara Mamirkulova. “Mining patient opinion to
evaluate the service quality in healthcare: a deep-learning
approach”, Journal of Ambient Intelligence and Humanized
Computing, pp 1-18, 2019.
Yoon Kim, “Convolutional neural networks for sentence
classification”, in Proceedings of the 2014 Conference on
Empirical Methods in Natural Language Processing, EMNLP
2014, pp 1746-1751, 2014.
Faust, Oliver, Hagiwara, Yuki, Hong, Tan Jen, Lin, Oh Shu
and Acharya, U Rajendra, “Deep learning for healthcare
applications based on physiological signals: A review”,
Computer methods and programs in biomedicine, vol 161, pp
1-13, 2018.
Beam, Andrew L.; Kohane, Isaac S., “Big data and machine

learning in health care”. Jama, vol 319, isuue 13, pp 13171318, 2018.
Wang, Dayong, et al. Deep learning for identifying metastatic
breast cancer. arXiv preprint arXiv:1606.05718, 2016.
Saifeng Liu, Huaixiu Zheng, Yesu Feng, Wei Li, “Prostate
cancer diagnosis using deep learning with 3D multiparametric

ISBN 978-604-80-7468-5

[18]

[19]

[20]

[21]

414

MRI”, In: Medical imaging 2017: computer-aided diagnosis.
International Society for Optics and Photonics, pp 1013428,
2017.
Lei Zhang, Suai Wang, and Bing Liu, “Deep learning for
sentiment analysis: A survey”, Wiley Interdisciplinary
Reviews: Data Mining and Knowledge Discovery, Vol 8, Issue
4, pp e1253, 2018.
Devlin, Jacob, Ming-Wei Chang, Kenton Lee, Kristina
Toutanova, “BERT: Pre-training of deep bidirectional
transformers for language understanding”, arXiv preprint
arXiv:1810.04805, 2019.
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A.

N. Gomez, et al., "Attention is all you need", Proc. Adv.
Neural Inf. Process. Syst., pp 5998-6008, 2017.
Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le,
Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun,
Yuan Cao, Qin Gao, Klaus Macherey, et al. "Google’s neural
machine translation system: Bridging the gap between human
and machine translation”. In arXiv preprint arXiv:1609.08144,
2016.
Xin Rong, “word2vec parameter learning explained”, In arXiv
preprint arXiv:1411.2738, 2014.
Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and
Jeffrey Dean, “Distributed representations of words and
phrases and their compositionality”. In Proceedings of the
Annual Conference on Advances in Neural Information
Processing Systems (NIPS 2013), 2013.
Madison Beary, Alex Hadsell, Ryan Messersmith,
Mohammad-Parsa Hosseini, “Diagnosis of Autism in Children
using Facial Analysis and Deep Learning”. arXiv preprint
arXiv:2008.02890, 2020.
Andrew G. Howard., Menglong Zhu, Bo Chen, Dmitry
Kalenichenko, Weijun Wang, Tobias Weyand, Marco
Andreetto,
Hartwig
Adam.
“Mobilenets:
Efficient
convolutional neural networks for mobile vision applications”.
arXiv preprint arXiv:1704.04861, 2017.
Amjad Rehman, Naveed Abbas, Tanzila Saba, Syed Ijaz ur
Rahman, Zahid Mehmood, HoshangKolivand. “Classification

of acute lymphoblastic leukemia using deep learning".
Microscopy Research and Technique, cil 81, isuue 11, pp
1310-1317, 2018.
A.Z. Peixinho, S.B. Martins, J.E. Vargas and A.X. Falc ã o, J.F.
Gomes, C.T.N. Suzuki, “Diagnosis of Human Intestinal
Parasites by Deep Learning”. In: Computational Vision and
Medical Image Processing V: Proceedings of the 5th Eccomas
Thematic Conference on Computational Vision and Medical
Image Processing (VipIMAGE 2015, Tenerife, Spain, pp 107,
2015.
Jae-Hong Leea, Do-Hyung Kima, Seong-Nyum Jeonga,
Seong-Ho Choib, “Detection and diagnosis of dental caries
using a deep learning-based convolutional neural network
algorithm”. Journal of dentistry, vol 77, pp 106-111, 2018.
Duy Nguyen Ngoc, Tuoi Phan Thi and Phuc Do,
“Preprocessing Improves CNN and LSTM in Aspect-Based
Sentiment Analysis for Vietnamese”. In Proceedings of Fifth
International Congress on Information and Communication
Technology. ICICT 2020. Springer, Singapore, pp. 175-185,
2020.
Duy Nguyen Ngoc, Tuoi Phan Thi and Phuc Do, “A Data
Preprocessing Method to Classify and Summarize AspectBased Opinions using Deep Learning”, Asian Conference on
Intelligent Information and Database Systems. Springer, Cham,
pp 115-127, 2019.
Huỳnh Trung Tru, Nguyễn Ngọc Duy,”Khai phá thơng tin mơ
tả bệnh tiếng việt để chẩn đốn một số bệnh bằng phương pháp
học
sâu”,
National
Conference

on
Electronics,
Communications and Information Technology - REV-ECIT, p
p 261-266, 2021.

Khai thác yếu tố tần suất triệu chứng trong chẩn đoán giai đoạn ban đầu bằng các giải thuật học sâu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về