Tải bản đầy đủ (.pdf) (81 trang)

Luận văn thạc sĩ nghiên cứu một số phương pháp phát hiện và phân loại nhịp thở sử dụng mạng học sâu đa nhiệm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.98 MB, 81 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

TRẦN ANH ĐẠT

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÁT HIỆN VÀ
PHÂN LOẠI NHỊP THỞ SỬ DỤNG MẠNG HỌC SÂU ĐA NHIỆM

LUẬN VĂN THẠC SỸ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI - 2021

e


HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG

---------------------------------------

TRẦN ANH ĐẠT

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÁT HIỆN VÀ PHÂN LOẠI
NHỊP THỞ SỬ DỤNG MẠNG HỌC SÂU ĐA NHIỆM

CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH

MÃ SỐ :

8.48.01.01


LUẬN VĂN THẠC SỸ KỸ THUẬT
(Theo định hướng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS. PHẠM VĂN CƯỜNG

HÀ NỘI - 2021

e


LỜI CAM ĐOAN
Luận văn này là kết quả sau quá trình nghiên cứu của em cùng sự giúp đỡ tận
tình của nhóm nghiên cứu Naver AI Lab và các quý thầy cơ sau gần hai năm theo học
chương trình đào tạo Thạc sỹ, chuyên ngành Khoa học máy tính của trường Học viện
Cơng nghệ Bưu chính Viễn thơng.
Em xin cam đoan đây là cơng trình khoa học nghiên cứu của bản thân. Nội
dung của luận văn có tham khảo và sử dụng một số thông tin, tài liệu từ các nguồn
sách, tạp chí trong nước lẫn quốc tế được liệt kê trong danh mục các tài liệu tham
khảo và được trích dẫn hợp pháp.
Tác giả
(Ký và ghi rõ họ tên)

Trần Anh Đạt

e


LỜI CẢM ƠN
Lời đầu tiên, em xin gửi lời cảm ơn tới các Thầy, Cô trong Khoa Công nghệ
thông tin 1, Khoa Sau đại học và toàn bộ các cán bộ của Học viện Cơng nghệ Bưu

chính Viễn thơng Hà Nội đã tạo điều kiện để em có thể được học tập trong một môi
trường tốt. Cảm ơn các Thầy Cô đã cung cấp cho em những kiến thức bổ ích và quan
trọng trong suốt quá trình học tập và nghiên cứu tại trường để em có thể hồn thành
luận văn của mình một cách tốt nhất.
Em xin được bày tỏ lòng biết ơn sâu sắc đến thầy Phạm Văn Cường và thầy
Hồng Xn Dậu, đã tận tình hướng dẫn, định hướng cho em trong suốt thời gian
thực hiện đề tài. Những lời khuyên của thầy trong suốt quá trình hoàn thành luận văn
này và những tiết học trên lớp đã giúp em có thêm nhiều kiến thức cũng như kinh
nghiệm trong lĩnh vực nghiên cứu khoa học.
Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, tất cả bạn bè, anh, chị, những
người đã quan tâm giúp đỡ, khích lệ cũng như phê bình, góp ý, giúp tơi hồn thành
khóa luận một cách tốt nhất.
Với trình độ hiểu biết còn nhiều hạn chế của bản thân và vốn kiến thức vẫn
cịn ít ỏi nên trong luận văn của em khơng tránh khỏi những thiếu sót. Em rất mong
nhận được sự góp ý của các Thầy, Cơ, các bạn đồng nghiệp để luận văn của em được
hoàn thiện hơn.
Hà Nội, tháng 12 năm 2021

Trần Anh Đạt

e


i

MỤC LỤC

DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT ........................................................... iii
DANH MỤC BẢNG BIỂU .......................................................................................v
DANH MỤC HÌNH VẼ, SƠ ĐỒ ............................................................................ vi

MỞ ĐẦU ....................................................................................................................1
Chương 1.

TỔNG QUAN .....................................................................................6

1.1 Các dạng hô hấp nhịp thở dựa trên bệnh lý của con người .................6
1.1.1 Giới thiệu ......................................................................................6
1.1.2 Bài toán phát hiện nhịp thở dựa vào dữ liệu âm thanh .................9
1.2 Các nghiên cứu liên quan ..................................................................10
1.2.1 Trích chọn đặc trưng để phát hiện tiếng rale nổ dựa trên học máy
11
1.2.2 Phân loại nhịp thở bằng thiết bị điện tử ......................................18
1.2.3 Đánh giá ......................................................................................22
1.3 Kết chương ........................................................................................23
Chương 2.

PHƯƠNG PHÁP PHÂN LOẠI NHỊP THỞ .....................................25

2.1 Xử lý âm thanh nhịp thở ....................................................................25
2.2 Các đặc trưng âm thanh nhịp thở ......................................................29
2.3 Mơ hình học sâu đa nhiệm cho phát hiện và phân loại nhịp thở .......32
2.3.1 Mạng nơ-ron Hồi quy .................................................................32
2.3.2 Mạng nơ-ron BiLSTM ................................................................34

e


ii

2.3.3 Mơ hình học sâu BiLSTM đa nhiệm ..........................................35

2.3.4 Xây dựng mơ hình BiLSTM .......................................................36
2.4 Sơ lược về hệ thống phát hiện và phân loại nhịp thở ........................44
2.5 Kết chương ........................................................................................46
Chương 3.

THỰC NGHIỆM, ĐÁNH GIÁ KẾT QUẢ PHÂN LOẠI NHỊP THỞ
47

3.1 Thu thập dữ liệu.................................................................................47
3.2 Thử nghiệm và đánh giá mơ hình học sâu cho bài tốn phân loại nhịp
thở

53
3.2.1 Thử nghiệm mơ hình học sâu đa nhiệm .....................................53
3.2.2 Đánh giá mơ hình học sâu cho bài tốn phân loại nhịp thở .......54
3.2.3 Kết quả thực nghiệm ...................................................................57
3.2.4 Đánh giá ......................................................................................59
3.3 Xây dựng chương trình phát hiện và phân loại nhịp thở dựa trên học

sâu đa nhiệm ..........................................................................................................60
3.3.1 Mơ hình triển khai hệ thống .......................................................60
3.3.2 Xây dựng ứng dụng phát hiện và phân loại nhịp thở .................61
3.4 Kết chương ........................................................................................63
KẾT LUẬN ..............................................................................................................64
TÀI LIỆU THAM KHẢO ......................................................................................66

e


iii


DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT
STT

Từ viết tắt

Tiếng Việt

Tiếng Anh

1

AI

Trí tuệ nhân tạo

Artificial Intelligence

2

ANN

Mạng thần kinh nhân tạo

3

BFCC

Lọc tần số Bark


4

BiLSTM

5

CMU

6

COPD

7

DFT

Biến đổi Fourier rời rạc

8

HP

Người khỏe mạnh

Healthy Person

9

HRV


Thiết bị thơng gió thu hồi

Heat Recovery

nhiệt

Ventilator

10

IoT

Internet vạn vật

Internet of Things

Artificial Neural
Network
Bark-frequency cepstral
coefficients
Bidirectional Long
Short-Term Memory

Đại học Carnegie Mellon

Carnegie Mellon

Bệnh phổi tắc nghẽn mạn

Chronic Obstructive


tính

Pulmonary Disease

e

Discrete Fourier
Transform


iv

Thuật toán K láng giềng

11

KNN

12

MFCC

13

ML

Học máy

14


RNNoise

Bộ lọc RNNoise

15

SMA

16

SVM

17

TBS

18

WHO

gần nhất

K-nearnest Neighbors

Mel Frequency Cepstral
Coefficients
Machine Learning

Công cụ chỉ báo phản ánh


Simple Moving

biến động

Average

Máy vector hỗ trợ

Người nghi ngờ mắc bệnh
lao

Tổ chức Y tế Thế giới

e

Support Vector
Machine

Tuberculosis Suspect

World Health
Organization


v

DANH MỤC BẢNG BIỂU
Bảng 3-1: So sánh kết quả thử nghiệm lấy mẫu dữ liệu âm thanh ...........................47
Bảng 3-2: Kịch bản thu thập dữ liệu .........................................................................48

Bảng 3-3: Số liệu về dữ liệu âm thanh nhịp thở .......................................................49
Bảng 3-4: Số lượng dữ liệu nhịp thở sau khi cắt dữ liệu ..........................................49
Bảng 3-5: Thơng số kỹ thuật bộ thiết bị có gắn micro BETA 98H/C ......................50
Bảng 3-6: Ma trận nhầm lẫn trong phân loại lớp đối tượng .....................................54
Bảng 3-7: Kết quả thử nghiệm đánh giá các đặc trưng .............................................57
Bảng 3-8: Kết quả thử nghiệm mơ hình học sâu đa nhiệm .......................................58
Bảng 3-9: Cấu hình phần cứng sử dụng trong thực nghiệm .....................................62
Bảng 3-10: Yêu cầu phần mềm cài đặt để chạy ứng dụng ........................................62

e


vi

DANH MỤC HÌNH VẼ, SƠ ĐỒ
Hình 1-1: Một đoạn dữ liệu nhịp thở chứa một nhịp hít vào và một nhịp thở ra.......9
Hình 1-2: Một đoạn dữ liệu thở liên tục...................................................................10
Hình 1-3: Quá trình training (trên - dưới) và quá trình phân loại (trái - phải) .........13
Hình 1-4: Trích chọn window dữ liệu từ file [8] .....................................................15
Hình 1-5: Mơ hình hệ thống e-Nose để thực hiện phân loại nhịp thở .....................19
Hình 1-6: Thiết bị điện tử để ghi âm âm thanh nhịp thở..........................................20
Hình 1-7: Mơ hình ANN ..........................................................................................21
Hình 2-1: Quy trình xử lý của bộ lọc RNNoise .......................................................26
Hình 2-2: Áp dụng bộ lọc RNNoise.........................................................................28
Hình 2-3: Một đoạn của mạng nơ-ron hồi quy ........................................................33
Hình 2-4: Chuỗi mạng nơ-ron hồi quy .....................................................................33
Hình 2-5: Một chuỗi mạng LSTM với mỗi module bao gồm 4 tầng tương tác .......34
Hình 2-6: Mơ hình mạng BiLSTM ..........................................................................35
Hình 2-7: Cấu trúc bộ thư viện Keras ......................................................................37
Hình 2-8: Cấu trúc một khối LSTM.........................................................................38

Hình 2-9: Kiến trúc mạng BiLSTM phát hiện tiếng nhịp thở ..................................39
Hình 2-10: Hai thành phần chính tham gia xây dựng mơ hình ................................39
Hình 2-11: Sơ đồ hệ thống phát hiện và phân loại nhịp thở ....................................44
Hình 3-1: Thiết bị Raspberry Pi ...............................................................................50
Hình 3-2: Giao diện làm việc của phần mềm xử lý âm thanh Audacity 2.1.0 .........51

e


vii

Hình 3-3: Minh họa việc gán nhãn âm thanh nhịp thở ............................................52
Hình 3-4: Định dạng nhãn dữ liệu sau khi gán nhãn ...............................................52
Hình 3-5: Mẫu dữ liệu nhịp thở ...............................................................................53
Hình 3-6: Độ đo AUC ..............................................................................................56
Hình 3-7: Quá trình huấn luyện mơ hình nhận dạng nhịp thở .................................59
Hình 3-8: Mơ hình triển khai hệ thống thực tế.........................................................61
Hình 3-9: Chương trình phát hiện thở theo thời gian thực ......................................63

e


1

MỞ ĐẦU
Trong ngành y tế, việc phân tích dữ liệu nhịp thở cũng như phát hiện nhịp thở
là một việc rất quan trọng. Để ngăn chặn các bệnh lý xấu liên quan đến hơ hấp thì
việc phát hiện bất thường trong nhịp thở là tiền đề. Rất nhiều công nghệ đã và đang
xây dựng nhằm ý nghĩa phát hiện và theo dõi nhịp thở. Luận văn này tập trung chính
vào việc nghiên cứu một số phương pháp phát hiện và phân loại nhịp thở. Luận văn

đề xuất một số phương pháp học sâu đa nghiệm, kết nối một thiết bị khơng dây có
gắn mic với một hệ thống cloud. Thu lại âm thanh nhịp thở và phân tích dữ liệu nhịp
thở thu được. Phương pháp tiếp cận chính để phát hiện và phân loại nhịp thở là sử
dụng Học sâu đa nhiệm. Cuối cùng, luận văn xin trình bày sơ lược về ứng dụng phát
hiện và phân loại nhịp thở dựa trên Học sâu đa nhiệm.
Hoạt động hít thở là hành động thiết yếu, đơn giản và cũng rất cần thiết đối
với tất cả sinh vật sống. “Hơi thở là một hỗn hợp của nitơ, oxi, cacbonic, hơi nước và
một lượng rất nhỏ các chất hữu cơ dễ bay hơi” [1]. Mỗi hoạt động hít thờ gồm hai
bước chính, một là hít vào, hai là thở ra, hai bước này lặp đi lặp lại liên tục. Nhịp thở
có số lượng nhịp trên mỗi phút được thu nhận tùy thuộc theo tình trạng vào hoạt động
của người đó. Có thể hiểu là khi đi bộ thì nhịp thở sẽ khác, khi làm việc nặng thì nhịp
thở sẽ khác hay khi đang ngủ thì nhịp thở cũng sẽ khác. Nhịp thở sẽ có nhịp độ chậm
khi đang ngủ hoặc đang nghỉ ngơi [2]. Vai trò của nhịp thở rất quan trọng, thường
được dùng là một chỉ số cũng như thước đo để đánh giá trong lĩnh vực y tế [3].
Việc phân tích dữ liệu nhịp thở thường bằng cách thu thập dữ liệu từ các thiết
bị thu thập khác nhau và sử dụng dữ liệu đó để phân tích nhịp thở góp phần tìm ra
những thơng tin quan trọng về nhịp thở. Trên thế giới cũng như trong nước có rất
nhiều cơng nghệ được sử dụng để phân tích dữ liệu nhịp thở. Dựa trên góc độ vật thì
thì có thể chia thành hai phương pháp tiếp cận là thiết bị sử dụng có tiếp xúc hoặc
khơng tiếp xúc với người phân tích nhịp thở [2]. Với phương pháp tiếp xúc thì thường
sẽ sử dụng các loại cảm biến như: cảm biến nhiệt điện, cảm biến âm thanh và cảm
biến hô hấp, … Phương pháp này có ưu điểm là độ chính xác khi nhận được dữ liệu

e


2

trong quá trình thu thập dữ liệu. Nhưng nhược điểm là gây ra khó khăn khi áp dụng
vào trong thực tế vì gây ra khó chịu cho người dùng, người dùng phải đeo thiết bị

trên người dẫn tới không thoải mái trong q trình phân tích dữ liệu nhịp thở. Cịn
đối với phương pháp khơng tiếp xúc thì sẽ thường dựa vào các loại phần cứng như:
radar, camera hay “doppler modalities”. Ưu điểm của phương pháp này thì là người
dùng khơng phải đeo thiết bị hay gây ra vướng víu khi phân tích nhịp thở. Nhược
điểm thì dùng các thiết bị phần cứng này có giá khá cao, dữ liệu thu thập và phân tích
cũng thường lớn, gây ra khó khăn trong q trình phân tích dữ liệu nhịp thở [2].
Trên thế giới có nhiều nghiên cứu phân tích nhịp thở kết hợp các loại cảm biến
và dựa trên trí tuệ nhân tạo mang lại những kết quả khá tốt. Đa phần các nghiên cứu
thì dữ liệu sẽ được thu thập trên micro, dữ liệu sẽ được truyền về máy tính. Micro
thường được gắn trên lồng ngực của người được theo dõi, cảm biến sẽ ghi nhận lại
khi hô hấp. Dùng cảm biến nhiệt dựa trên nguyên tắc nhiệt độ khi hít ra sẽ cao hơn
nhiệt độ khi hít vào [4]. Đa phần các thực nghiệm cũng như độ chính xác tốt khi sử
dụng phương pháp cảm biến với chi phí thấp. Việc kết hợp trí tuệ nhân tạo với dữ
liệu nhịp thở thu nhận được cũng đưa ra những kết quả khả quan. Những năm gần
đây, có rất nhiều phương pháp học sâu được đưa ra, trong số đó có một phương pháp
là Học sâu đa nhiệm, là từ một mơ hình có thể thực hiện được nhiều nhiệm vụ như
phát hiện và phân loại nhịp thở, độ chính xác cũng dần dần được cải thiện khi sử dụng
phương pháp này. Nhờ đó, việc sử dụng trí tuệ nhân tạo nói chúng và sử dụng học
sâu nói riêng đã mang lại những kết quả tốt cũng là một trong những nghiên cứu quan
trọng trong việc phân tích nhịp thở.
Những năm gần đây, việc áp dụng trí tuệ nhân tạo vào các lĩnh vực khoa học
máy tính đã trở nên nhiều và gần gũi hơn. Việc áp dụng học máy cũng như học sâu
vào các vấn đề khía cạnh trong đời sống đã mang đến những thành tựu lớn trong
ngành nghiên cứu khoa học. Chính vì vậy, ngành y tế cũng đã được phát triển trong
thế giới số và trí tuệ nhân tạo. Nhưng nhìn chung thì ngành y tế kết hợp với trí tuệ
nhân tạo cịn khá mới mẻ, cần được thúc đẩy phát triển mạnh mẽ hơn.

e



3

Một phương pháp mang lại làn gió mới trong trí tuệ nhân tạo đó chính là học
sâu, học sâu đã cho thấy những tín hiệu tốt trong việc nghiên cứu và phân tích dữ liệu
lớn. Do đó, việc áp dụng học sâu vào phân tích dữ liệu y tế là một xu hướng quan
trọng cần được quan tâm tới.
Tại sao lại phải phát hiện và phân loại nhịp thở? Theo Tổ chức Y tế Thế giới
(WHO) (1990), dịch bệnh Covid-10 liên quan đến hơ hấp đang có những diễn biến
phức tạp với hơn 250 triệu ca nhiễm trên toàn thế giới tính đến năm 2021; và tình
trạng ơ nhiễm mơi trường ngày càng tăng dẫn tới bệnh hô hấp ngày càng phổ biến.
Các bệnh hô hấp thường gặp bao gồm: viêm phổi tắc nghẽn mãn tính với 2,9 triệu
người chết mỗi năm, bệnh hen phế quản với 300 triệu người mắc mỗi năm và đăc.
Bởi vì hành động hít thở là hành động cơ bản của mọi động vật nói chung và lồi
người nói riêng. Hoạt động hít thở đối với hô hấp và theo dõi hô hấp là khâu theo dõi
đầu tiên và có vai trị quan trọng. Việc phát hiện và phân loại nhịp thở đối với các
bệnh nhân có tiền sử về các bệnh hơ hấp là vơ cùng quan trọng phân loại bệnh, phán
đốn sớm tình trạng bệnh, hoặc để cung cấp thông tin phục vụ cho các cơng việc y tế
khác.
Các khó khăn gặp phải khi phát hiện và phân loại nhịp thở. Có rất nhiều
khó khăn gặp phải khi phát hiện và phân loại nhịp thở nhưng có ba vấn đề lớn học
viên xin nêu ra. Thứ nhất, vấn đề về dữ liệu nhịp thở. Do dữ liệu nhịp thở là dữ liệu
y tế nên thường chứa các thông tin nhạy cảm về tiền sử bệnh lý hay q trình điều trị.
Chính vì vậy việc quản lý và chia sẻ những thông tin này phải có những qui định
nghiêm ngặt để tránh bị đánh cắp thơng tin với mục đích xấu có thể ảnh hưởng nghiêm
trọng tới bệnh nhân. Thứ 2 là vấn đề xử lý dữ liệu lớn trong thời gian liên tục. Dữ
liệu âm thanh nhịp thở là một dữ liệu có kích thước khá lớn, mang nhiều thơng tin
nhịp thở cũng như thơng tin nhiễu, dẫn đến gây ra khó khăn trong quá trình xử lý dữ
liệu liên tục, giảm độ chính xác. Và cuối cùng, thứ 3 là vấn đề về thiết bị phát hiện
và phân loại nhịp thở. Các thiết bị IoT có thể được sử dụng để theo dõi sức khỏe
thường có giá thành cao và kích thước gây bị vướng víu, khơng được tự nhiên. Như


e


4

vậy, vấn đề cần phải giải quyết là tìm ra một phương pháp xử lý dữ liệu có độ chính
xác cao với chi phí thiết bị ở mức cho phép và kích thước thiết bị phù hợp.
Mục tiêu của đề tài, phương pháp được sử dụng và đóng góp của đề tài.
Mục tiêu chính của luận văn là tìm hiểu về phương pháp học sâu đa nhiệm và thử
nghiệm phương pháp này trong việc xây dựng một ứng dụng phát hiện và phân loại
nhịp thở. Trong khuôn khổ nội dung, luận văn sẽ trình bày về một số phương pháp
áp dụng học sâu đa nhiệm trên dữ liệu y tế, dữ liệu nhịp thở, các khó khăn hạn chế
của các phương pháp này. Trình bày nhiều hơn về một phương pháp mới có tên là
học sâu đa nhiệm (multi-task deep learning) trong khai thác thông tin dữ liệu nhịp
thở. Mà cụ thể là mơ hình Bi-LSTM (Bidirectional Long Short Time Memory). Luận
văn sử dụng dữ liệu nhịp thở thu thập được từ thiết bị Rapsberry Pi có gắn micro âm
thanh. Sau đó sử dụng phương pháp Bi-LSTM để vừa phát hiện vừa nhận dạng ra âm
thanh nhịp thở. Cuối cùng là xây dựng một ứng dụng để phát hiện nhịp thở của một
đối tượng được gắn thiết bị thu âm thanh.
Trên đây, học viên đã khái quát tầm quan trọng cũng như ý nghĩa khoa học
của việc phân tích nhịp thở. Nhận thức được điều này, luận văn đã chọn đề tài là:
“Nghiên cứu một số phương pháp phát hiện và phân loại nhịp thở sử dụng mạng
Học sâu đa nhiệm”.
Nội dung luận văn sẽ bao gồm phần mở đầu, phần kết luận và các chương nội
dung được tổ chức như sau:
-

Chương 1: Tổng quan. Nội dung chính của chương này là trình bày bài
tốn theo dõi nhịp thở, vì sao lại cần phải theo dõi nhịp thở, một số khái

niệm cơ bản, trình bày ngắn gọn một số nghiên cứu liên quan và cuối cùng
là mô tả ngắn phương pháp và đóng góp của luận văn.

-

Chương 2: Kỹ thuật Học sâu cho bài toán theo dõi nhịp thở. Chương này
trình bày nội dung chính của luận văn, phương pháp nghiên cứu, cách thức
đã được tiến hành để theo dõi nhịp thở; hệ thống thử nghiệm đếm nhịp thở.

e


5

-

Chương 3: Thực nghiệm và đánh giá kết quả. Nội dung chương 3 trình bày
về thu thập dữ liệu, phương pháp tiến hành thực nghiệm và đánh giá, xây
dựng ứng dụng theo dõi nhịp thở, kết luận và hướng phát triển của đề tài.

e


6

Chương 1. TỔNG QUAN
Trong chương này, học viên giới thiệu tổng quan về bài toán phát hiện và phân
loại nhịp thở, lý giải về tầm quan trọng của việc phát hiện và phân loại nhịp thở,
những vấn đề gặp phải khi phân tích dữ liệu nhịp thở, mục tiêu của đề tài, giới thiệu
một số công nghệ để giải quyết bài tốn phân tích dữ liệu nhịp thở. Đồng thời, học

viên cũng đưa ra một số nghiên cứu liên quan đến bài toán được đề cập trong chương
này.

1.1 Các dạng hô hấp nhịp thở dựa trên bệnh lý của con người
1.1.1 Giới thiệu
Theo một thống kê của WHO [1], các bệnh hơ hấp mãn tính (chronic

respiration diseases) đang là một trong những nguyên nhân chính gây ra tử vong tại
hầu hết các quốc gia trên thế giới. Trong đó nhóm bệnh phổ biến nhất là dịch bệnh
Covid-19 với hơn 5 triệu ca tử vong trên tổng số ca nhiễm 253 triệu ca tính đến năm
2021, ngồi ra cịn một số nhóm bệnh như: bệnh phổi tắc nghẽn mãn tính (chronic
obstructive pulmonary diseases - COPD), bệnh hen suyễn (asthma), và viêm phổi
(pneumonitis) [2]. Cũng theo thống kê của WHO [2] số người bị bệnh phổi tắc nghẽn
mãn tính chiếm tới 6.4% (15,7 triệu người) tại Mỹ và tỉ lệ người mắc bệnh COPD
trên thế giới là hơn 7%. Trong khi đó bệnh hen phế quản trên thế giới khoảng 300
triệu người (chiếm gần 5% dân số) và có thể tăng lên đến 400 triệu người vào năm
2025. Việt nam (và các nước Đông Nam Á) cũng nằm trong các quốc gia có tỉ lệ mắc
bệnh hen phế quản cao. Trong đó, trẻ em Việt nam ở độ tuổi 12-13 có tỉ lệ mắc bệnh
hen phế quản là 29,1% và đây là tỉ lệ cao nhất châu Á [2]. Cũng theo thống kê [2] thì
bệnh viêm phổi là bệnh thường gặp nhất ở trẻ em chiếm tới 50% toàn thể các bệnh ở
trẻ em dưới 5 tuổi và chiếm tới 30% ở trẻ em ở độ tuổi 5-12. Mỗi năm tỉ lệ nhiễm
khuẩn hơ hấp cấp tính lên tới 75% (tương đương 4,5 triệu trẻ em). Cũng theo WHO
[2] thì hàng năm Việt nam có tới 2.9 triệu trẻ em bị viêm phổi và 4.500 trẻ em dưới
5 tuổi bị chết vì viêm phổi. Chi phí theo dõi và điều trị bệnh thường khá tốn kém.

e


7


Trong khi do điều kiện về địa lý nên tại nhiều vùng, miền ở Việt nam điều kiện theo
dõi và điều trị bệnh cịn hạn chế trong khi ngay chính tại các thành phố lớn thì các
bệnh viện thường xuyên trong tình trạng quá tải. Số lượng người tử vong vì bệnh hen
phế quản hàng năm tại Việt nam vào khoảng 3000 ca mà một trong những nguyên
nhân chính là không được theo dõi và điều trị kịp thời.
Trên thế giới hiện đã có một số nghiên cứu về ứng dụng nền tảng IoT để theo
dõi các triệu chứng hô hấp, cụ thể như sau:
− Châu Âu: tại một số trường đại học đã nghiên cứu ứng dụng thiết bị cảm biến âm
thanh để phát hiện và theo dõi triệu chứng ho của người bệnh đang mắc bệnh hô hấp.
Chẳng hạn như nhóm nghiên cứu tại đại học Leicester, vương quốc Anh [3] chế tạo
cảm biến âm thanh đeo trên vùng ngực để thu thập những âm thanh phát ra từ miệng.
Sau đó, dữ liệu cảm biến âm thanh được gán nhãn ho và khơng ho, và được phân tích
để trích chọn ra các đặc trưng như MFCC, energy v.v.. để huấn luyện mơ hình học
máy Markov ẩn.
− Hoa Kỳ: Các nhóm nghiên cứu tại Hoa kỳ rất tích cực và thường dẫn đầu trong lĩnh
vực phát hiện và phân loại âm thanh hơ hấp. Cụ thể là nhóm nghiên cứu tại trường
đại học Washington do giáo sư Shwetak Patel chủ trì và các cộng sự [4] đã nghiên
cứu đề xuất sử dụng cảm biến âm thanh trong điện thoại di động để thu thập và phân
tích tín hiệu âm thanh. Sau đó các đặc trưng âm thanh như miền tần số, thống kê được
trích chọn từ các cửa sổ hanning (xảy ra trong thời gian ngắn khoảng 20-50ms và dữ
liệu khá ổn định) để huấn luyện mơ hình rừng ngẫu nhiên (random forests) và cho kết
quả phát hiện ho rất khả quan. Một nghiên cứu khác đến từ đại học Carnegie Mellon
(CMU) cộng tác với các nhà khoa học của công ty Samsung đề xuất sử dụng mạng
cảm biến khơng dây (wireless sensor network) [5] thay vì dùng cảm biến âm thanh
đeo trên người như các nghiên cứu khác. Nghiên cứu này đã sử dụng cả những thông
tin về ngữ cảnh như vị trí người dùng để nâng cao độ chính xác phát hiện ho. Mặc dù
nghiên cứu này cho kết quả rất tốt nhưng nếu đem sử dụng trên thực tế thì chi phí khá
cao vì phải triển khai nhiều mạng cảm biến.

e



8

− Trung Quốc gần đây đã có một số nhóm nghiên cứu về theo dõi triệu chứng bệnh hô
hấp sử dụng thiết bị IoT. Điển hình là nhóm nghiên cứu tại phịng thí nghiệm trọng
điểm về điện tử và cơ khí chính xác tại đại học Thanh Hoa (Tsinghua) Bắc kinh [6]
đã nghiên cứu và chế tạo mạng không dây với các nút là các cảm biến có kích thước
nhỏ (microsensors) có khả năng đo và theo dõi một số triệu chứng của bệnh hơ hấp
luồng khí thở, lượng ơ xy trong máu và cơ thể vận động. Các thuật tốn về xử lý tín
hiệu được thực hiện trên máy tính hoặc điện thoại thơng minh cho phép các triệu
chứng được theo dõi từ xa. Kết quả nghiên cứu có nhiều hứa hẹn triển khai trong thực
tế nhưng chưa có thơng tin về chi phí.
− Nhật Bản đã và đang tích cực nghiên cứu ứng dụng thiết bị cảm biến IoT theo dõi
các bệnh hơ hấp. Chẳng hạn, nhóm nghiên cứu tại khoa Công nghệ y sinh, đại học
Tohoku phát triển một hệ thống theo dõi bệnh hô hấp kết hợp với các phương pháp
hỗ trợ điều trị (therapeutic aids) tại nhà (home care) [7]. Nghiên cứu này yêu cầu
người bệnh đeo một mặt nạ có gắn cặp nhiệt kế (thermocouple) lên vùng gần mũi và
ước lượng nhịp hô hấp (thở ra và hít vào) bằng cách đếm số lần thay đổi nhiệt độ thu
được từ nhiệt kế. Ngoài ra chiếc mặt nạ này cũng được gắn thêm cảm biến âm thanh
để phát hiện ho từ người bệnh. Hạn chế chính của phương pháp [7] là người bệnh
thường khơng thích đeo mặt nạ ở nhà nên khó đưa kết quả này ứng dụng trong thực
tế. Một nghiên cứu khác ở Nhật bản [8] được thực hiện bởi nhóm nghiên cứu tại Học
viện nghiên cứu Cơng nghệ Toyota đã tích hợp cảm biến âm thanh vào vùng ngực
của chiếc áo T-shirt để đo nhịp thở. Mặc dù kết quả còn một số hạn chế như độ chính
xác phát hiện nhịp thở chưa cao nhưng đây là một nghiên cứu có khá nhiều triển vọng
trong tương lai.
− Việt Nam Tình hình nghiên cứu ứng dụng công nghệ thông tin trong lĩnh vực y tế
nói chung và trong phát hiện và phân loại các triệu chứng của bệnh hơ hấp cịn đang
ở mức sơ khai. Nhóm nghiên cứ về điện tử y sinh của đại học Bách Khoa Hà Nội do

GS Nguyễn Đức Thuận và cộng sự đã đạt được một số kết quả đáng kể như nghiên
cứu phát triển hệ thống truyền nhận tín hiệu điện tim dựa trên ứng dụng cơng nghệ

e


9

wifi [9]. Nghiên cứu có ý nghĩa trong hỗ trợ chẩn đoán tim mạch từ xa; hoặc nghiên
cứu về hiệu ứng của hơ hấp trong phân tích HRV sử dụng lý thuyết hỗn độn. Nhóm
nghiên cứu do PGS.TS. Phạm Văn Cường tại Học viện Cơng nghệ Bưu chính Viễn
thơng cơng bố cơng trình [10] về sử dụng cảm biến âm thanh đeo vào vùng ngực và
kết nối với điện thoại thông minh cho phép phát hiện và theo dõi nhịp thở trong thời
gian thực. Đồng thời ứng dụng còn cho phép theo dõi nhật ký của những lần ho rời
rạc hoặc theo cơn (whoops).
Âm thanh nhịp thở (Breath Sound) bao gồm các chỉ số về sức khỏe và bệnh
hô hấp. chính vì vậy việc phân tích dữ liệu nhịp thở trở thành một trong những vấn
đề quan trọng trong việc phát hiện bệnh lý và chuẩn đoán cũng như các phương pháp
điều trị [11]. Việc trích xuất đặc trưng các âm thanh nhịp thở thành các dạng chuỗi
dữ liệu để máy tính có thể hiểu được, có tính liên tục và q trình phân tích cần phải
nhanh. Các mơ hình học sâu thường sẽ phải trích xuất đặc trưng từ các mẫu dữ liệu
nhịp thở để huấn luyện. Khi áp dụng các mơ hình học sâu thì sẽ có một ưu điểm chính
là các mơ hình học sâu có thể tự trích xuất được các đặc trưng phù hợp cho q trình
dự đốn. Và thêm một ưu điểm nữa chính là các mơ hình có thể trích xuất đặc trưng
dựa trên thời gian thực, liên kết các thông tin theo thời gian của chuỗi dữ liệu và từ
đó quyết định phân loại nhãn đối với đoạn dữ liệu nhịp thở đó.

1.1.2 Bài tốn phát hiện nhịp thở dựa vào dữ liệu âm thanh
Bài toán 1: Cho đầu vào là một tập dữ liệu âm thanh được thu từ micro âm
thanh. Nhiệm vụ của bài toán là phát hiện xem trong dữ liệu có phải là nhịp thở hay

khơng.

Hình 1-1: Một đoạn dữ liệu nhịp thở chứa một nhịp hít vào và một nhịp thở ra

e


10

Bài toán 2: Cho đầu vào là một bộ dữ liệu âm thanh được thu từ micro âm
thanh. Bộ dữ liệu này gồm các loại âm thanh nhịp thở (thở thường, thở sâu, thở mạnh,
…). Nhiệm vụ của bài toán là phân loại trong bộ dữ liệu này có những đoạn âm thanh
nào là thở thường, đoạn âm thanh nào là thở sâu, đoạn âm thanh nào là thở mạnh, …

Hình 1-2: Một đoạn dữ liệu thở liên tục

Bài tốn 3: Cho đầu là một bộ dữ liệu âm thanh được thu từ micro âm thanh.
Bộ dữ liệu này bao gồm các loại âm thanh nhịp thở (thờ thường, thở sâu, thở mạnh,
…). Nhiệm vụ của bài toán là phân loại đoạn nhịp thở nào là của người mắc Covid19, đoạn dữ liệu nào không phải là nhịp thở của người khơng mặc Covid-19.
Từ hai bài tốn trên, chúng ta nhận thấy bài toán 1 là bài toán ở mức cơ sở. Từ
việc phát hiện có phải nhịp thở hay khơng sẽ giúp xây dựng một mơ hình nhận dạng
và từ đó làm tiền đề để xây dựng mơ hình phân loại nhịp thở cho bài toán thứ 2 và
bài toán thứ 3 từ dữ liệu âm thanh nhịp thở.
Trong toàn bộ nội dung của luận văn, học viên sẽ trình bày các phương pháp
tiếp cận để đồng thời cùng giải quyết hai bài toán: bài toán 1 và bài tốn 2. Cịn bài
tốn 3, học viên sẽ tiếp tục nghiên cứu trong những báo cáo sau này.

1.2 Các nghiên cứu liên quan
Trong nghiên cứu khoa học, việc sử dụng cơng nghệ trí tuệ nhân tạo vào phân
tích và xử lý dữ liệu y tế rất được trú trọng. Những năm gần đây, nhiều nhà nghiên

cứu [12][13][14][15][16] đã công bố các cơng trình liên quan đến phân tích dữ liệu
nhịp thở. Các phương pháp sử dụng để giải quyết bài tốn nhịp thở rất phong phú và
đa dạng. Nhóm nghiên cứu [12] đã giới thiệu một số phương pháp trích chọn đặc
trưng để phát hiện tiếng Crackle, nghiên cứu này đã đạt được độ chính xác trên 80%.

e


11

Trong nghiên cứu [13] đã trình bày về một số thiết bị điện tử để phát hiện nhịp thở.
Trong bài báo này [14], họ đã phát triển mơ hình CNN-RNN kết hợp tạo ra kết quả
hiện đại cho quá trình hơ hấp ICBHI’17 tập dữ liệu âm thanh, độ chính xác 66,31%
trên 80–20 tách ra để phân loại chu trình hơ hấp bốn lớp. Nghiên cứu [15] cho thấy
mơ hình CNN-RNN kết hợp được phát triển sẽ phân loại tập dữ liệu âm thanh hơ hấp
ICBHI’17 và mơ hình phân loại có điểm độ chính xác là 98%, độ nhạy là 96% và độ
đặc hiệu là 1. Nhóm nghiên cứu đại học Công nghệ Guangdong đã công bố một
nghiên cứu [16] về cơng cụ chẩn đốn dựa trên tín hiệu âm thanh của tim. Học viên
xin trình bày hai nghiên cứu có liên quan đến phần trình bày của học viên ở chương
2.

1.2.1 Trích chọn đặc trưng để phát hiện tiếng rale nổ dựa trên học máy
a. Tổng quan nghiên cứu
Đề tài “Feature Extraction for Machine Learning Based Crackle Detection in
Lung Sounds from a Health Survey” [12] của nhóm nghiên cứu Morten Grønnesby,
Juan Carlos Aviles Solis, Einar Holsbø, Hasse Melbye, Lars Ailo Bongo.
Ống nghe là thiết bị y tế âm thanh để thính chẩn, hoặc nghe những âm thanh
bên trong của động vật hoặc cơ thể con người. Ống nghe thường có một bộ cộng
hưởng hình đĩa nhỏ đặt trên ngực và hai ống nối với tai nghe, và thường được sử dụng
để nghe âm thanh phổi và tim. Các nhân viên y tế sẽ sử dụng để nghe những âm thanh

bất thường trong phổi trong q trình chăm sóc sức khỏe bệnh nhận, từ đó đưa ra
những chuẩn đốn về tình trạng sức khỏe cũng như bệnh lý của bệnh nhân. Việc
chuẩn chuẩn âm thanh phổi là một kỹ thuật khá cũ nhưng những năm gần đây với sự
phát triển của công nghệ thông tin cả trong phần cứng lẫn phần mềm đã có những
hướng phát triển mới trong việc phân tích dữ liệu âm thanh của phổi. Một giải pháp
thương mại từ thiết bị Eko [17] và ống nghe di động MIT [18] cho phép ghi âm và
nghe lại âm thanh phổi từ ống nghe. Tuy nhiên, giải pháp này không phải là tự động
nhưng vẫn được kỳ vọng có thể tích hợp với các thiết bị thơng minh hiện nay.

e


12

Tiếng rale nổ là những âm thanh ngắt quãng không có dạng âm nhạc, gần gần
giống với những tiếng nổ, các âm thanh bất thường này xuất hiện là có liên quan đến
các bệnh về phổi và tim như bệnh tắc nghẽn phổi mãn tính (COPD), bệnh suy tim,
bệnh bụi phổi và viêm phổi. Việc phát hiện ra các tiếng rale nổ giúp cho các bác sỹ
có thể chuẩn đốn được bệnh sớm hơn [19] [20]. Căn bệnh COPD có đến hơn ba triệu
người chết tính đến năm 2019, chiếm tới 6% tổng số người chết trong năm 2012 [21].
Do vậy, việc phán đoán và phát hiện ra bệnh càng sớm sẽ càng tốt cho việc điều trị
để bảo vệ sức khỏe của người bệnh.
Việc phát hiện tiếng rale nổ trong âm thanh phổi là một vấn đề hết sức khó bởi
hai lý do chính. Thứ nhất, tín hiệu âm thanh rale nổ khá ngắn chỉ chừng 5-40ms. Thứ
hai, âm thanh này cực kỳ dễ bị nhầm lẫn với âm thanh khi va chạm ống nghe vào
quần hay tóc. Mặc dù vậy nghiên cứu của nhóm tác giả vẫn mang lại những ánh sáng
hi vọng khả quan cho việc phát hiện ra âm thanh rale nổ trong phổi.
Nhóm tác giả đã trình bày một phương pháp tiếp cận để phát hiện ra tiếng rale
nổ trong âm thanh phổi dựa trên cơng nghệ học máy kết hợp trích xuất đặc trưng.
Phương pháp này được huấn luyện và đánh giá bằng các tệp âm thanh tiếng rale nổ

được chuyên gia hô hấp hàng đầu đánh giá và phân loại. Các tệp âm thanh tiếng rale
nổ được tiền xử lý bằng cách trích xuất đặc trưng từ các cửa sổ âm thanh. Sau khi có
các đặc trưng, nhóm tác giả áp dụng một số phương pháp học máy để đánh giá.
b. Phương pháp áp dụng
Về cơ bản thì phương pháp nhóm nghiên cứu sử dụng sẽ được trình bày như
trong hình 1-3: Chương trình sẽ nhận các file âm thanh hơ hấp được ghi âm lại thơng
qua ống nghe có micro và sau đó gửi lên máy chủ thơng qua một ứng dụng web. Sau
khi nhận được file âm thanh thì chương trình ứng dụng sẽ xử lý và phát hiện tự động
thông qua mơ hình học máy để phân loại các loại âm thanh hơ hấp. Sau đó, kết quả
sẽ được trình bày trên ứng dụng web và có thể được xuất ra file excel các kết quả
phân loại.

e


13

Hình 1-3: Quá trình training (trên - dưới) và quá trình phân loại (trái - phải)

Nhóm nghiên cứu sử dụng mơ hình học máy để phân loại hai loại âm thanh:
loại âm thanh hơ hấp bình thường (non-crackle) và loại âm thanh hơ hấp bất thường
(crackle). Mơ hình học máy được xây dựng để có thể xử lý dữ liệu lớn về âm thanh
hô hấp mà không cần đến sự trợ giúp của các chuyên gia về bệnh lý hô hấp. Để có
thể xây dựng được mơ hình học máy thì chúng ta cần tạo ra một bộ dữ liệu gồm hai
loại âm thanh và tiến hành đào tạo mô hình học máy để phân loại nhãn crackle và
non-crackle. Mơ hình học máy thì khơng thể tự trích chọn đặc trưng mà chúng ta cần
tách đặc trưng trước khi đưa vào mơ hình học máy.
c. Thu thập dữ liệu
Bộ dữ liệu nhóm nghiên cứu sử dụng là bộ dữ liệu từ những người trưởng
thành từ nghiên cứu Tromsø 7. Tromsø 7 là nghiên cứu mang nội dung liên quan đến

dịch tễ học cũng như các bệnh mãn tính ảnh hưởng tới sức khỏe con người. Nhóm
nghiên cứu đã tạo một thiết bị để thu thập là một ống nghe có gắn các micro electret
(MKE 2-eW Gold) và đặt cách ngực 10cm để thu thập dữ liệu. Micro này cũng được
điều chỉnh độ nhạy là 12dB để giảm thiểu các tác động đến từ các tiếng ồn, các âm
thanh giống với crackle. Đối với 300 người đầu tiên, nhóm tác giả sử dụng ống nghe
tim mạch (Littman Cardiology II, 3M corporation) và phần còn lại của các ứng viên

e


14

tham gia, nhóm tác giả sử dụng một thiết bị khác (Littman Classic II SE, 3M
corporation). Nguyên nhân của sự thay đổi này là thiết bị sau đem lại một hiệu suất
tốt hơn về việc giảm tiếng ồn. Các tệp âm thanh được ghi ở định dạng file *.wav và
được lấy mẫu ở tốc độ 44100 Hz. Các bệnh nhân được yêu cầu hít vào bằng miệng
và thở ra sâu hơn bình thường. Có 6 điểm đặt ống nghe trên ngực của bệnh nhân, mỗi
điểm đặt ống nghe sẽ được ghi nhận âm thanh trong khoảng thời gian 15 giây. Tổng
cộng đã có 36210 tệp âm thanh thu được từ 6035 bệnh nhân. Trong đó có 45.2% là
nam giới.
d. Chuyên gia tham gia phân loại nhãn dữ liệu
Khi bắt đầu tạo cơ sở dữ liệu chứa âm thanh phổi. Các bản ghi âm được phân
loại theo hai cấp độ. Đầu tiên, hai chuyên gia tham gia phân loại sẽ quan sát độc lập
từng bản ghi bằng phần mềm Adobe Audition 5.0 để nghe âm thanh phổi và kiểm tra
trực quan bằng đồ thị. Các bản ghi âm sẽ được phân loại theo các tiêu chí sau đây:
-

Âm thanh thở bình thường

-


Hít vào khị khè

-

Thở ra khị khè

-

Rối loạn hơ hấp

-

Âm thanh thở chứa crackle

-

Âm thanh bất thường khác

-

Không thể phân loại

Nếu có bất kỳ sự tương đồng nào ở bước đầu tiên giữa hai chun gia phân
tích độc lập thì các bản ghi âm sẽ được đưa vào thảo luận trong một cuộc họp giữa
hai chuyên gia nói trên cùng một chuyên gia thứ ba về âm thanh hô hấp. Sau khi thảo
luận, quyết định cuối cùng được đưa ra nếu đạt được sự thống nhất của cả ba người.
Tập dữ liệu này chứa nhiều nhãn, nhóm tác giả thu được 8784 tệp, trong đó chỉ có
333 tệp chứa crackle (chiếm 3.8%).


e


×