Tải bản đầy đủ (.pdf) (100 trang)

Phân loại tiếng động ứng dụng trong y tế

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.79 MB, 100 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-------------------------------Phạm Hải Bình

PHÂN LOẠI TIẾNG ĐỘNG
ỨNG DỤNG TRONG Y TẾ
Chuyên ngành: Kỹ thuật truyền thông

LUẬN VĂN THẠC SĨ KHOA HỌC
-------------------------------Kỹ thuật truyền thông

NGƢỜI HƢỚNG DẪN KHOA HỌC
1. TS. Trần Đỗ Đạt

Hà Nội – Năm 2013


LỜI CAM ĐOAN
Tôi xin cam đoan các thông tin đƣợc cung cấp trong luận văn này phản ánh trung
thực về phƣơng pháp, quá trình nghiên cứu và các kết quả mà tôi thực hiện với
luận văn “Phân loại tiếng động ứng dụng trong y tế”

PHẠM HẢI BÌNH

i


LỜI CẢM ƠN
Tôi xin đƣợc chân thành cảm cảm ơn tiến sĩ Trần Đỗ Đạt, ngƣời đã trực tiếp hƣớng
dẫn tôi thực hiện luận văn này. Sự định hƣớng của thầy trong những giai đoạn đầu
tiên đã giúp tôi có thể tìm đƣợc hƣớng đi phù hợp với mình. Đồng thời, ý kiến gợi


mở của thầy cũng nhƣ nguồn tài liệu, các nguồn tham khảo mà thầy cung cấp đã
giúp tôi vƣợt qua đƣợc những trở ngại trong quá trình nghiên cứu để có thể hoàn
thiện luận văn.
Tôi xin đƣợc bày tỏ sự cảm ơn của mình với tiến sĩ Nguyễn Công Phƣơng, ngƣời
đã hỗ trợ tôi bởi những kinh nghiệm quý giá, tài nguyên quan trọng về mã nguồn
chƣơng trình và cơ sở dữ liệu phục vụ cho quá trình nghiên cứu của mình.
Tôi cũng xin đƣợc gửi lời cảm ơn đến Viện nghiên cứu quốc tế MICA cùng tập thể
các anh, chị làm việc tại đây. Môi trƣờng làm việc đầy sáng tạo, nghiêm túc nhƣng
cũng không kém phần thân thiện đã giúp tôi tiếp xúc, làm quen tốt hơn với các vấn
đề khoa học có giá trị cao đối với thực tiễn trong nƣớc cũng nhƣ quốc tế.
Cuối cùng, tôi xin phép đƣợc gửi lời cảm ơn tới gia đình, ngƣời thân của tôi đã
giúp đỡ, tạo điều kiện và động viên tôi trong suốt thời gian làm luận văn này.

ii


MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... i
LỜI CẢM ƠN ........................................................................................................... ii
MỤC LỤC................................................................................................................iii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ......................................... vii
DANH MỤC CÁC BẢNG ....................................................................................viii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .................................................................. ix
MỞ ĐẦU................................................................................................................... 1
CHƢƠNG 1

TỔNG QUAN ................................................................................ 4

1.1


Mục đích nghiên cứu luận văn .................................................................... 4

1.2

Các nghiên cứu về phân loại âm thanh ........................................................ 4

1.2.1

Hệ thống phân loại âm thanh ứng dụng trong y tế ............................... 5

1.2.2

Các hệ thống phát hiện sự kiên âm bất thƣờng .................................... 8

1.2.3

Hệ thống phân biệt loại nhạc [34] ...................................................... 13

1.2.4

Hệ thống phân loại âm thanh [4] ........................................................ 14

1.3

Xác định mục tiêu và phƣơng hƣớng nghiên cứu phân loại sự kiện âm ... 16

1.3.1

Yêu cầu chức năng.............................................................................. 16


1.3.2

Yêu cầu kỹ thuật ................................................................................. 17

1.3.3

Mô hình phƣơng pháp nghiên cứu phân loại sự kiện âm ................... 18

1.3.4

Hệ thống phân loại sự kiện âm ........................................................... 19

1.4

Kết luận chƣơng ........................................................................................ 21

CHƢƠNG 2
2.1

XÂY DỰNG CSDL ÂM THANH .............................................. 22

Định nghĩa bộ cơ sở dữ liệu ...................................................................... 22
iii


2.1.1

Cơ sở dữ liệu tiếng nói........................................................................ 22

2.1.2


Cơ sở dữ liệu tiếng động..................................................................... 22

2.2

Thực hiện xây dựng bộ CSDL tiếng nói / tiếng động ............................... 27

2.2.1

Các yếu tố ảnh hƣởng tới quá trình thu âm ........................................ 27

2.2.2

Chuẩn bị cơ sở vật chất, hạ tầng phục vụ thu âm ............................... 27

2.2.3

Kế hoạch thực hiện thu CSDL âm thanh ............................................ 28

2.2.4

Quá trình thu âm ................................................................................. 29

2.2.5

Tiền xử lý dữ liệu................................................................................ 30

2.3

Kết quả thu thập CSDL ............................................................................. 30


2.4

Kết luận chƣơng ........................................................................................ 31

CHƢƠNG 3

PHÂN TÍCH CÁC ĐẶC TRƢNG ÂM HỌC.............................. 32

3.1

Phƣơng pháp trích chọn đặc trƣng ............................................................ 32

3.2

Tính toán các đặc trƣng ............................................................................. 33

3.2.1

ZCR..................................................................................................... 33

3.2.2

LSF ..................................................................................................... 34

3.2.3

PLP ..................................................................................................... 35

3.2.4


Trung bình năng lƣợng ....................................................................... 35

3.2.5

Spectral Centroid ................................................................................ 35

3.2.6

Tần số đỉnh phổ .................................................................................. 36

3.2.7

Band width .......................................................................................... 37

3.2.8

Roll Off ............................................................................................... 37

3.2.9

MFCC ................................................................................................. 37

3.2.10

BER ................................................................................................. 38

3.2.11

Pitch ................................................................................................. 39


3.3

Tối thiểu hóa số lƣợng đặc trƣng............................................................... 39
iv


3.3.1

Sơ lƣợc về phƣơng pháp PCA ............................................................ 39

3.3.2

Phân tích đánh giá ............................................................................... 40

3.3.3

Xáo trộn + phân tách CSDL ............................................................... 41

3.4

Kết luận chƣơng ........................................................................................ 42

CHƢƠNG 4

MÔ HÌNH PHÂN LOẠI.............................................................. 43

4.1

Mô hình cây quyết định ............................................................................. 43


4.2

Mô hình mạng Nơ-ron ............................................................................... 45

4.3

Mô hình KNN ............................................................................................ 48

4.4

Mô hình SVM ............................................................................................ 49

4.5

Mô hình Markov ẩn ................................................................................... 50

4.6

Thử nghiệm đánh giá ................................................................................. 51

4.7

Kết luận chƣơng ........................................................................................ 54

CHƢƠNG 5

XÂY DỰNG HỆ THỐNG PHÂN LOẠI ÂM ............................. 55

5.1


Khái quát về hệ thống phân loại âm đƣợc xây dựng ................................. 55

5.2

Khối xử lý thu âm ...................................................................................... 57

5.2.1

Thu thập âm thanh .............................................................................. 57

5.2.2

Quy trình thu âm ................................................................................. 58

5.2.3

Vấn đề xử l thu đa kênh .................................................................... 59

5.3

Khối trích chọn đặc trƣng .......................................................................... 62

5.3.1

Quy trình trích chọn đặc trƣng............................................................ 62

5.3.2

Thiết kế mô đun trích chọn đặc trƣng................................................. 63


5.3.3

Vấn đề quản lý tài nguyên .................................................................. 65

5.4

Khối mô hình phân loại ............................................................................. 67

5.4.1

Chuyển đổi mô hình nghiên cứu sang mô hình thực tế ...................... 67

5.4.2

Xây dựng mô hình phân loại trên C++ ............................................... 69
v


5.5

Khối truyền thông ...................................................................................... 70

5.5.1

Hàng đợi bản tin - Message Queue..................................................... 70

5.5.2

Giải pháp ZeroMQ .............................................................................. 72


5.5.3

Truyền tải kết quả sử dụng ZeroMQ .................................................. 74

5.6

Đánh giá kết quả ........................................................................................ 76

KẾT LUẬN ............................................................................................................. 77
Các vấn đề làm đƣợc ........................................................................................... 77
Vấn đề nâng cao chất lƣợng ................................................................................ 77
Vấn đề khả năng mở rộng ................................................................................... 78
Lời kết ................................................................................................................. 79
TÀI LIỆU THAM KHẢO....................................................................................... 80
PHỤ LỤC ................................................................................................................ 84
Phƣơng pháp xây dựng ứng dụng phân loại âm thanh tƣơng tự ......................... 84
Các tham số cấu hình hệ thống ........................................................................... 88

vi


DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Viết tắt
ANN
API
BER
BIC
CART
CSDL

DCT
DDK
FFT
GFAR
GMDR
GMM
HMM
ID3
KNN
LPC
LSF
LSP
MFCC
MICA

PCA
PLP
RAM
SC
SVM
ZCR

Thuật ngữ tiếng Anh
Artificial Neural Network
Application Programming Interface
Band Energy Ratio
Bayesian Information Criterion
Classification And Regression Tree
Database
Discreet Cosine Transform

Driver Development Kit
Fast Fourier Transform
Global False Alarm Rate
Global Missed Detection Rate
Gaussian Markov Model
Hidden Markov Model
Iterative Dichotomiser
K Nearest Neighbour
Linear Predictive Coding
Line Spectral Frequencies
Line Spectral Pairs
Mel Frequency Cepstral Coefficients
International Research Institute
Multimedia, Information,
Communication and Application
Principal Component Analysis
Perceptual Linear Prediction
Random Access Memory
Spectral Centroid
Support Vector Machine
Zero Crossing Rate

vii

Thuật ngữ tiếng Việt
Mạng Nơ-ron nhân tạo
Giao diện lập trình ứng dụng
Tỉ lệ năng lƣợng dải
Tiêu chí thông tin Bayes
Cây phân loại và hồi quy

Cơ sở dữ liệu
Biến đổi cô-sin rời rạc
Gói phát triển trình điều khiển thiết bị
Biến đổi Fourier nhanh
Tỉ lệ báo động nhầm toàn hệ thống
Tỉ lệ dò nhầm toàn hệ thống
Mô hình Markov ẩn hợp Gauss
Mô hình Markov ẩn
Giải thuật quy nạp cây ID3
K láng giềng gần nhất
Mã hóa dự báo tuyến tính
Tần số phổ tuyến tính
Cặp phổ tuyến tính
Hệ số phổ thang tần số Mel
Viện nghiên cứu quốc tế về đa
phƣơng tiên, thông tin, truyền thông
và ứng dụng
Phân tích thành phần chính
Dự báo tuyến tính cảm thụ
Bộ nhớ truy cập ngẫu nhiên
Trọng tâm phổ
Mô hình máy hỗ trợ
Tần số cắt 'không'


DANH MỤC CÁC BẢNG
Bảng 1 Cơ sở dữ liệu dùng cho hệ thống giám sát hoạt động vệ sinh ................................. 5
Bảng 2 Kết quả phát hiện sự kiện của hệ thống giám sát hoạt động vệ sinh ....................... 6
Bảng 3 Cơ sở dữ liệu của hệ thống định vị và phân loại sự kiện âm ................................... 6
Bảng 4 Tỉ lệ báo động sai và dò nhầm của hệ thống định vị, phân loại sự kiện .................. 8

Bảng 5 Cơ sở dữ liệu tiếng súng nổ ..................................................................................... 9
Bảng 6 Tỉ lệ dò nhầm và báo động sai trong nghiên cứu của Cheung-Fat CHAN ............ 12
Bảng 7 Kết quả phân loại nhạc .......................................................................................... 14
Bảng 8 Số các sự kiện đƣợc trích ra theo từng môi trƣờng ............................................... 14
Bảng 9 Danh sách các đối tƣợng cần thu âm ..................................................................... 24
Bảng 10 Danh sách các sự kiện cần thu âm ....................................................................... 26
Bảng 11 Kết quả chuẩn bị CSDL tiếng nói........................................................................ 31
Bảng 12 Kết quả phân tích đặc trƣng đƣợc sử dụng trong các mô hình phân loại ............ 41
Bảng 13 Kết quả huấn luyện mạng Nơ-ron với các mô hình phân loại ............................. 53
Bảng 14 Kết quả kiểm tra chất lƣợng 03 bộ phân loại trên dữ liệu kiểm thử .................... 53
Bảng 15 Bảng tổng hợp kết quả phân loại cho lớp Ci........................................................ 53
Bảng 16 Các thông số phản ánh chất lƣợng phân loại cho 3 mô hình ............................... 54
Bảng 17 Giá trị tín hiệu âm thanh thu đƣợc từ kênh 1....................................................... 60
Bảng 18 Giá trị tín hiệu âm thanh thu đƣợc từ kênh 2....................................................... 61
Bảng 19 Danh sách các đặc trƣng cần dùng của từng khối phân loại................................ 62
Bảng 20 Tên và thứ tự các thành phần có trong véc-tơ đặc trƣng ..................................... 86

Bảng 21 Ý nghĩa của các tham số cấu hình hệ thống chạy thực trên C++ ............. 88

viii


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1 Tháp nhu cầu Maslow .............................................................................................. 1
Hình 2 Sơ đồ hệ thống giám sát hoạt động vệ sinh ............................................................. 5
Hình 3 Sơ đồ hệ thống phát hiện sự kiện âm bất thƣờng ..................................................... 7
Hình 4 Các bƣớc xử lý chính của phân hệ phát hiện và phân loại sự kiện .......................... 8
Hình 5 Sơ đồ hệ thống phát hiện tiếng súng ........................................................................ 9
Hình 6 Tỉ lệ lỗi của hệ thống phát hiện tiếng súng theo các điều kiện khác nhau ............. 10
Hình 7 Sơ đồ hệ thống phân loại của Cheung-Fat CHAN ................................................. 11

Hình 8 Thuật toán quyết định phân loại tiếng nói / tiếng động / âm nền........................... 12
Hình 9 Sơ đồ hệ thống phân biệt thể loại nhạc .................................................................. 13
Hình 10 Kết quả phân loại của hệ thống phân biệt các âm thanh thông thƣờng đƣợc dùng
để phân loại tiếng nói / tiếng động ..................................................................................... 15
Hình 11 Mô hình phân loại các sự kiện âm thanh bình thƣờng / bất thƣờng .................... 16
Hình 12 Phƣơng pháp nghiên cứu mô hình phát hiện sự kiện âm bất thƣờng ................... 18
Hình 13 Các thành phần cơ bản trong hệ thống phát hiện sự kiện âm .............................. 19
Hình 14 Sơ đồ hệ thống phát hiện sự kiện âm ................................................................... 20
Hình 15 Kỹ thuật phân loại sử dụng phân tầng ................................................................. 24
Hình 16 Bản vẽ mặt bằng phòng thu ................................................................................. 28
Hình 17 Bản vẽ phối cảnh phòng thu................................................................................ 28
Hình 18 Thuật toán xử lý trích chọn đặc trƣng ở từng thƣ mục ........................................ 33
Hình 19 Phƣơng pháp xác định tần số cắt không (0) ......................................................... 34
Hình 20 Các bƣớc tính toán PLP ....................................................................................... 35
Hình 21 Ví dụ xác định trọng tâm phổ .............................................................................. 36
Hình 22 Ví dụ xác định tần số đỉnh phổ ............................................................................ 36
Hình 23 Ví dụ về cách xác định Roll Off .......................................................................... 37
Hình 24 Ví dụ về bộ lọc Mel ............................................................................................. 38
Hình 25 Phân chia dải tần thành các băng nhỏ để tính BER ............................................. 39
Hình 26 Phƣơng sai tích lũy của các thành phần chính từ phƣơng pháp PCA .................. 40
Hình 27 Xáo trộn bộ dữ liệu trƣớc khi đi vào huấn luyện, kiểm tra .................................. 42
Hình 28 Ví dụ về mô hình cây quyết định ......................................................................... 43
ix


Hình 29 Ví dụ về mô hình mạng Nơ-ron 1 lớp ẩn ............................................................. 46
Hình 30 Một số hàm truyền thƣờng dùng .......................................................................... 47
Hình 31 Ví dụ về phân lớp dùng mô hình K-NN .............................................................. 48
Hình 32 Ví dụ về phân tách lớp sử dụng mô hình SVM ................................................... 49
Hình 33 Ví dụ về chuỗi Markov ........................................................................................ 50

Hình 34 Ví dụ về mô hình Markov ẩn ............................................................................... 50
Hình 35 Sơ đồ khối hệ thống phân loại sự kiện âm thanh đƣợc xây dựng ........................ 55
Hình 36 Tổ chức lớp của các cấu trúc dữ liệu cơ bản ........................................................ 56
Hình 37 Tổ chức các lớp phụ trách điều khiển .................................................................. 57
Hình 38 Các bƣớc chính trong thuật toán thu âm .............................................................. 58
Hình 39 Lƣu đồ thuật toán thu âm ..................................................................................... 59
Hình 40 Tƣơng quan giữa hai tín hiệu thu đƣợc đồng thời từ hai kênh thu âm ................ 61
Hình 41 Các thành phần liên quan tới quá trình trích chọn đặc trƣng ............................... 63
Hình 42 Lƣu đồ sơ bộ thuật toán trích chọn đặc trƣng ...................................................... 64
Hình 43 Kết quả theo dõi tài nguyên do chƣơng trình phân loại chiếm dụng ................... 66
Hình 44 Cấu trúc tệp tin chứa mô hình cây quyết định ..................................................... 67
Hình 45 Mô hình Simulink của mạng Nơ-ron (đơn giản) ................................................. 68
Hình 46 Mô hình Simulink của mạng Nơ-ron (chi tiết) .................................................... 68
Hình 47 Cấu trúc tệp tin chứa mô hình mạng Nơ-ron ....................................................... 69
Hình 48 Số lƣợng kết nối trong ngân hàng tăng khi số lƣợng phân hệ tăng ..................... 71
Hình 49 Middleware giúp giảm thiểu số kết nối cũng nhƣ hỗ trợ kết nối dễ dàng ........... 72
Hình 50 Các cơ chế truyền tin hỗ trợ trong MQ.............................................................. 74
Hình 51 Mô hình truyền tải kết quả phân loại thông qua ZeroMQ ................................... 75
Hình 52 Kết quả phân loại đƣợc truyền tải qua ZeroMQ .................................................. 76
Hình 53 Mô hình mở rộng số lƣợng thread xử lý tại từng khối chức năng ....................... 78
Hình 54 Mô hình xây dựng bộ phân loại tƣơng tự ............................................................ 79
Hình 55 Mô hình tái sử dụng một phần hệ thống hoặc sử dụng kết hợp hệ thống với các
phân hệ ngoài ..................................................................................................................... 79

Hình 56 Các bƣớc thực hiện để xây dựng mô hình phân loại tƣơng tự luận văn ... 84

x


Phân loại tiếng động ứng dụng trong y tế


MỞ ĐẦU
Ngày nay, sự phát triển của kinh tế thế giới đã đem lại một bộ mặt mới cho toàn
cầu so với những thập niên trƣớc đây. Trên cơ sở đó, vai trò của con ngƣời ngày
càng đƣợc đặt làm trọng tâm của sự phát triển: phát triển không chỉ đơn thuần là
gia tăng tích lũy tƣ bản mà phát triển còn phải đảm bảo yếu tố con ngƣời.

Hình 1 Tháp nhu cầu Maslow
Trong vấn đề phát triển con ngƣời, việc quan tâm chăm sóc sức khỏe đóng vai trò
vô cùng quan trong. Theo nhƣ mô hình tháp nhu cầu Maslow, vấn đề sức khỏe
đƣợc xếp vào nấc thang thứ hai, sau những nhu cầu tối thiểu mang tính chất phục
vụ mục tiêu tồn tại cơ bản. Nói theo cách của ngƣời Việt Nam, thì “có sức khỏe là

Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS. Trần Đỗ Đạt
1


Phân loại tiếng động ứng dụng trong y tế
có tất cả”, còn theo quan điểm của tổ chức y tế thế giới (WHO), thì chăm sóc sức
khỏe có mỗi quan hệ chặt chẽ với sự phát triển kinh tế, bởi:
-

Kinh tế có tốt thì ngƣời dân mới có đủ khả năng tiếp cận với các môi trƣờng
tốt cho sức khỏe.
Sức khỏe có tốt thì lực lƣợng lao động mới đóng góp đƣợc nhiều cho nền
kinh tế, giảm thiểu áp lực của việc chăm sóc y tế đối với nền kinh tế.

Đóng góp vào vấn đề sức khỏe, lĩnh vực khoa học công nghệ cũng có những bƣớc
đi nhất định trong sự phát triển của mình để nâng cao chất lƣợng chăm sóc sức
khỏe cộng đồng: Đó là những ứng dụng về quản lý khám chữa bệnh, những ứng

dụng về tự động hóa khâu khám và chuẩn đoán bệnh, ứng dụng hỗ trợ chữa và
điều trị bệnh…
Trong lĩnh vực xử lý âm thanh, có thể kể đến vấn đề phát hiện các sự kiện âm để
hỗ trợ phòng ngừa, điều trị bệnh. Vấn đề này thực sự có ý nghĩa đối với các đối
tƣợng ngƣời cao tuổi, bởi lẽ những ngƣời cao tuổi bình thƣờng có thể tự hoạt động
và tự đáp ứng nhu cầu của họ đƣợc, điều này có thể làm những ngƣời thân giảm
bớt đi sự quan tâm thƣờng trực, nhƣng khi gặp sự cố thì họ lại là những ngƣời dễ
tổn thƣơng nhất do sức khỏe giảm sút.
Ở các nƣớc phƣơng Tây, do đặc điểm của nền văn hóa nên những ngƣời cao tuổi
dƣờng nhƣ cần đến nhiều sự trợ giúp của các cơ quan chức năng hơn, khiến cho
việc tạo áp lực cho chăm sóc y tế với ngƣời cao tuổi là một vấn đề cần phải chú
trọng.
Ở Việt Nam, mặc dù vấn đề chăm sóc sức khỏe ngƣời cao tuổi chƣa thực sự là vấn
đề đƣợc đặt lên hàng đầu, nhƣng trƣớc cơ cấu dân số đang thay đổi thì việc nghiên
cứu phƣơng án chăm sóc sức khỏe cho ngƣời cao tuổi cũng đáng đƣợc quan tâm.
Đó là việc tỉ suất sinh giảm dƣới mức sinh thay thế (theo số liệu của từ cuộc tổng
điều tra dân số và nhà ở năm 2009, tỉ suất sinh của Việt Nam từ năm 2006-2009
liên tục giảm về mức 2.03 con/phụ nữ). Thực trạng trên khiến các nhà chuyên môn
dự đoán rằng dân số Việt Nam sẽ đạt đỉnh vào khoảng năm 2050, đến thời điểm đó,

Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS. Trần Đỗ Đạt
2


Phân loại tiếng động ứng dụng trong y tế
nếu kinh tế chƣa thực sự phát triển cao thì số những ngƣời phụ thuộc sẽ ngày một
tạo sức ép cho lực lƣợc lao động cũng nhƣ nền kinh tế hơn.
Bởi những l do trên, ngƣời làm luận văn đã lựa chọn nghiên cứu vấn đề nghiên
cứu phân loại âm thanh để ứng dụng trong môi trƣờng y tế, vấn đề này là một phần
trong khuôn khổ đề tài “Nghiên cứu, ứng dụng công nghệ thông tin trong xây

dựng hệ thống giám sát, hỗ trợ chăm sóc bệnh nhân tại phòng điều trị thông
minh” của viện MICA, ĐHBK Hà Nội.

Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS. Trần Đỗ Đạt
3


Phân loại tiếng động ứng dụng trong y tế

CHƢƠNG 1

TỔNG QUAN

1.1 Mục đích nghiên cứu luận văn
Mục tiêu của luận văn là nghiên cứu và ứng dụng việc phân loại tiếng động trong
môi trƣờng y tế. Tuy nhiên qua thời gian nghiên cứu, ngƣời thực hiện nhận thấy
các kết quả có thể đƣợc mở rộng hơn nữa nên luận văn dừng lại ở một số yêu cầu
sau:
-

Phân loại tiếng nói / phi tiếng nói (tạm gọi là tiếng động)
Phân loại tiếng nói bình thƣờng / tiếng nói bất thƣờng
Phân loại tiếng động bình thƣờng / tiếng động bất thƣờng

Các sự kiện bất thƣờng sẽ là cơ sở để phát hiện các dấu hiệu của việc suy giảm sức
khỏe / có khả năng gây ảnh hƣởng xấu tới sức khỏe của những ngƣời đƣợc quan
tâm chăm sóc. Để đạt đƣợc mục tiêu trên, luận văn cần có đƣợc các kết quả nghiên
cứu cụ thể nhƣ sau:
-


Nghiên cứu và xây dựng bộ cơ sở dự liệu âm thanh phù hợp với ứng dụng
cần quan tâm.
Nghiên cứu các mô hình phân loại âm thanh và lựa chọn mô hình phù hợp.
Từng bƣớc triển khai mô hình phân loại vào thực tế.

Việc nghiên cứu vấn đề phân loại âm thanh đƣợc thực hiện trên cơ sở kế thừa các
kết quả nghiên cứu của Tiến sĩ Nguyễn Công Phƣơng (ĐHBK Hà Nội), đồng thời
có thêm một số bƣớc mở rộng nhất định để phù hợp với các đối tƣợng cần nghiên
cứu và đƣa vào hoạt động thực tế.

1.2 Các nghiên cứu về phân loại âm thanh
Trƣớc khi đi vào nghiên cứu, giải quyết bài toán phân loại âm thanh đã đặt ra, ta có
thể điểm lại một số các kết quả nghiên cứu trên thế giới để có thể học tập những ý
tƣởng, kinh nghiệm phù hợp.

Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS. Trần Đỗ Đạt
4


Phân loại tiếng động ứng dụng trong y tế
1.2.1 Hệ thống phân loại âm thanh ứng dụng trong y tế

1.2.1.1 Hệ thống giám sát hoạt động vệ sinh sử dụng âm thanh [23]
Mục tiêu: Hệ thống này giúp phân loại các sự kiên âm hay có khi làm vệ sinh cá
nhân nhƣ: tắm, rửa tay, xả nƣớc bồn cầu, tiểu tiện và tiếng thở dài.
Dữ liệu: CSDL đƣợc dùng để nghiên cứu nhƣ bảng sau:
Bảng 1 Cơ sở dữ liệu dùng cho hệ thống giám sát hoạt động vệ sinh
Hoạt động
Tắm
Tiểu tiện

Xả nƣớc bồn cầu
Rửa tay
Thở dài

Số mẫu Thời gian (s)
39
724
12
144
13
68
49
715
19
22

Kiến trúc hệ thống:
Sơ đồ khối của hệ thống đƣợc thể hiện qua hình sau:
Cảm biến
vào ra
Phát hiện
sự kiện âm

Lữu trữ
đoạn âm

Trích chọn đặc
trưng + phân loại

Báo cáo tổng kết

hoạt động vệ sinh

Xuất tự động
báo cáo ngày

Micro

Hình 2 Sơ đồ hệ thống giám sát hoạt động vệ sinh
Các bước xử lý:
-

Ở đây, một cảm biến vào ra đƣợc đặt ở trƣớc cửa phòng vệ sinh để xác định
xem có ngƣời trong phòng hay không.
Nếu phát hiện thấy có ngƣời và có sự kiện âm tại micro, đoạn âm thanh sẽ
đƣợc đƣa vào lƣu trữ.
Âm thanh thu đƣợc phân nhỏ thành nhiều đoạn sử dụng cửa sổ Hamming
25ms, trƣợt 50%.
Từng đoạn âm sau đó đƣợc trích trọn đặc trƣng MFCC với 13 hệ số.
Các đặc trƣng đƣợc rút ra và đƣa vào mô hình HMM với 6 trạng thái.
Từ kết quả phân loại ta sẽ thu đƣợc bảng báo cáo các hoạt động diễn ra
trong phòng vệ sinh.

Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS. Trần Đỗ Đạt
5


Phân loại tiếng động ứng dụng trong y tế
-

Các kết quả này sẽ đƣợc đinh kỳ lƣu lại theo ngày để tiện cho việc theo dõi

thông tin về sau.

Kết quả thực hiện:
Bảng 2 Kết quả phát hiện sự kiện của hệ thống giám sát hoạt động vệ sinh
Loại âm thanh
Tắm
Tiểu tiện
Xả nƣớc bồn cầu
Rửa tay
Đánh răng

Tỉ lệ chính xác (%)
92.57
88.82
91.22
87.89
72.95

1.2.1.2 Hệ thống xác định sự kiện âm bất thƣờng [10]
Mục tiêu: Hệ thống này giúp định vị và phân loại các sự kiện âm để ứng dụng
trong hỗ trợ chăm sóc y tế.
Dữ liệu:
Bảng 3 Cơ sở dữ liệu của hệ thống định vị và phân loại sự kiện âm
Tên lớp
Sập cửa
Kính vỡ
Chuông điện thoại
Bƣớc chân
Kêu la
Bát đĩa

Khóa cửa

Số mẫu
Số khung Tồng thời lƣợng Cảnh báo
523
47 398
379
Không
88
9 338
75

517
59 188
474
Không
13
36 480
292
Không
73
17 509
140

163
7 943
64

200
6 050

49
Không

Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS. Trần Đỗ Đạt
6


Phân loại tiếng động ứng dụng trong y tế

Kiến trúc hệ thống:

Hình 3 Sơ đồ hệ thống phát hiện sự kiện âm bất thường
Ở đây, một dàn các micro và cảm biến xác định vị trí đƣợc dùng để làm đầu vào
của hệ thống. Dữ liệu đƣợc truyền về các máy tính trung tâm thông qua đƣờng
truyền vô tuyến. Tại trung tâm, âm thanh đƣợc thu thập, phân loại và nhận dạng để
phát hiện các sự kiện cần quan tâm.
Các bước xử lý:
-

Đầu tiên, tín hiệu đƣợc phân nhỏ thành các đoạn có kích thƣớc 16ms, sử
dụng cửa sổ trƣợt với độ chồng lấn là 50%.
Hệ thống sử dụng biến đổi wavelet để phát hiện sự kiện âm.
Hệ thống xác định kênh có chất lƣợng tốt nhất thông qua ƣớc tính giá trị
SNR.
Hệ thống tính toán các đặc trƣng MFCC, CR, Roll Off, Centroid.
Sự kiện đƣợc phát hiện tiếp tục đi vào khối phân loại tiếng động bình
thƣờng / bất thƣờng bằng mô hình GMM.

Việc phân loại và nhận dạng tại các máy trạm đƣợc tiến hành nhƣ Hình 4


Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS. Trần Đỗ Đạt
7


Phân loại tiếng động ứng dụng trong y tế

Hình 4 Các bước xử lý chính của phân hệ phát hiện và phân loại sự kiện
Kết quả thực hiện: Ở đây hệ thống gồm hai phân hệ nhỏ, đó là phân hệ phát hiện
sự kiện âm và phân hệ phân loại âm thanh. Kết quả hoạt động của hệ thống đƣợc
đánh giá bở các thông số về Tỉ lệ dò nhầm toàn hệ thống (GMDR) và tỉ lệ báo
động sai toàn hệ thống (GFAR). Kết quả đƣợc cho ở Bảng 4.
Bảng 4 Tỉ lệ báo động sai và dò nhầm của hệ thống định vị, phân loại sự kiện
SNR  [10, 20]dB SNR  [0, 40]dB
3.0%
3.0%
GMDR
12.3%
12.7%
GFAR
1.2.2 Các hệ thống phát hiện sự kiên âm bất thường

1.2.2.1 Hệ thống phát hiện tiếng súng [15]
Mục tiêu: Phát hiện tiếng súng nổ.
Dữ liệu:
-

Dữ liệu về tiếng súng: bao gồm 134 mẫu tiếng súng (296 giây) từ 5 loại
súng khác nhau, viết tắt là P, R, S, G, C.

Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS. Trần Đỗ Đạt

8


Phân loại tiếng động ứng dụng trong y tế
-

Dữ liệu về tiếng động từ môi trƣờng: nhà ga, sân bay, sàn giao dịch, phòng
triển lãm, sân vận động, chợ… trong đó thời lƣợng cho các âm thanh từ
trong chợ là dài nhất với 797 giây. Với mỗi loại tiếng động từ môi trƣờng,
bên nghiên cứu giữ lại 75 giây phục vụ cho việc huấn luyện, dữ liệu còn lại
dùng để kiểm tra.
Bảng 5 Cơ sở dữ liệu tiếng súng nổ
Loại vũ khí
Số đoạn âm
Thời lƣợng (s)

P
5
5

R
15
24

S
79
134

G
8

28

C
27
105

Khung 1

Trích chọn
đặc trưng

Tín hiệu
vào

Khung N

Trích chọn
đặc trưng

GMM

Xác suất là
tiếng súng
Xác suất là
tiếng khác
Xác suất là
tiếng súng
Xác suất là
tiếng khác


Dữ liệu
môi
trường

Dữ liệu
tiếng
súng

Kiến trúc hệ thống:

Xác suất là
tiếng súng
(tổng hợp)
Xác suất là
tiếng khác
(tổng hợp)

Quyết định
phân loại
(0.5s)

Hình 5 Sơ đồ hệ thống phát hiện tiếng súng
Các bước xử lý:
-

Âm thanh vào hệ thống đƣợc chia nhỏ thành các đoạn 20ms, với cửa sổ xếp
chồng 50%.
Từng khung tín hiệu đƣợc trích chọn các đặc trƣng về âm lƣợng, MFCC,
trọng tâm phổ và bề rộng dải phổ.
Giảm bớt số các phần từ của đặc trƣng bằng phƣơng pháp PCA, kết quả cho

ra véc tơ đặc trƣng với 13 thành phần.
Sử dụng mô hình GMM để tính xác suất tín hiệu thuộc nhóm tiếng súng hay
nhóm còn lại.

Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS. Trần Đỗ Đạt
9


Phân loại tiếng động ứng dụng trong y tế
-

Tổng hợp kết quả phân loại trong khoảng 0.5ms đƣợc dùng để xác định kết
quả phân loại ở phía đầu ra của hệ thống.

Kết quả:

Hình 6 Tỉ lệ lỗi của hệ thống phát hiện tiếng súng theo các điều kiện khác nhau

1.2.2.2 Hệ thống phân loại tiếng nói / tiếng động, tiếng nói bình thƣờng /
bất thƣờng, tiếng động bình thƣờng / bất thƣờng [8]
Mục tiêu: Phân lớp tiếng nói / tiếng động; Tiếng nói bình thƣờng / tiếng nói bất
thƣờng; Tiếng động bình thƣờng / Tiếng động bất thƣờng.

Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS. Trần Đỗ Đạt
10


Phân loại tiếng động ứng dụng trong y tế
Kiến trúc hệ thống:


Hình 7 Sơ đồ hệ thống phân loại của Cheung-Fat CHAN
Các bước xử lý:
-

Đầu tiên, âm thanh sẽ đƣợc phân nhỏ thành từng đoạn với thời lƣợng 32ms
(512 mẫu) và trƣợt 4ms (64 mẫu).

-

Các đoạn sẽ đƣợc trích chọn các đặc trƣng nhƣ:

-

-

o Weighted Average Delta Energy
o LPC Spectrum Flatness
o FFT Spectrum Flatness
o Zero Crossing Rate
o Harmonicity
o Mid-Level Crossing Rate
o Peak and Valley Count Rate
o LPC
Trong giai đoạn huấn luyện, các đặc trƣng này đƣợc gán nhãn các lớp: âm
thanh nền, tiếng ngƣời, tiếng động để tạo mô hình phân loại ba lớp âm
thanh liên quan. Ngoài ra, các âm thanh của mỗi loại trên còn đƣợc dùng để
huấn luyện mô hình tiếng nói bất thƣờng / tiếng nói bình thƣờng và tiếng
động bất thƣờng / tiếng động bình thƣờng. Các mô hình này đều cùng là
HMM.
Trong giai đoạn hoạt động, sau khi trích trọn, các đặc trƣng đƣợc đƣa vào

từng mô hình để tính xác suất đƣợc phân loại vào từng lớp nhất định. Ở đây,

Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS. Trần Đỗ Đạt
11


Phân loại tiếng động ứng dụng trong y tế
có xuất một luật quyết định để tăng tính hiệu quả của hệ thống. Mã giả mô
tả thuật toán quyết định nhƣ sau:

Hình 8 Thuật toán quyết định phân loại tiếng nói / tiếng động / âm nền
Ở đây: PV, PN, PB lần lƣợt là xác suất để đoạn âm thanh là tiếng nói, tiếng động
và âm thanh nền. HHB / HHN là ngƣỡng dùng trong để quyết định đoạn âm thanh
là tiếng ngƣời, NHB / NHH là ngƣỡng để quyết định tiếng động và BBH / BBN là
ngƣỡng để quyết định đoạn âm là âm thanh nền.
Kết quả thực hiện:
Bảng 6 Tỉ lệ dò nhầm và báo động sai trong nghiên cứu của Cheung-Fat CHAN
SNR

30dB
20dB
10dB
5dB

Phát hiện tiếng nói bất Phát hiện tiếng động bất
thƣờng
thƣờng
FAR (%)
MRD (%)
FAR (%)

MRD (%)
18.4
6.6
16.3
7.6
19.5
8.3
19.2
8.2
22.1
10.2
20.5
10.1
23.6
13.9
25.8
14.2

Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS. Trần Đỗ Đạt
12


Phân loại tiếng động ứng dụng trong y tế

1.2.2.3 Hệ thống phát hiện sự kiện âm bất thƣờng phục vụ cứu hộ [7]
Hệ thống này giúp phân biệt các tình huống bình thƣờng / bất thƣờng trên cơ sở
phân loại các tình huống vô thanh và hữu thanh với mục đích phát hiện ra các sự
kiện có khả năng là thảm họa nhƣ động đất, lũ lút, đấu súng trên cơ sở phát hiện
các âm thanh gây ra bởi chính sự kiện cũng nhƣ âm thanh liên quan tới việc phản
ứng của con ngƣời (nhƣ kêu la). Với CSDL đƣợc lấy từ khoảng 30 bộ phim bằng

tiếng Anh, hai mô hình phân loại là GMM và MAP, độ chính xác của phân loại
vào khoảng 70%. Cũng theo nhƣ tác giả cho biết, việc phân loại các âm hữu thành
sử dụng các đặc trƣng liên quan tới tần số Pitch, năng lƣợng dải tần Bark hay trọng
tâm phổ có kết quả tốt; đối với phân loại các âm vô thanh, hệ thống cũng có kết
quả phân loại cao với việc sử dụng các đặc trƣng về phổ và năng lƣợng dải tần
Bark.
1.2.3 Hệ thống phân biệt loại nhạc [34]
Mục tiêu: Hệ thống này giúp phân biệt các thể loại nhạc khác nhau nhƣ: rock,
classical, soul, country, western.
Dữ liệu: Nhiều loại nhạc khác nhau.
Kiến trúc hệ thống:
Đoạn

âm

thanh 1.5s

Trích chọn

Véc tơ đặc

Tiền

Véc tơ đặc trƣng

Mạng

đặc trƣng

trƣng


xử lý

đã xử lý

Nơron

Hình 9 Sơ đồ hệ thống phân biệt thể loại nhạc
Các bước xử lý:
1. Đầu tiên, mỗi tệp âm thanh đƣợc chia nhỏ thành nhiều đoạn 1.5s. Để loại
trừ các khoảng lặng ở đầu và cuối của từng bản nhạc hay bài hát, chỉ phần
giữa của tệp tin âm thanh mới đƣợc dùng cho giải quyết bài toán phân loại.
2. Các đoạn nhỏ này tiếp theo sẽ đƣợc đƣa vào khối trích trọn đặc trƣng.
3. Các véc tơ đặc trƣng này sau đƣợc chuẩn hóa về khoảng tử -1 đến 1
4. Kích thƣớc của véc tơ đặc trƣng đƣợc giảm xuống nhờ phƣơng pháp PCA
Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS. Trần Đỗ Đạt
13


Phân loại tiếng động ứng dụng trong y tế
5. Các véc tơ đặc trƣng đƣợc phân thành hai nhóm riêng biệt để phục vụ mục
đích huấn luyện và kiểm tra.
6. Việc huấn luyện hay kiểm tra đƣợc thực hiện nhờ mô hình mạng Nơ-ron.
Kết quả thực hiện:
-

Bảng sau thể hiện kết quả phân loại của hệ thống đối với 4 loại nhạc khác
nhau:
Bảng 7 Kết quả phân loại nhạc


Kết quả phân loại của hệ thống
Rock
Classical
Soul/R&B C&W
482
1
5
29
Phân loại Rock
trƣớc
Classical
3
645
0
19
Soul/R&B
11
4
501
22
C&W
22
13
9
447
- Ngoài ra, hệ thống có những kết quá khá khả quan trong việc phân loại nhạc
theo nghệ sĩ thể hiện.
1.2.4 Hệ thống phân loại âm thanh [4]
Mục tiêu: Hệ thống có thể phân chia đƣợc 61 loại âm thanh khác nhau thƣờng
xuất hiện với độ chính xác khoảng 24%. Một số ngữ cảnh mà hệ thống quan tâm

nhƣ: Trong trận đấu bóng chày, giải điền kinh, trên xe bu t, ô tô, đƣờng cao tốc,
tại văn phòng, nhà hàng, cửa hàng.
Bảng 8 Số các sự kiện được trích ra theo từng môi trường
Trận đấu bóng chày
990 Đƣờng phố
827
793 Tại văn phòng
1 220
Giải điền kinh
1 729 Tại nhà hàng
78
Trong xe buýt
582
Trong
cửa
hàng
1
797
Trong ô tô
822 Trên bãi biển
738
Đƣờng cao tốc
Dữ liệu: Bao gồm các bản ghi dài từ 10 đến 30 phút mỗi tệp. Các tệp tin dữ liệu
này có đƣợc nhờ gắn các máy ghi âm ở tai ngƣời thực hiện thu.
Các bước xử lý:
-

Mỗi đoạn âm 20ms đƣợc qua cửa số Hamming và trƣợt 50% so với đoạn
âm trƣớc đó
Với mỗi đoạn âm sẽ trích chọn 16 hệ số MFCC.


Học viên: Phạm Hải Bình – SHHV: CB110783 – Ngƣời hƣớng dẫn: TS. Trần Đỗ Đạt
14


×