ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-------------------
NGUYỄN KHẮC PHƯƠNG TUẤN
“Nghiên cứu một kiến trúc mạng nơ ron tích
chập đa nhân để ứng dụng phân loại với nhiều
loại dữ liệu khác nhau (sử dụng bộ dữ liệu vân
tay và âm thanh)”
Chuyên ngành: Kỹ Thuật Điện Tử
Mã số: 60520203
LUẬN VĂN THẠC SĨ
TP. HỒ CHÍ MINH, Tháng 01 Năm 2020
Cơng trình được hồn thành tại: Trường Đại học Bách Khoa – ĐHQG-HCM
Cán bộ hướng dẫn khoa học 1: PGS.TS. Hoàng Trang …chữ ký...........................
Cán bộ hướng dẫn khoa học 2: TS. Trần Hoàng Linh .....chữ ký...........................
Cán bộ chấm nhận xét 1 : TS. Nguyễn Minh Sơn.............chữ ký...........................
Cán bộ chấm nhận xét 2 : TS. Bùi Trọng Tú.....................chữ ký...........................
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM
ngày . . . . . tháng . . . . năm . . . . .
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. Chủ tịch hội đồng: PSG.TS Hà Hoàng Kha............................................
2. Thư ký: TS. Nguyễn Lý Thiên Trường .................................................
3. Phản biện 1: TS. Nguyễn Minh Sơn .......................................................
4. Phản biện 2: TS. Bùi Trọng Tú................................................................
5. Ủy viên: TS. Trương Quang Vinh..........................................................
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG
PGS.TS Hà Hồng Kha
TRƯỞNG KHOA ĐIỆN ĐIỆN TỬ
ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
----- ✩ -----
----- ✩ -----
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Nguyễn Khắc Phương Tuấn..... MSHV: 1670363..........
Ngày, tháng, năm sinh: 22/12/1989..................... Nơi sinh: An Tiêm – Triệu Thành
– Triệu Phong – Quảng Trị.............................
Chuyên ngành: Kỹ Thuật Điện Tử..................... Mã số : ..60520203...................
I.
TÊN ĐỀ TÀI: Nghiên cứu một kiến trúc mạng nơ ron tích chập đa nhân để ứng
dụng phân loại với nhiều loại dữ liệu khác nhau (sử dụng bộ dữ liệu vân tay và
âm thanh) ...............................................................................................................
II. NHIỆM VỤ VÀ NỘI DUNG:
1. Nghiên cứu đặc trưng của dấu vân tay.
2. Nghiên cứu đặc trưng của ảnh âm thanh (spectrogram).
3. Tìm hiểu về kiến trúc mạng nơ ron tích chập đa nhân và tìm mơ hình mạng
thích hợp có thể ứng cho nhiều loại dữ liệu khác nhau.
4. Thử nghiệm và đánh giá kết quả mơ hình mạng nơ ron tích chập đa nhân
vừa tìm được.
III. NGÀY GIAO NHIỆM VỤ: 11/02/2019
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 08/12/2019
V. CÁN BỘ HƯỚNG DẪN: PGS.TS Hoàng Trang, TS. Trần Hoàng Linh
CÁN BỘ HƯỚNG DẪN
Tp.HCM, ngày…... tháng….. năm 2019
CHỦ NHIỆM BỘ MÔN ĐÀO TẠO
TRƯỞNG KHOA ĐIỆN ĐIỆN TỬ
LUẬN VĂN THẠC SĨ
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
LỜI CẢM ƠN
Được sự phân công của nhà trường, khoa Điện – Điện Tử và sự đồng ý của giáo
viên hướng dẫn PGS.TS. Hoàng Trang và TS. Trần Hoàng Linh, em đã thực hiện luận
văn thạc sĩ chuyên ngành kỹ thuật điện tử với đề tài “Nghiên cứu một kiến trúc
mạng nơ ron tích chập đa nhân để ứng dụng phân loại với nhiều loại dữ liệu
khác nhau (sử dụng bộ dữ liệu vân tay và âm thanh)”. Qua đây em xin gửi lời
cảm ơn tới những người đã giúp đỡ em trong thời gian học tập và nghiên cứu thực
hiện luận văn này.
Trước tiên, em xin gửi lời cảm ơn chân thành đến Thầy PGS.TS Hoàng Trang
và TS.Trần Hoàng Linh, người đã ln giúp đỡ, tận tình dìu dắt em trong suốt khoảng
thời gian làm luận văn. Thầy luôn không tiếc thời gian thảo luận với em những ý
tưởng và đưa ra những góp ý để luận văn này ngày càng hồn thiện.
Tiếp theo, em xin chân thành cảm ơn các anh chị, gia đình và đồng nghiệp đã
ln động viên và hỗ trợ em trong quá trình nghiên cứu thực hiện luận văn. Đặc biệt
em cũng xin cảm ơn anh Phạm Đăng Lâm đã đồng hành cùng em trong việc thực hiện
và hoàn thành luận văn này.
TÁC GIẢ
Nguyễn Khắc Phương Tuấn
i
LUẬN VĂN THẠC SĨ
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
TÓM TẮT LUẬN VĂN
Ngày nay, cùng với sự phát triển vượt bậc của khoa học kỹ thuật, vấn đề học
máy ngày càng được quan tâm và chú trọng phát triển. Nhiều thuật toán máy học mới
được nghiên cứu và phát triển, trong đó mơ hình mạng Deep Neural, Convolutional
Neural được quan tâm và phát triển mạnh mẽ. Tuy nhiên, các nghiên cứu hầu hết chỉ
áp dụng mạng Deep Neural hay Convolutional Neural để giải quyết những bài toán
cụ thể. Đề tài nghiên cứu “Nghiên cứu một kiến trúc mạng nơ ron tích chập đa nhân
để ứng dụng phân loại với nhiều loại dữ liệu khác nhau (sử dụng bộ dữ liệu vân tay
và âm thanh)” hy vọng sẽ tìm ra được một cấu hình mạng nơ ron tích chập đa nhân
có thể ứng dụng để giải quyết nhiều bài toán khác nhau. Trong đề tài này, sẽ áp dụng
mơ hình mạng tìm được để áp dụng cho 2 bài toán phân loại ngữ cảnh âm thanh và
nhận dạng dấu vân tay.
ABSTRACTS
To the present time, with the great development of science and technology,
machine learning is increasingly concerned and developed. Many new machine
learning algorithms have been researched and developed, in which the Deep Neural
Network and Convolutional Neural Network have been interested and developed.
However, most studies only apply Deep Neural or Convolutional Neural networks to
solve specific problems. Research topics “A multi-kenel Convolutional Neural
Network architechture for multi-task classification (verify over fingerprint and sound
scene datasets)” hope to find a configuration of Convolutional Neural Network that
can be applied to solve many different problems. In this project, the network model
will be applied for 2 problems of sound context classification and fingerprint
recognition.
ii
LUẬN VĂN THẠC SĨ
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
LỜI CAM ĐOAN CỦA TÁC GIẢ LUẬN VĂN
Tôi xin cam đoan đây là cơng trình nghiên cứu của riêng tơi. Các số liệu, kết
quả trong đề tài này là trung thực và chưa cơng bố dưới bất kỳ hình thức nào dưới
đây. Tất cả những tham khảo và kế thừa cho việc thực hiện luận văn này đã được cảm
ơn và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc và được phép
công bố.
TP.HCM, Ngày........tháng........năm........
Học viên thực hiện
Nguyễn Khắc Phương Tuấn
iii
LUẬN VĂN THẠC SĨ
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
MỤC LỤC
Chương 1:
Tổng quan đề tài ..................................................................................1
1.1.
Giới thiệu về đề tài ..............................................................................1
1.2.
Tình hình nghiên cứu trong và ngoài nước .........................................1
1.3.
Mục tiêu và nhiệm vụ đề tài ................................................................2
1.3.1. Mục tiêu đề tài................................................................................2
1.3.2. Nhiệm vụ đề tài ..............................................................................2
1.3.3. Tổ chức luận văn ............................................................................2
Chương 2:
2.1.
Đặc trưng của ảnh dấu vân tay và ảnh âm thanh (pectrogram) ...........4
Đặc trưng của ảnh vân tay ...................................................................4
2.1.1. Đặc trưng cấp độ một (global) .......................................................4
2.1.2. Đặc trưng cấp độ hai (local) ...........................................................6
2.1.3. Đặc trưng cấp độ 3 (Very-fine) ......................................................7
2.1.4. Tổng kết .........................................................................................7
2.2.
Đặc trưng của ảnh âm thanh (spectrogram) ........................................7
2.2.1. Thính giác của con người ...............................................................7
2.2.2. Trích đặc trưng âm thanh bằng Log-Mel .......................................8
2.2.3. Trích đặc trưng âm thanh bằng Gammatone................................14
2.2.4. Trích đặc trưng âm thanh bằng constant Q transform .................15
Chương 3:
3.1.
Các kĩ thuật nhận dạng ......................................................................19
Convolutional neural network ...........................................................19
3.1.1. Convolutional Layer ....................................................................19
3.1.2. Lớp kích hoạt phi tuyến (ReLU) ..................................................21
3.1.3. Pooling layer ................................................................................21
iv
LUẬN VĂN THẠC SĨ
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
3.1.4. Batchnorm layer ...........................................................................22
3.1.5. Dropout layer ...............................................................................23
3.2.
Deep Neural Network ........................................................................25
3.2.1. Feed forward ................................................................................25
3.2.2. Backpropagation ..........................................................................26
3.2.3. Hàm kích hoạt ..............................................................................28
Chương 4:
4.1.
Nghiên cứu và thực nghiệm ..............................................................32
Kiến trúc đề xuất cho phân loại ngữ cảnh âm thanh .........................32
4.1.1. Trích đặc tính tín hiệu âm thanh ..................................................33
4.1.2. Phân loại ngữ cảnh âm thanh .......................................................34
4.1.3. Kết quả thực hiện .........................................................................37
4.2.
Ứng dụng mơ hình mạng CDNN cho nhận dạng dấu vân tay ..........43
4.2.1. Mơ hình mạng CDNN ..................................................................43
4.2.1. Kết quả thực hiện .........................................................................49
Chương 5:
Kết luận và hướng phát triển .............................................................51
5.1.
Kết luận .............................................................................................51
5.1.
Hướng phát triển ................................................................................51
Chương 6:
Tài liệu tham khảo .............................................................................52
v
LUẬN VĂN THẠC SĨ
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
DANH SÁCH HÌNH MINH HỌA
Hình 2.1 Các đường vân của dấu vân tay. ..................................................................4
Hình 2.2 Dấu vân tay và hướng của dấu vân tay. .......................................................5
Hình 2.3 Core và delta của một dấu vân tay. ..............................................................5
Hình 2.4 Các điểm đặc trưng cơ bản của một dấu vân tay [10]. .................................6
Hình 2.5 Các điểm đặc trưng đặc biệt ở cấp độ very-fine. .........................................7
Hình 2.6 Giải thuật trích đặc trưng Log-Mel. .............................................................9
Hình 2.7 Cường độ phổ cơng suất của tín hiệu tiếng nói lấy mẫu tại 44100 Hz trước
và sau khi pre-emphasis [13].......................................................................................9
Hình 2.8 Chia frame tín hiệu âm thanh. ....................................................................10
Hình 2.9 Cửa sổ Hamming 160 điểm........................................................................11
Hình 2.10 Sơ đồ thực hiện phép tốn cho cửa sổ Hamming.....................................11
Hình 2.11 Q trình phân tích phổ tín hiệu...............................................................12
Hình 2.12 Bộ lọc Mel tam giác cho tín hiệu lấy mẫu 8kHz......................................13
Hình 2.13 Gammatone filter [14]. .............................................................................14
Hình 2.14 So sánh độ phân giải thời gian-tần số của STFT và CQT [19] ................16
Hình 2.15 Spectrograms sử dụng STFT và CQT [19] ..............................................18
Hình 3.1 Mạng CNN đơn giản cho nhận dạng..........................................................19
Hình 3.2 Hoạt động của lớp tích chập.......................................................................20
Hình 3.3 Phương pháp Max-pooling.........................................................................21
Hình 3.4 (a) Mạng Neural cơ bản với 2 lớp ẩn. (b) Mạng sau khi áp dụng Dropout
[21]. ...........................................................................................................................24
Hình 3.5 So sánh q trình hoạt động của mạng thơng thường và mạng sử dụng
Dropout [21]. .............................................................................................................24
Hình 3.6 Mạng Neural và Deep Neural. ...................................................................25
Hình 3.7 Quá trình lan truyền thuận trong mạng Neural. .........................................26
Hình 3.8 Mơ phỏng cách tính backpropagation [22]. ...............................................27
Hình 3.9 Hàm ReLU .................................................................................................29
Hình 3.10 Đồ thị hàm sigmoid ..................................................................................30
vi
LUẬN VĂN THẠC SĨ
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
Hình 4.1 Kiến trúc cho hệ thống phân loại ngữ cảnh âm thanh. ...............................33
Hình 4.2 Re-trained model. .......................................................................................33
Hình 4.3 Mơ hình mạng CDNN cho giải thuật phân loại ngữ cảnh âm thanh..........36
Hình 4.4 Hiệu suất của các hệ thống với 15 class. ....................................................38
Hình 4.5 Mơ hình mạng CDNN cho giải thuật nhận dạng dấu vân tay với tập mẫu
kích thước 200x200x24bit. .......................................................................................44
Hình 4.6 Mơ hình mạng CDNN cho giải thuật nhận dạng dấu vân tay với tập mẫu
kích thước 153x185x8bit ..........................................................................................46
Hình 4.7 Mơ hình mạng CDNN cho giải thuật nhận dạng dấu vân tay với tập mẫu
kích thước 152x200x8bit. .........................................................................................47
Hình 4.8 Dữ liệu mẫu dấu vân tay ............................................................................49
vii
LUẬN VĂN THẠC SĨ
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
DANH SÁCH BẢNG SỐ LIỆU
Bảng 1 Thơng số cấu hình của Spectrogram.............................................................34
Bảng 2 Cấu trúc của khối CNN-01 ...........................................................................35
Bảng 3 Kiến trúc CDNN với 1 loại kích thước Kernel .............................................37
Bảng 4 Kết quả so sánh giữa các hệ thống................................................................38
Bảng 5 Kết quả hiệu suất của hệ thống sử dụng trích đặc trưng CQTvà sử dụng pretrained ........................................................................................................................39
Bảng 6 Kết quả hiệu suất của hệ thống sử dụng trích đặc trưng Gam và sử dụng pretrained ........................................................................................................................39
Bảng 7 Kết quả hiệu suất của hệ thống sử dụng trích đặc trưng Log-mel và sử dụng
pre-trained .................................................................................................................40
Bảng 8 Kết quả hiệu suất của hệ thống Ensemble sử dụng pre-trained ....................40
Bảng 9 Kết quả hiệu suất của hệ thống sử dụng trích đặc trưng log-mel và sử dụng
pos-trained .................................................................................................................41
Bảng 10 Kết quả hiệu suất của hệ thống sử dụng trích đặc trưng Gam và sử dụng postrained ........................................................................................................................41
Bảng 11 Kết quả hiệu suất của hệ thống sử dụng trích đặc trưng CQT và sử dụng postrained ........................................................................................................................42
Bảng 12 Kết quả hiệu suất của hệ thống Ensemble sử dụng pos-trained .................42
Bảng 13 Cấu trúc của khối CNN-01 cho mơ hình nhận dạng dấu vân tay với ảnh đầu
vào có kích thước 200x200x3 ...................................................................................44
Bảng 14 Cấu trúc của khối CNN-02 cho mơ hình nhận dạng dấu vân tay với ảnh đầu
vào có kích thước 200x200x3 ...................................................................................45
Bảng 15 Cấu trúc của khối CNN-03 cho mơ hình nhận dạng dấu vân tay với ảnh đầu
vào có kích thước 200x200x3 ...................................................................................45
Bảng 16 Cấu trúc của khối CNN-04 cho mơ hình nhận dạng dấu vân tay với ảnh đầu
vào có kích thước 200x200x3 ...................................................................................45
Bảng 17 Cấu trúc của khối CNN-01 cho mơ hình nhận dạng dấu vân tay với ảnh đầu
vào có kích thước 153x185 .......................................................................................46
viii
LUẬN VĂN THẠC SĨ
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
Bảng 18 Cấu trúc của khối CNN-02 cho mơ hình nhận dạng dấu vân tay với ảnh đầu
vào có kích thước 153x185 .......................................................................................46
Bảng 19 Cấu trúc của khối CNN-03 cho mơ hình nhận dạng dấu vân tay với ảnh đầu
vào có kích thước 153x185 .......................................................................................47
Bảng 20 Cấu trúc của khối CNN-04 cho mô hình nhận dạng dấu vân tay với ảnh đầu
vào có kích thước 153x185 .......................................................................................47
Bảng 21 Cấu trúc của khối CNN-01 cho mơ hình nhận dạng dấu vân tay với ảnh đầu
vào có kích thước 152x200 .......................................................................................48
Bảng 22 Cấu trúc của khối CNN-02 cho mơ hình nhận dạng dấu vân tay với ảnh đầu
vào có kích thước 152x200 .......................................................................................48
Bảng 23 Cấu trúc của khối CNN-03 cho mơ hình nhận dạng dấu vân tay với ảnh đầu
vào có kích thước 152x200 .......................................................................................48
Bảng 24 Cấu trúc của khối CNN-04 cho mơ hình nhận dạng dấu vân tay với ảnh đầu
vào có kích thước 152x200 .......................................................................................49
Bảng 25 Kết quả nhận dạng của hệ thống với các tập mẫu dữ liệu dấu vân tay.......50
ix
Chương 1:
Tổng quan đề tài
1.1. Giới thiệu về đề tài
Hiện nay, với sự phát triển ngày càng cao của khoa học công nghệ, đặc biệt là
sự phát triển của ngành vi mạch đã tạo nên những bộ vi xử lý có cấu hình mạnh mẽ,
cùng với sự phát triển của toán học đã tạo điều kiện cho sự phát triển của ngành khoa
học phần mềm nói chung và ngành máy học nói riêng. Cho đến thời điểm hiện tại,
ngành máy học đã có những bước phát triển rất vượt bậc, có nhiều mơ hình máy học
được ra đời như K-means, Hidden Markov, Neural Network… Trong đó giải thuật
Neural Network có ưu điểm hơn hẳn, tốc độ tính tốn nhanh, cho độ chính xác cao
và có cấu hình có thể thay đổi được. Chính vì vậy, mạng Neural được xem là có tính
linh động cao và có thể áp dụng cho nhiều ứng dụng khác nhau như nhận dạng ảnh,
nhận dạng âm thanh, hay đến thời điểm hiện tại đã có nhiều biến thể từ mạng Neural
Network (Convolutional Neural Network) để phục vụ cho trích đặc trưng ảnh, nâng
cao chất lượng ảnh... hay Deep Neural Network phục vụ cho bài toán phân loại
(Classification). Mặc dù vậy, nhưng việc tìm ra một cấu hình mạng Neural để có thể
sử dụng cho nhiều ứng dụng, mục đích khác nhau là một thách thức đối với ngành
máy học.
1.2. Tình hình nghiên cứu trong và ngồi nước
Hiện nay, đã có nhiều cơng trình nghiên cứu về mạng Neural Network và các
biến thể của nó. Nhưng hầu hết tất cả cơng trình nghiên cứu đều chú trọng ứng dụng
mạng Neural Network để giải quyết những bài tốn cụ thể. Như có rất nhiều cơng
trình ứng dụng thành cơng mơ hình mạng Convolutional Neural Network cho nhận
dạng cảm xúc [1] [2], nhận dạng khuôn mặt [3] [4], hay ứng dụng mạng
Convolutional Neural Network cho phân loại ngữ cảnh âm thanh [5] [6] [7] [8]. Mặc
dù có rất nhiều cơng trình nghiên cứu mạng Convolutional Neural Network thành
cơng trong việc giải quyết các bài toán cụ thể, nhưng có rất ít cơng trình nghiên cứu
về cấu hình mạng Convolutional Neural Network để có thể ứng dụng giải quyết tốt
cho nhiều bài toán khác nhau. Và đồng thời việc nghiên cứu và ứng dụng cấu hình
LUẬN VĂN THẠC SĨ
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
mạng với nhiều loại kích thước bộ lọc/ Convolutional layer (multi-kernel) trong mạng
Convolutional Neural Network cũng là một trong những phương pháp được quan tâm
và nghiên cứu gần đây. Với cấu hình mạng có nhiều kích thước bộ lọc trong một
convolutional layer sẽ làm cho mạng Convolutional Neural Network có tính linh động
hơn và có thể áp dụng với nhiều ứng dụng khác nhau.
1.3. Mục tiêu và nhiệm vụ đề tài
1.3.1. Mục tiêu đề tài
Luận văn này xin được trình bày một cấu hình mạng Neural tích chập đa nhân
có thể sử dụng cho nhiều mục đích khác nhau. Trong luận văn sẽ tiến hành sử dụng
2 tập mẫu để tiến hành đánh giá cấu hình mạng Neural tích chập đa nhân xây dựng
được: 1 tập âm thanh nền được chuyển sang dạng ảnh (spectrogram) sử dụng để phân
loại ngữ cảnh và 1 tập ảnh dấu vân tay sử dụng để phân loại dấu vân tay. Với việc
đánh giá thành cơng cấu hình mạng dựa trên 2 tập dữ liệu khác nhau này, sẽ cho thấy
cấu hình mạng vừa tìm được có thể sử dụng được với nhiều mục đích khác nhau và
tính bao quát của mạng.
1.3.2. Nhiệm vụ đề tài
• Nghiên cứu đặc trưng của dấu vân tay.
• Nghiên cứu đặc trưng của ảnh âm thanh (spectrogram).
• Tìm hiểu về kiến trúc mạng nơ ron tích chập đa nhân và tìm mơ hình mạng
thích hợp có thể ứng cho nhiều loại dữ liệu khác nhau.
• Thử nghiệm và đánh giá kết quả mơ hình mạng Neural tích chập đa nhân vừa
tìm được.
1.3.3. Tổ chức luận văn
Luận văn sẽ trình bày các mục chính sau:
-
Tìm hiểu tình hình nghiên cứu trong và ngồi nước.
-
Tìm hiểu các đặc trưng về dấu vân tay và ngữ cảnh âm thanh.
-
Nghiên cứu và phân tích mơ hình mạng Neural tích chập đa nhân.
2
LUẬN VĂN THẠC SĨ
-
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
Thử nghiệm mô hình mạng Neural tích chập đa nhân với ứng dụng phân
loại ngữ cảnh âm thanh và nhận dạng dấu vân tay.
-
Kết luận và hướng phát triển của đề tài.
3
LUẬN VĂN THẠC SĨ
Chương 2:
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
Đặc trưng của ảnh dấu vân tay và ảnh âm
thanh (pectrogram)
2.1. Đặc trưng của ảnh vân tay
Ảnh dấu vân tay được thể hiện bằng các đường vân trong đó bao gồm các đường
vân lồi (ridges) và các đường vân lõm (valleys) xen kẽ với nhau. Thơng thường các
đường vân lồi sẽ có màu tối và các đường vân lõm sẽ có màu sáng như trong Hình
2.1.
Hình 2.1 Các đường vân của dấu vân tay.
Đặc trưng của dấu vân tay thường được mô tả theo 3 cấp độ: cấp độ một (global),
cấp độ hai (local) và cấp độ ba (very-fine) [9]. Người ta thường sử dụng 3 cấp độ đặc
trưng này dùng để nhận dạng dấu vân tay, tùy theo từng mức độ khác nhau mà sẽ sử
dụng các cấp độ đặc trưng khác nhau.
2.1.1. Đặc trưng cấp độ một (global)
Ở cấp độ này, đặc trưng của dấu vân tay liên quan chủ yếu đến hướng của các
đường vân và các điểm đặc biệt (singular). Hướng của các đường vân hay còn được
gọi là trường định hướng (θ(x,y)) của vân tay, mô tả hướng tiếp tuyến của dấu vân
tay tại điểm (x,y). Trong đó 0 ≤ θ(x,y) ≤ π. Hình 2.2 thể hiện hình ảnh của một dấu
vân tay và hướng của nó.
4
LUẬN VĂN THẠC SĨ
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
Hình 2.2 Dấu vân tay và hướng của dấu vân tay.
Các điểm singular được chia làm 2 loại chính bao gồm: core (là điểm trung tâm
của dấu vân tay), delta (đường vân tạo hình tam giác). Số lượng và vị trí khác nhau
của các singular tạo thành các đặc trưng khác nhau của mỗi dấu vân tay. Hình 2.3 thể
hiện các core và các delta của một dấu vân tay. Một dấu vân tay có thể có nhiều core
và delta hoặc khơng có core và delta.
Core được chia thành 2 loại: Whorl (điểm core nằm giữa các đường xoắn ốc)
và Loop (là điểm nằm ở trên cùng của vịng lặp trong cùng).
Hình 2.3 Core và delta của một dấu vân tay.
5
LUẬN VĂN THẠC SĨ
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
2.1.2. Đặc trưng cấp độ hai (local)
Trong Hình 2.4 mơ tả các điểm đặc trưng cấp độ hai của dấu vân tay. Trong cấp
độ này dấu vân tay có 4 loại đặc trưng cơ bản sau:
• Ridge Ending: là những điểm kết thúc của một đường vân trên dấu vân
tay.
• Bifurcation: là những điểm rẽ nhánh của đường vân trên dấu vân tay.
• Ridge dot: là điểm mà tại đó đường vân chỉ chứa một dấu chấm.
• Enclosure: là một đường vân khép kính.
Hình 2.4 Các điểm đặc trưng cơ bản của một dấu vân tay [10].
Tập hợp các điểm này được gọi là Minutiae. Trong các loại của Minutiae thì chỉ
cần 2 loại Ridge Ending và Bifurcation là đủ để minh họa cho đặc trưng của một dấu
vân tay [11].
Với cấp độ này nó mang nhiều thơng tin đặc trưng của một dấu vân tay hơn so
với cấp độ một và cũng dễ dàng được xác định bằng mắt. Chính vì vậy mà nó cũng
được sử dụng nhiều trong các bài tốn nhận dạng dấu vân tay cũng như ứng dụng
trong dân sự. Tuy nhiên, để có thể trích được các điểm minutiae cần phải trải qua một
q trình tính tốn hết sức phức tạp. Và ở cấp độ này cũng rất khó để trích đặc trưng
dấu vân tay một cách chính xác, nó phụ thuộc nhiều vào chất lượng của ảnh và quá
trình lấy mẫu dấu vân tay.
6
LUẬN VĂN THẠC SĨ
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
2.1.3. Đặc trưng cấp độ 3 (Very-fine)
Đây được xem là cấp độ đặc trưng cao nhất trong 3 loại cấp độ đặc trưng của
dấu vân tay. Ở cấp độ này từng điểm chi tiết bên trong đường vân dấu vân tay sẽ được
xem xét một cách đầy đủ như sẹo, lỗ chân lơng...(Hình 2.5). Tuy nhiên việc trích đặc
trưng ở cấp độ này chỉ được thực hiện cho những ảnh có chất lượng cực kỳ tốt, độ
phân giải cao. Và nó cũng địi hỏi một độ phức tạp cao trong q trình trích đặc trưng,
chính vì vậy mà phương pháp này ít được sử dụng phổ biến.
Hình 2.5 Các điểm đặc trưng đặc biệt ở cấp độ very-fine.
2.1.4. Tổng kết
Như vậy, ở phần trên đã trình bày về các đặc trưng cơ bản của một dấu vân tay
từ các cấp độ khác khau, từ mức độ đơn giản đến mức độ phức tạp, từ những đặc
trưng toàn cục đến từng điểm đặc trưng cục bộ.
2.2. Đặc trưng của ảnh âm thanh (spectrogram)
2.2.1. Thính giác của con người
Hệ thống thính giác của con người có thể cảm nhận và phân biệt tính hiệu âm
thanh dựa trên ba yếu tố cơ bản cấu thành nên âm thanh: cao độ, cường độ và âm sắc.
Hệ thống thính giác này sẽ thay đổi theo từng người và từng lứa tuổi khác nhau.
Người trẻ tuổi có thể phân biệt được các âm thanh với cao độ lớn và cường độ nhỏ
hơn so với người lớn tuổi.
-
Cao độ: là sự cảm nhận về mặt số lượng rung động cảm nhận được trong
một thời gian. Đây là biểu hiện về mặt tần số của âm thanh. Với mỗi âm
thanh khác nhau sẽ cho ta một tần số dao động khác nhau. Những âm
thanh gần giống nhau sẽ có mức cao độ gần giống nhau.
7
LUẬN VĂN THẠC SĨ
-
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
Cường độ: là sự cảm nhận về độ lớn của âm thanh. Nó là hàm lượng năng
lượng được sóng âm truyền đi trên một đơn vị thời gian qua một đơn vị
diện tích đặt trong phương vng góc với phương truyền âm. Đối với tai
con người thì giá trị tuyệt đối của cường độ âm khơng có ý nghĩa bằng
giá trị tỉ số của cường độ âm so với một cường độ âm chuẩn. Người ta
định nghĩa mức cường độ âm bởi phương trình (2.1).
𝐼
𝐿(𝑑𝐵) = 10log( )
𝐼0
(2.1)
Trong đó: 𝐼0 = 10−12 𝑊⁄𝑚2
-
Âm sắc: dùng để biểu diễn sắc thái của âm thanh. Âm sắc dùng để phân
biệt các loại âm thanh được phát ra từ các loại nhạc cụ khác nhau. Những
tính chất vật lý của âm thanh ảnh hưởng đến sự nhận thức âm sắc bao
gồm cả cao độ và cường độ âm.
Với những đặc điểm trên của tín hiệu âm thanh, đã có nhiều phương pháp nghiên
cứu về vấn đề trích đặc trưng của tín hiệu âm thanh được thực hiện. Đối với mỗi loại
âm thanh khác nhau sẽ có hiệu quả với những phương pháp trích đặc trưng khác nhau.
Đối với tín hiệu âm thanh tiếng nói thì phương pháp trích đặc trưng Liner predictive
coding (LPC), Mel Frequency Cepstral Coeffients (MFCC) và Log-Mel cho độ chính
xác cao. Đối với tín hiệu là âm thanh động cơ thì phương pháp trích đặc trưng
Gammatone sẽ tỏ ra hiệu quả hơn phương pháp trích đặc trưng LPC, MFCC hay LogMel. Cịn đối với tín hiệu là âm nhạc thì phương pháp trích đặc trưng Constant-Q
transform lại tỏ ra hiệu quả hơn. Phần tiếp theo cả 3 phương pháp trích đặc trưng
Log-Mel, Gam và CQT sẽ được trình bày.
2.2.2. Trích đặc trưng âm thanh bằng Log-Mel
Phương pháp này dựa trên khả năng cảm nhận âm thanh của tai người. Đó là
tuyến tính ở vùng tần số thấp và tăng theo thang logarit ở vùng tần số cao. Phương
pháp Log-Mel sẽ cho ta những đặc trưng quan trọng nhất của âm thanh. Đầu ra của
Log-Mel là 128 hệ số của bộ lọc Mel đã được lấy log.
8
LUẬN VĂN THẠC SĨ
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
Hình 2.6 thể hiện lưu đồ của q trình trích đặc trưng theo phương pháp LogMel.
Sound
Pre-emphasis
Frame
Blocking
Windowing
FFT
Mel frequency
Filter Bank
Log-Mel
log
Hình 2.6 Giải thuật trích đặc trưng Log-Mel.
2.2.2.1. Pre-emphasis
Trong q trình thu âm, nhiễu của mơi trường (tần số thấp) có cường độ đáng
kể và do đó làm tăng cường độ của các âm ở tần số thấp. Do đó, tín hiệu sau khi số
hóa được pre-emphasis với bộ lọc có đáp ứng xung hữu hạn (bộ lọc FIR) bậc nhất để
nhằm nâng cao cường độ âm ở vùng tần số cao [12]. Hàm truyền của bộ lọc được cho
bởi phương trình (2.2), trong đó tham số α tiêu biểu từ 0.9-1. Trong miền thời gian,
mối quan hệ giữa ngỏ vào và ngỏ ra được thể hiện trong phương trình (2.3).
Hình 2.7 Cường độ phổ cơng suất của tín hiệu tiếng nói lấy mẫu tại 44100 Hz trước
và sau khi pre-emphasis [13].
Trong đó:
𝐻 (𝑧) = 1 − 𝛼𝑍 −1
(2.2)
𝑆𝑖′ = 𝑆𝑖 − 𝛼𝑆𝑖−1
(2.3)
𝑆𝑖 là điểm thứ i của tín hiệu âm thanh khi chưa qua bộ lọc.
𝑆𝑖′ là điểm thứ i của tín hiệu âm thanh sau khi qua bộ lọc.
Hình 2.7 biểu diễn cường độ cơng suất của tín hiệu tiếng nói trước và sau khi
qua khối Pre-emphasis. Có thể thấy rằng cường độ cơng suất của tín hiệu sau khi qua
Pre-emphasis ở tần số cao đã được cải thiện đáng kể so với tín hiệu gốc ban đầu.
9
LUẬN VĂN THẠC SĨ
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
2.2.2.2. Frame blocking
Hình 2.8 Chia frame tín hiệu âm thanh.
Bởi vì tín hiệu âm thanh là tín hiệu biến đổi chậm theo thời gian, trong hệ thống
nhận dạng thì tín hiệu âm thanh được chia thành những khoảng thời gian ngắn được
gọi là các frame. Để cho các thơng số của frame ít thay đổi, thơng thường tín hiệu âm
thanh được chia frame với khoảng chồng lấp là 50% giữa các frame kế cạnh nhau
như trong Hình 2.8. Với phương pháp chia frame như Hình 2.8 số frame của một
đoạn âm thanh được tính bởi cơng thức (2.4).
𝑛=
Trong đó:
𝐿 − 𝑁/2
+1
𝑁
(2.4)
𝐿 là số mẫu trong một đoạn âm thanh.
𝑁 là chiều dài của một Frame.
2.2.2.3. Windowing
Sau khi chia frame, tín hiệu âm thanh ở 2 đầu frame sẽ bị mất tín liên tục. Sau
khi qua bộ biến đổi FFT sẽ sinh ra các tần số cao khơng mong muốn. Chính vì vậy,
tín hiệu âm thanh sau khi chia frame được cho qua khối Windowing với mục đích sẽ
làm giảm sự mất tính liên tục của tín hiệu âm thanh ở 2 đầu frame. Một trong những
cửa sổ được dùng phổ biến nhất là cửa sổ Hamming được xác định bởi phương trình
(2.5). Trong đó L là chiều dài của cửa sổ và bằng với chiều dài của mỗi frame.
2𝜋(𝑙 − 1)
] 𝑙 = 1,2, … , 𝐿
ℎ(𝑙) = 0.54 − 0.46 cos [
𝐿−1
10
(2.5)
LUẬN VĂN THẠC SĨ
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
Hình 2.9 biểu diễn hình dạng của một cửa sổ Hamming 160 điểm. Phương trình
(2.6) và Hình 2.10 thể hiện quá trình thực hiện thuật tốn trong cửa sổ Hamming,
trong đó từng điểm trên mỗi frame sẽ được nhân với một hệ số tương ứng của cửa sổ
Hamming. Như vậy với việc sử dụng cửa sổ Hamming thì tín hiệu âm thanh của mỗi
frame sau khi qua cửa sổ sẽ có tính liên tục tại điểm đầu và cuối của mỗi frame.
Hình 2.9 Cửa sổ Hamming 160 điểm.
Hình 2.10 Sơ đồ thực hiện phép toán cho cửa sổ Hamming.
𝑤ƒ𝑛 (𝑙) = ƒ𝑛 (𝑙)ℎ𝑎𝑚(𝑙),𝑙 = 1,2, … ,160
Trong đó: ƒ𝑛 (𝑙) là phần tử thứ l trong frame n
11
(2.6)
LUẬN VĂN THẠC SĨ
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
ℎ𝑎𝑚(𝑙) là hệ số thứ l của cửa sổ Hamming
𝑤ƒ𝑛 (𝑙) là phần tử thứ l của frame thứ n sau khi qua cửa sổ Hamming
2.2.2.4. Phân tích phổ dùng FFT
Phép biến đổi nhanh (FFT) được dùng để tính tốn phổ của tín hiệu âm thanh.
Đó chính là sự thực thi phép biến đổi Fourier rời rạc (DFT) đạt hiệu suất cao với điều
kiện ràng buộc là phổ được đánh giá tại các điểm rời rạc, những tần số này là bội số
của 𝑓𝑠 /𝑁 (các tần số trực giao với nhau), trong đó 𝑓𝑠 là tần số lấy mẫu, N là chiều dài
của DFT. Thuật toán FFT chỉ yêu cầu khối lượng tính tốn tỷ lệ với số điểm lấy FFT
(N) là 𝑁𝑙𝑜𝑔(𝑁), trong khi đó DFT cần một khối lượng phép tốn lớn hơn 𝑁 2 .
Hình 2.11 Q trình phân tích phổ tín hiệu.
Độ phân giải tần số của DFT bị giới hạn bởi 2 yếu tố: chiều dài của tín hiệu và
chiều dài của DFT. Nếu tín hiệu được tạo ra bởi hai tín hiệu có tần số rất gần với
nhau, khi đó để phân biệt hai tần số này chúng ta phải quan sát tín hiệu với phân đoạn
phải dài. Đối với chiều dài của DFT, phổ tần số được tạo ra bởi N điểm DFT, bao
gồm N/2 điểm cách đều nhau phân bố giữa 0 đến phân nữa tần số lấy mẫu. Vì vậy để
phân biệt được 2 tần số có khoảng cách gần nhau thì khoảng cách giữa các điểm lấy
DFT phải nhỏ hơn khoảng cách giữa 2 tần số cần phân biệt. Hình 2.11 thể hiện q
trình phân tích phổ tín hiệu với chiều dài N điểm. Trong đó chỉ có biên độ của N/2
điểm sau khi phân tích FFT là được sử dụng cho các bước tính tốn tiếp theo, bởi tính
chất đối xứng của phép biến đổi FFT.
12
LUẬN VĂN THẠC SĨ
HVTH: NGUYỄN KHẮC PHƯƠNG TUẤN
2.2.2.5. Mel Filter-Bank
Một băng bộ lọc số được dùng để mơ hình các tầng ban đầu của phần chuyển
đổi trong hệ thống thính giác con người bởi 2 lý do sau: Thứ nhất, vị trí của việc dịch
chuyển cực đại dọc theo màng rung trong tai người để kích thích thì tỷ lệ với
logarithm của tần số âm thanh. Thứ hai, các tần số của âm thanh phức hợp bên trong
một băng tần xác định của một vài tần số danh định không thể được nhận ra một cách
riêng lẻ được.
Hệ thống thính giác của con người khơng tuyến tính với tần số âm thanh nhận
được, một thang đo Mel được sử dụng để ánh xạ tần số âm thanh nhận được sang
thang đo tuyến tính. Thang tần số này được định nghĩa bởi phương trình (2.7), và
được minh họa ở Hình 2.12. Nó xấp xỉ như thang tuyến tính trong khoảng từ 0 đến
1000Hz và xấp xỉ như thang logarithm bên ngoài tần số 1000Hz.
𝑀𝑒𝑙(ƒ𝑀𝑒𝑙 ) = 2595 log10 (1 +
ƒ𝐻𝑧
)
700
(2.7)
Hình 2.12 Bộ lọc Mel tam giác cho tín hiệu lấy mẫu 8kHz.
Băng thông bộ lọc thang đo Mel thông thường trong nhận dạng âm thanh bao
gồm các bộ lọc badpass hình tam giác được phân bố bên trong băng thông của tín
hiệu. Chúng được cách đều nhau trên thang Mel và băng thông của chúng được thiết
kế sao cho điểm -3dB nằm ở khoảng giữa hai bộ lọc kế cận nhau. Số lượng bộ lọc là
một trong những thông số ảnh hưởng đến độ chính xác của hệ thống nhận dạng, trong
đề tài này sẽ lựa chọn số lượng bộ lọc là 128.
13