Tải bản đầy đủ (.pdf) (160 trang)

Thiết kế hệ thống nhận dạng tiếng nói tiếng việt theo quy trình thiết kế asic

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.59 MB, 160 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-----------------------

NGUYỄN CHÍ TÂM

THIẾT KẾ HỆ THỐNG NHẬN DẠNG TIẾNG NĨI TIẾNG VIỆT
THEO QUY TRÌNH THIẾT KẾ ASIC

Chun ngành: Kỹ thuật điện tử
Mã số: 60 52 02 03

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, THÁNG 07 NĂM 2016


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP.HCM
Cán bộ hướng dẫn khoa học: PGS.TS Hoàng Trang…………………………
Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 1: PGS.TS Nguyễn Văn Hiếu ………………………
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 2: TS. Trương Quang Vinh…………………………..
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Luận văn thạc sĩ được bảo vệ tại Trường Đại Học Bách Khoa, ĐHQG TP.HCM
ngày 19 tháng 07 năm 2016.
Thành phần hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1. TS. Lê Chí Thơng


(Chủ tịch)

2. TS. Trương Công Dung Nghi

(Thư ký)

3. PGS.TS Nguyễn Văn Hiếu

(Ủy viên phản biện)

4. TS. Trương Quang Vinh

(Ủy viên phản biện)

5. TS. Trần Hoàng Linh

(Ủy viên)

Xác nhận của Chủ tịch Hội đồng đánh giá luận văn và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sữa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA ĐIỆN – ĐIỆN TỬ


ĐẠI HỌC QUỐC GIA TP.HCM

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
TRƯỜNG ĐẠI HỌC BÁCH KHOA

-------------------------------Số: ______ /BKĐT
Khoa: Điện – Điện tử
Bộ Môn: Điện Tử

-----------------------------

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: ……Nguyễn Chí Tâm……..……… MSHV:…7140386……
Ngày, tháng, năm sinh: 17/07/1991 …………………..Nơi sinh: …Bình Phước
Chuyên ngành: ….Kỹ thuật điện tử………………..… Mã số : …60 52 02 03
I. TÊN ĐỀ TÀI: Thiết kế hệ thống nhận dạng tiếng nói Tiếng Việt theo quy trình thiết
kế ASIC

II. NHIỆM VỤ VÀ NỘI DUNG:
 Nhiệm Vụ : Thiết kế bộ trích đặc trưng tiếng nói MFCC theo quy trình
AISC ứng dụng trong hệ thống nhận dạng giọng nói Tiếng Việt.
 Nội Dung :
- Thiết kế bộ trích đặc trưng MFCC với cấu hình động có thể thay đỗi
được thơng qua phần mềm.
- Thực hiện bộ trích đặc trưng MFCC theo quy trình ASIC từ các bước
mơ tả bằng ngôn ngữ phần cứng đến bước thiết kế vật lý

III. NGÀY GIAO NHIỆM VỤ : (Theo QĐ giao đề tài)
17/06/2015……………………………………………………………………..

IV. NGÀY HOÀN THÀNH NHIỆM VỤ: (Theo QĐ giao đề tài)
17/06/2016…………………………………………………………………………

V. CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên):
PGS.TS.HoàngTrang…………………………………………………………………

Nội dung và yêu cầu LVTN đã được thông qua Bộ Môn.
Tp.HCM, ngày…... tháng….. năm 20
CHỦ NHIỆM BỘ MÔN

PHẦN DÀNH CHO KHOA, BỘ MÔN:
Người duyệt (chấm sơ bộ):.......................
Đơn vị:......................................................
Ngày bảo vệ : ...........................................
Điểm tổng kết: .........................................
Nơi lưu trữ luận văn: ...............................

NGƯỜI HƯỚNG DẪN CHÍNH


Lời cảm ơn

GVHD: PGS.TS Hoàng Trang

LỜI CẢM ƠN
Lời đầu tiên tơi chân thành cảm ơn sự hướng dẫn nhiệt tình, đóng góp ý kiến q
báu của thầy Hồng Trang và Thầy Phạm Đăng Lâm cùng với sự hỗ trợ của bộ môn Kỹ
Thuật Điện Tử, khoa Điện – Điện Tử, Trường Đại Học Bách Khoa Thành Phố Hồ Chí
Minh.
Tơi cũng xin chân thành gửi lời cảm ơn đến bạn Ngô Thành Đạt, sinh viên năm 4
chương trình tiên tiến, Đại Học Bách Khoa đã hỗ trợ tôi rất nhiều để tơi có thể hồn thành
tốt luận văn lần này.
Tơi vơ cùng biết ơn gia đình ln ủng hộ và tạo điều kiện tốt nhất để tôi tiếp tục học
tập chương trình thạc sĩ sau 4 năm đại học.
Luận văn thạc sĩ được xem như bước đệm thứ 2 sau khi tốt nghiệp đại học, nó tiếp
thêm tri thức, kinh nghiệm chuyên sâu về nghành kỹ thuật điện tử nói chung và ngành

thiết kế vi mạch theo luồng thiết kế ASIC nói riêng.
Đề tài khơng tránh khỏi các sai sót, kính mong q thầy cơ đánh giá, đóng góp phản
hồi để để tài được hoàn thiện hơn.
Xin chân thành cảm ơn!

Tp. Hồ Chí Minh, ngày 17 tháng 06 năm 2016

.

Học viên

i


Luận văn Thạc Sĩ

GVHD: PGS.TS HỒNG TRANG

TĨM TẮT LUẬN VĂN
Đề tài luận văn “Thiết kế hệ thống nhận dạng tiếng nói Tiếng Việt theo quy trình thiết kế
ASIC “ với mục tiêu thiết kế một hệ thống nhận dạng giọng nói Tiếng Việt với giải thuật phổ
biến để trích xuất đặc trưng tiếng nói là giải thuật MFCC nhưng khác với các thiết kế đã từng
được trình bày trong các đề tài khác về MFCC trong và ngoài nước trước đó.
 Đề tài này tập trung thiết kế kiến trúc MFCC linh động có cấu hình thay đổi được có
thể phối hợp nhịp nhàng với phần mềm để đạt được hiệu quả trích xuất đặc trưng tốt
nhất.
 Kiến trúc được thiết kế theo luồng thiết kế ASIC từ mô tả, sử dụng ngôn ngữ phần
cứng cho đến bước tổng hơp và thiết kế vật lý cho vi mạch.

ii



Luận văn Thạc Sĩ

GVHD: PGS.TS HOÀNG TRANG

SUMMARY OF THESIS
The thesis " Designing Vietnamese speech recognition systems with ASIC design flow"
with the goal of designing a Vietnamese speech recognition system with algorithms to extract
characteristic the voice is MFCC, however, it is different from technical designing have been
shown in other topics of domestic and foreign MFCC earlier.
 This thesis focuses on designing flexible MFCC architecture with the changed
configuration can be adjusted by the software to achieve the best extraction
characteristics.
 The architecture is designed in ASIC design flows from the description by hard
language to synthesize and layout for IC.

iii


Luận văn Thạc Sĩ

GVHD: PGS.TS HỒNG TRANG

LỜI CAM ĐOAN
Tơi xin cam đoan:
1. Tôi xin cam đoan nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp
của Thầy Hoàng Trang và Thầy Phạm Đăng Lâm.
2. Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên cơng trình, thời
gian, địa điểm công bố.

3. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo hay gian trá, tơi xin chịu hồn tồn trách
nhiệm.

Học Viên

Nguyễn Chí Tâm

iv


Luận văn Thạc Sĩ

GVHD: PGS.TS HOÀNG TRANG

MỤC LỤC
MỤC LỤC ...........................................................................................................................................v
DANH SÁCH HÌNH MINH HỌA ................................................................................................. vii
DANH SÁCH BẢNG SỐ LIỆU ...................................................................................................... ix
1.

TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU .............................................................................12
1.1

Tổng quan tình hình nghiên cứu...........................................................................................12

1.2

KIẾN TRÚC PHẦN CỨNG TRÍCH ĐẶC TRƯNG MFCC .............................................14

1.2.1. Pre-emphasis .......................................................................................................................16

1.2.2. Windowing ..........................................................................................................................17
1.2.3. Phân tích phổ dùng FFT ...................................................................................................18
1.2.4. Bộ lọc tần số Mel ................................................................................................................19
1.2.5 Phân tích cepstral................................................................................................................20
1.2.6 Tính tốn năng lượng .........................................................................................................21
1.2.7 Hệ số delta ............................................................................................................................21
1.2.8 Kết luận ................................................................................................................................21
2.

Kiến trúc phần cứng trích đặc trưng MFCC.............................................................................22
2.1

Kiến trúc tổng quan ...............................................................................................................22

2.2

Kiến trúc luồng dữ liệu và điều khiển chi tiết......................................................................25

2.2.1. Main control........................................................................................................................25
2.2.2 Khối pre_emphasis ..............................................................................................................38
2.2.3. Khối window .......................................................................................................................51
2.2.3 Khối FFT ..............................................................................................................................55
2.2.4 Khối tính biên độ .................................................................................................................61
2.2.5 Khối bộ lọc Mel....................................................................................................................66
2.2.6 Khối tính Cepstrum ............................................................................................................74
2.2.7 Khối Copy_Energy ..............................................................................................................77
2.2.8 Khối tính Delta ....................................................................................................................80
2.2.9 Kết luận ................................................................................................................................87

v



Luận văn Thạc Sĩ

GVHD: PGS.TS HỒNG TRANG

2.3 KẾT QUẢ MƠ PHỎNG ............................................................................................................87
2.3.1 Môi trường mô phỏng .........................................................................................................87
2.3.2 Các testcase và cấu hình .....................................................................................................88
2.3.3 Độ chính xác.........................................................................................................................89
2.3.4 Tính thời gian thực ..............................................................................................................91
3. KẾT QUẢ THIẾT KẾ VẬT LÝ .....................................................................................................93

4.

3.1

Kết quả tổng hợp từ cấp dộ RTL xuống lớp cổng ...............................................................93

3.2.

Thiết kế vật lý cho bản vẽ chip..............................................................................................96

THỰC NGHIỆM THIẾT KẾ MFCC TRONG HỆ THỐNG NHẬN DẠNG .........................98
4.1 Kết Quả Thực Nghiệm ...............................................................................................................99
4.1.1 Dữ liệu âm thanh .................................................................................................................99
4.1.2 Mơ hình kiểm tra và thử nghiệm trên phần mềm ..........................................................100
4.1.3. Kết quả nhận dạng ...........................................................................................................102
4.2. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................................................105
4.2.1 Kết luận ..............................................................................................................................105

4.2.2. Đánh giá mức độ kết quả đạt được .................................................................................105
4.2.3. Ý nghĩa khoa học đề tài....................................................................................................106
4.2.4. Đề nghị hướng phát triển của đề tài ...............................................................................106

TÀI LIỆU THAM KHẢO .................................................................................................................107
PHỤ LỤC 1 : CÁC CƠNG TRÌNH NGHIÊN CỨU VÀ BÀI BÁO KHOA HỌC .......................111
PHỤ LỤC 2 .........................................................................................................................................131

vi


Luận văn Thạc Sĩ

GVHD: PGS.TS HỒNG TRANG

DANH SÁCH HÌNH MINH HỌA

Hình 1.1 Trích đặc trưng trong hệ thống nhận dạng tiếng nói .......................................................12
Hình 1.2 Sơ đồ khối thuật tốn trích đặc trưng ................................................................................15
Hình 1.3 Đáp ứng tần số được chuẩn hóa của bộ lọc pre-emphasis ................................................16
Hình 1.4 Phổ của tín hiệu trước và sau khi qua khối pre-emphasis ................................................16
Hình 1.5 Tín hiệu âm thanh được chia thành các sub-khung ..........................................................17
Hình 1.6 Thang đo Mel đối với tín hiệu âm tần .................................................................................19
Hình 1.7 Bộ lọc tần số Mel ...................................................................................................................20
Hình 2.1 Giao tiếp trích đặc trưng MFCC trong hệ thống..............................................................22
Hình 2.2 Sơ đồ luồng dữ liệu bên trong trích đặc trưng MFCC ......................................................24
Hình 2.3 Máy trạng thái khối Main Control......................................................................................28
Hình 2.4 Sơ đồ khối Pre-emphasis ......................................................................................................38
Hình 2.5 Cơng thức tính Logarithm ...................................................................................................40
Hình 2.6 Sơ đồ luồng dữ liệu thực hiện phép toán Logarithm theo phương pháp LUT ...............40

Hình 2.7 Sơ đồ khối Window...............................................................................................................51
Hình 2.8 Ý nghĩa trạng thái khối Window .........................................................................................52
Hình 2.9 Kiến trúc tổng qt khối FFT .............................................................................................56
Hình 2.10 Mơ tả cánh bướm đơn vị ....................................................................................................56
Hình 2.11 Mơ tả chi tiết các phép tốn trong cánh bướm đơn vị.....................................................57
Hình 2.12 Mơ hình chuyển trạng thái cho khối kiến trúc................................................................57
Hình 2.13 Mơ hình sơ đồ chi tiết khối FFT ......................................................................................59
Hình 2.14 Sơ đồ khối tính biên độ.......................................................................................................61
Hình 2.15 Ý nghĩa trạng thái khối tính biên độ .................................................................................62
Hình 2.16 Sơ đồ khối bộ lọc Mel .........................................................................................................66
Hình 2.17 Ý nghĩa trạng thái khối bộ lọc Mel....................................................................................67
Hình 2.18 Sơ đồ khối bộ tính Cepstrum .............................................................................................74
Hình 2.19 Máy trạng thái khối Cepstrum ..........................................................................................75

vii


Luận văn Thạc Sĩ

GVHD: PGS.TS HỒNG TRANG

Hình 2.20 Máy trạng thái khối Copy_energy ....................................................................................78
Hình 2.21 Sơ đồ khối bộ tính Delta .....................................................................................................80
Hình 2.22 Máy trạng thái khối Delta ..................................................................................................81
Hình 2.23 Mơi trường mơ phỏng ........................................................................................................88
Hình 3.1 Bản vẽ 3D của GDS một standard cell cơ bản ...................................................................96
Hình 3.2 Các đường tín hiệu được đi dây sau bước route ................................................................97
Hình 3.3 Các macro thể hiện cho các module trong khối MFCC ....................................................97
Hình 3.4 Ví dụ về kết quả DRC được kiểm tra bằng cơng cụ IC validator ....................................98
Hình 4.1 MFCC trong hệ thống nhận dạng sử dụng HMM .............................................................99

Hình 4.2 Giao diện thu âm trên kit ...................................................................................................100
Hình 4.3 Giao diện cắt mẫu âm thanh trên phần mềm...................................................................100
Hình 4.4 Giao diện các thơng số huấn luyện mơ hình .....................................................................101
Hình 4.5 Giao diện nhận dạng mẫu âm thanh .................................................................................102
Hình 4.6 Bộ từ vựng cần nhận dạng .................................................................................................103
Hình 4.7 Giao diện nhận dạng phần mềm Matlab ..........................................................................104

viii


Luận văn Thạc Sĩ

GVHD: PGS.TS HOÀNG TRANG

DANH SÁCH BẢNG SỐ LIỆU
Bảng 1.1 Các cơng trình nghiên cứu về nhận dạng tiếng nói ...........................................................12
Bảng 1.2 Cấu hình trích đặc trưng MFCC ........................................................................................13
Bảng 1.3 Khảo sát cấu hình FFT trong trích đặc trưng MFCC ......................................................18
Bảng 2.1 Cấu hình động của kiến trúc trích đặc trưng MFCC và giới hạn....................................22
Bảng 2.2 Cấu hình bộ nhớ và chức năng tương ứng .........................................................................23
Bảng 2.3 Thứ tự thực hiện luồng dữ liệu MFCC...............................................................................25
Bảng 2.4 Ý nghĩa các trạng thái của khối Main Control ..................................................................28
Bảng 2.5 Chuyển trạng thái trong khối Main Control .....................................................................28
Bảng 2.6 Ngõ ra của máy trạng thái khối Main Control ..................................................................29
Bảng 2.7 Ý nghĩa ngõ ra và ngõ vào của khối Main Control ...........................................................37
Bảng 2.8 Ý nghĩa trạng thái khối Pre-emphasis ................................................................................41
Bảng 2.9 Chuyển trạng thái trong khối Pre-emphasis ......................................................................42
Bảng 2.10 Ngõ ra và ngõ vào khối Pre-emphasis...............................................................................42
Bảng 2.11 Ý nghĩa ngõ ra của máy trạng thái khối Pre-emphasis ...................................................43
Bảng 2.12 Ngõ ra của máy trạng thái khối Pre-emphasis ................................................................44

Bảng 2.13 Ý nghĩa trạng thái khối Window.......................................................................................52
Bảng 2.14 Chuyển trạng thái trong khối Window ............................................................................53
Bảng 2.15 Ý nghĩa ngõ ra và ngõ vào khối Window .........................................................................53
Bảng 2.16 Ý nghĩa ngõ ra của máy trạng thái khối Window ...........................................................54
Bảng 2.17 Ngõ ra của máy trạng thái khối Window .........................................................................54
Bảng 2.18 Mơ tả q trình chuyển trạng thái....................................................................................58
Bảng 2.19 Chi tiết chức năng của các thành phần trong khối FFT .................................................59
Bảng 2.20 Ý nghĩa trạng thái khối tính biên độ.................................................................................62
Bảng 2.21 Chuyển trạng thái trong khối tính biên độ ......................................................................62
Bảng 2.22 Ý nghĩa ngõ ra và ngõ vào khối Biên độ ...........................................................................63
Bảng 2.23 Ý nghĩa ngõ ra của máy trạng thái khối tính biên độ .....................................................63
Bảng 2.24 Ngõ ra của máy trạng thái khối tính biên độ ...................................................................64

ix


Luận văn Thạc Sĩ

GVHD: PGS.TS HOÀNG TRANG

Bảng 2.25 Ý nghĩa các trạng thái khối Mel ........................................................................................67
Bảng 2.26 Chuyển trạng thái trong khối bộ lọc Mel .........................................................................68
Bảng 2.27 Ngõ ra và ngõ vào khối Mel ...............................................................................................69
Bảng 2.28 Ý nghĩa các ngõ ra máy trạng thái khối Mel....................................................................69
Bảng 2.29 Ngõ ra máy trạng thái khối Mel ........................................................................................69
Bảng 2.30 Ý nghĩa trạng thái khối bộ lọc Cepstrum .........................................................................75
Bảng 2.31 Chuyển trạng thái trong khối tính Cepstrum ..................................................................76
Bảng 2.32 Ngõ ra và ngõ vào khối Cepstrum.....................................................................................76
Bảng 2.33 Ý nghĩa ngõ ra máy trạng thái khối Cepstrum ................................................................77
Bảng 2.34 Ý nghĩa các trạng thái khối Copy_energy ........................................................................78

Bảng 2.35 Chuyển trạng thái trong khối tính Copy_energy ............................................................78
Bảng 2.36 Ý nghĩa ngõ vào và ngõ ra khối Copy_energy .................................................................79
Bảng 2.37 Ý nghĩa ngõ ra các trạng thái khối Copy_energy ............................................................79
Bảng 2.38 Ngõ ra các trạng thái khối Copy_energy ..........................................................................79
Bảng 2.39 Ý nghĩa trạng thái khối Delta ............................................................................................81
Bảng 2.40 Chuyển trạng thái trong khối tính Delta ..........................................................................81
Bảng 2.41 Ngõ ra và ngõ vào khối tính Delta.....................................................................................82
Bảng 2.42 Ý nghĩa ngõ ra các trạng thái trong khối tính Delta .......................................................82
Bảng 2.43 Ngõ ra các trạng thái trong khối tính Delta .....................................................................83
Bảng 2.44 Cấu hình MFCC cho testcase ............................................................................................89
Bảng 2.45 Sai số lớn nhất trong mỗi testcase .....................................................................................89
Bảng 2.46 Sai số trung bình của các testcase .....................................................................................90
Bảng 2.47 thời gian tính tốn tối đa của các tầng..............................................................................92
Bảng 3.3 Bảng quan hệ tần số và diện tích khi tổng hợp ..................................................................95
Bảng 4.1 Bộ từ vựng âm thanh nhận dạng.........................................................................................99
Bảng 4.2 Các công cụ thu âm ..............................................................................................................99
Bảng 4.3 Bộ từ vựng được nhận dạng ..............................................................................................103
Bảng 4.4 Kết quả nhận dạng .............................................................................................................104

x


Luận văn Thạc Sĩ

GVHD: PGS.TS HOÀNG TRANG

Bảng 4.5 Kết quả sai khi nhận dạng trên phần mềm và phần cứng ..............................................104

xi



Luận văn Thạc Sĩ

1.

GVHD: PGS.TS HỒNG TRANG

TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU
1.1 Tổng quan tình hình nghiên cứu

Tiếng nói là phương tiện giao tiếp cơ bản nhất của con người. Ngày nay, tiếng nói
được nghiên cứu và ứng dụng trong rất nhiều lĩnh vực khác nhau, trong đó, nổi bật
nhất là các hệ thống nhận dạng trong các ứng dụng bảo mật, tự động …
Tương tự như các hệ thống nhận dạng khác, mơ hình nhận dạng tiếng nói bao
gồm hai q trình chính là huấn luyện và nhận dạng. Theo đó, cả hai q trình nhận
dạng và huấn luyện nhận các đối tượng ngõ vào là các giá trị đặc trưng được trích
xuất từ tiếng nói. Như vậy trong bất cứ hệ thống nhận dạng giọng nói nào, trích đặc
trưng nhằm rút trích những thơng số đặc trưng nhất của tiếng nói trước khi xử lý là
khơng thể thiếu được. Điều này cũng tương tự như quá trình nhận dạng khn mặt,
dấu vân tay hay bất cứ dạng tín hiệu nào mang dữ liệu lớn. Để có thể có được cái
nhìn tổng quan về vị trí và vai trị của phương pháp trích đặc trưng, hình 1.1 mơ tả
chi tiết về trích đặc trưng trong hệ thống nhận dạng tiếng nói

Mơ hình
thơng số

Huấn Luyện

Trích Đặc
Trưng


Âm thanh

Nhận Dạng

Kết quả

Hình 1.1 Trích đặc trưng trong hệ thống nhận dạng tiếng nói

Hiện nay có rất nhiều các phương pháp trích đặc trưng trong hệ thống nhận dạng
tiếng nói, một số thống kê và khảo sát sau đây nêu bật tình hình nghiên cứu liên
quan đến nhận dạng tiếng nói và các ứng dụng tương ứng.
Bảng 1.1 Các cơng trình nghiên cứu về nhận dạng tiếng nói

nghiệm Phương pháp

Tác giả

Thử
trên

Bộ nhận dạng

Kết luận

[1]

Hardware

MFCC


HMM

MFCC tốt hơn LPC

(FPGA)

And

And

LPC

Software

And

(C++)

ENH-MFCC

[2]

-

ICA

HMM

-


[3]

Software

LPC

ANN

MFCC tốt hơn LPC
12


Luận văn Thạc Sĩ

GVHD: PGS.TS HOÀNG TRANG

And
MFCC
[4]

Software

MFCC

HMM

-

[5]


Software

MFCC

DTW

-

[6]

FPGA

MFCC

HMM

-

[7]

Software

MFCC

GMM

Dynamic MFCC tốt
hơn 5% đến 6%


General

-MFCC được
nhiều nhất

(Dynamic)
[8]

-

General

dùng

-GMM và HMM nhận
dạng tốt nhất
Dựa trên những thống kê về tình hình nghiên cứu có thể thấy được phương pháp
trích đặc trưng dựa trên tần số MFCC (Mel-frequency cepstral coefficients) được lựa
chọn chủ yếu. Phân tích chi tiết hơn cấu hình bên trong của phương pháp trích đặc
trưng MFCC, bảng 1.2 mơ tả các thống kê cho thấy những cấu hình thơng dụng tương
ứng với các ứng dụng.
Bảng 1.2 Cấu hình trích đặc trưng MFCC
Tác
giả

Thử
nghiệm
trên

Ngơn

ngữ

Số từ

[9]

FPGA
(Xilinx)
ASIC
(0.6µm)
ASIC
(130nm)
And
FPGA
(Xilinx)
ASIC
(0.18
µm)

-

[10]
[11]

[12]

[13]
[14]

[15]

[16]

Tỷ
lệ Số
Overlap điểm
FFT

Số bộ Số
Bậc
lọc
Cepstral Delta
Mel

-

Số
điểm
trên
Frame
1024

50%

1024

24

24

-


-

-

256

-

256

20

12

-

-

452

256

50%

256

32

13


Bậc 2

English 18

256

50%

256

-

12

FPGA
English 11
FPGA
(Xilinx
Spartan)
FPGA
English 20

160
512

50%
50%

256

512

33
24

12
12

Dynamic
(Bậc 1
và Bậc
2)
Bậc 2
-

128256
256

50%

128256
256

24

12

-

-


17

Bậc 1

FPGA
(Xilinx)

-

1000

50%

13


Luận văn Thạc Sĩ

GVHD: PGS.TS HOÀNG TRANG

Theo như bảng 1.2, có thể khái qt hố cấu hình trích đặc trưng MFCC với những
đặc trưng nổi bật sau
 Các cấu hình MFCC như là số điểm tỉ lệ chồng lấp, số điểm FFT, số cepstrum
hoặc cách tính delta là khác nhau cho từng hệ thống.
 Các ngôn ngữ khác nhau hoặc số từ vựng thay đổi yêu cầu các cấu hình
MFCC khác nhau.
 Các kiến trúc MFCC phần cứng thường cứng nhắc trong các cấu hình vì vấn
đề tài nguyên sử dụng.
 Các kiến trúc MFCC phần cứng thường áp dụng số dấu chấm tĩnh. Việc này

cho thấy khả năng sai số cao khi mà số điểm FFT lớn.
 Các kiến trúc MFCC bé đáp ứng số từ vựng nhỏ.
Với những xu hướng nghiên cứu và thiết kế như trên cho thấy hai tồn tại trong
thiết kế trích đặc trưng MFCC hiện nay. Một là khả năng linh động trong cấu hình bị
ràng buộc chặt chẽ bởi ứng dụng với số mẫu nhận dạng khác nhau hay tiếng nói khác
nhau theo quốc gia. Hai là việc tiếp cận phương pháp này trên phần cứng cịn hạn chế
vì nhiều vấn đề liên quan đến độ chính xác và tài ngun.
Để có thể cải thiện hai vấn đề này, một kiến trúc phần cứng MFCC động được
giới thiệu với khả năng thiết lập các giá trị như số điểm lấy mẫu trên một khung dữ
liệu âm thanh, chiều dài một khung dữ liệu, tỉ lệ chồng lấp, số điểm FFT, số cepstrum
và bậc tính hệ số delta được giới thiệu. Với một thiết kế động như trên, kiến trúc phần
cứng MFCC có thể đáp ứng trong hầu hết các hệ thống/thiết bị nhận dạng tiếng nói
một cách hiệu quả. Trước nhất, việc phân tích lý thuyết và phương pháp cũng như các
kiến trúc thành phần được đặc tả chi tiết.
1.2

KIẾN TRÚC PHẦN CỨNG TRÍCH ĐẶC TRƯNG MFCC

Như đã trình bày ở chương 1, việc tiếp cận phương pháp trích đặc trưng MFCC
cho phép tạo tiền đề thành cơng cho tồn bộ hệ thống vì phương pháp này đã chứng
minh được hiệu năng của nó trong hầu hết các ứng dụng cũng như nghiên cứu được
khảo sát. Trước hết, lý thuyết về trích đặc trưng MFCC được thuyết mình. Sau đó
cấu hình MFCC được khảo sát và quyết định trước khi thực thi chi tiết phần cứng.
Sơ đồ giải thuật:

14


Luận văn Thạc Sĩ


GVHD: PGS.TS HỒNG TRANG

Logged
energy

Pre-emphasis

FrameBlocking

Windowing

FFT

Mel Filter

Cepstral

Delta

MFCC
Hình 1.2 Sơ đồ khối thuật tốn trích đặc trưng

Mơ hình lý thuyết như hình 1.2 cho thấy các kiến trúc khối cơ bản của trích đặc
trưng MFCC. Lần lượt từng khối chức năng được phân tích, xây dựng phần cứng từ
lý thuyết mô tả.

15


Luận văn Thạc Sĩ


GVHD: PGS.TS HỒNG TRANG

1.2.1. Pre-emphasis
Tín hiệu sau khi được số hóa được lọc với bộ tiền lọc pre_emphasis có đáp
ứng xung hữu hạn bậc nhất. Bộ tiền lọc pre-emphasis được sử dụng để khuếch đại
các tín hiệu ở các mức tần số cao. Hàm truyền của bộ lọc được cho bởi phương
trình (1.1), trong đó tham số a tiêu biểu từ 0.9 đến 1. Trong miền thời gian, mối
quan hệ giữa ngõ ra với ngõ vào được chỉ ra trong phương trình (1.2), với si là
điểm thứ i của tín hiệu tiếng nói khi chưa qua b ộ lọc và s i’ là điểm thứ i của tín
hiệu tiếng nói sau khi được pre- emphasis.
( )
(1.1)
(1.2)
Trong các hệ thống nhận dạng tiếng nói bằng phần mềm thì a = 0.97, khi đó đáp
ứng tần số của bộ lọc được chỉ ra trong hình 2.2 và phổ tín hiệu trước và sau bộ lọc
được chỉ ra trong hình 2.3

Hình 1.3 Đáp ứng tần số được chuẩn hóa của bộ lọc pre-emphasis

Hình 1.4 Phổ của tín hiệu trước và sau khi qua khối pre-emphasis

Vấn đề nảy sinh khi tiếp cận phần cứng là giá trị hệ số a là số thập phân. Việc sử
dụng các giá trị gần đúng trong tiếp cận phần cứng có thể sẽ ảnh hưởng đến kết quả
nhận dạng. Việc thiết lập cứng giá trị a cũng là một trong những vấn đề cần quan tâm.
Khung blocking

16



Luận văn Thạc Sĩ

GVHD: PGS.TS HỒNG TRANG

Bởi vì tín hiệu tiếng nói là tín hiệu biến đổi chậm theo thời gian, trong một hệ
thống nhận dạng tiếng nói thì tiếng nói được phân đoạn thành những khoảng
thời gian ngắn được gọi là các khung. Để cho các thông số của khung ít thay
đổi, thơng thường có 50% chồng lấp giữa các khung kế cận nhau, như trong hình
1.5.

Hình 1.5 Tín hiệu âm thanh được chia thành các sub-khung

( />Trong các hệ thống nhận dạng tiếng nói bằng phần mềm, tiếng nói được chia
thành những khung có chiều dài 20 ms với 10 ms chồng lấp. Khi tiếng nói được lấy
mẫu với tần số 8 khz sẽ có 160 mẫu trong mỗi khung và có 80 mẫu được chồng lấp
giữa 2 khung kế cận nhau. Tuy nhiên, chồng lấp 50% không phải luôn luôn được sử
dụng, các giá trị 40%, 60% hay thậm chí là 70% cũng được xem là những giá trị
chồng lập hiệu quả. Mặt khác, một số hệ thống không nhất thiết sử dụng 8 khz là tần
số lấy mẫu vì các nghiên cứu cho thấy một số đặc trưng nằm ở miền tần số cao hơn.
1.2.2. Windowing
Một bộ lọc cửa sổ thường được ứng dụng để gia tăng tính liên tục giữa các
khung kế cận nhau. Một trong các cửa sổ được dùng phổ biến nhất trong nhận
dạng tiếng nói đó chính là cửa sổ Hamming được xác định bởi phương trình (1.3),
trong đó L là chiều dài cửa sổ và nó bằng với chiều dài của các khung.
()

[

(


)

], l = 1, 2, …, L

(1.3)

Tiếng nói sau khi được chia thành những khung có chiều dài với tỉ lệ chồng lấp
chồng lấp cho trước sẽ nhân với các hệ số của bộ lọc Hamming như trình bày bởi
phương trình (1.4), trong đó f n l
là khung được pre-emphasis thứ n, ham(l)
thay cho cửa sổ Hamming và wf n l
là khung thứ n sau khi qua cửa sổ Hamming.
()
()
( ) , l = 1, 2, …, 160
(1.4)
Tuy nhiên, khi cửa số điểm trên một khung dữ liệu thay đổi, giá trị hệ số của bộ
lọc cửa sổ cũng sẽ thay đổi theo. Do đó, việc cứng nhắc các giá trị hệ số của bộ lọc
cửa sổ trong phần cứng đồng nghĩa với việc cố định số điểm trên một khung dữ liệu.
17


Luận văn Thạc Sĩ

GVHD: PGS.TS HỒNG TRANG

1.2.3. Phân tích phổ dùng FFT
Biến đổi Fourier nhanh (FFT) được dùng để tính tốn phổ của tín hiệu tiếng nói.
Đó chính là sự thực thi phép biến đổi Fourier rời rạc (DFT) đạt hiệu suất cao với
điều kiện ràng buộc là phổ được đánh giá tại những tần số rời rạc, những tần số này

được nhân với fs/N (các tần số trực giao với nhau), trong đó fs là tần số lấy mẫu, N là
chiều dài của DFT. Thuật toán FFT chỉ yêu cầu khối lượng tính tốn tỷ lệ N log
N, trong khi đó DFT u cầu khối lượng tính tốn tỷ lệ với N2.
Độ phân giải tần số của DFT bị giới hạn bởi 2 yếu tố: chiều dài của tín hiệu
và chiều dài của DFT. Nếu tín hiệu được tạo ra bởi việc cộng hai tín hiệu sin mà tần
số của hai tín hiệu này rất gần với nhau, khi đó để phân biệt hai tần số này chúng
ta phải quan sát tín hiệu với phân đoạn đủ dài. Đối với chiều dài của DFT, phổ
tần số được tạo ra bởi N điểm DFT bao gồm N/2 điểm cách đều nhau phân bố giữa
0 đến phân nửa tần số lấy mẫu. Vì vậy để tách rời hai tần số có khoảng cách gần
nhau thì khoảng cách giữa các điểm phải nhỏ hơn khoảng cách giữa hai đỉnh. Ví
dụ khi các frame được cửa sổ hóa với chiều dài là 160 điểm, chiều dài DFT được
thiết lập là 256 điểm để đạt được độ phân giải tần số tốt với khối lượng tính tốn
có thể chấp nhận được khi thực thi phần cứng thực tế. Sau khi biến đổi FFT 256
điểm, chỉ có biên độ của 128 điểm đầu tiên được dùng cho bước tính tốn tiếp
theo bởi tính chất đối xứng của phép biến đổi FFT.
Biến đổi FFT là một trong những bước chiếm nhiều thời gian cũng như tài nguyên
của hệ thống. Do đó việc tiếp cận phần cứng FFT sẽ ảnh hưởng lớn đến tồn bộ kiến
trúc trích đặc trưng MFCC. Một số kiến trúc FFT mà tiếp cận phần cứng cũng được
đề cập ở bảng 2.1.
Bảng 1.3 Khảo sát cấu hình FFT trong trích đặc trưng MFCC

Tác giả

Cấu hình

GIN-DER
WU [17]

256 điểm


Thời
gian
thực thi khối
FFT

Thử nghiệm trên

Giải Thuật

ASIC (0.18µm)

Cánh bướm đơn
10,4 µs
vị

ASIC (0.13µm)

Kiểu đường ống

-

ASIC(65 nm)

Kiểu đường ống

6,7 µs

Lihong Jia 128 điểm
[20]
Cơ số 2/4/8


ASIC (0.6µm)

Kiểu đường ống

3 µs

Atin
Mukherjee 8 điểm
[21]
Cơ số 2

FPGA (Xilinx Virtx- Cánh bướm đơn
19,598 ns
6)
vị

Jungmin
Park [22]

FPGA (Xilinx Virtex- Cánh bướm đơn 0,33 µs (64
5)
vị
điểm)

Cơ số 2

Chin-Teng 256 điểm
Lin [18]
Cơ số 16

1024 điểm
Dongsuk
Jeon [19]

Cơ số 4

64 – 8K điểm

18


Luận văn Thạc Sĩ

GVHD: PGS.TS HOÀNG TRANG

Cơ số 8
K.
Umapathy
[23]

128 điểm
Cơ s 2/4

Ediz ầetin 256 im
[24]
C s 2

96,20 às (8K
im)
ASIC(90 nm)


Kiu đường ống

ASIC (0.7µm)

Cánh bướm đơn
102,4 µs
vị

40 µs

1.2.4. Bộ lọc tần số Mel
Một băng bộ lọc số được dùng để mô hình các tầng ban đầu của phần chuyển
đổi trong hệ thống thính giác con người với 2 lý do sau. Thứ nhất, vị trí của việc
dịch chuyển cực đại dọc theo màng rung trong tai người để kích thích thì tỷ lệ
với logarithm của tần số âm thanh. Thứ hai, các tần số của âm thanh phức hợp bên
trong một băng tần xác định của một vài tần số danh định không thể được nhận
ra một cách riêng lẻ được.
Hệ thống thính giác của con người khơng tuyến tính với tần số âm thanh nhận
được, một thang đo Mel được dùng để ánh xạ tần số âm thanh nhận được sang
thang đo tuyến tính. Thang tần số này được định nghĩa bởi phương trình (1.5) và
được minh họa ở hình 2.5. Nó xấp xỉ như thang tuyến tính trong khoảng từ 0 đến
1000Hz, xấp xỉ như thang logarithm bên ngoài tần số 1000Hz.

Hình 1.6 Thang đo Mel đối với tín hiệu âm tần

( />Mel(fmel) = 2595 log10 (
)
(1.5)
Băng thông bộ lọc thang đo Mel thơng thường trong nhận dạng tiếng nói bao

gồm một số bộ lọc bandpass hình tam giác được phân bố bên trong băng thơng tín
hiệu. Chúng phân bố cách đều nhau trên thang Mel và băng thông của chúng được
thiết kế sao cho điểm 3db nằm ở khoảng giữa hai bộ lọc kế cận nhau như hình 2.6.

19


Luận văn Thạc Sĩ

GVHD: PGS.TS HỒNG TRANG

Hình 1.7 Bộ lọc tần số Mel

( />Số lượng bộ lọc là một trong những thơng số ảnh hưởng đến sự chính xác của
hệ thống nhận dạng tiếng nói. Đối với mỗi frame, ngõ ra của bộ lọc là một vectơ hệ
số công suất gồm 27 phần tử. Hệ số công suất thứ k của frame thứ n được tính tốn
bởi phương trình (1.6), trong đó Snj là điểm phổ thứ j của frame thứ n, và fckj là chỉ
hệ số thứ j của bộ lọc thứ k

, k = 1,2,...K
(1.6)
Khi số lượng bộ lọc ít đi, các giá trị ở tần số cao hơn khơng được tính tốn thơng
qua bộ lọc. Cố định bộ lọc hay cố dịnh các hệ số bộ lọc là vấn đề quan trọng trong
tiếp cận phần cứng vì việc thay đổi những thông số này ảnh hưởng nghiêm trọng đến
việc hiệu năng hệ thống. Một vấn đề đáng quan tâm là độ chính xác của bộ lọc, việc
sử dụng bộ lọc tam giác với các hệ số thập phân cho thấy vấn đề hiệu năng khi sử
dụng các giá trị gần đúng.
1.2.5 Phân tích cepstral
Tín hiệu tiếng nói s có thể được mơ tả như là kết quả của phép tích chập tín
hiệu kích thích với đáp ứng xung của bó thanh âm

s=gv
(1.7)
S=G.V
(1.8)
Log S = l o g G .
logV
(1.9)
Trong đó g là tín hiệu kích thích, v là đáp ứng xung của bó thanh âm. Phương
trình (1.7) chỉ ra mối quan hệ giữa g và v trong miền thời gian, phương trình (1.8)
chỉ ra mối quan hệ trong miền tần số. Sau khi lấy logarithm 2 vế, chúng ta được
phương trình (1.9), với tín hiệu kích thích và đáp ứng xung của bó thanh âm được
tách rời nhau. Đáp ứng của bó thanh âm quyết định đường bao của phổ, trong khi
đó phổ của tín hiệu kích thích biểu diễn các thành phần phổ của tiếng nói. Đối
với nhận dạng tiếng nói, đường bao của phổ hữu ích hơn các thành phần phổ, vì vậy
chúng ta có thể sử dụng phép biến đổi Fourier ngược để tìm đường bao của phổ.
Cepstrum được định nghĩa là phép biến đổi Fourier ngược của các hệ số công
suất sau khi lấy logarithm. Nó có thể được đơn giản hóa như là phép biến đổi DCT.
) )] , p = 1, 2, (1.10)
Cnp = [∑ (
)
((
20


Luận văn Thạc Sĩ

GVHD: PGS.TS HỒNG TRANG

…, P
Trong đó p là bậc (thứ tự) của các hệ số cepstral. Thông thường, đối với mỗi

khung C0 khơng dùng trong phân tích bởi vì nó khơng đáng tin cậy. Các hệ số
cepstrum có bậc thấp phản ánh thơng tin bó thanh âm của tín hiệu tiếng nói.
Trong phép phân tích phổ cho việc nhận dạng tiếng nói, thơng thường chỉ sử dụng
từ 8 đến 16 hệ số cepstrum có bậc thấp, trong đa số các ứng dụng dùng 12 hệ số
cepstrum.
Vấn đề xảy ra khi tiếp cận phần cứng như các khối chi tiết ở trên, việc tính logarit
bằng các phương pháp gần đúng cũng như số hệ số hàm cos là những vấn đề đáng
quan tâm.
1.2.6 Tính tốn năng lượng
Cơng suất của mỗi khung cũng là thành phần trong đặc trưng MFCC. Nó được
nl
tính tốn như là logarithm của cơng suất tín hiệu, có nghĩa là đối với khung thứ n,
mỗi khung có 160 mẫu Snl trong đó l = 1, 2, … 160
)
( 1.11)
Log En = log (∑
Năng lượng này được tính tốn độc lập trước khi pre-emphasis và windowing
theo công thức1.11.
1.2.7 Hệ số delta
Chất lượng của hệ thống nhận dạng tiếng nói có thể được cải thiện nhiều hơn
bằng cách thêm vào tính đạo hàm theo thời gian để có được những thơng số dừng cơ
bản. Trong xử lý tín hiệu số, đạo hàm cấp 1 theo thời gian có thể được xấp xỉ bởi:
( )

( )

( )

(


(
)

)

(1.12)

( )

(1.13)

Phương trình (1.12) cịn được gọi là sai phân lùi, cịn phương trình (1.13) cịn
được gọi là sai phân tiến. Vì vậy, các hệ số delta có thể được tính tốn bằng cách sử
dụng công thức hồi quy ( 1.14), trong đó dn là vectơ hệ số delta của khung thứ n.
Để tính hệ số delta dn dùng các vectơ hệ số dừng từ cn-2 đến cn+2 với cn là vectơ bao
gồm log năng lượng và 12 hệ số cepstral của khung thứ n.
Dn =

(

) (

)

(1.14)

Một số phương pháp sử dụng thêm các cơng thức tính delta bậc 2 nhằm tăng độ
chính xác của hệ thống. Việc chọn lựa số bậc ảnh hưởng không nhỏ đến chất lượng
của hệ thống sau này.
1.2.8 Kết luận

Mơ hình cũng như thuật tốn khối trích đặc trưng MFCC được phân tích chi tiết
cho thấy những lợi thế và bất lợi trong việc tiếp cận mô hình phần cứng. Vấn đề đặt ra
là kiến trúc phần cứng có khả năng đáp ứng tính linh động như thế nào để có thể phù
hợp hầu hết các thay đổi liên quan đến số lượng tiếng nói, tần số lấy mẫu cũng như
các đặc trưng thuộc các vùng miền khác nhau.

21


Luận văn Thạc Sĩ

GVHD: PGS.TS HOÀNG TRANG

2. Kiến trúc phần cứng trích đặc trưng MFCC
2.1

Kiến trúc tổng quan

Xem kiến trúc MFCC đóng vai trị như một IP trong hệ thống hoàn chỉnh với core
ARM làm lõi điều khiển. Kiến trúc phần cứng MFCC giao tiếp với core ARM thông
qua giao thức APB thơng dụng như hình 2.5.

Bộ nhớ

…………...

Giao diện bộ nhớ

Lõi ARM


APB BUS

Trích đặc trưng
MFCC

Bộ nhớ
Hình 2.1 Giao tiếp trích đặc trưng MFCC trong hệ thống

Thông qua giao thức bus APB khối trích đặc trưng sẽ được thiết lập trước khi hoạt
động. Những thông số thiết lập mong muốn cho trích đặc trưng MFCC cũng như giới
hạn của các thơng số này được trình bày bởi bảng 2.2 sau đây.
Bảng 2.1 Cấu hình động của kiến trúc trích đặc trưng MFCC và giới hạn
Số điểm trên một khung dữ liệu (điểm)

Tối đa 1024

Tỉ lệ chồng lấp (%)

30-70

Giá trị hệ số a

Bất kỳ giá trị nào

Số điểm bộ lọc cửa sổ window (điểm)

Tối đa 1024

Số điểm FFT (điểm)


Tối đa 1024

Số bộ lọc Mel (bộ lọc)

Tối đa 63

Số Cepstrum

Tối đa 31

Bậc Delta

Bậc 2

Số đặc trưng cho mỗi vector đặc trưng
Tối đa 63
MFCC

22


×