Tải bản đầy đủ (.pdf) (74 trang)

ỨNG DỤNG HTK TOOLKIT XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI RỜI RẠC VỚI BỘ TỪ VỰNG HỮU HẠN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.92 MB, 74 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
-----  -----

LÊ NGỌC HUY

ỨNG DỤNG HTK TOOLKIT XÂY DỰNG HỆ THỐNG
NHẬN DẠNG TIẾNG NÓI RỜI RẠC VỚI BỘ TỪ VỰNG HỮU HẠN

LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH

Đà Nẵng - Năm 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
-----  -----

LÊ NGỌC HUY
ỨNG DỤNG HTK TOOLKIT XÂY DỰNG HỆ THỐNG
NHẬN DẠNG TIẾNG NÓI RỜI RẠC VỚI BỘ TỪ VỰNG HỮU HẠN

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60480101

LUẬN VĂN THẠC SĨ
Người hướng dẫn khoa học:
TS.Ninh Khánh Duy

Đà Nẵng - Năm 2018




i

LỜI CAM ĐOAN

Tôi xin cam đoan đây là luận văn do tôi nghiên cứu dưới sự hướng dẫn khoa học
của TS.Ninh Khánh Duy. Các kết quả trong phần kết luận là hoàn toàn trung thực do
bản thân thực hiện nghiên cứu, so sánh và đánh giá.
Các nguồn tài liệu tham khảo trong và ngồi nước đều được trích dẫn đầy đủ, phù
hợp với các quy định hiện hành của Bộ Giáo dục và Đào tạo, Trường Đại học Bách khoa
Đà Nẵng.
Người cam đoan

Lê Ngọc Huy


ii

LỜI CẢM ƠN
Lời đầu tiên, em xin chân thành cảm ơn Quý thầy, cô Trường Đại học Bách khoa
Đà Nẵng và Khoa Công nghệ tin trong thời gian qua đã tận tình hướng dẫn, truyền đạt
các kiến thức để em hiểu, nghiến cứu sâu hơn trong lĩnh vực công nghệ thông tin, đặc
biệt là lĩnh vực ứng dụng.
Cảm ơn thầy - TS.Ninh Khách Duy đã dành nhiều thời gian, công sức để hướng
dẫn em tìm hiểu sâu về mơn học xử lý tiếng nói và thực hiện nghiên cứu thực nghiệm
về xử lý tiếng nói rời rạc để hồn chỉnh luận văn này và định hướng nghiên cứu ứng
dụng sau này.
Xin cảm ơn gia đình, bạn bè cùng khóa đã tạo điều kiện về thời gian, trao dồi
kiến thức trong toàn bộ quãng thời gian học tập và nghiêu cứu luận văn.

Kính chúc Q thầy cơ nhiều sức khỏe, hạnh phúc, tiếp tục gặt hái nhiều thành
công hơn nữa trên con đường nghiêu cứu, giảng dạy.
Kính chúc gia đình, bạn bè thực hiện thành công nhiều ước mơ tươi đẹp trong
cuộc sống.
Người thực hiện luận văn

Lê Ngọc Huy


iii

MỤC LỤC

LỜI CAM ĐOAN ................................................................................................. i
LỜI CẢM ƠN ...................................................................................................... ii
MỤC LỤC ........................................................................................................... iii
TÓM TẮT LUẬN VĂN .................................................................................... vii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ................................ viii
DANH MỤC BẢNG ........................................................................................... ix
DANH MỤC HÌNH VẼ ...................................................................................... x
MỞ ĐẦU .............................................................................................................. 1
1. Lý do chọn đề tài ............................................................................................. 1
2. Mục đích và ý nghĩa đề tài .............................................................................. 1
2.1. Mục đích ...................................................................................................... 1
2.2. Ý nghĩa khoa học và thực tiễn của đề tài .................................................... 2
3. Mục tiêu và nhiệm vụ ...................................................................................... 2
3.1. Mục tiêu....................................................................................................... 2
3.2. Nhiệm vụ ..................................................................................................... 2
4. Đối tượng và phạm vi nghiên cứu .................................................................. 2
5. Phương pháp nghiên cứu................................................................................ 3

5.1. Phương pháp lý thuyết ................................................................................ 3
5.2. Phương pháp thực nghiệm .......................................................................... 3
6. Kết luận ............................................................................................................ 3
6.1. Kết quả của đề tài ........................................................................................ 3


iv

6.2. Hướng phát triển của đề tài ......................................................................... 3
7. Cấu trúc luận văn ............................................................................................ 4
Chương I. CƠ SỞ LÝ THUYẾT CỦA XỬ LÝ TIẾNG NÓI ......................... 5
1.1. Tổng quan xử lý tiếng nói ............................................................................ 5
1.1.1. Các lĩnh vực xử lý tín hiệu tiếng nói ....................................................... 5
1.1.2. Phân loại kỹ thuật nhận dạng tiếng nói .................................................... 6
1.2. Tín hiệu tiếng nói .......................................................................................... 7
1.2.1. Đặc điểm .................................................................................................. 7
1.2.2. Tiếng nói tiếng Việt ................................................................................. 8
1.2.3. Các đặc tính cơ bản của tín hiệu tiếng nói ............................................. 11
1.3. Phân tích phổ ngắn hạn tín hiệu tiếng nói – đặc trưng MFCC ............. 13
1.3.1. Tiền nhấn mạnh...................................................................................... 14
1.3.2. Phân khung tín hiệu ................................................................................ 15
1.3.3. Lấy cửa sổ tín hiệu ................................................................................. 15
1.3.4. Biến đổi Fourier nhanh........................................................................... 16
1.3.5. Bộ lọc thang tần số Mel ......................................................................... 17
1.3.6. Tính năng lượng phổ Mel....................................................................... 18
1.3.7. Biến đổi Cosine rời rạc........................................................................... 19
1.4. Rút trích đặc trưng năng lượng khung tín hiệu ...................................... 19
Chương 2: MƠ HÌNH MARKOV ẨN VÀ ỨNG DỤNG TRONG NHẬN
DẠNG TIẾNG NĨI .......................................................................................... 20
2.1. Tổng quan về mơ hình Markov ẩn HMM................................................ 20

2.1.1. Chuỗi Markov ........................................................................................ 20
2.1.2. Mơ hình HMM ....................................................................................... 21
2.2. Các thành phần của HMM ........................................................................ 22


v

2.2.1. Các thành phần ....................................................................................... 22
2.2.2. Hàm mật độ xác suất hỗn hợp Gauss ..................................................... 24
2.3. Ba bài toán cơ bản của HMM ................................................................... 25
2.3.1. Bài toán đánh giá .................................................................................... 25
2.3.2. Bài toán giải mã ..................................................................................... 26
2.3.3. Bài toán huấn luyện ................................................................................ 28
2.4. Ứng dụng của HMM trong nhận dạng tiếng nói rời rạc ........................ 29
2.4.1. Giai đoạn huấn luyện mơ hình ............................................................... 30
2.4.2. Giai đoạn nhận dạng............................................................................... 31
Chương 3. BỘ CÔNG CỤ HTK TOOLKIT .................................................. 32
3.1. Chuẩn bị dữ liệu ......................................................................................... 33
3.2. Huấn luyện .................................................................................................. 34
3.2.1. Modules định nghĩa mơ hình HMM và gắn nhãn dữ liệu tiếng nói....... 35
3.2.2. Các modules phục vụ huấn luyện mơ hình ............................................ 37
3.3. Các modules phục vụ nhận dạng tiếng nói .............................................. 39
3.3.1. HParse .................................................................................................... 39
3.3.2. HDMan ................................................................................................... 40
3.3.3. HBuild .................................................................................................... 40
3.3.4. HVite ...................................................................................................... 41
3.4. Phân tích kết quả nhận dạng..................................................................... 41
Chương 4: CÀI ĐẶT VÀ ĐÁNH GIÁ HỆ THỐNG NHẬN DẠNG ............ 43
4.1. Xây dựng dữ liệu huấn luyện và kiểm thử hệ thống ............................... 43
4.1.1. Thu âm dữ liệu ....................................................................................... 43

4.1.2. Đặc tính file dữ liệu................................................................................ 43
4.2. Cài đặt hệ thống.......................................................................................... 43


vi

4.3. Cấu hình hệ thống nhận dạng ................................................................... 45
4.4. Kết quả thực nghiệm .................................................................................. 45
Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.................................... 47
5.1. Kết luận ....................................................................................................... 47
5.2. Hướng phát triển ........................................................................................ 47
DANH MỤC TÀI LIỆU THAM KHẢO ......................................................... 48


vii

TĨM TẮT LUẬN VĂN
Tóm tắt - Luận văn này thực hiện nghiên cứu, ứng dụng bộ công cụ HTK
Toolkit để xây dựng hệ thống nhận dạng tiếng nói rời rạc với bộ từ vựng hữu hạn nhằm
bước đầu tìm hiểu cơng nghệ nhận dạng tiếng nói tiếng Việt. Bên cạnh đó, luận văn cịn
tìm hiểu về đặc điểm tín hiệu tiếng nói tiếng Việt, mơ hình Markov ẩn, phương pháp rút
trích đặc trưng tín hiệu tiếng nói MFCC, đồng thời tiến hành khảo sát 2 tham số có khả
năng ảnh hưởng lớn đến hiệu suất nhận dạng của hệ thống gồm: số trạng thái của một
HMM, số phân bố trong mơ hình hỗn hợp Gauss của mỗi trạng thái. Luận văn góp phần
nhỏ vào lĩnh vực nghiên cứu, ứng dụng và cải tiến các hệ thống nhận dạng tiếng nói
tiếng Việt rời rạc.
Từ khóa - Nhận dạng tiếng nói tự động; Cơng cụ HTK Toolkit; Mơ hình
Markov ẩn.
Summary - This thesis is a study and application of the HTK Toolkit to build a
isolated speech recognition system for Vietnamese with limited vocabulary with the aim

to learn about automatic speech recognition technology. Besides, the thesis also
investigates the characteristics of Vietnamese speech signals, the Hidden Markov
Model, the MFCC speech extraction method and the two parameters that have important
effects on system performance including: the number of states of an HMM, the number
of distributions in the Gauss mixture model of each state. The thesis has contributed to
the research, application and improvement of isolated speech recognition systems for
Vietnamese.
Keywords - Automatic Speech Recognition (ASR); HTK Toolkit; Hidden
Markov Models (HMM).


viii

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
ASR

Automatic Speech Recognition

DCT

Discrete Cosine Transform

DTW

Dynamic Time Warping

FFT

Fast Fourier Transform


HMM

Hidden Markov Model

HTK

Hidden Markov Model Toolkit

LPC

Linear Prediction Coded

MFCC

Mel-Frequency Cepstral Coefficient

VQ

Vec tơ Quantilization

WAC

Word Accuracy

WER

Word Error Rate

WRR


Word Recognition Rate

NN

Neural Network

DNN

Deep Neural Network

PLP

Perceptual Linear Prediction

GMM

Gaussian Mixture Model

Δ

Delta


ix

DANH MỤC BẢNG

Bảng 4.1

So sánh hiệu suất nhận dạng phụ thuộc số trạng thái và số phân bố

Gauss

48


x

DANH MỤC HÌNH VẼ
Hình 1.1

Sơ đồ các hệ thống xử lý tiếng nói cơ bản

6

Hình 1.2

Tín hiệu tiếng nói phát âm liên tục và rời rạc

7

Hình 1.3

Tín hiệu tiếng nói tiếng Việt phát âm rời rạc từ “khơng” đến “chín”

7

Hình 1.4

Sơ đồ chuyển đổi tín hiệu âm thanh từ analog sang digital


8

Hình 1.5

Sự khác nhau giữa âm tiết tiếng Anh và tiếng Việt

9

Hình 1.6

Cấu trúc âm tiếng Việt

9

Hình 1.7

Phổ tín hiệu nguyên âm “a”

11

Hình 1.8

Các trục, độ đậm nhạt và vùng biên ảnh phổ tín hiệu phát âm “ba”

11

Hình 1.9

Tín hiệu tiếng nói và ảnh phổ phát âm “tám” với formant của
nguyên âm “a”


12

Hình 1.10

(a) tần số, đường năng lượng âm vô thanh - (b) tần số, đường năng
lượng âm hữu thanh

13

Hình 1.11

Quy trình phân tích phổ ngắn hạn tín hiệu tiếng nói MFCC

14

Hình 1.12

Tín hiệu analog và tín hiệu digital tương ứng

14

Hình 1.13

Phân khung tín hiệu âm tiết “khơng

15

Hình 1.14


Sự tương đồng của cửa sổ Hamming và Hanning

16


xi

Hình 1.15

Cửa sổ Hamming (a) 128 điểm, (b) 124 điểm

16

Hình 1.16

Ảnh phổ âm tiết “khơng” bằng phân tích FFT với 512 điểm, tiền
nhấn 0.9 bằng cửa sổ Hamming

17

Hình 1.17

Thang tần số Mel và Hz tương ứng

17

Hình 1.18

Bộ lọc tam giác tần số Mel


18

Hình 1.19

Các giá trị được rút trích từ đặc trưng MFCC

20

Hình 2.1

Một số phương pháp ứng dụng trong nhận dạng tiếng nói

20

Hình 2.2

Chuỗi Markov với 3 trạng thái

20

Hình 2.3

Mơ hình hai trạng thái “Nắng”, “Mưa”

21

Hình 2.4

Mơ hình HMM với các chuỗi trạng thái (states) ẩn


22

Hình 2.5

Cấu trúc cơ bản của HMM trong nhận dạng tiêng nói

22

Hình 2.6

Minh họa thuật tốn Viterbi để tìm chuỗi trạng thái tối ưu

28

Hình 2.7

Mơ hình hỗn hợp

29

Hình 2.8

Ứng dụng các bài tốn trong nhận dạng từ rời rạc

30

Hình 2.9

Các bước huấn luyện bằng HMM


30

Hình 2.10

Tổng quan giai đoạn nhận dạng

31


xii

Hình 3.1

Kiến trúc của HTK Toolkit

32

Hình 3.2

Các modules xử lý, nhận dạng tiếng nói của HTK Toolkit

33

Hình 3.3

Gắn nhãn file bằng wavesurfer, phát âm “một”

33

Hình 3.4


Sơ đồ xử lý tín hiệu trong modules HCopy

34

Hình 3.5

Các loại thơng số bổ sung vào các tham số MFCC để tăng hiệu suất
nhận dạng

34

Hình 3.6

Huấn luyện HMM mức dưới từ (sub-word)

35

Hình 3.7

Cấu trúc file proto HMM (a) phát âm từ “ba”

36

Hình 3.8

Cấu trúc file gắn nhãn

36


Hình 3.9

Sơ đồ input/output của HLed

37

Hình 3.10

Các modules thực hiện giai đoạn huấn luyện HMM

37

Hình 3.11

Sơ đồ input/output của HInit

38

Hình 3.12

Kết quả thực thi modules HERest là 39 giá trị được huấn luyện lại
của mỗi từ

39

Hình 3.13

Mơ tả modules HHEd

39


Hình 3.14

Sơ đồ hoạt động modules HDMan và từ vựng trong txt/wlist

40


xiii

Hình 3.15

Mơ hình ngơn ngữ mức dưới từ (word-level) HMM của một âm và
file lưới với 15 nút, 23 cung

40

Hình 3.16

Sơ đồ hoạt động modules HVite, dữ liệu đầu ra là các file được phiên
âm *.mlf

41

Hình 3.17

Ví dụ kết quả nhận dạng từ rời rạc đạt 97.33%

42


Hình 4.1

Các modules chính của HTK

44

Hình 4.2

Các thư mục trong chương trình demo

44


1

MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay, cuộc cách mạng khoa học công nghệ đã bước sang giai đoạn 4.0,
trong đó ngành khoa học máy tính đã đạt được những thành tựu nổi bật trong nhiều
hướng nghiên cứu khác nhau, sự tương tác giữa người và máy tính trở nên dễ dàng hơn
qua các thiết bị đầu vào như chuột, bàn phím, camera, microphone... Có nhiều cách để
con người giao tiếp với máy tính, trong đó có giao tiếp bằng tiếng nói. Nhu cầu giao tiếp
với máy tính bằng tiếng nói trở nên cần thiết, đó là phương thức giao tiếp tự nhiên nhất,
hiện đại nhất.
Ở nước ta, nhận dạng tiếng nói vẫn là một lĩnh vực khá mới mẻ và đang được
đầu tư phát triển. Do còn tùy thuộc vào điều kiện nghiên cứu và sự phức tạp của ngữ âm
tiếng Việt nên các nghiên cứu về hệ thống nhận dạng giọng nói tiếng Việt vẫn cịn nhiều
hạn chế. Đến nay, nghiên cứu về nhận dạng tiếng Việt đã đạt được một số kết quả nhất
định và mang tính ứng dụng cao như: Ứng dụng iSago thực hiện giao tiếp bằng giọng
nói tiếng Việt trên điện thoại iPhone (phiên bản 1.0) và VIS (Viet Voice Systems) - tổng

đài hỏi đáp thông tin tự động bằng tiếng Việt, sử dụng cơng nghệ nhận dạng và tổng hợp
giọng nói tiếng Việt với độ chính xác cao và tốc độ xử lý nhanh do Phịng thí nghiệm
Trí tuệ Nhân tạo (AILab) của Trường Đại học Khoa học Tự nhiên nghiên cứu, phát triển
từ năm 2008.
Mảng điều khiển máy tính bằng giọng nói cịn nhiều hạn chế ở Việt Nam. Có
thể nói, ViaVoice là một trong những phần mềm điều khiển máy tính bằng tiếng nói
xuất hiện đầu tiên ở Việt Nam vào những năm 1999-2000 và cũng chỉ sử dụng được
bằng tiếng Anh. Với Vspeech: đây là một phần mềm điều khiển máy tính bằng giọng
nói do nhóm sinh viên BK02, Đại học Bách Khoa thành phố Hồ Chí Minh nghiên cứu
vào năm 2004. Phần mềm sử dụng thư viện Microsoft Speech SDK để nhận dạng tiếng
Anh nhưng được chuyển thành tiếng Việt. Hiện nay, hướng phát triển ứng dụng điều
khiển máy tính bằng giọng nói tiếng Việt đang là tiềm năng và là xu thế của một số ứng
dụng tại Việt Nam, đem đến nhiều tiện ích trong cuộc sống. Vì vậy, tơi chọn đề tài:
“Ứng dụng HTK Toolkit xây dựng hệ thống nhận dạng tiếng nói rời rạc với bộ từ
vựng hữu hạn” nhằm bước đầu tìm hiểu cơng nghệ nhận dạng tiếng nói.
2. Mục đích và ý nghĩa đề tài
2.1. Mục đích
- Nghiên cứu và đề xuất phương pháp nhận dạng tiếng Việt rời rạc (isolated
speech recognition).
- Xây dựng và cài đặt hệ thống nhận dạng tiếng nói tiếng Việt với bộ từ vựng
gồm 10 từ biểu diễn 10 con số (“khơng”, “một”, …, “chín”). Hệ thống có khả năng nhận
dạng khơng phụ thuộc người nói.


2
2.2. Ý nghĩa khoa học và thực tiễn của đề tài
- Góp phần nhỏ trong số các phương pháp xử lý tiếng nói cho tiếng Việt.
- Có thể mở rộng bộ từ vựng rời rạc để xây dựng các ứng dụng giao tiếp với
máy tính bằng tiếng Việt như: nhập điểm học sinh, bán hàng, điều khiển webbrowser
dành cho người khuyết tật, thiết bị điều khiển thông minh…

3. Mục tiêu và nhiệm vụ
3.1. Mục tiêu
- Nghiên cứu, thử nghiệm hướng nhận dạng tiếng Việt rời rạc bằng HTK Toolkit
(Hidden MarKov Model Toolkit - bộ công cụ phát triển để xây dựng các mơ hình
Markov ẩn – Hidden Markov Models (HMM)).
- Xây dựng chương trình nhận dạng tiếng nói tiếng Việt cho 10 con số từ
“khơng” đến “chín”, có khả năng nhận dạng khơng phụ thuộc người nói.
3.2. Nhiệm vụ
Để đạt được mục tiêu trên, đề tài cần thực hiện các nhiệm vụ sau:
- Nghiên cứu lý thuyết mơ hình HMM.
- Nghiên cứu ứng dụng của HMM trong nhận dạng tiếng nói rời rạc.
- Tìm hiểu bộ cơng cụ HTK Toolkit cho nhận dạng tiếng nói.
- Thu âm dữ liệu tiếng nói của nhiều người với các chất giọng khác nhau (từ
30 người trở lên).
- Cài đặt chương trình huấn luyện HMM từ dữ liệu thu âm bằng HTK Toolkit.
- Cài đặt chương trình nhận dạng tiếng nói dùng HTK Toolkit.
- Đánh giá độ chính xác của chương trình nhận dạng.
4. Đối tượng và phạm vi nghiên cứu
- Bộ công cụ HTK Toolkit, mơ hình HMM và ứng dụng trong nhận dạng tiếng
nói.
- Dữ liệu tiếng nói tiếng Việt rời rạc từ “khơng” đến “chín” của nhiều người nói.


3
- Phương pháp nhận dạng tiếng nói rời rạc (isolated speech recognition).
5. Phương pháp nghiên cứu
5.1. Phương pháp lý thuyết
- Nghiên cứu mơ hình HMM.
- Nghiên cứu ứng dụng của HMM trong nhận dạng tiếng nói rời rạc (isolated
speech recognition).

- Tìm hiểu phương pháp nhận dạng tiếng Việt bằng HMM.
- Nghiên cứu bộ công cụ HTK Toolkit trong nhận dạng tiếng Việt.
- Tìm hiểu các phương pháp xử lý tiếng nói.
- So sánh các phương pháp để đưa ra giải pháp tối ưu.
5.2. Phương pháp thực nghiệm
- Thu mẫu âm tiếng Việt rời rạc từ “khơng” đến “chín”.
- Tìm hiểu công cụ hỗ trợ nghiên cứu, thực nghiệm.
- Cài đặt thuật toán, xây dựng hệ thống.
- Triển khai, đánh giá kết quả đạt được.
6. Kết luận
6.1. Kết quả của đề tài
- Dữ liệu thu âm tiếng nói của hơn 30 người với chất giọng khác nhau.
- Đưa ra mơ hình nhận dạng tiếng Việt rời rạc.
- Xây dựng, cài đặt hệ thống nhận dạng tiếng Việt rời rạc cho mười chữ số.
6.2. Hướng phát triển của đề tài
- Xây dựng, mở rộng cơ sở dữ liệu huấn luyện về tiếng Việt rời rạc.
- Tối ưu hoá phương pháp nhận dạng tiếng Việt để có kết quả nhận dạng chính
xác hơn và nhanh hơn.


4
7. Cấu trúc luận văn
Chương 1. Cơ sở lý thuyết của xử lý tiếng nói.
Chương 2. Mơ hình Markov ẩn và ứng dụng trong nhận dạng tiếng nói.
Chương 3. Bộ công cụ HTK Toolkit.
Chương 4. Cài đặt và đánh giá hệ thống nhận dạng.
Chương 5. Kết luận và hướng phát triển.


5


Chương I. CƠ SỞ LÝ THUYẾT CỦA XỬ LÝ TIẾNG NĨI
1.1. Tổng quan xử lý tiếng nói
1.1.1. Các lĩnh vực xử lý tín hiệu tiếng nói
Theo nghiên cứu [1], trong xử lý tiếng nói được chia thành các lĩnh vực cơ bản
như sau - hình 1.1.
- Phân tích/tổng hợp tiếng nói (analysis/synthesis): Tạo ra tiếng nói từ dữ liệu
đầu vào dưới dạng ký tự. Lĩnh vực này được sử dụng trong các hệ thống tổng đài hỏi
đáp tự động, máy ATM, thống báo tự động nơi cơng cộng.
- Mã hóa (coding): Mã hóa tín hiệu tiếng nói, thường áp dụng cho lưu trữ dữ liệu
hoặc truyền tín hiệu tiếng nói.
- Nhận dạng (recognition): Được chia thành các lĩnh vực:
+ Nhận dạng tiếng nói (speech recognition): Làm cho máy tính hiểu được ngơn
ngữ nói, thường ứng dụng trong các hệ thống chuyển đổi tín hiệu tiếng nói sang dạng
ký tự (speech-to-text), điều khiển thiết bị bằng giọng nói.
+ Nhận dạng người nói (speaker recognition): Làm cho máy tính phân biệt được
tiếng nói của những người khác nhau, thường ứng dụng trong lĩnh vực bảo mật, điện
thoại viên ngân hàng.
+ Nhận dạng ngơn ngữ (language recognition): Làm cho máy tính hiểu được bạn
đang sử dụng ngơn ngữ gì, thường ứng dụng trong lĩnh vực dịch tự động, bán hàng.
Trong nhận dạng tiếng nói, được chia làm hai lĩnh vực nghiên cứu, ứng dụng nhỏ,
đó là:
● Định danh người nói (speech identification): Nhận dạng tiếng nói có phải của
người đã được huấn luyện (training) hay không, dạng này thường sử dụng trong lĩnh
vựng xác thực ID người sử dụng, tổng đài viên xác định danh tính người gọi.
● Xác minh người nói (speaker verification): Nhận dạng tiếng nói đã được huấn
luyện, thường được sử dụng trong các hệ thống điều khiển thiết bị bằng giọng nói.
Trong lĩnh vực định danh người nói và xác minh người nói đều có điểm tương
đồng là nhận dạng độc lập văn bản và không phụ thuộc văn bản.



6

Hình 1.1. Sơ đồ các hệ thống xử lý tiếng nói cơ bản [1]
1.1.2. Phân loại kỹ thuật nhận dạng tiếng nói
Nhận dạng tiếng nói về cơ bản có thể chia làm các loại như sau:
1.1.2.1. Nhận dạng từ phát âm liên tục và nhận dạng từ phát âm rời rạc
- Nhận dạng từ phát âm liên tục: Hệ thống thực hiện nhận dạng các chuỗi tín hiệu
tiếng nói liên tục được phát âm của một câu, một đoạn văn. Tín hiệu tiếng nói dạng này
thường khơng có sự ngắt quảng giữa các âm tiết hoặc ngắt quảng không rõ ràng dẫn đến
việc nhận dạng vơ cùng khó khăn và phức tạp, nếu đòi hỏi phải nhận dạng thời gian thực
thì yêu cầu hệ thống xử lý càng phức tạp hơn (hệ thống thư ký hội nghị, máy thông dịch
ngôn ngữ).
- Nhận dạng từ phát âm rời rạc: Hệ thống thực hiện nhận dạng tín hiệu tiếng nói
rời rạc (số điện thoại, mệnh lệnh điều khiển). Loại nhận dạng này đơn giãn hơn so với
nhận dạng tiếng nói liên tục, ít bị sai sót do các từ được phát âm tách biệt, có khoảng
cách rõ giữa các từ.
Ví dụ tín hiệu tiếng nói thu được khi phát âm liên tục và rời rạc – hình 1.2.


7

Hình 1.2. Tín hiệu tiếng nói phát âm liên tục và rời rạc

1.1.2.2. Nhận dạng phụ thuộc người nói và độc lập người nói
- Nhận dạng phụ thuộc người nói: Hệ thống chỉ có thể nhận dạng giọng nói của
một người duy nhất khi giọng nói của họ đã được đưa vào tập dữ liệu huấn luyện
(training), nếu muốn nhận dạng một người khác thì phải huấn luyện hệ thống lại từ đầu.
Điều này tốn rất nhiều thời gian, công sức cho người sử dụng và người lập trình hệ
thống. Ưu điểm của hệ thống này là tập dữ liệu huấn luyện ít, q trình nhận dạng đạt

hiệu suất cao.
- Nhận dạng độc lập người nói: Hệ thống có khả năng nhận dạng giọng nói của
bất kỳ người nào, khơng phụ thuộc giọng nói người đó có trong dữ liệu huấn luyện hay
không. Để làm được vấn đề này, tập dữ liệu huấn luyện phải đủ lớn thì hệ thống mới
hoạt động hiệu quả. Loại nhận dạng này khá phổ biến, dễ ứng dụng trong thực tiễn, đặc
biệt là các hệ thống phục vụ nơi công cộng.
Trong đề tài này, tơi tập trung nghiên cứu hệ thống có khả năng nhận dạng tiếng
nói rời rạc và khơng phụ thuộc người nói.
1.2. Tín hiệu tiếng nói
1.2.1. Đặc điểm

Hình 1.3. Tín hiệu tiếng nói tiếng Việt phát âm rời rạc từ “khơng” đến “chín”

Tiếng nói là phương thức giao tiếp cơ bản nhất của con người được phát ra dưới
dạng sóng âm thanh. Tai người chỉ cảm thụ được những dao động hay cịn gọi là sóng
âm trong miền tần số từ khoảng 16Hz đến khoảng 20000Hz. Những sóng có tần số nhỏ
hơn 16Hz gọi là sóng hạ âm, những sóng có tần số lớn hơn 20000Hz gọi là sóng siêu
âm, con người khơng cảm nhận được. Sóng âm có thể truyền trong các mỗi trường rắn,
lỏng, khí. Sóng âm có bước sóng càng ngắn thì năng lượng càng cao.


8
Giọng nam phát âm thường trong miên tần số từ 75Hz đến 150Hz, giọng nữ từ
200Hz đến 300Hz. Mỗi người có đặc tính phát âm riêng, thậm chí cùng một người cũng
có thể phát âm khác nhau với cùng một âm tiết.
Các thiết bị thu âm, đặc biệt là với sự hỗ trợ của máy vi tính sẽ xử lý, lưu trữ theo
các định dạng wav, mp3, au, aif, smp… tần số lấy mẫu thường là 8000,
11025,…96000Hz… với độ phân giải là 8 hoặc 16/bít/mẫu, số kênh (chanel): 1(mono)
hoặc 2(stereo), định dạng mã hóa (encoding): lin8, lin16, lin32, mulaw, alaw… tùy theo
mục đích người sử dụng.

Để thực hiện các kỹ thuật trong xử lý tiếng nói, người ta phải chuyển đổi tín hiệu
tiếng nói tương tự (analog) sang tín hiệu kỹ thuật số (digital) - hình1.4.

Hình 1.4. Sơ đồ chuyển đổi tín hiệu âm thanh từ analog sang digital

1.2.2. Tiếng nói tiếng Việt
Tiếng Việt là một ngơn ngữ đơn âm tiết (monosyllable), nghĩa là mỗi một âm tiết
được thể hiện bởi một từ và cũng là đơn vị cơ bản trong phát âm. Theo nghiên cứu [2],
đặc điểm của âm tiết tiếng Việt như sau:
- Có tính độc lập cao: Trong lời nói, âm tiết tiếng Việt bao giờ cũng được thể
hiện khá đầy đủ, rõ ràng, được tách và ngắt ra thành từng khúc đoạn riêng. Khác với âm
tiết của một số ngôn ngữ, âm tiết tiếng Việt thường khơng bị nhược hóa (reduction) hay
mất đi. Tính chất tách bạch từng âm tiết còn được phản ánh trên văn tự: Người ta viết
rời từng âm tiết (chữ) chứ không viết liền thành từ như kiểu chữ Nga, Anh, Pháp. Hình
1.5 - minh họa sự khác nhau giữ âm tiết tiếng Anh và tiếng Việt.


9

Hình 1.5. Sự khác nhau giữa âm tiết tiếng Anh và tiếng Việt

- Có khả năng biểu hiện ý nghĩa: Trong tiếng Việt, tuyệt đại đa số các âm tiết đều
có nghĩa. Số lượng âm tiết tự thân mang nghĩa chiếm tuyệt đại đa số. Nói cách khác, ở
tiếng Việt gần như toàn bộ các âm tiết đều hoạt động như từ. Một số âm tiết tuy chưa
hẳn là một từ hoàn toàn độc lập như các từ đơn nhưng trong những hồn cảnh nhất định
chúng vẫn có khả năng hoạt động như một từ thực sự. Mối quan hệ giữa âm và nghĩa
trong âm tiết vô cùng chặt chẽ và thường xun, đó chính là một nét đặc trưng loại hình
chủ đạo của tiếng Việt.
- Có một cấu trúc chặt chẽ: Âm tiết tiếng Việt không phải là một khối không thể
chia cắt được mà là một cấu trúc. Mỗi âm tiết tiếng Việt, ở dạng đầy đủ nhất có 5 phần

– hình 1.6. Mơ hình cấu trúc tổng quát của tất cả các âm tiết tiếng Việt là:
THANH ĐIỆU
ÂM ĐẦU

VẦN
Âm đệm

Âm chính

Hình 1.6. Cấu trúc âm tiếng Việt [2]

Âm cuối


10
5 thành phần cấu tạo âm tiết tiếng Việt không phải bình đẳng như nhau về mức
độ độc lập và về khả năng kết hợp.
Tiếng Việt gồm 22 phụ âm đầu, 20 phần chính (âm đệm và nguyên âm chính) và
155 phần vần không dấu [3]:
- 22 phụ âm đầu chia thành 4 nhóm:
+ vơ thanh (stop, voiceless): p, t, k-c-q
+ âm xát (fricative): ph, x, kh, h, v, d, đ, ch, ng-ngh, g-gh, th
+ âm vang (resonant or cororal): m, n, nh, l
+ âm bật đầu lưỡi (retroflex): tr, s, gi, r
- 20 phần chính:
+ âm đệm (zero-/u/)
+ nguyên âm chính: a, ă, â, e, ê, i, ia, iê, o, oa, oe, ơ,ô, u, uâ, uyê, uyu, uô, ư, ươ.
- 155 phần vần:
+ Phần vần với thanh không dấu và không tận cùng bởi tắc vô thanh, khoảng gần
100 vần.

+ Phần vần với các thanh sắc cho các âm tận cùng là là p, t, k, khoảng 55 vần.
Chúng được chia thành 3 loại cơ bản:
+ Âm hữu thanh: Là âm khi phát ra thì có thanh, ví dụ như chúng ta nói “i”, “a”
hay “o” chẳng hạn. Thực ra âm hữu thanh được tạo ra là do việc khơng khí qua thanh
mơn (thanh mơn tạo ra sự khép mở của dây thanh dưới sự điều khiển của hai sụn chóp)
với một độ căng của dây thanh sao cho chúng tạo nên dao động.
+ Âm vô thanh: Là âm khi tạo ra tiếng thì dây thanh khơng rung hoặc rung đơi
chút tạo ra giọng như giọng thở, ví dụ “h”, “p” hay “th”.
+ Âm bật: Để phát ra âm bật, đầu tiên bộ máy phát âm phải đóng kín, tạo nên
một áp suất, sau đó khơng khí được giải phóng một cách đột ngột, ví dụ “ch”, “t”.


×