NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI VỚI TẬP LỆNH TỪ ĐƠN HỮU HẠN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.94 MB, 63 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƢỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN VĂN TIN

NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG
GIỌNG NÓI VỚI TẬP LỆNH TỪ ĐƠN HỮU HẠN

LUẬN VĂN THẠC SĨ
KHOA HỌC MÁY TÍNH

Đà Nẵng - 2018

ĐẠI HỌC ĐÀ NẴNG
TRƢỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN VĂN TIN

NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG
GIỌNG NÓI VỚI TẬP LỆNH TỪ ĐƠN HỮU HẠN

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ

Ngƣời hƣớng dẫn khoa học: TS. Ninh Khánh Duy

Đà Nẵng - 2018

i

LỜI CAM ĐOAN
Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện dƣới sự hƣớng dẫn trực
tiếp của TS.Ninh Khánh Duy.
Mọi tham khảo trong luận văn đều đƣợc trích dẫn rõ ràng và trung thực tên tác
giả, cơng trình, thời gian, địa điểm cơng bố.
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay khơng trung thực, tơi
chịu hồn tồn trách nhiệm.
Ngƣời thực hiện

Nguyễn Văn Tin

ii

LỜI CẢM ƠN
Đầu tiên, em xin bày tỏ lòng biết ơn chân thành đến thầy Ninh Khánh Duy,
ngƣời đã tận tình hƣớng dẫn, tạo mọi điều kiện thuận lợi để em hoàn thành tốt luận
văn tốt nghiệp này.
Em cũng xin cảm ơn sự dạy dỗ và giúp đỡ tận tình của tất cả q thầy cơ tại
trƣờng Đại học Bách khoa, Đại học Đà Nẵng. Tất cả các kiến thức mà em đƣợc truyền
đạt sẽ là hành trang quí giá trên con đƣờng học tập, làm việc và nghiên cứu sau này.
Em xin đƣợc tri ơn tất cả.
Ngƣời thực hiện

Nguyễn Văn Tin

iii

TĨM TẮT LUẬN VĂN
Tóm tắt - Luận văn này thực hiện nghiên cứu, ứng dụng mơ hình Markov ẩn để
xây dựng hệ thống nhận dạng tiếng nói rời rạc với bộ từ vựng hữu hạn nhằm bƣớc đầu
tìm hiểu cơng nghệ nhận dạng tiếng nói tiếng Việt. Bên cạnh đó, luận văn cịn tìm hiểu
về đặc điểm tín hiệu tiếng nói tiếng Việt, phƣơng pháp rút trích đặc trƣng tín hiệu tiếng
nói MFCC, đồng thời tiến hành khảo sát các tham số có khả năng ảnh hƣởng lớn đến
hiệu suất nhận dạng của hệ thống gồm: số trạng thái của một HMM, số phân bố trong
mơ hình hỗn hợp Gauss của mỗi trạng thái. Từ đó, góp phần nhỏ vào lĩnh vực nghiên
cứu, ứng dụng và cải tiến các hệ thống nhận dạng tiếng nói tiếng Việt rời rạc.
Từ khóa -Nhận dạng tiếng nói tự động; Mơ hình Markov ẩn; Phân tích phổ
Mel; Mơ hình hỗn hợp Gauss.
Summary - This thesis is a study and application the Hidden Markov Model to
build discrete speech recognition system with limited vocabulary to start learn
technology of Vietnamese speech recognition. Besides, the thesis also find out the
characteristics of Vietnamese voice signals, the MFCC voice extraction method and
tested two affect parameters have important implicationsto system performance
include: the number of states of one HMM, the number distributed in the Gauss
mixture model of each state. From that, it has contributed to the study area, application
and improvement of discrete speech recognition systems in Vietnamese.
Keywords - Automatic Speech Recognition (ASR); Hiden Markov Models
(HMM); Mel-Frequency Cepstral Coefficient(MFCC); Gaussian Mixture
Model(GMM).

iv

MỤC LỤC

LỜI CAM ĐOAN ........................................................................................................... i
LỜI CẢM ƠN ................................................................................................................ii
TÓM TẮT LUẬN VĂN .............................................................................................. iii
MỤC LỤC ..................................................................................................................... iv
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT ............................................. vi
DANH MỤC BẢNG ....................................................................................................vii
DANH MỤC HÌNH VẼ............................................................................................. viii
MỞ ĐẦU ......................................................................................................................... 1
1. Lý do chọn đề tài ................................................................................................ 1
2. Mục đích và ý nghĩa đề tài .................................................................................. 1
3. Mục tiêu và nhiệm vụ ......................................................................................... 2
4. Đối tƣợng và phạm vi nghiên cứu ...................................................................... 2
5. Phƣơng pháp nghiên cứu .................................................................................... 3
6. Kết luận ............................................................................................................... 3
7. Cấu trúc luận văn ................................................................................................ 4
CHƢƠNG 1 - CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NÓI ....................................... 5
1.1. Tổng quan về xử lý tiếng nói .................................................................................... 5
1.2. Nhận dạng tiếng nói tự động .................................................................................... 5
1.3. Ngữ âm tiếng Việt .................................................................................................... 6
1.4. Thanh điệu ................................................................................................................ 7
1.5. Phân loại âm vị theo đặc tính âm học ....................................................................... 7
1.5.1. Âm hữu thanh ............................................................................................... 7
1.5.2. Âm vô thanh.................................................................................................. 7
1.5.3. Âm bật hơi .................................................................................................... 8
1.6. Các thành phần cơ bản của ngữ điệu trong tiếng nói ............................................... 9
1.6.1. Ngữ điệu và các thành phần ngữ điệu........................................................... 9
1.6.2. Mơ hình ngữ điệu .......................................................................................... 9
1.7. Phân tích tiếng nói .................................................................................................. 10
1.7.1. Mơ hình phân tích tiếng nói ........................................................................ 10
1.7.2. Phân tích tiếng nói ngắn hạn ....................................................................... 10

1.8. Các đặc tính cơ bản của tiếng nói ........................................................................... 13
1.8.1. Tần số cơ bản .............................................................................................. 13
1.8.2. Biểu diễn tín hiệu tiếng nói ......................................................................... 13
1.9. Kết chƣơng ............................................................................................................. 16

v
CHƢƠNG 2 - NHẬN DẠNG TIẾNG NÓI RỜI RẠC DÙNG MƠ HÌNH
MARKOV ẨN .............................................................................................................. 17
2.1. Mơ hình Markov ẩn ................................................................................................ 17
2.1.1. Chuỗi Markov ............................................................................................. 17
2.1.2. Mơ hình Markov ẩn: ................................................................................... 18
2.1.3. Ba bài toán cơ bản của HMM ..................................................................... 21
2.2. Ứng dụng của HMM trong nhận dạng tiếng nói rời rạc ......................................... 27
2.2.1. Tổng quan ................................................................................................... 27
2.2.2. Giai đoạn huấn luyện mơ hình .................................................................... 28
2.2.3. Giai đoạn nhận dạng ................................................................................... 29
2.3. Kết chƣơng ............................................................................................................. 29
CHƢƠNG 3 - XÂY DỰNG HỆ THỐNG NHẬN DẠNG LỆNH ĐIỀU KHIỂN
BẰNG GIỌNG NÓI .................................................................................................... 30
3.1. Ngữ cảnh ứng dụng ................................................................................................ 30
3.2. Thiết kế tập lệnh ..................................................................................................... 30
3.2.1. Nhóm điều hƣớng ....................................................................................... 31
3.2.2. Nhóm điều khiển ......................................................................................... 32
3.2.3. Nhóm tƣơng tác .......................................................................................... 33
3.3. Thu âm dữ liệu tiếng nói......................................................................................... 33
3.3.1. Dữ liệu cho hệ thống nhận dạng phụ thuộc ngƣời nói................................ 33
3.2.2. Dữ liệu cho hệ thống nhận dạng độc lập ngƣời nói .................................... 33
3.4. Cài đặt hệ thống nhận dạng .................................................................................... 33
3.5. Cấu hình hệ thống nhận dạng ................................................................................. 35

3.6. Kết quả thực nghiệm............................................................................................... 35
CHƢƠNG 4 - KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ......................................... 37
4.1. Kết luận................................................................................................................... 37
4.2. Hƣớng phát triển ..................................................................................................... 37
DANH MỤC TÀI LIỆU THAM KHẢO ................................................................... 38

vi

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
HMM

: Hidden Markov Model

HTK

: Hidden Markov Model Toolkit

MFCC

: Mel-Frequency Cepstral Coefficient

vii

DANH MỤC BẢNG

Tên
bảng
biểu

Tên bảng

Trang

3.1.

Tập lệnh điều khiển.

30

3.2.

Thống kê kết quả nhận dạng phụ thuộc ngƣời nói

35

3.3.

Thống kê kết quả nhận dạng độc lập ngƣời nói

36

viii

DANH MỤC HÌNH VẼ
Số hiệu
hình

Tên hình

Trang

1.1.

(a) tần số, đƣờng năng lƣợng âm vô thanh; (b) tần số, đƣờng năng
lƣợng âm hữu thanh.

8

1.2.

Mơ hình tổng qt của việc xử lý tín hiệu tiếng nói [11]

11

1.3.

Phân tích tín hiệu trên các khung chồng lên nhau [11].

12

1.4.

Dạng sóng theo thời gian

13

1.5.

Âm thanh đƣợc thu bằng 2 micro khác nhau

14

1.6.

Âm thanh do hai ngƣời khác nhau phát ra

14

1.7.

Âm thanh do một ngƣời phát ra ở hai thời điểm khác nhau

14

1.8.

Minh họa một khung tín hiệu (trên) và phổ tƣơng ứng (dƣới) [11].

15

1.9.

Đƣờng bao phổ và các Formant

16

2.1.

Minh họa mơ hình Markov [7]

17

2.2.

Mơ hình Markov ẩn [5]

19

2.3.

Hàm forward [7]

22

2.4.

Hàm backward [7]

23

2.5.

Minh họa thuật toán Viterbi để tìm chuỗi trạng thái tối ƣu [12] .

25

2.6.

Biến Forward-backward [7]

26

2.7.

Sơ đồ khối của một hệ nhận dạng tiếng nói rời rạc [7].

28

2.8.

Giai đoạn huấn luyện mơ hình [7]

28

2.9.

Giai đoạn nhận dạng [7]

29

3.1.

Hình minh họa một trang web

32

3.2.

Các modules chính của HTK

34

3.3.

Các thƣ mục trong chƣơng trình demo

34

1

MỞ ĐẦU
1. Lý do chọn đề tài
Trong giao tiếp giữa ngƣời với ngƣời, tiếng nói là phƣơng pháp trao đổi thông
tin tự nhiên và hiệu quả nhất. Mục tiêu của các kỹ thuật nhận dạng tiếng nói theo
nghĩa rộng là tạo ra những máy có khả năng nhận biết đƣợc thơng tin tiếng nói và hành
động theo tiếng nói đó. Nhận dạng tiếng nói là một phần của q trình tìm kiếm thơng
tin để máy có thể “nghe”, “hiểu” và “hành động” theo thơng tin đồng thời “nói lại” để
hồn tất việc trao đổi thông tin.
Cho đến nay, vấn đề giao tiếp giữa con ngƣời và máy tính tuy đã đƣợc cải thiện
nhiều nhƣng chủ yếu vẫn còn khá thủ công thông qua các thiết bị nhập, xuất. Giao tiếp
với thiết bị máy bằng tiếng nói sẽ là phƣơng thức giao tiếp văn minh và tự nhiên nhất.
Dấu ấn giao tiếp ngƣời - máy sẽ mất đi mà thay vào đó là cảm nhận của sự giao tiếp
giữa ngƣời với ngƣời, nếu hồn thiện thì đây sẽ là một phƣơng thức giao tiếp tiện lợi
và hiệu quả trong công việc. Mặc dù nhận dạng ngôn ngữ tiếng Anh đã đƣợc nghiên
cứu khá hồn thiện nhƣng do có sự khác biệt về ngữ âm, ngữ nghĩa với tiếng Việt nên
khó có thể áp dụng các chƣơng trình nhận dạng khác hiện hành để nhận dạng tiếng

Việt. Một hệ thống nhận dạng tiếng nói ở nƣớc ta phải đƣợc xây dựng trên nền tảng
của tiếng nói tiếng Việt.
Một trong những ứng dụng phổ biến nhất của nhận dạng tiếng nói là trong lĩnh
vực điều khiển thiết bị bằng giọng nói. Lớp ứng dụng này rất hữu ích đối với ngƣời
khiếm thị vốn khơng thể nhìn thấy thiết bị để điều khiển chúng, hoặc đối với ngƣời
bình thƣờng trong những tình huống bận tay và mắt (nhƣ khi đang nấu ăn hoặc lái xe)
không thể điều khiển thiết bị một cách dễ dàng. Nhằm đáp ứng nhu cầu cập nhật thơng
tin, giải trí cho ngƣời khiếm thị tạo điều kiện cho họ hoà nhập tốt với cộng đồng, tôi
chọn đề tài nghiên cứu là: “Nhận dạng lệnh điều khiển bằng giọng nói với tập lệnh
từ đơn hữu hạn”.
2. Mục đích và ý nghĩa đề tài
a. Mục đích
- Nghiên cứu và đề xuất phƣơng pháp nhận dạng tiếng Việt rời rạc (isolated
speech recognition).
- Xây dựng và cài đặt hệ thống nhận dạng tiếng Việt rời rạc với tập lệnh hữu

2
hạn để nhận dạng khẩu lệnh (voice command) điều khiển thiết bị đọc báo điện tử cho
ngƣời khiếm thị.
b. Ý nghĩa khoa học và thực tiễn của đề tài
- Đóng góp vào lĩnh vực nghiên cứu ứng dụng điều khiển thiết bị bằng giọng
nói cho ngƣời Việt.
- Làm cho con ngƣời với máy tính ngày càng gần gũi hơn, giúp cho cuộc sống
của con ngƣời hoà nhập với cộng đồng tốt hơn, bắt kịp với xã hội phát triển công nghệ
nhƣ hiện nay, giúp họ bớt tự ti, phụ thuộc quá nhiều vào ngƣời khác.
3. Mục tiêu và nhiệm vụ
a. Mục tiêu
- Nghiên cứu, thử nghiệm nhận dạng tiếng Việt rời rạc bằng mơ hình Markov
ẩn (Hidden Markov Model - HMM).

- Xây dựng chƣơng trình nhận dạng tiếng nói tiếng Việt cho tập lệnh điều khiển
máy tính, thiết bị, cụ thể là đọc báo điện tử cho ngƣời khiếm thị, có khả năng nhận
dạng khơng phụ thuộc ngƣời nói.
b. Nhiệm vụ
Để đạt đƣợc mục tiêu đề thì nhiệm vụ cần thiết phải làm là:
- Nghiên cứu lý thuyết mơ hình Markov ẩn (HMM) và ứng dụng của HMM
trong nhận dạng tiếng nói rời rạc.
- Tìm hiểu HTK toolkit cho nhận dạng tiếng nói.
- Thiết kế tập lệnh điều khiển thiết bị.
- Thu âm dữ liệu tiếng nói của nhiều ngƣời với các chất giọng khác nhau (từ 30
ngƣời trở lên).
- Cài đặt chƣơng trình huấn luyện HMM từ dữ liệu thu âm.
- Cài đặt chƣơng trình nhận dạng tiếng nói dùng HMM.
- Đánh giá độ chính xác của chƣơng trình nhận dạng.
4. Đối tƣợng và phạm vi nghiên cứu
- Đề tài chỉ giới hạn trong việc tìm hiểu về tiếng nói, các phƣơng pháp xử lý
tiếng nói, rút trích đặc trƣng tiếng nói; mơ hình Markov ẩn, mơ hình âm học, âm vị áp
dụng cho tiếng Việt; kiến trúc hệ thống nhận dạng tiếng nói rời rạc (isolated speech
recognition). Chƣơng trình demo chỉ dừng ở mức nhận dạng đƣợc những câu lệnh cơ

3
bản điều khiển máy tính. Khi một ngƣời đọc lệnh điều khiển, máy tính sẽ hiểu và xuất
hiện dịng lệnh đó trên màn hình của chƣơng trình.
- Chƣơng trình nhận dạng khẩu lệnh (voice command) để điều khiển thiết bị
đọc báo điện tử cho ngƣời khiếm thị.
5. Phƣơng pháp nghiên cứu
a. Phƣơng pháp lý thuyết
- Nghiên cứu mơ hình Markov ẩn (Hidden Markov Model - HMM)
- Nghiên cứu ứng dụng của HMM trong nhận dạng tiếng nói rời rạc (isolated

speech recognition).
- Tìm hiểu phƣơng pháp nhận dạng tiếng Việt bằng HMM.
- Tìm hiểu các phƣơng pháp xử lý tiếng nói.
- So sánh các phƣơng pháp để đƣa ra giải pháp tối ƣu.
b. Phƣơng pháp thực nghiệm
- Thu mẫu âm tiếng Việt rời rạc với tập lệnh hữu hạn.
- Tìm hiểu công cụ hỗ trợ nghiên cứu, thực nghiệm.
- Cài đặt thuật toán, xây dựng hệ thống.
- Triển khai, đánh giá kết quả đạt đƣợc.
6. Kết luận
a. Kết quả của đề tài
- Tập lệnh điều khiển thiết bị đọc báo điện tử cho ngƣời khiếm thị.
- Dữ liệu tiếng nói của hơn 42 ngƣời với chất giọng khác nhau.
- Mơ hình hệ thống nhận dạng tiếng nói rời rạc qua các cơng cụ của HTK
toolkit.
- Mơ hình âm học theo từ đƣợc huấn luyện, áp dụng cho tiếng Việt.
- Chƣơng trình nhận dạng khẩu lệnh có độ chính xác cao để điều khiển thiết bị.
b. Hƣớng phát triển của đề tài
Tối ƣu hoá thuật toán huấn luyện HMM và thuật toán nhận dạng tiếng Việt để
có kết quả nhận dạng chính xác hơn và nhanh hơn.

4
7. Cấu trúc luận văn
Chƣơng 1: CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NÓI
Chƣơng 2: NHẬN DẠNG TIẾNG NÓI DÙNG MƠ HÌNH MARKOV ẨN
Chƣơng 3: XÂY DỰNG HỆ THỐNG NHẬN DẠNG LỆNH ĐIỀU KHIỂN
BẰNG GIỌNG NÓI.
Chƣơng 4: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

5

CHƢƠNG 1 - CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NĨI
1.1. Tổng quan về xử lý tiếng nói
Kể từ khi xuất hiện, máy tính càng ngày càng chứng tỏ rằng đó là một cơng cụ
vơ cùng hữu ích trợ giúp con ngƣời xử lý thông tin. Cùng với sự phát triển của xã hội,
khối lƣợng thơng tin mà máy tính cần xử lý tăng rất nhanh trong khi thời gian dành
cho những cơng việc này lại giảm đi. Vì vậy, việc tăng tốc độ xử lý thơng tin, trong đó
có tốc độ trao đổi thông tin giữa con ngƣời và máy tính, trở thành một yêu cầu cấp
thiết. Hiện tại, giao tiếp ngƣời - máy đƣợc thực hiện bằng các thiết bị nhƣ bàn phím,
chuột, màn hình,... với tốc độ tƣơng đối chậm nên cần có các phƣơng pháp trao đổi
thông tin mới giúp con ngƣời làm việc hiệu quả hơn với máy tính. Một trong những
hƣớng nghiên cứu này là sử dụng tiếng nói trong trao đổi thơng tin ngƣời - máy.
Những nghiên cứu này liên quan trực tiếp tới các kết quả của chuyên ngành xử lý tiếng
nói, trong đó có nhận dạng tiếng nói.
1.2. Nhận dạng tiếng nói tự động
Nhận dạng tiếng nói là một q trình nhận dạng mẫu [11] , với mục đích là
phân lớp (classify) thơng tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các
mẫu đã đƣơc học trƣớc đó và lƣu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng,
chúng có thể là các từ, hoặc các âm vị. Nếu các mẫu này là bất biến và khơng thay đổi
thì cơng việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói
cần nhận dạng với các mẫu đã đƣơc học và lƣu trữ trong bộ nhớ. Khó khăn cơ bản của
nhận dạng tiếng nói đó là tiếng nói ln biến thiên theo thời gian và có sự khác biệt
lớn giữa tiếng nói của những ngƣời nói khác nhau, tốc độ nói, ngữ cảnh và mơi trƣờng
âm học khác nhau.
Xác định những thơng tin biến thiên nào của tiếng nói là có ích và những thơng
tin nào là khơng có ích đối với nhận dạng tiếng nói là rất quan trọng. Đây là một
nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó
khăn trong việc tổng qt hố từ các mẫu tiếng nói những biến thiên quan trọng cần

thiết trong nhận dạng tiếng nói.
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản [3]:
- Tín hiệu tiếng nói đƣơc biểu diễn chính xác bởi các giá trị phổ trong một

6
khung thời gian ngắn (short-term amplitude spectrum). Nhờ vậy ta có thể trích ra các
đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ
liệu để nhận dạng tiếng nói.
- Nội dung của tiếng nói đƣơc biểu diễn dƣới dạng chữ viết, là một dãy các ký
hiệu ngữ âm. Do đó ý nghĩa của một phát âm đƣơc bảo toàn khi chúng ta phiên âm
phát âm thành dãy các ký hiệu ngữ âm.
- Nhận dạng tiếng nói là một q trình nhận thức. Thơng tin về ngữ nghĩa
(semantics) và suy đốn (pragmatics) có giá trị trong q trình nhận dạng tiếng nói,
nhất là khi thông tin về âm học là không rõ ràng.
1.3. Ngữ âm tiếng Việt
Âm vị: Về mặt ngôn ngữ học [3], có thể xem tiếng nói là một chuỗi các âm cơ
bản đƣợc gọi là âm vị. Âm vị là đơn vị ngôn ngữ trừu tƣợng và không thể quan sát trực
tiếp trong tín hiệu tiếng nói. Nhiều âm vị khác nhau kết hợp với nhau một cách nào đó
để tạo ra những âm thanh khác nhau.
Nguyên âm: Nguyên âm đƣợc xác định bởi hốc cộng hƣởng khoang miệng và
hốc yết hầu-nguồn gốc của các Formant. Khoang miệng và khoang yết hầu đƣợc tách
biệt ra bởi lƣỡi. Do đó, sự thay đổi của khoang này đồng nghĩa với sự thay đổi của
khoang kia. Việc xác định thể tích, hình dáng, lối thốt khơng khí của những hốc cộng
hƣởng này, tức xác định khả năng cộng hƣởng của chúng, chính là mơ tả độ mở của
miệng, vị trí của lƣỡi và hình dáng của mơi.
Phụ âm: Đặc điểm cơ bản của phụ âm là sự cấu tạo bằng luồng khơng khí bị
cản trở, sự cản trở này diễn ra với những mức độ khác nhau, cách thức khác nhau và ở
những bộ phận khác nhau của cơ quan phát âm. Phụ âm đuợc chia ra phụ âm tắc (nhƣ
„p‟, „t‟, „đ‟, „b‟) và phụ âm xát (nhƣ „v‟, „s‟, „x‟).

Phụ âm tắc: Đặc trƣng là một tiếng nổ, do luồng không khí bị cản trở hồn
tồn, phải phá vỡ sự cản trở để thốt ra ngồi. Phụ âm tắc đƣợc chia làm phụ âm bật
hơi (nhƣ „th‟)và phụ âm mũi (nhƣ „m‟, „n‟, „ng‟, „nh‟).
Phụ âm xát: Đặc trƣng là tiếng cọ xát, phát sinh do luồng không khi đi ra bị
cản trở khơng hồn tồn(chỉ bị khó khăn) phải lách qua một khe hở nhỏ và trong khi
thốt ra ngồi cọ xát vào thành của bộ phận phát âm.

7
1.4. Thanh điệu
Thanh điệu là sự nâng cao hay hạ thấp “giọng nói” trong một âm tiết. Âm tiết là
đơn vị phát âm nhỏ nhất, trong tiếng Việt âm tiết là một từ. Thanh điệu là sự thay đổi
cao độ của giọng nói, điều đó có nghĩa thay đổi biên độ tần số cơ bản trong âm hữu
thanh. Thanh điệu đƣợc xác định bằng tần số cơ bản.
1.5. Phân loại âm vị theo đặc tính âm học
Tiếng nói là âm thanh mang mục đích diễn đạt thơng tin, khi giao tiếp chuỗi lời
nói mà con ngƣời phát ra gồm nhiều khúc đoạn dài ngắn khác nhau. Đơn vị phát âm
ngắn nhất là âm tiết (syllable). Trong tiếng Việt, số âm tiết đƣợc sử dụng vào khoảng
6700. Khi chúng ta phát ra một tiếng thì có rất nhiều bộ phận nhƣ lƣỡi, thanh môn,
môi, họng, thanh quản,... kết hợp với nhau để tạo thành âm thanh. Âm thanh phát ra
đƣợc lan truyền trong khơng khí để đến tai ngƣời nhận. Vì âm thanh phát ra từ sự kết
hợp của rất nhiều bộ phận, do đó âm thanh ở mỗi lần nói khác nhau hầu nhƣ khác nhau
dẫn đến khá khó khăn khi ta muốn phân chia tiếng nói theo những đặc tính riêng.
Ngƣời ta chỉ chia tiếng nói thành 3 loại cơ bản nhƣ sau 3]:
1.5.1. Âm hữu thanh
Là âm khi phát ra thì có thanh, ví dụ nhƣ chúng ta nói “i”, “a”, hay “o” chẳng
hạn. Thực ra âm hữu thanh đƣợc tạo ra là do việc khơng khí qua thanh môn (thanh
môn tạo ra sự khép mở của dây thanh dƣới sự điều khiển của hai sụn chóp) với một độ
căng của dây thanh sao cho chúng tạo nên dao động.
Đƣợc tạo ra khi dây thanh âm căng lên và rung khi áp suất khơng khí tăng lên,

làm cho thanh mơn mở ra rồi đóng lại khi luồng khơng khí đi qua. Bộ phận phát âm
hoạt động giống nhƣ hộp cộng hƣởng, khuếch đại những thành phần hài này và làm
suy giảm những thành phần hài khác để tạo ra âm hữu thanh. Mức độ rung của dây
thanh âm tùy thuộc vào áp suất khơng khí ở phổi và sức căng của dây thanh âm. Ngƣời
nói có thể điều khiển 2 yếu tố trên để thay đổi chu kì cơ bản (đƣợc gọi là pitch) của âm
thanh. Ở ngƣời đàn ông, tần số cơ bản khoảng từ 50 đến 250 Hz, trong khi ở phụ nữ là
thƣờng rơi vào khoảng 120 đến 500 Hz. Trong ngôn ngữ, các nguyên âm về bản chất
âm học là những âm hữu thanh.
1.5.2. Âm vô thanh
Đƣợc tạo ra khi dây thanh âm không rung. Có hai loại âm vơ thanh cơ bản: âm

8
xát và âm bật hơi 3].
Đối với âm xát, ví dụ khi nói “s”, “x”, một số điểm trên bộ phận phát âm bị co
lại khi luồng khơng khí đi ngang qua nó, hỗn loạn xảy ra tạo nên nhiễu ngẫu nhiên.
Bởi vì những điểm co thƣờng ở phía trƣớc miệng, cộng hƣởng của bộ phận phát âm có
ảnh hƣởng nhỏ đến đặc tính của âm xát.
Đối với âm bật hơi, nhƣ khi ta nói „h‟ trong hùng?, hỗn loạn xảy ra ở gần thanh
môn khi dây thanh âm bị giữ nhẹ một phần. Trƣờng hợp này, cộng hƣởng của bộ phận
phát âm sẽ biến điệu phổ của nhiễu ngẫu nhiên. Hiệu ứng này có thể nghe rõ khi nói
thì thầm. Cấu tạo cơ bản của phụ âm trong mọi ngơn ngữ là âm vơ thanh. Ngồi hai
loại âm cơ bản ở trên, cịn có một loại âm trung gian vừa mang tính chất nguyên âm,
vừa mang tính chất phụ âm, đƣợc gọi là bán nguyên âm hay bán phụ âm. Ví dụ nhƣ
âm „i‟ và „u‟ trong những từ „ai‟, „âu‟.

(a)

(b)

Hình 1.1: (a) tần số, đường năng lượng âm vô thanh; (b) tần số, đường năng lượng âm
hữu thanh.
1.5.3. Âm bật hơi
Khi phát các âm này, bộ máy phát âm sẽ đƣợc đóng lại hồn tồn tại một điểm
nào đó trong bộ máy phát âm. Áp suất khơng khí trong bộ máy phát âm sẽ tăng lên tức
thời và đƣợc giải phóng một cách đột ngột. Sự giải thốt nhanh chóng của áp suất này
sẽ tạo nên một sự kích thích tạm thời của bộ máy phát âm. Ví dụ nhƣ „p‟, „k‟, „t‟.

9
1.6. Các thành phần cơ bản của ngữ điệu trong tiếng nói
1.6.1. Ngữ điệu và các thành phần ngữ điệu
Ngữ điệu là một thành phần tổng quát và quan trọng của tiếng nói, bởi vì tất cả
các ngơn ngữ đều có ngữ điệu. Trong ngành ngơn ngữ học, ngữ điệu là một thành của
ngữ âm và đƣợc biểu diễn bởi các yếu tố vật lý nhƣ thời gian, cao độ, cƣờng độ, phổ.
Và một hệ thống ngữ điệu (intonation system) là một sự thay đổi về cao độ, cƣờng độ,
thời gian ngắt nghỉ, phổ của một câu nhằm thể hiện một ý nghĩa, sắc thái tình cảm khi
giao tiếp bằng tiếng nói. Ngữ điệu bao gồm một số thành phần nhƣ sau:
- Cao độ (pitch hoặc f0): trong số các yếu tố ngôn điệu, sự thay đổi cao độ là
rõ ràng, dễ thấy nhất. Các thay đổi này hợp thành đƣờng cao độ của lời nói (hay đƣờng
F0 của tín hiệu tiếng nói). Một vài nghiên cứu về các đƣờng cao độ ở mức độ câu cho
thấy đƣờng cao độ của những câu dài hơn có thể phân tách thành một chuỗi những
đƣờng cơ bản, những đƣờng này lại có thể đƣợc phân nhỏ hơn thành những đƣờng cao
độ của âm tiết.
- Trƣờng độ: trƣờng độ trong ngôn điệu quan tâm đến độ dài của câu, của
đoạn, của từ, của âm tiết, phần âm khơng gió (voiced pard) trong một âm tiết, phần
nguyên âm của âm tiết. Độ dài của âm tiết và lời nói phụ thuộc (phụ thuộc hoặc phụ
thuộc lẫn nhau) vào một số yếu tố nhƣ tốc độ nói, nhịp điệu, bản chất ngữ âm, ...
Trong phần lớn trƣờng hợp, trƣờng độ tuyệt đối của một yếu tố đƣợc ƣớc lƣợng một
cách dễ dàng. Thỉnh thoảng, việc xác định đƣợc biên của một yếu tố là không dễ dàng.

- Cƣờng độ: là một thuộc tính ngơn điệu đã đƣợc mô tả từ những nghiên cứu
đầu tiên về ngôn điệu trong ngữ âm học. Ngƣời ta cho rằng nó liên quan đến âm lƣợng
(loudness) cũng nhƣ các lực âm vị (phonology force). Cả hai tính chất này đều ám chỉ
đến dạng cảm nhận của ngôn điệu: âm tiết mang trọng âm nổi bật hơn so với các âm
tiết xung quanh, do âm lƣợng lớn hoặc các thuộc tính động của chúng.
1.6.2. Mơ hình ngữ điệu
Trong các trƣờng hợp khác nhau, các tham số của ngữ điệu biến đổi theo các
quy luật đƣợc xác định cho trƣờng hợp đó. Các mơ hình ngơn điệu phục vụ mục đích:
Giải thích cách giao tiếp bằng tiếng nói.
Xây dựng nền tảng cho hệ thống phần mềm là một phần của hệ thống giao tiếp
hoặc là hệ tổng hợp tiếng nói.

10
Xây dựng nền tảng cho hệ thống nhận dạng ngôn điệu trong giọng nói con
ngƣời.
Ngữ điệu có liên quan đến nhiều mức độ của khả năng ngôn ngữ của ngƣời nói:
từ vựng, ngữ pháp, ngữ nghĩa. Vì vậy, để trích xuất đƣợc ngữ điệu từ văn bản, ta cần
quan tâm đến tất cả các mặt này.
1.7. Phân tích tiếng nói
1.7.1. Mơ hình phân tích tiếng nói
Tín hiệu tiếng nói đƣợc tiền xử lý bằng cách cho qua một bộ lọc thơng thấp với
tần số cắt khoảng 8kHz. Tín hiệu thu đƣợc sau đó đƣợc thực hiện q trình biến đổi
sang dạng tín hiệu số nhờ bộ biến đổi ADC. Thơng thƣờng, tần số lấy mẫu bằng
16kHz với tốc độ bít lƣợng từ hóa là 16bit. Tín hiệu tiếng nói dạng số đƣợc phân
khung với chiều dài khung thƣờng khoảng 30ms và khoảng lệch các khung thƣờng
bằng 10ms. Khung phân tích tín hiệu sau đó đƣợc chỉnh biên bằng cách lấy cửa sổ với
các hàm cửa sổ phổ biến nhƣ Hamming, Hanning.... Tín hiệu thu đƣợc sau khi lấy cửa
sổ đƣợc đƣa vào phân tích với các phƣơng pháp phân tích phổ (chẳng hạn nhƣ STFT,
LPC,...). Hoặc sau khi phân tích phổ cơ bản, tiếp tục đƣợc đƣa đến các khối để trích

chọn các đặc trƣng.
1.7.2. Phân tích tiếng nói ngắn hạn
Trong lý thuyết phân tích, chúng ta thƣờng khơng để ý đến một điểm quan
trọng là các phân tích phải đƣợc tiến hành trong một khoảng thời gian giới hạn. Chẳng
hạn, chúng ta biết rằng biến đổi Fourier [11] theo thời gian liên tục là một công cụ vô
cùng hữu ích cho việc phân tích tín hiệu. Tuy nhiên, nó yêu cầu phải biết đƣợc tín hiệu
trong mọi khoảng thời gian. Hơn nữa, các tính chất hay đặc trƣng của tín hiệu mà
chúng ta cần tìm hiểu phải là các đại lƣợng không đổi theo thời gian. Điều này trong
thực tế phân tích tín hiệu khó mà đạt đƣợc vì việc phân tích tín hiệu đáp ứng các ứng
dụng thực tế có thời gian hữu hạn. Hầu hết các tín hiệu, đặc biệt là tín hiệu tiếng nói,
khơng phải là tín hiệu khơng đổi theo thời gian.

11

Hình 1.2: Mơ hình tổng qt của việc xử lý tín hiệu tiếng nói [11]
Về mặt ngun lý, chúng ta có thể áp dụng các kỹ thuật phân tích đã biết vào
phân tích tín hiệu trong ngắn hạn. Tuy nhiên vì tín hiệu tiếng nói là một q trình mang
thơng tin động nên chúng ta không thể chỉ đơn thuần xem xét phân tích ngắn hạn trong
chỉ một khung thời gian đơn lẻ. Tín hiệu tiếng nói nhƣ đã đề cập là tín hiệu thay đổi theo
thời gian. Nó có các đặc trƣng cơ bản nhƣ nguồn kích thích (excitation), cƣờng độ
(pitch), biên độ (amplitude), ... Các tham số thay đổi theo thời gian của tín hiệu tiếng nói
có thể kể đến là tần số cơ bản (fundamental frequency - pitch), loại âm (âm hữu thanh voiced, vô thanh - unvoiced, tắc - fricative hay khoảng lặng - silence), các tần số cộng
hƣởng chính (formant), hàm diện tích của tuyến âm (vocal tract area), ... Việc thực hiện
phân tích ngắn hạn tức là xem xét tín hiệu trong một khoảng nhỏ thời gian xung quanh
thời điểm đang xét n nào đó. Các khoảng này thƣờng khoảng từ 10-30ms. Điều này cho
phép chúng ta giả thiết rằng trong khoảng thời gian đó các tính chất của dạng sóng tín
hiệu tiếng nói là tƣơng đối ổn định. Khoảng nhỏ tín hiệu dùng để phân tích thƣờng đƣợc
gọi là một khung (frame), hay một đoạn (segment). Một khung tín hiệu đƣợc xác định là
tích của một hàm cửa sổ dịch w(m) và dãy tín hiệu s(n):

12
(1.1)
Một khung tín hiệu có thể đƣợc hiểu nhƣ một đoạn tín hiệu đƣợc cắt gọt bởi
một hàm cửa sổ để tạo thành một dãy mới mà các giá trị của nó bằng khơng bên ngồi
khoảng n  [mN+1,m]. Từ cơng thức (1.1) chúng ta thấy rằng khung tín hiệu này phụ
thuộc vào khoảng thời gian kết thúc m. Trong khung tín hiệu nhỏ vừa đƣợc định nghĩa,
dễ dàng thấy rằng các phép xử lý ngắn hạn cũng có ý nghĩa tƣơng đƣơng các phép xử
lý dài hạn. Nhƣ đã đề cập, việc phân tích tín hiệu tiếng nói khơng thể đơn giản chỉ
bằng phân tích một khung tín hiệu đơn lẻ mà phải bằng các phân tích của các khung
tín hiệu liên tiếp. Thực tế, để tránh mất thơng tin, các khung tín hiệu thƣờng đƣợc lấy
bao trùm nhau. Nói một cách khác, hai khung cạnh nhau có chung ít nhất M>0 mẫu.
Hình 1.2 minh họa việc phân chia khung với hàm cửa sổ.

Hình 1.3: Phân tích tín hiệu trên các khung chồng lên nhau [11].
Một phép phân tích ngắn hạn tổng quát có thể biểu diễn là:
(1.2)
Trong đó, Xn biểu diễn tham số phân tích (hoặc véc-tơ các tham số phân tích)
tại thời điểm phân tích n. Tốn tử T{} định nghĩa một hàm phân tích ngắn hạn. Tổng
(1.2) đƣợc tính với giới hạn vơ cùng đƣợc hiểu là phép lấy tổng đƣợc thực hiện với tất
cả các thành phần khác khơng của khung tín hiệu là kết quả của phép lấy cửa sổ. Nói
cách khác, tổng đƣợc thực hiện với mọi giá trị của m trong tập xác định (support) của
hàm cửa sổ. Một số hàm cửa sổ phổ biến thƣờng hay đƣợc sử dụng là: hàm cửa sổ chữ

13
nhật (rectangular window), hàm cửa sổ Hanning và hàm cửa sổ Hamming [9].
1.8. Các đặc tính cơ bản của tiếng nói
1.8.1. Tần số cơ bản

Thơng lƣợng: thể tích khơng khí vận chuyển qua thanh môn trong một đơn vị
thời gian (khoảng 1cm3/s).
Chu kỳ cơ bản T0: khi dây thanh rung với chu kỳ T0 thì thơng lƣợng cũng biến
đổi tuần hoàn theo chu kỳ này và ta gọi T0 là chu kỳ cơ bản.
Giá trị nghịch đảo của T0 là F0=1/T0 đƣợc gọi là tần số cơ bản của tiếng nói. F0
phụ thuộc vào giới tính và lứa tuổi của ngƣời phát âm; F0 thay đổi theo thanh điệu và
F0 cũng ảnh hƣởng đến ngữ điệu của câu nói.
1.8.2. Biểu diễn tín hiệu tiếng nói
Có 3 phƣơng pháp biểu diễn tín hiệu tiếng nói cơ bản là [11]:
- Biểu diễn dƣới dạng sóng theo thời gian.
- Biểu diễn trong miền tần số: phổ của tín hiệu tiếng nói.
- Biểu diễn trong khơng gian 3 chiều (spectrogram)
1.8.2.1. Dạng sóng theo thời gian
Phần tín hiệu ứng với âm vơ thanh là khơng tuần hồn, ngẫu nhiên và có biên
độ hay năng lƣợng nhỏ hơn của nguyên âm (cỡ khoảng 1/3).
Ranh giới giữa các từ là các khoảng lặng (Silent). Ta cần phân biệt rõ các
khoảng lặng với âm vơ thanh.

Hình 1.4: Dạng sóng theo thời gian
Âm thanh dƣới dạng sóng đƣợc lƣu trữ theo định dạng thơng dụng trong máy
tính là *.WAV với các tần số lấy mẫu thƣờng gặp là: 8000Hz, 10000Hz, 11025Hz,

14
16000Hz, 22050Hz, 32000Hz, 44100Hz,...; độ phân giải hay còn gọi là số bít/mẫu là 8
hoặc 16 bít và số kênh là 1 (Mono) hoặc 2 (Stereo).
Nhƣ vậy, dữ liệu lƣu trữ của tín hiệu âm thanh sẽ khác nhau tuỳ theo máy thu
thanh, thời điểm phát âm hay ngƣời phát âm, điều này đƣợc thể hiện rõ nét trong các
hình vẽ sau:

Hình 1.5: Âm thanh được thu bằng 2 micro khác nhau

Hình 1.6 Âm thanh do hai người khác nhau phát ra

Hình 1.7. Âm thanh do một người phát ra ở hai thời điểm khác nhau

15
1.8.2.2. Phổ tín hiệu tiếng nói.
Trong phân tích tín hiệu tiếng nói, thay vì sử dụng trực tiếp tín hiệu tiếng nói
trong miền thời gian, ngƣời ta thƣờng hay sử dụng các đặc trƣng phổ của tiếng nói.
điều này xuất phát từ quan điểm rằng tín hiệu tiếng nói cũng giống nhƣ các tín hiệu
xác định khác có thể xem nhƣ là tổng của các tín hiệu hình sin với biên độ và pha thay
đổi chậm. Hơn nữa, một nguyên nhân quan trọng khơng kém đó là việc cảm nhận
tiếng nói của con ngƣời liên quan trực tiếp đến thơng tin phổ của tín hiệu tiếng nói
nhiều hơn trong khi các thơng tin về pha của tín hiệu tiếng nói khơng có vai trị quyết
định. Phổ biên độ phức của tín hiệu tiếng nói đƣợc định nghĩa là biến đổi Fourier (FT)
của khung tín hiệu với khoảng thời gian phân tích n cố định:
(1.3)

Hình 1.8. Minh họa một khung tín hiệu (trên) và phổ tương ứng (dưới) [11].

NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI VỚI TẬP LỆNH TỪ ĐƠN HỮU HẠN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về