Tải bản đầy đủ (.pdf) (63 trang)

Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã ma trận không âm (Luận văn thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.95 MB, 63 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

TRẦN ÍCH ĐẠI

NGHIÊN CỨU PHƯƠNG PHÁP BIẾN ĐỔI CẢM XÚC
NGƯỜI NÓI TRONG TIẾNG NÓI DÙNG KỸ THUẬT
PHÂN RÃ MA TRẬN KHÔNG ÂM

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN, 2019
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

TRẦN ÍCH ĐẠI

NGHIÊN CỨU PHƯƠNG PHÁP BIẾN ĐỔI CẢM XÚC
NGƯỜI NÓI TRONG TIẾNG NÓI DÙNG KỸ THUẬT
PHÂN RÃ MA TRẬN KHÔNG ÂM
Chuyên ngành: Khoa học máy tính
Mã số: 8 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: PGS. TS. PHÙNG TRUNG NGHĨA



THÁI NGUYÊN, 2019
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




i

LỜI CẢM ƠN
Lời đầu tiên, em xin chân thành cám ơn PGS.TS. Phùng Trung Nghĩa,
người đã trực tiếp hướng dẫn em hoàn thành luận văn. Với những lời chỉ dẫn,
những tài liệu, sự tận tình hướng dẫn và những lời động viên của thầy đã giúp
em vượt qua nhiều khó khăn trong quá trình thực hiện luận văn này.
Em cũng xin cám ơn quý thầy cô giảng dạy chương trình cao học "Khoa
hoc máy tính” đã truyền dạy những kiến thức quý báu, những kiến thức này rất
hữu ích và giúp em nhiều khi thực hiện nghiên cứu.
Cuối cùng, em xin gửi lời cám ơn tới gia đình và bạn bè đã luôn ủng hộ động
viên giúp đỡ em trong suốt những năm học vừa qua.
Em xin chân thành cám ơn!
Thái Nguyên, ngày tháng năm 2019
Học viên

Trần Ích Đại

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN





ii

LỜI CAM ĐOAN
Em xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của cá
nhân, được thực hiện dưới sự hướng dẫn khoa học của PGS. TS. Phùng Trung
Nghĩa
Các số liệu, những kết luận nghiên cứu được trình bày trong luận văn này
trung thực và chưa từng được công bố dưới bất cứ hình thức nào.
Em xin chịu trách nhiệm về nghiên cứu của mình.

Học viên

Trần Ích Đại

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




iii

MỤC LỤC
TRANG PHỤ BÌA
LỜI CẢM ƠN ................................................................................................... i
LỜI CAM ĐOAN ............................................................................................ ii
MỤC LỤC ....................................................................................................... iii
DANH MỤC BẢNG ........................................................................................ v
DANH MỤC HÌNH ........................................................................................ vi
MỞ ĐẦU .......................................................................................................... 1
1. Đặt vấn đề ................................................................................................. 1

2. Đối tượng và phạm vi nghiên cứu............................................................. 2
3. Hướng nghiên cứu của luận văn ............................................................... 3
4. Những nội dung nghiên cứu chính ............................................................ 3
5. Phương pháp nghiên cứu........................................................................... 4
6. Ý nghĩa khoa học của luận văn: ................................................................ 4
CHƯƠNG 1...................................................................................................... 5
TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN
CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI .......................................... 5
1.1. Thông tin tiếng nói ............................................................................. 5
1.2. Tín hiệu tiếng nói ............................................................................... 5
1.3. Quá trình tạo tiếng nói ....................................................................... 7
1.4. Cơ quan thính giác ........................................................................... 10
1.5. Xử lý tiếng nói.................................................................................. 12
1.6. Thông tin cảm xúc người nói trong tiếng nói .................................. 13
1.7. Biến đổi cảm xúc người nói trong tiếng nói và ứng dụng ............... 16
1.7.1. Phương pháp biến đổi thay đổi tham số trực tiếp ................. 17
1.7.2. Biến đổi cảm xúc người nói dựa vào thay thế khung ........... 20
1.7.3. Biến đổi thông tin người nói bằng TD-GMM ...................... 21

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




iv

1.7.4. Biến đổi thông tin người nói bằng HTD [9] ......................... 23
CHƯƠNG 2.................................................................................................... 30
BIẾN ĐỔI CẢM XÚC NGƯỜI NÓI BẰNG KỸ THUẬT PHÂN RÃ MA
TRẬN KHÔNG ÂM NMF ........................................................................... 30

2.1. Kỹ thuật phân rã ma trận không âm NMF ....................................... 30
2.1.1. Tổng quan.............................................................................. 30
2.1.2. Lịch sử ................................................................................... 30
2.1.3. Nền tảng ................................................................................ 30
2.1.4. Tính chất phân cụm ............................................................... 32
2.1.5. Các kỹ thuật phân rã ma trận không âm ............................... 33
2.2. Ứng dụng kỹ thuật phân rã ma trận không âm NMF trong biến đổi
tiếng nói [10] ........................................................................................... 39
CHƯƠNG 3.................................................................................................... 41
ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP BIẾN ĐỔI CẢM
XÚC NGƯỜI NÓI TRONG TIẾNG NÓI .................................................. 41
3.1. Ngữ âm tiếng Việt ............................................................................ 41
3.2. Cơ sở dữ liệu tiếng nói tiếng Việt .................................................... 43
3.3. Tổng hợp tiếng nói tiếng Việt .......................................................... 46
3.4. Lựa chọn cơ sở dữ liệu ..................................................................... 47
3.5. Thực nghiệm các phương pháp ........................................................ 47
3.6. Đánh giá các phương pháp ............................................................... 47
3.6.1. Tiêu chí và kết quả đánh giá khách quan .............................. 47
3.6.2. Tiêu chí và kết quả đánh giá khách quan .............................. 48
KẾT LUẬN .................................................................................................... 51
TÀI LIỆU THAM KHẢO ............................................................................ 52

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




v

DANH MỤC BẢNG

Bảng 3.1: Cấu trúc âm tiết tiếng Việt.............................................................. 43
Bảng 3.2: Sáu thanh điệu tiếng Việt ............................................................... 43
Bảng 3.3: Khoảng cách MCD ......................................................................... 49
Bảng 3.4: Độ sai lệch F0 ................................................................................. 49
Bảng 3.5:Kết quả đánh giá chủ quan ABX giữa các phương pháp TD-GMM
(1); HTD (2); và NMF (3) ............................................................................... 49

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




vi

DANH MỤC HÌNH
Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt ........................................... 6
Hình 1.2: Tiếng nói hữu thanh .......................................................................... 6
Hình 1.3: Bộ phận cung cấp làn hơi .................................................................. 7
Hình 1.4: Dây thanh âm .................................................................................... 7
Hình 1.5: Cấu trúc cơ quan phát âm ................................................................. 8
Hình 1.6: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm.......... 9
Hình 1.7: Mô hình hóa cơ quan phát âm ........................................................... 9
Hình 1.8: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính ...... 9
Hình 1.9: Mô hình cơ quan thính giác ............................................................ 10
Hình 1.10: Thang tần số Bark ......................................................................... 11
Hình 1.11: Ngưỡng nghe ................................................................................ 11
Hình 1.12: Mặt nạ thời gian (che âm thanh liền trước và liền sau) ................ 11
Hình 1.13: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng thời điểm)
......................................................................................................................... 12
Hình 1.14: Một số ứng dụng của xử lý tiếng nói ............................................ 13

Hình 1.15: Hệ thống nhận dạng cảm xúc người nói – một trong các ứng dụng
xử lý thông tin người nói ................................................................................. 13
Hình 1.16: Người nói khác nhau có cơ quan phát âm và cách phát âm khác
nhau dẫn tới tiếng nói khác nhau khi nói với các cảm xúc khác nhau .......... 14
Hình 1.17: Đặc trưng phổ formant đặc trưng cho cơ quan phát âm ............... 15
Hình 1.18: Tính toán vector đặc trưng ............................................................ 16
Hình 1.19: Mô hình học máy thống kê GMM được sử dụng để mô hình hóa
người nói ......................................................................................................... 17
Hình 1.20: Phân tích phổ, F0 và tái tạo bằng STRAIGHT ............................. 18
Hình 1.21: Thuật toán điều chỉnh trực tiếp tham số tiếng nói ........................ 19
Hình1.22: Lựa chọn khung đích phù hợp và thay thế khung nguồn............... 21

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




vii

Hình1.23.Phương pháp biến đổi TD-GMM. ................................................... 23
Hình 1.24. Mô hình biến đổi giọng người nói HTD ....................................... 24
Hình 1.25. Ví dụ phân tích / tái tạo tiếng nói bằng MRTD với N khung và K
điểm sự kiện .................................................................................................... 26
Hình 2.1. NMF tuần tự .................................................................................... 36
Hình 2.2. Xây dựng từ điển nguồn và đích cho mỗi câu tiếng nói trong pha huấn
luyện ................................................................................................................ 40
Hình 2.3.Pha chuyển đổi ................................................................................. 40
Hình 3.1: Đường F0 sáu thanh điệu tiếng Việt theo, dấu ? ở thanh ngã chỉ ra
rằng đường F0 của thanh ngã không thống nhất giữa các mẫu ở vùng giữa. . 42


Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




viii

DANH MỤC CHỮ VIẾT TẮT VÀ KÝ HIỆU

Ký tự

Ý nghĩa

F0

Tần số giao động cơ bản

AMDF

Hàm hiệu biên độ trung bình

LP

Phương pháp dự đoán tuyến tính

PCM

Kỹ thuật điều chế xung mã

MAV


Dữ liệu âm thanh không nén

LSF

Tham số phổ đường

ABX

Thang điểm đánh giá theo cặp

GMM

Mô hình Gaussian hỗn hợp

P

Chỉ số hiệu năng

MOS

Thang điểm đánh giá chủ quan trung bình

MCD

Khoảng cách phổ Mel

RMSE

Lối trung bình phương


HMM

Mô hình thống kê

HTT

Thay thế mẫu và ghép nối

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




1

MỞ ĐẦU
1. Đặt vấn đề
Tiếng nói là phương tiện giao tiếp cơ bản của con người. Tín hiệu tiếng
nói mang nhiều thông tin, như thông tin ngôn ngữ, thông tin định danh người
nói, thông tin về cảm xúc người nói,…
Hầu hết các hệ thống xử lý tiếng nói tập trung vào xử lý các thông tin
ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được [1]. Tuy nhiên để
các ứng dụng xử lý tiếng nói trong máy tính có thể được áp dụng rộng rãi trong
thực tế, tính tự nhiên của tiếng nói được xử lý cũng cần được quan tâm và cũng
đã được quan tâm nghiên cứu trong thời gian gần đây [2]. Để đảm bảo tiếng
nói sau xử lý (như tiếng nói được tổng hợp nhân tạo) được tự nhiên, một trong
những vấn đề quan trọng cần đảm bảo là thông tin về cảm xúc người nói [310].
Các hệ thống tổng hợp tiếng nói nhân tạo thường chỉ có thể tổng hợp ra
tiếng nói của một số giọng nói đã được thu sẵn (với cảm xúc trung tính) và huấn

luyện trước cho máy tính. Trong nhiều ứng dụng truyền thông đa phương tiện
hiện đại, việc biến đổi cảm xúc người nói trong tín hiệu tiếng nói có vai trò
quan trọng. Một số ví dụ điển hình như:
- Trong các hệ thống đọc truyện online cần “phát thanh viên ảo” nói với
giọng có cảm xúc tự nhiên nhất [4].
- Trong các clips quảng cáo, âm nhạc cần biến đổi giọng nói, giọng hát
của diễn viên theo các cảm xúc cụ thể khác nhau như cao hơn, trầm hơn, giống
với cảm xúc của nhân vật hơn,… [4]
- Đặc biệt, nếu bỏ qua các thông tin phi ngôn ngữ như thông tin người
nói, cảm xúc nói khi mã hóa tiếng nói bằng phương pháp kết hợp sử dụng các
hệ thống nhận dạng và tổng hợp tiếng nói ở đầu cuối, tiếng nói có thể được
truyền như văn bản với tốc độ bit cực thấp [10]. Khi đó sẽ sử dụng hiệu quả tối

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




2

đa hạ tầng truyền thông, ngay cả trong điều kiện tài nguyên rất hạn chế. Tuy
nhiên để tiếng nói mã hóa theo phương pháp này có thể được sử dụng hiệu quả
trong thực tiễn, các thông tin phi ngôn ngữ như thông tin người nói, cảm xúc
nói cần phải được bổ sung ở đầu ra. Nói cách khác, thông tin tiếng nói đã mã
hóa cần phải được biến đổi theo người nói và cảm xúc cụ thể.
Kỹ thuật phân rã ma trận không âm là một kỹ thuật xử lý tín hiệu trên
miền thời gian hiệu quả, đã được áp dụng trong nhiều hệ thống xử lý tiếng nói
và gần đây nhất đã được áp dụng thành công trong các hệ thống biến đổi cảm
xúc người nói.
Trên thế giới đã có nhiều nghiên cứu về biến đổi cảm xúc trong tiếng nói

[3-10]. Tại Việt Nam cũng có một số nghiên cứu ban đầu về cảm xúc người nói
trong tiếng nói nhưng vẫn chưa có nhiều các nghiên cứu đánh giá một cách tổng
hợp vấn đề biến đổi cảm xúc người nói trong tiếng nói cũng như ứng dụng của
kỹ thuật phân rã ma trận không âm trong biến đổi cảm xúc người nói. Vì vậy,
luận văn này nghiên cứu một số phương pháp biến đổi cảm xúc người nói trong
tiếng nói, trong đó tập trung vào phương pháp sử dụng kỹ thuật phân rã ma trận
không âm, đánh giá thực nghiệm các phương pháp, và đưa ra những khuyến
nghị.
2. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là các phương pháp biến đổi cảm xúc
người nói trong tiếng nói. Đây là đối tượng nghiên cứu được nhiều nhà nghiên
cứu trên thế giới quan tâm trong thời gian gần đây.
Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tín hiệu tiếng
nói và cảm xúc người nói trong tiếng nói, một số phương pháp biến đổi cảm
xúc người nói trong tiếng nói, bao gồm thay đổi tham số trực tiếp [5], phương
pháp thay thế khung tiếng nói HTD [9], phương pháp TD-GMM [9], và đặc
biệt tập trung vào các phương pháp sử dụng kỹ thuật phân rã ma trận không

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




3

âm NMF [8-10]. Luận văn cũng nghiên cứu đánh giá thực nghiệm các
phương pháp để đưa ra các khuyến nghị.
3. Hướng nghiên cứu của luận văn
Hướng nghiên cứu của luận văn là nghiên cứu về cảm xúc người nói
trong tiếng nói và các kỹ thuật biến đổi tiếng nói theo thời gian. Trong đó, luận

văn tập trung nghiên cứu các vấn đề lý thuyết về cảm xúc người nói, và phương
pháp xử lý, biến đổi tín hiệu tiếng nói, kỹ thuật phân rã ma trận không âm và
ứng dụng trong biến đổi cảm xúc người nói. Luận văn cũng nghiên cứu đánh
giá thực nghiệm một số phương pháp biến đổi cảm xúc người nói trong tiếng
nói.
4. Những nội dung nghiên cứu chính
Chương 1. Tổng quan về cảm xúc trong tiếng nói và vấn đề biến đổi cảm
xúc trong tiếng nói.
- Giới thiệu tổng quan về cảm xúc trong tiếng nói, vấn đề biến đổi cảm
xúc trong tiếng nói.
- Một số phương pháp biến đổi cảm xúc nói truyền thống như:
+ Phương pháp thay đổi tham số trực tiếp [5]: Trình bày về các tham số
đặc trưng cơ bản của tiếng nói, phương pháp phân tích tiếng nói thành tham số
và tái tạo tiếng nói từ tham số, phương pháp thay đổi trực tiếp tham số tiếng
nói để biến đổi thông tin cảm xúc nói.
+ Phương pháp thay thế khung tiếng nói HTT [6]: Trình bày về hệ thống
tổng hợp, biến đổi tiếng nói theo ghép nối, phương pháp biến đổi tiếng nói dùng
kỹ thuật thay thế khung dựa trên kỹ thuật ghép nối.
+ Phương pháp thay thế khung tiếng nói TD-GMM [9]: Trình bày về hệ
thống tổng hợp, biến đổi tiếng nói sử dụng kết hợp kỹ thuật phân rã tiếng nói
theo thời gian TD và mô hình GMM.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




4

+ Phương pháp thay thế khung tiếng nói HTD [9]: Trình bày về hệ

thống tổng hợp, biến đổi tiếng nói sử dụng kết hợp kỹ thuật HTT và TD.
Chương 2. Kỹ thuật phân rã ma trận không âm và ứng dụng trong biến
đổi cảm xúc trong tiếng nói.
- Trình bày cơ sở lý thuyết về kỹ thuật phân rã ma trận không âm.
- Trình bày phương pháp biến đổi cảm xúc của người nói trong tiếng nói
dùng kỹ thuật phân rã ma trận không âm [10].
Chương 3. Đánh giá thực nghiệm một số phương pháp biến đổi cảm xúc
trong tiếng nói.
- Cơ sở dữ liệu tiếng nói có cảm xúc.
- Cài đặt một số phương pháp biến đổi cảm xúc trong tiếng nói trên
MATLAB: Phương pháp thay thế khung tiếng nói HTD, TD-GMM [9];
phương pháp dùng kỹ thuật phân rã ma trận không âm [10].
- Đánh giá khách quan và chủ quan các phương pháp.
5. Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có
trên thế giới để phân tích, đánh giá về các phương pháp biến đổi cảm xúc trong
tiếng nói.
Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ
nghiên cứu thực nghiệm một số phương pháp biến đổi cảm xúc trong tiếng nói.
6. Ý nghĩa khoa học của luận văn:
Như đã trình bày trong phần 1, nghiên cứu về cảm xúc trong tiếng nói và
các kỹ thuật biến đổi cảm xúc trong tiếng nói có vai trò quan trọng trong các hệ
thống truyền thông đa phương tiện hiện đại. Đây không phải vấn đề nghiên cứu
mới trên thế giới nhưng còn khá mới mẻ ở Việt Nam. Đặc biệt, nghiên cứu về
ứng dụng của kỹ thuật phân rã ma trận không âm trong bài toán biến đổi cảm
xúc trong tiếng nói chưa được nghiên cứu nhiều ở Việt Nam. Do vậy vấn đề
nghiên cứu trong luận văn có ý nghĩa khoa học và thực tiễn.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN





5

CHƯƠNG 1
TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN
CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI
1.1. Thông tin tiếng nói
Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người.
Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làm
phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa và
phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giao tiếp
cơ bản nhất. Do tiếng nói là phương tiện giao tiếp cơ bản của con người, nó
cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn
thông từ trước đến nay.
Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu và
ứng dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lý nhanh,
nhiều mà quan trọng hơn nó đủ thông minh để thay thế con người.
Một trong các tiêu chí quan trọng để đánh giá độ thông minh của máy
tính chính là khả năng hiểu được ngôn ngữ tự nhiên của con người trong đó có
tiếng nói. Tuy nhiên, tiếng nói mang nhiều thông tin, ngoài thông tin ngôn ngữ
còn cả các thông tin phi ngôn ngữ như thông tin về người nói, thông tin về sắc
thái tình cảm khi nói…
1.2. Tín hiệu tiếng nói
Âm thanh là các dao động cơ học lan truyền trong vật chất như các sóng.
Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng, chu
kỳ, biên độ và vận tốc lan truyền (tốc độ âm thanh).
Đối với thính giác của người, âm thanh thường là sự dao động, trong
dải tần số từ khoảng 20 Hz - 20 kHz, của các phân tử không khí, và lan truyền

trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích thích bộ
não.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




6

Tiếng nói là loại âm thanh phổ biến nhất trong truyền thông. Dải tần tiếng
nói trong khoảng 300 Hz - 3400 Hz. Tiếng nói bao gồm hai dạng hữu thanh và
vô thanh. Âm hữu thanh có đặc tính tuần hoàn còn âm vô thanh tương tự nhiễu.

Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt

Hình 1.2: Tiếng nói hữu thanh

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




7

1.3. Quá trình tạo tiếng nói
a. Bộ phận cung cấp làn hơi:
Bao gồm hai lá phổi, được sự tác động của các cơ ngực, sườn, cơ hoành
cách mô, cơ bụng. Làn hơi đưa lên quyết định cường độ của âm thanh.


Hình 1.3: Bộ phận cung cấp làn hơi
Bộ phận phát thanh vocal cord là thanh đới (dây thanh âm) nằm trong
thanh quản:
Do áp lực của làn hơi từ phổi đưa lên, thanh đới - với những độ căng
khác nhau và hình dạng khác nhau - mở ra và đóng lại nhanh chậm khác nhau,
cắt làn hơi thành những sóng âm có tần số khác nhau, tạo thành những âm thanh
có cao độ khác nhau.
Thanh đới ở phụ nữ và trẻ em ngắn và mỏng hơn ở đàn ông, nên giọng
nữ và trẻ em cao hơn giọng đàn ông.

Hình 1.4: Dây thanh âm

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




8

b. Bộ phận dẫn âm:
Gồm chủ yếu là cuống họng (yết hầu) thông với đường miệng hoặc
đường mũi. Các chấn động âm thanh do thanh đới tạo ra, được bộ phận dẫn âm
gom lại và dẫn ra ngoài theo hai hướng miệng hoặc mũi. Cuống họng và miệng
chủ yếu đóng vai trò truyền âm.
c. Bộ phận phát âm:
Là miệng với các hoạt động của môi, răng, lưỡi, hàm dưới, vòm miệng.
Chúng ta nhận ra được lời nói, tiếng hát có nghĩa là nhờ vào hoạt động của các
cơ năng trên. Khi nói đến khẩu hình là nói đến hình thể, hình dáng, cả bên ngoài
lẫn bên trong của miệng do hoạt động phối hợp của môi, lưỡi, hàm dưới, vòm
mềm tạo ra khi phát âm. Mở khẩu hình không đúng cách sẽ ảnh hưởng không

chỉ đến chất lượng âm thanh, mà nhất là ảnh hưởng đến việc rõ lời, phát âm
đúng.
Bộ phận phát âm đóng vai trò như một hộp cộng hưởng âm thanh. Nhờ
sự biến đổi của bộ phận phát âm mà âm thanh được cộng hưởng, triệt tiêu ở các
tần số khác nhau dẫn tới âm thanh được phát ra nghe khác nhau.

Hình 1.5: Cấu trúc cơ quan phát âm

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




9

Hình 1.6: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm
d. Biễu diễn bộ phận phát âm:
Có thể biểu diễn cơ quan phát âm bằng một mô hình gần đúng gồm các
hình trụ có độ dài bằng nhau nhưng có đường kính khác nhau.Trong quá trình
phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm , do
đó trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thay
đổi là không đáng kể, nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang âm vị
khác.

Hình 1.7: Mô hình hóa cơ quan phát âm

Hình 1.8: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN





10

1.4. Cơ quan thính giác
Để cảm thụ được tiếng nói, con người sử dụng cơ quan thính giác. Cơ
quan thính giác con người có thể cảm thụ được các tần số âm thanh trong
khoảng 15 Hz - 20.000 Hz. Âm thanh với tần số cao hơn được gọi là siêu âm,
thấp hơn là hạ âm.

Hình 1.9: Mô hình cơ quan thính giác
Người nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi tín hiệu bị
thay đổi khoảng 1dB (biên độ thay đổi 12%). Mặc dù dải nghe của con người
thông thường từ 20Hz đến 20kHz, độ nhạy âm lớn nhất từ 1kHz đến 4kHz.
Khả năng xác định hướng nguồn âm tốt nhưng xác định khoảng cách đến
nguồn âm kém.
Con người nghe âm thanh theo 24 băng cơ bản, tương ứng với thang tần
số Bark như trong hình 1.10. Trong mỗi băng con, con người không cảm nhận
được sự khác biệt.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




11

Hình 1.10: Thang tần số Bark
Khả năng cảm thụ của cơ quan thính giác được giới hạn bởi ngưỡng nghe

(hình 1.11), cũng như không nghe được âm thanh bị che bởi các mặt nạ trên
miền thời gian (hình 1.12) và tần số (hình 1.13).

Hình 1.11: Ngưỡng nghe

Hình 1.12: Mặt nạ thời gian (che âm thanh liền trước và liền sau)

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




12

Hình 1.13: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng thời điểm)
1.5. Xử lý tiếng nói
Xử lý tiếng nói hay xử lý tín hiệu tiếng nói được hiểu là các thao tác, kỹ
thuật xử lý trên máy tính nhằm mục đích đưa tiếng nói vào máy tính, xử lý theo
yêu cầu và phát lại cho con người. Yêu cầu xử lý ở đây phụ thuộc vào từng ứng
dụng cụ thể. Chẳng hạn để có thể truyền tiếng nói tin cậy và hiệu quả trên các
hệ thống viễn thông truyền với khoảng cách rất xa, người ta cần nghiên cứu và
xây dựng các giải thuật mã hóa nén tiếng nói. Để xây dựng các ứng dụng nhận
dạng tiếng nói, người ta cần nghiên cứu và xây dựng các giải thuật trích đặc
trưng tiếng nói và huấn luyện tiếng nói. Để biến đổi tiếng nói, người ta cần xác
định các đặc trưng tiếng nói theo các tiêu chí cụ thể khác nhau (như người nói,
cảm xúc, ngữ điệu khi nói) và biến đổi trực tiếp hoặc gián tiếp các đặc trưng
này.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN





13

Hình 1.14: Một số ứng dụng của xử lý tiếng nói

Hình 1.15: Hệ thống nhận dạng cảm xúc người nói – một trong các ứng dụng
xử lý thông tin người nói
1.6. Thông tin cảm xúc người nói trong tiếng nói
Hầu hết các hệ thống xử lý tiếng nói truyền thông tập trung vào xử lý các
thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được [6].Tuy
nhiên để các ứng dụng xử lý tiếng nói trong máy tính có thể được áp dụng rộng

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




14

rãi trong thực tế, các đặc trưng phi ngôn ngữ của tiếng nói cũng đã được quan
tâm nghiên cứu trong thời gian gần đây [4]. Một trong những vấn đề quan trọng
cần đảm bảo là thông tin về cảm xúc người nói [7,9,15,17,22,23]. Có nhiều yếu
tố ảnh hưởng đến cảm xúc người nói trong tiếng nói như hình dạng, cấu trúc cơ
quan phát âm (đặc trưng sinh học), thói quen, phương ngữ và cách thức phát
âm,..
Con người có thể phân biệt được thông tin cảm xúc người nói một cách
dễ dàng do khả năng của cơ quan thính giác tuy nhiên để máy tính có thể phân
biệt thông tin cảm xúc người nói, cảm xúc người nói cần phải được mô hình

hóa và việc phân biệt, định danh, biến đổi cần phải được thực hiện thông qua
các tham số vector đặc trưng được tính toán từ tín hiệu tiếng nói.

Hình 1.16: Người nói khác nhau có cơ quan phát âm và cách phát âm khác
nhau dẫn tới tiếng nói khác nhau khi nói với các cảm xúc khác nhau

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




15

Hình 1.17: Đặc trưng phổ formant đặc trưng cho cơ quan phát âm
Cảm xúc người nói tồn tại trong cả thông tin ngôn ngữ và phi ngôn ngữ.
Tuy nhiên, các yếu tố phi ngôn ngữ gần với thông tin về cảm xúc người nói
hơn. Các yếu tố phi ngôn ngữ bao gồm các đặc tính vật lý của cơ quan phát âm
người nói thể hiện bằng các đặc trưng phổ ảnh hưởng mạnh đến cảm xúc người
nói. Tuy nhiên, các đặc trưng như cao độ hay tần số cơ bản F0 cũng ảnh hưởng
nhiều tới cảm xúc người nói trong tiếng nói (Lavner et al., 2001; Chappell and
Hansen, 1998). Hầu hết các phương pháp biến đổi cảm xúc người nói tập trung
vào đặc trưng phổ. Một số phương pháp khác sử dụng các biến đổi thống kê
đơn giản như các giá trị kỳ vọng và phương sai của F0 (Tomoki and Tokuda,
2007; Chappell and Hansen, 1998; Gillett and King, 2003; Helander and
Nurminen, 2007). Mức phát âm (DoA) được mô hình hóa bằng sự thay đổi tốc
độ nói và các đặc tính phổ động cũng mang các thông tin về cảm xúc nói (Beller
et al., 2008). Sự quá trơn và dịch chuyển quá chậm trong cả đặc trưng phổ và

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN





×