Tải bản đầy đủ (.doc) (80 trang)

Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã ma trận không âm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.13 MB, 80 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

TRẦN ÍCH ĐẠI

NGHIÊN CỨU PHƯƠNG PHÁP BIẾN ĐỔI CẢM XÚC
NGƯỜI NÓI TRONG TIẾNG NÓI DÙNG KỸ THUẬT
PHÂN RÃ MA TRẬN KHÔNG ÂM

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN, 2019


ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

TRẦN ÍCH ĐẠI

NGHIÊN CỨU PHƯƠNG PHÁP BIẾN ĐỔI CẢM XÚC
NGƯỜI NÓI TRONG TIẾNG NÓI DÙNG KỸ THUẬT
PHÂN RÃ MA TRẬN KHÔNG ÂM
Chuyên ngành: Khoa học máy tính
Mã số: 8 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: PGS. TS. PHÙNG TRUNG NGHĨA

THÁI NGUYÊN, 2019



i

LỜI CẢM ƠN
Lời đầu tiên, em xin chân thành cám ơn PGS.TS. Phùng Trung Nghĩa,
người đã trực tiếp hướng dẫn em hoàn thành luận văn. Với những lời chỉ dẫn,
những tài liệu, sự tận tình hướng dẫn và những lời động viên của thầy đã giúp
em vượt qua nhiều khó khăn trong quá trình thực hiện luận văn này.
Em cũng xin cám ơn quý thầy cô giảng dạy chương trình cao học "Khoa
hoc máy tính” đã truyền dạy những kiến thức quý báu, những kiến thức này
rất hữu ích và giúp em nhiều khi thực hiện nghiên cứu.
Cuối cùng, em xin gửi lời cám ơn tới gia đình và bạn bè đã luôn ủng hộ động
viên giúp đỡ em trong suốt những năm học vừa qua.
Em xin chân thành cám ơn!
Thái Nguyên, ngày tháng năm 2019
Học viên

Trần Ích Đại

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




ii

LỜI CAM ĐOAN
Em xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của cá
nhân, được thực hiện dưới sự hướng dẫn khoa học của PGS. TS. Phùng
Trung Nghĩa

Các số liệu, những kết luận nghiên cứu được trình bày trong luận văn này
trung thực và chưa từng được công bố dưới bất cứ hình thức nào.
Em xin chịu trách nhiệm về nghiên cứu của mình.

Học viên

Trần Ích Đại

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




3

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




4

MỤC LỤC
TRANG PHỤ BÌA
LỜI CẢM ƠN ................................................................................................... i
LỜI CAM ĐOAN ............................................................................................ ii
MỤC LỤC ....................................................................................................... iii
DANH MỤC BẢNG ........................................................................................ v
DANH MỤC HÌNH........................................................................................ vi
MỞ ĐẦU .......................................................................................................... 1

1. Đặt vấn đề ................................................................................................. 1
2. Đối tượng và phạm vi nghiên cứu............................................................. 2
3. Hướng nghiên cứu của luận văn ............................................................... 3
4. Những nội dung nghiên cứu chính............................................................ 3
5. Phương pháp nghiên cứu........................................................................... 4
6. Ý nghĩa khoa học của luận văn: ................................................................ 4
CHƯƠNG 1...................................................................................................... 5
TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN
CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI.......................................... 5
1.1. Thông tin tiếng nói ............................................................................. 5
1.2. Tín hiệu tiếng nói ............................................................................... 5
1.3. Quá trình tạo tiếng nói ....................................................................... 7
1.4. Cơ quan thính giác ........................................................................... 10
1.5. Xử lý tiếng nói.................................................................................. 12
1.6. Thông tin cảm xúc người nói trong tiếng nói .................................. 13
1.7. Biến đổi cảm xúc người nói trong tiếng nói và ứng dụng ............... 16
1.7.1. Phương pháp biến đổi thay đổi tham số trực tiếp ................. 17
1.7.2. Biến đổi cảm xúc người nói dựa vào thay thế khung ........... 20
1.7.3. Biến đổi thông tin người nói bằng TD-GMM ...................... 21

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN




1.7.4. Biến đổi thông tin người nói bằng HTD [9] ......................... 23
CHƯƠNG 2.................................................................................................... 30
BIẾN ĐỔI CẢM XÚC NGƯỜI NÓI BẰNG KỸ THUẬT PHÂN RÃ MA
TRẬN KHÔNG ÂM NMF ........................................................................... 30
2.1. Kỹ thuật phân rã ma trận không âm NMF ....................................... 30

2.1.1. Tổng quan.............................................................................. 30
2.1.2. Lịch sử................................................................................... 30
2.1.3. Nền tảng ................................................................................ 30
2.1.4. Tính chất phân cụm............................................................... 32
2.1.5. Các kỹ thuật phân rã ma trận không âm ............................... 33
2.2. Ứng dụng kỹ thuật phân rã ma trận không âm NMF trong biến đổi
tiếng nói [10] ........................................................................................... 39
CHƯƠNG 3.................................................................................................... 41
ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP BIẾN ĐỔI CẢM
XÚC NGƯỜI NÓI TRONG TIẾNG NÓI .................................................. 41
3.1. Ngữ âm tiếng Việt ............................................................................ 41
3.2. Cơ sở dữ liệu tiếng nói tiếng Việt .................................................... 43
3.3. Tổng hợp tiếng nói tiếng Việt .......................................................... 46
3.4. Lựa chọn cơ sở dữ liệu..................................................................... 47
3.5. Thực nghiệm các phương pháp ........................................................ 47
3.6. Đánh giá các phương pháp............................................................... 47
3.6.1. Tiêu chí và kết quả đánh giá khách quan.............................. 47
3.6.2. Tiêu chí và kết quả đánh giá khách quan .............................. 48
KẾT LUẬN .................................................................................................... 51
TÀI LIỆU THAM KHẢO ............................................................................ 52


DANH MỤC BẢNG
Bảng 3.1: Cấu trúc âm tiết tiếng Việt.............................................................. 43
Bảng 3.2: Sáu thanh điệu tiếng Việt ............................................................... 43
Bảng 3.3: Khoảng cách MCD ......................................................................... 49
Bảng 3.4: Độ sai lệch F0 ................................................................................. 49
Bảng 3.5:Kết quả đánh giá chủ quan ABX giữa các phương pháp TD-GMM
(1); HTD (2); và NMF (3)............................................................................... 49



DANH MỤC HÌNH
Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt ........................................... 6
Hình 1.2: Tiếng nói hữu thanh .......................................................................... 6
Hình 1.3: Bộ phận cung cấp làn hơi.................................................................. 7
Hình 1.4: Dây thanh âm .................................................................................... 7
Hình 1.5: Cấu trúc cơ quan phát âm ................................................................. 8
Hình 1.6: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm.......... 9
Hình 1.7: Mô hình hóa cơ quan phát âm........................................................... 9
Hình 1.8: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính...... 9
Hình 1.9: Mô hình cơ quan thính giác ............................................................ 10
Hình 1.10: Thang tần số Bark ......................................................................... 11
Hình 1.11: Ngưỡng nghe ................................................................................ 11
Hình 1.12: Mặt nạ thời gian (che âm thanh liền trước và liền sau) ................ 11
Hình 1.13: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng thời
điểm)
......................................................................................................................... 12
Hình 1.14: Một số ứng dụng của xử lý tiếng nói ............................................ 13
Hình 1.15: Hệ thống nhận dạng cảm xúc người nói – một trong các ứng dụng
xử lý thông tin người nói................................................................................. 13
Hình 1.16: Người nói khác nhau có cơ quan phát âm và cách phát âm khác
nhau dẫn tới tiếng nói khác nhau khi nói với các cảm xúc khác nhau .......... 14
Hình 1.17: Đặc trưng phổ formant đặc trưng cho cơ quan phát âm ............... 15
Hình 1.18: Tính toán vector đặc trưng ............................................................ 16
Hình 1.19: Mô hình học máy thống kê GMM được sử dụng để mô hình hóa
người nói ......................................................................................................... 17
Hình 1.20: Phân tích phổ, F0 và tái tạo bằng STRAIGHT ............................. 18
Hình 1.21: Thuật toán điều chỉnh trực tiếp tham số tiếng nói ........................ 19
Hình1.22: Lựa chọn khung đích phù hợp và thay thế khung nguồn............... 21



vii

Hình1.23.Phương pháp biến đổi TD-GMM.................................................... 23
Hình 1.24. Mô hình biến đổi giọng người nói HTD ....................................... 24
Hình 1.25. Ví dụ phân tích / tái tạo tiếng nói bằng MRTD với N khung và K
điểm sự kiện .................................................................................................... 26
Hình 2.1. NMF tuần tự .................................................................................... 36
Hình 2.2. Xây dựng từ điển nguồn và đích cho mỗi câu tiếng nói trong pha
huấn luyện
................................................................................................................ 40
Hình 2.3.Pha chuyển đổi ................................................................................. 40
Hình 3.1: Đường F0 sáu thanh điệu tiếng Việt theo, dấu ? ở thanh ngã chỉ ra
rằng đường F0 của thanh ngã không thống nhất giữa các mẫu ở vùng giữa. .
42


viii

DANH MỤC CHỮ VIẾT TẮT VÀ KÝ HIỆU

Ký tự

Ý nghĩa

F0

Tần số giao động cơ bản

AMDF


Hàm hiệu biên độ trung bình

LP

Phương pháp dự đoán tuyến tính

PCM

Kỹ thuật điều chế xung mã

MAV

Dữ liệu âm thanh không nén

LSF

Tham số phổ đường

ABX

Thang điểm đánh giá theo cặp

GMM

Mô hình Gaussian hỗn hợp

P

Chỉ số hiệu năng


MOS

Thang điểm đánh giá chủ quan trung bình

MCD

Khoảng cách phổ Mel

RMSE

Lối trung bình phương

HMM

Mô hình thống kê

HTT

Thay thế mẫu và ghép nối


1


2

MỞ ĐẦU
1. Đặt vấn đề
Tiếng nói là phương tiện giao tiếp cơ bản của con người. Tín hiệu tiếng

nói mang nhiều thông tin, như thông tin ngôn ngữ, thông tin định danh người
nói, thông tin về cảm xúc người nói,…
Hầu hết các hệ thống xử lý tiếng nói tập trung vào xử lý các thông tin
ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được [1]. Tuy nhiên để
các ứng dụng xử lý tiếng nói trong máy tính có thể được áp dụng rộng rãi
trong thực tế, tính tự nhiên của tiếng nói được xử lý cũng cần được quan tâm
và cũng đã được quan tâm nghiên cứu trong thời gian gần đây [2]. Để đảm
bảo tiếng nói sau xử lý (như tiếng nói được tổng hợp nhân tạo) được tự nhiên,
một trong những vấn đề quan trọng cần đảm bảo là thông tin về cảm xúc
người nói [310].
Các hệ thống tổng hợp tiếng nói nhân tạo thường chỉ có thể tổng hợp ra
tiếng nói của một số giọng nói đã được thu sẵn (với cảm xúc trung tính) và
huấn luyện trước cho máy tính. Trong nhiều ứng dụng truyền thông đa
phương tiện hiện đại, việc biến đổi cảm xúc người nói trong tín hiệu tiếng nói
có vai trò quan trọng. Một số ví dụ điển hình như:
- Trong các hệ thống đọc truyện online cần “phát thanh viên ảo” nói với
giọng có cảm xúc tự nhiên nhất [4].
- Trong các clips quảng cáo, âm nhạc cần biến đổi giọng nói, giọng hát
của diễn viên theo các cảm xúc cụ thể khác nhau như cao hơn, trầm hơn,
giống với cảm xúc của nhân vật hơn,… [4]
- Đặc biệt, nếu bỏ qua các thông tin phi ngôn ngữ như thông tin người
nói, cảm xúc nói khi mã hóa tiếng nói bằng phương pháp kết hợp sử dụng các
hệ thống nhận dạng và tổng hợp tiếng nói ở đầu cuối, tiếng nói có thể được
truyền như văn bản với tốc độ bit cực thấp [10]. Khi đó sẽ sử dụng hiệu quả
tối


đa hạ tầng truyền thông, ngay cả trong điều kiện tài nguyên rất hạn chế. Tuy
nhiên để tiếng nói mã hóa theo phương pháp này có thể được sử dụng hiệu
quả trong thực tiễn, các thông tin phi ngôn ngữ như thông tin người nói, cảm

xúc nói cần phải được bổ sung ở đầu ra. Nói cách khác, thông tin tiếng nói đã
mã hóa cần phải được biến đổi theo người nói và cảm xúc cụ thể.
Kỹ thuật phân rã ma trận không âm là một kỹ thuật xử lý tín hiệu trên
miền thời gian hiệu quả, đã được áp dụng trong nhiều hệ thống xử lý tiếng nói
và gần đây nhất đã được áp dụng thành công trong các hệ thống biến đổi cảm
xúc người nói.
Trên thế giới đã có nhiều nghiên cứu về biến đổi cảm xúc trong tiếng
nói [3-10]. Tại Việt Nam cũng có một số nghiên cứu ban đầu về cảm xúc
người nói trong tiếng nói nhưng vẫn chưa có nhiều các nghiên cứu đánh giá
một cách tổng hợp vấn đề biến đổi cảm xúc người nói trong tiếng nói cũng
như ứng dụng của kỹ thuật phân rã ma trận không âm trong biến đổi cảm xúc
người nói. Vì vậy, luận văn này nghiên cứu một số phương pháp biến đổi cảm
xúc người nói trong tiếng nói, trong đó tập trung vào phương pháp sử dụng kỹ
thuật phân rã ma trận không âm, đánh giá thực nghiệm các phương pháp, và
đưa ra những khuyến nghị.
2. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là các phương pháp biến đổi cảm
xúc người nói trong tiếng nói. Đây là đối tượng nghiên cứu được nhiều nhà
nghiên cứu trên thế giới quan tâm trong thời gian gần đây.
Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tín hiệu tiếng
nói và cảm xúc người nói trong tiếng nói, một số phương pháp biến đổi cảm
xúc người nói trong tiếng nói, bao gồm thay đổi tham số trực tiếp [5],
phương pháp thay thế khung tiếng nói HTD [9], phương pháp TD-GMM [9],
và đặc biệt tập trung vào các phương pháp sử dụng kỹ thuật phân rã ma trận
không


âm NMF [8-10]. Luận văn cũng nghiên cứu đánh giá thực nghiệm các
phương pháp để đưa ra các khuyến nghị.
3. Hướng nghiên cứu của luận văn

Hướng nghiên cứu của luận văn là nghiên cứu về cảm xúc người nói
trong tiếng nói và các kỹ thuật biến đổi tiếng nói theo thời gian. Trong đó,
luận văn tập trung nghiên cứu các vấn đề lý thuyết về cảm xúc người nói, và
phương pháp xử lý, biến đổi tín hiệu tiếng nói, kỹ thuật phân rã ma trận không
âm và ứng dụng trong biến đổi cảm xúc người nói. Luận văn cũng nghiên cứu
đánh giá thực nghiệm một số phương pháp biến đổi cảm xúc người nói trong
tiếng nói.
4. Những nội dung nghiên cứu chính
Chương 1. Tổng quan về cảm xúc trong tiếng nói và vấn đề biến đổi
cảm xúc trong tiếng nói.
- Giới thiệu tổng quan về cảm xúc trong tiếng nói, vấn đề biến đổi cảm
xúc trong tiếng nói.
- Một số phương pháp biến đổi cảm xúc nói truyền thống như:
+ Phương pháp thay đổi tham số trực tiếp [5]: Trình bày về các tham
số đặc trưng cơ bản của tiếng nói, phương pháp phân tích tiếng nói thành tham
số và tái tạo tiếng nói từ tham số, phương pháp thay đổi trực tiếp tham số
tiếng nói để biến đổi thông tin cảm xúc nói.
+ Phương pháp thay thế khung tiếng nói HTT [6]: Trình bày về hệ
thống tổng hợp, biến đổi tiếng nói theo ghép nối, phương pháp biến đổi tiếng
nói dùng kỹ thuật thay thế khung dựa trên kỹ thuật ghép nối.
+ Phương pháp thay thế khung tiếng nói TD-GMM [9]: Trình bày về
hệ thống tổng hợp, biến đổi tiếng nói sử dụng kết hợp kỹ thuật phân rã tiếng
nói theo thời gian TD và mô hình GMM.


+ Phương pháp thay thế khung tiếng nói HTD [9]: Trình bày về hệ
thống tổng hợp, biến đổi tiếng nói sử dụng kết hợp kỹ thuật HTT và TD.
Chương 2. Kỹ thuật phân rã ma trận không âm và ứng dụng trong biến
đổi cảm xúc trong tiếng nói.
- Trình bày cơ sở lý thuyết về kỹ thuật phân rã ma trận không âm.

- Trình bày phương pháp biến đổi cảm xúc của người nói trong tiếng
nói dùng kỹ thuật phân rã ma trận không âm [10].
Chương 3. Đánh giá thực nghiệm một số phương pháp biến đổi cảm
xúc trong tiếng nói.
- Cơ sở dữ liệu tiếng nói có cảm xúc.
- Cài đặt một số phương pháp biến đổi cảm xúc trong tiếng nói trên
MATLAB: Phương pháp thay thế khung tiếng nói HTD, TD-GMM

[9];

phương pháp dùng kỹ thuật phân rã ma trận không âm [10].
- Đánh giá khách quan và chủ quan các phương pháp.
5. Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có
trên thế giới để phân tích, đánh giá về các phương pháp biến đổi cảm xúc
trong tiếng nói.
Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ
nghiên cứu thực nghiệm một số phương pháp biến đổi cảm xúc trong tiếng nói.
6. Ý nghĩa khoa học của luận văn:
Như đã trình bày trong phần 1, nghiên cứu về cảm xúc trong tiếng nói
và các kỹ thuật biến đổi cảm xúc trong tiếng nói có vai trò quan trọng trong
các hệ thống truyền thông đa phương tiện hiện đại. Đây không phải vấn đề
nghiên cứu mới trên thế giới nhưng còn khá mới mẻ ở Việt Nam. Đặc biệt,
nghiên cứu về ứng dụng của kỹ thuật phân rã ma trận không âm trong bài
toán biến đổi cảm xúc trong tiếng nói chưa được nghiên cứu nhiều ở Việt
Nam. Do vậy vấn đề nghiên cứu trong luận văn có ý nghĩa khoa học và thực
tiễn.


CHƯƠNG 1

TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN
CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI
1.1. Thông tin tiếng nói
Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người.
Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làm
phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa
và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giao
tiếp cơ bản nhất. Do tiếng nói là phương tiện giao tiếp cơ bản của con người,
nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn
thông từ trước đến nay.
Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu và
ứng dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lý nhanh,
nhiều mà quan trọng hơn nó đủ thông minh để thay thế con người.
Một trong các tiêu chí quan trọng để đánh giá độ thông minh của máy
tính chính là khả năng hiểu được ngôn ngữ tự nhiên của con người trong đó có
tiếng nói. Tuy nhiên, tiếng nói mang nhiều thông tin, ngoài thông tin ngôn ngữ
còn cả các thông tin phi ngôn ngữ như thông tin về người nói, thông tin về sắc
thái tình cảm khi nói…
1.2. Tín hiệu tiếng nói
Âm thanh là các dao động cơ học lan truyền trong vật chất như các
sóng. Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng,
chu kỳ, biên độ và vận tốc lan truyền (tốc độ âm thanh).
Đối với thính giác của người, âm thanh thường là sự dao động, trong
dải tần số từ khoảng 20 Hz - 20 kHz, của các phân tử không khí, và lan truyền
trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích thích bộ
não.


Tiếng nói là loại âm thanh phổ biến nhất trong truyền thông. Dải tần
tiếng nói trong khoảng 300 Hz - 3400 Hz. Tiếng nói bao gồm hai dạng hữu

thanh và vô thanh. Âm hữu thanh có đặc tính tuần hoàn còn âm vô thanh
tương tự nhiễu.

Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt

Hình 1.2: Tiếng nói hữu thanh


1.3. Quá trình tạo tiếng nói
a. Bộ phận cung cấp làn hơi:
Bao gồm hai lá phổi, được sự tác động của các cơ ngực, sườn, cơ hoành
cách mô, cơ bụng. Làn hơi đưa lên quyết định cường độ của âm thanh.

Hình 1.3: Bộ phận cung cấp làn hơi
Bộ phận phát thanh vocal cord là thanh đới (dây thanh âm) nằm trong
thanh quản:
Do áp lực của làn hơi từ phổi đưa lên, thanh đới - với những độ căng
khác nhau và hình dạng khác nhau - mở ra và đóng lại nhanh chậm khác nhau,
cắt làn hơi thành những sóng âm có tần số khác nhau, tạo thành những âm
thanh có cao độ khác nhau.
Thanh đới ở phụ nữ và trẻ em ngắn và mỏng hơn ở đàn ông, nên giọng
nữ và trẻ em cao hơn giọng đàn ông.

Hình 1.4: Dây thanh âm


b. Bộ phận dẫn âm:
Gồm chủ yếu là cuống họng (yết hầu) thông với đường miệng hoặc
đường mũi. Các chấn động âm thanh do thanh đới tạo ra, được bộ phận dẫn
âm gom lại và dẫn ra ngoài theo hai hướng miệng hoặc mũi. Cuống họng và

miệng chủ yếu đóng vai trò truyền âm.
c. Bộ phận phát âm:
Là miệng với các hoạt động của môi, răng, lưỡi, hàm dưới, vòm miệng.
Chúng ta nhận ra được lời nói, tiếng hát có nghĩa là nhờ vào hoạt động của các
cơ năng trên. Khi nói đến khẩu hình là nói đến hình thể, hình dáng, cả bên
ngoài lẫn bên trong của miệng do hoạt động phối hợp của môi, lưỡi, hàm
dưới, vòm mềm tạo ra khi phát âm. Mở khẩu hình không đúng cách sẽ ảnh
hưởng không chỉ đến chất lượng âm thanh, mà nhất là ảnh hưởng đến việc
rõ lời, phát âm
đúng.
Bộ phận phát âm đóng vai trò như một hộp cộng hưởng âm thanh. Nhờ
sự biến đổi của bộ phận phát âm mà âm thanh được cộng hưởng, triệt tiêu ở
các tần số khác nhau dẫn tới âm thanh được phát ra nghe khác nhau.

Hình 1.5: Cấu trúc cơ quan phát âm


Hình 1.6: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm
d. Biễu diễn bộ phận phát âm:
Có thể biểu diễn cơ quan phát âm bằng một mô hình gần đúng gồm các
hình trụ có độ dài bằng nhau nhưng có đường kính khác nhau.Trong quá trình
phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm , do
đó trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thay
đổi là không đáng kể, nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang âm vị
khác.

Hình 1.7: Mô hình hóa cơ quan phát âm

Hình 1.8: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính



1.4. Cơ quan thính giác
Để cảm thụ được tiếng nói, con người sử dụng cơ quan thính giác. Cơ
quan thính giác con người có thể cảm thụ được các tần số âm thanh trong
khoảng 15 Hz - 20.000 Hz. Âm thanh với tần số cao hơn được gọi là siêu âm,
thấp hơn là hạ âm.

Hình 1.9: Mô hình cơ quan thính giác
Người nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi tín hiệu bị
thay đổi khoảng 1dB (biên độ thay đổi 12%). Mặc dù dải nghe của con người
thông thường từ 20Hz đến 20kHz, độ nhạy âm lớn nhất từ 1kHz đến 4kHz.
Khả năng xác định hướng nguồn âm tốt nhưng xác định khoảng cách
đến nguồn âm kém.
Con người nghe âm thanh theo 24 băng cơ bản, tương ứng với thang tần
số Bark như trong hình 1.10. Trong mỗi băng con, con người không cảm nhận
được sự khác biệt.


Hình 1.10: Thang tần số Bark
Khả năng cảm thụ của cơ quan thính giác được giới hạn bởi ngưỡng
nghe (hình 1.11), cũng như không nghe được âm thanh bị che bởi các mặt nạ
trên miền thời gian (hình 1.12) và tần số (hình 1.13).

Hình 1.11: Ngưỡng nghe

Hình 1.12: Mặt nạ thời gian (che âm thanh liền trước và liền sau)


Hình 1.13: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng thời
điểm)

1.5. Xử lý tiếng nói
Xử lý tiếng nói hay xử lý tín hiệu tiếng nói được hiểu là các thao tác, kỹ
thuật xử lý trên máy tính nhằm mục đích đưa tiếng nói vào máy tính, xử lý
theo yêu cầu và phát lại cho con người. Yêu cầu xử lý ở đây phụ thuộc vào
từng ứng dụng cụ thể. Chẳng hạn để có thể truyền tiếng nói tin cậy và hiệu
quả trên các hệ thống viễn thông truyền với khoảng cách rất xa, người ta cần
nghiên cứu và xây dựng các giải thuật mã hóa nén tiếng nói. Để xây dựng các
ứng dụng nhận dạng tiếng nói, người ta cần nghiên cứu và xây dựng các giải
thuật trích đặc trưng tiếng nói và huấn luyện tiếng nói. Để biến đổi tiếng nói,
người ta cần xác định các đặc trưng tiếng nói theo các tiêu chí cụ thể khác
nhau (như người nói, cảm xúc, ngữ điệu khi nói) và biến đổi trực tiếp hoặc
gián tiếp các đặc trưng này.


Hình 1.14: Một số ứng dụng của xử lý tiếng nói

Hình 1.15: Hệ thống nhận dạng cảm xúc người nói – một trong các ứng dụng
xử lý thông tin người nói
1.6. Thông tin cảm xúc người nói trong tiếng nói
Hầu hết các hệ thống xử lý tiếng nói truyền thông tập trung vào xử lý
các thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được
[6].Tuy nhiên để các ứng dụng xử lý tiếng nói trong máy tính có thể được áp
dụng rộng


×