Tải bản đầy đủ (.pdf) (66 trang)

Nghiên cứu một số phương pháp biến đổi thông tin người nói trong tiếng nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.27 MB, 66 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN TRUNG THÀNH

NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP BIẾN ĐỔI THÔNG
TIN NGƢỜI NÓI TRONG TIẾNG NÓI

Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS. PHÙNG TRUNG NGHĨA

Thái Nguyên năm 2015

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>ii


LỜI CẢM ƠN
Lời đầu tiên, em xin chân thành cám ơn TS. Phùng Trung Nghĩa,
người đã trực tiếp hướng dẫn em hoàn thành luận văn. Với những lời chỉ dẫn,
những tài liệu, sự tận tình hướng dẫn và những lời động viên của thầy đã giúp
em vượt qua nhiều khó khăn trong quá trình thực hiện luận văn này.
Em cũng xin cám ơn quý thầy cô giảng dạy chương trình cao học
"Khoa hoc máy tính” đã truyền dạy những kiến thức quý báu, những kiến
thức này rất hữu ích và giúp em nhiều khi thực hiện nghiên cứu. Đặc biệt, em
xin cám ơn thầy Đỗ Huy Khôi về những góp ý có ý nghĩa rất lớn khi em thực


hiện luận văn nghiên cứu.
Cuối cùng, em xin gửi lời cám ơn tới gia đình và bạn bè đã luôn ủng hộ động
viên giúp đỡ em trong suốt những năm học vừa qua.
Em xin chân thành cám ơn!
Thái Nguyên, ngày 09 tháng 07 năm 2015
Học viên

Nguyễn Trung Thành

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>iii


LỜI CAM ĐOAN

Em xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của cá
nhân, được thực hiện dưới sự hướng dẫn khoa học của TS. Phùng Trung
Nghĩa
Các số liệu, những kết luận nghiên cứu được trình bày trong luận văn
này trung thực và chưa từng được công bố dưới bất cứ hình thức nào.
Em xin chịu trách nhiệm về nghiên cứu của mình.

Học viên

Nguyễn Trung Thành

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>iv



MỤC LỤC
LỜI CẢM ƠN .................................................................................................. ii
LỜI CAM ĐOAN ........................................................................................... iv
MỤC LỤC ........................................................................................................ v
DANH MỤC BẢNG ..................................................................................... viii
DANH MỤC HÌNH ........................................................................................ ix
DANH MỤC CHỮ VIẾT TẮT ..................................................................... xi
MỞ ĐÂU .......................................................................................................... 1
1. Lý do chọn đề tài ................................................................................... 1
2. Mục tiêu của đề tài ................................................................................ 2
3. Đối tượng và phạm vi nghiên cứu......................................................... 3
4. Phương pháp nghiên cứu....................................................................... 3
5. Ý nghĩa khoa học và thực tiễn............................................................... 3
CHƢƠNG 1. TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI
THÔNG TIN NGƢỜI NÓI TRONG TIẾNG NÓI ...................................... 4
1.1. Thông tin tiếng nói ............................................................................. 4
1.2. Tín hiệu tiếng nói ............................................................................... 4
1.3. Quá trình tạo tiếng nói ....................................................................... 6
1.4. Cơ quan thính giác ............................................................................. 9
1.5. Xử lý tiếng nói.................................................................................. 12
1.6. Thông tin người nói trong tiếng nói ................................................. 13
1.7. Biến đổi thông tin người nói trong tiếng nói và ứng dụng .............. 14
CHƢƠNG 2. MỘT SỐ PHƢƠNG PHÁP BIẾN ĐỔI THÔNG TIN
NGƢỜI NÓI TRONG TIẾNG NÓI ............................................................ 17
2.1. Phương pháp biến đổi tham số trực tiếp .......................................... 17
2.1.1. Phân khung ............................................................................ 17
2.1.2. Đặc trưng biên độ .................................................................. 18
Số hóa bởi Trung tâm Học liệu - ĐHTN


/>v


2.1.3. Đặc trưng cao độ ................................................................... 19
2.1.4. Đặc trưng phổ ........................................................................ 20
2.1.5. Mô hình nguồn âm / bộ lọc ................................................... 24
2.1.6. Ưu nhược điểm của phương pháp ......................................... 25
2.2. Phương pháp thay thế khung tiếng nói ............................................ 25
2.2.1. Phương pháp tìm kiếm mẫu tiếng nói thay thế ..................... 26
2.2.2. Thuật toán tìm kiếm khung tiếng nói thay thế ...................... 28
2.2.3. Làm trơn điểm ghép nối ........................................................ 28
2.2.4. Ưu nhược điểm của phương pháp ......................................... 29
2.3. Phương pháp sử dụng học máy thống kê GMM .............................. 29
2.3.1. Phân bố Gauss ....................................................................... 29
2.3.2. Mô hình Gaussian hỗn hợp ................................................... 30
2.3.3. Mô hình hóa người nói bằng mô hình GMM ....................... 31
2.3.4. Huấn luyện ............................................................................ 32
2.3.5. Biến đổi ................................................................................. 33
CHƢƠNG 3. ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƢƠNG PHÁP
BIẾN ĐỔI THÔNG TIN NGƢỜI NÓI TRONG TIẾNG NÓI................. 35
3.1. Ngữ âm tiếng Việt ............................................................................ 35
3.2. Cơ sở dữ liệu tiếng nói tiếng Việt .................................................... 37
3.3. Tổng hợp tiếng nói tiếng Việt .......................................................... 40
3.4. Lựa chọn cơ sở dữ liệu ..................................................................... 40
3.5. Cài đặt các phương pháp biến đổi thông tin người nói .................... 41
3.5.1. Phương pháp thay đổi tham số trực tiếp ............................... 41
3.5.2. Phương pháp thay thế tiếng nói theo mẫu............................. 44
3.5.3. Phương pháp biến đổi sử dụng học máy thống kê ................ 47
3.6. Đánh giá các phương pháp ............................................................... 49

3.6.1. Tiêu chí đánh giá ................................................................... 49
3.6.2. Đánh giá thực nghiệm ........................................................... 50
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>vi


3.6.3. Kết quả đánh giá ................................................................... 51
3.6.4. Nhận xét chung về kết quả đánh giá ..................................... 51
KẾT LUẬN .................................................................................................... 53
TÀI LIỆU THAM KHẢO ............................................................................ 54

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>vii


DANH MỤC BẢNG
Bảng 3.1Cấu trúc âm tiết tiếng Việt ................................................................ 37
Bảng 3.2: Sáu thanh điệu tiếng Việt ............................................................... 37
Bảng 3.3. Các tham số thực nghiệm ............................................................... 50
Bảng 3.4: Kết quả đánh giá khách quan.......................................................... 51
Bảng 3.5: Kết quả đánh giá chủ quan ABX .................................................... 51

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>viii


DANH MỤC HÌNH

Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt ........................................... 5
Hình 1.2: Tiếng nói hữu thanh .......................................................................... 5
Hình 1.3: Bộ phận cung cấp làn hơi .................................................................. 6
Hình 1.4: Dây thanh âm .................................................................................... 7
Hình 1.5: Cấu trúc cơ quan phát âm ................................................................. 8
Hình 1.6: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm.......... 8
Hình 1.7: Mô hình hóa cơ quan phát âm ........................................................... 9
Hình 1.8: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính ...... 9
Hình 1.9: Mô hình cơ quan thính giác ............................................................ 10
Hình 1.10: Thang tần số Bark ......................................................................... 10
Hình 1.11: Ngưỡng nghe ................................................................................ 11
Hình 1.12: Mặt nạ thời gian ............................................................................ 11
Hình 1.13: Mặt nạ tần số ................................................................................. 11
Hình 1.14: Một số ứng dụng của xử lý tiếng nói ............................................ 12
Hình 1.15: Hệ thống nhận dạng người nói ...................................................... 13
Hình 1.16: Người nói khác nhau có cơ quan phát âm và cách phát âm khác
nhau dẫn tới tiếng nói khác nhau .................................................................... 14
Hình 1.17: Đặc trưng phổ formant đặc trưng cho cơ quan phát âm ............... 14
Hình 1.18: Tính toán vector đặc trưng ............................................................ 15
Hình 1.19: Mô hình học máy thống kê GMM ............................................... 16
Hình 2.1: Phân đoạn tiếng nói thành các khung chồng lấp ............................ 18
Hình 2.2:Đặc trưng trường độ ......................................................................... 19
Hình 2.3: Đặc trưng phổ và đường bao phổ.................................................... 21
Hình 2.4: Đồ thị biểu diễn mối quan hệ giữa Mel và Hz ............................... 22
Hình 2.5: Các bước trích đặc trưng MFCC .................................................... 22
Hình 2.6: Bộ lọc trên thang Mel ..................................................................... 22
Hình 2.7: Bộ lọc trên tần số thật ..................................................................... 23
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>ix



Hình 2.8: Minh họa các bước biến đổi MFCC ............................................... 23
Hình 2.9: Mô hình nguồn âm / bộ lọc ............................................................ 24
Hình 2.10: Đặc trưng F0, Gain và LSF ........................................................... 27
Hình 2.11: Quá trình tìm kiếm và thay thế mẫu có khoảng cách ngắn nhất ... 28
Hình 2.12: Quá trình làm trơn biên ghép nối .................................................. 29
Hình 2.13: Hàm mật độ xác suất Gauss ........................................................ 30
Hình 2.14: Mô hình GMM Biến đổi người nói theo mô hình GMM ............. 32
Hình 3.1: Đường F0 sáu thanh điệu tiếng Việt. .............................................. 36
Hình 3.2: Phân tích phổ, F0 và tái tạo bằng STRAIGHT ............................... 41
Hình 3.3: Thuật toán điều chỉnh trực tiếp tham số tiếng nói .......................... 43
Hình 3.4: Giao diện chương trình điều chỉnh trực tiếp tham số tiếng nói ...... 44
Hình 3.5: Lưu đồ thuật toán tính khoảng cách giữa 2 khung tiếng nói .......... 45
Hình 3.6: Thuật toán tìm kiếm kết hợp ........................................................... 46
Hình 3.7: Huấn luyện mô hình GMM cho tham số phổ LSF ......................... 47
Hình 3.8: Chuyển đổi mô hình GMM cho tham số phổ LSF ......................... 48

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>x


DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU
Ký tự

Ý nghĩa

F0


Tần số dao động cơ bản

AMDF

Hàm hiệu biên độ trung bình

LP

Phương pháp dự đoán tuyến tính

PCM

Kỹ thuật điều chế xung mã

WAV

Dữ liệu âm thanh không nén

PSTN

Mạng điện thoại chuyển mạch công cộng

LSF

Tham số phổ đường

ABX

Thang điểm đánh giá theo cặp


GMM

Mô hình Gaussian hỗn hợp

PI

Chỉ số hiệu năng

MOS

Thang điểm đánh giá chủ quan trung bình

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>xi


MỞ ĐÂU
1. Lý do chọn đề tài
Tiếng nói là phương tiện giao tiếp cơ bản của con người. Vì vậy tiếng
nói cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống
viễn thông. Tín hiệu tiếng nói mang nhiều thông tin, như thông tin ngôn ngữ,
thông tin về người nói, thông tin về sắc thái tình cảm khi nói,…
Hầu hết các hệ thống xử lý tiếng nói truyền thông tập trung vào xử lý
các thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được [6].
Tuy nhiên để các ứng dụng xử lý tiếng nói trong máy tính có thể được áp
dụng rộng rãi trong thực tế, tính tự nhiên của tiếng nói được xử lý cũng cần
được quan tâm và cũng đã được quan tâm nghiên cứu trong thời gian gần đây
[4]. Để đảm bảo tiếng nói sau xử lý (như tiếng nói được tổng hợp) được tự
nhiên, một trong những vấn đề quan trọng cần đảm bảo là thông tin về người

nói, bao gồm cả các thông tin chung về người nói như giới tính, độ tuổi,…
đến các thông tin chi tiết như thông tin nhận danh chính xác người nói
[7,9,15,17,22,33].
Các hệ thống tổng hợp tiếng nói nhân tạo thường chỉ có thể tổng hợp ra
tiếng nói của một số giọng nói đã được thu sẵn và huấn luyện trước cho máy
tính. Trong nhiều ứng dụng truyền thông đa phương tiện hiện đại, việc biến
đổi thông tin người nói trong tín hiệu tiếng nói có vai trò quan trọng. Một số
ví dụ điển hình như:
- Trong các bộ phim lịch sử cần diễn viên nói với giọng giống với
giọng của nhân vật lịch sử [22].
- Trong các clips quảng cáo, âm nhạc cần biến đổi giọng nói, giọng hát
của diễn viên theo các tiêu chí cụ thể khác nhau như cao hơn, trầm hơn, giống
với nhân vật thật hơn,… [22].

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>1


- Đặc biệt, nếu bỏ qua các thông tin phi ngôn ngữ như thông tin người
nói khi mã hóa tiếng nói bằng phương pháp kết hợp sử dụng các hệ thống
nhận dạng và tổng hợp tiếng nói ở đầu cuối, tiếng nói có thể được truyền như
văn bản với tốc độ bit cực thấp [21]. Khi đó sẽ sử dụng hiệu quả tối đa hạ tầng
truyền thông, ngay cả trong điều kiện tài nguyên rất hạn chế. Tuy nhiên để
tiếng nói mã hóa theo phương pháp này có thể được sử dụng hiệu quả trong
thực tiễn, các thông tin phi ngôn ngữ như thông tin người nói cần phải được
bổ sung ở đầu ra. Nói cách khác, thông tin tiếng nói đã mã hóa cần phải được
biến đổi theo người nói cụ thể.
Trên thế giới đã có nhiều nghiên cứu về biến đổi thông tin người nói
trong tiếng nói [7,9,15,17,22,23]. Tại Việt Nam cũng có một số nghiên cứu

ban đầu về thông tin người nói trong tiếng nói như xây dựng các hệ thống
nhận dạng người nói [16]. Tuy nhiên vẫn chưa có các nghiên cứu đánh giá
một cách tổng hợp vấn đề biến đổi thông tin người nói trong tiếng nói và thử
nghiệm trên các cơ sở dữ liệu tiếng nói tiếng Việt. Vì vậy, luận văn này
nghiên cứu một số phương pháp biến đổi thông tin người nói trong tiếng nói,
đánh giá thực nghiệm các phương pháp với cơ sở dữ liệu tiếng nói tiếng Việt,
và đưa ra những khuyến nghị.
2. Mục tiêu của đề tài
Luận văn này nghiên cứu một số phương pháp biến đổi thông tin người
nói trong tiếng nói bao gồm:
- Phương pháp biến đổi trực tiếp tham số,
- Phương pháp thay thế khung,
- Phương pháp biến đổi bằng học máy.
Sau đó đánh giá thực nghiệm các phương pháp trên với cơ sở dữ liệu
tiếng Việt, và đưa ra những khuyến nghị.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>2


3. Đối tƣợng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là các phương pháp biến đổi thông
tin người nói trong tiếng nói. Đây là đối tượng nghiên cứu được nhiều nhà
nghiên cứu trên thế giới quan tâm trong thời gian gần đây.
Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tín hiệu tiếng
nói và thông tin người nói trong tiếng nói, một số phương pháp biến đổi thông
tin người nói trong tiếng nói, bao gồm thay đổi tham số trực tiếp [5], phương
pháp thay thế tiếng nói theo mẫu [15,17], và phương pháp biến đổi sử dụng
học máy thống kê [7]. Luận văn cũng nghiên cứu đánh giá thực nghiệm các

phương pháp trên cơ sở dữ liệu tiếng nói tiếng Việt để đưa ra các khuyến
nghị.
4. Phƣơng pháp nghiên cứu
Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có
trên thế giới [4,6,7,15-17,21-23] để phân tích, đánh giá về các phương pháp
biến đổi thông tin người nói trong tiếng nói.
Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng
sẽ nghiên cứu thực nghiệm một số phương pháp biến đổi thông tin người nói
trong tiếng nói. Cơ sở dữ liệu để đánh giá thực nghiệm là cơ sở dữ liệu tiếng
nói tiếng Việt. Môi trường để thực nghiệm là MATLAB 7.0.
5. Ý nghĩa khoa học và thực tiễn
Nghiên cứu về thông tin người nói trong tiếng nói và cá kỹ thuật biến
đổi tiếng nói theo mục tiêu có vai trò quan trọng trong các hệ thống truyền
thông đa phương tiện hiện đại. Đây không phải vấn đề nghiên cứu mới trên
thế giới nhưng còn khá mới mẻ ở Việt Nam. Đặc biệt, nghiên cứu tổng hợp về
các phương pháp biến đổi thông tin người nói trong tiếng nói tiếng Việt chưa
được nghiên cứu ở Việt Nam. Do vậy vấn đề nghiên cứu trong luận văn có ý
nghĩa khoa học và thực tiễn.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>3


CHƢƠNG 1
TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI
THÔNG TIN NGƢỜI NÓI TRONG TIẾNG NÓI
1.1. Thông tin tiếng nói
Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con
người. Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng

nói làm phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình
tiến hóa và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương
tiện giao tiếp cơ bản nhất. Do tiếng nói là phương tiện giao tiếp cơ bản của
con người, nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ
thống viễn thông từ trước đến nay.
Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu và
ứng dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lý
nhanh, nhiều mà quan trọng hơn nó đủ thông minh để thay thế con người.
Một trong các tiêu chí quan trọng để đánh giá độ thông minh của máy
tính chính là khả năng hiểu được ngôn ngữ tự nhiên của con người trong đó
có tiếng nói. Tuy nhiên, tiếng nói mang nhiều thông tin, ngoài thông tin ngôn
ngữ còn cả các thông tin phi ngôn ngữ như thông tin về người nói, thông tin
về sắc thái tình cảm khi nói…
1.2. Tín hiệu tiếng nói
Âm thanh là các dao động cơ học lan truyền trong vật chất như các
sóng. Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng,
chu kỳ, biên độ và vận tốc lan truyền (tốc độ âm thanh).
Đối với thính giác của người, âm thanh thường là sự dao động, trong
dải tần số từ khoảng 20 Hz - 20 kHz, của các phân tử không khí, và lan truyền
trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích thích bộ
não.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>4


Tiếng nói là loại âm thanh phổ biến nhất trong truyền thông. Dải tần
tiếng nói trong khoảng 300 Hz - 3400 Hz. Tiếng nói bao gồm hai dạng hữu
thanh và vô thanh. Âm hữu thanh có đặc tính tuần hoàn còn âm vô thanh

tương tự nhiễu.

Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt

Hình 1.2: Tiếng nói hữu thanh

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>5


1.3. Quá trình tạo tiếng nói
a. Bộ phận cung cấp làn hơi:
Bao gồm hai lá phổi, được sự tác động của các cơ ngực, sườn, cơ hoành
cách mô, cơ bụng. Làn hơi đưa lên quyết định cường độ của âm thanh.

Hình 1.3: Bộ phận cung cấp làn hơi
Bộ phận phát thanh vocal cord là thanh đới (dây thanh âm) nằm trong
thanh quản:
Do áp lực của làn hơi từ phổi đưa lên, thanh đới - với những độ căng
khác nhau và hình dạng khác nhau - mở ra và đóng lại nhanh chậm khác nhau,
cắt làn hơi thành những sóng âm có tần số khác nhau, tạo thành những âm
thanh có cao độ khác nhau.
Thanh đới ở phụ nữ và trẻ em ngắn và mỏng hơn ở đàn ông, nên giọng
nữ và trẻ em cao hơn giọng đàn ông.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>6



Hình 1.4: Dây thanh âm
b. Bộ phận dẫn âm:
Gồm chủ yếu là cuống họng (yết hầu) thông với đường miệng hoặc
đường mũi. Các chấn động âm thanh do thanh đới tạo ra, được bộ phận dẫn
âm gom lại và dẫn ra ngoài theo hai hướng miệng hoặc mũi. Cuống họng và
miệng chủ yếu đóng vai trò truyền âm.
c. Bộ phận phát âm:
Là miệng với các hoạt động của môi, răng, lưỡi, hàm dưới, vòm miệng.
Chúng ta nhận ra được lời nói, tiếng hát có nghĩa là nhờ vào hoạt động của
các cơ năng trên. Khi nói đến khẩu hình là nói đến hình thể, hình dáng, cả bên
ngoài lẫn bên trong của miệng do hoạt động phối hợp của môi, lưỡi, hàm
dưới, vòm mềm tạo ra khi phát âm. Mở khẩu hình không đúng cách sẽ ảnh
hưởng không chỉ đến chất lượng âm thanh, mà nhất là ảnh hưởng đến việc rõ
lời, phát âm đúng.
Bộ phận phát âm đóng vai trò như một hộp cộng hưởng âm thanh. Nhờ
sự biến đổi của bộ phận phát âm mà âm thanh được cộng hưởng, triệt tiêu ở
các tần số khác nhau dẫn tới âm thanh được phát ra nghe khác nhau.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>7


Hình 1.5: Cấu trúc cơ quan phát âm

Hình 1.6: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm
d. Biễu diễn bộ phận phát âm:
Có thể biểu diễn cơ quan phát âm bằng một mô hình gần đúng gồm các
hình trụ có độ dài bằng nhau nhưng có đường kính khác nhau. Trong quá trình

phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm , do
đó trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thay
đổi là không đáng kể, nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang âm
vị khác.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>8


Hình 1.7: Mô hình hóa cơ quan phát âm

Hình 1.8: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính
1.4. Cơ quan thính giác
Để cảm thụ được tiếng nói, con người sử dụng cơ quan thính giác. Cơ
quan thính giác con người có thể cảm thụ được các tần số âm thanh trong
khoảng 15 Hz - 20.000 Hz. Âm thanh với tần số cao hơn được gọi là siêu âm,
thấp hơn là hạ âm.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>9


Hình 1.9: Mô hình cơ quan thính giác
Người nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi tín hiệu bị
thay đổi khoảng 1dB (biên độ thay đổi 12%). Mặc dù dải nghe của con người
thông thường từ 20Hz đến 20kHz, độ nhạy âm lớn nhất từ 1kHz đến 4kHz.
Khả năng xác định hướng nguồn âm tốt nhưng xác định khoảng cách
đến nguồn âm kém.

Con người nghe âm thanh theo 24 băng cơ bản, tương ứng với thang
tần số Bark như trong hình 1.10. Trong mỗi băng con, con người không cảm
nhận được sự khác biệt.

Hình 1.10: Thang tần số Bark
Khả năng cảm thụ của cơ quan thính giác được giới hạn bởi ngưỡng
nghe (hình 1.11), cũng như không nghe được âm thanh bị che bởi các mặt nạ
trên miền thời gian (hình 1.12) và tần số (hình 1.13).

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>10


Hình 1.11: Ngưỡng nghe

Hình 1.12: Mặt nạ thời gian (che âm thanh liền trước và liền sau)

Hình 1.13: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng thời
điểm)
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>11


1.5. Xử lý tiếng nói
Xử lý tiếng nói hay xử lý tín hiệu tiếng nói được hiểu là các thao tác,
kỹ thuật xử lý trên máy tính nhằm mục đích đưa tiếng nói vào máy tính, xử lý
theo yêu cầu và phát lại cho con người. Yêu cầu xử lý ở đây phụ thuộc vào
từng ứng dụng cụ thể. Chẳng hạn để có thể truyền tiếng nói tin cậy và hiệu

quả trên các hệ thống viễn thông truyền với khoảng cách rất xa, người ta cần
nghiên cứu và xây dựng các giải thuật mã hóa nén tiếng nói. Để xây dựng các
ứng dụng nhận dạng tiếng nói, người ta cần nghiên cứu và xây dựng các giải
thuật trích đặc trưng tiếng nói và huấn luyện tiếng nói. Để biến đổi tiếng nói,
người ta cần xác định các đặc trưng tiếng nói theo các tiêu chí cụ thể khác
nhau (như người nói, cảm xúc, ngữ điệu khi nói) và biến đổi trực tiếp hoặc
gián tiếp các đặc trưng này.

Hình 1.14: Một số ứng dụng của xử lý tiếng nói

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>12


Hình 1.15: Hệ thống nhận dạng người nói – một trong các ứng dụng xử lý
thông tin người nói
1.6. Thông tin ngƣời nói trong tiếng nói
Hầu hết các hệ thống xử lý tiếng nói truyền thông tập trung vào xử lý
các thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được [6].
Tuy nhiên để các ứng dụng xử lý tiếng nói trong máy tính có thể được áp
dụng rộng rãi trong thực tế, các đặc trưng phi ngôn ngữ của tiếng nói cũng đã
được quan tâm nghiên cứu trong thời gian gần đây [4]. Một trong những vấn
đề quan trọng cần đảm bảo là thông tin về người nói, bao gồm cả các thông
tin chung về người nói như giới tính, độ tuổi,… đến các thông tin chi tiết như
thông tin nhận danh chính xác người nói [7,9,15,17,22,23]. Có nhiều yếu tố
ảnh hưởng đến thông tin người nói trong tiếng nói như hình dạng, cấu trúc cơ
quan phát âm (đặc trưng sinh học), thói quen, cách thức phát âm,..
Con người có thể phân biệt được thông tin người nói một cách dễ dàng
do khả năng của cơ quan thính giác tuy nhiên để máy tính có thể phân biệt

thông tin người nói, thông tin người nói cần phải được mô hình hóa và việc
phân biệt, định danh, biến đổi cần phải được thực hiện thông qua các tham số
vector đặc trưng được tính toán từ tín hiệu tiếng nói.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>13


Hình 1.16: Người nói khác nhau có cơ quan phát âm và cách phát âm khác
nhau dẫn tới tiếng nói khác nhau

Hình 1.17: Đặc trưng phổ formant đặc trưng cho cơ quan phát âm
1.7. Biến đổi thông tin ngƣời nói trong tiếng nói và ứng dụng
Các hệ thống tổng hợp tiếng nói nhân tạo thường chỉ có thể tổng hợp ra
tiếng nói của một số giọng nói đã được thu sẵn và huấn luyện trước cho máy
tính. Trong nhiều ứng dụng truyền thông đa phương tiện hiện đại, việc biến
đổi thông tin người nói trong tín hiệu tiếng nói có vai trò quan trọng. Một số
ví dụ điển hình như:
- Trong các bộ phim lịch sử cần diễn viên nói với giọng giống với
giọng của nhân vật lịch sử [22].
- Trong các clips quảng cáo, âm nhạc cần biến đổi giọng nói, giọng hát
của diễn viên theo các tiêu chí cụ thể khác nhau như cao hơn, trầm hơn, giống
với nhân vật thật hơn,… [22]

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>14



- Đặc biệt, nếu bỏ qua các thông tin phi ngôn ngữ như thông tin người
nói khi mã hóa tiếng nói bằng phương pháp kết hợp sử dụng các hệ thống
nhận dạng và tổng hợp tiếng nói ở đầu cuối, tiếng nói có thể được truyền như
văn bản với tốc độ bit cực thấp [21]. Khi đó sẽ sử dụng hiệu quả tối đa hạ tầng
truyền thông, ngay cả trong điều kiện tài nguyên rất hạn chế. Tuy nhiên để
tiếng nói mã hóa theo phương pháp này có thể được sử dụng hiệu quả trong
thực tiễn, các thông tin phi ngôn ngữ như thông tin người nói cần phải được
bổ sung ở đầu ra. Nói cách khác, thông tin tiếng nói đã mã hóa cần phải được
biến đổi theo người nói cụ thể.
Một số phương pháp biến đổi thông tin người nói điển hình được biết
đến là phương pháp thay thế khung [18], phương pháp biến đổi tham số
(vector) đặc trưng [25], và phương pháp dùng học máy [8]. Một số vector đặc
trưng phổ biến nhất là đặc trưng phổ, năng lượng, …

Hình 1.18: Tính toán vector đặc trưng

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>15


×