Phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy thống kê bằng mô hình pha trộn gaussian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.1 MB, 68 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

TRỊNH THỊ THỦY

PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG
TIẾNG NÓI CÓ NHIỄU DÙNG HỌC MÁY THỐNG KÊ
BẰNG MÔ HÌNH PHA TRỘN GAUSSIAN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2016

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

TRỊNH THỊ THỦY

PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG
TIẾNG NÓI CÓ NHIỄU DÙNG HỌC MÁY THỐNG KÊ
BẰNG MÔ HÌNH PHA TRỘN GAUSSIAN
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS. PHÙNG TRUNG NGHĨA

THÁI NGUYÊN - 2016

i

LỜI CAM ĐOAN
Tên tôi là: Trịnh Thị Thủy
Sinh ngày: 27/07/1985
Học viên lớp cao học K13A – Trường Đại học Công nghệ thông tin và
Truyền thông – Đại học Thái Nguyên.
Tôi xin cam đoan, toàn bộ nội dung liên quan tới đề tài được trình bày
trong luận văn là bản thân tôi tìm hiểu nghiên cứu, dưới sự hướng dẫn khoa
học của thầy giáo TS. Phùng Trung Nghĩa.
Các nội dung trong luận văn đúng như nội dung trong đề cương và yêu
cầu của thầy giáo hướng dẫn. Tất cả tài liệu tham khảo đều có nguồn gốc,
xuất xứ rõ ràng. Nếu sai tôi hoàn toàn chịu tránh nhiệm trước hội đồng khoa
học và trước pháp luật.
Tác giả luận văn

Trịnh Thị Thủy

ii

LỜI CẢM ƠN
Lời đầu tiên em xin chân thành cảm ơn TS. Phùng Trung Nghĩa, người
đã trực tiếp hướng dẫn em hoàn thành luận văn. Trong suốt thời gian làm luận
văn thầy đã dành nhiều thời gian quý báu để tận tình chỉ bảo, hướng dẫn, định
hướng cho em trong việc nghiên cứu và những lời động viên của thầy đã giúp
em vượt qua nhiều khó khăn trong quá trình thực hiện luận văn này.

Em xin được bày tỏ lòng biết ơn chân thành đến Ban giám hiệu, Phòng
sau đại học, các thầy cô giáo Trường Đại học Công nghệ thông tin và Truyền
thông - Đại học Thái Nguyên đã tận tình giảng dạy truyền đạt cho em những
kiến thức, kinh nghiệm quý báu trong suốt những năm học vừa qua.
Cuối cùng tôi xin chân thành cảm ơn gia đình, người thân, bạn bè, đồng
nghiệp…, đã hết lòng giúp đỡ, tạo điều kiện cho tôi trong suốt quá trình học
tập và hoàn thành luận văn.
Trong khoảng thời gian có hạn, cũng như kiến thức còn nhiều hạn chế
nên luận văn không tránh khỏi những thiếu sót. Rất mong nhận được những ý
kiến đóng góp quý báu của thầy cô, bạn bè và đồng nghiệp.
Thái Nguyên, ngày 15 tháng 04 năm 2016
Tác giả

Trịnh Thị Thuỷ

iii

MỤC LỤC
LỜI CẢM ƠN ..........................................................................................................i
LỜI CAM ĐOAN .....................................................................................................i
MỤC LỤC ............................................................................................................ iii
DANH MỤC CÁC TỪ VIẾT TẮT......................................................................... vi
DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ ..................................................................vii
DANH MỤC BẢNG .............................................................................................. ix
MỞ ĐẦU ................................................................................................................ 1
1. Lý do chọn đề tài ................................................................................................. 1
2. Mục tiêu của đề tài .............................................................................................. 2
3. Đối tượng và phạm vi nghiên cứu: ...................................................................... 2
4. Phương pháp nghiên cứu .................................................................................... 2

5. Ý nghĩa khoa học và thực tiễn.............................................................................. 3
CHƯƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ XỬ LÝ NHIỄU
TRONG TIẾNG NÓI .............................................................................................. 4
1.1. Tổng quan về tiếng nói ..................................................................................... 4
1.1.1. Thông tin tiếng nói ............................................................................... 4
1.1.2. Tín hiệu và tín hiệu tiếng nói ................................................................ 4
1.1.2.1. Tín hiệu tiếng nói ............................................................................... 4
1.1.2.2. Tín hiệu ............................................................................................. 5
1.1.3. Quá trình tạo tiếng nói .......................................................................... 8
1.1.4. Cơ quan thính giác .............................................................................. 11
1.2. Nhiễu trong tiếng nói ...................................................................................... 14
1.2.1. Nguồn nhiễu....................................................................................... 14
1.2.2. Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau ........ 16
1.2.3. Mô hình hóa tiếng nói ......................................................................... 17
1.3. Xử lý nhiễu tiếng nói ..................................................................................... 20
1.3.1. Cách tiếp cận không dùng học máy..................................................... 20

iv

1.3.2. Cách tiếp cận dùng học máy. .............................................................. 20
CHƯƠNG II: PHƯƠNG PHÁP NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI CÓ
NHIỄU PHỨC HỢP BẰNG HỌC MÁY DÙNG MÔ HÌNH PHA TRỘN
GAUSSIAN .......................................................................................................... 21
2.1. Phương pháp nâng cao chất lượng tiếng nói có nhiễu kinh điển dùng kỹ thuật
trừ phổ. .................................................................................................................. 21
2.1.1. Thuật toán trừ phổ đối với phổ biên độ ............................................... 21
2.1.2. Thuật toántrừ phổ đối với phổ công suất ............................................. 22
2.1.3. Ưu nhược điểm của phương pháp ....................................................... 25
2.2. Phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy GMM. ... 25

2.2.1. Phân bố Gauss .................................................................................... 25
2.2.2. Mô hình Gaussian hỗn hợp ................................................................. 26
2.2.3. Mô hình dự đoán tuyến tính (LP) trong kĩ thuật nâng cao chất lượng
tiếng nói có nhiễu. ................................................................................................. 28
2.2.4. Phổ đường cảm thụ (PLSF)................................................................. 30
2.2.5. Biến đổi phổ sử dụng mô hình GMM.................................................. 32
CHƯƠNG III: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP NÂNG CAO
CHẤT LƯỢNG TIẾNG NÓI ................................................................................ 36
3.1. Ngữ âm tiếng Việt .......................................................................................... 36
3.2. Cơ sở dữ liệu tiếng nói tiếng Việt ................................................................... 39
3.3. Lựa chọn cơ sở dữ liệu.................................................................................... 42
3.4. Cài đặt các phương pháp ................................................................................. 42
3.4.1. Phương pháp trừ phổ .......................................................................... 42
3.4.2. Phương pháp biến đổi sử dụng học máy thống kê GMM..................... 43
3.5. Đánh giá kết quả thực nghiệm......................................................................... 45
3.5.1. Tiêu chí đánh giá chủ quan ................................................................. 46
3.5.2. Tiêu chí đánh giá khách quan.............................................................. 47
3.5.3. Kết quả đánh giá thực nghiệm............................................................. 48
3.6. Nhận xét chung về kết quả .............................................................................. 49

v

KẾT LUẬN ........................................................................................................... 50
TÀI LIỆU THAM KHẢO .................................................................................... 51

vi

DANH MỤC CÁC TỪ VIẾT TẮT

Từ viết tắt
GMM

Viết đầy đủ

Ý nghĩa

Gaussian model mixture

Mô hình Gaussian hỗn hợp

LP

Linear Preditive

Phương pháp dự đoán tuyến tính

SS

Spectral subtraction

Trừ phổ

EM

Expectation Maximization

Lặp cực đại kỳ vọng

LPC

Linear predictive coding

Mã hóa dự đoán tuyến tính

PLP

Perceptual Linear Preditive

Dự đoán tuyến tính cảm thụ

LSF

Line Spectral Frequency

Ðặc trưng phổ đường

NN

Neural Network

Mạng nơron

F0

Fundamental Frequency

Tần số dao động cơ bản

SS

Spectral subtraction

Trừ phổ

vii

DANH MỤC CÁC HÌNH VẼ, SƠ ĐỒ
Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt .......................................... 5
Hình 1.2: Tiếng nói hữu thanh ........................................................................ 5
Hình 1.3: Tín hiệu tiếng nói............................................................................ 6
Hình 1.4: Bộ phận cung cấp làn hơi................................................................ 8
Hình 1.5: Dây thanh âm ................................................................................. 9
Hình 1.6: Cấu trúc cơ quan phát âm ............................................................. 10
Hình 1.7: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm ....... 10
Hình 1.8: Mô hình hóa cơ quan phát âm ....................................................... 11
Hình 1.9: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính .... 11
Hình 1.10: Mô hình cơ quan thính giác ........................................................ 12
Hình 1.11: Thang tần số Bark ...................................................................... 12
Hình 1.12: Ngưỡng nghe .............................................................................. 13
Hình 1.13: Mặt nạ thời gian (che âm thanh liền trước và liền sau) ................ 13
Hình 1.14: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng
thời điểm) .................................................................................... 13
Hình 1.15: Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [14]..... 15
Hình 1.16: Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên
tàu [14] ........................................................................................ 15
Hình 1.17: Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong
nhà hàng [14]................................................................................ 16
Hình 1.18: Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi

trường khác nhau [14] .................................................................. 17
Hình 1.19: Mô hình điểm cực formant cơ quan phát âm ............................... 18

viii

Hình 1.20: Mô hình kích thích âm hữu thanh ............................................... 19
Hình 1.21: Mô hình hóa quá trình tạo tiếng nói ............................................ 20
Hình 2.1: Sơ đồ khối của thuật toán Spectral subtraction [12] ...................... 25
Hình 2.2: Hàm mật độ xác suất Gauss (Đường màu đỏ là phân phối chuẩn
chuẩn hóa) .................................................................................... 26
Hình 2.3: Dự đoán tuyến tính cảm thụ (PLP – Perceptual Linear Preditive) . 31
Hình 2.4: Sơ đồ tổng quát............................................................................. 33
Hình 3.1: Đường F0 sáu thanh điệu tiếng Việt theo, dấu ? ở thanh ngã chỉ ra
rằng đường F0 của thanh ngã không thống nhất giữa các mẫu ở
vùng giữa. ..................................................................................... 38
Hình 3.2: Lưu đồ thuật toán Spectral subtraction.......................................... 42
Hình 3.3: Huấn luyện mô hình GMM cho tham số phổ LSF ........................ 44
Hình 3.4: Chuyển đổi mô hình GMM cho tham số phổ LSF ........................ 45

ix

DANH MỤC BẢNG
Bảng 3.1: Cấu trúc âm tiết tiếng Việt............................................................ 38
Bảng 3.2: Sáu thanh điệu tiếng Việt ............................................................. 39
Bảng 3.3: Mô tả mức điểm đánh giá ............................................................. 47
Bảng 3.4 : Kết quả đánh giá bằng phương pháp LCD ................................... 48
Bảng 3.5 : Kết quả đánh giá bằng phương pháp MOS .................................. 49

1

MỞ ĐẦU
1. Lý do chọn đề tài
Tiếng nói là công cụ giao tiếp tự nhiên nhất của con người. Tiếng nói
cũng là loại hình thông tin phổ biến nhất trong các hệ thống viễn thông. Do
đó, xử lý tiếng nói đã và đang được nhiều nhà nghiên cứu quan tâm. Độ tự
nhiên, độ rõ, khả năng nghe hiểu của tiếng nói bị ảnh hưởng bởi nhiều loại
nguồn nhiễu như nhiễu nền, thông thường được coi là nhiễu cộng, cũng như
nhiễu kênh, thông thường được coi là nhiễu nhân (nhiễu chập - convolutive
noise).
Hầu hết các nghiên cứu về triệt nhiễu nâng cao chất lượng tiếng nói hiện
nay sử dụng phương pháp ước lượng nguồn nhiễu với giải thiết nguồn nhiễu
là cộng tính và biến đổi chậm [29]. Do đó, các phương pháp hiện tại thường
không hiệu quả với nhiễu nhân như nhiễu kênh. Ngoài ra việc ước lượng
nguồn nhiễu là rất khó khăn trong điều kiện nhiễu nặng và môi trường nhiều
nguồn nhiễu, nhiễu phức hợp kết hợp cả nhiễu cộng và nhiễu nhân.
Cách tiếp cận triệt nhiễu nâng cao chất lượng tiếng nói bằng học máy
ước lượng luật biến đổi tiếng nói sạch – tiếng nói có nhiễu thay vì ước lượng
nguồn nhiễu độc lập. Do vậy có thể áp dụng cho nhiều loại nguồn nhiễu khác
nhau với giả thiết nhiễu có tính dừng (stationary). Cách tiếp cận này đã được
sử dụng gần đây để nâng cao chất lượng một số loại tiếng nói bị suy giảm
chất lượng như tiếng nói của người có cơ quan phát âm khiếm khuyết [30, 3],
tiếng nói truyền trong xương [4,5,6].
Trong luận văn này, chúng tôi thử nghiệm cách tiếp cận triệt nhiễu tiếng
nói dùng học máy thống kê, sử dụng mô hình pha trộn Gaussian (GMM) cho
môi trường nhiễu phức hợp kết hợp của nhiễu cộng và nhiễu nhân. Cách tiếp

2

cận này đã được một số nhà nghiên cứu trên thế giới quan tâm [7] và bắt đầu
được nghiên cứu ở Việt nam trong thời gian gần đây.
2. Mục tiêu của đề tài
Hướng nghiên cứu của luận văn là nghiên cứu về vấn đề xử lý nhiễu
phức hợp, kết hợp cả nhiễu cộng và nhiễu nhân trong tiếng nói. Trong đó,
luận văn tập trung nghiên cứu các vấn đề lý thuyết về cách tiếp cận xử lý
nhiễu dùng học máy thống kê, đặc biệt là phương pháp sử dụng mô hình pha
trộn Gaussian.
3. Đối tượng và phạm vi nghiên cứu:
Đối tượng nghiên cứu của luận văn là cách tiếp cận triệt nhiễu nâng cao
chất lượng tiếng nói bằng học máy. Đây là đối tượng nghiên cứu được một số
nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây.
Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tín hiệu tiếng
nói và vấn đề nhiễu trong tiếng nói, một số phương pháp xử lý nhiễu kinh
điển không dùng học máy, cách tiếp cận dùng học máy, đặc biệt là phương
pháp học máy dùng mô hình pha trộn Gaussian [7]. Luận văn cũng nghiên
cứu đánh giá thực nghiệm các phương pháp để đưa ra các nhận xét, đánh giá.
4. Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có
trên thế giới [29,30,3-7] để phân tích, đánh giá về các phương pháp xử lý
nhiễu trong tiếng nói.
Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ
nghiên cứu thực nghiệm một số phương pháp xử lý nhiễu trong tiếng nói.

3

5. Ý nghĩa khoa học và thực tiễn
Như đã trình bày trong phần trên, nghiên cứu về xử lý nhiễu trong tiếng
nói có vai trò quan trọng trong các hệ thống xử lý thông tin và truyền thông
hiện đại. Cách tiếp cận nâng cao chất lượng tiếng nói có nhiễu bằng học máy
thống kê có thể áp dụng cho môi trường nhiễu nhân, nhiễu phức hợp kết hợp
cả nhiễu cộng và nhiễu nhân, nên có tiềm năng ứng dụng cao. Đây là hướng
nghiên cứu còn khá mới mẻ ở Việt Nam. Do vậy vấn đề nghiên cứu trong
luận văn có ý nghĩa khoa học và thực tiễn.

4

CHƯƠNG I: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ XỬ LÝ
NHIỄU TRONG TIẾNG NÓI
1.1. Tổng quan về tiếng nói
1.1.1. Thông tin tiếng nói
Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con
người. Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng
nói làm phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình
tiến hóa và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương
tiện giao tiếp cơ bản nhất. Do đó tiếng nói là phương tiện giao tiếp cơ bản của
con người, nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ
thống viễn thông từ trước đến nay.
Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu và
ứng dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lý
nhanh, nhiều mà quan trọng hơn nó đủ thông minh để thay thế con người.
Một trong các tiêu chí quan trọng để đánh giá độ thông minh của máy
tính chính là khả năng hiểu được ngôn ngữ tự nhiên của con người
trong đó có tiếng nói. Tuy nhiên, tiếng nói mang nhiều thông tin, ngoài thông
tin ngôn ngữ còn cả các thông tin phi ngôn ngữ như thông tin về người nói,

thông tin về sắc thái tình cảm khi nói…
1.1.2. Tín hiệu và tín hiệu tiếng nói
1.1.2.1. Tín hiệu tiếng nói
Âm thanh là các dao động cơ học lan truyền trong vật chất như các
sóng. Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng,
chu kỳ, biên độ và vận tốc lan truyền (tốc độ âm thanh).
Đối với thính giác của người, âm thanh thường là sự dao động, trong
dải tần số từ khoảng 20 Hz - 20 kHz, của các phân tử không khí, và lan

5

truyền trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích
thích bộ não.
Tiếng nói là loại âm thanh phổ biến nhất trong truyền thông. Dải tần
tiếng nói trong khoảng 300 Hz - 3400 Hz. Tiếng nói bao gồm hai dạng hữu
thanh và vô thanh. Âm hữu thanh có đặc tính tuần hoàn còn âm vô thanh
tương tự nhiễu.

Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt

Hình 1.2: Tiếng nói hữu thanh
1.1.2.2. Tín hiệu
Tín hiệu(signal) dùng để chỉ một đại lượng vật lý mang tin tức. Về mặt
toán học, ta có thể mô tả tín hiệu như một hàm theo biến thời gian, không

6

gian hay các biến độc lập khác. Chẳng hạn như, hàm: x (t )  20t 2

mô tả tín

hiệu biến thiên theo biến thời gian t. Hay một ví dụ khác, hàm:

s( x, y )  3x  5 xy  y 2 mô tả tín hiệu là hàm theo hai biến độc lập x và y,
trong đó x và y biểu diễn cho hai tọa độ trong mặt phẳng.
Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính xác
bằng hàm theo biến độc lập. Tuy nhiên, trong thực tế, các mối quan hệ
giưa các đại lượng vật lý và các biến độc lập thường rất phức tạp nên không
thể biểu diễn tín hiệu như trong hai ví dụ vừa nêu trên.

Hình 1.3: Tín hiệu tiếng nói
Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên của áp suất không khí
theo thời gian. Chẳng hạn khi ta phát âm từ “away”, dạng sóng của nó được
biểu diễn như hình trên.
A. Nguồn tín hiệu
Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức
nào đó. Ví dụ tín hiệu tiếng nói được tạo ra băng cách ép không khí đi qua dây
thanh âm. Một bức ảnh có được bằng cách phơi sáng một tấm phim chụp
một cảnh/đối tượng nào đó. Quá trình tạo tín hiệu như vậy thường liên quan
đến một hệ thống, hệ thống này đáp ứng lại một kích thích nào đó. Trong

7

tín hiệu tiếng nói, hệ thống là hệ thống phát âm, gồm môi, răng, lưỡi, dây
thanh…Kích thích liên quan đến hệ thống được gọi là nguồn tín hiệu. Như
vậy ta có nguồn tiếng nói, nguồn ảnh và các nguồn tín hiệu khác.
B. Hệ thống và xử lý tín hiệu

Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín
hiệu.Ví dụ, bộ lọc dùng để giảm nhiễu trong tín hiệu mang tin được gọi là
một hệ thống. Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc chẳng hạn,
ta nói rằng đã xử lý tín hiệu đó. Trong trường hợp này, xử lý tín hiệu liên
quan đến lọc nhiễu ra khỏi tín hiệu mong muốn.
Xử lý tín hiệu là ý muốn nói đến một loạt các công việc hay các
phép toán được thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như
là tách tin tức chứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơi
này đến nơi khác.
Ở đây ta cần lưu ý đến định nghĩa hệ thống, nó không chỉ đơn thuần là
thiết bị vật lý mà còn là phần mềm xử lý tín hiệu hoặc là sự kết hợp giữa phần
cứng và phần mềm. Ví dụ khi xử lý số tín hiệu bằng mạch logic, hệ thống xử
lý ở đây là phần cứng. Khi xử lý bằng máy tính số, tác động lên tín hiệu bao
gồm một loạt các phép toán thực hiện bởi chương trình phần mềm. Khi xử lý
bằng các bộ vi xử lý - hệ thống bao gồm kết hợp cả phần cứng và phần mềm,
mỗi phần thực hiện các công việc riêng nào đó.
C. Phân loại tín hiệu
Các phương pháp ta sử dụng trong xử lý tín hiệu phụ thuộc chặt
chẽ vào đặc điểm của tín hiệu. Có những phương pháp riêng áp dụng cho
một loại tín hiệu nào đó. Do vậy, trước tiên ta cần xem qua cách phân loại
tín hiệu liên quan đến những ứng dụng cụ thể. Chúng ta có thể phân tín hiệu
thành các loại :

8

- Tín hiệu nhiều hướng và tín hiệu đa kênh
- Tín hiệu liên tục và tín hiệu rời rạc
- Tín hiệu biên độ liên tục và tín hiệu biên độ rời rạc
- Tín hiệu xác định và tín hiệu ngẫu nhiên

1.1.3. Quá trình tạo tiếng nói
a. Bộ phận cung cấp làn hơi:
Bao gồm hai lá phổi, được sự tác động của các cơ ngực, sườn, cơ hoành
cách mô, cơ bụng. Làn hơi đưa lên quyết định cường độ của âm thanh.

Hình 1.4: Bộ phận cung cấp làn hơi
Bộ phận phát thanh vocal cord là thanh đới (dây thanh âm) nằm trong
thanh quản:
Do áp lực của làn hơi từ phổi đưa lên, thanh đới - với những độ căng
khác nhau và hình dạng khác nhau - mở ra và đóng lại nhanh chậm khác nhau,
cắt làn hơi thành những sóng âm có tần số khác nhau, tạo thành những âm
thanh có cao độ khác nhau.
Thanh đới ở phụ nữ và trẻ em ngắn và mỏng hơn ở đàn ông, nên giọng
nữ và trẻ em cao hơn giọng đàn ông.

9

Hình 1.5: Dây thanh âm
b. Bộ phận dẫn âm:
Gồm chủ yếu là cuống họng (yết hầu) thông với đường miệng hoặc
đường mũi. Các chấn động âm thanh do thanh đới tạo ra, được bộ phận dẫn
âm gom lại và dẫn ra ngoài theo hai hướng miệng hoặc mũi. Cuống họng và
miệng chủ yếu đóng vai trò truyền âm.
c. Bộ phận phát âm:
Là miệng với các hoạt động của môi, răng, lưỡi, hàm dưới, vòm miệng.
Chúng ta nhận ra được lời nói, tiếng hát có nghĩa là nhờ vào hoạt động của
các cơ năng trên. Khi nói đến khẩu hình là nói đến hình thể, hình dáng, cả bên
ngoài lẫn bên trong của miệng do hoạt động phối hợp của môi, lưỡi, hàm
dưới, vòm mềm tạo ra khi phát âm. Mở khẩu hình không đúng cách sẽ ảnh

hưởng không chỉ đến chất lượng âm thanh, mà nhất là ảnh hưởng đến việc rõ
lời, phát âm đúng.
Bộ phận phát âm đóng vai trò như một hộp cộng hưởng âm thanh. Nhờ
sự biến đổi của bộ phận phát âm mà âm thanh được cộng hưởng, triệt tiêu ở
các tần số khác nhau dẫn tới âm thanh được phát ra nghe khác nhau.

10

Hình 1.6: Cấu trúc cơ quan phát âm

Hình 1.7: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm
d. Biễu diễn bộ phận phát âm:
Có thể biểu diễn cơ quan phát âm bằng một mô hình gần đúng gồm các
hình trụ có độ dài bằng nhau nhưng có đường kính khác nhau. Trong quá trình
phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm , do
đó trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thay
đổi là không đáng kể, nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang âm
vị khác.

11

Hình 1.8: Mô hình hóa cơ quan phát âm

Hình 1.9: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính
1.1.4. Cơ quan thính giác
Để cảm thụ được tiếng nói, con người sử dụng cơ quan thính giác. Cơ
quan thính giác con người có thể cảm thụ được các tần số âm thanh trong
khoảng 15 Hz - 20.000 Hz. Âm thanh với tần số cao hơn được gọi là siêu âm,

thấp hơn là hạ âm.

Phương pháp nâng cao chất lượng tiếng nói có nhiễu dùng học máy thống kê bằng mô hình pha trộn gaussian

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về