HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
LẠI THẾ HƯNG
NGHIÊN CỨU VỀ ĐẶC TÍNH THÍNH GIÁC VÀ DỰ ĐOÁN TẠP ÂM
TRONG TĂNG CƯỜNG TIẾNG NÓI
Chuyên ngành: Kỹ thuật viễn thông
Mã số: 60.52.02.08
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – NĂM 2014
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: TS. Nguyễn Ngọc Minh
Phản biện 1: TS. Vũ Văn San
Phản biện 2: PGS.TS. Trần Hồng Quân
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học
viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
1
I. M
Trong đời sống, tiếng nói đóng vai trò quan trọng, là hình
thức giao tiếp thông dụng nhất giữa con người với con người,
con người với máy móc,v.v. Thế nhưng trên thực tế, tiếng nói
không bao giờ tồn tại một cách độc lập, kèm theo nó là rất
nhiều loại tạp âm khác nhau.
Sự tồn tại của tạp âm làm chất lượng tiếng nói bị giảm sút,
do luôn luôn có sự tồn tại của tạp âm kèm theo tiếng nói trong
bất kể hoàn cảnh nào, dẫn tới suy giảm chất lượng âm thanh
trong giao tiếp, nên làm thế nào để lọc những tạp âm đó ra khỏi
tín hiệu tiếng nói để giảm mệt mỏi cho người nghe và tránh
thay đổi trong giọng nói của người nói luôn là mối quan tâm
hàng đầu trong xử lý tiếng nói của các nhà nghiên cứu.
Một trong các phương pháp truyền thống nhưng được
ứng dụng nhiều do cách tính đơn giản nhưng cho hiệu quả
tương đối cao là phương pháp trừ phổ. Tuy nhiên, trong
phương pháp này vẫn tồn tại những khuyết điểm như sử dụng
cùng một tham số trừ phổ cho tất cả các miền tần số trong khi
tạp âm phân bố trong mỗi miền tần số lại không giống nhau,
dẫn đến hiện tượng vẫn tồn tại "music noise" hoặc biến dạng
tiếng nói. Do đó, nghiên cứu của em là dựa vào đặc điểm thính
giác của con người để phân chia tần số âm thanh thành nhiều
2
băng tần nhỏ hơn rồi mới tiến hành trừ phổ, nhằm khắc phục
vấn đề chưa hoàn chỉnh nêu trên của phương pháp trừ phổ.
Xuất phát từ những vấn đề trên em đã chọn đề tài cho luận văn
của mình là: Nghiên cứu về đặc tính thính giác và dự đoán tạp
âm trong tăng cường tiếng nói.
Luận văn gồm 4 chương:
Chương 1 : Lý thuyết về tăng cường tiếng nói
Chương 2: Dự đoán tạp âm.
Chương 3: Phương pháp tăng cường tiếng nói dựa trên hiệu
ứng che lấp của thính giác.
Chương 4: Tăng cường tiếng nói bằng phương pháp dự đoán
tạp âm IMCRA kết hợp đặc điểm thính giác.
Trong quá trình nghiên cứu tìm hiểu làm luận văn, do
đây cũng là một lĩnh vực mới đang được nghiên cứu và phát
triển, cũng như do sự giới hạn về kiến thức nên không tránh
khỏi thiếu sót. Mong được sự đóng góp ý kiến của thầy và các
bạn.
3
II. NI DUNG
CHNG I
1.1.
1.1.1. Đăc điểm ngữ âm.
Đặc điểm của tín hiệu ngữ âm chủ yếu đề cập đến đặc
tính âm thanh của nó, dạng sóng trong miền thời gian, đặc tính
quang phổ của tín hiệu ngữ âm và đặc tính thống kê v.v
Ba tính năng chính của tín hiệu ngữ âm:
Đặc điểm bình ổn trong miền thời gian ngắn của tín
hiệu ngữ âm
Mọi ngữ âm đều do hai loại âm tố là nguyên âm và phụ
âm tổ thành. Căn cứ vào quá trình phát âm, dây thanh
âm có rung hay không, phụ âm lại được chia thành phụ
âm thanh và phụ âm đục
Tín hiệu ngữ âm có thể miêu tả bằng đặc tính thống kê.
1.1.2 Đặc điểm tạp âm
Nguồn tạp âm phụ thuộc vào môi trường ứng dụng trong thực
tế, do đó đặc điểm tạp âm là biến đổi vô tận.
Phụ gia tạp âm thường được phân thành: tạp âm xung động
(hoặc tạp âm xung lực), tạp âm chu kỳ, tạp âm băng thông, tạp
âm nhiễu, v.v
1.1.3 Đặc tính của thính giác.
4
Cảm giác của tai người đối với tần số cao thấp của sóng
thanh và độ cao thấp của tần sóng thực tế không hình
thành quan hệ tuyến tính, mà gần giống với quan hệ
logarit
Tai người có hiệu ứng che
Tai người ngoài khả năng cảm nhận cường độ, âm điệu,
âm sắc và phương vị không gian của âm thanh
1.2 Tng quan v thut toán tn
1.2.1 Phương pháp tham số.
Phương pháp tham số chủ yếu dựa vào mô hình phát sinh ngữ
âm.Sử dụng mô hình máy lọc sóng điển hình như máy lược lọc
sóng, máy lọc sóng Wiener, máy lọc sóng Kalman
1.2.2 Phương pháp phi tham số.
Phương pháp phi tham số không cần dự tính tham số mô hình
từ tín hiệu chứa tạp, do đó phạm vi ứng dụng của phương pháp
này là khá lớn. Loại phương pháp này bao gồm phương pháp
trừ phổ, phương pháp lọc sóng tự thích nghi v.v
1.2.3 Phương pháp thống kê.
Phương pháp thống kê lợi dụng khá toàn vẹn đặc điểm thống
kê của ngữ âm và tạp âm.Sử dụng các phương pháp: Dự toán
phương sai bình quân nhỏ nhất, phương pháp tối ưu đính chính
phổ logarit, phương pháp mô hình ẩn Markov v.v.
5
Phương pháp khác: Các phương pháp mới được đưa ra, như
phương pháp hiệu ứng thính giác che, biến đổi wavelet, mạng
thần kinh, lý luận phân hình, v.v.
1.3.1 Phương pháp đánh giá chủ quan
Điểm ý kiến trung bình
Đánh giá qua kiểm tra vần điệu
1.3.2 Phương pháp đánh giá khách quan
Tỉ lệ tín hiệu với tạp âm
Phân đoạn SNR
Độ biến dạng trong miền thời gian
Qua chương I chúng ta có thể thấy để có thể hiểu về lý
thuyết tăng cường tiếng nói chúng ta cần nghiên cứu các đặc
điểm quan trọng của tiếng nói như đặc điểm về ngữ âm, tạp âm
cũng như đặc điểm thính giác của con người, vì tạp âm có tính
đa dạng cho nên phương pháp sử dụng để tăng cường tiếng nói
cũng không giống nhau.
6
Kiểm tra hoạt động ngữ âm (VAD) còn gọi là phán
đoán có âm/ vô âm của ngữ âm, kiểm tra điểm dừng ngữ âm,
trong đó phương pháp cụ thể là: trích xuất một hoặc nhiều
thông số đặc trưng để so sánh từ tín hiệu đầu vào, sau đó so
sánh một hoặc nhiều thông số đó với ngưỡng giới hạn.
2.2.1 Tư tưởng thuật toán theo dõi giá trị nhỏ nhất
2.2.2 Phương pháp kiểm soát giá trị nhỏ nhất trung bình đệ
quy
7
2.2.3 Thuật toán cải tiến phương pháp kiểm soát giá trị
nhỏ nhất trung bình đệ quy.
a) Thuật toán cải tiến của Cohen
Thuật toán IMCRA thông qua theo dõi giá trị nhỏ nhất
trong toàn đoạn tồn tại ngữ âm, dự toán xác suất tồn tại ngữ âm
và dẫn tới một hệ số bổ sung sai lệch để thêm một bước nữa cải
thiện phương pháp dự toán MCRA. Phương pháp dự toán tạp
âm IMCRA bao hàm hai lần làm mịn đệ quy và theo dõi giá trị
nhỏ nhất.
8
b) Thuật toán cải tiến của Rangachari S. và Loizou P.
c) Các thuật toán cải tiến phương pháp kiểm soát giá trị nhỏ
nhất trung bình đệ quy.
Phương pháp tăng cường kiểm soát giá trị nhỏ nhất
trung bình đệ quy (Enhanced MCRA, EMCRA)
Phương pháp kiểm soát giá trị nhỏ nhất bình quân đệ
quy điều kiện hậu nghiệm lớn nhất (MCRA based on a
conditional maximum a posteriori, MCRA- CMAP)
Thuật toán cải tiến kiểm soát giá trị nhỏ nhất trung bình
đệ quy sau sửa chữa (Modified IMCRA, M-IMCRA)
Phương pháp tìm kiếm hai chiều giá trị nhỏ nhất trung
bình đệ quy
9
Chương này phân biệt nghiên cứu và mô phỏng đối với hai
phương pháp dự toán tạp âm là trên cơ sở kiểm tra hoạt động
ngữ âm và trên cơ sở theo dõi giá trị nhỏ nhất. Đối với phương
pháp dự toán tạp âm bằng kiểm tra hoạt động ngữ âm, khi kiểm
tra được đoạn không tồn tại ngữ âm thì tiến hành làm mới tạp
âm, mà khi kiểm tra được đoạn tồn tại ngữ âm thì công suất
phổ tạp âm giữ nguyên không đổi. Phương pháp dự toán tạp âm
trên cơ sở theo dõi giá trị nhỏ nhất, do tránh được kỹ thuật
kiểm tra điểm kết ngữ âm, nên phương pháp này càng thích
hợp với dự toán tạp âm trong môi trường tạp âm phi bình ổn,
đầu vào SNR thấp.
10
THÍNH GIÁC
3.1.1 Nguyên lý và sơ đồ phép trừ phổ đa băng tần
Phương pháp trừ phổ đa băng tần truyền thống được
đưa ra và nhận được ứng dụng rộng rãi trong lĩnh vực tăng
cường ngữ âm. Phương pháp này chia tần số toàn đoạn ngữ âm
chứa tạp thành N phần băng tần con bằng nhau và không trùng
lặp, thường phân thành 3-8 băng tần con, sau đó trong mỗi
băng tần con tính ra tham số trừ phổ tương ứng, lần lượt tiến
hành trừ phổ trong mỗi băng tần con, cuối cùng phối hợp phổ
sau phép trừ phổ lại, thực hiện biến đổi ngược Fourier liền
nhận được tín hiệu tăng cường cuối cùng.
11
3.1.2 Phương pháp xác định tham số trừ phổ trong các băng
tần
Phổ ngữ âm được dự toán là:
elselkD
lkXlkDlkY
lkX
i
iiiii
i
2
22
),(
0),(
ˆ
),(),(
),(
ˆ
(3-5)
3.1.3 Kết quả mô phỏng và phân tích
12
a) Phép trừ phổ truyền thống
b) Phép trừ phổ đa băng tần
3.2.1 Nguyên lý và sơ đồ
Nguyên lý phương pháp tăng cường tiếng nói dựa trên
phép trừ phổ đa băng tần và hiệu ứng che lấp của thính giác là:
13
Đầu tiên tiến hành phân khung, cộng cửa sổ và biến đổi
Fourier đối với đầu vào tín hiệu ngữ âm chứa tạp, đồng thời
tiến hành phân tích phổ với ngữ âm chứa tạp, sau đó tiến hành
kiểm tra hoạt động ngữ âm đối với ngữ âm chứa tạp và tiến
hành làm mới tạp âm dự toán.
Cùng lúc tiến hành phân chia tần số đối với phổ ngữ
âm, phân biệt làm phép trừ phổ trong mỗi băng tần con để có
tín hiệu tăng cường ban đầu. Lợi dụng vừa công suất phổ ngữ
âm sạch vừa dự toán được để tính ngưỡng che của thính giác,
từ ngưỡng che này tính được tham số động trong phép trừ phổ
α và β của mỗi khung tín hiệu ngữ âm. Căn cứ vào tham số
động để tự thích nghi, tiến hành trừ phổ tăng cường với tham
số có thể điều tiết đối với tín hiệu ngữ am chứa tạp. Cuối cùng
tiến hành biến đổi ngược Fourier, xử lý ghép cộng khung, và
gây dựng lại tín hiệu ngữ âm sau tăng cường.
14
3.3.2 Cách tính ngưỡng che của thính giác
3.2.3 Cách tính tham số trừ phổ có thể điều chỉnh
Phương pháp tính tham số trừ phổ có thể điều chỉnh
thường dùng là phương pháp Virag, trong đó dự toán công suất
phổ ngữ âm của phương pháp này được biểu thị là:
),(),(),(
ˆ
lkYlkGlkX
(3-19)
Trong đó,
),( lkG
là hàm số chênh lệch thỏa mãn ,
1),(0 lkG
3.2.4 Kết quả mô phỏng
a) Trừ phổ đa băng tần
15
b) Ứng dụng ngưỡng che thính giác
KT LU
Trên cơ sở giới thiệu phương pháp tăng cường tiếng nói
bằng phép trừ phổ đa băng tần và phép biến đổi tần số sang
miền tần số Bark, chương này sơ lược phương pháp tính giá trị
ngưỡng che thính giác, đồng thời ứng dụng hiệu ứng che của
thính giác và phép trừ phổ đa băng tần để kết hợp cho ra một
phương pháp tăng cường tiếng nói cho kết quả ưu việt hơn
phép trừ phổ truyền thống hay phép trừ phổ đa băng tần. Kết
quả thí nghiệm mô phỏng cũng chứng minh phương pháp này
không những nâng cao độ thoải mái cho người nghe mà còn
nâng cao đầu ra SNR.
16
4.1
Sử dụng thuật toán cải tiến phương pháp kiểm soát giá trị
nhỏ nhất trung bình đệ quy (IMCRA) để dự toán tạp âm, đồng
thời kết hợp với đặc điểm che của thính giác con người để tiến
hành tăng cường ngữ âm.
4.2
4.3
Sử dụng phần mềm Matlab để thực hiện mô phỏng các
thuật toán dự đoán tạp âm và các phương pháp tăng cường
tiếng nói để cho ra kết quả chứng minh cho các kết luận được
đưa ra.
17
Trong mô phỏng, sử dụng tần số lấy mẫu đối với tín
hiệu ngữ âm là 8 kHz, độ dài khung là 160, độ dài di chuyển
khung là 80, cửa sổ số sử dụng là cửa sổ Hamming, tiến hành
256 điểm biến đổi Fourier đối với tín hiệu sau chia khung và số
băng tần giới hạn dùng khi tính giá trị ngưỡng che là 22.
18
Kết quả mô phỏng phương pháp ứng dụng hiệu ứng che
của thính giác truyền thống và phương pháp của bài tiến hành
tăng cường tiếng nói với ngữ âm chứa tạp âm trắng
(SNR=0dB). Có thể thấy, trong môi trường SNR thấp, tạp âm
bình ổn hoặc trong môi trường SNR cao, tạp âm phi bình ổn,
phương pháp truyền thống và phương pháp trong bài đều cho
kết quả tăng cường tiếng nói khá tốt. Trên giá trị SNR đầu ra,
phương pháp cải tiến trong bài cũng gần như phương pháp hiệu
ứng che thính giác truyền thống.
19
a) Hiệu ứng che thính giác truyền thống
b) Phương pháp trong bài
20
4.5
Bảng 4.1 Điểm MOS đánh giá ngữ âm sau tăng cường của tín
hiệu chứa tạp âm nhà hàng (SNR=0dB)
Thuật toán
tăng cường
ngữ âm
Đánh giá chủ quan
MOS
Trừ phổ cải
tiến
1.2
1.0
1.5
1.7
1.5
2.0
1.8
1.3
0.9
1.3
1.42
Trừ phổ đa
băng tần
2.0
2.8
2.3
2.5
2.6
3.0
2.5
2.1
2.7
2.5
2.50
Hiệu ứng
che thính
giác và trừ
phổ đa băng
3.0
2.8
3.2
3.1
3.3
3.4
3.2
3.2
3.5
3.3
3.20
Phương
pháp trong
bài
3.5
3.5
3.3
3.6
3.3
4.0
3.7
3.4
3.7
3.6
3.56
0
1
2
3
4
Điểm MOS
1.42
2.5
3.2
3.56
Phương pháp tăng cường tiếng nói
MOS
trừ phổ cải tiến trừ phổ đa băng
đặc điểm thính giác phương pháp của bài
p
21
Loại tạp
âm
Đầu vào
SNR(dB)
Phương
pháp
đánh giá
Trừ
phổ
cải
tiến
Trừ
phổ đa
băng
tần
Che
thính
giác
Phương
pháp
trong
bài
Tạp âm sân
bay
(airport)
0
SNR(dB)
3.4251
3.3916
4.5837
4.0927
Độ biến
dạng
4.3094
2.8489
0.7641
0.6797
Tạp âm
người nói
(babble)
0
SNR(dB)
2.8131
3.0864
3.6492
4.5806
Độ biến
dạng
3.0380
2.1216
0.7773
0.6583
Tạp âm
trong xe
(car)
0
SNR(dB)
4.0781
2.4060
3.8100
6.4577
Độ biến
dạng
3.2488
2.1007
0.8426
0.7376
Tạp âm
triển lãm
(exhibition)
0
SNR(dB)
2.9530
3.1760
4.2911
6.1121
Độ biến
dạng
3.0955
3.9939
0.7705
0.7131
Tạp âm nhà
hàng
(restaurant)
0
SNR(dB)
2.0849
1.7148
2.6129
3.5908
Độ biến
dạng
5.4265
4.7955
0.6554
0.7315
Tạp âm bến
xe
(station)
0
SNR(dB)
2.9724
3.3942
3.3695
3.0282
Độ biến
dạng
4.0027
4.5768
0.7012
0.6953
Tạp âm
đường phố
(street)
0
SNR(dB)
4.1124
3.7993
4.4413
5.8442
Độ biến
dạng
2.6795
2.6110
0.7750
0.7344
Tạp âm tàu
hỏa
(train)
0
SNR(dB)
4.4942
5.2655
4.5970
4.7840
Độ biến
dạng
4.2397
4.0451
0.6242
0.6077
22
K IV
Chương này giới thiệu một phương pháp tăng cường tiếng
nói mới trên cơ sở hiệu ứng che của thính giác kết hợp với dự
toán tạp âm bằng thuật toán IMCRA, đồng thời dưới sự trợ
giúp của phần mềm mô phỏng Matlab để tiến hành mô phỏng
kiểm nghiệm tính năng của phương pháp mới này. Cuối cùng
tiến hành toàn diện đánh giá chất lượng ngữ âm sau tăng cường
trên các phương diện hình dạng sóng, SNR, kiểm tra đánh giá
điểm MOS và đo lường độ biến dạng phổ, cả phương diện đánh
giá chủ quan và phương diện đánh giá khách quan. Kết quả
kiểm nghiệm chứng minh, phương pháp trong bài trong môi
trường SNR thấp, tạp âm phi bình ổn là một phương pháp có
hiệu quả trong tăng cường tiếng nói, nó không chỉ nâng cao
SNR tín hiệu đầu ra, mà còn giảm thấp độ biến dạng ngữ âm
trong miền thời gian.