Tải bản đầy đủ (.pdf) (35 trang)

tìm hiều lý thuyết nhận dạng tiếng nói và mô phỏng trên matlab

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.41 MB, 35 trang )

TRƯӠNG ĐҤI HӐC SƯ PHҤM KӺ THUҰT TP.HCM
KHOA ĐiӊN_ĐiӊN TӰ
BӜ MÔN ĐiӊN TӰ ViӈN THÔNG
BÁO CÁO ĐӖ ÁN 2
Đ͘ TÀI:
TÌM HIӆU LÝ THUYӂT NHҰN DҤNG TIӂNG NÓI TÌM HIӆU LÝ THUYӂT NHҰN DҤNG TIӂNG NÓI
VÀ MÔ PHӒNG TRÊN MATLABVÀ MÔ PHӒNG TRÊN MATLAB
GVHD : Ths. Lê Minh Thành
SVTH : NguyӉn Minh Phú 07117043
Lê Hùng Dũng 07117014
CHƯƠNG I: LÝ THUYӂT
PHҪN 1: TӘNG QUAN Vӄ NHҰN DҤNG TIӂNG NĨI
1. Vấn đề nhận dạng tiếng nói là một vấn đề
lớn, nhiều nghiên cứu đã thực hiện trong vài
thập niên gần đây.
2. Nhận dạng tiếng đã được nghiên cứu hơn 40
năm qua.
3. Những nỗ lực đầu tiên được thực hiện từ
những năm 1950.
4. Từ đó đến nay, cùng với sự phát triển của
máy tính, kó thuật nhận dạng tiếng nói đã có
những sự tiến bộ vượt bậc, được thực hiện
CHƯƠNG I: LÝ THUYӂT
PHҪN 2: PHÂN LOҤI
1. Theo cách thức người nói, nói chung chia làm hai
loại:
- Nhận dạng từ rời rạc
- Nhận dạng từ liên tục
2. Dựa trên bộ từ vựng:
- Hệ thống từ vựng nhỏ
- Hệ thống mà các từ được đọc rời rạc


- Hệ thống cháp nhận tiếng nói liên tục nhưng chỉ
liên quang đến phạm vi ứng dụng tương đối bӏ giới
hạn.
CHƯƠNG I: LÝ THUYӂT
PHҪN 2: PHÂN LOҤI
3. Dựa trên thông tin về các mẫu tiếng nói của
người sử dụng bao gồm:
- Hệ thống phụ thuộc người nói (speaker-dependent).
- Hệ thống độc lập người nói (speaker-dependent).
- Hệ thống thích ứng người nói.
CHƯƠNG I: LÝ THUYӂT
PHҪN 3: Hӊ THӔNG NHҰN DҤNG TIӂNG NĨI TӴ ĐӜNG
1. Rút trích đặc trưng tiếng nói:
- Biến đổi tín hiệu âm thanh thành chuỗi các vector
đặc trưng.
- Giải quyết vấn đề dò tìm điểm cuối (phân biệt
trong chuỗi âm thanh thu được đâu là tiếng nói đâu
là độ ồn nền) và lọc nhiễu.
2. Quá trình phân lớp và nhận dạng:
- Là quá trình nhận dạng dựa trên mô hình âm
thanh, từ điển phát âm và mô hình ngôn ngữ của
hệ thống.
- Mô hình ngôn ngữ ở đây thực chất chỉ biểu
CHƯƠNG I: LÝ THUYӂT
PHҪN 3: Hӊ THӔNG NHҰN DҤNG TIӂNG NĨI TӴ ĐӜNG
3. Giải mã:
- Quá trình này chỉ đơn giản là xuất ra chuỗi văn
bản nhận dạng được.
- Một quá trình phân tích chuỗi nhận được ứng với
tác vụ gì và thực hiện tác vụ đó.

CHƯƠNG I
PHҪN 4: LÝ THUYӂT NHҰN DҤNG TIӂNG NĨI
- Nhận dạng tiếng nói là kỹ thuật nhận ra các
thành phần lời nói của con người.
- Việc nghiên cứu nhận dạng tiếng nói đã được
bắt đầu từ cuối thập niên 40, trong đó sự phát
triển nhanh chóng của máy tính đã đóng góp một
phần rất quan trọng.
- Trong công nghiệp, khi tay và mắt của con người
đã được tận dụng một cách triệt để, thì việc điều
khiển bằng giọng nói có một lợi thế rất lớn.
CHƯƠNG II:XӰ LÝ SӔ TÍN HIӊU
PHҪN 1: LҨY MҮU TÍN HIӊU
- Hàm lấy mẫu là cầu nói giữa các hệ thống
rời rạc và các hệ thống liên tục. Nó còn được gọi
là hàm Dirac Delta.
- Đối với máy tính, lấy mẫu chỉ dơn giản là cứ
theo chu kỳ thời gian (đối với tín hiệu âm thanh và
các dạng tương tự), hay là chu kỳ không gian (đối với
tín hiệu là ảnh và các dạng tương tự) ta đo tín hiệu
một lần.
- Quá trình trên sẽ tạo ra một chuỗi các số biểu
CHƯƠNG II:XӰ LÝ SӔ TÍN HIӊU
PHҪN 2: BӜ LӐC TÍN HIӊU
Bộ lӑc có vai trò rất quan trọng trong xử lý tiếng nói,
chúng được dùng với 2 mục đích chính:
- Tách tín hiệu cần thiết.
- Khôi phục các tín hiệu bò biến dạng.
. Bộ lọc đáp ứng xung hưu hạn (Finite
Impulse Répóne ± FIR).

. Bộ lọc đáp ứng xung vô hạn (Ìninite
Impulse Respóne - IIR).
CHƯƠNG II:XӰ LÝ SӔ TÍN HIӊU
PHҪN 3: DỊ TÌM ĐIӆM CUӔI (END TO END)
Dò tìm điểm cuối là một xử lý cố gắng tìm ra chính
xác khi nào người ta bắt đầu và kết thúc nói.
Dò tìm điểm cuối được thực hiện qua ba bước, qua
mỗi bước xác đònh điểm cuối càng chính xác.
- Dò tìm thô.
- Dò tìm tinh.
- Kỹ thuật VUS(Voice, Unvoice and Silence).
CHƯƠNG III:TRÍCH ĐҺC TRƯNG
TIӂNG NĨI
Trong các lónh vực xử lý tiếng nói như nhận dạng,
tổng hợp, mã hóa đều cần phải phân tích tham số
tiếng nói.
Khái niệm cơ bản khi phân tích tiếng nói là phân tích
theo thời gian ngắn.
Hầu hết hoạt động của các hệ phân tích tiếng nói
đều dựa vào khái niệm thời gian biến thiên.
Thông thường người ta chia tiếng nói thành nhiều
đoạn có thời gian bằng nhau hay các frame, mỗi frame
có độ dài từ 10-30ms.
CHƯƠNG III:TRÍCH ĐҺC TRƯNG
TIӂNG NĨI
PHҪN 1: HÀM NĂNG LƯӦNG THӠI GIAN NGҲN
- Hàm năng lượng thời gian ngắn (Short Time Energy
Function) của tiếng nói được tính bằng cách chia tín
hiệu tiếng nói thành nhiều frame, mỗi frame dài N
mẫu, rồi lấy tổng bình phương của các mẫu trong

từng frame.
- Cửa sổ chữ nhật dài 10-30ms là phù hợp cho
mục đích này.
CHƯƠNG III:TRÍCH ĐҺC TRƯNG
TIӂNG NĨI
PHҪN 2: PHÁT HIӊN ĐIӆM ĐҪU, ĐIӆM CUӔI CӪA MӜT TӮ
- Một trong những vấn đề cơ bản của xử lý tiếng
nói là xác đònh điểm bắt đầu và kết thúc
của một từ.
- Chúng ta sử dụng thuật toán phát hiện điểm đầu
điểm cuối của một từ căn cứ vào hàm năng
lượng thời gian ngắn.
- Phương pháp này tuy đơn giản nhưng có nhược
điểm là không xác đònh được chính xác được mẫu
nào trong FRAME là mẫu thực sự bắt đầu cho tín
hiệu tiếng nói và tương tự cho điểm cuối.
- Phương pháp này không còn chính xác nêu môi
CHƯƠNG III:TRÍCH ĐҺC TRƯNG
TIӂNG NĨI
PHҪN 3: TIӄN NHҨN (PREEMPHASIS)
- Chúng ta biết rằng phổ tiếng nói hữu thanh có
khuynh hướng suy giảm toàn bộ -6dB/octave khi tần
số tăng lên.
- Do đó cần phải bù +6dB/octave trên toàn bộ
băng tần. Điều này được gọi là preemphasis tín hiệu.
- Trong xử lý tín hiệu số, chúng ta dùng bộ lọc
thông cao có tần số cắt 3dB ở tần số trong phạm vi
từ 100Hz đến 1kHz.
CHƯƠNG III:TRÍCH ĐҺC TRƯNG
TIӂNG NĨI

PHҪN 4: TRÍCH ĐҺC TRƯNG MFCC
- Quá trình nhận dạng mẫu (cả ở pha huấn luyện
hay pha nhận dạng) đều trải qua giai đoạn trích chọn
đặc trưng (feature extraction).
- Mặc dù không mang tính quyết đònh nhưng giai đoạn
trích chọn đặc trưng ảnh hưởng rất lớn đến hiệu
năng nhận dạng.
- Có nhiều phương pháp trích chọn đặc trưng đã và
đang được sử dụng (FBA, MFCC, LPC, PLP ).
CHƯƠNG III:TRÍCH ĐҺC TRƯNG
TIӂNG NĨI
PHҪN 4: TRÍCH ĐҺC TRƯNG MFCC
- Các hệ nhận dạng tiếng nói thường trích đặc
trưng từ tín hiệu bằng cách chia tín hiệu thành những
đoạn độ dài 5-15 ms, mỗi đoạn gọi là một khung
(frame).
- MFCC là phương pháp trích đặc trưng dựa trêøn đặc
điểm cảm thụ tần số âm của tai người.
CHƯƠNG III:TRÍCH ĐҺC TRƯNG
TIӂNG NĨI
PHҪN 5: WINDOWING (CӰA SӘ HĨA)
1. Windowing (cửa sổ hóa)
- Đầu tiên tín hiệu tiếng nói x(n) sẽ được chia thành
từng frame
- Công việc cửa sổ hoá này sẽ được thực hiện
bằng cách nhân tín hiệu tiếng nói với một
hàm cửa sổ.
2. Biến đổi Fourier rời rạc-DFT
- Tín hiệu (của một frame) sau khi nhân với hàm
cửa sổ, được chuyển sang miền tần số bằng

biến đổi rời rạc.
CHƯƠNG III:TRÍCH ĐҺC TRƯNG
TIӂNG NĨI
PHҪN 5: WINDOWING (CӰA SӘ HĨA)
3. Lọc qua bộ lọc Melscale:
- Tín hiệu (của một frame) sau khi nhân với hàm
cửa sổ, được chuyển sang miền tần số bằng biến
đổi rời rạc.
- Là số phức, tuy nhiên thành phần pha không quan
trọng nên ta chỉ quan tâm đến thành phần thực.
4. Tính log năng lượng phổ:
- Sau khi qua bộ lọc mel, phổ tín hiệu Yt(m) sẽ được
tính Log10
CHƯƠNG III:TRÍCH ĐҺC TRƯNG
TIӂNG NĨI
PHҪN 5: WINDOWING (CӰA SӘ HĨA)
5. Biến đổi Fourier ngược-IDFT
- Bước cuối cùng để thu được các hệ số MFCC là
lấy biến đổi Fourier ngược của kết qua.
- Thông thường số điểm rời rạc k của biến đổi
ngược này được chọn.
- Các hệ số MFCC này rất ổn đònh theo các
segment nên nếu được chọn làm đặc trưng để nhận
dạng thì sẽ cho kết quả tốt.
CHƯƠNG IV:LƯӦNG TӰ VECTOR
- Khi phân tích đặc trưng tiếng nói, chúng ta nhận được
các vector đặc trưng là đặc tính phổ biến thiên theo
thời gian của tín hiệu tiếng nói.
- Do mô hình HMM rời rạc được sử dụng để nhận dạng
nên các vector phổ này phải được ước lượng

vector(Vector Quantization-VQ) thành các chỉ số
codebook rời rạc(đánh nhãn cho vector phổ).
- VQ làphương pháp hiệu quả để biểu diễn thông tin
phổ.
CHƯƠNG IV:LƯӦNG TӰ VECTOR
- Các đặc tính của VQ:
. Giảm thiểu không gian lưu trữ của vector phổ.
. Giảm thời gian tính toán độ giống nhau giữa các
vector phổ.
. Biểu diễn rời rạc về mặt âm học của tiếng nói.
- Khuyết điểm của VQ:
. Việc lượng tử vector chắc chắn dẫn đến sai số
lượng tử hóa.
. Việc chọn kích thước codebook cho VQ không đơn
giản.
CHƯƠNG IV:LƯӦNG TӰ VECTOR
PHҪN 1: CÁC YӂU TӔ KHI TӘ CHӬC VQ
- Một tập lớn vector phổ v1,v2,v3,«,vL là tập huấn
luyện cho VQ.
- Độ đo d giữa các cặp phổ để phân nhóm vector
trong khâu huấn luyện, hay phân lớp vector trong khâu
đánh nhãn.
- Phương pháp xác đònh nhân để phân hoạch L vector
phổ thành M nhóm.
Phương pháp phân lớp các vector ngõ vào.
CHƯƠNG IV:LƯӦNG TӰ VECTOR
PHҪN 2: TҰP HUҨN LUYӊN VQ
- Trong đề tài này, tập huấn luyện cho VQ là tất cả
các vector phổ sau khi đã qua khâu trích đặc trưng
MFCC của tất cả các từ cần nhận dạng.

- Mỗi vector là phổ là 24 hệ số MFCC của 1 frame
tiếng nói.
- Các từ được ghi âm bởi 1 người nói trong điều kiện
phòng yên tónh.
CHƯƠNG IV:LƯӦNG TӰ VECTOR
PHҪN 3: ĐO ĐӜ MÉO
- Thành phần quan trọng nhất của các thuật toán đối
sánh mẫu là độ đo giữa 2 vector đặc tính.
- Trong nhận dạng tiếng nói, người ta thường sử dụng
độ đo Euclidean
- Độ đo này dùng trong khâu phân lớp, gắn nhãn
vector phổ.
CHƯƠNG IV:LƯӦNG TӰ VECTOR
PHҪN 4: PHÂN NHĨM CÁC VECTOR ĐO HUҨN LUYӊN
1. Giải thuật cụm thông tin (Cluster Algorithm):
- Khởi tạo
- Tìm lân cận gần nhất
- Cập nhật nhân
- Đệ qui
Điều bất lợi của thuật toán này là chúng ta phải
ước lượng thật tốt điểm khởi đầu của các vector
codeword. Đây là vấn đề khó khăn.

×