Tải bản đầy đủ (.pptx) (33 trang)

nhận dạng tiếng nói rời rạc dùng mô hình markov ẩn và mạng nơ ron nhân tạo

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (557.8 KB, 33 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
--------------------*-------------------

BÁO CÁO
ĐỒ ÁN TỐT NGHIỆP

ĐỀ TÀI
NHẬN DẠNG TIẾNG NÓI RỜI RẠC DÙNG MÔ HÌNH MARKOV ẨN VÀ MẠNG NƠ-RON NHÂN TẠO


NỘI DUNG CHÍNH

1.
2.
3.
4.
5.
6.
7.
8.
9.

Đặt vấn đề
Mục tiêu của đồ án
Tổng quan về nhận dạng tiếng nói
Các phương pháp phân tích đặc trưng của tín hiệu tiếng nói
Mô hình Markov ẩn trong nhận dạng tiếng nói
Mạng nơ-ron nhân tạo
Thực hiện nhận dạng tiếng nói rời rạc dùng mô hình Markov ẩn
Giới thiệu công cụ Kaldi


Kết luận và định hướng phát triển trong tương lai

2


1. ĐẶT VẤN ĐỀ




Xu hướng tương tác giữa người và máy sử dụng ngôn ngữ tự nhiên ngày một phát triển
Nhu cầu về những thiết bị có thể nhận biết và hiểu được tiếng nói đã trở thành một ước muốn tột bậc của con người

3


2. MỤC TIÊU CỦA ĐỒ ÁN








Tìm hiểu tổng quan về nhận dạng tiếng nói
Tìm hiểu các phương pháp phân tích đặc trưng của tín hiệu tiếng nói
Tìm hiểu nhận dạng tiếng nói dùng mô hình Markov ẩn
Tìm hiểu nhận dạng tiếng nói dùng mạng nơ-ron nhân tạo
Thực hiện nhận dạng tiếng nói rời rạc dùng mô hình Markov ẩn

Tìm hiểu công cụ Kaldi để thực hiện nhận dạng tiếng nói.

4


3. TỔNG QUAN VỀ NHẬN DẠNG TiẾNG NÓI



Nhận dạng tiếng nói:

o
o

Là làm cho máy hiểu, nhận biết được ngữ nghĩa của lời nói.
Là quá trình biến đổi tín hiệu âm thanh thành một chuỗi các từ

5


3. TỔNG QUAN VỀ NHẬN DẠNG TiẾNG NÓI



Cấu trúc của một hệ thống nhận dạng tiếng nói:



Có 3 phương pháp:


o
o
o

Phương pháp âm học – ngữ âm
Phương pháp nhận dạng mẫu thống kê
Phương pháp sử dụng trí tuệ nhân tạo

6


4. Các phương pháp phân tích đặc trưng của tín hiệu tiếng nói
a)
)
)
)
)

Mô hình LPC
Cho ta một xấp xỉ khá tốt của phổ âm thanh
Chính xác về mặt toán học và đơn giản trong việc cài đặt
Hoạt động tốt trong các ứng dụng nhận dạng
Các bước cơ bản của quá trình:

7


4. Các phương pháp phân tích đặc trưng của tín hiệu tiếng nói
a)
)


Mô hình LPC

)

Phân khung tín hiệu:



Lấy cửa sổ tín hiệu

Hiệu chỉnh tín hiệu:

8


4. Các phương pháp phân tích đặc trưng của tín hiệu tiếng nói
a)
)

Mô hình LPC

)

Phân tích LPC

Phân tích tự tương quan:

Dùng thuật toán Levinson – Durbin


)

Phân tích Cepstral:

o

Thường chọn Q ≈ (3/2)p

Thuật toán Levinson – Durbin
9


4. Các phương pháp phân tích đặc trưng của tín hiệu tiếng nói
a)
)

Mô hình LPC

)

Tính đạo hàm của các hệ số Cepstral

)

Kết quả là vector đặc trưng 2Q thành phần

Tính toán các hệ số Cepstral có trọng số

10



4. Các phương pháp phân tích đặc trưng của tín hiệu tiếng nói
b)
)
)

Phương pháp MFCC
Dựa trên việc chuyển đổi dữ liệu âm thanh đầu vào về thang đo tần số mel
Quá trình trích rút đặc trưng:

11


4. Các phương pháp phân tích đặc trưng của tín hiệu tiếng nói
b)
)

Phương pháp MFCC:

)

Chuyển đổi tấn số mel, tạo các bộ lọc tam giác

Biến đổi Fourier nhanh:

12


4. Các phương pháp phân tích đặc trưng của tín hiệu tiếng nói
b)

)

Phương pháp MFCC:

)

Chuyển đổi DCT:

)

Kết quả thu được hệ số MFCC:

Tính năng lượng trên mỗi dải tần:

13


5. Mô hình markov ẩn trong nhận dạng tiếng nói
a)
)
)
)
)
)

Các thành phần của HMM

)

Ma trận xác suất quan sát:


)
)

Ma trận xác suất khởi tạo:

Tập các trạng thái:
Tập các quan sát:
Chuỗi các trạng thái có thể xảy ra:
Chuỗi các quan sát có thể quan sát được:
Ma trận chuyển đổi:

Một mô hình HMM được ký hiệu :

14


5. Mô hình markov ẩn trong nhận dạng tiếng nói
b)
)

Các vấn đề của HMM
Vấn đề 1:

o
o

Cho chuỗi quan sát

và mô hình


, tìm P(O|λ) ?

Thủ tục forward: với biến forward

15


5. Mô hình markov ẩn trong nhận dạng tiếng nói
b)
)

Các vấn đề của HMM
Vấn đề 1:

o

Thủ tục backward: biến backward

16


5. Mô hình markov ẩn trong nhận dạng tiếng nói
b)
)

Các vấn đề của HMM
Vấn đề 2:

o

o

Cho chuỗi quan sát

và mô hình

, chọn chuỗi

tối ưu theo nghĩa xác suất.

Thuật toán Viterbi: với

17


5. Mô hình markov ẩn trong nhận dạng tiếng nói
b)
)

Các vấn đề của HMM
Vấn đề 3: Xác định các tham số λ = (A, B, π) để P(O|λ) đạt cực đại?

18


6. Mạng nơ-ron nhân tạo


Mạng nơ-ron nhân tạo (Artificial neural network – ANN)


o
o


Được tạo nên bởi một số lượng các nơ-ron liên kết với nhau.
Mỗi nơ-ron:

o
o


Mô phỏng các hệ thống nơ-ron sinh học (trong bộ não con người)

Có một đặc tính vào/ra
Thực hiện một tính toán cục bộ
ANN có khả năng học, nhớ lại, khái quát hóa từ các dữ liệu học

19


6. Mạng nơ-ron nhân tạo


Cấu trúc và hoạt động của một nơ-ron

o

Các tín hiệu vào: xi

o


Các trọng số: wji

o

Độ lêch: cj

o

Đầu vào tổng thể
(net - input): aj

o

Hàm tác động: g(x)

o

Đầu ra của nơ-ron: hj



Hàm tác động:

o

Thường là hàm sigmoid:

20



6. Mạng nơ-ron nhân tạo


Kiến trúc của một ANN:

o
o
o
o
o
o

Số lượng các tín hiệu đầu vào và ra
Số lượng các tầng
Số lượng các nơ-ron trong mỗi tầng
Số lượng các trọng số đối với mỗi nơ-ron
Cách thức các nơ-ron liên kết với nhau
Những nơ-ron nhận tín hiệu điều chỉnh lỗi

21


6. Mạng nơ-ron nhân tạo



Hàm mục tiêu (hàm đánh giá lỗi):
Xét một ANN có n nơ-ron đầu ra:
Đối với một ví dụ học (x,d), giá trị lỗi học gây bởi vector trọng số w:


Lỗi học gây ra bởi vector trọng số w đối với toàn bộ tập học D:

22


6. Mạng nơ-ron nhân tạo




Mạng nơ-ron nhiều tầng và giải thuật lan truyền ngược:
Có thể biểu diễn một hàm phân tách phi tuyến phức tạp
Giải thuật học lan truyền ngược được sử dụng để học trong một mạng:

o
o



Cấu trúc mạng cố định
Hàm tác động phải có đạo hàm liên tục
Giải thuật lan truyền ngược áp dụng chiến lược gradient descent
Giải thuật học lan truyền ngược tìm kiếm một vector các trọng số giúp cực tiểu lỗi tổng thể của hệ thống đối với tập học.

23


6. Mạng nơ-ron nhân tạo



Mạng nơ-ron nhiều tầng và giải thuật lan truyền ngược:
Mạng nơ-ron gồm Q tầng, q= 1,2,…,Q
Netiq và Outiq là đầu vào tổng thể và giá trị đầu ra của nơ-ron i ở tầng q
Mạng có m tín hiệu đầu vào và n nơ-ron đầu ra
wijq là trọng số của liên kết từ nơ-ron j ở tầng (q-1) đến nơ-ron i ở tầng q



Bước 0 (khởi tạo)
Chọn ngưỡng lỗi Ethreshold , Gán E=0
Khởi tạo giá trị ban đầu của các trọng số với giá trị nhỏ ngẫu nhiên



Bước 1
Áp dụng vector đầu vào của ví dụ học k đối với tầng vào (q=1)
Outiq = Outi1 = xi(k) , ∀i



Bước 2: Lan truyền tiến các tín hiệu, giá trị đầu ra của mạng OutiQ

24


6. Mạng nơ-ron nhân tạo


Mạng nơ-ron nhiều tầng và giải thuật lan truyền ngược:




Bước 3: Tính toán lỗi đầu ra của mạng và tín hiệu lỗi δiQ của mỗi nơ-ron ở tầng ra:



Bước 4: Lan truyền ngược lỗi để cập nhật các trọng số và tính toán các tín hiệu lỗi δiq-1 cho các tầng phía trước:

25


×