Tải bản đầy đủ (.pdf) (66 trang)

Thiết kế hệ thống chuyển đổi giọng nói sang ngôn ngữ cử chỉ ứng dụng cho người khiếm thính (Đề tài NCKH)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (11.14 MB, 66 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ĐIỂM

THIẾT KẾ HỆ THỐNG CHUYỂN ĐỔI GIỌNG NĨI
SANG NGƠN NGỮ CỬ CHỈ ỨNG DỤNG CHO
NGƯỜI KHIẾM THÍNH
Mã số: T2020-39TĐ

Chủ nhiệm đề tài: TS. Trương Ngọc Sơn

TP. HCM, 04/2021


TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
KHOA ĐIỆN – ĐIỆN TỬ

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ĐIỂM

THIẾT KẾ HỆ THỐNG CHUYỂN ĐỔI GIỌNG NĨI
SANG NGƠN NGỮ CỬ CHỈ ỨNG DỤNG CHO
NGƯỜI KHIẾM THÍNH
Mã số: T2020-39TĐ


Chủ nhiệm đề tài: TS. Trương Ngọc Sơn
Thành viên đề tài: ThS. Lê Minh Thành
ThS. Lê Minh

TP. HCM, 04/2021


DANH SÁCH THÀNH VIÊN THAM GIA ĐỀ TÀI
Số TT

Họ và Tên

Nhiệm vụ

1

Trương Ngọc Sơn

Chủ nhiệm

2

Lê Minh Thành

Thành viên

3

Lê Minh


Thành viên


MỤC LỤC
DANH MỤC BẢNG BIỂU ......................................................................................................... 4
DANH MỤC CÁC CHỮ VIẾT TẮT ......................................................................................... 5
MỞ ĐẦU ...................................................................................................................................... 1
1. Tổng quan ......................................................................................................................... 1
2. Tính cấp thiết của đề tài................................................................................................... 2
3. Mục tiêu đề tài .................................................................................................................. 3
4. Đối tượng, phạm vi nghiên cứu ....................................................................................... 3
5. Phương pháp nghiên cứu ................................................................................................. 3
6. Nội dung nghiên cứu ........................................................................................................ 3
Chương 1 ...................................................................................................................................... 4
NHẬN DẠNG GIỌNG NÓI ....................................................................................................... 4
1.1.

Giói thiệu ....................................................................................................................... 4

1.2.

Trích rút đặc trưng tín hiệu lời nói ............................................................................. 5

1.3.

Các mơ hình nhận dạng giọng nói ............................................................................... 7

1.4.

Mơ hình âm học (acoustic model) ................................................................................ 9


1.5.

Mơ hình ngơn ngữ (language model) ........................................................................ 12

1.6.

Các mơ hình nhận dạng giọng nói ............................................................................. 15

1.6.1.

SPHINX .................................................................................................................... 15

1.6.2.

POCKETSPHINX ................................................................................................... 17

1.6.3.

Mơ hình mạng nơ-ron học sâu - DeepSpeech ....................................................... 20

1.6.4.

Mạng nơ-ron học sâu - ConvNet ............................................................................ 22

1.6.5.

Dịch vụ nhận dạng giọng nói của Google (Google speech regnition) ................. 24

1.6.6.


Nhận xét ................................................................................................................... 24

1.7.

Giới thiệu về ngôn ngữ cử chỉ .................................................................................... 25

Chương 2 .................................................................................................................................... 28
THIẾT KẾ HỆ THỐNG CHUYỂN ĐỔI GIỌNG NĨI SANG NGƠN NGỮ CỬ CHỈ ...... 28
2.1.

Thiết kế phần cứng ..................................................................................................... 28

2.2.

Thiết kế phần mềm xử lý ............................................................................................ 30

Chương 3 .................................................................................................................................... 33
KẾT QUẢ NGHIÊN CỨU VÀ ỨNG DỤNG .......................................................................... 33
3.1.

Kết quả thực hiện mơ hình......................................................................................... 33

3.2.

Đánh giá tốc độ đáp ứng của hệ thống ...................................................................... 34

3.3.

Đánh giá độ chính xác của hệ thống.......................................................................... 35


Chương 5 .................................................................................................................................... 36
KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................................... 36


5.1.

Kết quả nghiên cứu ..................................................................................................... 36

5.2.

Kiến nghị và định hướng nghiên cứu ........................................................................ 36

TÀI LIỆU THAM KHẢO ........................................................................................................ 37
PHỤ LỤC ..................................................................................................................................... 1
Bài báo thuộc danh mục sản phẩm đề tài ............................................................................. 1


DANH MỤC BẢNG BIỂU
Bảng 1.1. Tập dữ liệu huấn luyện................................................................................................ 17
Bảng 1.2. Mơ hình âm học cho hệ thống nhận dạng tiếng nói Pocketsphinx ............................. 18
Bảng 1.3. Mơ hình ngơn ngữ ....................................................................................................... 19


DANH MỤC CÁC CHỮ VIẾT TẮT
CNN

Convolutional Neural Network

HMM


Hidden Markov Model

EM

Expectation Maximization

GMM

Gaussian Mixture Mode

MFCC

Mel Frequency Cepstral Coefficents

LPC

Linear Prediction Cepstral

API

Application Programming Interface

RNN

Recurrent Neural Network


TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT


CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM

THÀNH PHỐ HỒ CHÍ MINH

Độc lập - Tự do - Hạnh phúc

KHOA ĐIỆN – ĐIỆN TỬ
Tp. HCM, ngày 10 tháng 04

năm 2021

THÔNG TIN KẾT QUẢ NGHIÊN CỨU

1. Thông tin chung:
- Tên đề tài: Thiết kế hệ thống chuyển đổi giọng nói sang ngơn ngữ cử chỉ ứng dụng cho
người khiếm thính
- Mã số: T2020-39TĐ
- Chủ nhiệm: TS. Trương Ngọc Sơn
- Cơ quan chủ trì: Trường Đại học Sư phạm Kỹ thuật TP.HCM
- Thời gian thực hiện: 12 tháng
2. Mục tiêu:
Thiết kế hệ thống nhận dạng giọng nói (tiếng Việt) và chuyển sang ngôn ngữ cử chỉ dưới
dạng ảnh.
1. Tính mới và sáng tạo:
Thiết kế hệ thống chuyển đổi giọng nói sang ngơn ngữ có khả năng thực thi trên các phần
cứng có cấu hình thấp
Kết quả nghiên cứu:
Thiết kế được hệ thống chuyển đổi giọng nói sang ngơn ngữ. Hệ thống có tính linh hoạt, nhỏ
gọn, tiêu thụ công suất thấp, hoạt động liên tục trong 4 giờ
2. Thông tin chi tiết sản phẩm:

a. Sản phẩm khoa học:
+ Báo cáo khoa học (ghi rõ số lượng, giá trị khoa học): 01 báo cáo khoa học
+ Bài báo khoa học (ghi rõ đầy đủ tên tác giả, tên bài báo, tên tạp chí, số xuất bản,
năm xuất bản): 01 bài báo được chấp nhận đăng trên Tạp chí International Journal of
Computer Science and Network Security, vol. 21 no.3, March 2021 (ESCI)


b. Sản phẩm ứng dụng (bao gồm bản vẽ, mô hình, thiết bị máy móc, phần mềm…, ghi
rõ số lượng, quy cách, công suất….):
3. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng:

Trưởng Đơn vị

Chủ nhiệm đề tài

(ký, họ và tên)

(ký, họ và tên)


INFORMATION ON RESEARCH RESULTS

1. General information:
Project title: A design of speech to sign language converter
Code number: T2020-39TĐ
Coordinator: Truong Ngoc Son, Ph.D
Implementing institution: HCMC University of Technology and Education
Duration: from

01/2020


to 12/2020

2. Objective(s):
- Design of low-cost speech to sign language converter
3. Creativeness and innovativeness:
Propose a context-oriented language model to improve the accuracy
4. Research results:
- Scientific output: 01 Scientific report, 01 paper accepted in the International Journal of
Computer Science and Network Security.
- Applied output:
5. Products:

6. Effects, transfer alternatives of research results and applicability:


MỞ ĐẦU
1. Tổng quan
Chuyển đổi từ giọng nói sang ngơn ngữ cử chỉ hoặc ngược lại được nghiên cứu và
công bố nhiều trên thế giới. Dựa vào các thống kê của tổ chức sức khoẻ thế giới, năm
2015 có khoảng 5% dân số khơng có khả năng nghe [1]. Một trong những trở ngại lớn
của họ là sự hạn chế về khả năng giao tiếp. Một số nghiên cứu nhằm cải thiện giao tiếp
cho người khiếm thính thơng qua việc nhận dạng ngôn ngữ cử chỉ đã được công bố [1],
[2], [3]. Trong nghiên cứu này, tác giả đã đề xuất một phương pháp chuyển đổi từ ngôn
ngữ cử chỉ sang giọng nói dựa vào ứng dụng thị giác máy tính [1], [3]. Một camera được
dùng để ghi lại chuyển động tay sau đó phân tích và chuyển sang giọng nói tương ứng
[1]. Kết quả thực nghiệm của hệ thống đạt trên 95% độ chính xác [1]. Để nâng độ chính
xác của việc nhận dạng các ngơn ngữ cử chỉ, M. K. Viblis và K. J. Kyriakopoulos đã đề
xuất các phương pháp phân đoạn ảnh, sau đó sử dụng mạng nơ ron nhân tạo để nhận dạng
ngôn ngữ cử chỉ [4]. Hệ thống chuyển đổi từ giọng nói sang ngơn ngữ cử chỉ hỗ trợ cho

người khiếm thính được thiết kế bao gồm một hệ thống nhận dạng tiếng nói tự động, một
mơ-đun dịch từ tiếng nói sang ngơn ngữ cử chỉ và một mơ-đun tạo ra hoạt hình để diễn
đạt ngôn ngữ cử chỉ được giới thiệu bởi B. Gallo và nhóm nghiên cứu [5]. Hệ thống được
thử nghiệm và cho kết quả với sai số 28.21%. Nhằm hỗ trợ linh hoạt hơn cho người khiếm
thính, một ứng dụng di động có chức năng chuyển từ giọng nói sang ngôn ngữ cử chỉ cũng
được nghiên cứu và công bố [6]. Trong đó tác giả sử dụng mơ-đun nhận dạng giọng nói
và chuyển thành văn bản, một mơ-đun khác lại chuyển văn bản này thành ngôn ngữ cử
chỉ hiển trị trên màn hình của thiết bị di động để người khiếm thính có thể hiểu được.
Các ứng dụng trí tuệ nhân tao trong việc nhận dạng và chuyển đổi ngôn ngữ cũng
được nghiên cứu trong thời gian gần đây. Cụ thể như ứng dụng ELSA có chức năng nhận
dạng ngơn ngữ, hỗ trợ cho việc dạy phát âm tiếng Anh. ELSA được xem là một phần mềm
ứng dụng trí tuệ nhân tạo trong việc nhận dạng việc phát âm tiếng Anh. Những ứng dụng
trí tuệ nhân tạo trong nước được công bố nhằm vào phục vụ một số nhu cầu phát triển xã
hội như học tiếng anh, quản lý đô thị thông minh, xe tự hành [7]- [8]. Tuy nhiên, cho đến
hiện tại vẫn chưa tìm thấy nghiên cứu, cũng như công bố nào về các thiết bị, giải pháp
ứng dựng trí tuệ nhân tạo trong hỗ trợ giao tiếp cho người khiếm thính

1


2. Tính cấp thiết của đề tài
Cuộc cách mạng cơng nghiệp 4.0 cũng vừa được khởi xướng không lâu và đang
được kỳ vọng sẽ mang lại nhiều thay đổi cho nhân loại. Nổi bật của nền tảng 4.0 là vạn
vật kết nối-IoT (Internet of Things) và trí tuệ nhân tạo-AI (artificial intelligence). Trong
đó các cơng nghệ IoT đã phát triển và hầu như đã khẳng định được vị trí của mình. Cụ thể
các hệ thống ứng dụng IoT ngày càng được ứng dụng vào thực tế, ví dụ như các hệ thống
cảm biến, các hệ thống điều khiển thiết bị, giám sát từ xa, các hệ thống định vị. Theo sau
các công nghệ IoT là các hệ thống ứng dụng thông minh nhân tạo cũng được đầu tư và
định hướng phát triển. Điểm qua một số ứng dụng của AI trong các hệ thống hiện nay có
thể thấy nó đang dần được áp dụng rộng rãi. Các ứng dụng cơ bản và đơn giản của AI là

các tính năng nhận dạng ảnh được sử dụng trong các mạng xã hội. Các ứng dụng trong y
học như các hệ thống chuẩn đốn hình ảnh, được sử dụng để phát hiện, chuẩn đoán một
số bất thường dựa vào dữ liệu ảnh X-RAY hoặc tín hiệu điện tim. Các ứng dụng AI trong
y học đặc biệt được chú trọng và kỳ vọng bởi lẽ nó có thể mang lại nhiều lợi ích hơn cho
cộng đồng. Cho đến hiện nay, một số ứng dụng đã được được áp dụng như hệ thống chuẩn
đoán bệnh dựa vào ảnh chụp X-RAY, hoặc hệ thống phát hiện bất thường dựa vào tín hiệu
điện tim bởi các hệ thống này cho độ chính xác cao nhờ tập đầu vào huấn luyện phong
phú. Tuy nhiên, với mong muốn tạo ra các thiết bị phục vụ trong y học tốt hơn, nhiều
hướng nghiên cứu cũng được vạch ra như điều khiển thiết bị bằng suy nghĩ, áp dụng cho
người khuyết tật, hay các thiết bị hỗ trợ cho người khuyết tật, từ đơn giản đến phức tạp.
Thiết kế một thiết bị hỗ trợ cho người khiếm khuyết cũng là một đề tài luôn được quan
tâm hiện nay, khi mà công nghệ đã và đang phục vụ hiệu quả cho những người bình
thường. Trong nghiên cứu này, tác giả tập trung vào việc hỗ trợ cho người khiếm thính,
tức là những người khơng có khả năng nghe. Sự hạn chế lớn nhất của người khiếm thính
là khó khăn trong việc giao tiếp, hoặc tiếp nhận thông tin từ thế giới xung quanh. Đa phần
những người khiếm thính sử dụng ngơn ngữ cử chỉ (sign language), hoặc còn gọi là thủ
ngữ để giao tiếp. Ngôn ngữ cử chỉ, không chỉ đơn giản là những ngơn ngữ hình thể (body
language) nhằm hỗ trợ trong q trình giao tiếp, mà nó là một tập các ký hiệu được tạo ra
bằng việc chuyển động, thay đổi của bàn tay và các ngón tay theo một quy ước nhất định.
Ngôn ngữ cử chỉ được quan tâm khơng chỉ là một cơng cụ giao tiếp, mà nó cịn là một
cơng cụ truyền thơng giúp người khiếm thính có thể tiếp cận được thế giới bên ngồi.
Trong nghiên cứu này, tác giả xây dựng một hệ thống chuyển đổi từ giọng nói sang ngơn
2


ngữ cử chỉ. Bước đầu, hệ thống sẽ thực hiện nhận dạng giọng nói, và tự động chuyển sang
ngơn ngữ cử chỉ và hiển thị ra màn hình. Nghiên cứu chỉ tiến hành nhận dạng, chuyển đổi
một số từ, câu đơn giản với hy vọng đây là tiền đề cho việc phát triển các thiết bị hỗ trợ
cho người khiếm thính. Thiết bị được phát triển hướng đến có thể được sử dụng trong 2
trường hợp cụ thể: hỗ trợ việc giao tiếp giữa người bình thường và người khiếm thính, tự

động chuyển đổi sang ngơn ngữ cử chỉ cho người khiếm thính trong các kênh truyền hình.
3. Mục tiêu đề tài
Thiết kế hệ thống nhận dạng giọng nói và chuyển sang ngôn ngữ cử chỉ dưới dạng
video.
4. Đối tượng, phạm vi nghiên cứu
Đối tượng nghiên cứu:
- Nhận dạng giọng nói và chuyển giọng nói sang văn bản
- Ngơn ngữ cử chỉ.
Phạm vi nghiên cứu:
Kỹ thuật nhận dạng giọng nói, nguyên lý của tập ngôn ngữ cử chỉ
5. Phương pháp nghiên cứu
Phân tích đánh giá các hệ thống nhận dạng giọng nói để lựa chọn hệ thống chuyển đổi
từ giọng nói sang văn bản phù hợp. Nguyên cứu nguyên lý của tập ngôn ngữ cử chỉ để
tạo ra các ngôn ngữ cử chỉ từ tập ảnh tĩnh.
6. Nội dung nghiên cứu
 Kỹ thuật nhân dạng giọng nói
 Ngơn ngữ cử chỉ.
 Các phương pháp so sánh, tìm kiếm chuỗi.
 Thiết kế hệ thơng nhận dạng giọng nói và chuyển sang ngôn ngữ cử chỉ.

3


Chương 1
NHẬN DẠNG GIỌNG NĨI
1.1. Giói thiệu
Nhận dạng giọng nói (speech recogntion) là một tác vụ khá quan trọng trong việc
phát triển các cơng nghệ liên quan đến trí tuệ nhân tạo. Các hệ thống robot, các hệ thống
ứng dụng trí tuệ nhân tạo ln cố gắng thực hiện các tác vụ của bộ não sinh học. Ví dụ
các mơ hình thị giác máy tính (computer vision) và học sâu (deep learning) cho phép thực

hiện các tác vụ như nhận dạng hình ảnh và suy luận. Các tác vụ nhận dạng tiếng nói và
chuyển tiếng nói sang văn bản cho phép bắt chước khả năng nghe và phân tích của bộ não
sinh học. So với các lĩnh vực khác như thị giác máy tính, nhận dạng phân loại hình ảnh,
xử lý ngơn ngữ tự nhiên thì nhận dạng tiếng nói có độ phức tạp cao hơn do đặc tính của
tiếng nói phụ thuộc vào các yêu tố như tuổi tác, giới tính, sức khỏe, và cảm tâm trạng
người nói. Hơn nữa tiếng nói ln bị ảnh hưởng nhiều bởi nhiễu và tạp âm của mơi trường
xung quanh. Do đó, để các mơ hình nhận dạng giọng nói có độ chính xác cao, các mơ
hình này cần được huấn luyện với tập dữ liệu khá đầy đủ và thời gian huấn luyện khá dài.
Mơ hình nhận dạng giọng nói hay chuyển đổi gọng nói sang văn bản được mơ tả như hình
1.1
Mơ hình âm học
Acoustic models

Trích đặc trưng
Feature extraction

Giải mã
Decoder

Văn bản

Mơ hình ngơn ngữ
Language models

Hình 1.1: Mơ hình một hệ thống chuyển đổi lời nói sang văn bản
Một hệ thống chuyển đổi lời nói sang văn bản bao gồm trích rút đặc trưng của tín
hiệu lời nói và bộ giải mã. Tín hiệu âm thanh trong miền thời gian được biểu diễn bởi
mức âm lượng hay năng lượng theo thời gian được xử lý để trích ra các đặc trưng của lời
nói. Thơng thường, các tín hiệu sẽ được chuyển đổi qua miền tần số để phục vụ cho quá
4



trình xử lý và trích rút đặc trưng. Một trong những phương pháp trích đặc trưng của lời
nói được sử dụng phổ biến là sử dụng các hệ số phổ tần số của ngôn ngữ, Mel-Frequence
Cepstral Coefficient (sau đây gọi tắt là MFCC). Bộ giải mã sử dụng mơ hình âm học và
mơ hình ngơn ngữ để tạo ra ngõ ra văn bản tương ứng từ các đặc trưng của tín hiệu lời
nói. Mơ hình âm học thể hiện mối quan hệ giữa các tín hiệu lời nói và các âm vị. Mơ hình
âm học giúp cho bộ giải mã xác định các âm vị trong tín hiệu lời nói. Các âm vị được
ghép lại với nhau nhờ các mô hình ngơn ngữ. Một số mơ hình truyền thống được sử dụng
cho bộ giải mã như mơ hình Gaussian (Gaussian Model), mơ hình Markov ẩn (Hidden
Markov Model). Hiện nay các mạng học sâu có thể được sử dụng hiệu quả cho các bộ giải
mã trong mơ hình chuyển đổi lời nói sang văn bản. Các mạng học sâu được thiết kế để
thực hiện một phần hoặc cả mơ hình ngơn ngữ và mơ hình ngữ âm trong bộ giải mã của
hệ thống chuyển đổi lời nói sang văn bản
1.2. Trích rút đặc trưng tín hiệu lời nói
MFCC (Mel- Frequency Cepstral Coefficient) là kỹ thuật được sử dụng phổ biến để
trích rút đặc trưng của các tín hiệu lời nói trong các hệ thống nhận dạng giọng nói hoặc
chuyển giọng nói thành văn bản. MFCC là một quá trình xử lý và chuyển đổi tín hiệu lời
nói từ miền thời gian sang miền tần số để thu được các giá trị đặc trưng của lời nói. Mục
đích của MFCC là rút trích được các thơng số tốt nhất diễn tả cho các tín hiệu âm vị.
MFCC được thực hiện q trình rút trích đặc trưng thơng qua một số bước xử lý
được mơ tả trong hình 1.2
PreEmphasis

Framming

Windowing

DFT


Mel Spectrum

Output

Delta Energy and
Spectrum

Mel Spectrum

Discrete Cosine
Transform

Mel filter
Bank

Hình 1.2: Sơ đồi khối của q trình tính MFCC của lời nói
Bước đầu tiên là đưa các tín hiệu qua các bộ lọc để khuếch đại các tín hiệu có tần số
cao (Pre-emphasis). Các bộ lọc có tác dụng cân bằng phổ của tín hiệu bởi vì tần số cao
5


thường có mức năng lượng thấp hơn so với các tần số khác trong phổ của tín hiệu lời nói.
Mặt khác, các bộ lọc cịn có tác dụng cải thiện các hệ số của tín hiệu trên nhiễu (Signalto-Noise Ratio). Các tín hiệu được đưa qua bộ lọc với phương trình sau:
𝑌[𝑛] = 𝑥 [𝑛] − 𝛼𝑋[𝑛 − 1]

(1.1)

Trong đó x[n], y[n] là các tín hiệu rời rạc của tín hiệu lời nói. α là hệ số tiền khuếch
đại.
Tiếp theo các tín hiệu được phân thành các đoạn nhỏ với thời gian cho mỗi đoạn từ

20 đến 40 ms. Áp dụng cửa sổ hóa các đoạn nhỏ sử dụng cửa sổ Hamming để làm giảm
sự khơng liên tục của tín hiệu ở điểm bắt đầu và kết thúc của các đoạn. Q trình cửa sổ
hóa sử dụng cửa sổ Hamming được minh họa trong phương trình 6.2:

𝑌(𝑛) = 𝑋(𝑛) × 𝑊(𝑛)
𝑊 (𝑛) = 0.54 − 0.46𝑐𝑜𝑠 (

2𝜋𝑛
) ;0 < 𝑛 ≤ 𝑁 − 1
𝑁−1

(1.2)

Trong đó N là số mẫu trong mỗi đoạn.
Các tín hiệu trong miền thời gian được chuyển sang miền tần số sử dụng phép biến
đổi Fourier. Kết quả của phép biến đổi ta thu được phổ năng lượng của tín hiệu. Các tần
số trong phổ năng lượng của quá trình chuyển đổi Fourier rất rộng, trong khi đó đặc điểm
tần số của lời nói là tập trung ở dãy tần số thấp (dưới 1Khz và không tuyến tính). Một
trong những giải pháp chia năng lượng trong phổ năng lượng của tín hiệu lời nói là sử
dụng bộ lọc Mel.
p( X |  )  max p( X , s |  ).
s

Hình 1.3: Các bộ lọc trong thang Mel
Tín hiệu được đưa qua các bộ lọc với dãy tần khác nhau. Tại vị trí tần số thấp, chúng
ta dùng các bộ lọc với dải tần số hẹp hơn vì tín hiệu lời nói tập trung nhiều ở tần số thấp.
Ngược lại ở dải tần số cao, tín hiệu lời nói tập trung ít nên chúng ta có thể sử dụng các bộ
lọc với dãy tần rộng hơn. Các bộ lọc với các dải tần khơng tuyến tính và trùng lặp nhau
6



như trong hình 6.16 được gọi là các bộ lọc trong thang Mel. Việc chuyển các tần số sang
thang tần số Mel được thực hiện bởi công thức sau:
𝐹 (𝑀𝑒𝑙) = [2595 ∗ 𝑙𝑜𝑔10[1 + 𝑓]700

(1.3)

Bước cuối cùng là đi tính mức năng lượng trong dải tần số mới, sử dụng phép biến
đổi Cosin và tính năng lượng để thu được các hệ số MFCC
1.3. Các mơ hình nhận dạng giọng nói
Các hệ thống nhận dạng gióng nói thường được thiết kế với 2 khối cơ bản bao gồm
khối tách đặc trưng (feature extraction) và khối giải mã (decoder). Mặc dù một số hệ thống
nhận dạng tiếng nói hiện đại có khả năng nhận dạng giọng nói thơ mà khơng dựa trên các
đặc trưng tách ra, tuy nhiên, sử dụng các đặc trưng thay cho việc sử dụng dữ liệu thơ cho
đến thời điểm hiện nay vẫn có nhiều ưu điểm. Bộ giải mã sử dụng 2 mơ hình cơ bản là
mơ hình âm học (acoustic model) và mơ hình ngôn ngữ (language model) . Một hệ thống
nhận dạng giọng nói có các thành phần được mơ tả trong hình 1.4
Speech

Feature
extraction

Recognized
words

Decoder

Acoustic
model


Language
model

Adaptation

Hình 1.4. Sơ đồi khối hệ thống nhận dạng giọng nói [9]
Tín hiệu âm thanh nhận được từ thiết bị đầu vào như microphone được đưa qua
các khối xử lý tín hiệu và trích rút đặc trưng. Q trình xử lý tín hiệu được trình bày ở
phần trước. Q trình xử lý tín hiệu được thực hiện đơn giản hay phức tạp tuỳ thuộc vào
mỗi hệ thống. Các đặc trưng được trích rút và đưa đến khối giải mã để thu được các chuỗi
ký tự hoặc các chuỗi từ tương ứng với tín hiệu âm thanh nhận được. 2 mơ hình quan trọng
trong bộ giải mã là mơ hình âm học (acoustic model) và mơ hình ngơn ngữ (language).
Một mơ hình kênh – nguồn cho hệ thống nhận dạng tiếng nói được minh hoạ trong
hình 1.5.

7


Hình 1.5. Mơ hình kên truyền thơng bằng giọng nói [10]
Để mơ hình tốn cho hệ thống nhận dạng tiếng nói, chúng ta giả định hệ thống
truyền nhận tiếng nói được minh hoạ bằng sơ đồ khối trong hình 1.5. Trong hình 1.5,
người nói đưa ra quyết định chuỗi từ nối tiếp cho câu nói, W và chuỗi từ này được chuyển
sang dạng âm thanh thông qua hệ thống tạo âm (speech generator). Tín hiệu âm hay dạng
sóng âm được tiếp nhận ở đầu thu của thiết bị nhận, tại đây tín hiệu được xử lý và trích
rút các đặc trưng biểu diễn cho tín hiệu âm thanh nhận được. Các đặc trưng của tín hiệu
âm thanh, X, được đưa đến bộ giải mã âm tiếng nói (speech decoder) để tạo ra các chuỗi
̂ . Trường hợp lý tưởng hệ thống nhận dạng
ký tự hoặc từ tương ứng, được ký hiệu là 𝑊
khơi phục tín hiệu âm thành chuỗi ký tự hoặc từ trùng vơi chuỗi ký tự hoặc từ của nguồn
̂ = 𝑊.

phát, 𝑊
Mộ hệ thống nhận dạng tiếng nói thực tế thường bao gồm các thành phần chính
như khối xử lý tín hiêu và trích rút đặc trưng, mơ hình âm học và mơ hình ngơn ngữ như
được giơi thiệu ở hình số 1. Mơ hình âm học bao gồm biểu diễn của âm học, ngữ âm, sự
biến đổi của âm do mơi trường, và có thể tồn tại sự khác biệt của giới tính và ngữ điệu
của những người nói. Mơ hình ngơn ngữ biểu diễn mối liên hệ giữa các từ nối tiếp để tạo
ra ngữ nghĩa của câu hoặc cụm từ. Ngữ nghĩa và chức năng liên quan mà người nói mong
muốn cũng có thể được thể hiện trong mơ hình ngơn ngữ. Như vậy có thể hiểu đơn giản
là mơ hình âm học cho phép nhận dạng các âm riêng lẽ thông qua việc giải mã các âm
thành các ký tự hoặc các từ. Mơ hình ngơn ngữ cho phép chuyển các từ hoặc các ký tự
nhận dạng được thành các cụm từ hoặc các câu có nghĩa. Trong lĩnh vực nhận dạng tiếng
nói tồn tại rất nhiều rũi ro làm cho quá trình nhận dạng khơng chính xác. Đó là các yếu tố
liên quan đến đặc tính của người nói, phong cách nói và tốc độ nói, các từ khơng rõ nghĩa,
tên riêng, nhiễu môi trường, các thay đổi về giọng điệu. Một hệ thống nhận dạng tiếng nói
tốt phải đảm bảo hạn chế ảnh hưởng của các yếu tố trên. Các yếu tố của giọng nói phải
được xử lý trong mơ hình âm học và mơ hình ngơn ngữ.
8


Trong hình 1.5, tín hiệu giọng nói được xử lý trong khối xử lý tín hiệu và trích rút
ra các vector đặc trưng cho quá trình giải mã. Bộ giải mã sử dụng cả mơ hình âm học và
mơ hình ngơn ngữ để tạo ra các chuỗi từ có xác suất lơn nhất cho các vector đặc trưng của
tín hiệu vào. Hơn nữa kết quả q trình giải mã cịn có thể được sử dụng để cung cấp các
thơng tin cần thiết cho các khối thích nghi để điều chỉnh mơ hình âm học hoặc mơ hình
ngữ âm nhằm cải thiện độ chính xác của hệ thống.
Sự phân chia thành mơ hình âm học và mơ hình ngơn ngữ được thảo luận ở trên có
thể được mơ tả ngắn gọn bởi mơ hình tốn cơ bản của q trình nhận dạng giọng nói dựa
trên thống kê.
Ŵ=


arg max 𝑃(𝐖|𝐗) arg max 𝑃(𝐖)𝑃(𝐗|𝐖)
=
w
w
𝑃(𝐗)

(1.4)

Trong đó X là vector các đặc trưng của tín hiệu âm thanh, 𝑋 = 𝑋1 𝑋2 … 𝑋𝑛 . Mục đích
của nhận dạng giọng nói là tìm ra chuỗi các từ tương ứng Ŵ = 𝑤1 𝑤2 … 𝑤𝑚 có xác suất
hậu nhiệm (posterior probability) P(W|X) lớn nhất như mơ tả trong phương trình (1.4).
Bởi vì giá trị lớn nhất của (1.4) được thực hiện với X cố định, giá trị lớn nhất trong biểu
thức (1.4) bằng với giá trị lớn nhất của tử số.
Ŵ=

arg max 𝑃(𝐖)𝑃(𝐗|𝐖)
w

(1.5)

Trong đó P(W) và P(X|W) hình thành các đại lượng xác suất được tính bởi mơ hình
ngơn ngữ và mơ hình âm học của hệ thống nhận dạng tiếng nói.
Các thách thức thực tế là làm sao xây dựng các mơ hình âm học, P(X|W), và mơ
hình ngơn ngữ, P(W), chính xác. Đối với các hệ thống nhận dạng tiếng nói với số lượng
từ vựng lớn, chúng ta cần phân nhỏ các từ vào các chuỗi phụ (thường được gọi là mơ hình
phát âm), bởi vì số lượng từ q lớn. Do đó P(X|W) gần như là mơ hình ngữ âm (phonetic
model). P(X|W) phải thể hiện được cả sự biến đổi của người nói, biến đổi của phát âm,
biến đổi của mơi trường, và các biến đổi phụ thuộc vào ngữ cảnh. Các mơ hình âm học
hay mơ hình ngơn ngữ sẽ khơng đáp ứng được các ứng dụng thực tế. Do đó các hệ thống
nhận dạng giọng nói phải được thiết kế sao cho chúng có khả năng thích nghi với P(W)

và P(X|W) để cực đại hóa P(W|X) trong q trình hoạt động. Quá trình giải mã là đi tìm
chuỗi từ khớp nhất, W, với tín hiệu âm ngõ vào, X.
1.4. Mơ hình âm học (acoustic model)

9


Độ chính xác của một hệ thống nhận dạng giọng nói tự động vẫn cịn là một thách
thức nghiên cứu quan trọng sau nhiều năm nghiên cứu và phát triển. Có rất nhiều thơng
số phổ biến quyết định độ chính xác của hệ thống nhận dạng tiếng nói. Trong đó các thông
số đáng chú ý nhất là sự thay đổi về ngữ cảnh, sự thay đổi về người nói, sự thay đổi về
mơi trường. Mơ hình âm học đóng vai trị chủ chốt trong việc cải thiện độ chính xác. Có
thể nói mơ hình âm học là thành phần trọng tâm của bất kỳ hệ thống nhận dạng tiếng nói
nào.
Mơ hình âm học của tiếng nói là q trình thiết lập các biểu diễn thống kê cho các
chuỗi vector đặc trưng được tính từ tín hiệu sóng âm. Mơ hình Markov ẩn (Hidden Markov
Model-HMM) là một trong những mơ hình phổ biến của mơ hình âm học [11]-[13]. Một
số mơ hình âm học khác như mơ hình phân đọan (segmental model) [14], [15], mơ hình
siêu phân đoạn (supersegmental models) [16], mơ hình mạng nơ-ron [17] , mơ hình
entropy cực đại (maximum entropy models) [18] và mơ hình trường ngẫu nhiên có điều
kiện (conditional random fields) [19]
Trong hệ thống nhận dạng tiếng nói, đặc tính thống kê của âm thanh được mơ tả bởi
mơ hình âm học. Tương tự, xác suất P(X|W) trong phương trình 1.4 được tính dựa trên
mơ hình âm học. Trong các hệ thống nhận dạng các từ riêng biệt với N từ vựng, giả định
rằng phần tử trong mơ hình âm học tương ứng với từ thứ i, Wi, là λi, ta có p(X|Wi) =
p(X|λi). Trong hệ thống nhận dạng giọng nói dựa trên mơ hình Markov ẩn (HMM) được
giả định rằng chuỗi của các vector thu được tương ứng với mỗi từ được tạo ra bởi chuỗi
Markov (Markov chain).
Mơ hình Markov ẩn là một máy trạng thái hữu hạn, trong đó các trạng thái thay
đổi tại mỗi đơn vị thời gian như được mô tả trong hình 1.6. Tại thời điểm t, khi mơ hình

ở trạng thái j, vector xt được tạo ra từ phân bố xác suất phát ra, bj(xt). Thuộc tính chuyển
đổi từ trạng thái i sang trạng thái j được xác định bởi xác suất aij. Hơn nữa 2 trạng thái
không phát ra đặc biệt thưởng được sử dụng trong mơ hình HMM bao gồm trang thái đầu
vào (entry state) và trạng thái kết thúc (exit state). Trạng thái đầu vào được tính trước khi
q trình tạo vector giọng nói được bắt đầu và trạng thái kết thúc được tính khi q trình
tạo kết thúc. Cả 2 trạng thái chỉ xẩy ra 1 lần. Bởi vì chúng khơng tạo ra bất kỳ vector nào,
cả 2 khơng có mật độ phân bố xác suất.

10


a23

a12
1

a44

a33

a22

2

a34
3

a45
4


5

Hình 1.6 Mơ hình Markov ẩn (Hidden Markov Mode) [10]
Trong mơ hình Markov ẩn, xác suất chuyển trạng thái aij là xác suất chuyển sang trạng
thái j với điều kiện cho trước là trạng thái i, do đó aij = Pr(s(t)=j|s(t-1)=i), trong đó s(t) là
thứ tự trạng thái tại thời điểm t. Ví dụ đối với một HMM có N trạng thái, ta có
𝑁

∑ 𝑎𝑖𝑗 = 1.

(1.6)

𝑗=1

Mật độ xác suất phát bj(x) mộ tả phân bô của vector quan sát ơ trạng thái j. Trong mơ
hình HMM mật độ liên tục, mật độ xác suất phát thường được biểu diễn bởi mật độ hỗn
hợp Gaussian
𝑁

𝑏𝑗 (𝑥) = ∑ 𝑐𝑗,𝑚 𝑁(𝑥; 𝜇𝑗𝑚 , Σ𝑗𝑚 ),

(1.7)

𝑚=1

Trong đó:
𝑁(𝑥; 𝜇𝑗𝑚 , Σ𝑗𝑚 ) =

1


1

− (𝑥−𝜇𝑗𝑚 )
2
1𝑒
𝐷
(2𝜋) 2 |Σ𝑗𝑚 |2

𝑇 −1
Σ𝑗𝑚 (𝑥−𝜇𝑗𝑚 )

(1.7)

Trong phương trình 1.7, 𝑁(𝑥; 𝜇𝑗𝑚 , Σ𝑗𝑚 ) là mật độ Gaussian đa biên, D là kich thước của
vector x.
𝑐𝑗𝑚 , 𝜇𝑗𝑚 và Σ𝑗𝑚

là trọng số, giá trị trung bình (mean) và hiệp phương sai (covariance)

của phần tử Gaussian thứ m của phân bổ hỗn hợp ở trạng thái j.
Nói chung, mỗi một phân bố phát đặc trưng cho một sự kiện âm thanh và phân bố
phải đủ cụ thể để cho phép phân biệt các âm thanh khác nhau cũng như đủ mạng để biểu
diễn cho sự biến thiên của giọng nói tự nhiên.
Có nhiều phương pháp huấn luyện mơ hình HMM để ước lượng giá trị các xác suất
chuyển đổi trạng thái cũng như các thông số xác suất phát phân bổ tại mỗi trạng thái của
mơ hình HMM. Phương pháp sớm được sử dụng huấn luyện HMM là sử dụng phương
pháp tối đa hoá kỳ vọng (Expectation-Maximization - EM). EM dựa vào nguyên tắc tối
11



đa hoá các khả năng xẩy ra (Maximum-likelihood) được giới thiệu vào những năm 1970
để huấn luyện mơ hình HMM dựa vào tập dữ liệu huấn luyện. Hiệu quả cao của phương
pháp EM là một lợi thế quan trọng trong việc sử dụng mơ hình Markov ẩn làm mơ hình
âm học trong hệ thống nhận dạng tiếng nói. Sau phương pháp EM, các phương pháp huấn
luyên HMM cũng được nghiên cứu rộng rãi. Kết quả là một loạt các phương pháp huấn
luyện ra đời nhưng có hiệu suất thấp hơn, cụ thể là các phương pháp học phân biệt
(Discriminative learning) [20], [21]. Phương pháp học phân biệt được mô tả tổng quan và
toàn diện trong [22].
Cho trước {aij} và bj{x}, với i = 1, 2, ….N và j = 1, 2, …., N. Khả năng xảy ra
của tập quan sát X được tính theo cơng thức (1.8) [22].
𝑝(𝑋 |𝜆) = ∑ 𝑝(𝑋, 𝑠|𝜆),

(1.8)

𝑆

Trong đó s = s1, s2, …, ST là chuỗi trạng thái của mơ hình HMM mà tại đó nó tạo ra các
chuỗi quan sát X= x1, x2, …, xT. Xác suất chung của X và chuỗi trạng thái s cho bởi  là
tích của xác suất chuyển trạng thái và xác suất phát.
𝑇

𝑝(𝑋, 𝑠|𝜆) = ∏ 𝑏𝑠𝑡 (𝑥𝑡 )𝑎𝑠𝑡𝑠𝑡+1

(1.9)

𝑡=1

Trong các ứng dụng thực tế, công thức (1.8) có thể được tính sắp xỉ như là xác suất
chung của chuỗi vector quan sát X với chuỗi trạng thái có khả năng cao nhât như sau
𝑝(𝑋 |𝜆) ≈


𝑚𝑎𝑥 𝑝(𝑋, 𝑠|𝜆)
𝑠

(1.10)

1.5. Mơ hình ngơn ngữ (language model)
Chức năng của mơ hình ngơn ngữ trong hệ thống nhận dạng tiếng nói là cung cấp
giá trị P(W) trong mơ hình tốn của hệ thống nhận dạng tiếng nói (1.4). Một mơ hình
ngơn ngữ là được xem như mơ hình ngữ pháp để kiểm tra tính hợp lý khi sắp xếp các từ
nhận được thành câu, hay nói khác là câu nhận được có nghĩa hay khơng. Ngữ pháp chính
là đặc tả của các cấu trúc của ngôn ngữ. Về cơ bản, mô hình ngữ pháp sẽ cho xác suất
bằng 1 nếu cấu trúc đúng ngữ pháp và ngược lại sẽ cho xác suất bằng 0. Kỹ thuật phân
tích cú pháp là một phương pháp của phân tích câu xem chúng có phù hợp với ngữ pháp
12


hay khơng. Bằng cách sử dụng các tập văn có cấu trúc ngữ pháp được đánh dấu bằng tay
cho phép khái quát hóa các cấu trúc ngữ pháp để bao hàm các xác suất chính xác. Hơn
nữa mối quan hệ xác suất giữa các chuỗi có thể được bắt nguồn và suy ra trực tiếp từ kho
dữ liệu văn bản với mơ hình ngơn ngữ ngẫu nhiên (Stochastic language model), ví dụ như
n-gram nhằm tránh sự cần thiết phải tạo ra các ngữ pháp chính thức và bao qt. Mơ hình
phổ biến khác của mơn hình ngơn ngữ là mơ hình ngơn ngữ ngẫu nhiên (stochastic
language model). Mơ hình ngơn ngữ ngẫn nhiên đóng vai trị quan trọng trong việc xây
dựng một hệ thống nhận dạng tiếng nói.
Như đã đề cặp ở trên, một mơ hình ngơn ngữ có thể được xây dựng dưới dạng phân
bố xác suất P(W) trên chuỗi từ W phản ánh tần suất xuất hiện của chuỗi W trong một câu.
Ví dụ, đối với mơ hình ngơn ngữ mơ tả ngơn ngữ nói, chúng ta có thể có P(hi) = 0.1 bởi
vì có lẽ chỉ có 1 trong 100 câu người nói là từ “hi”. Mặc khác, chúng ta sẽ có P(lid gallops
changsha pop) = 0 bởi vì dường như khơng có ai nói một câu lạ như vậy.

P(W) có thể được phân tích ra như sau:
𝑃(𝑾) = 𝑃(𝑤1 , 𝑤2 , … , 𝑤𝑛 )
= 𝑃(𝑤1 )𝑃(𝑤2 |𝑤1 )𝑃(𝑤1 |𝑤1 , 𝑤2 ) … 𝑃(𝑤𝑛 |𝑤1 , 𝑤2 , … , 𝑤𝑛−1 )
𝑛

(1.11)

= ∏ 𝑃(𝑤𝑖 |𝑤1 , 𝑤2 , … , 𝑤𝑖−1 )
𝑖=1

Trong đó P(wi|w1, w2,…, wi-1) là xác suất mà wi sẽ tuân theo một thứ tự cho trước của
chuỗi từ w1, w2,…, wi–1 trong phương trình (1.11), lựa chọn wi phụ thuộc vào toàn bộ
lịch sử của ngõ vào. Đối với một tập từ vựng có kích thươt v chúng ta có vi-1 lịch sử khác
nhau và có thể hồn tồn xác định được ,
P(wi|w1, w2,…, wi–1) giá trị vi phải được ước lượng. Trong thực tế, xác suất
P(wi|w1, w2,…, wi–1) rất khó ước lượng được vì hầu hết w1, w2,…, wi–1 là duy nhất và chỉ
xuất hiện vài lần. Giải pháp thực tế cho vấn đề này là giả định P(wi|w1, w2,…, wi–1) chỉ
phục thuộc vào vài lớp tương đương. Các lớp tương đương có thể được đơn giản hóa dựa
trên vài từ trước đó wi–N+1, wi–N+2,…, wi–1. Kết quả của giải pháp này chính là mơ hình
ngơn ngữ N-gram. Nếu từ chỉ phụ thuộc vào 2 từ trước đó, chúng ta có mơ hình ngơn ngữ
trigram: P(wi|wi–2, wi–1). Tương tự chúng ta có mơ hình ngơn ngữ unigram :P(wi) hoặc
13


bigram: P(wi|wi–1). Mơ hình ngơn ngữ trigram rõ ràng hiệu quả khi hầu hết các tự chỉ phụ
thuộc nhiều vào 2 từ trước đó và nó có thể được ước lượng với một tập văn bản cụ thể.
Trong mơ hình bigram, chúng ra thực hiện sắp xỉ xác suất của một từ chỉ phụ thuộc vào
một từ trước đó. Thực hiện P(wi|wi–1). hữu ích đối với i =1, chúng ta gán vị trí bắt đầu
của câu băng một mã phân biệt (distinguished token) <s>, cụ thể chúng ta giả định w 0
=<s>. Hơn nữa để tổng các xác suất của các chuỗi bằng 1 thì phải đặt các mã phân biệt

</s> ở vị trí kết thúc của câu. Ví dụ tính P(Mary loves that person) chúng ta phải tính
𝑃(𝑀𝑎𝑟𝑦 𝑙𝑜𝑣𝑒𝑠 𝑡ℎ𝑎𝑡 𝑝𝑒𝑟𝑠𝑜𝑛) =
𝑃(𝑀𝑎𝑟𝑦| < 𝑠 >)𝑃(𝑙𝑜𝑣𝑒𝑠|𝑀𝑎𝑟𝑦)𝑃(𝑡ℎ𝑎𝑡|𝑙𝑜𝑣𝑒𝑠)𝑃(𝑝𝑒𝑟𝑠𝑜𝑛|𝑡ℎ𝑎𝑡)𝑃(</𝑠 > |𝑝𝑒𝑟𝑠𝑜𝑛)
Để ước lượng P(wi|wi–1) tần suất từ wi xuất hiện với điều kiện cho trước từ cuối
cùng là wi-1, chúng ta đếm xem chuỗi P(wi|wi–1) xuất hiện thường xuyên thế nào trong
văn bản và chuẩn hóa giá trị điếm bởi số lần wi-1 xuất hiện.
Một cách tổng qt, đối với mơ hình trigram, xác suất của một từ phụ thuộc vào 2
từ trước đó. Trigam có thể được ước lượng bằng cách quan sát tần số xuất hiện của cặp
từ C(wi-2, wi–1) và bộ ba C(wi-2, wi–1, wi)
𝑃(𝑤𝑖 |𝑤𝑖−2 , 𝑤𝑖−1 ) =

𝐶(𝑊𝑖−2 , 𝑤𝑖−1 , 𝑤𝑖 )
𝐶(𝑊𝑖−2 , 𝑤𝑖−1 )

(1.12)

Văn bản được sử dụng để xây dựng mơ hình được gọi là ngữ liệu huấn luyện
(training corpus). Đối với mơ hình n-gram, số lượng dữ liệu huấn luyện được sử dụng
thông thường là vài nhiều triệu từ. Ước lượng của phương trình trên được dựa trên các
khái niệm của tối đa hóa khả năng xẩy ra (Maximum likelihood) bởi vì việc thiết lập các
giá trị xác suất này mang lại mơ hình trigram có xác suất cao nhất đối với tập dữ liệu huấn
luyện của tất cả các mơ hình trigram có thể có.
Giá trị n trong mơ hinh n-gram đơi lúc được xem như là thứ tự của nó. Thuật ngữ
này xuất phát trừ mơ hình Markov ẩn, trong đó mơ hình n-gram là một điển hình. Cụ thể,
mơ hình n-gram có thể được xem như la fmoo hình Markov bậc n-1.
Xem xét một ví dụ đơn giản khác, giả sử tập dữ liệu huấn huyên Sbe bao gồm có 3 câu
“John read her book”, “I read a different book”, “John read a book by Mulan”. Tính xác
suất P(John read a book) cho việc tối đa hóa khả năng xẩy ta mơ hình bigram, ta có
𝑃(𝐽𝑜ℎ𝑛| < 𝑠 >) =


𝐶 (< 𝑠 >, 𝐽𝑜ℎ𝑛) 2
=
𝐶(< 𝑠 >)
3

14


𝐶 (𝐽𝑜ℎ𝑛, 𝑟𝑒𝑎𝑑 ) 2
=
𝐶(𝐽𝑜ℎ𝑛)
2

𝑃(𝑟𝑒𝑎𝑑|𝐽𝑜ℎ𝑛) =
𝑃(𝑎|𝑟𝑒𝑎𝑑) =

𝐶 (𝑟𝑒𝑎𝑑, 𝑎) 2
=
𝐶(𝑟𝑒𝑎𝑑)
3

𝑃(𝑏𝑜𝑜𝑘|𝑎) =

𝐶 (𝑎, 𝑏𝑜𝑜𝑘 ) 1
=
𝐶(𝑎)
3

𝑃(</𝑠 > |𝑏𝑜𝑜𝑘) =


𝐶 (𝑏𝑜𝑜𝑘, </𝑠 >) 2
=
𝐶(𝑏𝑜𝑜𝑘)
3

Những xác suất trigram này giúp ước lượng xác suất cho câu như sau:
P(John, read, a, book) = P(John|<s>)P(read|John)P(a|read)P(book|a)P(</s>|book)
≈ 0.148
Nếu cả 3 câu này đều là dữ liệu chúng ta huấn luyện mơ hình ngơ ngữ thì mơ hình
ngơn ngữ này không chắc chắn khái quát tốt đối với câu mới. Ví dụ xác suất cho câu
“Mulan read her book” sẽ có xác suất hợp lý nhưng mơ hình trigram trả về xác suất
bằng 0 vì nó khơng có giá trị ước lượng tin cậy cho P(read|Mulan).
1.6. Các mô hình nhận dạng giọng nói
1.6.1. SPHINX
Sphinx là hệ thống nhận dạng tiếng nói được cơng bố năm 1990 [23]. Đây là một
trong những hệ thống nhận dạng tiếng nói hiệu quả trong những năm 90. Sphinx là hệ
thống nhận dạng tiếng nói với tập từ vựng lớn, khơng phụ thuộc người nói và là hệ thống
nhận dạng liên tục theo thời gian thực. Sphinx sử dụng mơ hình Markov ẩn (Hidden
Markov Model) và các tham số dẫn xuất từ mã hố dự đốn tuyến tính (Linear predictive
coding PLC).
Tín hiệu âm thanh được lấy mẫu với tần số 16kHz, tiền khuêch đại với bộ lọc mà
hàm truyền của nó là 1-0.97z-1. Sóng tín hiệu âm sau đó được chia và đưa vào các khung
(frame), mỗi khung có độ rộng 20ms hoặc 320 mẫu âm thanh. Các khung nối tiếp trung
lấp 10ms (overlap) tương đương 160 mẫu âm thanh. Mỗi khung được nhân với cửa sổ
Hamming với độ rộng 20ms và được áp dụng với mỗi 10ms. Từ những mẫu tín hiệu đã
được làm phẳng này, chúng ta tính tốn các hệ số LPC sử dụng phương pháp tự tương
quan (autocorrelation) [24]. Phân tích LPC được thực hiện với bậc 14. Cuối cùng một tập
12 hệ số cepstral dẫn xuất từ LPC cũng được tính. 12 hệ số Cepstrum LPC cho mỗi khung
được lượng tử hoá với 256 vector nguyên mẫu. Nhưng vector này được tạo ra bằng các
biến đổi của giải thuật Linde Buzo Gray, sử dụng khoảng cách Euclidean. Sử dụng 15000

15


×