Tải bản đầy đủ (.pdf) (97 trang)

Hệ thống nhận dạng tiếng nói tiếng việt sử dụng dịch vụ trên nền điện toán đám mây

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.73 MB, 97 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ HÀ NỘI

LUẬN VĂN THẠC SỸ

HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT
SỬ DỤNG DỊCH VỤ TRÊN NỀN ĐIỆN TOÁN ĐÁM MÂY

NGUYỄN VĂN MẠNH
CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN
MÃ SỐ : 8.48.02.01

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. DƯƠNG THĂNG LONG

HÀ NỘI - 2018


LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bất cứ công trình nào.

TÁC GIẢ LUẬN VĂN

Nguyễn Văn Mạnh

1


LỜI CẢM ƠN



Tôi xin chân thành cảm ơn TS. Dương Thăng Long – Trường Đại học Mở
Hà Nội đã tận tình giúp đỡ, động viên, định hướng, hướng dẫn tôi nghiên cứu và
hoàn thành luận văn này. Tôi xin cảm ơn các giảng viên trong Viện Đại học Mở
Hà Nội đã giảng dạy và giúp đỡ tôi trong hai năm học qua, cảm ơn sự giúp đỡ
nhiệt tình của các bạn đồng nghiệp.
Trong quá trình nghiên cứu của mình, mặc dù được sự hướng dẫn rất nhiệt
tình, đầy trách nhiệm của TS. Dương Thăng Long và các thầy cô giáo trong
Trường Đại học Mở Hà Nội cùng với sự nỗ lực của cá nhân nhưng cũng không thể
tránh được những thiếu sót. Tác giả chân thành mong nhận được những ý kiến
đóng góp từ quý Thầy, Cô và các bạn bè đồng nghiệp.
Trân trọng cám ơn.

Hà Nội, ngày tháng năm 2018

Nguyễn Văn Mạnh

2


MỤC LỤC
LỜI CAM ĐOAN.......................................................................................................i
LỜI CẢM ƠN...........................................................................................................ii
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT...............................................v
DANH MỤC CÁC BẢNG BIỂU.............................................................................vi
DANH MỤC CÁC HÌNH VẼ.................................................................................vii
MỞ ĐẦU................................................................................................................... 1
CHƯƠNG 1. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI..................................4
1.1. Giới thiệu về nhận dạng tiếng nói....................................................................4
1.1.1. Tổng quan về nhận dạng tiếng nói.............................................................4

1.1.2. Lịch sử phát triển của nhận dạng tiếng nói................................................6
1.1.3. Phân loại hệ thống nhận dạng tiếng nói.....................................................8
1.1.4. Khó khăn trong nhận dạng tiếng nói........................................................10
1.2. Một số nghiên cứu nhận dạng tiếng Việt........................................................11
1.3. Đặc điểm của tiếng Việt trong nhận dạng tiếng nói.......................................13
1.3.1. Đặc điểm của tiếng Việt...........................................................................13
1.3.2. Cấu trúc âm tiết, âm vị trong tiếng Việt...................................................13
1.4. Mô hình nhận dạng tiếng nói.........................................................................19
1.4.1. Mô hình GMM........................................................................................19
1.4.2. Mô hình phân lớp SVM...........................................................................19
1.4.3. Mô hình HMM........................................................................................20
1.4.4. Mạng nơ ron nhân tạo..............................................................................21
1.4.5. Mô hình nhận dạng tiếng nói Deep Neural Networks (DNN)..................40
1.5. Kết luận chương 1.........................................................................................49
CHƯƠNG 2. HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT DỰA TRÊN NỀN DỊCH
VỤ CỦA ĐIỆN TOÁN ĐÁM MÂY.......................................................................51
2.1. Dịch vụ điện toán đám mây...........................................................................51
2.1.1. Khái niệm điện toán đám mây.................................................................51
2.1.2. Các đặc điểm của điện toán đám mây.....................................................51
2.1.3 Các mô hình triển khai..............................................................................54
3


2.1.4. Các đặc tính của điện toán đám mây.......................................................58
2.2. Một số dịch nhận dạng tiếng nói tiếng Việt dựa trên nền điện toán mây.......58
2.3. Mô hình cho hệ thống nhận dạng tiếng Việt..................................................67
2.4. Ưu điểm của hệ thống nhận dạng tiếng nói sử dụng DNN so với hệ thống
khác...................................................................................................................... 68
2.5. Kết luận chương 2.........................................................................................69
CHƯƠNG 3. ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI........................................70

TIẾNG VIỆT...........................................................................................................70
3.1. Đặt vấn đề bài toán........................................................................................70
3.2. Mô tả chức năng đầu vào, đầu ra...................................................................71
3.3. Thử nghiệm và đánh giá................................................................................74
3.4. Kết luận chương 3.........................................................................................76
KẾT LUẬN.............................................................................................................77
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
Viết tắt

Tiếng Anh

Tiếng Việt

ASR

Automatic Speech Recognition

Tự động nhận dạng tiếng nói

ANN

Artificial Neural Network

Mạng nơ-ron nhân tạo

DNN

Deep Neural Networks

Mạng nơ-ron sâu


NLP

Natural Language Processing

Phương pháp xử lý ngôn ngữ tự nhiên

SVM

Support Vector Machines

Máy véc-tơ hỗ trợ

GMM

Gaussian Mixture Model

Mô hình hỗn hợp Gauss

4


5


DANH MỤC CÁC BẢNG BIỂU
Bảng 1.1. Cấu chúc âm tiết tiếng Việt.....................................................................15
Bảng 1.2. Hệ thống phụ âm làm âm đầu..................................................................16
Bảng 1.3. Bảng các âm chính là nguyên âm đơn.....................................................18
Bảng 1.5. Vị trí các âm vị trong hệ thống âm cuối..................................................18

Bảng 1.6. Kết quả so sánh.......................................................................................49
Bảng 2.1. Các tệp âm thanh.....................................................................................62
Bảng 2.2. Kết quả cuối cùng của Sphinx 4..............................................................65
Bảng 2.3. Kết quả cuối cùng của Microsoft API......................................................65
Bảng 2.4. Kết quả cuối cùng của Google API.........................................................66
Bảng 2.5. Bảng so sánh giữa 3 hệ thống..................................................................66
Bảng 3.1. Số lượng bệnh nhân từng nhóm thống kê theo ngày................................74
Bảng 3.2. Tốc độ thực hiện của từng nhóm thống kê theo ngày, với tỷ lệ [nhập tiếng
nói / nhập tay] (đvt: giây)........................................................................................75
Bảng 3.3. Tỷ lệ sai sót của Nhóm sử dụng nhận diện tiếng nói thống kê theo ngày
................................................................................................................................. 75

6


DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Sơ đồ tổng quát nhận dạng tiếng nói..........................................................5
Hình 1.2. Các phần tử cơ bản của môt hệ thống nhận dạng tiếng nói........................5
Hình 1.3. Vị trí, vai trò âm đệm trong âm tiết..........................................................17
Hình 1.4. Một mô hình nơ ron.................................................................................21
Hình 1.5. Biến đổi làm mịn tạo ra do thiên áp bk ; lưu ý là vk= bk nếu uk =0........23
Hình 1.6. Mô hình nơ ron phi tuyến........................................................................24
Hình 1.7. Hàm ngưỡng............................................................................................24
Hình 1.8. Hàm kích tuyến tính đoạn........................................................................25
Hình 1.9. Hàm kích hoạt Sigmoid với tham số độ dốc a.........................................26
Hình 1.10. Mạng nơ-ron truyền thẳng một lớp........................................................27
Hình 1.11 . Mạng nơ-ron truyền thẳng có kết nối đầy đủ bao gồm một lớp ẩn........29
Hình 1.12. Mạng nơ-ron hồi quy không có vòng tự phản hồi và không có nơ-ron ẩn
................................................................................................................................. 30
Hình 1.13. Mạng nơ-ron hồi quy với các nơ-ron ẩn................................................30

Hình 1.14. Kiến trúc đồ thị của Multilayer Perceptron với hai lớp ẩn.....................33
Hình 1.15. Minh họa chiều của hai luồng tín hiệu cơ bản trong Multilayer
Perceptron (hàm tín hiệu lan truyền thẳng và lan truyền ngược của tín hiệu lỗi).....34
Hình 1.16. Đồ thị luồng tín hiệu chi tiết của nơ-ron ra j..........................................36
Hình 1.17. Đồ thị chi tiết luồng tín hiệu của nơ-ron ra k kết nối với nơ-ron ẩn j.....39
Hình 1.18. HMM với 3 trạng thái, cấu trúc liên kết từ trái sang phải và các vòng tự
lặp, thường được sử dụng trong nhận dạng tiếng nói...............................................41
Hình 2.1. Dịch vụ cơ sở hạ tầng (IaaS)....................................................................52
Hình 2.2. Dịch vụ Đám mây công cộng...................................................................55
Hình 2.3. Dịch vụ Đám mây doanh nghiệp..............................................................56
Hình 2.4. Dịch vụ Đám mây Lai..............................................................................57
Hình 2.5. Giao diện hệ thống...................................................................................63
Hình 2.6. Cấu trúc của hệ thống..............................................................................64
Hình 2.7. Kết quả của Sphinx-4...............................................................................64
Hình 2.8. Bảng so sánh giữa 3 hệ thống..................................................................67
Hình 2.9. Mô hình cho hệ thống nhận dạng tiếng Việt............................................67
7


Hình 3.1. Chức năng đăng nhập hệ thống................................................................72
Hình 3.2. Chức năng danh sách chức năng bệnh nhân chờ khám............................72
Hình 3.3. Chức năng khám bệnh.............................................................................73
Hình 3.4. Kết quả mong muốn.................................................................................73

8


MỞ ĐẦU
1. Tính cấp thiết đề tài
Ngày nay, cùng với sự phát triển cùa ngành điện tử và tin học, các hệ thống

máy tự động đã dần thay thế con người trong nhiều công đoạn của công việc. Máy
có khả năng làm việc hiệu quả và năng suất cao hơn con người rất nhiều. Song cho
đến nay, vấn đề giao tiếp giữa người - máy tuy đã được cải thiện nhiều nhưng vẫn
còn rất thủ công thông qua bàn phím và các thiết bị nhập dữ liệu khác. Giao tiếp với
thiết bị máy bằng tiếng nói sẽ là phương thức giao tiếp văn minh và tự nhiên nhất,
dấu ấn giao tiếp người - máy sẽ mất đi mà thay vào đó là cảm nhận của sự giao tiếp
giữa người với người, nếu hoàn thiện thì đây sẽ là một phương thức giao tiếp tiện
lợi và hiệu quả nhất.
Do có sự khác biệt về mặt ngữ âm giữa các ngôn ngữ nên ta không thể áp
dụng các chương trình nhận dạng khác để nhận dạng tiếng Việt. Một hệ thống nhận
dạng tiếng nói ở nước ta phải được xây dựng trên nền tảng của tiếng nói tiếng Việt.
Vấn đề nhận dạng tiếng nói tiếng Việt mới chỉ được quan tâm nghiên cứu trong
những năm gần đây và chưa có một chương trình nhận dạng hoàn chỉnh nào được
công bố.
Trên thế giới đã có rất nhiều hệ thống nhận dạng tiếng nói (tiếng Anh) đã và
đang được ứng dụng rất hiệu quả như: Via Voice cùa IBM, Spoken Toolkit của
CSLU (Central of Spoken Laguage Under-standing)... nhưng trong tiếng Việt thì
còn rất nhiều hạn chế.
Trong lĩnh vực y tế khi tiếp nhận thông tin bệnh nhân tới khám, điều trị cho
bệnh nhân việc nhập liệu các thông tin khám bệnh, ra chỉ định cận lâm sàng, kê đơn
thuốc cho bệnh nhân, bệnh án điện tử,… các chức năng có rất nhiều thông tin nên
việc nhập thông tin bằng bàn phím mất rất nhiều thời gian, ngoài ra cũng dẫn đến
việc nhập sai, chậm... Với các bệnh viện lớn mỗi ngày có hàng nghìn lượt bệnh
nhân tới khám bệnh, các phòng khám thì số lương tới khám cũng tới hàng trăm
1


bệnh nhân dẫn đến việc bệnh nhân phải chờ tới lượt khám rất mất thời gian, vì vậy
việc áp dụng công nghệ nhận dạng tiếng nói trong khám, điều trị ở lĩnh vực y tế nói
chung cũng như phòng khám đa khoa Phương Đông nói riêng là rất cần thiết. Việc

này giải quyết và hỗ trợ cho người dùng trong việc nhập các thông tin của bệnh
nhân, tăng tốc độ khám và ra chỉ định cho bệnh nhân. Việc nghiên cứu ứng dụng
công nghệ nhận dạng tiếng nói tiếng Việt để đáp ứng được nhu cầu của xã hội là rất
cần thiết.
Từ nhu cầu thực tế đó, tác giả với sự hướng dẫn của TS. Dương Thăng Long
đã lựa chọn đề tài “Hệ thống nhận dạng tiếng nói tiếng Việt sử dụng dịch vụ trên
nền điện toán Đám mây” là thực sự cần thiết.
2. Mục tiêu nghiên cứu
Tìm hiểu tổng quan về bài toán nhận dạng tiếng nói, mô hình cho hệ thống
nhận dạng tiếng nói tiếng Việt và ứng dụng nhận dạng tiếng nói trong lĩnh vực y tế
nói chung và ứng dụng thực tế tại phòng khám đa khoa Phương Đông có địa chỉ tại
Hà Nam.
Hệ thống đưa ra việc hỗ trợ người dùng nhập liệu bằng tiếng nói trong quá
trình khám, chữa bệnh giúp người sử dụng ứng dụng một cách dễ dàng, nhanh
chóng và chính xác nhất.
3. Đối tượng và phạm vi nghiên cứu
3.1. Đối tượng nghiên cứu
- Tiếng nói của con người.
- Hệ thống nhận dạng tiếng nói thông qua API “Speed to text” của google
3.2. Phạm vi nghiên cứu
Nhận dạng tiếng nói tiếng Việt bằng dịch vụ trên nền điện toán Đám mây.
4. Kết cấu của luận văn
Luận văn được bao gồm 3 chương như sau:

2


Chương 1: Tổng quan về nhận dạng tiếng nói
Giới thiệu về nhận dạng tiếng nói, một số nghiên cứu về nhận dạng tiếng nói
và các mô hình nhận dạng tiếng nói.

Chương 2: Điện toán đám mây và dịch vụ Saas
Trình bày tổng quan về điện toán đám mây; Các dịch vụ điện toán đám mây;
tìm hiểu API của google về nhận dạng tiếng.
Chương 3: Xây dựng ứng dụng nhận dạng tiếng nói và kết quả nhận dạng
tiếng nói thông qua api “Speed to text” của google.
Kết luận: Tóm lược kết quả đạt được của luận văn và định hướng phát triển
trong tương lai.

3


CHƯƠNG 1. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI
1.1. Giới thiệu về nhận dạng tiếng nói
1.1.1. Tổng quan về nhận dạng tiếng nói
Nhiệm vụ của hệ thống nhận dạng tiếng nói là làm cho hệ thống hiểu được
tiếng nói của con người. Nhờ hệ thống này, tiếng nói có thể được chuyển đổi tự
động thành văn bản, hoặc tự động điều khiển các quá trình khác. Phương thức
truyền thông tự nhiên nhất đối với con người là thông qua tiếng nói nên mong muốn
của nhận dạng tiếng nói là cho phép con người có ngôn ngữ khác nhau giao tiếp với
nhau và với máy một cách tự nhiên, hiệu quả hơn. Có thể nói, các ứng dụng nhận
dạng tiếng nói hiện đang dần trở nên phổ biến, phục vụ đời sống con người cũng
như trong các lĩnh vực kỹ thuật khác nhau. Trong lĩnh vực tương tác người - máy,
nhận dạng tiếng nói được định nghĩa là khả năng hệ thống máy tính có thể chấp
nhận đầu vào là lời nói theo định dạng file âm thanh và tạo ra được văn bản chứa
nội dung tương ứng.
Nhận dạng tự động tiếng nói ASR (Automatic Speech Recognition) mô phỏng
khả năng nghe và hiểu lời nói của con người. Hệ thống ASR có thể chuyển đổi lời
nói thành văn bản. Bài toán nhận dạng tự động tiếng nói là một chương trình máy
tính tiếp nhận đầu vào là các mẫu tiếng nói và tạo ra văn bản tương ứng mà con
người có thể hiểu được như khi trực tiếp nghe tiếng nói đó. ASR là một trong các

lĩnh vực của nhận dạng mẫu. ASR phát triển mạnh tương xứng với các lĩnh vực
khác của nhận dạng mẫu vì mong muốn tạo ra được cỗ máy có khả năng tạo ra được
các quyết định phức tạp và thực tế, có chức năng nhanh như con người đồng thời có
thể hiểu được lời nói. Tương tự như bất kỳ hệ thống nhận dạng mẫu nào, ASR tìm
kiếm để hiểu được các mẫu tiếng nói đầu vào. Các nghiên cứu về xử lý tín hiệu, xử
lý tiếng nói và đặc biệt là nhận dạng tiếng nói đã thu hút nhiều nhà khoa học tham
gia và mang lại nhiều thành tựu trong các lĩnh vực này.

4


Hình 1.1. Sơ đồ tổng quát nhận dạng tiếng nói

Hình 1.2. Các phần tử cơ bản của môt hệ thống nhận dạng tiếng nói
Tín hiệu tiếng nói đầu tiên được tiền xử lý và rút trích đặc trưng, kết quả thu
được sau quá trình này là tập các đặc trưng âm học, được tạo thành 1 hay nhiều véctơ đước gọi là véc-tơ đặc trưng.
Để có thể thực hiện việc so sánh, trước hết hệ thống phải được huấn luyện và
xây dựng các đặc trưng, sau đó mới có thể dùng để so sánh với các tham số đầu vào
để nhận dạng.

5


Trong quá trình huấn luyện, hệ thống dùng véc-tơ đặc trưng được đưa vào để
ước lượng, tính toán các tham số cho các mẫu (được gọi là mẫu tham khảo). Một
mẫu tham khảo chính là bản mẫu dùng để so sánh và nhận dạng, các mẫu tham khảo
này mô phỏng cho một từ, một âm tiết, hoặc thậm chí là một âm vị.
Trong quá trình nhận dạng, dãy các véc-tơ đăc trưng được đem so sánh với các
mẫu tham khảo. Sau đó hệ thống tính toán độ tương đồng của dãy véc-tơ đặc trưng
và mẫu tham khảo. Việc tính toán độ tương đồng được thực hiện bằng cách áp dụng

các thuật toán đã đươck chứng minh hiệu quả. Mẫu có độ tương đồng cao nhất được
cho là kết quả của quá trình nhận dạng.
Mục tiếp theo dưới đây sẽ trình bày tóm lược về lịch sử phát triển và các tiến
bộ trong nghiên cứu nhận dạng tiếng nói.
1.1.2. Lịch sử phát triển của nhận dạng tiếng nói
Điều đầu tiên quan trọng cần phải kể đến trong lịch sử phát triển của nhận
dạng tiếng nói là việc thành lập các mô hình thống kê và các thuật giải liên quan tạo
điều kiện cho việc thực hiện các mô hình này. Mô hình HMM đã được giới thiệu
như là một mô hình âm học của hệ thống nhận dạng tiếng nói từ đầu những năm
1970 [8]. Hơn 30 năm sau, phương pháp này vẫn còn được sử dụng rộng rãi. Một
lượng lớn các mô hình và thuật giải đã được đề xuất và sử dụng hiệu quả trong lĩnh
vực này. Thuật giải tối đa hóa kỳ vọng EM (Expectation Maximization) và thuật
giải quay lui (Forward - Backward) hoặc thuật giải Baum - Welch đã có vai trò chủ
yếu và quan trọng trong việc huấn luyện mô hình HMM một cách hiệu quả. Tương
tự như vậy, mô hình ngôn ngữ N-gram và các biến thể được huấn luyện với các tính
toán cơ bản hoặc sử dụng kỹ thuật EM-Style đã đạt được các hiệu quả quan trọng.
Bên cạnh mô hình âm học HMM và mô hình ngôn ngữ cơ bản N-gram, đã có
nghiên cứu mới được công bố như các mô hình phân đoạn [12] và các mô hình
ngôn ngữ và tiếng nói có cấu trúc. Các thuật giải thích nghi hiệu quả cho phép tích
hợp được trên các ứng dụng đòi hỏi xử lý nhanh. Đây là chìa khóa dẫn đến thành
công cho việc phát triển các sản phẩm thương mại của công nghệ nhận dạng tiếng
nói. Các kỹ thuật thích nghi phổ biến có thể kể đến là tối đa xác suất hậu nghiệm
6


MAP (Maximum a Posteriori probability), ước lượng MLLR (Estimation và
Maximum Likelihood Linear Regression). Các kỹ thuật thích nghi đã được tổng
quát hóa để huấn luyện các mô hình chung, một đại diện tốt trong số đó có thể kể
đến là mô hình thống kê toàn thể của tập dữ liệu huấn luyện đầy đủ. Kỹ thuật này
được gọi là kỹ thuật huấn luyện thích nghi người nói SAT (Speaker Adaptive

Training) [7]. Huang cùng cộng sự đã có nghiên cứu so sánh các phương pháp nhận
dạng độc lập người nói, nhận dạng phụ thuộc người nói và nhận dạng thích nghi
người nói [17]. Kết quả nghiên cứu này cho thấy: khi nhận dạng độc lập người nói,
tỷ lệ lỗi từ đạt 4,3%, còn khi sử dụng dữ liệu phụ thuộc người nói, tỷ lệ lỗi từ đã
giảm đến 1,4%. Trong các thử nghiệm, nhóm tác giả đều áp dụng phương pháp thi
ch nghi người nói.
Nhóm thứ hai trong những tiến bộ đáng kể của lĩnh vực xử lý tiếng nói là sự
hình thành cơ sở hạ tầng tính toán mạnh về phần cứng cho phép phát triển được các
thuật giải, mô hình thống kê nêu trên. Định luật Moore quan sát sự tiến bộ trong
lĩnh vực phát triển của máy tính và dự báo khả năng tính toán tăng gấp đôi sau mỗi
khoảng thời gian từ 12 đến 18 tháng. Cũng như vậy, chi phí cho bộ nhớ sẽ được
giảm đi. Cơ sở hạ tầng mạnh nói trên là phương tiện cho phép các nhà nghiên cứu
về nhận dạng tiếng nói có thể phát triển và đánh giá độ phức tạp các thuật giải trên
các tác vụ đủ lớn. Ngữ liệu tiếng nói đóng vai trò quan trọng để thực hiện các
nghiên cứu nhận dạng tiếng nói. Ngữ liệu tiếng nói lớn cho phép các mô hình thống
kê học hiệu quả hơn. Trong những năm qua, Viện Tiêu chuẩn và Công nghệ NIST
(National Institute of Standard and Technology), Hiệp hội dữ liệu ngôn ngữ học
LDC (Linguistic Data Consortium), Hiệp hội Tài nguyên Ngôn ngữ châu Âu ELRA
(European Language Resources Association) và các tổ chức khác đã xây dựng được
các bộ ngữ liệu tiếng nói, chú giải và chia sẻ rộng rãi cho cộng đồng trên toàn thế
giới. Với sự phát triển, hội nhập và chia sẻ trên phạm vi toàn cầu, hiện nay, nhiều
phòng thí nghiệm, các nhà nghiên cứu đã được hưởng lợi ích từ các công cụ phục
vụ cho nghiên cứu được cung cấp miễn phí như HTK (Hidden Markov Model
Toolkit), Sphinx, CMU LM toolkit và SRILM toolkit. Mặt khác, các hỗ trợ cho
nghiên cứu sâu, rộng, kết hợp với các hội nghị, hội thảo, hệ thống đánh giá được
7


DARPA (U.S. Department of Defense Advanced Research Projects Agency) và các
tổ chức, cá nhân khác tài trợ đã trở nên cần thiết cho sự phát triển hệ thống nhận

dạng tiếng nói hiện nay.
Nhóm tiến bộ thứ 3 có thể kể đến thuộc về lĩnh vực biểu diễn tri thức. Các kỹ
thuật phân tích tham số tiếng nói như MFCC (Mel-Frequency Cepstral Coefficients)
[11], tiên đoán cảm thụ tuyến tính PLP (Perceptual Linear Prediction) [16], chuẩn
hóa thông qua trừ trung bình cepstral CMS (Cepstral Mean Subtraction) RASTA
[16] và chuẩn hóa chiều dài tuyến âm VTLN (Vocal Tract Length Normalization)
[13]. Gần đây, có nhiều thuật giải đã được đề xuất cho nhận dạng tiếng nói mang lại
hiệu quả cao như Phân tích phân biệt tuyến tính hiệp phương sai không đồng nhất
HLDA (Heteroscedastic Linear Discriminant Analysis) [20], cực tiểu lỗi từ theo
không gian đặc trưng fMPE (feature-space Minimum Phone Error) [26] và mạng nơ
ron dựa trên các đặc trưng.
Nhóm cuối cùng trong các tiến bộ lớn của nhận dạng tiếng nói là giải mã và
các thuật giải tìm kiếm. Ban đầu tập trung vào giải mã ngăn xếp (thuật giải tìm kiếm
A*) [19] và tìm kiếm đồng bộ thời gian Viterbi (time-synchronous Viterbi search)
[22]. Nếu không có các thuật giải khả thi thì các nhận dạng tiếng nói liên tục có quy
mô lớn khó có thể thực hiện được.
Như vậy có thể thấy, nhận dạng tiếng nói đã đạt được nhiều tiến bộ trong các
năm qua. Có nhiều mô hình nhận dạng đã được đề xuất trong đó mô hình HMM với
nền tảng chính không có nhiều thay đổi song việc mô hình hóa, các kỹ thuật cài đặt
cụ thể vẫn liên tục được cải tiến. Vì thế, HMM vẫn giữ được vị trí quan trọng trong
các hệ thống nhận dạng tiếng nói. Bên cạnh đó, các kỹ thuật phân tích tham số cũng
đạt được những bước tiến quan trọng. Các thuật giải tìm kiếm được cải tiến giúp bộ
giải mã thực hiện các nhiệm vụ tìm kiếm, cho ra lời giải hiệu quả hơn.
1.1.3. Phân loại hệ thống nhận dạng tiếng nói
Các hệ thống nhận dạng tự động tiếng nói có thể được phân loại theo các cách
khác nhau tùy thuộc tiêu chí sử dụng phân loại như dựa trên sự phụ thuộc người nói,

8



đặc điểm liên tục hay rời rạc của tiếng nói cần nhận dạng, độ lớn của từ vựng
Theo tiêu chí sự phụ thuộc vào người nói, hệ thống nhận dạng tiếng nói có thể
được chia làm 3 loại gồm hệ thống nhận dạng tiếng nói phụ thuộc người nói, hệ
thống nhận dạng tiếng nói độc lập người nói và hệ thống nhận dạng tiếng nói thích
nghi người nói, cụ thể như sau:
- Hệ thống nhận dạng tiếng nói phụ thuộc người nói : hệ thống này đòi hỏi
người dùng phải huấn luyện hệ thống bằng chính tiếng nói của mình. Nói khác đi,
tiếng nói cần nhận dạng và tiếng nói dùng cho huấn luyện đều do cùng một người
nói. Hệ thống này có thể được xây dựng một cách dễ dàng với chi phí thấp và độ
chính xác cao. Tuy nhiên, mức độ linh hoạt của hệ thống lại thấp hơn so với hệ
thống nhận dạng không phụ thuộc người nói và hệ thống nhận dạng thích nghi
người nói.
- Hệ thống nhận dạng không phụ thuộc người nói : có đặc điểm là không đòi
hỏi người dùng phải huấn luyện hệ thống bằng chính tiếng nói của mình. Nói cách
khác, hệ thống có thể được huấn luyện độc lập, sử dụng tiếng nói của người khác để
huấn luyện mà vẫn có khả năng nhận dạng được tiếng nói được phát âm bởi người
không tham gia huấn luyện. Hệ thống này có thể làm việc với tiếng nói được phát
âm từ người nói bất kỳ. Việc xây dựng hệ thống như vậy thường phức tạp và đòi hỏi
chi phí cao hơn song có ưu điểm là hệ thống rất linh hoạt nhưng độ chính xác
thường thấp hơn so với hệ thống phụ thuộc người nói.
- Hệ thống nhận dạng tiếng nói thích nghi người nói: được xây dựng để có
khả năng thích nghi với người nói mới. Hệ thống này đã được huấn luyện sẵn trước
khi sử dụng bằng tiếng nói có thể khác với tiếng nói của người sử dụng. Trong quá
trình hoạt động, hệ thống sẽ tiếp nhận thông tin, đặc điểm của người nói mới để
điều chỉnh nhằm thích nghi theo các đặc điểm riêng của người nói mới. Hệ thống
này có vị trí xếp hạng nằm giữa hai hệ thống được nêu trước đó. Hệ thống vừa có
tính linh hoạt vì không ràng buộc huấn luyện và sử dụng cùng người nói như hệ
thống phụ thuộc người nói lại vẫn đạt được độ chính xác nhờ khả năng thich nghi
người nói.
9



Các hệ thống nhận dạng tiếng nói được phân loại dựa trên đặc điểm của tiếng
nói huấn luyện và nhận dạng sẽ gồm bốn loại như sau:
- Hệ thống nhận dạng tiếng nói theo từ rời rạc: hệ thống này được thiết kế để
nhận dạng tiếng nói được phát âm thành từng từ rời rạc. Giữa các từ có khoảng lặng
đủ lớn và phân tách với nhau. Hệ thống này là dạng đơn giản nhất của hệ thống
nhận dạng tiếng nói. Tuy khả năng nhận dạng có hạn chế nhưng hệ thống này lại
được sử dụng phổ biến trong các sản phẩm thực.
- Hệ thống nhận dạng tiếng nói cho các từ có liên kết với nhau : trong trường
hợp này, hệ thống nhận dạng tiếng nói được thiết kế để nhận dạng các từ tương tự
như hệ thống nhận dạng từ rời rạc. Tuy nhiên, các từ này có liên kết với nhau nên hệ
thống cho phép tiếng nói cần nhận dạng có thể được phân tách với nhau bởi các
khoảng lặng nhỏ.
- Hệ thống nhận dạng tiếng nói phát âm liên tục: hệ thống làm việc với tiếng
nói trong đó không có khoảng lặng về mặt tín hiệu giữa các từ. Hệ thống cho phép
người dùng có thể phát âm một cách tự nhiên, cùng với đó thì máy tính sẽ thực hiện
việc nhận dạng nội dung. Các hệ thống loại này đòi hỏi xử lý phức tạp hơn vì việc
xác định các từ là rất khó về mặt tín hiệu.
- Hệ thống nhận dạng tiếng nói tự nhiên: hệ thống được thiết kế để nhận dạng
được tiếng nói được phát âm một cách tự nhiên với các từ phát ra một cách liên tiếp
có thể xen kẽ những âm đệm không có nghĩa như "ừ", "à"... thậm chí là nói lắp.
- Hệ thống nhận dạng tiếng nói cũng có thể phân loại theo lượng từ vựng. Theo
cách này, các hệ thống nhận dạng tiếng nói có thể chia thành 3 loại bao gồm:
- Hệ thống nhận dạng với từ vựng ít (số lượng từ chỉ đến hàng chục từ).
- Hệ thống nhận dạng tiếng nói với từ vựng trung bình (số lượng từ đến vài trăm từ)
- Hệ thống nhận dạng tiếng nói với từ vựng lớn (số lượng từ lên đến hàng nghìn từ).
Hệ thống nhận dạng tiếng nói rất đa dạng và phong phú. Cách tiếp cận trong
nghiên cứu nhận dạng tiếng nói cũng đa dạng tương tự. Mặc dù mục tiêu, nội dung
cụ thể của từng nghiên cứu là khác nhau song đều có điểm chung là cải thiện hiệu

10


năng, nâng cao hiệu quả hoạt động của hệ thống nhận dạng
1.1.4. Khó khăn trong nhận dạng tiếng nói
Vì có nhiều ý nghĩa trong nghiên cứu cũng như thực tiễn ứng dụng, nhận dạng
tiếng nói đã thu hút nhiều nhà khoa học tham gia nhưng lĩnh vực này cũng phải đối
mặt với nhiều thách thức.
Thách thức lớn đầu tiên đối với nhận dạng tự động tiếng nói có thể kể đến là
làm thế nào để xử lý được các biến thiên trong tiếng nói. Cùng một âm do cùng một
người nói ở những thời điểm khác nhau song tín hiệu tiếng nói có thể không hoàn
toàn như nhau. Trong các hệ thống nhận dạng tiếng nói phụ thuộc người nói, sự
khác biệt của tiếng nói thường không lớn so với hệ thống nhận dạng độc lập người
nói. Ngay cả khi tiếng nói được giới hạn bởi một người nói thì sự thay đổi về môi
trường ghi âm, điều kiện nói, thiết bị ghi âm... vẫn là tồn tại khách quan tạo ra sự
khác biệt trong tín hiệu tiếng nói cần nhận dạng.
Thách thức lớn khác đối với ASR là phải giải quyết bài toán nhận dạng nhầm,
khi mà hệ thống thường phải đối mặt với thực tế là tiếng nói cần nhận dạng không
hoàn toàn theo đúng với tiếng nói đã được huấn luyện. Trong ASR, một số người
nói thường sẽ đọc các văn bản đã được chọn từ trước và sử dụng tiếng nói thu được
theo cách đó để xây dựng các mô hình. Độ chính xác của ASR thường tỷ lệ với sự
tương tự giữa dữ liệu huấn luyện và dữ liệu thử nghiệm. Dễ dàng nhận thấy, hệ
thống nhận dạng cho độ chính xác cao khi dữ liệu huấn luyện và nhận dạng đều do
một người nói và nội dung nói tương tự nhau. Độ chính xác đó sẽ giảm khi dữ liệu
thử nghiệm và dữ liệu dùng huấn luyện là tiếng nói của những người khác nhau, nội
dung nói khác nhau hay môi trường, thiết bị ghi âm khác nhau. Thách thức đặt ra
đối với người thiết kế ASR là phải chuẩn bị đủ về mặt dữ liệu và cài đặt thuật giải tốt.
Tác động phức tạp nhất tới tín hiệu tiếng nói mà ASR phải xử lý là nhiễu kênh,
nhiễu nền và các nhiễu khác từ bên ngoài. Kỹ thuật trừ phổ cơ bản giúp giải quyết
được vấn đề nhiễu cộng trong khi một số kỹ thuật khác giúp khử được nhiễu chập.

Mặc dù phải đối mặt với nhiều thách thức song nhận dạng tự động tiếng nói đã
11


đạt được nhiều bước tiến quan trọng. Các kết quả nghiên cứu đã dần đi vào cuộc
sống trở thành các ứng dụng thường ngày. Lĩnh vực này vẫn tiếp tục thu hút nhiều
nhà khoa học tham gia nhằm tiếp tục cải thiện hiệu năng nhận dạng, gia tăng khả
năng ứng dụng trong thực tiễn.
1.2. Một số nghiên cứu nhận dạng tiếng Việt
Nghiên cứu về nhận dạng tiếng Việt nói đã được một số nhà nghiên cứu trong
và ngoài nước thực hiện. Các nghiên cứu đã được thực hiện cho tiếng nói rời rạc và
tiếng nói liên tục.
Để làm tiền đề cho các nghiên cứu sau này đối với tiếng Việt nói, trước tiên hệ
thống nguyên âm tiếng Việt đã được phân tích để xác định các đặc trưng cơ bản như
phân bố formant [31], quy luật biến thiên thanh điệu. Đối với nhận dạng tiếng Việt
nói, đã có các nghiên cứu như nhận dạng từ tiếng Việt phát âm rời rạc, số lượng từ
vựng hạn chế. Nghiên cứu về hệ thống nhận dạng các số phát âm liên tục bằng tiếng
Việt thực hiện ở. Nhóm tác giả đã thử nghiệm trên 442 câu với 2340 từ tiếng nói
phát âm qua đường điện thoại. Kết quả thử nghiệm cho thấy khả năng nhận dạng đạt
tới 96,83% các từ chính xác và 87,67% các câu được nhận dạng đúng. Gần đây, có
các nghiên cứu nhận dạng tiếng Việt phát âm liên tục độc lập người nói có số lượng
từ vựng lớn (7000 âm tiết tương ứng khoảng 40000 từ). Nghiên cứu trong [30] là
nhận dạng tiếng nói liên tục tiếng Việt vốn từ vựng lớn, sử dụng bộ công cụ HTK
trên cơ sở dữ liệu âm thanh thu từ các đài truyền thanh VOV. Trong trường hợp này,
độ chính xác nhận dạng được cải thiện đến 10% và sai số liên quan giảm 36,5%. Hệ
thống nhận dạng tiếng Việt nói cũng đã được thực hiện được bằng hệ nhúng và hoạt
động trên thời gian thực [4]. Nghiên cứu nhận dạng cho ngôn ngữ các nước Đông
Nam Á bao gồm tiếng Trung, tiếng Thái và tiếng Việt đã được thực hiện theo cách
tiếp cận mới. Theo đó, các tác giả đã thực hiện nhận dạng ở mức từ thay vì mức âm
tiết như một số nghiên cứu đã có trước đây. Kiến trúc FlaVoR bao gồm 2 lớp được

sử dụng để nhận dạng. Lớp thứ nhất có chức năng tìm kiếm các nguyên âm đơn.
Lớp thứ hai thực hiện nhiệm vụ giải mã từ. Thử nghiệm trên tiếng Việt (dữ liệu âm
thanh lấy từ các bản tin thời sự Việt Nam- VNBN) cho thấy cách tiếp cận này vừa
12


hiệu quả lại linh hoạt.
Nhiều mô hình, công nghệ, giải pháp khác nhau đã được nghiên cứu và thử
nghiệm trong hệ thống nhận dạng tiếng nói tự động trong đó mô hình HMM được
ứng dụng khá phổ biến. Theo nội dung nghiên cứu được công bố tại [23], các tác
giả đã sử dụng mô hình HMM trong nhận dạng các tiếng nói của tiếng Việt nói phát
âm liên tục. Từ các thực nghiệm, nhóm tác giả đã chỉ ra phương pháp tốt nhất để
học F0 và năng lượng là sử dụng hàm biến đổi logarit đồng thời cũng chỉ ra việc sử
dụng 8 mẫu giọng (thay vì 6 giọng theo cách bỏ dấu) và sự khác biệt giữa giọng
nam và giọng nữ của người nói để tăng độ chính xác của hệ thống nhận dạng tiếng
Việt nói.
Về phương diện ngôn ngữ, tiếng Việt và phương ngữ tiếng Việt đã có nhiều
nghiên cứu được tổng hợp trong công trình của tác giả Hoàng Thị Châu [2], các tác
giả khác như Hoàng Phê [1], Nguyễn Kim Thản, Nguyễn Trọng Báu, Nguyễn Văn
Tu [5], Mai Ngọc Chừ, Vũ Đức Nghiệu, Hoàng Trọng Phiến [3], Trần Thị Ngọc
Lang, Võ Xuân Trang [6]. Tuy nhiên, nghiên cứu phương ngữ tiếng Việt theo
phương diện xử lý tín hiệu còn rất hạn chế.
1.3. Đặc điểm của tiếng Việt trong nhận dạng tiếng nói
1.3.1. Đặc điểm của tiếng Việt
Khác với một số ngôn ngữ khác như tiếng Anh, Pháp,… tiếng Việt là ngôn
ngữ đơn âm tiết, tức là các từ khi viết ra chỉ đọc lên thành một tiếng, không có từ
nào (thuần việt) phát âm từ 2 tiếng trở lên. Một từ có cấu tạo gồm 2 phần: nguyên
âm và phụ âm, được kết hợp theo 3 cách để tạo nên từ trong tiếng việt:
-


C+V (phụ âm + nguyên âm). VD: ba, mẹ, đi.

-

C+V+C (phụ âm + nguyên âm + phụ âm). VD: bàn, con, mong.

-

V+C (nguyên âm + phụ âm). VD: an, ông, én.

Trong tiếng Việt ngoài 2 thành phần chính là nguyên âm và phụ âm còn có các
thành phần khác giúp cho tiếng Việt phân loại trong âm tiết trở nên rõ ràng như nhị
13


hợp âm, tam hợp âm, phụ âm đơn, phụ âm kép. Khi học tiếng việt , ngày từ đọc phải
học thuộc các nguyên âm, phụ âm, nhị hợp âm, tam hợp âm,phụ âm đơn, phụ âm
kép, quy tắc ghép nối các thành phần đó để tạo thành âm tiết hoặc một từ, khi đó
một từ tiếng Việt được Việt ra sẽ kèm theo cách đọc của từ đó bằng quy tắc kết hợp
trên. Nếu một từ viết ra mà không theo quy tắc kết hợp được định sẵn trong tiếng
Việt, tương đương với việc từ đó không thể đọc được và cũng không có nghĩa, một
từ trong tiếng việt chỉ có 1 cách đọc (trừ tiếng vùng miền, địa phương), khác với
tiếng Anh không có quy tắc xác định trong việc tạo ra một từ, một từ chỉ tồn tại khi
nó xuất hiện trong từ điển, khi đó phải kèm theo cách đọc của từ đó thì mới có thể
đọc được.

1.3.2. Cấu trúc âm tiết, âm vị trong tiếng Việt
a. Âm tiết
Tiếng Việt là một ngôn ngữ đơn âm tiết [2, 3]. Mỗi một âm tiết được phát âm
tách rời nhau và được thể hiện bằng một chữ viết.

Âm tiết là đơn vị phát âm nhỏ nhất. Dù lời nói có chậm đến đâu đi chăng nữa
thì cũng chỉ tách được nhỏ nhất đến âm tiết [3]. Ví dụ câu “Quyển sách này mầu đỏ”
có tất cả 5 âm tiết. Sở dĩ âm tiết có tính toàn vẹn, không thể chia nhỏ về phương diện
phát âm là vì một âm tiết được phát âm bởi một đợt căng hệ cơ của bộ máy phát âm.
Mỗi lần hệ cơ của bộ máy phát âm căng lên rồi chùng xuống tạo ra một âm tiết.
Dựa vào cách kết thúc, âm tiết được chia làm 2 loại chính là âm mở và âm
khép. Mỗi loại lại có thể được chia làm 2 loại nhỏ hơn, cụ thể như sau:
Âm tiết nửa khép: là âm tiết kết thúc bằng phụ âm vang như “m”, “n”, “ng”,
“nh”,...
Âm tiết khép: là âm tiết kết thúc bằng phụ âm không vang. Ví dụ: học tập tốt...
Âm tiết nửa mở: là âm tiết kết thúc bằng một bán nguyên âm. Ví dụ như: trêu,
kêu, gọi,.
14


- Âm tiết mở: là âm tiết kết thúc bằng cách giữ nguyên âm sắc của nguyên âm ở
đỉnh âm tiết. Ví dụ: vo ve, thủ thỉ,.
Âm tiết tiếng Việt có tính độc lập cao:
Khác với các ngôn ngữ khác, âm tiết tiếng Việt thường không bị nhược hóa
hay mất đi [3]. Ví dụ trong tiếng Nga, nếu nói nhanh [Mariya Ivanouna] có thể trở
thành [mar’van:ã\. Trong ngôn ngữ này, khi nói nhanh, những gì không có trọng
âm có thể bị nhược hóa hay mất đi [3]. Trong một số ngôn ngữ châu Âu, ngoài hiện
tượng nhược hóa còn có hiện tượng nối âm.
Âm tiết tiếng Việt có khả năng biểu hiện ý nghĩa:
Trong một số ngôn ngữ khác như ở châu Âu, âm tiết chỉ là đơn vị ngữ âm
thuần túy. Nếu bị tách ra khỏi từ chứa nó thì âm tiết trở nên hoàn toàn vô nghĩa.
Ngược lại trong tiếng Việt, đa số các âm tiết là có nghĩa. Hay nói khác đi, tuyệt đại
đa số các âm tiết đều là từ đơn. Ví dụ như: chân, tay, đầu, mắt,. Trong tiếng Việt hiện
nay còn một số âm tiết được coi là vô nghĩa như pheo trong tre pheo, núc trong bếp
núc,. Mặc dù vậy trong quá khứ, các từ này cũng đều có nghĩa (pheo = tre, núc = bếp).

Âm tiết tiếng Việt có cấu trúc chặt chẽ:
Âm tiết tiếng Việt thực chất không phải là một khối không thể chia nhỏ mà là
một cấu trúc [3]. Một âm tiết dạng đầy đủ (âm tiết có thanh điệu) bao gồm 5 thành
phần thể hiện như ở bảng sau:
Bảng 1.1. Cấu chúc âm tiết tiếng Việt
VẦN
ÂM ĐẦU

Âm đệm

Âm chính

Âm cuối

THANH ĐIỆU
Thành phần thứ nhất là Thanh điệu: thành phần này có chức năng phân biệt
các âm tiết với nhau về mặt cao độ. Trong tiếng Việt có tất cả 6 thanh điệu tương
ứng sắc, huyền, hỏi, ngã, nặng, ngang.
15


Thành phần thứ hai là Âm đầu: có chức năng mở đầu một âm tiết. Âm đầu bao
giờ cũng là một phụ âm. Ví dụ, trong âm tiết loại âm đầu là phụ âm /l/.Các âm tiết
anh, em, ơi phụ âm đầu là /ʔ/ (âm tắc thanh hầu) (dấu / / dùng để ký hiệu phiên âm
âm vị học [2]).
Thành phần thứ ba là Âm đệm: âm đệm có chức năng làm thay đổi âm sắc của
âm tiết, cụ thể làm trầm hóa âm tiết. Thành phần này do bán nguyên âm /w/ thực
hiện. Trong âm tiết toát, bán nguyên âm là o. Âm tiết xinh không có bán nguyên âm.
Trường hợp này âm đệm được gọi là âm đệm zêrô.
Thành phần thứ tư là Âm chính: có vai trò quyết định âm sắc chủ yếu của âm

tiết. Thành phần này luôn do một nguyên âm đảm nhiệm. Trong âm tiết toát, /a/ giữ
vai trò là âm chính.
Thành phần cuối cùng là Âm cuối: chức năng của nó là kết thúc âm tiết. Nó có thể là
phụ âm /t/ trong toát, /n/ trong ban, hoặc một bán nguyên âm /u/ trong kêu hay /i/ trong
gọi. Tương tự âm đệm, âm cuối có thể là zêrô. Ví dụ như các âm tiết ba, bị, bò, bê.
Mối liên kết của năm thành phần trên không phải là có mức độ chặt chẽ giống
nhau. Liên kết giữa thanh điệu, âm đầu và vần ở mức độ lỏng lẻo, có tính độc lập
nhất định. Nghĩa là trong thực tế chúng có thể phân li. Chẳng hạn trong cách nói lái
con mèo- meo còn, con cầy-cây còn có hiện tượng tách thanh điệu ra khỏi thành
phần còn lại của âm tiết. Trong cách nói cá đua-cua đá, chua vúa-vua chúa cho thấy
có sự hoán đổi âm đầu giữa hai âm tiết. Mối liên kết giữa các thành phần âm đệm,
âm chính và âm cuối trong vần thì chặt chẽ hơn. Trong thực tế, ít thấy có sự phân li
giữa các thành phần này [3].
b. Âm vị
Âm vị là đơn vị tối thiểu của hệ thống ngữ âm của một ngôn ngữ dùng để cấu
tạo và phân biệt vỏ âm thanh của các đơn vị có ý nghĩa của ngôn ngữ [3]. Để ghi âm
vị, người ta thường đặt ký hiệu phiên âm ở giữa hai vạch nghiêng song song. Ví dụ
như /b/, /a/. Âm vị có sự phân biệt với âm tố. Âm vị là một đơn vị trừu tượng, còn
âm tố là một đơn vị cụ thể. Âm vị được thể hiện ra bằng các âm tố và âm tố là sự
16


×