Tải bản đầy đủ (.pdf) (87 trang)

Nghiên cứu hệ thống nhúng giám sát, điều khiển các thiết bị dân dụng bằng tiếng nói tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.06 MB, 87 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
--------------------------------------

LUẬN VĂN THẠC SĨ KHOA HỌC
NGÀNH : ĐO LƯỜNG VÀ CÁC HỆ THỐNG ĐIỀU KHIỂN

NGHIÊN CỨU HỆ THỐNG NHÚNG GIÁM SÁT, ĐIỀU
KHIỂN CÁC THIẾT BỊ DÂN DỤNG BẰNG TIẾNG NÓI
TIẾNG VIỆT

KHUẤT QUANG VINH

Hà Nội 2009


LỜI CẢM ƠN
Sau một thời gian thực tập và nghiên cứu tại Trung tâm MICA – Trường
Đại học Bách Khoa Hà Nội, tôi đã hoàn thành luận văn “Hệ thống nhúng giám
sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt” theo đúng yêu
cầu khi được giao luận văn cao học.
Tôi xin gửi lời cảm ơn chân thành tới Trung tâm MICA nơi tạo điều kiện
cho tôi thực tập nghiên cứu và làm luận văn. Qua đây tôi cũng xin chân thành cảm
ơn TS Eric Castelli, TS Nguyễn Thị Lan Hương, TS Nguyễn Quốc Cường, TS
Nguyễn Việt Tùng cùng nhiều cán bộ nghiên cứu khác đã giúp đỡ tôi hoàn thành
tốt luận văn này. Đặc biệt tôi xin gửi tới PGS-TS Phạm Thị Ngọc Yến lòng biết
ơn sâu sắc, người đã trực tiếp hướng dẫn và tạo điều kiện giúp đỡ tôi hoàn thành
luận văn này.
Xin bảy tỏ lòng biết ơn tới các thày cô Bộ môn Kỹ thuật Đo và Tin học
công nghiệp đã tạo điều kiện và giúp đỡ tôi trong suốt quá trình học tập chương
trình đào tạo thạc sỹ vừa qua.


Tôi cũng xin bày tỏ lòng biết ơn sâu sắc tới gia đình và bạn bè cùng khóa
học luôn ủng hộ, khích lệ tôi để tôi có thể yên tâm học tập, nghiên cứu và trưởng
thành như ngày hôm nay.
Một lần nữa tôi xin chân thành cảm ơn!
Hà Nội, ngày 02 tháng 11 năm 2009


-2Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

CÁC THUẬT NGỮ SỬ DỤNG TRONG LUẬN VĂN
STT

Thuật ngữ

Ý nghĩa

1.

HMM

Hidden Markov Moden

2.

LPC

Linear Predictive Coding

3.


MFCC

Mel Frequency Coefficient Cepstral

4.

ANN

Artificial Neuron Network

5.

MLP

Multilayer Perceptron

6.

DSP

Digital Signal Processor

7.

CCS

Code Composer Studio

8.


TI

Texas Instrument

9.

CSDL

Cơ sở dữ liệu

10. DTW

Khuất Quang Vinh

Dynamic Time Wrapping

Đo lường và Các Hệ thống điều khiển


-3Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

MỤC LỤC
LỜI MỞ ĐẦU .............................................................................................. - 8 CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ HỆ THỐNG
TƯƠNG TÁC NGƯỜI – MÁY BẰNG TIẾNG NÓI................................ - 11 1.1.
1.2.

Nhận dạng tiếng nói:............................................................................ - 11 Các phương pháp tiếp cận trong nhận dạng tiếng nói ......................... - 14 -

1.2.1. Phương pháp âm học – ngữ âm học: ............................................ - 14 1.2.2. Phương pháp nhận dạng mẫu ....................................................... - 16 1.2.3.
1.3.

1.4.
1.5.

Phương pháp ứng dụng trí tuệ nhân tạo........................................ - 18 Tình hình nghiên cứu và ứng dụng về nhận dạng tiếng nói tiếng Việt- 20 Hệ thống tương tác người – máy bằng tiếng nói ................................. - 21 Mục tiêu và nhiệm vụ của luận văn..................................................... - 23 -

1.5.1. Mục tiêu ........................................................................................ - 23 1.5.2. Nhiệm vụ ...................................................................................... - 23 CHƯƠNG 2:
2.1.

XÂY DỰNG CƠ SỞ DỮ LIỆU ..................................... - 25 -

Nhà thông minh: .................................................................................. - 25 -

2.1.1. Quan niệm về ngôi nhà thông minh ............................................. - 25 2.1.2. Các đối tượng điều khiển trong ngôi nhà thông minh.................. - 26 2.2. Điều khiển các thiết bị trong nhà bằng tiếng nói:................................ - 27 2.2.1. Các phương thức điều khiển thiết bị gia dụng trong nhà: ............ - 27 2.2.2. Nghiên cứu, đề xuất “cú pháp” điều khiển cho thiết bị:............... - 29 2.2.3. Đề xuất tập lệnh và lệnh định danh cho một số thiết bị gia dụng:- 29 2.2.4. Tổng kết tập lệnh: ......................................................................... - 33 2.3. Xây dựng cơ sở dữ liệu:....................................................................... - 34 2.3.1. Bảng các từ cần thu âm................................................................. - 34 2.3.2. Các bước thu âm ........................................................................... - 34 CHƯƠNG 3: XÂY DỰNG THUẬT TOÁN NHẬN DẠNG TỪ ĐIỀU KHIỂN
TRÊN PC - 35 3.1.

Tiền xử lý tín hiệu: .............................................................................. - 35 -

3.1.1. Hàm năng lượng ngắn hạn............................................................ - 35 3.1.2. Phát hiện điểm đầu và điểm cuối của tiếng nói............................ - 35 Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển


-4Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

3.1.3. Bộ lọc hiệu chỉnh .......................................................................... - 36 3.2. Trích chọn đặc trưng tín hiệu tiếng nói: .............................................. - 37 3.2.1. Phân khung tín hiệu ...................................................................... - 37 3.2.2. Mô hình LPC (Linear Predictive Coding model) ......................... - 39 3.2.3. Phương pháp MFCC (Mel-Frequency Ceptrum Coefficients).... - 46 3.3. Mô hình nhận dạng: ............................................................................. - 49 3.3.1. Mô hình Markov ẩn ...................................................................... - 49 3.3.2. Mô hình mạng neuron................................................................... - 57 3.4. Thử nghiệm thuật toán trên Matlab ..................................................... - 62 3.4.1. Phạm vi thử nghiệm (giới hạn)..................................................... - 62 3.4.2. Kết quả.......................................................................................... - 62 3.4.2.1. Mô hình Markov ẩn (HMM) .............................................. - 62 3.4.2.2. Mô hình mạng Neuron ....................................................... - 69 3.4.3. Lựa chọn thuật toán để cài đặt lên hệ nhúng ................................ - 71 CHƯƠNG 4: TRIỂN KHAI THUẬT TOÁN NHẬN DẠNG TIẾNG VIỆT
TRÊN DSP - 72 4.1.

Giới thiệu về DSP C6713 .................................................................... - 72 -

4.1.1. Một số đặc điểm kĩ thuật của DSP C6713.................................... - 72 4.1.2. Bộ DSK 6713................................................................................ - 74 4.1.3. Bộ Codec AIC23........................................................................... - 75 4.1.4. Code Compose Studio (CCS) ....................................................... - 76 4.2. Viết thuật toán nhận dạng từ điều khiển cho DSP .............................. - 78 4.2.1. Lưu đồ thuật toán nhận dạng tiếng nói tự động cho DSP ............ - 78 4.2.2. Xây dựng các module của chương trình....................................... - 79 4.3. Cài đặt thuật toán nhận dạng trên DSP 6713....................................... - 79 4.3.1. Thu tín hiệu âm thanh trên DSK 6713.......................................... - 79 4.3.2. Cài đặt thuật toán trích đặc trưng MFCC và mạng Neuron lên chip DSP

- 80 CHƯƠNG 5:
5.1.
5.2.

KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN ........................ - 82 -

Nhận xét kết quả chung của luận văn .................................................. - 82 Phương hướng tiếp theo....................................................................... - 83 -

5.2.1. Cải tiến thuật toán......................................................................... - 83 5.2.2. Thiết kế hệ nhúng tự chủ .............................................................. - 84 Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển


-5Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

TÀI LIỆU THAM KHẢO .......................................................................... - 86 -

Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển


-6Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

DANH MỤC HÌNH VẼ
Hình 1.1: Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói điển hình. ... 13 Hình 1.2: Sơ đồ khối phương pháp âm học ngữ âm học.................................. - 15 Hình 1.3: Sơ đồ khối hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng
mẫu .................................................................................................................... - 17 Hình 1.4: Mô hình của phương pháp bottom-up.............................................. - 20 Hình 1.5: Sơ đồ hoạt động của một hệ thống giao tiếp người máy bằng tiếng nói. 22 Hình 1.6: Rô bốt trợ giúp ALBERT tại triển lãm Hannover, Rô bốt này được điều
khiển bằng tiếng nói. [Rogalla 2002] ................................................................ - 23 Hình 2.1: Điều khiển TV từ xa......................................................................... - 29 Hình 2.2: Điều khiển từ xa cho Điều hòa........................................................- 30 Hình 2.3: Nồi cơm điện có hẹn giờ nấu ........................................................... - 31 Hình 2.4: Điều khiển từ xa Đầu đọc đĩa DVD ................................................. - 32 Hình 3.1: Trích đặc trưng của tiếng nói ........................................................... - 38 Hình 3.2: Tin hiệu gốc và tín hiệu được khôi phục bởi các hệ số LPC ........... - 43 Hình 3.3: Các bước thực hiện thuật toán LPC ................................................. - 43 Hình 3.4: Tấn số Mel........................................................................................ - 47 Hình 3.5: Qui trình trích đặc trưng MFCC....................................................... - 47 Hình 3.6: Các bộ lọc tam giác để tính năng lượng trên mỗi dải tần số............ - 48 Hình 3.7: Mô hình bóng màu ........................................................................... - 50 Hình 3.8: Hàm forward .................................................................................... - 52 Hình 3.9: Hàm backward.................................................................................. - 52 Hình 3.10: Biến Forward-backward................................................................. - 54 Hình 3.11: Mô hình phi tuyến của một mạng Neuron .................................... - 57 Hình 3.12: a) Hàm ngưỡng b) Hàm tuyến tính c)Hàm sigmoid ................... - 58 Hình 3.13: Cấu trúc mạng Neuron 1 mức ........................................................ - 58 Hình 3.14: Mạng Neuron đa lớp ...................................................................... - 59 Hình 3.15: Mạng hồi qui Hopfield ................................................................... - 59 Hình 3.16: Quá trình học mạng đa mức ........................................................... - 61 Hình 3.17: Quá trình họcHMM........................................................................ - 63 Hình 3.18: Quá trình kiểm tra HMM ............................................................... - 64 Hình 3.19: Hàm tính codebook ........................................................................ - 65 Hình 3.20: Hàm huấn luyện HMM .................................................................. - 65 Hình 3.21: Hàm kiểm tra.................................................................................. - 65 Hình 3.22: Kết quả theo kích thước codebook................................................. - 66 Hình 3.23: Kết quả theo số trạng thái HMM.................................................... - 66 Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển



-7Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình
Hình

3.24: Kết quả theo số bậc LPC ................................................................ - 67 3.25: Kết quả theo số trạng thái HMM.................................................... - 67 3.26: Test 2 lần để nâng cao kết quả ...................................................... - 68 3.27: Quá trình tìm tham số tối ưu cho mạng Neuron .......................... - 69 3.28: Hàm chuẩn bị dữ liệu ..................................................................... - 70 3.29: Hàm huấn luyện mạng Neuron ...................................................... - 70 3.30: Hàm Kiểm tra ................................................................................. - 70 3.31: Mạng Neuron với đặc trưng LPC................................................... - 70 3.32: Mạng Neuron với đặc trưng MFCC............................................... - 71 4.1: Cấu trúc bộ nhớ của DSP ................................................................. - 73 4.2: Bảng mạch DSK 6713...................................................................... - 74 4.3: Cấu trúc bộ kit DSK 6713................................................................ - 75 4.4: Mô hình bộ CodecAIC23 ................................................................. - 75 4.5: Kết nối CCS với DSK 6713 ............................................................. - 77 4.6: Lưu đồ thuật toán nhận dạng tiếng nói rời rạc cho DSP.................. - 78 4.7: Sai lệch khi tính hệ số MFCC bằng chương trình C ....................... - 81 5.1: Mô hình nhận dạng kết hợp DTW và mạng Neuron cho 1 từ ......... - 84 -

Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển


-8Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt


LỜI MỞ ĐẦU

Nhận dạng tiếng nói tự động từ lâu đã là một mơ ước của con người. Trong
những năm gần đây, khi mà khoa học công nghệ tiến bộ cho phép thì ước mơ này
đang dần dần trở thành hiện thực. Trong cuộc sống có rất nhiều ứng dụng cần đến
nhận dạng tự động bằng tiếng nói như nhapaj dữ liệu máy tính bằng lời, hỗ trợ
người tàn tật, quay số điện thoại bằng lời nói … Hiện nay trên thế giới đã có một
só hệ thống nhận dạng tiếng nói cỡ lớn, có độ chính xác tương đối cao. Các hệ
thống này chủ yếu được phát triển trên nền công nghệ hiện đại với các máy tính
lớn, các vi mạch xử lý tiếng nói chuyên dụng và sử dụng các cơ sở dữ liệu tiếng
nói khá hoàn chỉnh (chủ yếu là tiếng Anh).
Còn đối với tiếng Việt, do có những đặc thù riêng, nên việc chọn lựa cách
tiếp cận bài toán nhận dạng sao cho phù hợp với tiếng Việt là một vấn đề quan
trọng và tương đối khó khăn. Trong những năm gần đây, ở Việt Nam nói chung
và ở Đại học Bách Khoa HN nói riêng, đã có khá nhiều nghiên cứu về nhận dạng
tiếng nói tiếng Việt. Tuy nhiên, nếu so với trên thế giới thì những kết quả đó còn
tương đối hạn chế. Cho đến nay, các hệ thống nhận dạng tiếng nói thành công
nhật chủ yế dựa trên khuynh hướng nhận dạng mẫu. Các kỹ thuật nhận dạng mẫu
đơn giản như lượng tử hóa vector, hiệu chỉnh thời gian động … đã được áp dụng
khá thành công vào các ứng dụng nhận dạng tiếng nói tiếng Việt phát âm rời rạc
với số lượng từ vựng hạn chế. Tuy nhiên, mục tiêu của nhận dạng tiếng nói tự
động bằng máy là phải tiến tới các hệ thống nhận dạng tiếng nói liên tục, kích
thước từ điển lớn, không phụ thuộc người nói. Vì vậy, các hệ thống nhận dạng
tiếng nói ngày nay thường được xây dựng trên cơ sở áp dụng các kỹ thuật nhận

Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển



-9Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

dạng mẫu phức tạp hơn, đó là mô hình Markov ẩn, hoặc mô hình lai giữa Markov
và mạng Neuron.
Việc ứng dụng nhận dạng tiếng nói vào các lĩnh vực khác ở Việt Nam hiện
nay cũng còn rất hạn chế và chưa có ứng dụng nào đáng kể trong thực tế. Có một
số sản phẩm về nhận dạng tiếng nói được giới thiệu như phần mềm nhận dạng
tiếng Việt VSpeech được phát triển bởi nhóm BK02 [Internet05]. Phần mềm này
được phát triển trên nền tảng dựng sẵn của Microsoft (Microsoft Recognition
Engine) áp dụng cho tiếng Anh.
Để có thể mở rộng các ứng dụng của nhận dạng tiếng nói tiếng Việt tự
động, các ứng dụng của công nghệ này không chỉ được phát triển trên máy tính
mà cần phải được phát triển trên các hệ nhúng.
Với mục đích đưa các nghiên cứu về nhận dạng tiếng nói tiếng Việt vào
ứng dụng trong thực tế, mang lại những sản phẩm thực sự hữu ích và thân thiện
cho người sử dụng. Luận văn này đi giải quyết vấn đề nghiên cứu thiết kế một vỉ
mạch nhúng có thể cấy ghép vào các thiết bị gia dụng sẵn có, để thêm tính năng
điều khiển bằng giọng nói cho các thiết bị đó.
Nội dung của luận văn tập trung vào các vấn đề sau:
- Nghiên cứu các kỹ thuật nhận dạng tiếng nói.
- Nghiên cứu các hệ DSP.
- Xây dựng cú pháp và CSDL tiếng nói tiếng Việt dùng trong điều khiển
các thiết bị gia dụng thông thường.
- Nghiên cứu thử nghiệm một số thuật toán nhận dạng tiếng nói tiếng
Việt rời rạc.
- Lập trình thử nghiệm thuật toán trên KIT phát triển DSK6713 cho dòng
DSP dấu phảy động của hãng Texas Instrument.
Nhằm thực hiện đầy đủ các nội dung đã đặt ra ở trên, cuốn luận văn này
được sắp xếp và chia thành 5 chương chính:

Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển


- 10 Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

- Chương 1: Tổng quan về nhận dạng tiếng nói.
- Chương 2: Xây dựng cơ sở dữ liệu
- Chương 3: Xây dựng và kiểm thử thuật toán nhận dạng tiếng Việt rời
rạc trên PC
- Chương 4: Xây dựng thuật toán nhận dạng trên DSP
- Chương 5: Kết quả và hướng phát triển
Trong quá trình thực hiện đề tài này tôi đã học hỏi và thu nhận được rất
nhiều kiến thức mới mẻ, điều này làm tôi cảm thấy hăng hái hơn trong việc học
tập và nghiên cứu sau này. Do hiểu biết của bản thân còn hạn chế và lĩnh vực xử
lý tiếng nói là một lĩnh vực khó nên chắc chắn luận văn còn nhiều thiếu sót, tôi rất
mong nhận được sự chỉ bảo góp ý của các thầy, cô giáo và các bạn học cùng khóa
học Cao học Đo lường & các hệ thống điều khiển 2007-2009.
Tôi xin chân thành cảm ơn!
Học viên thực hiện

Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển


- 11 Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI

VÀ HỆ THỐNG TƯƠNG TÁC NGƯỜI – MÁY BẰNG
TIẾNG NÓI
1.1.

Nhận dạng tiếng nói:

Nhận dạng tiếng nói là một lĩnh vực có tiềm năng ứng dụng to lớn. Một
cách tổng quát, nhận dạng tiếng nói là làm cho máy hiểu, nhận biết được ngữ
nghĩa của lời nói. Thực chất đay là quá trình biến đỏi tín hiệu âm thanh thu được
qua micro, qua đường dây điện thoại hoặc các thiết bị thu âm khác, … thành một
chuỗi các từ, sau đó các từ được nhận dạng có thể được sử dụng ngay trong các
ứng dụng điều khiển thiết bị, nhập liệu, soạn thảo văn bản bằng lời, … hoặc được
đưa đến một quá trình xử lý ngôn ngữ mức cao hơn.
Có thể phân loại các hệ thống nhận dạng tiếng nói như sau:
- Nhận dạng các từ phát âm rời rạc/liên tục.
- Nhận dạng tiếng nói phụ thuộc người nói/không phụ thuộc người nói.
- Hệ thống nhận dạng có từ điển cỡ nhỏ (khoảng vài chục từ)/ từ điển cỡ lớn
(hàng nghìn từ).
- Nhận dạng tiếng nói trong môi trường có độ ồn thấp/cao.
- …
Trong một hệ thống nhận dạng tiếng nói phát âm rời rạc thì người nói sau
khi nói một từ phải dừng lại trước khi phát âm từ tiếp theo. Ngược lại, hệ thống
nhận dạng lời nói liên tục không đòi hỏi điều này.
Hệ thống nhận dạng phụ thuộc người nói đòi hỏi người nói phải cung cấp
một số mẫu tiếng nói của mình trước khi sử dụng. Còn hệ thống nhận dạng không
phụ thuộc người nói có thể nhận dạng lời nói của bất kì người nào.

Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển



- 12 Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

Hệ thống nhận dạng tiếng nói có từ điển cỡ lớn hoặc có nhiều từ dễ nhầm
lẫn thường có độ chính xác không cao bằng hệ thống nhận dạng có vốn từ vựng
cỡ nhỏ.
Một vấn đề trọng tâm của nhận dạng tiếng nói là phải giải quyết được tính
biến thiên của tín hiệu tiếng nói. Hiện tại các hệ thống nhận dạng tiếng nói phân
biệt hai loại tính chất biến thiên: biến thiên âm học và biến thiên thời gian. Biến
thiên âm học bao hàm sự khác biệt về trọng âm, phát âm, cao độ, âm lượng …
Còn biến thiên thời gian là sự khác nhau về tốc độ phát âm. Hai loại biến thiên
này lại không hoàn toàn độc lập với nhau, ví dụ khi một người nói nhanh (biến
thiên thời gian) thì một số đoạn âm thanh có thể bị luyến (biến thiên âm học).
Ngoài ra, khi lời nói là một cụm từ hay một câu, ta cần áp dụng mô hình
ngôn ngữ hoặc một nguyên tắc ngữ pháp thích hợp nào đó để giới hạn mức độ kết
hợp giữa các từ. mô hình ngôn ngữ đơn giản nhất là một cấu trúc xác định các từ
được ghép đi sau một từ nào đó trong từ điển. Mô hình ngôn ngữ phức tạp hơn sử
dụng các nguyên tắc ngữ pháp của ngôn ngữ tự nhiên.

Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển


- 13 Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

Cơ sở dữ liệu tiếng nói

Tín hiệu

tiếng nói

Mô hình
âm học

Mô hình
từ vựng

Mô hình
ngôn ngữ

Phân tích xác
định đặc tính

Các
vector đặc

Tìm kiếm

Câu được
nhận dạng

Hình 1.1: Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói điển hình.

Hình 1.1 cho ta thấy các phần tử cơ bản của một hệ thống nhận dạng tiếng
nói điển hình. Tín hiệu tiếng nói sau khi được số hóa sẽ được chuyển thành một
tập các vector tham số đặc trưng với các phân đoạn tiếng nói có độ dài khoảng 1030ms. Các đặc tính này được dùng để tìm kiếm các từ giống nhất với một số điều
kiện ràng buộc về âm học, từ vựng và ngữ pháp (mô hình ngôn ngữ). Trong quá
trình huấn luyện, cơ sở dữ liệu tiếng nói được sử dụng để xác định cac tham số hệ
thống.

Một trong những khó khăn lớn nhất của việc nghiên cứu nhận dạng tiếng
nói tự động là tính phụ thuộc đa chuyên ngành. Có rất nhiều chuyên ngành khoa
học liên quan đến nhận dạng tiếng nói như: xử lý tiếng nói, vật lý (âm học), nhận
dạng mẫu, lý thuyết truyền tin, ngôn ngữ học, sinh lý học, khoa học máy tính…
Để có thể xây dựng thành công một hệ thống nhận dạng tiếng nói tự nhiên có từ
điển cỡ lớn thì cần phải có nhiều kiến thức trong tất cả các lĩnh vực chuyên môn
đó, đấy là một lượng kiến thức khổng lồ vượt quá khả năng của bất kỳ một người
nào. Vì vậy, hầu hết các nhà khoa học thường chỉ tập trung giải quyết một số bài
toán cụ thể trên cơ sở chuyên ngành hẹp của mình.
Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển


- 14 Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

1.2.

Các phương pháp tiếp cận trong nhận dạng tiếng nói

Hiện nay có 3 phương pháp phổ biến được sử dụng trong nhận dạng tiếng nói,
đó là:
- Phương pháp âm học – ngữ âm học.
- Phương pháp nhận dạng mẫu.
- Phương pháp ứng dụng trí tuệ nhân tạo.
1.2.1. Phương pháp âm học – ngữ âm học:
Phương pháp này dựa trên lý thuyết về âm học – ngữ âm học cho rằng tồn
tại các đơn vị ngữ âm xác định, có tính phân biệt trong lời nói và các đơn vị ngữ
âm đó được đặc trưng bởi một tập các đặc tính tín hiệu tiếng nói. Mặc dù các đặc
tính âm học của các đơn vị ngữ âm biến thiên rất lớn theo cả giọng người nói lẫn

tác động của các đơn vị ngữ âm xung quanh nhưng tồn tại các quy tắc cho phép
giải quyết vấn đề này. Bước đầu tiên trong nhận dạng tiếng nói theo phương pháp
này là phân đoạn và gán nhãn. Bước này chia tín hiệu tiếng nói thành các đoạn có
đặc tính âm học đặc trưng cho một (hoặc một vài) đơn vị ngữ âm, đồng thời gán
cho mõi đoạn âm thanh đó một hay nhiều nhãn ngữ âm phù hợp. Bước tiếp theo
(bước nhận dạng) dựa trên một số điều kiện ràng buộc về từ vựng, ngữ pháp… để
xác định ra một từ hoặc một chuỗi từ đúng trong số một chuỗi các nhãn ngữ âm
được tạo ra sau bước thứ nhất.
Sơ đồ khối của hệ thống nhận dạng theo phương pháp này như sau:

Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển


- 15 Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

Bộ phát hiện
đặc điểm 1

s(n)

Hệ thống phân
tích tiếng nói
Băng lọc
LPC






Phân đoạn

Gán nhãn

Chiến lược
điều khiẻn

Bộ phát hiện
đặc điểm Q

Formant
Pitch
Hữu
thanh/vô
thanh
Âm mui
Phụ âm xát

Lưới âm vị
Lưới đoạn
Khả năng
Gán nhãn
Cây quyết đinh
Chiến lược –
phân tích

Hình 1.2: Sơ đồ khối phương pháp âm học ngữ âm học.

Nguyên lý hoạt động của hệ thống này như sau:

- Tín hiệu tiếng nói sau khi số hóa được đưa tới khối phân tích tiếng nói
nhằm xác định các số đo phổ tín hiệu tiếng nói biến đổi theo thời gian. Các
kỹ thuật phân tích tiếng nói phổ biến là sử dụng các bộ lọc thông dải, mã
hóa dự đoán tuyến tính (LPC), …
- Bước sau đó là tách đặc tính tín hiệu tiếng nói nhằm biến đổi các số đo phổ
tín hiệu thành một tập các đặc tính mô tả các tính chất âm học của các đơn
vị ngữ âm khác nhau. Các đặc tính đó có thể là: tính chất âm mũi, âm xát,
vị trí các formant, âm hữu thanh hay vô thanh, tỷ số mức năng lượng tần số
cao so với mức năng lượng tần số thấp, …
- Tiếp theo là bước phân đoạn và gán nhãn. Ở bước này hệ thống nhận dạng
tiếng nói cố gắng tìm các vùng âm thanh ổn định (vùng có đặc tính thay đổi
rất ít) và gán cho mỗi vùng này một nhãn phù hợp với đặc tính của đơn vị
Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển


- 16 Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

ngữ âm. Đây chính là bước chủ yếu của hệ thống nhận dạng tiếng nói theo
khuynh hướng âm học – ngữ âm học, và là bước khó thực hiện tin cậy nhất.
- Bước cuối cùng là dựa vào một số nguyên tắc lựa chọn để kết hợp chính
xác các khối ngữ âm để tạo thành các từ nhận dạng.
- Phương pháp này đã được nghiên cứu sâu trong hơn 40 năm qua, tuy nhiên
vì nhiều nguyên nhân mà cách tiếp cận này không thu được nhiều thành
công. Sau đây là một vài nguyên nhân cơ bản:
- Phương pháp này yêu cầu sự hiểu biết sâu rộng về các thuộc tính âm học
của các đơn vị ngữ âm. Điều này thường không thể có được trừ các thuộc
tính âm học của các nguyên âm.
- Việc lựa chọn các đặc điểm đa phần dựa vào các quan sát không theo cách

thức nào cả. Với hầu hết các hệ thống các đặc điểm được lựa chọn dựa vào
trực giác và không được tối ưu.
- Thiết kế của các bô phân loại âm thanh cũng không được tối ưu. Gần đây
phương pháp CART (Classification And Regression Tree) được sử dụng để
xây dựng các cây quyết định hiệu quả hơn. Tuy nhiên các đặc điểm được
lựa chọn chỉ là các tối ưu địa phương.
- Không có thủ tục tự động, xác định nào để điều chỉnh các tham số của
phương pháp này (ví dụ như điều chỉnh ngưỡng quyết định …) Thậm chí
không có mọt cách đánh nhãn nào được phần lớn các chuyên gia chấp nhận.
1.2.2. Phương pháp nhận dạng mẫu
Phương pháp này không cần xác định đặc tính âm học hay phân đoạn tiêng nó mà
sử dụng trực tiếp các mẫu tín hiệu tiếng nói trong quá trình nhận dạng. Các hệ
thống nhận dạng tiếng nói theo phương pháp này được phát triển theo 2 bước. Ở
bước thứ nhất, hệ thống sử dụng một tập mẫu tiếng nói (cơ sở dữ liệu tiếng nói) để
huấn luyện tạo ra các mẫu tiếng nói đặc trưng (mẫu tham chiếu). Bước thứ hai hệ

Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển


- 17 Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

thống nhận các mẫu tiếng nói từ bên ngoài, so sánh chúng với các mẫu đặc trưng
để nhân dạng.
Trong phương pháp này, nếu cơ sở dữ liệu tiếng nói dùng cho huấn luyện có đủ
các phiên bản của mẫu cần nhận dạng thì quá trình huấn luyện có thể xác định
chính xác các đặc tính âm học của mẫu (mẫu ở đây có thể là âm vị, từ, cụm từ,
…). Trước đây, đối với các hệ thống nhận dạng tiếng nói là các từ rời rạc, vốn từ
vựng cỡ nhỏ thì người ta thường áp dụng các kỹ thuật nhận dạng mẫu đơn giản

như: lượng tử hóa vector, hiệu chỉnh thời gian động, .. Hiện nay có hai kĩ thuật
nhận dạng mẫu được áp dụng khá thành công trong lĩnh vực nhận dạng tiếng nói,
đó là mô hình Markov ẩn và mạng Neuron.
Sơ đồ khối của hệ thống nhận dạng tiếng nói theo phương pháp này như sau:
Huấn
luyện mẫu
Trích chọn
đặc trưng
Tiếng
nói

Các mẫu
chuẩn/ các
mô hình

{mẫu thử}

{các mẫu tham chiếu}

Phân tích
hệ thống
Băng lọc
LPC
DFT

Phân loại
mẫu

Quyết
định logic


Tiếng nói
nhận dạng

Hình 1.3: Sơ đồ khối hệ thống nhận dạng tiếng nói theo phương pháp nhận dạng mẫu

Hoạt động của hệ thống có thể được tóm tắt như sau:
- Trích chọn đặc trưng tiếng nói: đầu tiên tín hiệu tiếng nói được phân tích
thành một chuỗi các số đo để xác định mẫu nhận dạng. Các số đo đặc tính
thường la kết quả của một số kĩ thuật phân tích phổ như: các bộ lọc thông

Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển


- 18 Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

dải, phân tích mã hóa dự đoán tuyến tính (LPC), phép biến đổi Fourier rời
rạc (DFT) …
- Huấn luyện mẫu: các mẫu tiếng nói tương ứng với các đơn vị âm thanh
cùng loại được dùng để đào tạo ra các mẫu hoặc các mô hình đại diện, còn
gọi là mẫu tham chiếu hay mẫu chuẩn.
- Nhận dạng: các mẫu tiếng nói được đưa tới khối phân loại mẫu, khối này có
nhiệm vụ so sánh mẫu đầu vào cần nhận dạng với các mẫu tham chiếu đã
được xác định, rồi dựa trên một số tiêu chuẩn để quyết định xem mẫu tham
chiếu nào giống mẫu đầu vào nhất.
Phương pháp này có một số đặc điểm sau:
- Hiệu năng của hệ thống rất nhạy cảm đối với số dữ liệu mẫu đưa vào huấn
luyện. Nếu số lượng mẫu càng nhiều thì độ chính xác của hệ thống càng

cao, tuy nhiên dung lượng bộ nhớ và thời gian luyện mẫu cũng tăng theo.
- Các mẫu tham chiếu thường phụ thuộc vào môi trường phát âm và các đặc
tính truyền dẫn của môi trường.
- Phương pháp này có thể được sử dụng để nhận dạng từ mà không đòi hỏi
khả năng am hiểu sâu về ngôn ngữ.
1.2.3. Phương pháp ứng dụng trí tuệ nhân tạo
Có thể coi đây là phương pháp kết hoepj của các phương pháp trên với ý
tưởng tận dụng tối đa các ưu điểm của từng phương pháp, đồng thời cố gắng mô
phỏng khả năng tuyệt hảo của con người trong sự phân tích và cảm nhận các sự
kiện bên ngoài nói chung và tiếng nói nói riêng.
Đặc điểm chung của các hệ thống nhận dạng theo phương pháp này là:
- Sử dụng hệ chuyên gia để phân đoạn, gán nhãn ngữ âm. Điều này làm đơn
giản hóa hệ thống so với phương pháp nhận dạng ngữ âm.
- Sử dụng mạng Neuron để học các mối quan hệ giữa các ngữ âm. Sa đó
dùng mạng này để nhận dạng tiếng nói.
Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển


- 19 Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

Việc sử dụng hệ chuyên gia ở đây là nhằm mục đích tận dụng các nguồn
kiến thức của con người vào trong hệ thống nhận dạng, đó là:
- Kiến thức về âm học: Nhằm để phân tích phổ và xác định đặc tính âm học
của các mẫu tiếng nói đầu vào.
- Kiến thức về từ vựng: Sử dụng kết hợp các khối ngữ âm thành các từ cần
nhận dạng.
- Kiến thức về cú pháp: Nhằm kết hợp các từ thành các câu cần nhận dạng.
- Kiến thức về ngữ nghĩa: Nhằm xác định tính logic của các câu đã được

nhận dạng.
Tùy theo các hệ thống khác nhau mà sự kết hợp các nguồn kiến thức từ hệ
chuyên gia là khác nhau.
Có nhiều cách khác nhau để tổng hợp các nguồn kiến thức vào trong một bộ
nhận dạng tiếng nói. Phương pháp thông dụng nhất là xử lý “từ dưới lên” (hình
…) Theo cách này, các tiến trình xử lý của hệ thống được triển khai tuần tự từ
thấp lên cao. Trong sơ đồ hình …, các tiến trình ở mức thấp (phân tích tín hiệu,
tìm đặc tính, phân đoạn, gán nhãn) được triển khai trước các tiến trình xử lý ở
mức cao hơn (phân lớp âm thanh, xác định từ, xác định câu). Mối tiến trình xử lý
đòi hỏi một hoặc một số nguồn kiến thức nhất định. Ví dụ, bước phân đoạn tiếng
nói cần có sự hiểu biết sâu sắc về đặc tính âm học – ngữ âm học của các đơn vị
ngữ âm, bước xác định từ đòi hỏi kiến thức về từ vựng, bước xác định câu đòi hỏi
kiến thức về mô hình ngôn ngữ (nguyên tắc ngữ pháp).

Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển


- 20 Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt
Tiếng nói
Phân tích tín hiệu

Trích chọn đặc tính

Âm hữu thanh/ vô thanh /
khoảng lặng

Phân đoạn


Gán nhãn

Các
nguồn
kiến
thức

Nguyên tắc phân loại âm

Phân lớp âm thanh

Nguyên tắc ngữ âm

Xác định từ

Truy câp từ điển

Xác định câu

Mô hình ngôn ngữ

Lời nói được nhận dạng

Hình 1.4: Mô hình của phương pháp bottom-up

1.3.

Tình hình nghiên cứu và ứng dụng về nhận dạng tiếng nói

tiếng Việt

Tại Việt Nam, lĩnh vực nhận dạng tiếng nói tiếng Việt mới được thực sự
quan tâm trong những năm gần đây. Có luận văn đã đi giải quyết việc nhận dạng
tiếng nói tiếng Việt sử dụng mức dưới từ [Nguyễn Phú Bình], nhận dạng các từ
rời rạc [Nguyễn Hồng Quang], nhận dạng chữ số [Nguyễn Tử Quảng],… Cũng có
nhiều nghiên cứu áp dụng các mô hình nhận dạng đã thành công với các ngôn ngữ
như Anh, Pháp để áp dụng cho tiếng Việt như
Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển


- 21 Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

Hiện nay, có một số Viện và Trung tâm nghiên cứu hàng đầu về lĩnh vực
nhận dạng tiếng nói ở Việt Nam như:
- Phòng nhận dạng và công nghệ tri thức - Viện công nghệ thông tin.
- Trung tâm nghiên cứu quốc tế MICA - Đại học Bách khoa Hà Nội.
- Khoa Công nghệ thông tin - Trường Đại học Khoa học Tự nhiên.
- …
Việc ứng dụng xử lý tiếng nói vào các lĩnh vực khác ở Việt Nam hiện nay
cũng còn rất mới mẻ và chưa có ứng dụng nào đáng kể trong thực tế. Cũng có một
số sản phẩm về nhận dạng tiếng nói được giới thiệu như phần mềm nhận dạng
tiếng Việt VSpeech được phát triển bởi nhóm BK02 [Internet05]. Phần mềm này
được phát triển trên nền tảng dựng sẵn của Microsoft (Microsoft Recognition
Engine) áp dụng cho tiếng Anh, thiếu những nghiên cứu cơ bản và chuyên sâu về
các đặc tính của tiếng Việt nhằm phục vụ cho việc mở rộng các ứng dụng sau này
cũng như là có thể phát triển thành hệ thống nhận dạng lời nói liên tục, lượng từ
vựng lớn.
Để có thể mở rộng các ứng dụng của xử lý tiếng nói (nhận dạng và tổng
hợp), các ứng dụng của công nghệ này không chỉ được phát triển trên máy tính mà

cần phải được phát triển trên các hệ nhúng. Tuy nhiên tại Việt Nam, vấn đề này
cũng chưa thực sự phát triển, mới chỉ có những nghiên cứu thực hiện dưới dạng
đề tài sinh viên, hay những đề tài khoa học cấp khoa hay cấp trường của trường
đại học.
1.4.

Hệ thống tương tác người – máy bằng tiếng nói

Sơ đồ của một hệ thống giao tiếp người máy bằng tiếng nói được trình bày
trên hình 2. Giống như việc giao tiếp của con người, bài toán đầu tiên của một hệ
thống tương tác bằng tiếng nói là phải hiểu lời nói được đưa ra bởi người điều
khiển, có nghĩa là phải nhận dạng được tiếng nói. Do vậy khối đầu vào của hệ
Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển


- 22 Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

thống giao tiếp chính là khối nhận dạng tiếng nói. Với khối này, tiếng nói được
nhận dạng sẽ được chuyển sang dạng văn bản và được đưa tới bộ phân tích ngôn
ngữ. Dựa trên các nguyên tắc phân tích ngữ nghĩa bộ phân tích ngôn ngữ sẽ đưa ra
ý nghĩa của lời nói và đưa nội dung ý nghĩa này tới hệ chuyên gia. Hệ chuyên gia
sẽ lựa chọn những chỉ thị, mệnh lệnh phù hợp cho khối điều khiển cũng như đưa
ra các chỉ thị bằng văn bản để có thể tổng hợp lại thành tiếng nói qua đó có thể
giao tiếp với người sử dụng.
Convert spoken input
into grammatically
correct text
(Speech)


Speech (Text)
Recognizer

Extracts
meaning
from text

Select desired action,
issues commands to
system, constructs
reply in text form

Language (Meaning)
Analyzer

Expert
system

(reply
text)

Convert text reply
into machine
generated speech
(Speech)
Text-tospeech
synthesizer
Voice
output


vocabulary
&grammar
model

Pronunciation
rule

Semantic
rule

Systems under voice
control executes
commands reports status
Output
action

Hình 1.5: Sơ đồ hoạt động của một hệ thống giao tiếp người máy bằng tiếng nói.

Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển


- 23 Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

Hình 1.6: Rô bốt trợ giúp ALBERT tại triển lãm Hannover, Rô bốt này được điều khiển bằng tiếng nói.
[Rogalla 2002]

1.5.


Mục tiêu và nhiệm vụ của luận văn

1.5.1. Mục tiêu
Luận văn này được thực hiện với các mục tiêu sau:
- Xây dựng tập khẩu lệnh/cú pháp:
- Xây dựng và thử nghiệm trên PC một số mô hình nhận dạng tiếng nói đã có
áp dụng cho tập khẩu lệnh đã xây dựng.
- Xây dựng và thử nghiệm trên một hệ nhúng với thuật toán trên.
1.5.2. Nhiệm vụ
• Tìm hiểu về các hệ thống nhận dạng tiếng nói tự động.
• Xây dựng cơ sở dữ liệu từ điều khiển cho các thiết bị gia dụng.
• Nghiên cứu một số thuật toán trong nhận dạng tiếng nói tiếng Việt rời rạc
để chọn ra một thuật toán phù hợp cho việc cài đặt lên hệ thống nhúng.

Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển


- 24 Hệ thống nhúng giám sát điều khiển các thiết bị dân dụng bằng tiếng nói tiếng Việt

• Tìm hiểu DSP dấu phảy động của hãng TI. Tiến hành lập trình thuật toán
nhận dạng tiếng nói cho hệ thống này.
• Lập trình các chương trình quản lý và điều khiển hệ thống.
• Kỹ thuật giao tiếp, truyền tin giữa PC và hệ DSK6713.

Khuất Quang Vinh

Đo lường và Các Hệ thống điều khiển



×