Tải bản đầy đủ (.pdf) (254 trang)

Nghiên cứu thiết kế chế tạo thiết, hệ thống tự động hoá thông minh sử dụng tương tác người máy bằng tiếng nói trong điều khiển

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.15 MB, 254 trang )



BỘ KHOA HỌC VÀ CÔNG NGHỆ BỘ GIÁO DỤC VÀ ĐÀO TẠO

CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC03



BÁO CÁO TỔNG HỢP
KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI

NGHIÊN CỨU THIẾT KẾ CHẾ TẠO CÁC THIẾT BỊ VÀ HỆ
THỐNG TỰ ĐỘNG HÓA THÔNG MINH SỬ DỤNG TƯƠNG
TÁC NGƯỜI MÁY BẰNG TIẾNG NÓI TRONG ĐIỀU KHIỂN
MÃ SỐ: KC.03.15/06-10




Cơ quan chủ trì đề tài/dự án: Trường Đại học Bách Khoa Hà Nội
Chủ nhiệm đề tài/dự án: GS. TS. Phạm Thị Ngọc Yến








Hà N
ội


-

2010



BỘ KHOA HỌC VÀ CÔNG NGHỆ BỘ GIÁO DỤC VÀ ĐÀO TẠO

CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC03


BÁO CÁO TỔNG HỢP
KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI

NGHIÊN CỨU THIẾT KẾ CHẾ TẠO CÁC THIẾT BỊ VÀ HỆ
THỐNG TỰ ĐỘNG HÓA THÔNG MINH SỬ DỤNG TƯƠNG
TÁC NGƯỜI MÁY BẰNG TIẾNG NÓI TRONG ĐIỀU KHIỂN
MÃ SỐ: KC.03.15/06-10

Chủ nhiệm đề tài: Cơ quan chủ trì đề tài:



GS.TS. Phạm Thị Ngọc Yến
Ban chủ nhiệm chương trình Bộ Khoa học và Công nghệ






Hà Nội - 2010
1

MỤC LỤC
DANH MỤC CÁC BẢNG 8

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 10

DANH MỤC CÁC TỪ VIẾT TẮT 17

Chương 1.

Mở đầu 19

1.1

Các thông tin chung về đề tài 19

1.2

Các vấn đề chung 20

1.2.1

Đánh giá sự phát triển của hệ thống thiết bị tự động hóa sử dụng
giao tiếp người máy bằng tiếng nói trên thế giới và Việt nam 20

1.2.2

Sản phẩm KHCN của đề tài 24


Tài liệu tham khảo 27

Chương 2.

Thiết kế, xây dựng hệ thống giám sát điều khiển sử dụng giao tiếp
người máy bằng tiếng nói 30

2.1

Nghiên cứu tương tác người – máy 30

2.1.1

Phân tích đặc tính của con người đối với bài toán điều khiển 30

2.1.2

Các mô hình của tài nguyên tương tác của con người 31

2.1.3

Các mô hình xử lý, ra quyết định và thực thi của con người, các yêu
cầu về thông tin của người vận hành 35

2.1.4

Nghiên cứu các yêu cầu đặc trưng về ergonomie của bài toán ứng
dụng trung tâm 43


2.2

Sơ đồ kiến trúc liên kết các khối cấu thành của lớp tương tác người-máy
trên các hệ thống giám sát điều khiển 55

2.2.1

Xây dựng giải pháp tích hợp và tổ chức các khối chức năng phần
cứng cấu thành 55

2

2.2.2

Xây dựng giải pháp tích hợp và tổ chức các khối chức năng phần
mềm cấu thành 63

2.3

Khối giao tiếp thu thập tín hiệu và truyền tin 67

2.3.1

Khối giao tiếp người máy bằng tiếng nói 67

2.3.2

Khối thu thập tín hiệu âm thanh 71

2.3.3


Các phương thức truyền số liệu 73

2.3.4

Mô đun phần cứng tích hợp các khối giao tiếp, thu thập dữ liệu,
truyền tin kết nói với máy tính trung tâm. 76

2.4

Khối xử lý trung tâm 76

2.4.1

Mô đun trích chọn thông tin 76

2.4.2

Mô đun nhận dạng câu lệnh 85

2.4.3

Mô đun phản hồi thông tin bằng tiếng nói 98

2.4.4

Mô đun lọc nhiễu và nâng cao tín hiệu 113

2.4.5


Hệ chuyên gia phân tích xử lý câu lệnh 119

2.5

Phòng thông minh điều khiển bằng tiếng nói 129

2.5.1

Phân tích thiết kế phòng thông minh điều khiển bằng tiếng nói 129

2.5.2

Kịch bản triển khai điều khiển các thiết bị trong phòng thông minh
130

2.5.3

Điều khiển cửa bằng tiếng nói 132

2.5.4

Điều khiển điều hòa bằng tiếng nói 133

2.5.5

Điều khiển vô tuyến bằng tiếng nói 134

2.5.6

Điều khiển đèn bằng tiếng nói 134


2.5.7

Điều khiển camera bằng tiếng nói 135

2.5.8

Thử nghiệm/Đánh giá hệ thống 135

3

2.6

Hệ thống giám sát điều khiển tính toán đường đáy, hiệu chỉnh trận địa
pháo phòng không và tự động nạp tham số cự ly mục tiêu bằng tiếng
nói. 136

2.6.1

Giới thiệu chung 136

2.6.2

Các thuật toán 137

2.6.3

Thiết kế hệ thống 144

2.6.4


Phương pháp tương tác 146

2.6.5

Chỉ tiêu kỹ thuật của hệ thống 148

2.6.6

Ưu điểm nổi trội của phương pháp so với các phương pháp khác . 149

Tài liệu tham khảo 152

Chương 3.

Thiết kế, xây dựng các thiết bị sử dụng tương tác người máy bằng
tiếng nói trên hệ thống nhúng 161

3.1

Đặc điểm chung của thiết bị sử dụng tương tác người máy bằng tiếng
nói trên hệ thống nhúng 161

3.2

Cấu trúc hệ thống 161

3.3

Khối giao tiếp, thu thập dữ liệu và truyền tin 163


3.3.1

Tương tác người máy bằng tiếng nói trong các ứng dụng nhúng 163

3.3.2

Mô đun thu thập dữ liệu 166

3.3.3

Các mô đun truyền tin 166

3.4

Khối xử lý trung tâm trên các vỉ phát triển vi xử lý 170

3.4.1

Mô đun xử lý tín hiệu và trích chọn đặc trưng 170

3.4.2

Triển khai và thích nghi các mô-đun nhận dạng từ đơn âm tiết và đa
âm tiết 171

4

3.4.3


Mô đun tổng hợp tiếng Việt phục vụ bài toán tương tác người máy
bằng tiếng nói 173

3.5

Mô đun quản lý CSDL tiếng nói trên DSP 179

3.5.1

Phân tích, phân nhóm CSDL theo kích thước và theo các yếu tố đặc
thù của các tương tác người máy trong các ứng dụng nhúng 179

3.5.2

Thiết kế, xây dựng không gian bộ nhớ quản lý lưu trữ cơ sở dữ liệu
trên ứng dụng nhúng 180

3.6

Rô bốt BIOLOID điều khiển bằng tiếng nói 183

3.6.1

Giới thiệu chung 183

3.6.2

Sơ đồ điều khiển 185

3.6.3


Nguyên lý hoạt động 187

3.6.4

Phương pháp tương tác 189

3.6.5

Chỉ tiêu kỹ thuật 190

3.6.6

Thử nghiệm/Đánh giá 190

3.7

Điều khiển quạt bằng tiếng nói. 191

3.7.1

Sơ đồ điều khiển 191

3.7.2

Nguyên lý hoạt động 193

3.7.3

Phương pháp tương tác 196


3.7.4

Chỉ tiêu kỹ thuật 197

3.7.5

Thử nghiệm/Đánh giá 197

Tài liệu tham khảo 198

Chương 4.

Phần mềm quản lý cơ sở dữ liệu tiếng nói 200

4.1

Giới thiệu chung về quá trình xây dựng CSDL 200

4.2

Các vướng mắc trong quá trình thu thập cơ sở nhập liệu (CSNL) 200

5

4.3

Các yêu cầu quản lý CSNL 201

4.3.1


Yêu cầu về môi trường 202

4.3.2

Yêu cầu về kiến trúc hệ thống 202

4.4

Mô tả chi tiết các chức năng chính 204

4.4.1

Tìm kiếm dữ liệu 204

4.4.2

Thêm các dữ liệu vào một ngữ liệu, thêm một ngữ liệu mới vào
CSNL 205

4.4.3

Sửa dữ liệu trong CSNL 206

4.4.4

Xóa ngữ liệu trong CSNL 206

4.4.5


Hiển thị dữ liệu 207

4.5

Giao diện mẫu chương trình 208

4.6

Thiết kế hệ thống 210

4.6.1

Mô hình của hệ thống 210

4.6.2

Thiết kế sơ bộ các chức năng của hệ thống 211

4.6.3

Cơ sở dữ liệu 213

4.7

Kết quả thực hiện 214

4.8

Kiểm thử và đánh giá 215


4.9

Hướng phát triển 215

Chương 5.

Định hướng phát triển hệ thống trong môi trường tương tác thực
có nhiễu 216

5.1

Giới thiệu 216

5.2

Phương pháp sử dụng mảng microphone 217

5.2.1

Phương pháp sử dụng kỹ thuật tạo chùm (beamforming) 218

6

5.2.2

Phương pháp sử dụng kỹ thuật che thời gian- tần số (time-frequency
masking) 219

5.2.3


Phương pháp sử dụng kỹ thuật tách nguồn mù (Blind source
separation) 220

5.2.4

Phương pháp sử dụng kỹ thuật phân tích dựa trên mô hình thính giác
CASA (Computational Auditory Scene Analysis) 221

5.3

Phương pháp chuẩn hóa vec-tơ đặc trưng 221

5.3.1

Phương pháp chuẩn hoá trung bình hệ số giả phổ CMN (Cepstral
Mean Normalization) 222

5.3.2

Chuẩn hóa phương sai hệ số giả phổ CVN (Cepstral variance
normalization) 223

5.3.3

Chuẩn hóa biểu đồ giả phổ CHN (Cepstral Histogram
Normalization) 223

5.3.4

Xác định tiếng nói VAD (Voice Activity Detection) 224


5.4

Phương pháp thích nghi mô hình âm học 225

5.4.1

Huấn luyện lại mô hình 225

5.4.2

Phương pháp chuỗi vec-tơ Tay-lo VTS (Vector Taylor Series) 226

5.4.3

Phương pháp MLLR (Maximum Likelihood Linear Regression) . 227

5.4.4

Phương pháp kết hợp mô hình song song PMC (Parallel Model
Combination) 228

Chương 6.

Đánh giá kết quả thực hiện 230

6.1

Kết quả thực hiện 230


6.1.1

Về sản phẩm 230

6.1.2

Về tài liệu khoa học 231

7

6.1.3

Về đào tạo 231

6.2

Đánh giá hiệu quả của đề tài 231

6.2.1

Hiệu quả kinh tế 231

6.2.2

Hiệu quả xã hội 232

6.2.3

Hiệu quả về khoa học công nghệ 232


6.3

Đánh giá tính mới, tính sáng tạo của đề tài 234

6.3.1

Tính mới của đề tài 234

6.3.2

Tính sáng tạo 234

6.4

Đánh giá mức độ hoàn thành của đề tài 234

6.4.1

Về sản phẩm 234

6.4.2

Về kinh phí 234

Lời cảm ơn 236

8

DANH MỤC CÁC BẢNG
Bảng 2-1: Đặc tính kỹ thuật của microphone AKG Perception 400 72


Bảng 2-2: Các thông số của mạch chuẩn hóa 73

Bảng 2-3: so sánh đặc tính cơ bản các phương thức truyền tin không dây
Bluetooth, Zigbee,Wifi 75

Bảng 2-4: Các từ trong CSDL điều khiển 101

Bảng 2-6: Các loại đơn vị âm trong tiếng Việt 103

Bảng 2-7: Tỉ sổ tín hiệu trên nhiễu phân đoạn cải thiện được của 3 phương
pháp: trừ phổ, MMSE và OMLSA ở 0dB 118

Bảng 2-8: Tỉ sổ tín hiệu trên nhiễu phân đoạn cải thiện được của 3 phương
pháp: trừ phổ, MMSE và OMLSA ở 5dB 118

Bảng 2-8: Tương tác người – máy điều khiển mở cửa 132

Bảng 2-10: Hệ thống tương tác người-máy điều khiển điều hòa 133

Bảng 2-11: Hệ thống tương tác người-máy điều khiển vô tuyến 134

Bảng 2-12: Hệ thống tác người-máy điều khiển đèn chiếu sáng 135

Bảng 2-13: Hệ thống tương tác người-máy điều khiển camera 135

Bảng 3-3: Phân nhóm CSDL theo tài nguyên sử dụng 179

Bảng 3-4: Các đặc tính của động cơ AX-12 183


Bảng 3-5: Các đặc tính của cảm biến AX-S1 185

Bảng 3-6: Tập lệnh điều khiển robot 189

Bảng 3-5: Các câu lệnh điều khiển quạt 193

Bảng 3-6: GPIO của các chân cổng mở rộng 194

Bảng 4-1: Bảng account 213

Bảng 4-2: Bảng CSDL 213

9

Bảng 4-3: Bảng account CSDL 214

Bảng 4-4: Bảng người nói 214

Bảng 4-5: Bảng dữ liệu 214

Bảng 4-6: Bảng kiểu ngôn ngữ và kiểu dữ liệu 214

Bảng 4-7: Đánh giá kết quả chạy chương trình trên IE 6.0 và Firefox 1.5 215


10

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1-1: Điều khiển robot bằng tiếng nói giao tiếp bằng micro đeo tai [Pires
2005] 21


Hình 2-1: Các hoạt động nhận thức, trí não, vật lý của người vận hành
[Villemeur 88] 30

Hình 2-2: Ba hệ thống lưu giữ thông tin 31

Hình 2-3: Mô hình của bộ nhớ con người [Card 83] 32

Hình 2-4: Mô hình ACT* 33

Hình 2-5: Mô hình thang ra quyết định 36

Hình 2-6: Ba dạng phối hợp cơ bản 37

Hình 2-7: Bảy bước của lý thuyết hành động Norman đã được thích nghi cho
bối cảnh giám sát 38

Hình 2-8: Hai cách xây dựng hướng dẫn ergonomie và hướng dẫn về cách trình
bày 45

Hình 2-9: Một số định dạng hiển thị 47

Hình 2-10: Phân chia màn hình thành 4 vùng chiến lược 47

Hình 2-11: Các hình thức biểu diễn thông thường trong cuộc sống hàng ngày . 49

Hình 2-12: Ví dụ về cách biểu diễn đúng và sai các hàm động có cùng đơn vị và
cùng dải đo 49

Hình 2-13: Các chức năng chính của hệ thống 56


Hình 2-14: Các hệ thống phần cứng con của hệ điều khiển trung tâm 57

Hình 2-15: Các thành phần phần cứng cơ bản của hệ thống giám sát và điều
khiển của phòng điều khiển trung tâm / nhà thông minh 57

Hình 2-16: Mô hình MVC 59

11

Hình 2-17: Mô hình phân cấp các cái nhìn trong MVC 59

Hình 2-18:Kiến trúc của một hệ thống tương tác bằng các đối tượng PAC 60

Hình 2-19:Mô hình kiến trúc theo kênh 60

Hình 2-20: Giải pháp tích hợp và tổ hợp các khối chức năng phần cứng cho
kênh nhận dạng tiếng nói 61

Hình 2-21: Giải pháp tích hợp các kênh phản hồi âm thanh (tổng hợp tiếng) với
mô hình MVC làm mô hình tham chiếu 62

Hình 2-22: Cấu trúc của mô hình kiến trúc 5 lớp 64

Hình 2-23: Kiến trúc của mẫu mô hình kiến trúc theo kênh 64

Hình 2-24: Mô hình hóa hệ tương tác [Foley 82] 65

Hình 2-25: Mô hình SEEHEM 65


Hình 2-26: Mô hình MVC 66

Hình 2-27: Kiến trúc của một hệ thống tương tác bằng các đối tượng PAC 66

Hình 2-28: Sơ đồ khối tổng quát của khối tương tác người-máy bằng tiếng nói
của một hệ thống giám sát 67

Hình 2-29: Các mô-đun con của mô-đun tương tác người – máy đa phương thức
68

Hình 2-30: Các mô hình trong mô-đun tương tác nhận thức 69

Hình 2-31: Sơ đồ mạch tiền khuếch đại với microphone 72

Hình 2-32: Mạch chuẩn hóa của micrphone 73

Hình 2-33: Kiến trúc hệ thống truyền tin hữu tuyến 74

Hình 2-34: Sơ đồ tích hợp khối thu thập số liệu và truyền tin 76

Hình 2-35: Sơ đồ của một bộ trích chọn đặc trưng 77

Hình 2-36: Nguyên lý tính hệ số MFCC 78

12

Hình 2-37: Cửa sổ Hamming 79

Hình 2-38: Minh họa các bộ lọc mel-scale tam giác (triangle mel-scale filters) 80


Hình 2-39: Nguyên lý tính hệ số PLP 81

Hình 2-40: (a) Dạng sóng của tín hiệu tiếng nói hữu thanh ; (b) Dạng sóng dao
động của dây thanh 84

Hình 2-41: Xác định tần số cơ bản dựa trên cepstrum 85

Hình 2-42: Mô hình quá trình tạo và nhận dạng tiếng nói 85

Hình 2-43: Sơ đồ khối của hệ thống nhận dạng tiếng nói 86

Hình 2-44: Giao diện của chương trình nhận dạng 98

Hình 2-45: Cấu trúc cơ bản của một hệ thống tổng hợp tiếng nói 99

Hình 2-46: Các loại đơn vị âm cho tổng hợp 103

Hình 2-47: Xây dựng CSDL đơn vị âm 104

Hình 2-48: Một đơn vị âm được trích chọn và thông tin ngữ cảnh của nó, mô-
đun quản lý dữ liệu đơn vị âm tổng hợp 104

Hình 2-49: Giao diện mô-đun quản lý đơn vị âm 104

Hình 2-50: Ví dụ về quá trình phân đoạn các nhóm sử dụng cây quyết định 105

Hình 2-51: Chọn lựa các đơn vị âm tốt nhất để tổng hợp câu “chào chị” 106

Hình 2-52: Biến đổi cao độ tín hiệu với TD-PSOLA trong trường hợp
β>1[Moulines 1995] 106


Hình 2-53: Biến đổi trường độ tín hiệu với TD-PSOLA trong trường hợp tăng
trường độ[Moulines 1995] 107

Hình 2-54: Sự không liên tục về pha [Huang 2001] 107

Hình 2-55: Ví dụ về sự không liên tục về phổ khi tổng hợp âm tiết /do/ từ các
đơn vị âm /_do/ và /o_/ 108

13

Hình 2-56: Đánh dấu đỉnh 108

Hình 2-57: Ghép nối đơn vị âm để tổng hợp câu nói “Tôi tên là Hương” 109

Hình 2-58: Tín hiệu dạng sóng, spectrogram và đường cong F0 của câu nói tổng
hợp “Tôi tên là Hương” 109

Hình 2-59: Tính toán các điểm đánh dấu cao độ theo phương pháp biến đổi tần
số cơ bản (β = 3/2) [Moulines 1995] 110

Hình 2-60: Biến đổi trường độ của tiếng nói 111

Hình 2-61: Biến đổi cao độ tín hiệu với TD-PSOLA trong trường hợp β>1
[Moulines 1995] 112

Hình 2-62: Biến đổi trường độ tín hiệu với TD-PSOLA trong trường hợp tăng
trường độ [Moulines 1995] 112

Hình 2-63: Biến đổi trường độ của tiếng nói 113


Hình 2-64: Âm tiết /ba/ với 6 thanh điệu của tiếng Việt 113

Hình 2-65: Lưu đồ thuật toán của phương pháp trừ phổ 115

Hình 2-66: Lưu đồ thuật toán phương pháp MMSE 115

Hình 2-67: Lưu đồ thuật toán phương pháp OM-LSA 116

Hình 2-68: Lưu đồ thuật toán nâng cao chất lượng tiếng nói theo phương pháp
OM-LSA 117

Hình 2-69: Tính toán hệ số khuếch đại trong miền tần số 117

Hình 2-70: Ước lượng công suất của nhiễu theo thuật toán IRMCA 117

Hình 2-71: Tín hiệu tiếng nói có nhiễu (bên trái), tín hiệu tiếng nói sau khi loại
bỏ nhiễu (bên phải) 118

Hình 2-72: Cấu trúc cơ bản của hệ thống hiểu tri thức ngôn ngữ nói 119

Hình 2-73: Cấu trúc cơ bản của hội thoại: khởi tạo và trả lời 124

14

Hình 2-74: Các hệ thống con của hệ thống tạo và biểu diễn thông điệp 128

Hình 2-75: Sơ đồ cấu trúc của kết nối của các thiết bị trong phòng điều khiển
trung tâm 131


Hình 2-76: Ví dụ màn hình giao diện trong phòng thông minh 132

Hình 2-77: Sơ đồ khối của bộ điều khiển điều hòa 133

Hình 2-78: Thuật toán xác định cự ly mục tiêu 139

Hình 2-79: Hệ tọa độ cầu 140

Hình 2-80: Hệ tọa độ Descartre 141

Hình 2-81: Sơ đồ hệ thống đo, tính toán ngoại suy cự ly 144

Hình 2-82: Sơ đồ hệ thống xác định số liệu đường đáy 145

Hình 3-1: Sơ đồ khối các mô-đun phần cứng hệ thống nhúng cho giao tiếp bằng
tiếng nói 163

Hình 3-2: Sơ đồ khối chức năng của bộ thu thập tín hiệu tiếng nói 166

Hình 3-3: Sơ đồ khối chức năng của hệ thống truyền tin cho khối xử lý trung
tâm 167

Hình 3-4: Sơ đồ khối củaTPS65950 168

Hình 3-5: Sơ đồ nguyên lý ghép nối giữa CODEC và xử lý số tín hiệu 169

Hình 3-6: Sơ đồ khối các mô-đun xử lý tín hiệu và trích chọn thông tin 170

Hình 3-7: Sơ đồ khối hệ thống nhận dạng 172


Hình 3-8: Biểu đồ hoạt động tổng quát của chương trình tổng hợp tiếng nói trên
DSP 174

Hình 3-9: File phân tích văn bản đầu vào 174

Hình 3-10: Các module trong chương trình tổng hợp tiếng nói trên DSP 176

Hình 3-11: Tỷ lệ sai số nhận dạng âm tiết của hai nhóm dữ liệu 177

15

Hình 3-12: Kết quả bài đánh giá MOS đối với 2 nhóm dữ liệu 178

Hình 3-13: Cấu trúc của CSDL dùng cho chương trình tổng hợp tiếng nói trên
DSP 181

Hình 3-14: Phần thông tin về một đơn vị âm trong CSDL 181

Hình 3-15: Tổ chức bộ nhớ SDRAM trong chương trình 182

Hình 3-16: Roobot nhện 6 chân lắp ráp từ bộ kit Bioloid 183

Hình 3-17: Sơ đồ điều khiển robot bằng tiếng nói 186

Hình 3-18: Mô hình của một chân nhện 188

Hình 3-19: Sơ đồ thiết bị 192

Hình 3-20: Các chân cổng mở rộng của bo mạch nhúng 192


Hình 3-21: Sơ đồ điều khiển 193

Hình 3-22: Sơ đồ thuật toán 196

Hình 4-1: Biểu đồ ca sử dụng 203

Hình 4-2 : Biểu đồ phân cấp chức năng của hệ thống 203

Hình 4-3: Quy trình thực hiện tìm kiếm 204

Hình 4-4: Biểu đồ phân cấp chức năng tìm kiếm 205

Hình 4-5: Tổng quan về chương trình quản lý CSDL tiếng nói 205

Hình 4-6: Quy trình thực hiện chức năng thêm dữ liệu 205

Hình 4-7: Quy trình thực hiện chức năng sửa dữ liệu 206

Hình 4-8: Quy trình thực hiện chức năng xóa dữ liệu 207

Hình 4-9: Quy trình thực hiện chức năng xem và hiển thị dữ liệu 207

Hình 4-10: Giao diện màn hình đăng nhập 208

Hình 4-11: Giao diện màn hình thêm mới dữ liệu 208

16

Hình 4-12: Giao diện màn hình tìm kiếm dữ liệu 209


Hình 4-13: Giao diện màn hình hiển thị kết quả tìm kiếm 209

Hình 4-14: Giao diện màn hình hiển thị tín hiệu và thông tin file 209

Hình 4-15: Mô hình Client / Server của hệ thống 210

Hình 4-16: Sơ đồ hoạt động của các công nghệ lập trình lựa chọn 210

Hình 4-17: Sơ đồ của chức năng thêm một ngữ liệu dữ liệu mới 211

Hình 4-18: Sơ đồ nhúng java applet vào trong trang web 212

Hình 4-19: Quan hệ giữa các bảng dữ liệu 213


17

DANH MỤC CÁC TỪ VIẾT TẮT

ACT Adative Control of Thought
ADC Analog to Digital Converter
ANN Mạng nơ ron
CG Đồ thị nhận thức
CSDL Cơ sở dữ liệu
CSNL Cơ sở nhập liệu
DAC Digital to Analog Converter
DCT Discrete cosine transform
DSP Digital signal processor
FFT Fast Fourier Transformer
GPIO General purpose input/output

HMM Hidden Markov Model
IIS Internet Information Service
IMCRA Phương pháp điều khiển trung bình đệ quy cực tiểu cải tiến
IR Infra red
KHKT Khoa học kỹ thuật
LAN Local Area Network
Lnk Siêu liên kết
LP Linear Predictive
LPC Linear Predictive Coding
LPF Low pass filter
MAP Maximum A Posteriori
MFCC Mel-frequency cepstral coefficients
MLLR Maximum Likelihood Linear Regression
MMSE Minimum Mean Square Error
MOS

Mean Opinion Score
Msg Thông điệp
NSNN Ngân sách nhà nước
18

OM-LSA Phương pháp tối ưu hóa ước lượng phổ biên độ theo thang
logarithm
PC Personal computer
PDA Personal Digital Assistant
PLC Power Line Communication
PLP Perceptual Linear Predictive
PSOLA Pitch Synchronous Overlap and Add
PWM Pulse Width Modulation
RAM Random access memory

RF Radio frequency
RFID Radio frequency Identification
ROM Read only memory
SNR Tỷ lệ tín hiệu trên nhiễu
SPLICE Stereo-based Piecewise Linear Compensation for
Environments
TD-PSOLA Time domain Pitch Synchronous Overlap and Add
TNHH Trách nhiệm hữu hạn
TTS Text to Speech
TV Tivi
UHF Ultra high frequency
VĐK Vi điều khiển

19

Chương 1. Mở đầu
1.1 Các thông tin chung về đề tài

Tên đề tài: Nghiên cứu thiết kế chế tạo các thiết bị và hệ thống tự động
hoá thông minh sử dụng tương tác người-máy bằng tiếng nói trong
điều khiển.

Thuộc chương trình KHCN cấp Nhà nước : Nghiên cứu khoa học và phát
triển công nghệ Tự động hóa, Mã số chương trình : KC.03.

Cấp quản lý : Nhà nước

Thời gian thực hiện: 24 tháng (1/2009-12/2010)

Kinh phí thực hiện đề tài : 3.141.000 đồng (ba tỷ một trăm bốn mươi mốt

triệu đồng)
- Trong đó, từ Ngân sách nhà nước: 3.141.000 đồng (ba tỷ một
trăm bốn mươi mốt triệu đồng)
- Kinh phí từ các nguồn khác:

Tổ chức chủ trì thực hiện đề tài: Trường Đại học Bách Khoa Hà Nội

Địa chỉ: Số 1 Đại Cồ Việt, Quận Hai Bà Trưng, Thành phố Hà Nội

Điện thoại: (04) 38 68 30 87. Fax: (04) 38 68 35 51

Chủ nhiệm đề tài: Phạm Thị Ngọc Yến

Học hàm, học vị: GS.TS

Chức vụ: Giám đốc Trung tâm nghiên cứu quốc tế Thông tin đa phương
tiện, Truyền thông và ứng dụng (MICA), trường ĐHBK Hà Nội

Địa chỉ: tầng 8,9,10 – Nhà B1, Trường ĐHBK Hà nội

Tổ chức: (04) 38683087 Nhà riêng: (04)39840101 Mobile: 09132493 96

E-mail:
20

1.2 Các vấn đề chung
1.2.1 Đánh giá sự phát triển của hệ thống thiết bị tự động hóa sử dụng giao
tiếp người máy bằng tiếng nói trên thế giới và Việt nam
Trên thế giới , các hệ thống tương tác người máy bằng tiếng nói được phát
triển trong nhiều lĩnh vực khác nhau:

- Trong quân sự: tương tác người máy bằng tiếng nói được sử dụng trong
các chương trình nhằm nâng cao khả năng tương tác của phi công trong điều
khiển máy bay chiến đấu, máy bay trực thăng của quân đội Mỹ [Weinstein
1990], Pháp, Anh [Internet01], Thuỵ Điển [Englund 2004]. Trong các ứng dụng
này, các giao tiếp bằng tiếng nói được sử dụng để thực hiện các chức năng: thiết
lập các tần số vô tuyến, ra lệnh hệ thống lái tự động, giám sát màn hình điều
khiển và thiết lập toạ độ và các tham số vũ khí chiến đấu. Ngoài ra, trong các hệ
thống huấn luyện ảo được sử dụng trong quân đội Mỹ, Pháp, hệ thống tương tác
kết hợp cả hai công nghệ nhận dạng và tổng hợp tiếng đóng vai trò như một đối
tác ảo (pseudo) tương tác với người được huấn luyện.
- Trong hệ thống thông tin liên lạc, các ứng dụng của công nghệ nhận dạng
tiếng nói tự động đã ngày càng phổ biến, với các dịch vụ quay số bằng tiếng
nói, các máy trả lời điều khiển bằng tiếng nói [Junqua 2004] [Internet02].
- Trong công nghiệp, công nghệ nhận dạng tiếng được tích hợp trong
những rô bốt điều khiển công nghiệp [Pires 2005] (Hình 1-1), những rô bốt
thông minh như Asimo của hãng Honda [Desesprement 2007]. Năm 2005, tại
triển lãm Aichi ở Nhật Bản, công ty Kokoro đã giới thiệu tới người xem rô bốt
tiếp tân có khả năng giao tiếp được bằng tiếng nói và làm nhiệm vụ của một
nhân viên tiếp tân.
Trong lĩnh vực y tế, nhận dạng tiếng được sử dụng trong các hệ thống nhập dữ
liệu. Hỗ trợ người tàn tật đặc biệt là những người có khuyết tật ở tay và chân và
không thể sử dụng chúng để tương tác với các thiết bị cần dùng, hay những
người có thính giác kém hiện là hướng đang quan tâm của công nghệ nhận dạng
tiếng nói [Internet 03].
21


Hình 1-1: Điều khiển robot bằng tiếng nói giao tiếp bằng micro đeo tai [Pires 2005]
Ngoài ra, có nhiều lĩnh vực khác sử dụng công nghệ xử lý tiếng nói nói
chung và công nghệ nhận dạng nói riêng được sử dụng từ mức độ thấp tới mức

độ cao. NASA ứng dụng công nghệ nhận dạng tiếng nói trong các phòng điều
khiển đặt trên trạm vũ trụ ISS, qua đó hỗ trợ các nhà du hành giảm bớt việc di
chuyển trong dự án “Những khả năng tiên tiến trong các hệ thống giao tiếp ngôn
ngữ tự nhiên hội thoại bằng tiếng nói” (Advanced Capabilities for Spoken
Dialogue- natural language Interface Systems) [Hockey 2008]. Trong hệ thống
điều khiển ô tô của hãng Ford, công nghệ nhận dạng tiếng nói được ứng dụng
nhằm trợ giúp người lái điều khiển, giám sát một số chức năng bằng tiếng nói.
Ngoài ra công nghệ nhận dạng tiếng còn được sử dụng trong chế tạo rô bốt đồ
chơi của trẻ em.
Tại Việt Nam, lĩnh vực xử lý tiếng nói cho tiếng Việt mới thực sự được quan
tâm trong khoảng gần 10 năm trở lại đây với các nghiên cứu của [Nguyễn Quốc
Cường 2002], [Lê Xuân Hùng 2003], [Nguyễn P.B. 2003], [Lê Việt Bắc 2006]
[Nguyễn Việt Sơn 2003] [Vu Tat Thang 2005] [Trần Đỗ Đạt 2007], [Nguyễn
Hồng Quang 2008], và mới đây nhất là các đề tài Đề tài cấp nhà nước mã số KC
01-03 “Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ
Việt”.
22

Nghiên cứu của [Lê Xuân Hùng 2003] và [Trần Đỗ Đạt 2007] trình bày các
vấn đề về tổng hợp tiếng Việt từ văn bản. Trong [Trần Đỗ Đạt 2007] tác giả đã
phân tích những biến đổi tần số cơ bản của thanh điệu tiếng Việt không chỉ ở
trạng thái tĩnh mà còn cả trạng thái động (tức là trong lời nói liên tục). Những
mô hình về thanh điệu, và ngữ điệu và về trường độ của tiếng Việt đã được tác
giả xây dựng. Tuy nhiên nghiên cứu này vẫn chưa giải quyết triệt để các vấn đề
về đồng cấu âm thanh điệu, về ảnh hưởng của ngữ điệu lên thanh điệu.
Các nghiên cứu của [Nguyễn Quốc Cường 2002] [Nguyễn Phú Bình 2003]
[Lê Việt Bắc 2006] và [Vu Tat Thang 2005], tập trung vào việc nhận dạng tiếng
Việt. Trong đó nghiên cứu của [Nguyễn Quốc Cường 2002] [Nguyễn Phú Bình
2003] mới dừng lại ở mức nhận dạng các từ rời rạc. Trong nghiên cứu của
[Nguyễn Quốc Cường 2002], tác giả đã tập trung vào vấn đề thanh điệu của

tiếng Việt, đây là một trong những đặc trưng khác biệt rõ nét của tiếng Việt so
với các ngôn ngữ khác. Tác giả đã chỉ ra rõ 8 thể hiện của đường cong tần số cơ
bản (F0) của thanh điệu. Sau khi đã phân tích sự biến đổi F0, tác giả tập trung
giải quyết vấn đề nhận dạng thanh điệu của tiếng Việt. Tuy nhiên tại nghiên cứu
này, tác giả mới dừng lại các bài toán về thanh điệu trong trạng thái tĩnh, có
nghĩa là trong các âm tiết rời rạc. Nghiên cứu của [Nguyễn Hồng Quang 2008],
[Lê Việt Bắc 2006] [Nguyễn Việt Sơn 2004] và [Vu Tat Thang 2005] đã bắt đầu
giải quyết nhận dạng tiếng nói liên tục trong tiếng Việt. Các nghiên cứu này sử
dụng mô hình Markov ẩn để huấn luyện và nhận dạng tiếng nói. Trong nghiên
cứu của [Lê Việt Bắc 2006], tác giả có đưa ra các phương pháp thích nghi nhằm
áp dụng những mô hình đã được huấn luyện cho các ngôn ngữ giàu nguồn tài
nguyên như tiếng Anh, Pháp, cho tiếng Việt. Tuy nhiên cả ba nghiên cứu này
chưa đề cập tới bài toán về thanh điệu của tiếng Việt trong lời nói liên tục, ngoài
ra kết quả nhận dạng còn hạn chế (độ chính xác ~70%) nếu so với các kết quả
của tiếng Anh, Pháp. Nghiên cứu của [Nguyễn Hồng Quang 2008] xây dựng hệ
thống nhận dạng tiếng Việt từ điển lớn có sử dụng thông tin về thanh điệu để
23

nâng cao chất lượng nhận dạng.
Trong đề tài nghiên cứu khoa học cấp nhà nước mã số KC01-03, ba vấn đề
cơ bản là, Nhận dạng tiếng nói, Tổng hợp tiếng nói và Xử lý ngôn ngữ cho tiếng
Việt được đặt ra. Các bài toán đưa ra để giải quyết tương đối đầy đủ, tuy nhiên
mới dừng ở mức đơn giản tập trung vào nghiên cứu, chưa đi sâu vào ứng dụng
đối với các bài toán cụ thể.
Việc ứng dụng xử lý tiếng nói vào các lĩnh vực khác ở Việt Nam hiện nay
cũng còn rất mới mẻ, chưa có ứng dụng nào đáng kể trong thực tế. Cũng có một
số sản phẩm về nhận dạng cũng như tổng hợp về tiếng nói được giới thiệu như
phần mềm tổng hợp tiếng Việt VnVoice 1.0 được phát triển bởi Phòng nhận
dạng và công nghệ tri thức - Viện công nghệ thông tin [Internet04], phần mềm
nhận dạng tiếng Việt VSpeech được phát triển bởi nhóm BK02 [Internet05].

Phần mềm này được phát triển trên nền tảng dựng sẵn của Microsoft (Microsoft
Recognition Engine) áp dụng cho tiếng Anh, thiếu những nghiên cứu cơ bản và
chuyên sâu về các đặc tính của tiếng Việt nhằm phục vụ cho việc mở rộng các
ứng dụng sau này cũng như là có thể phát triển thành hệ thống nhận dạng lời nói
liên tục, lượng từ vựng lớn.
Để có thể mở rộng các ứng dụng của xử lý tiếng nói (nhận dạng và tổng
hợp), các ứng dụng của công nghệ này không chỉ được phát triển trên máy tính
mà cần phải được phát triển trên các hệ nhúng. Tuy nhiên tại Việt Nam, vấn đề
này cũng chưa thực sự phát triển, mới chỉ có những nghiên cứu thực hiện dưới
dạng đề tài sinh viên, hay những đề tài khoa học cấp khoa hay cấp trường của
trường đại học.
Qua những phân tích trên đây, có thể thấy các trang thiết bị điều khiển giám
sát bằng tiếng nói sẽ là một xu hướng phát triển tất yếu trong xã hội hiện đại sau
này. Chính vì vậy việc nghiên cứu chế tạo các thiết bị giao tiếp bằng tiếng nói là
những yêu cầu đòi hỏi cấp thiết đối với các nhà khoa học. Đề tài “Nghiên cứu
thiết kế chế tạo các thiết bị và hệ thống tự động hoá thông minh sử dụng tương

×