ĐỒ ÁN CƠ SỞ NGHIÊN CỨU VỀ MẠNG NEURON NHÂN TẠO ĐỂ ĐIỀU KHIỂN THIẾT BỊ BẰNG GIỌNG NÓI TIẾNG VIỆT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (859.14 KB, 30 trang )

TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH
KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN CƠ SỞ

NGHIÊN CỨU VỀ MẠNG NEURON NHÂN TẠO
ĐỂ ĐIỀU KHIỂN THIẾT BỊ BẰNG GIỌNG NÓI
TIẾNG VIỆT

Giảng viên hướng dẫn:

THS. VƯƠNG XN CHÍ

Sinh viên thực hiện:

NGUYỄN HỒNG PHÚC

MSSV:

2000004337

Chun ngành:

KHOA HỌC DỮ LIỆU

Mơn học:

ĐỒ ÁN CƠ SỞ KHOA HỌC DỮ LIỆU

Khố:

2020

Tp HCM, tháng 6 năm 2022
Trường Đại học Nguyễn Tất Thành

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Khoa Công Nghệ Thông Tin

Độc lập – Tự do – Hạnh phúc

NHIỆM VỤ ĐỒ ÁN CƠ SỞ
Họ và tên: Nguyễn Hoàng Phúc MSSV: 2000004337
Chuyên ngành: Khoa học dữ liệu

Lớp: 20DTH2A

Email:

SĐT: 034 6277 342

Tên đề tài:Nghiên cứu về mạng Neuron nhân tạo để điều khiển thiết bị bằng giọng nói tiếng việt
Gíao viên hướng dẫn: Vương Xuân Chí
Thời gian thực hiện: 20 /6 /2022 đến 20 /9 /2022
MÔ TẢ ĐỀ TÀI:

Phép biến đổi Fourier thời gian ngắn - STFT (Short time Fourier Transform)
được áp dụng để trích các đặc trưng cơ bản của tín hiệu tiếng nói. Một mạng
neural nhân tạo được huấn luyện để nhận dạng giọng nói tiếng Việt của bất kỳ

người nào.
NỘI DUNG VÀ PHƯƠNG PHÁP:

- Nghiên cứu khái niệm, các thức tạo mạng Neural nhận tạo. - Tìm hiểu các đặc
trưng của mạng Neural nhân tạo, các bước thiết kế mơ hình mạng Neural
- Sử dụng mơ hình ANNs- STFT (Short time Fourier Transform)
- Kết luận
U CẦU:

- Có kiến thức, đam mê, hiểu biết về cơng nghệ mới như Mạng neural, Machine
Learning, Deep Learning…. Đọc hiểu tài liệu tiếng Anh, kỹ năng trình bày văn bản
trên máy tính tốt.

- Có tác phong làm việc chăm chỉ, tinh thần trách nhiệm cao, có khả năng làm việc
độc lập hoặc làm việc trong nhóm tốt.

Nội dung và yêu cầu đã được thông qua Bộ môn.
TP.HCM, ngày 26 tháng 06 năm 2022
TRƯỞNG BỘ MÔN

GIÁO VIÊN HƯỚNG DẪN

(Ký và ghi rõ họ tên)

(Ký và ghi rõ họ tên)

ThS. Vương Xuân Chí

ThS. Vương Xuân Chí

LỜI NÓI ĐẦU
Hiện nay, con người đã bước vào thời đại 4.0, thời đại mà các cơng nghệ điện
tử-máy móc phát triển ngày một mạnh mẽ hơn. Con người càng văn minh-hiện đại
thì thói “lười” của con người cũng ngày một nhiều hơn. Nhưng “lười” ở đây không
hẳn mang nghĩa tiêu cực, vì khi chúng ta lười, bản thân sẽ muốn ai đó làm hộ ta một
việc gì đó và tất nhiên khơng thể nhờ vả ai đó mãi được. Từ đấy, trong đầu ta hình
thành lên các í tưởng chế tạo những cơng cụ, các máy móc để làm thay ta những
công việc này. Và như vậy, suy nghĩ chế tạo những cỗ máy làm thay người được lóe
lên.
Chế tạo robot nay khơng cịn q khó khăn, nhưng để nó hoạt động một cách
tự động mà khơng có sự điều khiển của con người thì thật sự là cả một vấn đề. Thật
tuyệt vời thay, trên thế giới nay đã có nhiều sản phẩm cơng nghệ tự động được ra
đời như là xe điện tự động, robot giúp việc, v.v…
Khơng dừng lại với mục đích thỏa mãn thói lười của bản thân mà chế tạo ra
các công nghệ chỉ phục vụ cho chính mình, chúng ta vẫn ln phát triển hơn nữa để
hướng tới những người thực sự cần hơn những sự trợ giúp của máy móc. Đấy khơng
phải là vì họ lười hơn ai, mà là nhiều lúc hồn cảnh hay cơng việc của họ rất cần
một ai đó đồng hành mà khơng có q nhiều mất mát tổn hại. Điển hình là trong
quân đội, trong các trường hợp làm nhiệm vụ có rủi ro cao thì họ sẽ dùng những
robot điều khiển từ xa để tiến hành rà sốt hoặc thực thi nhiệm vụ thay người lính.
Qua đó, ta thấy được sự cần thiết của robot trong những trường hợp nhất định là
quan trọng như thế nào.
Tuy nhiên, với một số tình huống, hồn cảnh mà ta không thể dùng tay hay
chân để điều khiển được nên sự ra đời của hệ thống điều khiển bằng giọng nói đã
được ra đời. Và chúng ta sẽ tìm hiểu đơi chút về cách điều khiển bằng giọng nói
này.

LỜI CẢM ƠN

Trước tiên với tình cảm sâu sắc và chân thành nhất, cho phép em được bày tỏ
lòng biết ơn đến tất cả các cá nhân và tổ chức đã tạo điều kiện hỗ trợ, giúp đỡ em
trong suốt quá trình học tập và nghiên cứu đề tài này. Trong suốt thời gian học tập
vừa qua, em đã nhận được rất nhiều sự quan tâm, giúp đỡ của quý Thầy Cơ và bạn
bè. Với lịng biết ơn sâu sắc, em xin gửi đến quý Thầy Cô ở Khoa CNTT đặc biệt là
thầy Vương Xuân Chí đã truyền đạt vốn kiến thức quý báu cho chúng em trong suốt
thời gian học tập tại trường. Nhờ có những lời hướng dẫn, dạy bảo của các thầy cô
nên đề tài nghiên cứu của em mới có thể hồn thiện tốt đẹp. Một lần nữa, em xin
chân thành cảm ơn thầy Chí – người đã trực tiếp giúp đỡ, quan tâm, hướng dẫn em
hoàn thành tốt bài báo cáo này trong thời gian qua. Bước đầu đi vào thực tế của em
còn hạn chế và cịn nhiều bỡ ngỡ nên khơng tránh khỏi những thiếu sót trong q
trình làm đồ án , em rất mong nhận được những ý kiến đóng góp quý báu của Thầy
để kiến thức của em được hoàn thiện hơn đồng thời có điều kiện bổ sung, nâng cao
ý thức của mình. Em xin chân thành cảm ơn!
Sinh viên thực hiện
NGUYỄN HOÀNG PHÚC

BM-ChTTRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH

KỲ THI KẾT THÚC HỌC 11
PHẦN

TRUNG TÂM KHẢO THÍ

HỌC KỲ III NĂM HỌC 2021 - 2022

PHIẾU CHẤM THI ĐỒ ÁN
Môn thi: Đồ án cơ sở Khoa học dữ liệu
Lớp học phần: 20DTH2A

Nhóm sinh viên thực hiện :
1.Nguyễn Hồng Phúc

Tham gia đóng góp:

2.Châu Thanh Quốc

Tham gia đóng góp:

Ngày thi:

Phịng thi:

Đề tài tiểu luận/báo cáo của sinh viên :Nghiên cứu về mạng Neuron nhân tạo để điều khiển
thiết bị bằng giọng nói tiếng việt
Phần đánh giá của giảng viên (căn cứ trên thang rubrics của môn học):
Tiêu chí (theo
CĐR HP)

Đánh giá của GV

Điểm tối
đa

Điểm đạt
được

Cấu trúc của
báo cáo
Nội dung

- Các nội dung
thành phần

- Lập luận
- Kết luận
Trình bày
TỔNG ĐIỂM
Giảng viên chấm thi
(ký, ghi rõ họ tên)

MỤC LỤC

DANH MỤC HÌNH
Hình 1.1.Hình minh họa các lớp của ANN..........................................................................3
Hình 1.2. Lịch sử ANN........................................................................................................4
Hình 1.3. Lenet 5, Yan Lecun, 1998....................................................................................5
Hình 1.4. Google lenet (2014).............................................................................................5
Hình 1.5. VGGNet(2014)....................................................................................................5
Hình 1.6. Resnet (2015).......................................................................................................6
Hình 1.7. Densenet(2016)....................................................................................................6
Hình 2.1. Đặc trưng của AN N............................................................................................7
Hình 2.2. Thành phần cơ bản mạng neural..........................................................................8
Hình 2.3. Neural một đầu vào.............................................................................................8
Hình 2.4.Hard limit transfer function..................................................................................9
Hình 2.5.Single-input hardlim neuron.................................................................................9
Hình 2.6.Linear transfer function........................................................................................9
Hình 2.7.Single-input purelin neuron..................................................................................9

Hình 2.8.Log-sigmoid transfer function..............................................................................9
Hình 2.9.Single-input logsig neuron...................................................................................9
Hình 2.10.Hàm logsig..........................................................................................................10
Hình 2.11. Neural đa đầu vào..............................................................................................10
Hình 2.12. Abreviated Notation...........................................................................................10
Hình 2.13. Các lớp neural....................................................................................................11
Hình 2.14. Các ký pháp viết gọn.........................................................................................11
Hình 2.15. Mạng neural đa lớp............................................................................................11
Hình 2.16. Mạng neural đa lớp-biểu diễn gọn.....................................................................11
Hình 3.1.Short-time Fourier Transform...............................................................................13
Hình 3.2. Sơ đồ khối............................................................................................................14
Hình 3.3. Nguyên tắc tiền xử lí dữ liệu tiếng nói................................................................15
Hình 3.4. Kết quả xử lí(1 từ tín hiệu)-(a) trước khi xử lí-(b)sau khi xử lí...........................15
Hình 3.5.Ngun tắc trích formant của tín hiệu tiếng nói...................................................16
Hình 3.6. Lưu đồ thao tác huấn luyện.................................................................................18
Hình 3.7. Ngun tắc giao tiếp nối tiếp RS232...................................................................19
Hình 3.8. Giao tiếp giữa thiết bị và máy tính......................................................................19

KÍ HIỆU CÁC CỤM TỪ VIẾT TẮT
Từ viết tắt
ANN(s)
STFT

Ý nghĩa
Artificial neural network(s)
Short time Fourier Transform

CHƯƠNG 1. SƠ LƯỢC VỀ MẠNG NEURAL
1.1.

Mạng Neural sinh học

Mạng neural sinh học là một mạng lưới (plexus) các neural có kết nối hoặc có
liên quan về mặt chức năng trực thuộc hệ thần kinh ngoại biên (peripheral nervous
system) hay hệ thần kinh trung ương (central nervous system).
Trong ngành thần kinh học (neuroscience), nó thường được dùng để chỉ một
nhóm neural thuộc hệ thần kinh là đối tượng của một nghiên cứu khoa học nhất
định.
1.2.

Cấu trúc của một Neural

Thân tế bào: là chỗ phình to của neural. Bao gồm nhân tế bào, lưới nội sinh
chất, ty thể, ribosom, lysosom, bộ máy Golgi, tơ thần kinh, ống siêu vi và các bào
quan khác. Thân tế bào cung cấp dinh dưỡng cho neural, có thể phát sinh xung động
thần kinh và có thể tiếp nhận xung động thần kinh từ nơi khác truyền tới neural.
Sợi nhánh, cịn gọi là đi gai: là các tua ngắn mỏng manh mọc ra từ thân tế
bào. Mỗi neural đều có nhiều đi gai, mỗi đi gai được chia thành nhiều nhánh.
Chúng có chức năng tiếp nhận các xung thần kinh từ tế bào khác, truyền chúng tới
thân tế bào. Đây là tín hiệu hướng tâm. Tác động của các xung này có thể là kích
thích hoặc ức chế.
Sợi trục: sợi đơn dài mang thông tin từ thân tế bào và chuyển đến các tế bào
khác. Đường kính của các sợi trục thường có kích thước khác nhau, dao động từ từ
0,5 μm – 22 μm. Dọc sợi trục được bao bọc bởi một lớp vỏ myelin, tạo thành bởi
các tế bào Schwann. Bao myelin không liền mạch mà được chia thành từng đoạn.
Giữa các bao myelin là các eo Ranvier. Khoảng cách giữa 2 eo Ranvier khoảng 1,5
– 2 mm. Diện tích tiếp xúc giữa các nhánh nhỏ phân từ cuối sợi trục của nơ-ron này

với sợi nhánh của nơ-ron khác hoặc các cơ quan thụ cảm được gọi là Synapse (khớp
thần kinh).

10

1.3.

Mạng Neural nhân tạo

Mạng Neural nhân tạo (Artificial neural networks- ANNs) là một mơ hình học
máy được lấy cảm hứng từ cấu trúc mạng Neural tự nhiên nhằm phục vụ cho một
bài toán cụ thể (dự đoán, nhận dạng, phát hiện, suy diễn, etc.)
Mạng neural nhân tạo không hướng đến sự phức tạp của mạng NEURAL sinh
học
Các điểm giống nhau giữa mạng Neural sinh học và mạng Neural nhân tạo :
 Việc tạo ra các khối là đơn giản
 Các kết nối trong mạng neural cho phép xác định chức năng
của một mạng
 Có khả năng học và tái tạo
1.4.

Các lớp của ANN

Lớp đầu vào: là lớp làm việc trực tiếp với dữ liệu bên ngoài, cho nên số lượng
nơ-ron ở lớp đầu vào phụ thuộc vào số chiều của dữ liệu bên ngồi.
 Ví dụ: đưa vào mạng nơ-ron một ảnh có kích thước 200x300
pixels thì số lượng nơ-ron ở lớp đầu vào sẽ tối thiểu phải là 200
x 300 = 60.000 nơ-ron.
Lớp giữa (lớp ẩn): là lớp xử lý dữ liệu nhận từ lớp đầu vào, bạn có thể có

nhiều lớp nơ-ron hơn ở lớp giữa, nếu lớp nơ-ron ở giữa mà nhiều hơn 2 người ta gọi
đó là mơ hình học sâu (Deep Learning). Cịn số lượng nơ-ron ở mỗi lớp nơ-ron thì
tùy bạn muốn chọn bao nhiêu cũng được (nhưng sẽ có kinh nghiệm chọn phù hợp
nhất định).
Lớp đầu ra: là lớp xuất ra kết quả, số lượng nơ-ron lớp đầu ra phụ thuộc vào số
lượng kết quả bạn muốn có.
 Ví dụ: đưa vào một ảnh và hỏi mạng nơ-ron đó có phải là con
mèo hay khơng? Thì lớp đầu ra chỉ cần 1 nơ-ron là đủ, với giá
trị 1 là phải, giá trị 0 là không phải.

11

Hình 1.1. Hình minh họa các lớp của ANN
1.5.

Đặc điểm của ANN

Mạng nơ ron nhân tạo có thể hoạt động như mạng nơ ron của con người. Mỗi
một nơ ron thần kinh trong nơ ron nhân tạo là hàm toán học với chức năng thu thập
và phân loại các thông tin dựa theo cấu trúc cụ thể.
Neural Network có sự tương đồng chuẩn mạnh vối những phương pháp thống
kê như đồ thị đường cong và phân tích hồi quy. Neural Network có chứa những lớp
bao hàm các nút được liên kết lại với nhau. Mỗi nút lại là một tri giác có cấu tạo
tương tự với hàm hồi quy đa tuyến tính.Bên trong một lớp tri giác đa lớp, chúng sẽ
được sắp xếp dựa theo các lớp liên kết với nhau. Lớp đầu vào sẽ thu thập các mẫu
đầu vào và lớp đầu ra sẽ thu nhận các phân loại hoặc tín hiệu đầu ra mà các mẫu đầu
vào có thể phản ánh lại.
1.6.

Hệ trí tuệ nhân tạo

3 khả năng của một hệ trí tuệ nhân tạo :
 Khả năng biểu diễn (representation): dùng một ngơn ngữ hình thức
để mơ tả vấn đề
 Khả năng suy diễn (reasoning): khả năng giải quyết vấn đề
o Nội suy và ngoại suy
o Có cơ chế điều khiển để xác định cần phải thực hiện thao tác
gì

12

 Khả năng học (learning): dựa trên tri thức đã có, học các quy luật để
có thể suy diễn trong tình huống tương tự hoặc dự báo tình huống
mới
1.7.

Lịch sử mạng Neural nhân tạo

The 1940s: The Beginning of Neural Networks (cùng với sự xuất hiện của
máy tính điện tử).
The 1950s and 1960s: The First Golden Age of Neural Networks
 Rosenblatt với mạng Perception với 1 lớp. Sau đó mở rộng
thành nhiều lớp.
The 1970s: The Quiet Years.
The 1980s: Renewed Enthusiasm (các mạng lan truyền ngược).

Hình 1.2. Lịch sử ANN
LeNet là một trong những mạng CNN lâu đời nổi tiếng nhất được Yann

LeCUn phát triển vào những năm 1998s. Cấu trúc của LeNet gồm 2 layer
(Convolution + maxpooling) và 2 layer fully connected layer và output là softmax
layer (Hình 1.3).

13

Hình 1.3. Lenet 5, Yan Lecun, 1998
Ý tưởng chính là họ tạo ra một module mới có tên là inception giúp mạng
traning sâu và nhanh hơn, chỉ có 5m tham số so với alexnet là 60m nhanh hơn gấp
12 lần(Hình 1.4).

Hình 1.4. Google lenet (2014)
Model VGG sẽ deeper hơn, tiếp theo là thay đổi trong thứ tự conv. VGG thì sử
dụng 1 chuỗi Conv liên tiếp Conv-Conv-Conv ở middle và end của architect
VGG(Hình 1.5).

Hình 1.5. VGGNet(2014)
14

ResNet được phát triển bởi microsoft năm 2015 Resnet giải quyết được vấn đề
của deep learning truyền thống, nó có thể dễ dàng training model với hàng trăm
layer(Hình 1.6).

Hình 1.6. Resnet (2015)
Densenet(Dense connected convolutional network) là một trong những
netwok mới nhất cho visual object recognition, Densenet có cấu trúc gồm các dense
block và các transition layers. Được stack dense block- transition layers-dense
block- transition layers như hình vẽ. Với CNN truyền thống nếu chúng ta có L layer

thì sẽ có L connection, cịn trong densenet sẽ có L(L+1)/2 connection(Hình 1.7).

Hình 1.7. Densenet(2016)

15

CHƯƠNG 2. ĐẶC TRƯNG CỦA MẠNG NEURAL NHÂN
TẠO VÀ XÂY DỰNG MƠ HÌNH NEURAL
2.1. Đặc trưng của ANN
Gồm một tập các đơn vị xử lí
Trạng thái kích hoạt hay đầu ra của đơn vị xử lý
Liên kết giữa các đơn vị. Xét tổng quát, mỗi liên kết được định nghĩa bởi một
trọng số Wjk cho ta biết hiệu ứng mà tín hiệu của đơn vị j có trên đơn vị k
Một luật lan truyền quyết định cách tính tín hiệu ra của từng đơn vị từ đầu vào
của nó
Một hàm kích hoạt, hay hàm chuyển (activation function, transfer function),
xác định mức độ kích hoạt khác dựa trên mức độ kích hoạt hiện tại
Một đơn vị điều chỉnh (độ lệch) (bias, offset) của mỗi đơn vị
Phương pháp thu thập thông tin (luật học – learning rule)
Mơi trường hệ thống có thể hoạt động.

Hình 2.1. Đặc trưng của ANN
2.2. Thành phần cơ bản
Mơ hình mạng neural gồm 3 thành phần:
 Hệ thống ghép nối thần kinh (synapse)
 Bộ cộng
 Hàm kích hoạt

16

Hình 2.2. Thành phần cơ bản mạng neural
2.3. Neural một đầu vào
a. Các thành phần cơ bản
Đầu vào là một số p
Trọng số w
Bias b
 b và w là các tham số có thể thay đổi theo một luật học để quan hệ giữa
đầu vào và đầu ra đạt được một mục đích nào đó
Hàm truyền đạt f
 Được lựa chọn bởi người thiết kế mạng

Hình 2.3. Neural một đầu vào
b. Hàm truyền đạt
 Có thể là hàm tuyến tính hoặc phi tuyến
 Được lựa chọn để thỏa mãn một số đặc tính của bài tốn
 Một số dạng hàm truyền đạt:

17

Hình 2.4.Hard limit transfer function

Hình 2.5.Single-input hardlim neuron

Hình 2.6.Linear transfer function

Hình 2.7.Single-input purelin neuron

Hình 2.8.Log-sigmoid transfer function

Hình 2.9.Single-input logsig neuron

 Hàm logsig hoặc sigmoid là hàm truyền đạt được sử dụng nhiều nhất.
 Hàm có dạng đồng biến, có thể coi là trung gian giữa hàm tuyến tính
và hàm ngưỡng
o a: hệ số dốc
o Khi a => vô cùng, f(u) tiến đến hàm ngưỡng ν
 Có ưu điểm so với hàm ngưỡng là tồn tại đạo hàm

18

Hình 2.10.Hàm logsig
2.4. Neural nhiều đầu vào
a. Mơ hình chung
 Thơng thường một neural có nhiều hơn một đầu vào
 Một neural có R đầu vào được biểu diễn như sau:
o Kích thích: p1 , p2 ,…pR
o Các trọng số: W1,1 , W1,2 ,…W1,R
o Bias: b
o Đầu vào của neural : n = Wp + b

Hình 2.11. Neural đa đầu vào

b. Cách biểu diễn gọn

Hình 2.12. Abreviated Notation

19

2.5. Kiến trúc mạng Neural

Hình 2.13. Các lớp neural

Hình 2.14. Các ký pháp viết gọn

Hình 2.15. Mạng neural đa lớp

Hình 2.16. Mạng neural đa lớp-biểu diễn gọn
20

CHƯƠNG 3. SỬ DỤNG MƠ HÌNH ARTIFICIAL NEURAL
NETWORKS - SHORT TIME FOURIER TRANSFORM
3.1.

STFT- Short time Fourier Transform

a. Sơ lược về STFT-Short time Fourier Transform
Xa(jω) = ∞ʃ-∞xa(t)e-jωt dt
Xa(t) = (1/2π) ∞ʃ-∞Xa(jω)ejωτdω
Biến đổi Fourier của tín hiệu này là F(ω) cho ta đầy đủ thơng tin trong miền
tần số, nhưng hồn tồn khơng có thơng tin gì về miền thời gian vì tích phân từ -∞
tới +∞. Do đó biến đổi Fourier khơng phù hợp với tín hiệu có tần số thay đổi theo
thời gian. Điều đó có nghĩa là biến đổi Fourier chỉ có thể cho biết có hay khơng sự
tồn tại của các thành phần tần số nào đó, tuy nhiên thông tin này độc lập với thời
điểm xuất hiện thành phần phổ đó. Như vậy sau biến đổi Fourier, ta có thơng tin

trong miền tần số nhưng mất hồn tồn thơng tin về miền thời gian.
Đây chính là lúc STFT xuất hiện. Ý tưởng chính của STFT là ‘hi sinh’ một ít
thơng tin về các tần số thấp trong miền tần số để có thêm thơng tin về miền thời
gian. STFT được biểu diễn bằng 1 hàm G(ω,t) theo 2 biến là tần số ω và thời gian t.
Như vậy nhìn vào kết quả của STFT, ta có thể biết là tần số ω xuất hiện vào thời
điểm nào trong miền thời gian. Trong biến đổi STFT, tín hiệu được chia thành các
đoạn đủ nhỏ, do vậy tín hiệu trên từng đoạn được phân chia có thể coi là dừng. Với
mục đích này, hàm cửa sổ được lựa chọn. Độ rộng của cửa sổ phải bằng với đoạn
tín hiệu mà giả thiết về sự dừng của tín hiệu là phù hợp.
b. Nguyên tắc của STFT
Là phân chia tín hiệu ra thành từng đoạn đủ nhỏ sao cho có thể xem tín hiệu
mỗi đoạn là tín hiệu ổn định, sau đó thực hiện biến đổi Fourier trên từng đoạn tín
hiệu này.

21

Hình 3.1.Short-time Fourier Transform
c. Các tính chất
 STFT đo sự giống nhau giữa tín hiệu với phiên bản dịch và biến điệu
của hàm cửa sổ cơ bản W(t).
 STFT có tính định vị thời gian – tần số.
 Thao tác dịch vụ và biến điệu hàm cửa sổ không làm thay đổi kích
thước hàm cửa sổ mà chỉ tịnh tiến theo trục thời gian – tần số.
 STFT thể hiện mối quan hệ giữa thời gian và tần số tín hiệu, cung cấp
thông tin về thời gian và tần số xuất hiện sự kiện.
 Độ phân giải theo thời gian phụ thuộc vào kích thước cửa sổ
d. Ứng dụng
STFT cũng như biến đổi Fourier chuẩn thường được sử dụng để phân tích
âm thanh.

e. Hạn chế
Phép biến đổi Fourier thời gian ngắn có ưu điểm là cho một sự hịa hợp khi
mơ tả tín hiệu giữa hai miền thời gian – tần số. Tuy nhiên, nó gặp phải hạn
chế là :
 Kích thước cửa sổ phân tích đã chọn khơng thay đổi trên toàn
bộ mặt phẳng thời gian – tần số.
 STFT không thể đạt được độ phân giải tốt cả trong miền thời
gian và miền tần số đối với các tín hiệu khơng ổn định.
3.2.

Dùng mơ hình ANNs-STFT để điều khiển thiết bị bằng giọng

nói tiếng Việt
Với mục tiêu mong muốn là bất kì người sử dụng nào cũng có thể vận hành tốt
thiết bị bằng cách đọc các lệnh bằng 4 từ : ‘Tới’, ’Lui’, ’Trái’, ‘Phải’ vào micro của
22

máy tính. Mạng Nơ-ron sẽ nhận dạng từ điều khiển vừa đọc, và gởi đến mạch giao
tiếp thiết bị byte điều khiển tương ứng.

Hình 3.2. Sơ đồ khối
Trước tiên, cần xây dựng một cơ sở dữ liệu để huấn luyện mạng(tập mẫu). Tập
mẫu này có được thơng qua việc thu thập dữ liệu của nhiều giọng đọc khác nhau và
xử lí để giữ lại những đặc trưng cơ bản của nó. Sau đó, q trình huấn luyện mạng
được thực hiện. Kết thúc q trình này, mạng nơ-ron có thể phân loại các từ khác
nhau, từ đó có thể nhận dạng được các từ đã học mà không cần đến không gian dữ
liệu mẫu nữa. Tương ứng với 4 từ lệnh dùng để điều khiển robot, “tới”, “lui”, “trái”
và “phải”, các dữ liệu đặc trưng được đánh dấu đã phân tích được thành 4 nhóm.
Q trình nhận dạng, thực chất là phân loại từ cần kiểm tra thuộc nhóm nào trong 4

nhóm dữ liệu trên.
Trước khi xử lí dữ liệu, file ghi âm cần được xử lí để giảm bớt độ nhiễu của
âm thanh. Ðồng thời, một giải thuật tách từ được áp dụng để xác định thời điểm bắt
đầu và kết thúc của tín hiệu.

Hình 3.3. Ngun tắc tiền xử lí dữ liệu tiếng nói

23

Hình 3.4. Kết quả xử lí(1 từ tín hiệu)-(a) trước khi xử lí-(b)sau khi xử lí
Tách được các đặc trưng cơ bản của tín hiệu tiếng nói có ý nghĩa rất quan
trọng vì đó là cơ sở để nhận dạng. Các nghiên cứu cho thấy, hai thành phần đặc
trưng quan trọng nhất, đó là chu kì cao độ và các formant. Chu kì cao độ chính là
dạng sóng một chu kì của phần gần tuần hồn trong tiếng nói, do đó thường được
xử lý ở miền thời gian. Trong khi đó các formant liên quan đến phổ tần số của tín
hiệu. Ðối với tiếng nói, các formant khơng cố định mà thay đổi chậm theo thời gian.
Do đó chỉ có thể thu được các formant bằng cách phân tích và biểu diễn tín hiệu
tiếng nói ở miền thời gian-tần số.
Qua thực nghiệm, cùng một người đọc các từ khác nhau thì formant tương ứng
cũng khác nhau. Nếu nhiều người cùng đọc một từ, thì formant tương ứng có sự
khác biệt khơng nhiều. Do vậy, các formant này sẽ được trích xuất và dùng làm dữ
liệu huấn luyện mạng nơ-ron.

Hình 3.5.Nguyên tắc trích formant của tín hiệu tiếng nói

24

Do tín hiệu tiếng nói là tín hiệu khơng dừng, nên khơng thể áp dụng phép phân

tích Fourier thơng thường. Nhưng nếu có thể chia tín hiệu tiếng nói ra thành từng
đoạn đủ nhỏ theo thời gian, thì tín hiệu tiếng nói trong mỗi đoạn có thể xem là tín
hiệu dừng, và do đó có thể lấy biến đổi Fourier trên từng đoạn tín hiệu này. Lúc này,
ta sẽ áp dụng STFT để có thể chia nhỏ các đoạn tín hiệu tiếng nói.
Trong STFT, tín hiệu cần phân tích f(t) đầu tiên được nhân với một hàm cửa
sổ w(t-τ) để lấy được tín hiệu trong một khoảng thời gian ngắn xung quanh thời
điểm τ. Sau đó phép biến đổi Fourier bình thường được tính trên đoạn tín hiệu này.
Kết quả ta được một hàm theo tần số và thời gian STFT f(ω,τ) xác định bởi (dấu (*)
ký hiệu cho thành phần liên hợp phức):
STFT⨏(ω,τ) = ∞ʃ-∞w*(t-τ)⨏(t)e-jωtdt

(1)

STFT tại thời điểm τ được xem là phổ cục bộ của f(t) xung quanh thời điểm τ,
do cửa sổ tương đối ngắn làm triệt tiêu tín hiệu ngồi vùng lân cận. Vì vậy STFT có
tính định vị theo thời gian. Cửa sổ phân tích càng hẹp thì sự định vị này càng tốt. Ðể
thấy rõ STFT cũng định vị trong miền tần số, ta có thể áp dụng định lý Parserval:
∞

ʃ-∞f(t)g*(t)dt=(1/2π) ∞ʃ-∞F(ω)G*(ω)dω

(2)

Biểu thức (1) có thể viết lại như sau :
STFT⨏(ω,τ) =(e-ωτ/2π) ∞ʃ-∞W*(ω’ – ω)F(ω’)ejω’τdω’

(3)

Với W(ω') và F(ω') lần lượt là phổ của cửa sổ w(t) và của tín hiệu f(t).
Trong biểu thức (3), W(ω'-ω) có tác dụng như một lọc dãy thơng tập trung

quanh tần số đang phân tích ω và có băng thông bằng với băng thông của w(t), làm
giới hạn phổ của tín hiệu F(ω') xung quanh ω. Rõ ràng STFT có tính định vị theo
tần số. Tính định vị này (còn gọi là độ phân giải tần số) càng tốt nếu băng thơng của
cửa sổ phân tích càng hẹp.
Hàm cửa sổ thường dùng trong STFT là cửa sổ Kaiser, hàm này được định
nghĩa từ hàm Bessel bậc 0.

(4)

25

ĐỒ ÁN CƠ SỞ NGHIÊN CỨU VỀ MẠNG NEURON NHÂN TẠO ĐỂ ĐIỀU KHIỂN THIẾT BỊ BẰNG GIỌNG NÓI TIẾNG VIỆT

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về