Tải bản đầy đủ (.doc) (84 trang)

Đồ án tốt nghiệp nghiên cứu tìm hiểu lý thuyết về tiếng nói và mô hình mạng neuron

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (981.97 KB, 84 trang )

LỜI NÓI ĐẦU
Xử lý âm thanh và nhận dạng tiếng nói có một ý nghĩa quan trọng và thiết
thực trong nhiều lĩnh vực như: nhận dạng, phát thanh, truyền hình, viễn thông, và
nhiều lĩnh vực khác.
Nhận dạng tiếng nói là một lĩnh vực khó, một vấn đề nghiên cứu trọng
điểm được nhiều nhà khoa học quan tâm ở các lĩnh vực khác nhau : Tin học,
toán học, điều khiển, điện tử, sinh học
Trước sự phát triển mạnh mẽ của công nghệ thông tin, vấn đề nhận dạng
càng được quan tâm nhiều hơn nhằm nâng cao hiệu quả giao tiếp giữa người và
máy. Chính sự quan trọng đặc biệt này mà em đã chọn âm thanh tiếng Việt là đề
tài nghiên cứu.
1. Mục đích của đồ án
Nghiên cứu, tìm hiểu mạng Neuron và ứng dụng trong nhận dạng tiếng
nói tiếng Việt trên tập từ hữu hạn với hưóng nghiên cứu mới trên quan điểm xem
xét từ ngữ tiếng Việt dưới góc độ phân tách thành phụ âm và nguyên âm trên tập
các đặc trưng LPC, Cepstral, Cosin.
2. Ý nghĩa
Hướng nghiên cứu xem xét từ ngữ trên cơ sở phân tách thành phụ âm và
nguyên âm là một hướng mới, đơn giản hơn cả về mặt cấu trúc và thiết kế cơ sở
dữ liệu cũng như quá trình nhận dạng sau này,mà vẫn đảm bảo được những yêu
cầu cần thiết. Nếu giải quyết tốt sẽ cho phép nhận dạng tất cả các từ trong tiếng
Việt.
1
3. Nhiệm vụ của đồ án.
Nghiên cứu tìm hiểu lý thuyết về tiếng nói và mô hình mạng Neuron. Ứng
dụng mạng neuron để nhận dạng tiếng Việt theo hướng nhận dạng nguyên âm và
phụ âm, xây dựng chương trình mô phỏng nhận dạng nguyên âm và phụ âm
tiếng Việt.
4. Phạm vi nghiên cứu
Đề tài thực hiện trong phạm vi nghiên cứu nhận dạng âm thanh tiếng Việt
phát âm rời rạc trên tập từ hữu hạn theo hướng nhận dạng phụ âm và nguyên âm


cấu tạo nên từ, xét trên tập từ 11 chữ số tiếng Việt: không, một, hai… mười
với dữ liệu là các File âm thanh WAVE 8 bit, mono,11025Hz.
2
MỤC LỤC
LỜI NÓI ĐẦU 1
CHƯƠNG I: ÂM THANH VÀ SỐ HOÁ ÂM THANH
3
1. ĐẶC TRƯNG SÓNG ÂM 3
1.1 Các đặc trưng 3
1.2 Đơn vị vật lý của âm thanh 4
2. QÚA TRÌNH SỐ HOÁ ÂM THANH 6
CHƯƠNG 2: TIẾNG VIỆT VÀ CÁC ĐẶC TRƯNG
14
1 QUÁ TRÌNH PHÁT ÂM 14
2 NGỮ ÂM TIẾNG VIỆT 15
CHƯƠNG III: MẠNG NEURAL VÀ ỨNG DỤNG TRONG
47
NHẬN DẠNG ÂM THANH TIẾNG VIỆT
47
2. CẤU TRÚC MẠNG NEURON NHÂN TẠO 51
2.3 Những vấn đề quan trọng trong mạng Neural lan truyền ngược 63
2.4 THIẾT KẾ MẠNG NEURAL 70
MẠNG HỌC ĐẶC TRƯNG LPC-COSIN: CẤU TRÚC 36 – 25 – 8.
70
71
MẠNG HỌC ĐẶC TRƯNG LPC-COSIN: CẤU TRÚC 108 – 85 – 11.
71
MẠNG HỌC ĐẶC TRƯNG LPC-COSIN: CẤU TRÚC 198 – 155 – 11.
72
72

CHƯƠNG IV THIẾT KẾ CHƯƠNG TRÌNH NHẬN DẠNG
72
CHƯƠNG I: ÂM THANH VÀ SỐ HOÁ ÂM THANH
1. Đặc trưng sóng âm
1.1 Các đặc trưng
1.1.1 Tần số
3
là tốc độ mà các dạng sóng riêng biệt lặp lại theo hàm thời gian, tần số
phụ thuộc vào chấn động nhanh hay chậm của không khí trong một thời gian
nhất định.
1.1.2 Biên độ
là độ lớn của dạng sóng hoặc cường độ của sóng cơ học, đây là đặc tính
quan trọng góp phần nhận diện sự khác biệt giữa nguyên âm và phụ âm trong âm
thanh lời nói.
1.1.3 Dạng sóng
là hình dạng của sóng âm thanh, sóng dạng hình sin là dạng sóng cơ bản
của âm thanh, trên lý thuyết nếu chúng ta có thể tổng hợp một tập hợp các sóng
hình sin thì ta có thể tổng hợp bất kỳ âm thanh nào.
Mỗi âm có một tần số riêng và đơn vị tính là héc (Hz).
1.2 Đơn vị vật lý của âm thanh.
- Các dao động âm phát ra từ nguồn lan truyền trong môi trường đàn hồi như
không khí dưới dạng sóng đàn hồi gọi là sóng âm. Sóng âm kích động màng
nhĩ tai gây cảm giác về âm. Âm thanh có những đặc trưng cơ bản là: Độ cao của
âm, độ to của âm, âm sắc. Do đó cần phân biệt các loại đại lượng về âm:
1.2.1Quãng độ cao (quãng tần số).
Độ cao của âm là một đặc tính sinh lý của âm, nó dựa vào đặc tính của âm là
tần số. Những âm có tần số khác nhau gây cho ta những cảm giác khác nhau, âm
có tần số lớn gọi là âm cao hoặc thanh, âm có tần số nhỏ gọi là âm thấp hoặc
trầm.
Quãng tần số của hai âm là khoảng cách của hai âm đó. Nếu một âm tần số

là f
1
, một âm khác tần số là f
2
(f
2
> f
1
) thì f
2
/f
1
=2
x
.
Khi x=1 thì f
2
/f
1
=2 gọi là một quãng tần số (một ốc-ta)
Khi x=½ thì f
2
/f
1
= 1.41 gọi là nửa ốc-ta.
4
Khi x=1/3 thì f
2
/f
1

= 1.26 gọi là 1/3 ốc-ta.
-> Mức áp suất của một ốc-ta bằng mức áp suất âm của ½ ốc-ta cộng thêm
3db. Cao độ được tiếp nhận phần lớn là do quy định bởi tần số cơ bản của sóng
âm và một phạm vi nhỏ hơn bởi cường độ của âm. Nhưng mối quan hệ giữa cao
độ và tần số cơ bản lại không mang tính chất tuyến tính và thường thay đổi cùng
với tần số đi kèm. Vì quãng tần số của một âm quy định độ cao của âm đó nên
còn gọi là quãng độ cao (quãng 8 – bát bộ).
1.2.2 Độ mạnh.
Độ mạnh của âm do biên độ dao động quyết định. Biên độ dao động càng
lớn âm phát ra càng mạnh. Độ mạnh còn gọi là cường độ.
Cường độ âm được biểu thị qua năng lượng được sóng âm truyền trong một
đơn vị thời gian qua một đơn vị diện tích vuông góc với phương truyền âm
(W/m
2
).
Đối với con người, giá trị tuyệt đối của cường độ âm I không quan trọng
bằng giá trị tỷ đối của I với một giá trị I
0
nào đó chọn làm chuẩn. Người ta định
nghĩa mức cường độ âm L là logarit thập phân của tỷ số I/I
0
.
L(B) = lg(I/I
0
) hoặc L(dB) = 10lg(I/I
0
) với 1B = 10dB.
Trong thực tế người ta thường dùng đơn vị dB (deciben) hơn B, khi đó L=
1dB thì lớn gấp 1,26 lần I
0

. Đó là mức cường độ nhỏ nhất mà tai ta có thể nghe
được.
1.2.3 Độ dài.
Độ dài hay trường độ của âm phụ thuộc vào sự chấn động lâu hay chóng của
các phần tử không khí.
1.2.4 Âm sắc.
5
Âm sắc là bản sắc, là sắc thái riêng biệt của một âm. Thực chất, âm sắc là
chất lượng tiếp nhận trong các âm phức. Cùng một nốt nhạc nhưng âm thanh của
các loại đàn khác nhau sẽ có những sắc thái khác nhau.
Âm sắc là một đặc tính sinh lý của âm, được hình thành trên cơ sở các đặc
tính vật lý của âm là tần số và biên độ. thực nghiệm chứng tỏ rằng khi một nhạc
cụ hoặc một người phát ra một âm có tần số f
1
thì đồng thời cũng phát ra các âm
có tần số f
2
=2f
1
, f
3
=3f
1
,…
Âm có tần số f
1
gọi là âm cơ bản hay hoạ âm thứ nhất, các âm có tần số f
2
, f
3

,
… gọi là các hoạ âm thứ hai, thứ ba … Tuỳ theo cấu trúc từng nhạc cụ hoặc cổ
họng từng người, mà trong số các hoạ âm cái nào có biên độ khá lớn, cái nào có
biên độ nhỏ, cái nào chóng bị tắt đi. Do hiện tượng đó, âm phát ra là sự tổng hợp
của âm cơ bản và các hoạ âm, nó có tần số f
1
của âm cơ bản nhưng đường biểu
diễn của nó không còn là đường hình sin mà trở thành một đường phức tạp có
chu kỳ.
Đó là sự khác nhau về âm sắc, lý do:
è Vật tạo ra âm khác nhau.
è Cách làm cho vật phát âm khác nhau.
è Hiện tượng cộng hưởng khác nhau.
2. Qúa trình số hoá âm thanh
2.1 Quá trình lấy mẫu âm thanh tương tự
Đây là quá trình rời rạc hoá tín hiệu âm thanh tương tự về thời gian.
Nguyên tắc cơ bản của quá trình này là tín hiệu âm thanh tương tự sẽ được
lấy mẫu với tần số lấy mẫu trong một giây (tốc độ lấy mẫu) là cố định, ví dụ: tần
số lấy mẫu là 10000Hz thì trong một giây lấy được 10000 mẫu. Khi lấy mẫu phải
6
chú ý đảm bảo tần số lấy mẫu phải lớn hơn hoặc bằng hai lần tần số lớn nhất của
sóng âm tương tự để tránh hiện tượng giả tần số. Nếu tần số lớn nhất của tín hiệu
của sóng âm thanh tương tự F(Hz) thì tần số lấy mẫu lớn hơn hoặc bằng 2F (gọi
là tần số Nyquist), chẳng hạn nếu ta số hoá tín hiệu lời nói ở tần số 5kHz thì tần
số lấy mẫu phải là 10kHz hoặc lớn hơn.
Hình: Quá trình số hoá thành dạng sóng file Wave
2.2 Quá trình lượng tử hoá
Đây là quá trình rời rạc biên độ tín hiệu của sóng âm tương tự.
Quá trình này lấy biên độ của tín hiệu tại mỗi lần lấy mẫu và biểu diễn các
biên độ đó dưới dạng nhị phân. Để lựa chọn cách thức lượng tử cần phải xem xét

hai kía cạnh: giá trị nhỏ nhất của tốc độ dữ liệu (data rate) và giá trị lớn nhất của
chất lượng âm (quality).
è Tốc độ dữ liệu được tính bằng bps (bits per sencond) dùng để định
dạng sóng âm, nó là tích của số mẫu được lấy trong một giây (sample per
second) và số bit tương ứng một mẫu đã được lấy. Do tốc độ lấy mẫu là cố định
7
nên ta phải đảm bảo số bit để biểu diễn một mẫu càng lớn càng nghe trung thực
với âm thanh thật (do nó ảnh hưởng đến sự phân giải tiêu chuẩn của tín hiệu
tương tự tại mỗi thời điểm lấy mẫu, và do đó ảnh hưởng đến chất lượng âm
thanh cần thu).
è Giá trị lớn nhất của chất lượng âm: nghĩa là khi chuyển đổi ngược
sóng âm số sang sóng âm tương tự phải đảm bảo lỗi xảy ra là nhỏ nhất. Điều này
đồng nhất với sóng âm tương tự sau khi được chuyển ngược từ sóng âm số phải
nghe giống sóng âm tương tự ban đầu được số hoá.
Việc lấy mẫu của tín hiệu không gây ra sự mất mát thông tin của tín hiệu
tương tự cần lấy mẫu, quá trình lượng tử hoá ngược lại gây ra mất mát thông tin
(hay còn gọi là lỗi lượng tử hoá) và gây ra nhiễu. Hệ số nhiễu tín hiệu (Signal –
to – noise) được dùng để đánh giá chất lượng âm thanh, được tính theo công
thức:


=
=
N
i
N
i
ie
ix
1

2
1
2
)(
)(
Tróng đó x(n) là mẫu thứ n, e(n) là lỗi lượng tử hoá đối với mẫu x(n) đó.
Tín hiệu tiếng nói sau khi được lượng tử hoá sẽ được lưu vào máy tính dưới
dạng các file âm thanh khác nhau, tuỳ thuộc vào mục đích sử dụng, như có thể
được lưu trữ nguyên mẫu như đã lượng tử hoá, hoặc đựơc nén rồi mới lưu trữ. Ta
xem xét các loại file phổ biến sau.
3. Cấu trúc file WAVE
3.1 Các loại file âm thanh:
8
Có rất nhiều dạng file âm thanh, như dạng file “.MP3”, “.MIDI”,
“.WAV”, “.RA”, “AIFF”, “.WMA”. Song phổ biến hơn là ở dạng “.wav” . Dạng
file này đưa ra ở dạng thô, dữ liệu âm thanh không được nén. Được phát minh
đầu tiên bởi Microsoft, các file wave vẫn được sử dụng một cách rộng rãi (ví dụ
các âm thanh lúc khởi động và tắt Window). Chất lượng âm thanh rất tốt nhưng
kích thước file rất lớn. Một bài hát pop đầy đủ ở dạng Wave có thể chiếm 40 MB
của không gian đĩa hoặc nhiều hơn.
3.2.Cấu trúc file WAVE
(1) Cấu trúc file wave: File wave là tập hợp con file RIFF của Window cho lưu
trữ các file multimedia. Một file RIFF có header file là một chuỗi các chunk dữ
liệu. Một file Wave thường là file RIFF cùng với một chunk wave đơn giản, nó
có chứa 2 chunk con: một chunk “fmt” đặc tả dữ liệu và một chunk dữ liệu có
chứa các mẫu dữ liệu thực. Gọi dạng này là “Canonical form”.
9
Dạng Header WAVE bắt đầu cùng với RIFF header
offset Size Name Description
0 4 ChunkID Có chứa các chữ cái “RIFF”

4 4 ChunkSize 36+SubChunk2Size, chính xác hơn:
4+(8+SubChunk1Size)
+(8+SubChunk2Size). Kích thước phần
10
còn lại của chunk, đó là kích thước của
toàn bộ file tính theo byte trừ đi 8 byte cho
2 trường không chứa trong nó là ChunkID
và ChunkSize.
8 4 Format Có chứa các chữ cái “WAVE”
Dạng file Wave có chứa 2 Subchunk :”fmt” và “data”
Subchunk “fmt” mô tả dạng của dữ liệu âm thanh
Offset Size Name Description
12 4 Subchunk1ID Có chứa các chữ cái “fmt” (dạng
0x666d7420 big - endian)
16 4 Subchunk1Siz
e
16 cho PCM, nó là kích thước phần còn lại
của subchunk
20 2 AudioFormat PCM=1 (ví dụ lượng tử hoá tuyến tính),
các giá trị khác 1 chỉ ra một số dạng nén
22 2 NumChannels Mono=1, Stereo=2
24 4 SampleRate Ví dụ: 8000,44100
28 4 ByteRate =SampleRate*NumChannels*BitPerSampl
e/8
32 2 BlockAlign =Numchannels*BitPerSample/8
Số các byte cho một mẫu có chứa tất cả
các kênh
34 2 BitsPerSample 8bits=8, 16bits=16
2 ExtraParamSi
ze

Nếu là PCM thì không tồn tại.
X ExtraParams Không gian cho các tham số thêm vào
Subchunk “data” có chứa kích thước của dữ liệu và âm thanh thực
11
Offset Size Name Description
36 4 SubChunk2ID Có chứa các chữ cái “data”
(dạng 0x64617461 big - endian)
40 4 SubChunk2Si
ze
=NumSamples*NumChannels*BitPerSamp
le/8
Số các byte trong dữ liệu
44 * Data dữ liệu âm thanh thực
Từ việc hiểu cấu trúc lưu trữ file . wav trong máy tính mà ta hoàn toàn có thể
thao tác xử lý các file wav một cách đơn giản như: việc cắt, dán, nối ghép, và
điều chỉnh phát 1 đoạn trong 1 file wav bất kỳ để nghe.
4. Xử lý file WAVE
Một file wave bao giờ cũng có phần header và phần dữ liệu. Trong đó
header chứa các thông tin như độ dài file, số bit/mẫu, kiểu kênh mono hay
stereo,…
Muốn thao tác xử lý các file wave thì chúng ta phải thay đổi một số thông
số trong header như độ dài file,…sau đó ghi các dữ liệu cần thiết sau khi ghi
header mới vào.
+ Các trường cần thay đổi khi thực hiện các thao tác xử lý File wav
- 2 trường SubChunk1Size và SubChunk2Size tất nhiên là phải được
cộng thêm với phần dữ liệu của File 2
12
Header Dữ liệu
- Nếu 2 File khác tôc độ lấy mẫu, giả sử 2 File cùng số kênh, cùng mức
lượng tử, mà File 2 có tốc độ lấy mẫu lớn hơn File 1, thì khi ghép File2

vào File 1; khi phát, âm thanh File 1 như ban đầu còn file 2 sẽ phát chậm
hơn (điều này tương đương với 1 dọng trầm được phát thay vì dọng
cao). Ngược lại, File 2 có tốc độ lấy mẫu bé hơn File 1, thì khi ghép
File2 vào File 1, khi phát, âm thanh File 1 như ban đầu còn file 2 sẽ
phát nhanh hơn (điều này tương đương với 1 dọng cao được phát thay vì
dọng trầm).
- Nếu 2 File cùng tốc độ lấy mẫu:
+ Giả sử cùng cùng kênh là 1 hoặc 2, nhưng mức lưọng tử khác nhau,
chẳng hạn File1 là 8Bit/mẫu, File2 là 16Bit/mẫu khi ghép 2 File lại với
nhau ta cần phải thực hiện 1 phép ánh xạ 1 File về dạng cùng mức lượng tử
của File kia bằng cách, thực hiện biến đổi giá trị mẫu từ miền [0,255] tới
miền [0,65535] hoặc ngược lại.
+ Nếu cùng mức lượng tử, cùng kênh thì sao chép bình thường
+ Nếu cùng mức lượng tử nhưng khác kênh. Ta cần biến đổi 1 File về
dạng cùng kênh với File kia bằng cách: Biến 1 File Mono  Stereo thì mỗi
mẫu của File Mono được nhân lên thêm 1 mẫu nữa và chèn vào sau mẫu đó.
Biến Stereo  Mono bằng cách chỉ lấy mẫu của kênh trái hoặc kênh phải.
Lúc này từ File Stereo ta được 2 File MonoLeft và MonoRight.
13
CHƯƠNG 2: TIẾNG VIỆT VÀ CÁC ĐẶC TRƯNG
1 Quá trình phát âm
Với một vị trí quan trọng trong nhiều lĩnh vực, tiếng Việt và nhận dạng
tiếng Việt cần phải được quan tâm nghiên cứu nhiều hơn nữa. Dưới góc độ
nghiên cứu học hỏi, bước đầu tôi đã nghiên cứu âm thanh, tiếng nói và nhận
dạng với các phát âm từ đơn và nghiên cứu các nguyên âm và phụ âm trong
Tiếng Việt.
Quá trình phát âm của con người có thể được mô tả như sau:
+ Khí được đẩy từ phổi qua vòm họng ra miệng phát thành âm.
+ Khi dây thanh quản rung tạo ra các xung âm thanh và phát ra tiếng kêu
(voiced sound).

+ Nếu dây thanh quản không rung nhưng mở liên tục tạo ra âm câm
(Unvoice).
+ Khi nói hình dạng vòm họng, thanh quản thay đổi tạo ra các âm khác
nhau.

14
+ Hình dạng vòm họng thay đổi chậm trong khoảng từ 10 đến 100ms.
+ Lượng khí từ phổi đẩy ra xác định âm lượng phát ra .
Cách tạo ra tiếng nói như trên là nguyên lý cơ bản cho các tiếng nói chung
trên thế giới nhưng đi sâu vào nghiên cứu thì mỗi tiếng nói của các nước khác
nhau có điểm chung và điểm riêng biệt khác nhau, chính điểm riêng biệt khác
nhau này là một thuộc tính quan trọng để có thể nhận dạng tốt được các loại
tiếng nói của các nước khác nhau. Vì vậy cần phải hiểu rõ cấu trúc ngữ âm tiếng
Việt.
2 Ngữ âm tiếng Việt
2.1 Khái niệm âm tiết
Chuỗi lời nói của con người được chia ra thành nhiều đoạn nhỏ như câu,
từ, cụm từ và cuối cùng là âm tiết. Âm tiết là đơn vị phát âm nhỏ nhất, không
phân chia được nữa dù nói chậm đến đâu (mà vẫn giữ đúng ý nghĩa âm tiết đó).
Mỗi âm tiết bao gồm nhiều yếu tố ngữ âm tạo thành và các yếu tố ngữ âm
hầu như phát âm cùng lúc để tạo nên đúng âm tiết đó. Bên cạnh đó người ta còn
xem âm tiết bao gồm nhiều yếu tố đoạn tính – là các yếu tố có giới hạn phân
đoạn trong âm tiết như phụ âm, nguyên âm và âm đệm – và các yếu tố siêu đoạn
tính – các yếu tố mà không giới hạn trong âm tiết như ngữ điệu, thanh điệu. Đặc
điểm riêng của âm tiết tiếng Việt là đơn âm và mang thanh điệu.
2.2 Cấu trúc âm tiết tiếng Việt.
Cấu trúc âm tiết tiếng Việt được xem xét theo nhiều cách, nhưng chúng ta
cũng có thể xem xét theo hai quan điểm sau:
2.2.1 Quan điểm truyền thống
Cấu trúc âm tiết:

15
Thanh điệu
Âm đầu
Phần vần
Âm đệm Âm chính Âm cuối
Một âm tiết tiếng Việt gồm 3 phần:
+ Thanh điệu: Là yếu tố luôn có mặt trong mọi âm tiết tiếng Việt. Tiếng
Việt bao gồm 6 thanh điệu: Ngang, huyền, sắc, hỏi, ngã, nặng.
+ Âm đầu : yếu tố mở đầu âm tiết, thường độc lập với phần còn lại.
+ Phần vần : gồm 3 phần:
Âm đệm: Là một bán nguyên âm chiếm vị trí trung gian giữa phụ âm và
phần vần. Có thể có hay không trong âm tiết. Âm đệm có chức năng tu chỉnh âm
sắc của âm tiết. Âm đệm có nhiệm vụ làm trầm hoá âm tiết. Tiếng Việt có hai âm
đệm là [o] và [u] được phát âm tương đối giống nhau.
Âm chính: Là một nguyên âm (đơn hay đôi), luôn có mặt trong âm tiết, giữ
vai trò là đỉnh của âm.Trong Tiếng Việt điểm thanh tính bao giờ cũng là nguyên
âm, các tiêu chí để phân biệt nguyên âm bao gồm các tiêu chí về âm sắc và âm
lượng. Các âm chính là các thành phần dễ phân biệt nhất.
Âm cuối: Là phụ âm hay bán nguyên âm để kết thúc âm tiết. Tiếng Việt có
hai bán nguyên âm cuối là [i] và [u].
Mỗi một ngôn ngữ có những đặc điểm về ngữ âm và ngữ pháp khác nhau.
Ta có thể áp dụng một phương pháp xử lý tiếng nói trên ngôn ngữ này rất hiệu
quả. Nhưng cùng phương pháp đó áp dụng cho một ngôn ngữ khác thì không
phải lúc nào cũng đúng. Đặc điểm của ngôn ngữ tiếng Anh là một từ được cấu
trúc từ một hoặc nhiều âm vị khác nhau. Vì vậy nói một từ trong ngôn ngữ này
có thể chia nhỏ ra làm một hoặc nhiều đoạn âm thanh. Với ngôn ngữ tiếng Việt
16
mỗi một từ được phát âm riêng biệt, không có sự biến đổi chu kỳ âm trong một
từ.
Với cách quan niệm này thì để nhận dạng một từ ta phải nhận dạng lần

lượt các yếu tố về thanh điệu, âm đầu và vần; trong vần ta lại chia nhỏ để nhận
dạng các phần âm đệm, âm chính, âm cuối. Và như vậy ta hình dung thấy rằng,
bài toán nhận dạng từ đọc của ta trở nên quá phức tạp, độ phức tạp về thời gian
là lớn, rồi việc phân chia ranh giới giữa các phần như thế nào là chuẩn, là đảm
bảo yêu cầu. Đây mới là vấn đề quan tâm hàng đầu. Chính vì những điều khó
khăn này mà ta phải nghĩ tới một hướng khác về cấu trúc từ. Và đây là quan
điểm mới mà tôi muốn thảo luận.
2.2.2 Quan điểm mới
Đây là quan điểm mới về cấu tạo từ ngữ trong tiếng Việt mà tôi đang
quan tâm nghiên cứu.
Ta thấy rằng quan niệm truyền thống tiếng Việt có bảng chữ cái gồm 17
phụ âm, 10 nguyên âm và 5 dấu, trên cơ sở đó tất cả các từ đơn được sinh ra. Các
từ đơn này là cơ sở tạo ra tất cả các từ trong tiếng Việt. Với cách quan niệm trên,
người ta có thể phân tích, nghiên cứu tiếng Việt ở nhiều khía cạnh khác nhau
như vần, điệu, ngữ pháp, ngữ nghĩa, cách phát âm, v.v.
Tuy nhiên với cách quan niệm trên làm cho chúng ta gặp nhiều khó khăn
về thuật toán như làm tăng dung tích bộ nhớ, tăng thời gian xử lý. Do đó để đơn
giản hoá khi nghiên cứu nhận dang tiếng Việt người ta có thể quan niệm toàn bộ
tiếng Việt được xây dựng từ một bảng gồm 26 phụ âm và 620 nguyên âm, đồng
thời có 620 vần ( Báo cáo khoa học 2006 của PGS.TS Nguyễn Văn Xuất ).
Như thế chúng ta có thể xem mọi từ trong tiếng Việt có cấu trúc như sau:
[<PHỤ ÂM>] & [<NGUYÊN ÂM>] (*)
17
Trong đó <PHỤ ÂM> có thể có hoặc không, thành phần <NGUYÊN
ÂM> bắt buộc phải có. Theo dạng (*) khi đó toàn bộ tiếng Việt có:
26*620+620=16.740 từ
Dưới đây là là bảng các phụ âm và nguyên âm được phân chia theo độ dài:
Bảng các phụ âm:
Các phụ âm Số lượng
Phụ âm đơn b,c,d,đ,g,h,k,l,m,n,p,q,r,s,t,v,x 17

Phụ âm ghép Ch,kh,nh,gh,th,ph,ng,ngh,tr 9
Bảng nguyên âm đơn:
Các nguyên âm đơn Số lượng
a A,à,á,ả,ã,ạ,ă,ắ,ằ,ẳ,ẵ,ặ,â,ầ,ấ,ậ,ẫ,ẩ 18
o O,ò,ó,ỏ,õ,ọ,ô,ồ,ố,ổ,ỗ,ộ,ơ,ờ,ớ,ở,ỡ,ợ 18
e E,è,é,ẻ,ẽ,ẹ,ê,ề,ế,ể,ễ,ệ 12
i I,ì,í,ỉ,ĩ,ị 06
u U,ù,ú,ủ,ũ,ụ,ư,ừ,ứ,ử,ữ,ự 12
y Y,ý,ỳ,ỷ,ỹ,y 06
Nguyên âm kép loại 1:
a Ai,ài,ái,ải,ãi,ại; ao,ào,áo,ảo,ão,ạo,
ay,ày,áy,ảy,ãy,ạy; âi,ầi,ấi, ẩi,ẫi,ậi, ăi, ằi,ắi,ẳi,ẵi,ặi,
au, àu,áu,ảu,ãu, ạu,âu,ấu,ầu,ẩu,ẫu,ậu;
ây,ấy,ầy,ẩy,ẫy ậy;
48
e Ei, éi, èi,ẻi,ẽi,ẹi, eo,éo,ẻo,ẽo,ẹo;
eu,éu,èu,ẻu,ẽu,ẹu,êi,ềi,ếi,ểu,ễi,ệi,êu,ếu,ều,ểu,ễu,ệu;
30
o Oa,oà,oá,oả,oã,oạ; oe,oè,oé,oẻ,oẽ,oẹ;
oi,òi,ói,ỏi,õi,ọi,ôi ối,ồi,ổi,ỗi,ội
24
u Ua,úa,ùa ủa,ụa,ui,úi,ùi,ủi, ũi, ụi, uê, uế, uễ, uệ, ưi,
ừi ứi, ửi, ữi, ựi, ưu, ừu, ứu, ửu, ữu, ựu, uy, uý, uỳ,
uỷ, uỹ, uỵ;
48
18
Nguyên âm kép loạii 2:
c Ác, ạc, ắc, ặc, ấc,ậc, éc, ẹc, ếc, ệc, íc, ịc, óc, ọc,
ốc, ộc, ớc, ợc, úc, ục, ức, ực
22

t Át,ạt, ắt, ặt, ất, ật, ét, ẹt, ết,ệt, ít, ịt, ót, ọt,
ốt,ột,ớt,ợt,út, ụt, ứt, ựt
22
p Áp, ạp, ắp, ặp, ấp , . . . .,
,ứp,ựp
22
m Am, ám,àm ảm, ãm ạm ,
, ,ữm,ựm
60
n An, án, àn, ản, ãn, ạn, . . . . , ,. . . . ,ữn, ựn 60
Nguyên âm ba:
nh Anh, ành, ánh, ảnh, ãnh, ạnh; inh, ính, ình,ỉnh,ĩnh,
ịnh; ênh, ềnh, ểnh ễnh, ệnh;
18
ng Ang, àng,áng,ảng,ãng,ạng; ăng, ằng, ắng,ẳng, ẵng,
ặng;
Âng,ấng,ầng,ẩng, ẫng, ậng; ing,
Eng, ;êng
Ong, ;ông
Ung ;ưng
60
ch Ách,ạch,ấch,ậch, ích,ịch, ếch, ệch, óch, ọch, úch, ụch 12
n Oen, oèn, oén, oẻn, oẽn; Ian; iàn, ián, iản, iạn, oan,
oàn, oán, oản, oãn, oạn
18
i/y Oai,oài,oái, oải, oại, oay, oày, oáy, oảy, oãy, oạy 12
o Iao, iào, iáo, iảo, ião, iạo 06
Bảng nguyên âm bốn:
19
nh Uanh,uành,uánh, uảnh,uạnh,uynh,uỳnh, ýnh, uỷnh,

uỹnh, uỵnh; oanh, oành, oánh, oảnh, oãnh, oạnh
18
ng Uang, uàng, uáng, uảng, ũng, uạng; uâng, uầng,
uấng, uẩng, uẫng, uậng, uông, uồng, uống, uổng,
uỗng,uộng, ương, ường, ưỡng, ưởng, ượng;
Iang, iàng, iáng, iảng, iạng, iêng, iềng, iếng, iểng,
iễng, iệng; oang, oàng, oáng, oảng, oãng, oạng; oăng,
oằng, oắng, oẳng, oẵng, oặng
48
Từ cách phân loại trên ta thấy:
Có:
• 26 phụ âm
• 72 nguyên âm đơn
• 150 nguyên âm kép loại 1
• 186 nguyên âm kếp laọi 2
• 126 nguyên âm 3
• 66 nguyên âm 4
Để nhất quán trong các quy tắc chúng ta quy ước y và các từ có ký tự y
đứng đầu đều là nguyên âm. Số từ bắt đầu bằng từ y trong tiếng Việt có tất cả 30
từ.
Với quan niệm từ tiếng việt có cấu trúc [<PHỤ ÂM>] & [<NGUYÊN
ÂM>] thì số lượng từ tăng lên so với quan niệm truyền thống, vì một loạt từ
dạng như po, pó, py, pý, poăng, poặng bây giờ là từ Việt, nhờ đó việc phiên âm
để đọc tiếng nước ngoài đơn giản hơn.
20
Trong phạm vi nghiên cứu của luận văn này tôi đã đi theo quan điểm thứ
hai để nghiên cứu áp dụng cho nhận dạng các nguyên âm và phụ âm trong tiếng
Việt.
3. Tiền xử lý tín hiệu tiếng nói
Tín hiệu tiếng nói khi đã được số hoá, trước khi trích lọc đặc trưng phải

thực hiện tiền xử lý: Lọc nhiễu, chuẩn hoá biên độ, căn chỉnh thời gian động.
Chương trình nhận dạng với tín hiệu tiếng nói 8bit/mẫu, tần số lấy mẫu
11025Hz, Frame được lấy theo kích thước 160 mẫu , tương đương đoạn thời
gian khoảng 15ms.
3.1 Lọc nhiễu
Sử dụng bộ lọc thông cao có đáp ứng xung pre_emphasis.
H(w)= 1-ae
jw−
Nếu chuyển sang miền Z
H(z)= 1- az
1−
Hệ số a được sử dụng trong khoảng [0.85, 1.0], thường lấy giá trị 0.97. Bộ
lọc có tác dụng tăng cường tín hiệu tại tấn số cao ( trên 1KHz) với 2 lý do chính:
+ Giọng nói có sự suy giảm khoảng 20dB khi lên tần số cao do đặc điểm
sinh lý của hệ thống phát âm của con người. Bước xử lý này nhằm tăng cường
tín hiệu lên 1 giá trị gần 20dB để khắc phục sự suy giảm này.
+ Hệ thống thính giác của con người nhạy cảm với vùng tấn số cao, bước
xử lý này nhấn mạnh vùng tần số cao, trợ giúp cho quá trình mô hình hoá âm
thanh sau này của hệ thống nhận dạng.
Thủ tục giả mã:
21
Giả sử s(n) là dãy tín hiệu đầu vào, dãy tín hiệu đầu ra qua bộ lọc được tính
for( i=N-1, i>0, i )
s(i)=s(i)-a* s(i-1)
3.2 Xác định đường mức không
Tiếng nói hay âm thanh khi số hoá với độ phân giải n Bit, thì giá trị sẽ nhận
trong khoảng [0, 2
n
-1]. Với tín hiệu ta đang nghiên cứu được số hoá ở độ phân
giải 8bit, thì giá trị mẫu nhận là [0, 255], khi im lặng tín hiệu này sẽ nhận giá trị

128 và đây là giá trị đường mức không. Thực tế khi thu âm, soundcard thực hiện
số hoá âm thanh có thể mức không không là giá trị nói trên. Để xác định đường
mức không thực hiện như sau:
Bước 1: Lấy mức thu của soundcard.
Bước 2: Đặt mức thu là nhỏ nhất
Bước 3: Thu khoảng 3s
Bước 4: Tính Histogram H của đoạn tín hiệu nói trên
Bước 5: Xác định giá trị mà có Histogram là lớn nhất, vị trí đó sẽ là giá
trị đường mức không.
Khi đã xác định được đường mức không, giá trị tín hiệu tiếng nói sẽ dao động
xung quanh đường mức không.
3.3 Chuẩn hoá biên độ
22
Các tín hiệu của cùng 1 từ khi nói và thu vào máy tính có thể có cường độ
( biên độ tín hiệu so với đường mức không) khác nhau, để thuận tiện cho việc
trích rút đặc trưng, một trong những khâu tiền xử lý là chỉnh biên độ tín hiệu
tiếng nói các từ về cùng mức không, giá trị biên độ lớn nhất là như nhau.
Bước 1: Đặt L= 2
n
, n là độ phân giải
Bước 2: Tính biên độ lớn nhất Max so với mức không.
Bước 3: Chuyển giá trị tín hiệu theo mức không
s(n)= s(n)- (Mức không)
Bước 4: Tính hệ số điều chỉnh
k=
max
L
, L là mức biên độ cần chuẩn tới
Bước 5: Chỉnh lại biên độ
s(n)= s(n)*k + (Mức không)

3.4 Căn chỉnh thời gian
Đây là việc mở rộng hoặc thu hẹp tín hiệu về 1 khoảng nhất định nào đó.
Giả sử dãy tín hiệu s(n)= { s(1), s(2),… s(n) } có n mẫu được chuẩn hoá thời
gian về dãy mới có N mẫu.
Thuật toán như sau:
For(i=1; i<=N; i++)
s’(i)= s(i*n/N)
3.5 Xác định phụ âm-nguyên âm
23
Qua nghiên cứu phổ của bất kỳ từ nào ta đều thấy rằng, giữa phần phụ âm
và nguyên âm có sự đột biến về năng lượng, đây chính là điểm mấu chốt của
hướng nghiên cứu mới này và là cơ sở cho sự quan niệm mới về cấu trúc từ như
trên.
Ví dụ phổ của 1 số từ như sau
BẢY
NĂM
24
BA

25

×