Tải bản đầy đủ (.docx) (22 trang)

BÁO CÁO THỰC TẬP-Hệ thống phát âm của con người

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (452.8 KB, 22 trang )

CHƯƠNG 1
CHƯƠNG 1. TỔNG QUANG VỀ TIẾNG NÓI
1.1. NGUỒN GỐC CỦA TIẾNG NÓI
Âm thanh của lời nói cũng như âm thanh trong thế giới tự nhiên xung quanh
ta, về bản chất đều là những sóng âm được lan truyền trong một môi trường nhất
định (thường là không khí). Khi chúng ta nói dây thanh trong hầu bị chấn động,
tạo nên những sóng âm, sóng truyền trong không khí đến màng nhĩ một màng
mỏng rất nhạy cảm của tai ta làm cho màng nhĩ cũng dao động, các dây thần kinh
của màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của sóng đạt đến một
độ lớn nhất định. Tai con người chỉ cảm thụ được những dao động có tần số từ
khoảng 16Hz đến khoảng 20000Hz. Những dao động trong miền tần số này gọi là
dao động âm hay âm thanh, và các sóng tương ứng gọi là sóng âm. Những sóng có
tần số nhỏ hơn 16Hz gọi là sóng hạ âm, những sóng có tần số lớn hơn 20000Hz
gọi là sóng siêu âm, con người không cảm nhận được (ví dụ loài dơi có thể nghe
được tiếng siêu âm). Sóng âm, sóng siêu âm và hạ âm không chỉ truyền trong
không khí mà còn có thể lan truyền tốt ở những môi trường rắn, lỏng, do đó cũng
được sử dụng rất nhiều trong các thiết bị máy móc hiện nay.
1.2. QUÁ TRÌNH TẠO TIẾNG NÓI
Hình 1.1. Hệ thống phát âm của con người
Lời nói là kết quả của sự vận động các bộ phận phận như lưỡi, thanh môn, môi,
họng, thanh quản, Đầu tiên áp lực từ phổi qua khí quản đưa tới thanh quản, ở
đây có các dây thanh giống như đôi môi đối xứng nằm ngay thanh quản. Hai môi
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
này có thể khép hoàn toàn và mỡ ra, tạo thành thanh môn để không khí bắn qua.
Tùy theo tốc độ hoạt động của dây thanh mà tần số không khí bắn qua thanh môn
khác nhau, không khí sau khi qua thanh môn được đưa tới các khoang mũi và
khoang miệng, các khoang này có tác dụng như các hộp cộng hưởng, cộng hưởng
ở những tần số khác nhau để tạo ra các luồng sóng âm có tần số lớn nhất khác
nhau. Các khoang cộng hưởng này có kích thước thay đổi tùy theo hướng phát âm,
trong đó rõ nhất là lưỡi, khi nói lưỡi thay đổi liên tục, tần số sóng âm thay đổi liên


tục. Người ta nhận thấy rằng trong quá trình phát âm, các bộ phận trên thay đổi
liên tục trong khoảng thời gian từ 20ms đến 30ms, vì trong khoảng thời gian này,
nguồn phát âm cố định.
1.3. PHÂN LOẠI TIẾNG NÓI
Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, rất uyển chuyển và
đặc biệt. Là công cụ của tư duy và trí tuệ, tiếng nói mang tính đặc trưng của loài
người. Nó không thể tách riêng khi nhìn vào toàn thể nhân loại, và nhờ có ngôn
ngữ tiếng nói mà loài người sống và phát triển xã hội tiến bộ, có văn hóa, văn
minh như ngày nay. Trong quá trình giao tiếp người nói, có nhiều câu nói, mỗi câu
gồm nhiều từ, mỗi từ lại có thể gồm 1 hay nhiều âm tiết. Ở tiếng Việt, số âm tiết
được sử dụng vào khoảng 6700. Khi chúng ta phát ra một tiếng thì có rất nhiều bộ
phận như lưỡi, thanh môn, môi, họng, thanh quản,… kết hợp với nhau để tạo thành
âm thanh. Âm thanh phát ra được lan truyền trong không khí để đến tai người
nhận. Vì âm thanh phát ra từ sự kết hợp của rất nhiều bộ phận, do đó âm thanh ở
mỗi lần nói khác nhau hầu như khác nhau dẫn đến khá khó khăn khi ta muốn phân
chia tiếng nói theo những đặc tính riêng. Người ta chỉ chia tiếng nói thành 3 loại
cơ bản như sau:
• Âm hữu thanh: Là âm khi phát ra thì có thanh, ví dụ như chúng ta nói
“i”, “a”, hay “o” chẳng hạn. Thực ra âm hữu thanh được tạo ra là do việc
không khí qua thanh môn (thanh môn tạo ra sự khép mở của dây thanh
dưới sự điều khiển của hai sụn chóp) với một độ căng của dây thanh sao
cho chúng tạo nên dao động.
• Âm vô thanh: Là âm khi tạo ra tiếng thì dây thanh không rung hoặc rung
đôi chút tạo ra giọng nhưgiọng thở, ví dụ“h”, “p” hay “th”.
• Âm bật: để phát ra âm bật, đầu tiên bộmáy phát âm phải đóng kín, tạo
nên một áp suất, sau đó không khí được giải phóng một cách đột ngột, ví
dụ“ch”, “t”.
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
1.4. PHÂN TÍCH TIẾNG NÓI

Phân tích tiếng nói là nhằm tìm ra một dạng thức tối ưu biểu diễn được tiếng
nói một cách hiệu quả. Nó là cơ sở cho việc phát triển các công nghệ tổng hợp,
nhận dạng và nâng cao chất lượng tiếng nói. Phân tích tiếng nói thường thực hiện
việc trích chọn hoặc chuyển đổi tín hiệu tiếng nói sang một dạng thức biểu diễn
khác sao cho có thể biểu diễn thông tin tiếng nói tốt hơn theo cách mà chúng ta
cần. Một cách tổng quát, hầu hết các phương pháp phân tích tín hiệu tiếng nói tập
trung vào một trong ba vấn đề chính. Thứ nhất là tìm cách loại bỏ ảnh hưởng của
pha, thành phần không đóng vai trong quan trọng trong việc truyền tải thông tin
tiếng nói. Thứ hai, thực hiện việc chia tách nguồn âm và mạch lọc (mô hình tuyến
âm) sao cho chúng ta có thể nghiên cứu biên phổ của tín hiệu một cách độc lập.
Cuối cùng là chuyển đổi tín hiệu hoặc biên phổ tín hiệu sang một dạng biểu diễn
khác hiệu quả hơn.
1.4.1. Mô hình phân tích tiếng nói
Mô hình tổng quát cho việc phân tích tiếng nói được trình bày trong hình 1.2.
Các dạng tín hiệu tại các bước được trình bày kèm theo trong minh họa.
Tín hiệu tiếng nói được tiền xử lý bằng cách cho qua một bộ lọc thông thấp với
tần số cắt khoảng 8 kHz. Tín hiệu thu được thực hiện quá trình biến đổi sang dạng
tín hiệu số nhờ bộ biến đổi ADC. Thông thường, tần số lấy mẫu bằng 16kHz với
tốc độ bit lượng tử hóa là 16 bit.
Tín hiệu tiếng nói dạng số được phân khung với chiều dài khung thường
khoảng 30ms và khoảng lệch các khung thường bằng 10ms. Khung phân tích tín
hiệu sau đó được chỉnh biên bằng cách lấy cửa sổ với các hàm cửa sổ phổ biến
như Hamming, Hanning Tín hiệu thu được sau khi lấy cửa sổ được đưa vào phân
tích với các phương pháp phân tích phổ (chẳng hạn như STFT,LPC, ) Hoặc sau
khi phân tích phổ cơ bản , tiếp tục được đưa đến các khối để trích chọn các đặc
trưng.
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
Hình 1.2 Mô hình tổng quát phân tích tiếng nói
CHƯƠNG 2. MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG TIẾNG NÓI

2.1. NHẬN DẠNG TIẾNG NÓI
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp
(classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã
được học trước đó và lưu trữ trong bộ nhớ. Các mẫu là các đơn vị nhận dạng, chúng có
thể là các từ, hoặc các âm vị. Nếu các mẫu này là bất biến và không thay đổi thì công
việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận
dạng với các mẫu đã được học và lưu trữ trong bộ nhớ.
Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo
thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ
nói, ngữ cảnh và môi trường âm học khác nhau. Xác định những thông tin biến thiên
nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng
tiếng nói là rất quan trọng. Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ
thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng
nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói.
Nhận dạng tiếng nói có nhiều ứng dụng :
• Đọc chính tả. Là ứng dụng được sử dụng nhiều nhất trong các hệ
nhận dạng. Thay vì nhập liệu bằng tay thông qua bàn phím, người sử
dụng nói với máy qua micro và máy xác định các từ được nói trong
đó.
• Điều khiển – giao tiếp không dây. Chẳng hạn hệ thống cho phép
máy tính nhận lệnh điều khiển bằng giọng nói con người như: “chạy
chương trình”, “tắt máy” một số ưu điểm của việc sử dụng tiếng nói
thay cho các thiết bị vào chuẩn như chuột, bàn phím là thuận tiện tốc
độ cao, không bị ảnh hưởng của cáp, khoảng cách, không đòi hỏi
huấn luyện sử dụng
• Điện thoai- liên lạc. Một số hệ thống ( chẳng hạn ở máy điện thoại
di động) cho phép người sử dụng đọc tên người trong danh sách thay
vì bấm số.


2.2. MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG TIẾNG NÓI
2.2.1. Phương pháp ngữ âm – âm vị học (acoustic-phonetic approach)
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
Phương pháp ngữ âm- âm vị học dựa trên lý thuyết âm vị: lý thuyết này khẳng
định sự tồn tại hữu hạn và duy nhất các đơn vị ngữ âm cơ bản trong ngôn ngữ nói gọi
là âm vị, được phân chia thành: nguyên âm- phụ âm, vô thanh- hữu thanh, âm vang-
âm bẹt Các âm vị có thể xác định bởi tập các đặc trưng của phổ của tín hiệu tiến nói
theo thời gian.
Đặc trưng quan trọng nhất của âm vị là Formant. Đó là vùng tần số có cộng
hưởng cao nhất của tín hiệu. Ngoài ra còn một số đặc trưng khác như âm vực( cao độ -
pitch), âm lượng Hệ thống nhận dạng dự trên phương pháp này sẽ tách các đặc trưng
từ tín hiệu tiếng nói và xác định chúng tương ứng với âm vị nào. Sau đó, dựa vào một
từ điển phiên âm, máy sẽ xác định chuỗi cac âm vị có khả năng là phát âm của từ nào
nhất.
Hình 2.1. Phương pháp phân loại nguyên âm tiếng anh
Hình 2.1 cho ta phương pháp phân biệt nguyên âm bằng đặc trưng Formant và
chiều dài phân đoạn. Chúng ta giả sử rằng có ba đặc trưng đã được phát hiện trong
phân đoạn là formant thứ nhất F1, formant thứ hai F2 và chiều dài của phân đoạn D.
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
Để phân loại một phân đoạn nguyên âm trong 10 nguyên âm ổn định, một số phép thử
cần phải thực hiện để phân tách các nhóm nguyên âm. Như trình bày trong hình trên,
phép thử đầu tiên tách các nguyên âm có tần số F1 thấp (còn gọi là các nguyên âm
khuếch tán (diffuse) chẳng hạn như/i/, /i/, /u/, ) với các nguyên âm có tần số cao
(còn gọi là các nguyên âm gọn (compact) bao gồm /a/, ). Mỗi tập con này lại được
phân tách thêm dựa vào tần số F2, trong đó các nguyên âm acute (âm sắc) có tần số
F2 cao và các nguyên âm grave (âm huyền) có tần số F2 thấp. Phép kiểm tra thứ ba
dựa trên khoảng thời gian của phân đoạn sẽ phân tách các nguyên âm căng (tense

vowel), tức là các nguyên âm có giá trị D lớn với các nguyên âm lax (thả lỏng), tức là
các nguyên âm có giá trị D nhỏ. Cuối cùng, một phép kiểm tra mịn hơn (finer) đối với
các giá trị formant để phân tách các nguyên âm chưa phân tách còn lại tạo ra lớp các
nguyên âm bằng (flat) tức là các nguyên âm có F1+F2 lớn hơn một ngưỡng T nào đó
và các nguyên âm đơn giản (plain) ( các nguyên âm có F1+F2 nằm dưới một ngưỡng T
nào đó) .
Việc phân loại nguyên âm ở trên chỉ là một phần nhỏ trong quá trình xác định
âm vị của phương pháp, trên thực tế, ta cần xác định nguyên âm đơn,kép, phụ âm, âm
vô thanh, hữu thanh hay khoảng lặng
Xét về khía cạnh nguyên lí, phương pháp này có vẻ rất đơn giản. Tuy nhiên các
thử nghiệm trong thực tế cho thấy phương pháp cho kết quả nhận dạng không cao,
nguyên nhân từ những vấn đề sau:
• Phương pháp cần rất nhiều tri thức về ngữ âm học, nhất là các tri thức liên
quan đến đặc tính âm học của các âm vị. Mà những tri thức này nhìn chung
còn chưa được nghiên cứu đầy đủ.
• Formant chỉ ổn định với nguyên âm, còn với phụ âm formant rất khó xác
định và không ổn định. Hơn nửa việc xác định các formant cho độ chính xác
không cao. Đặc biệt khi chịu ảnh hưởng của nhiễu.
• Rất khó phân biệt các âm vị dựa trên phổ, nhất là các phụ âm vô thanh. Có
một số phụ âm rất giống nhiễu (ví dụ; /s/, /h/).
2.2.2. Phương pháp nhận dạng mẫu
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
Phương pháp nhận dạng mẫu dựa vào lý thuyết xác suất thống kê để nhận dạng
dựa trên ý tưởng: so sánh đối tượng cần nhận dạng với các mẫu được thu thập trước
đó để tìm mẫu “giống” đối tượng nhất.
Như vậy hệ thống nhận dạng sẽ trải qua 2 giai đoạn:
• Giai đoạn huấn luyện thực hiện các nhiệm vụ: thu thập mẫu, phân lớp
và huấn luyện hệ thống ghi nhớ các mẫu đó.
• Giai đoạn nhận dạng: nhận vào đối tượng cần nhận dạng, so sánh với

các mẫu và đưa ra kết quả là mẫu giống đối tượng nhất.
Phần lớn các hệ thống nhận dạng thành công trên thế giới là sử dụng phương
pháp này. Phương pháp có những ưu điểm sau:
• Sử dụng đơn giản, dể hiểu, mang tính toán khoa học cao (lý thuyết
xác suất thống kê, lý thuyết máy học, )
• Ít bị ảnh hưởng của những biến thể về bộ từ vựng, tập đặc trưng, đơn
vị nhận dạng, môi trường xung quanh
• Cho kết quả cao. Điều này đã được kểm chứng trong thực tế.
2.2.3. Phương pháp trí tuệ nhân tạo
Phương pháp trí tuệ nhân tạo nghiên cứu cách học nói và học nghe của con
người, tìm hiểu các quy luật ngữ âm, ngữ pháp, ngữ nghĩa, ngữ cảnh và tích hợp
chúng bổ sung cho các phương pháp khác để nâng cao kết quả nhận dạng.
Chẳng hạn có thể thêm các hệ chuyên gia( expert system), các luật logic mờ
(fuzzy logic) về ngữ âm, âm vị vào các hệ nhận dạng tiếng nói dựa trên phương pháp
ngữ âm – âm vị học để tăng độ chính xác cho việc xác định các âm vị ( vấn đề đã được
đề cập rất khó nếu chỉ sử dụng các thông tin về âm phổ).
Hay đối với hệ nhận dạng mẫu, người ta cải tiến bằng cách đối với mỗi tượng
cần nhận dạng, hệ thống sẽ chọn ra một số mẫu giống “giống” đối tượng nhất, sau đó
kiềm chứng tiếp các kết quả đó bằng các luật ngữ pháp, ngữ nghĩa, ngử cảnh để xác
định mẫu phù hợp nhất.
Hiện nay đang có một phương pháp trí tuệ nhân tạo trong nhận dạng tiếng nói
được nghiên cứu rộng rãi là mạng nơron. Tùy vào cách sử dụng, mạng nơron có thể
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
coi là mở rộng của phương pháp nhận dạng mẫu hoặc phương pháp ngữ âm- âm vị
học.
CHƯƠNG 3. TRÍCH CHỌN ĐẶC TRƯNG MFCC VÀ LPC TRONG
NHẬN DẠNG TIẾNG NÓI
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1

3.1. TRÍCH CHỌN ĐẶC TRƯNG MFCC
MFCC( Mel-scale Frequency Cepstral Coefficient) là phương pháp trích đặc trưng
dựa tên đặc điểm cảm thụ tần số âm của tai người: tuyến tính đối với tần số nhỏ hơn
1kHz và phi tuyến đối với tần số trên 1kHz.
3.1.1. Sơ đồ khối quá trình tính MFCC
Đối với phương pháp MFCC, việc tính đặc trưng có sơ đồ như sau:
Hình 3.1. Sơ đồ khối quá trình trích chọn đặc trưng MFCC
Quá trình tính toán như sau: đầu tiên tín hiệu tiếng nói được chia thành các
Frame có độ dài 10ms. Mỗi frame sẽ được nhân với một hàm cửa sổ, thường là cửa sổ
Hamming sau đó được chuyển sang miền tần số nhờ biến đổi Fourier. Tín hiệu ở miền
tần số được nhân với các bộ loc mel-scale, lấy logarit rồi biến đổi Fourier ngược (để
chuyển sang miền cepstral) sẽ được các hệ số MFCC.
Một số hệ thống có tính thêm năng lượng (cũng lấy logarit) và đặc trưng delta
( dạo hàm rời rạc theo thời gian của MFCC) nhằm thêm thông tin cho các pha sau của
quá trình nhận dạng.
3.1.2. Phân khung và cửa sổ hóa
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
Tín hiệu tiếng nói đươc tiền xử lý bằng cách cho qua các mạch lọc, và chuyển
sang tín hiệu số nhờ bố biến đổi ADC gồm L mẫu. Sau đó được chia thành các khung
với độ rộng khoảng 10-30ms. Và để tránh mất thông tin, các khung thường được lấy
bao trùm lên nhau. Sau đó khung phân tích tín hiệu được chỉnh biên bằng cách nhân
với một hàm cửa sổ độ rộng N.
;
(3.1
)
Hàm cửa sổ thường được dùng là làm cửa sổ Hamming:
;
(3.2
)

Hình 3.2. Đồ thị hàm cửa sổ Hamming
3.1.3. Biến đổi Fourier rời rạc
Tín hiệu của một khung sau khi nhân với hàm cửa sổ, được chuyển sang miền
tần số bằng biến đổi Fourier rời rạc:
;
(3.3
)
3.1.4. Lọc qua các bộ lọc mel-scale
Các bộ lọc mel-scale là các bộ lọc tam giác, đặt cách đều nhau trong miền tần
số nhỏ hơn 1kHz và khoảng cách tăng theo hàm mũ trong miền từ 1kHz đến fs/2 ( một
nửa của dãy tần số lấy mẫu).
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
Hình 3.3. Các bộ lọc mel-scale tam giác
Với M bộ lọc đó, ta hoàn toàn xác định được hệ số nhân h
i
(k) của mỗi bộ lọc.
Kết quả lọc đối với tín hiệu ở miền tần số qua các bộ lọc được tính như sau:
;
(3.4
)
Chú ý: X(k) là số phức nhưng thông tin về pha của X(k) không quan trọng nên
ta chỉ tính kết quả lọc với modun của X(k).
Việc nhân tín hiệu ở miền tần số với các bộ lọc mel-scale để chuyển biểu diễn
miền tần số từ thang Hz sang thang mel mục dích là phân giải tần số theo đặc điểm
cảm thụ âm của con người: tuyến tính đối với tần số nhỏ hơn 1kHz và phi tuyến đối
với tần số trên 1kHz.
3.1.5. Logarit và biến đổi Fourier ngược
Lấy logarit của tín hiệu ở miền tần số (spectrum) rồi biến đổi Fourier ngược sẽ
đưa tín hiệu về một miền gọi là cepstrum có đơn vị thời gian. Biến đổi từ spectrum

sang cepstrum là một biến đổi đồng hình.
Công thức của bước này là :
; (3.5
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
)
Mặc dù biến đổi từ spectrum sang cepstrum là biến đổi Fourier ngược, tuy
nhiên do ta dùng spectrum và cepstrum thực nên chỉ sử dụng biến đổi cosine rời rạc
(DCT) để tăng hiệu năng tính toán.
Sau bước này ta được vector cepstral p thành phần. Thông thương người ta
thường nhân thêm vào kết quả một hàm cửa sổ sóng sin ( gọi là thủ tục liftering) để
giảm bớt ảnh hưởng của các biến đổi đến kết quả.
(3.6
)
(3.7
)
3.1.6. Tính toán năng lượng
Kèm theo thông tin về năng lượng của tín hiệu sẽ tăng thêm thông tin cho nhận
dạng (ví dụ: phân biệt các khoảng chứa tín hiệu âm và khoảng lặng, phân biệt vùng tín
hiệu chứa nguyên âm và phụ âm )
Năng lượng của cả khung được tính qua công thức:
(3.8
)
3.1.7. Tính toán đặc trưng delta
Đặc trưng delta là đạo hàm bậc nhất (rời rạc) của đặc trưng theo thời gian. Có các đặc
trưng delta sẽ làm tăng thêm thông tin cho nhận dạng ( chẳng hạn: xác định các vùng
mà phổ tín hiệu ổn định ). Đặc trưng delta được tính theo công thức:
(3.9
)
Trong đó C(t) là cả vector cepstral tại thời điểm t. T là một hằng số chọn trước, thường

T = 3.
3.2. PHÂN TÍCH LPC TRONG NHẬN DẠNG TIẾNG NÓI
3.2.1. Phân tích LPC
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
Phương pháp phân tích LPC (Linear Predictive Coding) hay còn đươc gọi là
phân tích mã dự đoán tuyến tính là một trong các phương pháp phân tích tín hiệu tiếng
nói mạnh nhất và được sử dụng phổ biến.
Ý tưởng việc sử dụng mô hình LPC là việc có thể xấp xỉ một mẫu tín hiệu tiếng
nói ở thời điểm n bất kỳ, s(n), như là một tổ hợp tuyến tính của p mẫu trước đó. Nói
cách khác:
(3.10)
Các hệ số a
1
,a
2
, a
p
được giả thiết là không đổi trong khung phân tích tín hiệu.
Biểu thức (3.10) có thể được viết lại thành đẳng thức nếu ta thêm vào một thành phần
kích thích Gu(n) :
(3.11)
Giả sử rằng tổ hộp tuyến tính của các mẫu trước thời điểm xem xét là một ước
lượng của tín hiệu, kí hiệu là
(3.12)
Khi đó sai số dự tính e(n) sẽ được tính là:
(3.13)
Vấn đề đặt ra đối với phương pháp phân tích LPC là xác định tập các hệ số a
k
một cách

trực tiếp từ tín hiệu sau cho sai số dự tính e(n) là nhỏ nhất. Để tìm ra các hệ số dự
đoán, chúng ta định nghĩa các khung tín hiệu ngắn hạn và tương ứng sai số ngắn hạn:
(3.14)
(3.15)
Chúng ta cần tối thiểu hóa tín hiệu sai số trung bình bình phương ở thời điểm n:
(3.16)
Biểu thức (3.16) có thể viết lại bằng cách sử dụng các định nghĩa và như sau:
(3.17)
Để tìm cực tiểu của (3.17) chúng ta lấy đạo hàm lần lượt theo các hệ số a
k
và cho
chúng bằng không:
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
(3.18)
Khi đó chúng ta có:
(3.19)
(3.20)
Đặt , khi đó
(3.21)
Thay vào (3.20) ta đươc biểu thức thu gọn như sau:
(3.22)
Vì i có giá trị từ 1 tới p, nên ta có hệ phương trình sau:
(3.23)
Chuyển hệ phương trình trên dưới dạng ma trận:
(3.24)
Quá trình phân tích LPC sẽ tính các biểu thức sau đó giải hệ phương trình trên tìm ra
các hệ số a
k


3.2.2. Bộ xử lý LPC trong nhận dạng tiếng nói
Hình 3.4. Sơ đồ khối bộ xử lý LPC trong nhận dạng tiếng nói
a. Tiền nhấn tín hiệu
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
Tín hiệu tiếng nói dạng số hóa được số hóa được đưa qua một hệ thống lọc số bậc
thấp, thường là bộ lọc đáp ứng xung hữu hạn (FIR) bậc nhất, nhằm làm phẳng phổ tín
hiệu. Điều này sẽ giúp cho tín hiệu ít bị ảnh hưởng của các phép biến đổi xử lý tín
hiệu có độ chính xác hữu hạn trong suốt quá trình sau đó. Bộ lọc số sử dụng cho việc
tiền nhấn tín hiệu có thể là một bộ lọc với các tham số cố định hoặc có thể là một bộ
lọc thích nghi có các tham số thay đổi chậm. Trong xử lý tín hiệu tiếng nói, người ta
thường dùng một hệ thống mạch lọc bậc nhất có các tham số cố định có dạng:
(3.25)
Khi đó, tín hiệu đầu ra của bộ tiền nhắn có thể tính như sau:
(3.26)
Hình 3.5. Phổ biên độ của mạch tiền nhấn tín hiệu
Hình 3.5 biểu diễn biên độ đặc tính hàm truyền đạt với giá trị . Từ hình vẽ, chúng
ta có thể quan sát thấy rằng tại , tức là bằng một nửa tốc độ lấy mẫu, có sự gia tăng
biên độ khoảng 32dB sao với biên độ ở tần số
b. Phân tích tính tự tương quan
Sau khi qua khối tiền nhấn tín hiệu, ta phân khung tín hiệu rồi sau đó nhân với
hàm cửa sổ tương tự như trong phần trích chọn đặc trưng MFCC. Khi đó kết
quả của tín hiệu mỗi khung sẽ là:
(3.27)
Kết quả tự tương quan của mỗi khung tín hiệu sẽ tạo hàm :

(3.28)
c. Phân tích LPC
Ta tìm các hệ số a
k

từ ma trận :
(3.29)
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
d. Chuyển đổi các tham số LPC sang các hệ số Cepstral
(3.30)
(3.31)
Với a
m
là các hệ số LPC, C
m
là các hệ số Cepstral. Ta sử dụng các hệ số này để
đặc trưng cho khung tín hiệu tiếng nói cho quá trình nhận dạng.
CHƯƠNG 4. ỨNG DỤNG KỸ THUẬT MFCC VÀ MẠNG NƠRON ĐỂ
NHẬN DẠNG TIẾNG VIỆT
4.1. NHẬN DẠNG TIẾNG VIỆT
4.1.1. Một số đặc điểm ngữ âm tiếng Việt
Một đặc điểm dễ thấy là tiếng Việt là ngôn ngữ đơn âm ( monosyllable – mỗi từ
đơn chỉ có một âm tiết), không biến hình ( cách đọc, cách ghi âm không thay đổi trong
bất cứ tình huống ngữ pháp nào). Tiếng Việt hoàn toàn khác với các ngôn ngử Ấn- Âu
như tiếng Anh, tiếng pháp là các ngôn ngữ đa âm, biến hình.
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
Theo thống kê trong tiếng Việt có khoảng 6000 âm tiết. Nhìn về mặt ghi âm:
âm tiết tiếng Việt có cấu tạo chung là : phụ âm - vần. Ví dụ âm xinh có phụ âm là x có
âm vần là inh. Phụ âm là một âm vị và âm vị này liên kết rất lỏng lẻo với phần còn lại
của âm tiết ( hiện tượng nói lái).
Vần trong tiếng Việt lại được cấu tạo từ các âm vị nhỏ hơn, trong đó có một âm
vị chính là nguyên âm.
Hình sau là phổ tín hiệu của âm tiết “ba”. Chúng ta có thể quan sát và phâm biệt

rõ miền nhiễu nền, miền phổ của phụ âm b và nguyên âm a (miền đậm hơn là có mật
độ năng lượng lớn hơn).
Hinh 4.1. Phổ tín hiệu của âm tiết “ba”
Quan sát phổ các âm tiết tương tự chúng ta có thể rút ra kết luận: các phụ âm
và nguyên âm đều phân biệt với nhau rất rõ qua sự phân bố năng lượng tại các miền
tần số, ví dụ: phụ âm ở thần số thấp, năng lượng nhỏ, nguyên âm có năng lượng lớn và
ở cả vùng tần số cao. Vùng không có tín hiệu tiếng nói (nhiễu nền và khoảng lặng) có
năng lượng thấp và chỉ tập trung ở các tần số rất thấp.
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
Các nguyên âm có thần phổ (spectrum) khác nhau khá rõ, Hình sau minh họa
sự khác nhau về phổ của 5 nguyên âm cơ bản. Miền đậm là miền có mật độ năng
lượng cao.
Hình 4.2. Sự khác nhau về phổ của 5 nguyên âm cơ bản.
Xét về mặt ngữ âm- âm vị học âm tiết tiếng Việt có lược đồ như sau:
Lượt đồ cho thấy âm tiết tiếng Việt có cấu trúc rõ ràng, ổn định. Lượt đồ còn
cho thấy tiếng Việt là ngôn ngữ có thanh điệu. Hệ thống thanh điệu gồm 6 thanh:
bằng, huyền, sắc, hỏi, ngã, nặng.
Thanh điệu trong âm tiết là âm vị siêu đoạn tính (thể hiện trên toàn bộ âm
tiết). Do đó đặc trưng về thanh điệu thể hiện trong tín hiệu tiếng nói không rõ nét như
các thành phần khác của âm tiết.
Sự khác biệt về cách phát âm tiếng Việt rất rõ rệt theo giới, lứa tuổi và đặc
biệt là theo vị trí địa lý.
4.1.2. Những thuận lợi và khó khăn trong nhận dạng tiếng Việt
4.1.2.1. Thuận lợi
- Tiếng Việt là ngôn ngữ đơn âm, số lượng âm tiết không quá lớn. Điều này sẽ giúp hệ
nhận dạng xác định ranh giới các âm tiết dễ dàng hơn nhiều.
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
- Tiếng Việt là ngôn ngữ không biến hình từ. Âm tiết tiếng Việt ổn định, có cấu trúc rõ

ràng. Đặc biệt khong chó 2 âm tiết nào đọc giống nhau mà viết khác nhau. Điều này sẽ
dễ dàng cho việc xây dựng các mô hình âm tiết trong nhận dạng.
4.1.2.2. khó khăn
- Tiếng Việt là ngôn ngữ có thanh điệu ( 6 thanh). Thanh điệu là âm vị siêu đoạn tính,
đặc trưng về thanh điệu thể hiện trong tín hiệu tiếng nói không rõ nét như các thành
phần khác của âm tiết.
- Cách phát âm tiếng Việt thay đổi nhiều theo địa lí. Giọng địa phương trong tiếng
Việt rất đa dạng.
- Hệ thống ngữ pháp, ngữ nghĩa tiếng Việt rất phức tạp, rất khó để áp dụng vào hệ
nhận dạng với mục dích tăng hiệu năng nhận dạng. Hệ thống phiên âm cũng chưa
thống nhất.
- Các nghiên cứu về nhận dạng tiếng Việt cũng chưa nhiều và ít phổ biến. Đặc biệt khó
khăn lớn nhất là hiện nay chưa có một bộ dữ liệu chuẩn cho việc huấn luyện và kiểm
tra các hệ thống nhận dạng tiếng Việt.
4.2. MẠNG NƠRON NHÂN TẠO
Bộ não con người, dưới góc độ tính toán có thể coi là một hệ thống xử lý
song song lớn và mật độ kết nối cao: phần tử xử lí là các nơron là một và kết nối là các
dây thần kinh.
Khả năng tuyệt vời của bộ nảo người đã gợi lên những ý tưởng về việc mô
phỏng chúng trong lĩnh vực tính toán. Và mạng nơron nhân tạo (artificial neural
network – ANN) là kết quả của những ý tưởng đó.
4.2.1. Mô hình mạng nơ ron
Có nhiều mô hình mạng nơron khác nhau. Mô hình mạng đơn giản và phổ
biến nhất là mô hình mạng perceptron truyền thẳng nhiều lớp (multi layer perceptron –
MLP). Đó là mô hình mạng được sử dụng trong đề tài này.
4.2.1.1. Mô hình một nơron perceptron
Một nơ ron perceptron là một phần tử xử lý gồm :
• n đầu vào x
i
, mỗi đầu vào ứng với một giá trị thực w

i
gọi là trọng số
• Một giá trị thực b gọi là ngưỡng (bias).
• Một hàm kích hoạt f
• Giá trị ra y.
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
Hình 4.3. Mô hình một nơ ron perceptron
Giá trị ra của perceptron được tính theo quy tắc sau:
(4.1)
(4.2)
Hàm kích hoạt được dùng phổ biến là hàm sigmoid ( còn gọi là hàm logistic)
do tính phi tuyến khả vi:
(4.3)
Ngoài ra còn có một số hàm kích hoạt khác : hàm tan hyperbolic (tanh), hàm
softmax.
Khả năng tính toán của một nơ ron perceptron khá hạn chế. Để cải thiện
người ta nối chúng thành mạng. Mô hình mạng đơn giản nhất là mạng perceptron
truyền thẳng đa lớp MLP.
4.2.1.2. Mô hình mạng nơ ron MLP
Mạng nơ ron MLP n đầu vào, m đầu ra có mô hình như sau:
• Các nơ ron được chia thành các lớp: lớp sau được nối với lớp trước.
Lớp đầu tiên là lớp vào ( input ), lớp cuối cùng là lớp ra (output).
Giữa lớp vào và lớp ra là các lớp ẩn (hidden). Thông thường chỉ có
một lớp ẩn.
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]
CHƯƠNG 1
• Tất cả các nơ ron cùng một lớp sử dụng chung một vector đầu vào.
Mỗi lớp khi nhận một vector đầu vào sẽ tính ra đầu ra của mỗi nơ
ron, kết hợp thành một vector và lấy đó làm đầu vào cho lớp sau.

• Mạng MLP nhận đầu vào là một vector n thành phần, lấy đó làm đầu
vào của lớp input và tính toán cho đến khi lớp output có đầu ra, lấy
đó làm đầu ra của mạng là một vector m thành phần.
• Toàn bộ các nơ ron của mạng sử dụng chung một hàm kích hoạt,
thương là hàm logistic.
Ngoài lớp vào và lớp ra,mạng MLP thường có một hay nhiều lớp ẩn. Thông
thường người ta chỉ sử dụng một lớp ẩn. Vì vậy đôi khi người ta hay đồng nhất MLP
với MLP 3 lớp.
Hình 4.4. Mô hình mạng perceptron 3 lớp
LÊ QUỐC ĐẠT D10CQDT01_N [Type text]

×