1. Mạng Nơron 53
3.1 Luật học có giám sát 55
3.2 Luật học không giám sát 56
3.3 Luật học tăng cường 57
Kết luận 74
GIỚI THIỆU
Trong những năm gần đây, người ta thường nhắc tới “trí tuệ nhân tạo”
như một phương thức mô phỏng trí thông minh của con người từ việc lưu trữ
đến xử lý thông tin. Và nó thực sự đã trở thành nền tảng cho việc xây dựng
các thế hệ máy thông minh hiện đại. Cũng với mục đích đó, nhưng dựa trên
quan điểm nghiên cứu hoàn toàn khác, một môn khoa học đã ra đời, đó là lý
thuyết mạng neuron. Tiếp thu các thành tựu về thần kinh sinh học, mạng
neuron luôn được xây dựng thành một cấu trúc mô phỏng trực tiếp các tổ chức
thần kinh trong bộ não con người.
Một trong những ứng dụng kinh điển của mạng neuron là lớp các bài toán
nhận dạng mẫu, ở đó mỗi một mẫu là một tập hợp(hay một vector) các tham
số biểu thị các thuộc tính của một quá trình vật lý nào đó(ví dụ tín hiệu tiếng
nói). Ngoài sức mạnh vốn có, mạng neuron còn thể hiện ưu điểm của mình
trong việc nhận dạng thông qua khả năng mềm dẻo, dễ thích nghi với môi
trường. Chính vì vậy, có thể coi mạng neuron trước tiên là một công cụ để
nhận dạng. Nhiều công trình nghiên cứu, nhiều ứng dụng thực nghiệm đã
được thực hiện trên mạng neuron với mục đích nhận dạng và đã thu được
những thành công to lớn.
Trước sự quyến rũ của các ứng dụng trí tuệ nhân tạo, cùng bản tính tò mò
trước một lý thuyết mới chưa từng nghiên cứu và sự động viên khuyến khích
của thầy giáo hướng dẫn, tôi đã quyết định thực hiện những nghiên cứu ban
1
đầu về lý thuyết mạng neuron với một mục đích cụ thể là ứng dụng nó vào vấn
đề nhận dạng tiếng nói.
Xử lý âm thanh và nhận dạng tiếng nói có một ý nghĩa quan trọng và thiết
thực trong nhiều lĩnh vực như: nhận dạng, phát thanh, truyền hình, viễn thông,
và nhiều lĩnh vực khác.
Nhận dạng tiếng nói là một lĩnh vực khó, một vấn đề nghiên cứu trọng
điểm được nhiều nhà khoa học quan tâm ở các lĩnh vực khác nhau : Tin học,
toán học, điều khiển, điện tử, sinh học
Trước sự phát triển mạnh mẽ của công nghệ thông tin, vấn đề nhận dạng
càng được quan tâm nhiều hơn nhằm nâng cao hiệu quả giao tiếp giữa người
và máy. Chính sự quan trọng đặc biệt này mà tôi đã chọn nhận dạng âm thanh
tiếng Việt là đề tài nghiên cứu.
1. Mục đích, nhiệm vụ của đồ án.
Nghiên cứu, tìm hiểu mạng Neuron và ứng dụng mạng Neuron trong
nhận dạng giọng nói trên tập từ hữu hạn.
Nghiên cứu nhận dạng trên quan điểm xem xét tín hiệu giọng nói dưới
góc độ phân tách thành một tập các tham số được trích rút từ mỗi
khung(N=240) tín hiệu giọng nói bao gồm: Các hệ số tự tương quan(
{ }
q
i
iR
0
)(
=
với q=12), Tần số phổ vạch(
{ }
p
i
i
LSF
1=
, p=10), Dải năng lượng đầy(E
f
), Dải
năng lượng thấp(E
l
), Tỉ lệ qua điểm không(ZC).
2. Ý nghĩa.
Hướng nghiên cứu áp dụng module VAD trong nhận dạng giọng nói là
một hướng mới, đơn giản hơn cả về mặt cấu trúc và thiết kế cơ sở dữ liệu cũng
2
như quá trình nhận dạng sau này, mà vẫn đảm bảo được những yêu cầu cần
thiết. Nếu giải quyết tốt sẽ cho phép nhận dạng giọng nói chính xác tỉ lệ cao.
3. Một số mục tiêu chính trong đồ án.
• Tổng quan về hệ thống nhận dạng tiếng nói và đặc điểm âm thanh
tiếng việt.
• Các vấn đề phân tích dữ liệu tiếng nói.
o Mô tả chung mã hóa tín hiệu giọng nói.
o Mô tả các hàm thực hiện mã hóa.
o Thuật toán VAD trong xác định vùng âm thanh.
• Tìm hiểu mạng neuron cho nhận dạng giọng nói(cụ thể với mạng
LVQ- learnned Vecter Quantization hay Kohonen.)
• Xây dựng chương trình nhận dạng giọng nói sử dụng mạng neuron
LVQ.
• Kết luận và hướng phát triển tiếp theo của đồ án.
3
Phần 1: Tổng quan về hệ thống nhận dạng giọng nói
1. Nguồn gốc âm thanh.
Âm thanh là do vật thể rung động, phát ra tiếng ra tiếng và lan truyền đi
trong không khí. Sở dĩ tai ta nghe được âm thanh là nhờ có màng nhĩ. Màng
nhĩ nối liền với hệ thống thần kinh.
Làn sóng âm thanh từ vật thể rung động phát ra, được lan truyền trong
không khí, tới tai ta làm rung động màng nhĩ theo đúng nhịp điệu rung động
của vật thể đã phát ra tiếng. Nhờ đó, tai ta nghe được âm thanh. Không khí là
môi trường truyền dẫn âm thanh, tuy nhiên, không phải tất cả các âm thanh
đều được con người thu nhận mà chỉ những âm thanh có tần số trong một
phạm vi nhất định. Như vậy bản chất âm thanh là một dao động có tần số, con
người có thể cảm nhận được từ dao động này. Nếu dao động có biên độ càng
lớn thì âm lượng càng lớn và ngược lại. Tần số dao động của các âm thanh
trong tự nhiên có phạm vi rộng, tuy nhiên con người chỉ cảm nhận trong một
phạm vi nhất định.
Âm thanh được lan truyền trong các chất khí, lỏng, rắn…nhưng không
lan truyền được trong khoảng chân không. Một số chất truyền dẫn âm kém.
Các chất dẫn âm kém thường là loại mềm, xốp như bong, dạ, cỏ khô. Các chất
này gọi là chất hút âm, được dung lót tường các rạp hát, phòng cách âm…để
hút âm, giảm tiếng vang.
Vận tốc truyền lan của âm thanh phụ thuộc vào chất truyền âm, ví dụ tốc
đọ truyền âm trong không khí là 340 m/s, trong nước là 1480 m/s, trong sắt là
4
5000 m/s. Trong quá trình truyền lan, nếu gặp phải các vật chướng ngại như
tường, núi đá,…thì phần lớn năng lượng của âm thanh sẽ bị phản xạ trở lại,
một phần nhỏ tiếp tục truyền lan về phía trước. Còn một phần nhỏ nữa của
năng lượng âm thanh bị cọ sát với vật chướng ngại biến thành nhiệt năng tiêu
tan đi.
2. Quá trình sản xuất tiếng nói và thu nhận tiếng nói của con người.
Hình 1.1 Sơ đồ biểu diễn quá trình sản xuất thu nhận tiếng nói của con
người.
Hình 1.1 đưa ra một sơ đồ khối của quá trình sản xuất tiếng nói/nhận thức
tiếng nói của con người. Quá trình sản xuất tiếng nói bắt đầu từ khi người nói
tạo ra một thông điệp(trong ý nghĩ của anh ta) và muốn chuyển tải nó cho
người nghe thông qua tiếng nói. Tổ chức thần kinh tương ứng chịu trách
nhiệm tạo ra thông điệp dưới dạng văn bản biểu diễn các từ của thông điệp.
Bước tiếp theo của quá trình là chuyển đổi thông điệp sang dạng một mã ngôn
ngữ. Điều này gần như tương đương với việc chuyển đổi các biểu diễn văn
bản của thông điệp thành một chuỗi các âm vị tương ứng với những âm thanh
5
tạo nên các từ; Đồng thời với việc ghi nhận âm điệu nhằm xác định sự kéo dài,
sự nhấn mạnh, và trọng âm cao thấp của âm thanh. Khi một mã ngôn ngữ
được lựa chọn, người nói phải thực hiện một loạt các lệnh thần kinh vận động
để làm cho các dây thanh dao động, đồng thời cấu trúc hình dạng ống dẫn âm
thanh phát ra một chuỗi các âm thanh. Như vậy, đầu ra cuối cùng của quá
trình là một tín hiệu âm học. Các lệnh thần kinh vận động phải điều khiển một
cách đồng bộ tất cả các khâu vận động như sự hoạt động của môi, hàm, lưỡi,
…
Khi tín hiệu tiếng nói đã được sinh ra và được truyền cho người nghe,
quá trình thu nhận tiếng nói(hay nhận dạng tiếng nói) bắt đầu. Đầu tiên, người
nghe xử lý tín hiệu âm thanh thông qua màng nền của tai trong, nó có khả
năng cung cấp một phân tích phổ cho tín hiệu tới. Một quá trình xử lý thần
kinh chuyển đổi tín hiệu phổ tại đầu ra của màng nền thành các tín hiệu hoạt
động đối với thần kinh thính giác, có thể coi đây như một quá trình lấy ra các
đặc trưng. Bằng một phương pháp đặc biệt(chưa được hiểu một cách thấu
đáo), các tín hiệu hoạt động đi qua hệ thần kinh thính giác được chuyển đổi
thành một mã ngôn ngữ cho những trung tâm xử lý cấp cao hơn bên trong bộ
não, và cuối cùng là việc hiểu được nội dung thông điệp.
Từ sự minh họa quá trình nhận dạng tiếng nói thông qua hệ thống thần
kinh con người như trên, chúng ta có thể có một chút ý niệm về khả năng ứng
dụng mạng neuron nhân tạo trong việc mô phỏng một số tổ chức thần kinh
như một phần của hệ thần kinh thính giác.
6
3. Khái quát về ngữ âm tiếng việt.
3.1 Ý nghĩa của các nghiên cứu ngữ âm trong nhận dạng tiếng nói tiếng
việt.
Trong thời gian gần đây, các hệ nhận dạng tiếng nói phát triển theo
hướng tiếp cận ngữ âm học kết hợp với hướng tiếp cận nhận dạng theo mẫu
thống kê truyền thống. Việc kết hợp hướng nhận dạng thống kê và sử dụng
các tri thức về ngữ âm học để tạo ra các hệ nhận dạng hoạt động giống với
cách thức mà con người nghe và hiểu tiếng nói nhất. Vì vậy, các nghiên cứu
về ngữ âm, đặc biệt là các nghiên cứu dành cho lĩnh vực nhận dạng trở nên
mang ý nghĩa quan trọng. Công việc nghiên cứu này có ý nghĩa riêng biệt
trên từng ngôn ngữ (vì mỗi ngôn ngữ đều có đặc điểm riêng, ngoài những
điểm chung). Vì vậy, muốn xây dựng tốt hệ nhận dạng tiếng nói tiếng
Việt, trước tiên chúng ta phải nghiên cứu ngữ âm tiếng Việt để biết được
đặc điểu âm học của Tiếng Việt.
3.2 Các đặc tính cơ bản của tiếng việt.
• Âm tiếng việt tương đối tách biệt: Trong tiếng việt các âm của các từ
trong một câu phát âm hầu như tách biệt nhau, nghĩa là các từ đó được phát
âm hoàn toàn độc lập, không có hiện tượng đọc nối nhau như trong tiếng Anh.
• Tiếng việt tương đối nhất quán giữa cách phát âm và cách viết:
Nguyên tắc chính của chữ tiếng việt là ký âm, nghĩa là đọc sao viết vậy.
Nhưng sau các nghiên cứu trên tiếng việt đã chỉ ra một số bất đồng trong hệ
7
thống chữ viết, mặc dù vậy nhìn chung tiếng việt vẫn nhất quán giữa đọc và
viết .
• Hiện tượng môi hoá: Trong tiếng việt có một số âm môi như: ô,u . Các
phụ âm đứng trước các âm này sẽ bị hiện tượng biến đổi sóng âm, gọi là hiện
tượng môi hoá .
4. Âm tố.
Âm tố là đơn vị ngữ âm nhỏ nhất mà tai người có thể phân biệt được.
Chúng không mang chức năng phân biệt nghĩa hay nhận diện từ. Âm tố
thường tương ứng với âm vị.
Âm tố là những yếu tố tự nhiên, phụ thuộc vào ngữ điệu, hoàn cảnh phát
âm khi chúng kết hợp với các yếu tố khác trong cùng một âm tiết, bộ máy phát
âm của mỗi cá nhân,… Chính vì vậy người ta không liệt kê được có bao nhiêu
âm tố trong các ngôn ngữ.
4.1. Phân loại âm tố theo cấu âm.
Âm tố cơ bản được chia làm hai loại: Nguyên âm và phụ âm.
Về mặt chức năng, các nguyên âm thường là hạt nhân(hay đỉnh) của âm
tiết-thành phần phát âm rõ và gây chú ý nhất trong một âm tiết. Thanh điệu và
ngữ điệu của một ngôn ngữ cũng được chứa đựng chủ yếu trong nguyên âm.
Phụ âm, ngược lại thường là yếu tố đi kèm không tạo thành âm tiết(trừ
các phụ âm vang).
Ngoài ra còn có các âm tố bán nguyên âm, vốn mang đặc điểm của
nguyên âm nhưng có chức năng khác với chức năng của nguyên âm, thường
chỉ đi kèm với nguyên âm khác để tạo âm tiết.
8
4.2 Phân loại âm tố về mặt âm học.
4.2.1.
Các
đặ
c
t
r
ưng
âm
họ
c
Sự phân loại các âm tố về mặt âm học đã được xây dựng dựa trên âm
phổ. Các máy phân tích âm phổ cho chúng ta các phổ đồ(phổ hình), qua đó
các âm tố thể hiện rõ các đặc trưng âm học: cao độ, cường độ, trường độ
Dựa trên đặc điểm của phổ đồ, âm tố được phân loại theo các đặc trưng
sau:
Nguyên âm – Không nguyên âm
Đặc trưng nguyên âm: được thể hiện bằng các cấu trúc formant.
Có đặc trưng nguyên âm là nguyên âm và các âm vang. Không có đặc
trưng nguyên âm là các âm ồn.
Phụ âm – Không phụ âm
Đặc trưng âm học của phụ âm là có mức năng lượng thấp. Nếu có mức
năng lượng cao là nguyên âm. Có đặc trưng phụ âm là các phụ âm vang và ồn.
Bổng - Trầm
Những âm bổng có tần số lớn, còn những âm trầm có tần số nhỏ. Những
âm trầm thường được đặc trưng bằng sự phân bổ năng lượng tập trung ở phần
dưới của phổ. Âm bổng gồm các nguyên âm hàng trước, phụ âm răng,
các phụ âm lưỡi trước, lưỡi giữa. Âm trầm là các nguyên âm hàng sau, các
phụ âm môi và phụ âm lưỡi sau.
9
Loãng - Đặc
Đặc trưng âm học của tiêu chí đặc là có vùng formant ở trung tâm của
phổ đối lập với loãng là trên phổ hình có một hay một số formant phân bố xa
trung tâm Âm đặc bao gồm các nguyên âm không thuộc độ nâng cao, các
phụ âm lưỡi trước, lưỡi giữa và lưỡi sau. Các âm loãng bao gồm những âm
có độ nâng của lưỡi cao (nguyên âm khép), những phụ âm răng, phụ âm
môi ([i], [u], [ư] trong tiếng Việt).
Ngắt - Không ngắt
Ðó là sự đối lập giữa có và không có sự chuyển tiếp đột ngột giữa sự có
mặt và vắng mặt của âm thanh. “Các phụ âm xát thường có khởi âm từ từ.
Ngược lại, các phụ âm tắc thường có sự ngắt đột ngột sóng âm đi trước
bằng một khoảng im lặng hoàn toàn” (R. Jacobson, G. Fant và M. Halle,
1962)
Âm ngắt bao gồm các phụ âm tắc (trừ nhóm mũi). Còn lại (nguyên âm,
phụ âm xát, phụ âm mũi) là những âm không ngắt.
Gắt - Không gắt
Ðó là đối lập giữa cường độ lớn hay nhỏ của tiếng ồn. Trên phổ hình, các
âm gắt có vùng tối thay đổi sắc thái rõ rệt. Những phụ âm gắt bao gồm các
phụ âm xát điển hình, các âm tắc - xát, bật hơi, phụ âm rung. Những loại
hình âm còn lại là những âm không gắt.
Căng - Lơi
Những âm căng là những âm có độ dài lớn, năng lượng lớn và có thanh
cộng hưởng thể hiện rõ trên phổ hình. Âm căng bao gồm các phụ âm mạnh và
các nguyên âm đặc. Âm lơi bao gồm những phụ âm yếu và các nguyên âm
10
loãng.
Hữu thanh - Vô thanh
Ðó là sự đối lập giữa có hay không có những dao động điều hoà ở vùng
tần số thấp. Âm hữu thanh bao gồm các nguyên âm, phụ âm vang và phụ âm
hữu thanh.
Mũi - Miệng (hay Mũi - Không mũi)
Phổ hình của các âm mũi có mật độ phooc-măng dày hơn so với
các âm miệng tương ứng. Ở các nguyên âm mũi giữa F1 và F2 xuất hiện
thêm một formant phụ, và đồng thời có sự giảm cường độ của F1 và F2.
Trong tiếng Việt có các âm mũi được thể hiện bằng các chữ cái: m, n, nh, ng.
Giáng - Không giáng
Các âm giáng là những âm trầm hóa - có một hoặc một số các formant
của nó bị hạ thấp so với các âm không giáng. Các nguyên âm tròn môi như
[u], [ô], [o] trong tiếng Việt và những phụ âm đứng trước [u], [ô], [o] bị môi
hóa đều là những âm giáng.
Thăng - Không thăng
Ngược lại so với âm giáng, chúng là những âm bổng hóa - các nguyên
âm hàng trước thường là các âm có một trong số các phoóc măng cao
hơn các âm không thăng tương ứng.
Thanh hầu hóa - Không thanh hầu hóa
Các âm thanh hầu hóa đặc trưng bởi tốc độ biến đổi năng lượng lớn
trong một khoảng thời gian ngắn. Trong tiếng Việt, âm thanh hầu hóa có thể
xuất hiện trong các âm tiết vắng phụ âm đầu như ăn, uống, uể, oải,… hoặc
11
trước các phụ âm hữu thanh, đặc biệt là trước [b], [đ], và [l].
4.2.2.
Nhận
dạng
tiếng
nói
dựa
vào
các
đặc
trưng
âm
học.
Như trên đã phân tích, có rất nhiều đặc trưng âm học. Và các đặc trưng
đều có thể rút ra được từ quá trình phân tích phổ đồ. May mắn là với tín hiệu
âm thanh được lưu vào máy tính dưới dạng số, không cần dùng máy phân
tích phổ, người ta vẫn có thể phân tích để đưa ra phổ đồ bằng thuật toán
(bằng phép biến đổi Fourier ngắn kỳ - Short-term Discrete Fourier
Transform). Người ta dựa vào những đặc trưng này cùng với những mô
hình khác để nhận dạng tiếng nói.
5. Âm thanh và số hóa âm thanh.
5.1. Đặc trưng sóng âm.
a) Các đặc trưng.
• Tần số
Tần số của một đơn âm là số lần dao động của không khí truyền dẫn âm
trong một giây đồng hồ(đơn vị là Héc, viết tắt là Hz). Ví dụ, tần số của âm Mi
là 330 Hz. Tần số biểu thị độ cao của âm thanh: Tiếng trầm có tần số thấp,
tiếng bổng có tần số cao. Tai người có thể nghe thấy được các tần số thấp tới
16Hz và tần số cao tới 20.000Hz. Dải tần số từ 16Hz đến 20.000Hz gọi là dải
tần số âm thanh (âm tần). Trong đó tiếng trầm có tần số từ 16Hz đến 300Hz,
tiếng vừa có tần số từ 300Hz đến 3000Hz, tiếng bổng từ 3000Hz đến
20.000Hz. Tiếng nói của con người thường có tần số từ 80Hz đến 1200Hz.
Những âm có tần số dưới 16Hz gọi là hạ âm, những âm trên 20.000Hz gọi là
siêu âm.
12
• Biên độ
Là độ lớn của dạng sóng hoặc cường độ của sóng cơ học, đây là đặc tính
quan trọng góp phần nhận diện sự khác biệt giữa nguyên âm và phụ âm trong
âm thanh lời nói.
• Dạng sóng
Là hình dạng của sóng âm thanh, sóng dạng hình sin là dạng sóng cơ bản
của âm thanh, trên lý thuyết nếu chúng ta có thể tổng hợp một tập hợp các
sóng hình sin thì ta có thể tổng hợp bất kỳ âm thanh nào.
Mỗi âm có một tần số riêng và đơn vị tính là héc (Hz).
• Áp xuất âm thanh.
Sóng âm trên không là dạng nhiễu loạn vật lý trong không khí, môi
trường đàn hồi, chạy qua không khí với tốc tộ vốn phụ thuộc đôi chút vào
nhiệt độ không khí. Độ lớn tức thời của sóng ở thời điểm riêng trong không
gianvà thời gian có thể được biểu diễn theo những cách khác nhau. Ví dụ, độ
dịch chuyển, tốc độ âm thanh, thăng giáng trên và dưới áp suất khí quyển do
sóng gây ra. Áp suất âm thanh gọi tắt là thanh áp là bar. Ngày nay thường sử
dụng đơn vị Passcan (Pa) để đo thanh áp. 1 bar = 100 KPa, 1 Pa = 1N/m
2
.
• Mức áp suất âm thanh.
Các áp suất âm thanh thường được vẽ trên thang loga gọi là mức áp suất
âm thanh biểu thị theo Dexiben (dB). Áp suất chuẩn đối với âm thanh trong
không khí, tương ứng với 0 dB, được định nghĩa như áp suất âm thanh 20
µ
Pa.
13
Đó là áp suất âm thanh chuẩn p
0
. Như vậy mức áp suất âm thanh L
p
theo dB
tương ứng với áp suất âm thanh p được định nghĩa:
L
p
= 20log(p/p
0
) dB
• Công suất âm thanh.
Công suất âm thanh là năng lượng âm thanh đi qua một diện tích S trong
thời gian một giây. Công suất âm thanh P có thể tính bằng công thức:
P = psv (W)
Trong đó p là thanh áp, v là tốc độ dao động của một phần tử không khí
tại đó và s là diện tích.
Công suất âm thanh nói chung tỉ lệ với bình phương áp suất âm thanh.
• Cường độ âm thanh.
Cường độ âm thanh I là công suất âm thanh đi qua một đơn vị diện tích là
1cm
2
.
pv
S
P
I ==
Ba đại lượng áp suất âm thanh, công suất âm thanh, cường độ âm thanh
gắn liền với nhau: P = IS = psv. Cả ba đều biểu thị độ lớn nhỏ của âm thanh.
Âm thanh có năng lượng càng lớn thì công suất, cường độ và áp suất của âm
thanh càng lớn.
b) Đơn vị vật lý của âm thanh.
Các dao động âm phát ra từ nguồn lan truyền trong môi trường đàn hồi
như không khí dưới dạng sóng đàn hồi gọi là sóng âm. Sóng âm kích động
màng nhĩ tai gây cảm giác về âm. Âm thanh có những đặc trưng cơ bản là: Độ
14
cao của âm, độ to của âm, âm sắc. Do đó cần phân biệt các loại đại lượng về
âm:
• Quãng độ cao (quãng tần số).
Trong thực tế, ta thường nghe thấy âm thanh với các độ cao thấp khác
nhau. Điều này được biểu hiện rõ nhất khi nghe nhạc. Cảm giác cao thấp của
âm thanh do tần số dao động của âm thanh mang lại. Nói cách khác cảm giác
cao thấp phụ thuộc vào sự chấn động nhanh hay chậm của cấc phần tử trong
môi trường truyền (không khí) trong một đơn vị thời gian (giây). Những âm
có tần số khác nhau cho người nghe các cảm giác âm cao thấp khác nhau.
Những âm có tần số cao được gọi là âm cao (hoặc thanh), các âm có tần số
nhỏ được gọi là âm thấp (hoặc trầm).(???:giói hạn tàn số cao,thấp???)
Tai người nhạy cảm hơn với sự thay đổi của các âm ở tần số cao. Điều
này thể hiện rõ ở ngưỡng nghe của tai người; ở các tần số trong khỏng từ 1000
đến 5000Hz, ngưỡng nghe vào khoảng 10
-12
W/m
2
trong khi đó với tần số
50Hz, ngưỡng nghe lớn gấp 5000 lần.
• Độ to.
Sóng âm là một loại sóng cơ học. Nó mang năng lượng tỷ lệ với bình
phương bên độ sóng.
Cường độ âm I được định nghĩa là năng lượng của sóng âm truyền trong
một đơn vị thời gian qua một đơn vị diện tích vuông góc với phương truyền.
Nó có đơn vị là W/m
2
. Trong thực tế, I thường được so sánh với giá trị I
0
chuẩn:
L(B)=lg(I/I
0
) hoặ L(dB)=10lg(I/I
0
) với 1B=10dB
15
Mức cường độ nhỏ nhất mà tai người phân biệt được là L=1dB (phân biệt
có âm thanh và không có âm thanh). Khi xác định cường độ âm, người ta lấy
I
0
là ngưỡng nghe của âm có tần số 1000Hz, gọi là tần số chuẩn.
Ngưỡng nghe của con người cũng phụ thuộc vào tần số của âm. Với các
âm có tần số 1000 – 5000Hz, ngưỡng nghe vào khoảng 10
-12
W/m
2
. Với tần số
50 Hz, ngưỡng nghe khoảng 10
-7
W/m
2
.
Giá trị cường độ âm lên tới 10W/m
2
thì sóng âm sẽ tạo ra cảm giác đau
cho người nghe. Giá trị này được gọi là ngưỡng đau.Tai người phân biệt các
âm tốt nhất với các âm có tần số trong khoảng 1000 – 5000Hz.
• Độ dài.
Độ dài hay còn gọi là trường độ của âm thanh phụ thuộc vào khoảng thời
gian dao động của các phần tử trong môi trường truyền (không khí).
Trong tiếng Việt đặc trưng này rất quan trọng, nó giúp ta phân biệt được
hàng loạt cặp từ như: rác-rắc, cán-cắn, bát-bắt, cáp-cắp Với các cặp từ này,
sự khác nhau chỉ là nguyên âm “a” trong rác, cán, bát được phát âm dài hơn
trong các từ cùng cặp.
• Âm sắc.
Trong thực tế ta thấy, mỗi người có một giọng nói khác nhau. Dù cho hai
người phát âm cùng một từ với cùng một tần số, cùng một độ to ta vẫn phân
biệt được giọng nói của hai người đó (điều này dễ hình dung hơn xem xét các
nhạc cụ khác nhau). Đặc tính này được gọi là âm sắc.
Âm sắc được hình thành trên cơ sở tần số và biên độ của sóng âm. Thực
nghiệm chứng tở rằng khi một người nào đó phát ra một âm có tần số f
1
thì
16
cũng đồng thời phát ra các âm có tần số f
2
=2f
1
,f
3
=3f
1
Âm có tần số f
1
được
gọi là âm cơ bản hay hoạ âm thứ nhất. Các âm có tần số f
2
,f
3
được gọi là các
hoạ âm thứ 2,3 Các âm này có biên độ và hệ số tắt dần tuỳ theo cấu trúc
khoang miệng và cổ họng của từng người. Kết quả là âm do con người phát ra
là một đường phức tạp có chu kỳ (không còn là đường hình sin).
4.2. Quá trình số hoá âm thanh.
a) Tín hiệu tương tự của âm thanh.
Tín hiệu: Tín hiệu được định nghĩa như một thực thể vật lý phụ thuộc vào
thời gian, khoảng cách hoặc một số biến độc lập khác. Về phương diện toán
học, tín hiệu được mô tả như một hàm của một hoặc nhiều biến độc lập.
Tín hiệu tương tự của âm thanh: Là âm thanh trong tự nhiên, các dao
động âm thanh này con người cảm nhận được. Các thiết bị phát thanh(loa) đều
thực hiện tạo dao động, để dao động đó truyền đến tai người. Tín hiệu âm
thanh là nguồn tín hiệu liên tục có đầu vào ở dạng song là hàm mẫu của một
quá trình dao động x(t). Như vậy, tín hiệu âm thanh là tín hiệu liên tục theo
thời gian, do vậy khi xử lý trên thiết bị số, chúng ta cần phải biến đổi sang tín
hiệu số.
b) Quá trình lấy mẫu âm thanh tương tự
Đây là quá trình rời rạc hoá tín hiệu âm thanh tương tự về thời gian.
Nguyên tắc cơ bản của quá trình này là tín hiệu âm thanh tương tự sẽ được lấy
mẫu với tần số lấy mẫu trong một giây (tốc độ lấy mẫu) là cố định, ví dụ: tần
số lấy mẫu là 10000Hz thì trong một giây lấy được 10000 mẫu. Khi lấy mẫu
phải chú ý đảm bảo tần số lấy mẫu phải lớn hơn hoặc bằng hai lần tần số lớn
nhất của sóng âm tương tự để tránh hiện tượng giả tần số. Nếu tần số lớn nhất
17
của tín hiệu của sóng âm thanh tương tự F(Hz) thì tần số lấy mẫu lớn hơn hoặc
bằng 2F (gọi là tần số Nyquist), chẳng hạn nếu ta số hoá tín hiệu lời nói ở tần
số 5kHz thì tần số lấy mẫu phải là 10kHz hoặc lớn hơn.
Hình 1.2: Quá trình số hoá thành dạng sóng file Wave
c) Quá trình lượng tử hoá.
Đây là quá trình rời rạc biên độ tín hiệu của sóng âm tương tự. Quá
trình này lấy biên độ của tín hiệu tại mỗi lần lấy mẫu và biểu diễn các biên độ
đó dưới dạng nhị phân. Để lựa chọn cách thức lượng tử cần phải xem xét hai
kía cạnh: giá trị nhỏ nhất của tốc độ dữ liệu (data rate) và giá trị lớn nhất của
chất lượng âm (quality).
Tốc độ dữ liệu được tính bằng bps (bits per sencond) dùng để định
dạng sóng âm, nó là tích của số mẫu được lấy trong một giây (sample per
second) và số bit tương ứng một mẫu đã được lấy. Do tốc độ lấy mẫu là cố
định nên ta phải đảm bảo số bit để biểu diễn một mẫu càng lớn càng nghe
trung thực với âm thanh thật (do nó ảnh hưởng đến sự phân giải tiêu chuẩn
18
của tín hiệu tương tự tại mỗi thời điểm lấy mẫu, và do đó ảnh hưởng đến chất
lượng âm thanh cần thu).
Giá trị lớn nhất của chất lượng âm: nghĩa là khi chuyển đổi ngược
sóng âm số sang sóng âm tương tự phải đảm bảo lỗi xảy ra là nhỏ nhất. Điều
này đồng nhất với sóng âm tương tự sau khi được chuyển ngược từ sóng âm
số phải nghe giống sóng âm tương tự ban đầu được số hoá.
Việc lấy mẫu của tín hiệu không gây ra sự mất mát thông tin của tín hiệu
tương tự cần lấy mẫu, quá trình lượng tử hoá ngược lại gây ra mất mát thông
tin (hay còn gọi là lỗi lượng tử hoá) và gây ra nhiễu. Hệ số nhiễu tín hiệu
(Signal – to – noise) được dùng để đánh giá chất lượng âm thanh, được tính
theo công thức:
∑
∑
=
=
N
i
N
i
ie
ix
1
2
1
2
)(
)(
Trong đó x(n) là mẫu thứ n, e(n) là lỗi lượng tử hoá đối với mẫu x(n) đó.
Tín hiệu tiếng nói sau khi được lượng tử hoá sẽ được lưu vào máy tính
dưới dạng các file âm thanh khác nhau, tuỳ thuộc vào mục đích sử dụng, như
có thể được lưu trữ nguyên mẫu như đã lượng tử hoá, hoặc đựơc nén rồi mới
lưu trữ. Ta xem xét các loại file phổ biến sau.
4.3. Cấu trúc file WAVE.
a) Các loại file âm thanh.
Có rất nhiều dạng file âm thanh, như dạng file “.MP3”, “.MIDI”,
“.WAV”, “.RA”, “AIFF”, “.WMA”. Song phổ biến hơn là ở dạng “.wav” .
Dạng file này đưa ra ở dạng thô, dữ liệu âm thanh không được nén. Được phát
19
minh đầu tiên bởi Microsoft, các file wave vẫn được sử dụng một cách rộng
rãi (ví dụ các âm thanh lúc khởi động và tắt Window). Chất lượng âm thanh
rất tốt nhưng kích thước file rất lớn. Một bài hát pop đầy đủ ở dạng Wave có
thể chiếm 40 MB của không gian đĩa hoặc nhiều hơn.
b) Cấu trúc file WAVE.
Một trong những cấu trúc đơn giản nhất, cơ bản trong việc lưu trữ dữ liệu
âm thanh là tập tin dạng wave. Tập tin dạng wave là tập tin lưu trữ dữ liệu
dạng waveform, dữ liệu khi thu âm được lưu giữ trực tiếp vào tập tin, nên tốc
độ mã và giải mã dữ liệu dạng này rất nhanh. Sau đây là cấu trúc file wave:
Định dạng file wave là tập con trong định dạng file multimedia dạng
RIFF của Microsoft. Một file RIFF được bắt đầu là file header, tiếp theo lần
lượt là các đoạn Data. Một file wave thường bắt đầu là từ “RIFF” với một
đoạn đơn “WAVE” bao gồm 2 đoạn con là “fmt” để mô tả định dạng dữ liệu
và đoạn “data” chứa các đoạn dữ liệu thực hiện. Nó được gọi là định dạng
chuẩn.
20
Định dạng file wave chuẩn được bắt đầu với RIFF header:
0 4 ChunkID Chứa từ “RIFF” mã ASCII
4 4 ChunkSize 36 + SubChunk2Size
8 4 Format Chứa từ “WAVE”
21
Định dạng “WAVE” bao gồm 2 đoạn con: “fmt” và “data”:
Đoạn con “fmt” để mô tả định dạng dữ liệu âm thanh:
12 4 Subchunk1ID Chứa từ “fmt”
16 4 Subchunk1Size 16 for PCM. Là độ dài của một mẫu dữ liệu.
20 2 AudioFormat PCM=1
22 2 NumChannels Mono=1, stereo=2, etc.
24 4 SampleRate 8000, 11025, 44100,etc.
28 4 ByteRate = SampleRate * Numchannels *
BitsPerSample/8
32 2 BlockAlign = NumChannels * BitsPerSample/8. Là số
byte của một mẫu chứa tất cả các kênh.
34 2 BitsPerSample 8 bits=8, 16 bits=16, etc.
Đoạn con “data” chứa kích thước của dữ liệu và dữ liệu âm thanh thực
thi:
36 4 Subchunk2ID Chứa từ “data”
40 4 Subchunk2Size = NumSamples * NumChannels *
BitsPerSample/8
Là số byte của phần dữ liệu âm thanh.
44 * Data Là phần dữ liệu âm thanh thực thi.
Độ lớn file Wave phụ thuộc vào các yếu tố sau:
22
- Tần số lấy mẫu: Tần số lấy mẫu càng cao thì
dung lượng file càng lớn.
- Độ phân giải: Độ phân giải càng lớn thì dung
lượng file càng lớn.
- Số kênh: Số kênh càng nhiều thì dung lượng
file càng lớn.
Từ việc hiểu cấu trúc lưu trữ file . wav trong máy tính mà ta hoàn toàn
có thể thao tác xử lý các file wav một cách đơn giản như: việc cắt, dán, nối
ghép, và điều chỉnh phát 1 đoạn trong 1 file wav bất kỳ để nghe.
4.4. Xử lý file WAVE.
Một file wave bao giờ cũng có phần header và phần dữ liệu. Trong đó
header chứa các thông tin như độ dài file, số bit/mẫu, kiểu kênh mono hay
stereo,…
Muốn thao tác xử lý các file wave thì chúng ta phải thay đổi một số
thông số trong header như độ dài file,…sau đó ghi các dữ liệu cần thiết sau khi
ghi header mới vào.
+ Các trường cần thay đổi khi thực hiện các thao tác xử lý File
wave:
- 2 trường SubChunk1Size và SubChunk2Size tất nhiên là phải được
cộng thêm với phần dữ liệu của File 2
- Nếu 2 File khác tôc độ lấy mẫu, giả sử 2 File cùng số kênh, cùng mức
lượng tử, mà File 2 có tốc độ lấy mẫu lớn hơn File 1, thì khi ghép File2 vào
23
Header Dữ liệu
File 1; khi phát, âm thanh File 1 như ban đầu còn file 2 sẽ phát chậm hơn
(điều này tương đương với 1 dọng trầm được phát thay vì dọng cao). Ngược
lại, File 2 có tốc độ lấy mẫu bé hơn File 1, thì khi ghép File2 vào File 1, khi
phát, âm thanh File 1 như ban đầu còn file 2 sẽ phát nhanh hơn (điều này
tương đương với 1 dọng cao được phát thay vì dọng trầm).
- Nếu 2 File cùng tốc độ lấy mẫu:
+ Giả sử cùng cùng kênh là 1 hoặc 2, nhưng mức lưọng tử khác
nhau, chẳng hạn File1 là 8Bit/mẫu, File2 là 16Bit/mẫu khi ghép 2 File lại với
nhau ta cần phải thực hiện 1 phép ánh xạ 1 File về dạng cùng mức lượng tử
của File kia bằng cách, thực hiện biến đổi giá trị mẫu từ miền [0,255] tới miền
[0,65535] hoặc ngược lại.
+ Nếu cùng mức lượng tử, cùng kênh thì sao chép bình thường
+ Nếu cùng mức lượng tử nhưng khác kênh. Ta cần biến đổi 1 File
về dạng cùng kênh với File kia bằng cách: Biến 1 File Mono Stereo thì mỗi
mẫu của File Mono được nhân lên thêm 1 mẫu nữa và chèn vào sau mẫu đó.
Biến Stereo Mono bằng cách chỉ lấy mẫu của kênh trái hoặc kênh phải. Lúc
này từ File Stereo ta được 2 File MonoLeft và MonoRight.
6. Các tiếp cận nhận dạng giọng nói.
Về cơ bản, có ba tiếp cận nhận dạng giọng nói chính như sau:
1. Tiếp cận âm thanh – ngữ âm.
2. Tiếp cận nhận dạng mẫu.
3. Tiếp cận trí tuệ nhân tạo.
24
Tiếp cận âm thanh-ngữ âm dựa trên cơ sở công nhận sự tồn tại của các
đơn vị ngữ âm trong ngôn ngữ tiếng nói. Các đơn vị ngữ âm này được biểu
diễn đặc trưng bởi một tập những thuộc tính thể hiện trong tín hiệu âm thanh
hay biểu diễn phổ theo thời gian. Bước đầu tiên của tiếp cận âm thanh-ngữ âm
cho nhận dạng tiếng nói được gọi là bước phân đoạn và gán nhãn bởi vì nó
liên quan đến việc phân đoạn tín hiệu âm thanh thành các vùng rời rạc(theo tời
gian) mà ở đó các thuộc tính âm học của tín hiệu biểu diễn cho một(hay một
vài) đơn vị ngữ âm. Sau đó gán một(hoặc nhiều) nhãn ngữ âm cho mỗi vùng
phân đoạn dựa theo các thuộc tính âm học. Bước thứ hai của tiếp cận là giai
đoạn thực sự nhận dạng tiếng nói. Nhiệm vụ chính của bước này là cố gắng
xác định một từ hợp lệ(hay chuỗi từ hợp lệ) từ một chuỗi các nhãn ngữ âm thu
được từ bước thứ nhất đựa trên cơ sở các ràng buộc(về từ vựng và cú pháp)
của tác vụ cần nhận dạng tiếng nói.
Tiếp cận nhận dạng mẫu về cơ bản là một quan điểm sử dụng trực tiếp
các mẫu tiếng nói(speech pattern-đoạn tín hiệu tiếng nói cần nhận dạng) mà
không cần xác định rõ các đặc trưng và cũng không cần phân đoạn tín hiệu
như đối với tiếp cận âm thanh-ngữ âm. Phương pháp này cũng gồm hai bước,
tích luỹ các mẫu tiếng nói, và nhận dạng mẫu thông qua so sánh mẫu. “Kiến
thức” về tiếng nói được đưa vào hệ thống thông qua thủ tục tích luỹ. Nếu có
đủ các phiên bản của một mẫu trong một tập hợp tích luỹ, thủ tục tích luỹ sẽ
có khả năng biểu diễn đặc trưng một cách đầy đủ các thuộc tính âm học của
mẫu đó. Việc biểu diễn đặc trưng tiếng nói thông qua sự tích luỹ này có thể
coi như một bài toán phân loại mẫu. Đặc tính hữu ích chủ yếu của phương
pháp này nằm ở khâu so sánh mẫu trong đó các mẫu tiếng nói không biết được
25