Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ ron

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.64 MB, 75 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

LUẬN VĂN THẠC SĨ
ĐỀ TÀI

Xây dựng mô hình nhận dạng tiếng nói
sử dụng mạng nơ-ron
Học viên: Bùi Văn Công
Chuyên ngành: Đo lường và các hệ thống điều khiển
Khoa Điện- Đại học Bách Khoa Hà Nội
Giáo viên hướng dẫn: PGS. TSKH. Trần Hoài Linh
Khoa Điện- Đại học Bách Khoa Hà Nội

Hà Nội - 2008

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron

LỜI CẢM ƠN

Đồ án cao học “Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron ” là
kết quả không chỉ của một cá nhân mà nó còn có được sự hỗ trợ, giúp đỡ của nhiều
người.
Trước hết, em xin chân thành cảm ơn PGS-TSKH Trần Hoài Linh vì những kiến
thức mà thầy truyền đạt. Thầy cũng là người cho em ý tưởng về xây dựng ứng dụng
này. Đồng thời, thầy đã trực tiếp hướng dẫn và theo dõi quá trình xây dựng và hoàn
thiện đồ án này.
Xin cảm ơn sự nhiệt tình truyền đạt kiến thức và kỹ thuật của các cán bộ Trung tâm
MICA trong quá trình tôi tìm hiểu công nghệ và thực hiện đồ án.
Cuối cùng, xin cám ơn các bạn bè tôi, những người luôn bên cạnh tôi động viên,

giúp đỡ tôi trong học tập cũng như trong cuộc sống.

-2-

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron

MỤC LỤC
LỜI CẢM ƠN .............................................................................................................2
MỤC LỤC
.............................................................................................................3
DANH MỤC CÁC TỪ VIẾT TẮT ............................................................................5
DANH MỤC CÁC HÌNH VẼ.....................................................................................6
Chương 1
.............................................................................................................7
GIỚI THIỆU CHUNG ................................................................................................7
1.1
Điểm qua tình hình nhận dạng tiếng nói ...............................................8
1.2
Điểm qua tình hình nghiên cứu mạng nơ-ron .....................................11
1.3
Căn bản về nhận dạng tiếng nói ..........................................................12
1.4
Dynamic Time Warping......................................................................15
1.5
Tiêu chí và nội dung của bản luận văn................................................16
Chương 2
...........................................................................................................18
ĐẶC ĐIỂM ÂM HỌC CỦA TIẾNG NÓI VÀ TIẾNG VIỆT..................................18
2.1

Âm thanh của lời nói- Bản chất và cấu tạo .........................................18
2.1.1
Khía cạnh âm học của âm thanh .........................................................18
2.1.2
Khía cạnh sinh học của âm thanh .......................................................19
2.1.2.1 Bộ máy phát âm ..................................................................................19
2.1.2.2 Các kiểu tạo âm...................................................................................21
2.2
Nguyên âm ..........................................................................................23
2.2.1
Âm tố...................................................................................................23
2.2.2
Đặc trưng chung của nguyên âm ........................................................23
2.2.3
Xác định các nguyên âm .....................................................................24
2.3
Phụ âm.................................................................................................24
2.3.1
Về phương thức cấu âm ......................................................................25
2.3.2
Về vị trí cấu âm...................................................................................27
2.3.3
Cấu âm bổ sung...................................................................................29
2.4
Các hiện tượng ngôn điệu ...................................................................29
2.4.1
Âm tiết.................................................................................................30
2.4.2
Thanh điệu ..........................................................................................32
2.4.3

Trọng âm .............................................................................................33
2.4.4
Ngữ điệu..............................................................................................35
2.5
Sự biến đổi của ngữ âm trong lời nói ..................................................35
2.5.1
Thích nghi ...........................................................................................36
2.5.2
Đồng hóa .............................................................................................37
2.5.3
Dị hóa..................................................................................................37
2.6
Sự phân biệt trong mặt biểu đạt của ngôn ngữ....................................37
2.6.1
Âm vị, âm tố và các biến thể của âm vị ..............................................37
2.6.2
Âm vị siêu đoạn tính ...........................................................................39
-3-

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron
2.7
Một số đặc điểm riêng của tiếng Việt .................................................40
Âm tiết ...........................................................................................................40
Chương 3
...........................................................................................................43
MÔ HÌNH NHẬN DẠNG TIẾNG NÓI ...................................................................43
3.1
Mô hình Markov ẩn.............................................................................43
3.1.1

Khái niệm cơ bản ................................................................................43
3.1.2
Thuật toán............................................................................................45
3.1.2.1 Thuật toán tiến (Forward)....................................................................45
3.1.2.2 Thuật toán lùi (Forward-Backward)....................................................46
3.1.3
Những hạn chế của HMMs .................................................................47
3.2
Mô hình mạng nơ-ron nhân tạo..........................................................48
3.2.1
Các đơn vị xử lý hay nơ-ron (Processing units) ...............................50
3.2.2
Các liên kết (connections)...................................................................50
3.2.3
Giải thuật.............................................................................................51
3.2.4
Huấn luyện mạng ................................................................................55
3.2.5
Phân loại mạng nơ-ron........................................................................56
3.2.5.1 Học có chỉ đạo.....................................................................................56
3.2.5.2 Học có chỉ đạo bán phần (semi - supervised learning) .......................58
3.2.5.3 Học không chỉ đạo (unsupervised learning)........................................58
3.3
Kết luận hai mô hình ...........................................................................58
Chương 4
...........................................................................................................60
THIẾT KẾ ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI ............................................60
4.1.
Phân tích yêu cầu bài toán...................................................................60
4.2.

Phương án xây dựng chương trình ......................................................61
4.2.1
Vấn đề Xử lý tín hiệu đầu vào.............................................................61
4.2.2
Thiết kế và vận hành mạng nơ-ron......................................................62
1.
Cơ sở dữ liệu .......................................................................................63
2.
Phương pháp nhận dạng bằng mạng nơ-ron nhân tạo ANN ..............64
a.
Tạo đặc tính .........................................................................................64
b.
Huấn luyện mạng MLP .......................................................................64
c.
Hoạt động học của MLP......................................................................65
d.
Sơ đồ thuật toán thiết kế mạng MLP tối ưu: .......................................68
4.3.
Chạy chương trình nhận dạng tiếng nói ..............................................70
Kết quả chạy chương trình ..................................................................71
4.4.
Đánh giá kết quả đạt được và hướng phát triển ..................................72
TÀI LIỆU THAM KHẢO.........................................................................................74

-4-

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron

DANH MỤC CÁC TỪ VIẾT TẮT

ANN

Artificial Neural Networks

HMM

Hidden Markov Models

RTDNN

Recurrent Time-Delay Neural Network

DTW

Dynamic Time Warping

MFCC

Mel Frequency Cepstral Coefficient

LPC

Linear Predictive Coding

MLP

Multi Layer Perceptron

TDNN

Time Delay Neural Network

LVQ

Learned Vector Quantization

AMDF

Average Magnitude Difference Function

-5-

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron

DANH MỤC CÁC HÌNH VẼ
Hình 1. 1: Mô hình hệ thống nhận dạng tiếng nói ....................................................13
Hình 1. 2: Biến đổi từ tín hiệu tiếng nói sang Frame tiếng nói.................................14
Hình 1. 3: Mẫu cho từ “TẮT” theo hai cách khác nhau ...........................................14
Hình 1. 4: Dynamic Time Warping ..........................................................................16
Hình 2. 1: Hệ thống phát âm ở người........................................................................20
Hình 2. 2: Cơ cấu phát âm.........................................................................................27
Hình 2. 3: Cấu âm tăng dần ở đầu âm tiết và giảm dần ở cuối âm tiết .....................30
Hình 2. 4: Âm tiết tiếng Việt.....................................................................................40
Hình 2. 5: Âm đầu.....................................................................................................41
Hình 2. 6: Âm chính..................................................................................................42
Hình 3. 1: Mô hình Markov ẩn..................................................................................43
Hình 3. 2: Phân cấp cấu trúc HMMs.........................................................................44
Hình 3. 3: Thuật toán tiến (forward) .........................................................................45

Hình 3. 4: Thuật toán backward................................................................................46
Hình 3. 5: Tử số trong công thức (7) ........................................................................47
Hình 3. 6: Cấu trúc nơ-ron : (a) không xắp xếp; (b) phân lớp; (c) Hồi quy; (d) tích
hợp.............................................................................................................................51
Hình 3. 7: (a) nơ-ron thường, (b) nơ-ron sigma-pi .................................................52
Hình 3. 8: (a) đường thẳng, (b) ngưỡng, (c) Sigmoidal ............................................53
Hình 3. 9: Tính toán thành phần vào.........................................................................54
Hình 3. 10: Chia nhỏ các vùng quyết định................................................................55
Hình 3. 11:Mạng Perceptrons. (a) đơn lớp; (b) đa lớp..............................................57
Hình 3. 12: Mạng recurrent. (a) Mạng Jodan; (b) mạng Elman ...............................58
Hình 4. 1: Mô hình tổng quát của bài toán................................................................61
Hình 4. 2: Mô hình huấn luyện .................................................................................63
Hình 4. 3: Mô hình nhận dạng ..................................................................................63
Hình 4. 4: Hệ thống nhận dạng dùng mạng nơ-ron...................................................64

-6-

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron

Chương 1
GIỚI THIỆU CHUNG
Chương này tìm hiểu về những vấn đề có liên quan tới nhận dạng tiếng nói, xu
hướng hiện nay, cũng như những kết quả đã đạt được trong lĩnh vực nhận dạng
tiếng nói trên thế giới. Tiếp đến là đưa ra tiêu chí cho bản luận văn dựa vào những
thông tin kể trên.
Không ai có thể phủ nhận ngôn ngữ là phương tiện dùng để giao tiếp của con
người. Chúng ta học nói một cách tự nhiên ngay từ khi được sinh ra, mà không cần
đến những khái niệm như thế nào là tiếng nói? Hay thế nào là âm tiết? v.v... mà đơn
giản chỉ là bắt chước. Quá trình học nói còn diễn ra theo thời gian trưởng thành của

mỗi người, và điều đó đến rất tự nhiên trong cuộc sống, đến mức có thể ta không
nhận ra được sự phức tạp của tiếng nói. Khi học một ngoại ngữ hoàn toàn mới,
chúng ta sẽ cảm nhận sự phức tạp của tiếng nói, tất nhiên ngoại trừ trường hợp một
thiên tài có khả năng bẩm sinh về ngôn ngữ, như là có thể học một ngoại ngữ trong
một tuần lễ.
Bộ máy phát âm của con người là một cơ quan sinh học với những đặc điểm
không cố định, sự phát âm không hoạt động như một cái máy cứng nhắc mà nó phụ
thuộc rất nhiều vào từng người nói cũng như trạng thái cảm xúc của người nói.
Cùng với một câu một người nói nhưng ta có thể cảm nhận được nó khác nhau với
những thời điểm khác nhau.
Kết quả là sự phát âm sẽ liên quan tới rất nhiều yếu tố: Giọng nói địa phương,
cao độ, âm lượng, tốc độ của giọng nói, v.v... Trong khi truyền đạt tiếng nói từ
người này sang người khác; từ nơi này sang nơi khác tiếng nói còn có thể bị méo đi
bởi tiếng ồn xung quanh hay do thiết bị truyền tin (ví dụ như điện thoại hay micro
v.v...). Tất cả những lý do nêu trên cho ta thấy nhận dạng tiếng nói là một vấn đề rất
phức tạp đối với máy tính, thậm chí đối với con người.
Tuy nhiên, nếu có thể thay thế những phương tiện nhập thông tin truyền thống
như bàn phím, con chuột, v.v... bằng giọng nói thì tốt biết mấy. Chính vì vậy mà
giao tiếp bằng giọng nói sẽ có rất nhiều ứng dụng trong tương lai, ví dụ: Dịch vụ
giải đáp qua điện thoại, cơ sở dữ liệu hỏi đáp, máy viết chính tả, máy dịch ngoại
ngữ tự động...v.v… Những ứng dụng hấp dẫn như thế đã thúc đẩy con người nghiên
cứu về nhận dạng tiếng nói từ những năm 1950. Đặc biệt những năm 1970 đã thu
hút rất nhiều chuyên gia trong lĩnh vực về trí thức, thống kê, toán học, ngôn ngữ
học...v.v... Mặc dù vậy, cho đến nay vẫn chưa xuất hiện những máy tính ngang bằng
-7-

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron
với con người trong lĩnh vực nhận dạng tiếng nói, để làm được điều này có lẽ còn
cần phải có thêm nhiều hiểu biết về con người trong việc nhận biết tiếng nói.

Điều gì đã làm cho con người có khả năng nhận biết tiếng nói tốt đến thế?
Người ta nhận thấy rằng giữa bộ não con người và máy tính có những sự khác biệt
lớn trong cách thức xử lý thông tin: Máy tính thì xử dụng bộ vi xử lý có tốc độ tính
toán rất nhanh, rất phức tạp, nhưng với những chương trình cụ thể và rõ ràng, với
bộ nhớ có thể đánh được địa chỉ: Ngược lại, bộ não con người lại làm việc dựa trên
một tập hợp những tập hợp tính toán song song và đơn giản gọi là nơ-ron , cùng với
những mối nối gọi là khớp thần kinh (synapses) có khả năng thay đổi theo kinh
nghiệm nhận được theo thời gian.
Chính vì lý do trên mà người ta đã nghiên cứu về mạng nơ-ron nhân tạo
(Artificial Neural Networks - ANNs). Lịch sử của lĩnh vực này đã có nhiều thăng
trầm, nhưng đến khoảng giữa năm 1980 nó đã trở thành hiện thực và bắt đầu được
ứng dụng cho những bài toán khó như nhận dạng tiếng nói. Năm 1990 có nhiều nhà
nghiên cứu đã chứng thực được giá trị của ANNs đối với nhận dạng tiếng nói, như
chúng có thể để nhận dạng âm tiết hay nhận dạng phát âm chữ số. Tuy nhiên, để
nhận dạng tiếng nói một cách đầy đủ thì vẫn là một bài toán khó.
Sau đây chúng ta sẽ điểm qua về tình hình chung của nhận dạng tiếng nói trên
thế giới, về tình hình nghiên cứu về mạng nơ-ron và từ đó đưa ra tiêu chí cho bản
luận văn này.

1.1 Điểm qua tình hình nhận dạng tiếng nói
Có nhiều hệ thống nhận dạng tiếng nói đã được xây dựng. Để đánh giá một hệ
nhận dạng tiếng nói là tốt hay xấu, điều đó phụ thuộc nhiều vào mục đích của hệ.
Dưới đây chúng ta sẽ cùng điểm qua những vấn đề liên quan tới nhận dạng tiếng nói
và một số kết quả về nhận dạng tiếng nói từ trước tới nay.
¾ Số lượng từ vựng và độ phân biệt trong phát âm: Có thể thấy rằng rõ ràng là
để phân biệt một tập hợp nhỏ sẽ là đơn giản hơn nhiều khi số lượng từ tăng lên.
Ví dụ như để nhận dạng các từ trong một tập hợp từ có 200 từ thì lỗi có thể là
3%, tập hợp 5000 từ thì lỗi có thể là 7% hay cao hơn nữa. Tuy nhiên, kết quả
nói trên chỉ đạt được trong điều kiện ghi âm tương đối lý tưởng và độ phân biệt
là rõ ràng. Trong trường hợp độ phân biệt khi phát âm các từ không rõ ràng, thì

thậm chí với một tập hợp từ rất nhỏ cũng cho một tỹ lệ lỗi khá cao. Ví dụ như
để nhận dạng 26 từ chữ cái tiếng Anh ( coi như mỗi chữ cái là một từ) cũng là
rất khó, bởi có nhiều từ khi phát âm chúng không có độ phân biệt cao (xét trên
-8-

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron
cả khía cạnh thính giác, tức là sự nghe của con người lẫn khía cạnh dữ liệu tín
hiệu ), chẳng hạn như cách phát âm các từ tiếng Anh sau là rất giống nhau: B,
C, D, E, G, P, T, V, Z, với những trường hợp này thì 8% lỗi đã là quá tốt.
¾ Hệ thống phụ thuộc người nói và hệ thống độc lập: Hệ thống phụ thuộc
người nói là hệ thống dành riêng cho một người nào đó, còn hệ thống độc lập là
hệ thống sử dụng cho mọi người. Dễ thấy là với cùng một từ thì mỗi người nói
khác nhau sẽ có sự khác nhau đáng kể, thậm chí là khác xa nhau. Vì vậy mà
thực hiện hệ thống độc lập là khó hơn nhiều so với hệ thống phụ thuộc. Giữa hệ
thống độc lập và phụ thuộc, còn một loại hệ thống nữa là hệ thống nhiều người
sử dụng, loại này được dùng cho một nhóm người, và tất nhiên khả năng thực
hiện hệ thống này cũng nằm giữa hai loại kể trên.
¾ Nhận dạng độc lập, tiếng nói liên tục: Nhận dạng từ độc lập là ta biết rằng tín
hiệu cần nhận dạng chỉ là duy nhất một từ, nhiệm vụ là phải chỉ ra nó là từ nào.
Nhận dạng tiếng nói liên tục là nhận dạng các câu nói thực sự như trong giao
tiếp của con người. Nhận dạng từ độc lập có thể nhận diện được dễ dàng hơn
nhiều so với nhân dạng tiếng nói liên tục, bởi nhân cách từ của chúng ta là đã rõ
ràng. Thông thường lỗi khi nhận dạng từ độc lập vào khoảng 3% tới 9%.
¾ Ràng buộc ngôn ngữ: Một đặc điểm tốt không thể bỏ qua của tiếng nói là ngôn
ngữ. Mỗi ngôn ngữ có một ràng buộc nhất định, đó là về ngữ nghĩa hay cú pháp
của câu. Những ràng buộc này cho phép ta loại bỏ những từ hay câu mà không
thể có trong thực tế.
¾ Những điều kiện ngoại cảnh: Khả năng của hệ thống có thể rất tốt khi bị ảnh
hưởng của ngoại cảnh. Những yếu tố đó bao gồm tiếng ồn môi trường ghi âm

(như tiếng động cơ xung quanh nơi ghi âm), độ méo của âm thanh ( gây ra bởi
sự vang vọng của âm thanh khi phản xạ trong phòng), chất lượng thiết bị ghi âm
khác nhau (cùng một thiết bị tồi đôi khi còn tốt hơn nếu dùng những thiết bị
chất lượng khác nhau cho mỗi lần ghi âm ), tốc độ phát âm (ngắn hay dài,
nhanh hay chậm )..v.v…
¾ Viavoice và Dragon Naturally Speaking: Với những nỗ lực nghiên cứu trong
nhiều năm, hiện nay hai sản phẩm tốt nhất trong lĩnh vực nhận dạng tiếng nói là
Viavoice của IBM và Dragon Naturally Speaking của Dragon System. Tỷ lệ
nhận dạng của Viavoice là 88%, với vốn từ vựng vào khoảng 260.000 từ (phiên
bản mới nhất Viavoice Gold), của Dragon Naturally Speaking nhỉnh hơn một
chút, vào khoảng 89%. Viavoice là tổng hợp những kết quả nghiên cứu của
IBM từ cách đây 30 năm, còn Dragon thì mới chỉ thành lập từ năm 1982. Tuy
-9-

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron
vậy, Dragon Naturally Speaking vẫn được đánh giá cao hơn, sản phẩm này đã
đươc tạp chí PC World US bình chọn là sản phẩm nhận dạng tiếng nói tốt nhất
năm 1999. Với tỷ lệ 88% và 89% đã là sự cố gắng của hai công ty nói trên, tuy
nhiên với tỷ lệ đó thì máy tính vẫn thua xa con người về khả năng nhận dạng
tiếng nói, điều đó cho ta thấy còn quá nhiều để cần nghiên cứu với nhận dạng
tiếng nói trong tương lai.
¾ Những vấn đề khác: Để đánh giá khả năng của các hệ thống nhận dạng, cũng
như tạo điều kiện cho sự phát triển các hệ thống nhận dạng, người ta đã tạo ra
những cơ sở dữ liệu tiếng nói chuẩn. Cơ sở dữ liệu đó sẽ bao gồm một tập hợp
lớn các từ và câu, do nhiều người phát âm. Tuy nhiên, mỗi ngôn ngữ khác nhau
là cần có một cơ sở dữ liệu tiếng nói khác nhau. Khi nghiên cứu về nhận dạng
tiếng nói ta quan tâm tới hai vấn đề đó là ngữ âm và thời gian. Vấn đề ngữ âm
xét đến giọng nói địa phương, độ cao thấp, độ lớn của âm thanh...v.v..., còn vấn
đề thời gian lại quan tâm tới tốc độ phát âm.

Trong hai vấn đề nêu trên thì vấn đề thời gian có thể giải quyết đơn giản hơn. Một
thuật toán nổi tiếng và đã có từ rất lâu có tên là Dynamic Time Warping có thể giải
quyết vấn đề này, chúng ta sẽ tìm hiểu chi tiết trong những phần sau. Thuật toán này
hiện nay đã đươc sử dụng trong rất nhiều hệ thống nhận dạng tiếng nói. Vấn đề về
ngữ âm thì khó hơn nhiều, có nhiều quan điểm khác nhau, chính vì vậy có rất nhiều
hướng khác nhau trong nghiên cứu ngữ âm khi nhận dạng tiếng nói. Những hướng
nghiên cứu chính có thể kể đến như sau:
•

Sử dụng tập mẫu: Tiếng nói cần nhận dạng được trích lọc đặc trưng, tiếp đến
là so sánh với một tập hợp những từ mẫu đã được ghi âm để chọn ra cái gần
giống nhất.

•

Sử dụng cơ sở trí thức: Theo hướng này người ta xây dựng trong hệ thống
những chuyên gia về trí thức trong các lĩnh vực âm thanh, từ vựng, cú
pháp...v.v... Tuy nhiên cách này rất khó khả thi.

•

Sử dụng mô hình thống kê: Tiếng nói được thống kê và mẫu hóa (có thể sử
dụng giải pháp Hidden Markov Models - HMMs mà chúng ta sẽ nghiên cứu sau
này) sử dụng các thủ tục học tự động. Tuy nhiên giải pháp này cũng có nhiều
nhược điểm như ta sẽ thấy sau này. Những nhược điểm của mô hình thống kê sẽ
được giải quyết bằng mạng nơ-ron nhân tạo.

•

Sử dụng mạng nơ-ron nhân tạo: Với sự tiến bộ trong nghiên cứu về bộ não

của con người, người ta biết nhiều điều về hoạt động của bộ não. Mạng nơ-ron
nhân tạo chính là những cố gắng để mô phỏng lại những hoạt động đó. Đặc tính
- 10 -

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron
quan trọng nhất của mạng nơ-ron là nó có khả năng học tập kinh nghiệm từ
một tập hợp mẫu, hay nói cách khác là có khả năng khái quát hóa tập mẫu dữ
liệu. Chính vì vậy mà việc áp dụng giải pháp mạng nơ-ron vào nhận dạng tiếng
nói xem ra có vẻ cũng rất tự nhiên, như quá trình học nói của con người. Với
giải pháp này, những tín hiệu tiếng nói mẫu được số hóa thành các con số, sau
đó chúng được đưa vào mạng nơ-ron để luyện kinh nghiệm cho mạng. Sau khi
đã huấn luyện xong, tiếng nói cần nhận dạng cũng được số hóa theo cách đã
làm với tập mẫu, tiếp đến chúng được đưa vào mạng, lúc này đầu ra sẽ cho biết
đó là từ nào.

1.2 Điểm qua tình hình nghiên cứu mạng nơ-ron
Việc nghiên cứu mạng nơ-ron nhân tạo được khởi nguồn từ quá trình tìm hiểu
nơ-ron sinh học. Tuy nhiên nó đã nhanh chóng trở thành một lĩnh vực có liên quan
tới nhiều ngành khoa học khác nhau như tin học, điện tử, toán học, vật lý tâm lý,
ngôn ngữ ..v.v... Người ta vẫn còn đang tiếp tục nghiên cứu về đặc điểm sinh học
của bộ não người, nhưng đã có thể đưa ra một số kết luận về đặc điểm của các mạng
nơ-ron như sau:
• Khả năng học: Mạng nơ-ron có khả năng tiếp thu sự huấn luyện về mối quan hệ
giữa đầu vào và đầu ra, nếu ta chỉ cho nó đầu vào X tương ứng với đầu ra Y thì
nó sẽ có khả năng nhớ lại điều đó.
• Khả năng khái quát hóa: Mạng nơ-ron không chỉ có khả năng nhớ những dữ
liệu nó được huấn luyện, mà nó còn có khả năng khái quát hóa, nghĩa là nó có
khả năng tạo ra hay nhận dạng được những mẫu dữ liệu mới, mà nó cho rằng gần
giống với dữ liệu đã được học. Sự “gần giống” ở đây là rất phù hợp cho việc

nhận dạng tiếng nói, bởi vì mẫu tiếng nói không bao giờ giống hệt nhau.
• Khả năng tính toán song song: Mạng nơ-ron có khả năng tính toán song song
rất cao, phù hợp với khả năng của các giải thuật cũng như máy tính song song.
Điều này rất có lợi cho nhận dạng tiếng nói, vì khối lượng tính toán đối với nhận
dạng tiếng nói là rất lớn.
Với những nhận định nêu trên, người ta đã cố gắng xây dựng những mô hình mô
phỏng lại hoạt động của mạng nơ-ron . Kết quả đã tạo ra hàng loạt các mạng nơ-ron
nhân tạo. ANNs được ứng dụng rộng rãi và có kết quả khả quan trong nhiều bài
toán, đặc biệt là các bài toán nhận dạng tiếng nói, nhận dạng chữ viết..v.v.. Có thể
kể ra một số kết quả như sau:

- 11 -

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron
• Nettalk (1987): Mạng nơ-ron dùng cho việc học cách phát âm dòng chữ tiếng
Anh. Với đầu vào là một chuỗi 7 ký tự tiếng Anh, nó sẽ phát âm được âm tiết ở
giữa của chuỗi ký tự đó. Mạng này được huấn luyện 1024 từ và phát âm tương
ứng, phương pháp học của nó tương tự như việc học đọc của một đứa trẻ, và như
vậy nó có khả năng đọc được cả những từ mà nó chưa được biết đến trước đó.
• Neurogammon (1989): Mạng nơ-ron dùng cho trò chơi cá ngựa (gieo quân xúc
xắc và di chuyển ngựa trên bàn). Đầu vào là vị trí hiện tại của ngựa. Giá trị trên
xúc xắc gieo được và khả năng hướng đi, nó sẽ chỉ ra độ tốt xấu trên hướng đi
đó. Với 3000 thế cờ có sẵn do một chuyên gia tạo ra, sau khi huấn luyện mạng
nơ-ron này đã dành huy chương vàng tại Olympic máy tính tại London Anh năm
1989.
• ALVINN (1993): Mạng nơ-ron dùng trong việc lái xe. Đầu vào là một bức ảnh
về đường đi trước mặt, cung cấp bởi một máy camera. Nó sẽ chỉ ra đâu là hướng
đi đúng. ALVINN có khả năng dẫn đường đúng cho xe với tốc độ 70 dặm/giờ
trên đường dài 90 dặm với nhiều loại điểm khác nhau.

• Nhận dạng chữ viết tay (1990): Mạng nơ-ron đã được sử dụng cho hệ thống
nhận dạng mã vùng trên bì thư của nước Mỹ. Hệ thống nhận dạng này cho độ
chính xác là 92%. Tuy nhiên sau này một hệ nhận dạng khác cũng trên cơ sở đó
đã có độ chính xác lên tới 99.5%.
• Với nhận dạng tiếng nói: Nhận dạng tiếng nói đã chính là một sự chứng minh
cho tác dụng to lớn của mạng nơ-ron . Một số kết quả xuất sắc đã được công bố:
Nhận dạng âm tiết (Waibel - 1989), Nhận dạng phát âm chữ số (Franzini 1989)...v.v... Và cả sản phẩm Viavoice của IBM kể trên cũng áp dụng kết quả
của mạng nơ-ron .

1.3 Căn bản về nhận dạng tiếng nói
Nhận dạng tiếng nói là một mô hình nhận dạng phức tạp theo nhiều mức khác
nhau. Ở mức dưới, tín hiệu tiếng nói được phân tích và tách ra thành những từ, cụm
từ hay câu. Tiếp theo chúng được phân tích dựa vào cú pháp của ngôn ngữ cần nhận
dạng, một số yếu tố đặc trưng khác, như vậy sẽ giảm thiểu lỗi ở mức thấp hơn. Một
hệ thống nhận dạng tiếng nói thường có cấu trúc như Hình 1.1.
• Tiếng nói thô: Tiếng nói thường có tần số cao, ví dụ như 16Khz, đối với
Microphone, 8Khz đối với điện thoại. Nó là một chuỗi những giá trị biên độ theo
thời gian. Đặc điểm tiếng nói theo khái niệm âm học, ngữ pháp và đặc biệt là

- 12 -

Xõy dng mụ hỡnh nhn dng ting núi s dng mng n-ron
ting Vit s c tỡm hiu k trong chng 2. Trong phn ny chỳng ta quan
tõm nhiu hn ti khớa cnh tớn hiu ca ting núi.
Phõn tớch tớn hiu: Ting núi thụ s c bin i v nộn li n gin cho
vic x lý tip theo. Mt s k thut phõn tớch hu hiu ó c a ra, chỳng cú
kh nng trớch lc cỏc c trng hay nộn d liu vi s mt mỏt d liu ti thiu.
Nhng k thut cú th k n nh sau:
Cơ sở dữ liệu tiếng nói

Mô hình
âm thanh

Mô hình
từ vựng

Mô hình
ngôn ngữ

Từ đợc
nhận
dạng

Tín hiệu
vo
Phân tích xác
định đặc tính

Mô hình hóa /
Phân lớp

Tìm kiếm

Hỡnh 1. 1: Mụ hỡnh h thng nhn dng ting núi

o Fourier analysis (FFT): Khi x lý tớn ting núi ta phi ri rc húa nú theo
thi gian. FFT cho phộp c lng c cỏc thnh phn tn s ca tớn hiu ri
rc, tỏch lc cỏc thnh phn cn thit trc khi nhn dng.
o Linear Predictive Coding (LPC): Dựng trớch lc cỏc thụng tin c trng

ca tớn hiu. Nhng thụng tin thng ta khụng th thy mt cỏch trc quan h
cỏc thnh phn tn s trờn.
Khung ting núi (Frame): Kt qu ca vic phõn tớch tớn hiu thu c mt
chui cỏc Frame ting núi (speech frames), cỏc frame ny cú th c gia cụng
thờm v mc ớch l s dng cho vic phõn tớch õm hc (hỡnh 1.2).

- 13 -

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron

Phân tích
tín hiệu

Khung tiếng nói
100 khung/ giây

Tiếng nói thô
16000 mẫu/giây
Hình 1. 2: Biến đổi từ tín hiệu tiếng nói sang Frame tiếng nói

• Mẫu âm thanh: Để phân tích các frame, tách ra các thành phần âm tiết của nó,
cần thiết phải có tập hợp các mẫu. Có nhiều loại mẫu khác nhau, chúng khác
nhau trong cách biểu diễn như theo khả năng phân bố hay theo sự phụ thuộc ngữ
cảnh và một số các thuộc tính khác. Có hai loại mẫu phổ biến như sau:

Hình 1. 3: Mẫu cho từ “TẮT” theo hai cách khác nhau

o Mẫu đúc khuôn (Template): Đơn giản nhất là sử dụng những mẫu từ có sẵn.
Mẫu chỉ đơn giản là lưu trữ một số đặc trưng của tiếng nói (đúc thành khuôn

mẫu), ví dụ như tín hiệu tiếng nói của một từ sau khi ghi âm và tách lọc nhiễu.
Một từ cần nhận dạng sẽ được so sánh với tất cả những mẫu từ có sẵn, và chọn
ra mẫu đúng với nó nhất. Tuy nhiên mô hình này có hai trở ngại lớn, đó là:
1. Không thể mô hình hóa được những âm thanh có sự biến đổi nhiều, trừ khi
với mỗi từ ta đều lưu giữ một số lượng các mẫu khác nhau.
2. Vì lưu trữ mẫu của cả một từ nguyên vẹn nên không thể nào nhận dạng
được những đoạn ngắn hơn trong một từ, hay nói cách khác không thể tận
dụng mẫu của từ này cho từ khác, muốn nhận dạng được một từ thì bắt
- 14 -

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron
buộc phải có mẫu của từ đó đầu đủ. Tuy nhiên trong các hệ thống nhỏ, chỉ
cần nhận dạng một số từ thì mô hình này là có thể áp dụng được.
o Mẫu trạng thái (Status): Mô hình này mềm dẻo hơn và được sử dụng trong hệ
thống lớn. Theo cách này, mọi từ mới được mô hình hóa thành một chuỗi
những trạng thái, mỗi trạng thái tương ứng với tín hiệu trong một âm tiết của
từ. Như vậy có thể nhận dạng được cả những từ mà hệ thống chưa biết tới
trước đó bằng cách ghép các âm tiết đã biết với nhau.
• Phân tích âm thanh và định giá của Frame (frame scores): Phân tích âm
thanh được hiện cách so sánh từng frame mẫu với từng frame của từ cần nhận
dạng, tạo ra một ma trận giá frame. Giá được tính toán tùy theo loại mẫu được sử
dụng. Đối với loại mẫu Template thì giá là sự sai khác giữa frame của mẫu với
một frame của một từ cần nhận dạng. Đối với loại mẫu State thì giá là khả năng
xảy ra của trạng thái ứng với frame cần nhận dạng.
• Liên kết thời gian (Time Aligment): Giá của frame được chuyển đổi thành
chuỗi từ bằng cách đồng nhất với một chuỗi âm thanh mẫu biểu diễn chuỗi từ
tương ứng, sao cho nó có một tổng giá trị tốt nhất theo một đường liên kết chuẩn
nào đó trong ma trận giá. Như mô tả ở hình 1.4 quá trình tìm kiếm đường liên kết
chuẩn tốt nhất được gọi là Time Alignment.

Một đường liên kết chuẩn phải tuân theo một chuỗi ràng buộc, các ràng buộc đó
phải phản ánh được cả những quan hệ trong một từ cũng như giữa các từ trong một
câu. Đối với một từ thì chuỗi ràng buộc là chuỗi frame (đối với mẫu Template), là
chuỗi trạng thái (đối với mẫu State). Giữa các từ trong câu thì các ràng buộc có thể
hiểu như ngữ pháp của câu.
Liên kết thời gian có thể thực hiện bằng dynamic programming, trong đó phổ
biến là thuật toán Dynamic Time Warping mà chúng ta nghiên cứu trong phần dưới
đây.

1.4 Dynamic Time Warping
DTW là thuật toán rất quan trọng trong xử lý tiếng nói.
Cách đơn giản nhất để nhận dạng từ độc lập là so sánh nó với tất cả những mẫu
âm thanh và chọn ra cái gần đúng nhất. Tuy nhiên việc này gặp phải một số khó
khăn như sau:
• Những mẫu khác nhau của cùng một từ có thể có độ dài về thời gian khác nhau,
vấn đề này có thể giải quyết bằng cách chuẩn hóa mẫu cũng như âm thanh cần
nhận dạng sao cho chúng có cùng độ dài thời gian.
- 15 -

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron
• Tốc độ âm thanh mẫu cũng như âm thanh cần nhận dạng không phải là một hằng
số, nó phụ thuộc vào người nói, thời điểm nói. Vậy một vấn đề lớn là làm sao để
hạn chế tối đa sai lệch này, và DTW chính là một giải pháp.
DTW là một thuật toán trong lớp những bài toán gọi là Dynamic Programming.
Độ phức tạp tính toán của DTW là tuyến tính theo độ lớn thời gian của mẫu cũng
như khối lượng mẫu. Thuật toán tạo ra một đường liên kết dựa theo ma trận frame
Score (Hình 1.4).

Hình 1. 4: Dynamic Time Warping

Giả sử D(x,y) là khoảng cách giữa frame x của mẫu và frame y của âm thanh
cần nhận dạng, C(x,y) là tổng lũy dọc theo đường đi từ x tới y. Ta có:
C(x,y) = Min (C (x-1,y), C (x-1,y-1)) + D (x,y)

(1)

Kết quả ta thu được đường liên kết chuẩn bắt đầu từ (0,0) đến (x,y). Trong quá
trình tính toán có thể lưu giữ lại các con trỏ để có thể khôi phục lại đường liên kết
chuẩn từ (x,y). Đường liên kết chuẩn sẽ được tính cho tất cả các mẫu đã có và
đường tối ưu sẽ là đường có giá trị nhỏ nhất (sai khác ít nhất).

1.5 Tiêu chí và nội dung của bản luận văn
Với những nhận định và thông tin nêu trên, mục tiêu nghiên cứu của bản luận
văn này là nghiên cứu lý thuyết mạng nơ-ron để xây dựng mô hình nhận dạng tiếng
- 16 -

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron
nói - “Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron ”. Áp dụng để
xây dựng ứng dụng nhận dạng một số từ trong tiếng Việt. Với tiêu chí nêu trên thì
nội dung chính của bản luận văn này bao gồm:

Chương 1: Giới thiệu chung: Như chúng ta đã biết, chương này tìm hiểu về
những vấn đề liên quan tới nhận dạng tiếng nói, xu hướng hiện nay, cũng như
những kết quả dã đạt được trong lĩnh vực nhận dạng tiếng nói trên thế giới. Trong
chương này chúng ta cũng tìm hiểu căn bản về nhận dạng tiếng nói, tuy nhiên tiếng
nói ở đây chủ yếu được quan sát dưới khía cạnh là những tín hiệu vật lý, về mặt âm
học ta sẽ tìm hiểu trong chương 2. Cuối cùng là đưa ra tiêu chí cho bản luận văn.

Chương 2: Đặc điểm âm học của tiếng nói và Tiếng Việt: Nếu như trong
chương trước, chúng ta mới chủ yếu quan tâm tới tiếng nói dưới khía cạnh tín hiệu
vật lý và cũng xử lý chúng như những tín hiệu vật lý, thì trong chương này chúng ta
quan tâm tới khía cạnh âm học, ngôn ngữ của tiếng nói nói chung và tiếng Việt nói
riêng. Ta sẽ tìm hiểu về tiếng nói một cách “con người” hơn, nghĩa là chủ yếu dựa
vào những gì chúng ta cảm giác thấy, nghe thấy một cách trực quan và được giải
thích bằng những hiểu biết về bộ máy phát âm của con người. Những kiến thức này
sẽ giúp ta định ra được những chiến lược cho việc nhận dạng tiếng nói dưới khía
cạnh tín hiệu vật lý.

Chương 3: Mô hình nhận dạng tiếng nói: Chương này nghiên cứu lý thuyết về
mô hình Markov ẩn và mạng nơ-ron , bao gồm khái niệm, một số giải thuật là cơ sở
cho việc nhận dạng tiếng nói.

Chương 4: Thiết kế ứng dụng nhận dạng tiếng nói: Chương này mô tả thiết
kế ứng dụng áp dụng mạng nơ-ron trong nhận dạng Tiếng Việt. Kết quả là phần
mềm nhận dạng phát âm một số từ Tiếng Việt.

- 17 -

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron

Chương 2
ĐẶC ĐIỂM ÂM HỌC CỦA TIẾNG NÓI VÀ TIẾNG VIỆT
Nếu như trong chương trước, chúng ta mới chủ yếu quan tâm tới tiếng nói dưới
khía cạnh tín hiệu vật lý và cũng xử lý chúng như những tín hiệu vật lý thì trong
chương này chúng ta quan tới khía cạnh âm học và ngôn ngữ của tiếng nói nói
chung và tiếng Việt nói riêng. Ta sẽ tìm hiểu về tiếng nói một cách “ con người “
hơn, nghĩa là chủ yếu dựa vào những gì chúng ta cảm giác thấy, nghe thấy một cách

trực quan và được giải thích bằng những hiểu biết về bộ máy phát âm của con
người. Những kiến thức này sẽ giúp chúng ta định ra được những chiến lược cho
việc nhận dạng tiếng nói dưới khía cạnh tín hiệu vật lý.

2.1 Âm thanh của lời nói- Bản chất và cấu tạo
Trong giao tiếp mỗi thành viên của một cộng đồng phát ra những chuỗi âm
thanh khác nhau nhằm truyền đạt những thông tin cụ thể. Đó là lời nói. Cùng một
lời nói ở mỗi cá nhân đều có sự khác nhau về mặt âm thanh, tuy nhiên điều gì đã
khiến cho các cá nhân đó vẫn hiểu được nhau? Để tìm hiểu điều đó chúng ta sẽ tìm
hiểu về những yếu tố của âm thanh và nguồn gốc phát sinh ra chúng.
2.1.1 Khía cạnh âm học của âm thanh
Âm thanh của lời nói cũng như âm thanh trong thế giới tự nhiên xung quanh ta,
về bản chất, đều là những sóng âm được truyền trong một môi trường nhất định, và
thường là không khí. Khi chúng ta nói thì dây thanh trong hầu chấn động, tạo nên
những sóng âm. Chúng được truyền trong không khí đến tai người nghe và đập vào
màng nhĩ. Âm thanh có những đặc trưng để phân biệt như nhau là:
1- Cao độ
Do tần số dao động của vật thể quyết định. Dây thanh chấn động nhanh cho ta
những âm cao, chấn động chậm cho những âm thanh thấp. Đơn vị để đo cao độ là
Hertz (viết tắt Hz). Tần số là số chu kỳ được thực hiện trong một dây. Tần số càng
lớn thì cao độ cũng càng lớn.

- 18 -

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron
2- Cường độ
Cường độ của âm do biên độ của dao động của âm quyết định. Biên độ dao
động của âm càng lớn thì âm phát ra càng mạnh. Trong tiếng nói nguyên âm phát ra
thường mạnh hơn phụ âm.

3- Độ dài
Độ dài hay trường độ của âm phụ thuộc vào sự chấn động lâu hay chóng của
các phần tử không khí. Cùng một âm nhưng trong các từ khác nhau thì độ dài khác
nhau.
4- Âm sắc
Âm sắc là bản sắc, sắc thái riêng của một âm, cùng một nội dung, cùng một độ
cao nhưng khi nói mỗi người đều có âm sắc khác nhau.
5- Âm hữu thanh và vô thanh
Khi các phần tử không khí khi chấn động tạo nên các chuyển động nhịp nhàng,
điều hoà và có chu kỳ cơ bản thì ta có âm hữu thanh. Thông thường trong tiếng nói
các nguyên âm là hữu thanh, còn các phụ âm có thể là vô thanh hoặc hữu thanh.
2.1.2 Khía cạnh sinh học của âm thanh
Ta hãy xét đến cấu tạo của bộ máy phát âm cũng như các kiểu tạo âm
2.1.2.1

Bộ máy phát âm

a- Dây thanh
Dây thanh là hai cơ mỏng nằm sóng nhau theo chiều dọc trong một hộp bằng
sụn, gọi là thanh hầu, nằm ở phía trên của khí quản. Thanh hầu được tạo bởi một
sụn hình giáp, vốn nhô ra trước cổ, nhất là ở người gầy, mà người phương Tây quen
gọi là quả táo của Adam và ta gọi là “hầu “.Sụn này chỉ che được phía trước còn
phía sau hở. Để bù lại, phía dưới nó có một sụn hình nhẫn mà mà mặt nhẫn quay về
phía sau vừa đủ để che kín, làm thành một cái hộp. Trong hộp này có hai sụn hình
chóp điều khiển sự hoạt động của dây thanh.
Do dây thần kinh chỉ huy, hai mép của hai dây thần thanh khép lại làm cho áp
suất của không khí trong khí quản ở phía dưới tăng lên. Sau một thời gian ngắn,
thanh môn mở ra cho phép một luồng không khí từ khí quả đi lên và thoát ra ngoài.
Thanh môn tiếp tục đóng lại, rồi lại mở ra. Nó làm cho luồng không khí từ phổi ra
ngoài thành từng đợt cách nhau đều đặn, tạo nên sóng âm.

- 19 -

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron
Những âm thanh được tạo ra như thế được gọi là thanh, trái với những âm được
tạo ra không phải do sự hoạt động của dây thanh mà do sự cọ sát không khí và
thành bộ máy phát âm khi thoát ra ngoài, hoặc do không khí phá vỡ sự cản trở nên
lối thoát ra ngoài, tạo thành tiếng nổ, được gọi là tiếng động.
b- Các hộp cộng hưởng phía trên thanh hầu
Miệng và mũi được ngăn ra bởi
vòm miệng mà phía trước gọi là
ngạc, phía sau là mạc hay khẩu
mạc. Trong miệng, lưỡi khi nâng
lên lại tạo ra hai khoang: Khoang
Miệng ở phía trước, khoang Yết
hầu ở phía sau. Yết hầu có một lỗ
thông nhỏ lên mũi và được đóng
lại khi cần thiết bởi lưỡi con. Đó là
ngã tư, chỗ giao nhau giữa đường
của thức ăn từ miệng vào thực
quản và đường của không khí từ
phổi lên mũi.
Hình 2. 1: Hệ thống phát âm ở người

Mỗi khi ăn uống, đường vào phổi được đóng lại bởi nắp, Yết hầu, miệng và mũi
là ba khoang trống đóng vai trò của những hộp cộng hưởngRiêng yết hầu và miệng
do hoạt động của lưỡi và môi mà có thể thay đổi thể tích, hình dáng và lối thoát của
không khí bất cứ lúc nào và vì thế hai khoang này có vai trò hết sức quan trọng
trong công việc thay đổi âm sắc của âm thanh vốn được tạo ra do sự chấn động của

dây thanh đi lên.
Mỗi lần dây thanh chấn động với tần số khác nhau, tạo nên âm cơ bản khác
nhau cho ta những thanh điệu khác nhau. Trái lại, dây thanh chấn động trong mọi
trường hợp như nhau thì ta chỉ có một thanh điệu duy nhất. Nhưng khi đi qua yết
hầu, miệng, mũi thì các họa âm chịu ảnh hưởng của sự cộng hưởng, đã bị thay đổi
đi, trong mối tương quan với âm cơ bản và cho các nguyên âm khác nhau. Mỗi lần
môi, lưỡi, hàm ở một vị trí khác nhau là một lần hợp cộng hưởng miệng và yết hầu
thay đổi thể tích, hình dáng, lối thoát của không khí, tức những nhân tố quyết định
khả năng cộng hưởng của mình và làm biến đổi âm sắc của âm thanh đi qua chúng
một cách khác nhau. Chính vì thế hai khoang miệng và yết hầu là hai hộp cộng

- 20 -

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron
hưởng quan trọng nhất. chúng tạo lên hai phooc măng (formant) chính, đặc chưng
của mỗi nguyên âm.
Hộp cộng hưởng mũi tạo nên một ấm sắc riêng. Bình thường, khi phát âm lưỡi
con giương lên đậy kín lối thông lên mũi. Nếu nó hạ xuống thì âm thanh sẽ qua mũi,
chịu sự cộng hưởng của khoang mũi và âm có một mầu sắc riêng, được gọi là tính
chất mũi.
Formant là dải tần số được tăng cường do hiện tượng cộng hưởng, đặc trưng
cho âm sắc của mỗi nguyên âm.
Trong mỗi dải tần như thế có một tần số được tăng cường hơn cả được gọi là
đỉnh formant. Một nguyên âm do một người phát ra có nhiều formant, trong số đó
có hai formant: F2 ứng với hộp cộng hưởng miệng, F1 ứng với hộp cộng hưởng yết
hầu, các formant khác nhau đặc trưng cho giọng nói riêng của mỗi cá nhân. Ở các
nguyên âm mũi còn có một formant đặc trưng thứ 3. Khi miêu tả nguyên âm học
làm căn cứ chủ yếu, người ta chú ý đến tương quan giữa F2 và F1. Nếu chúng gần
nhau, tức là trên đồ thị chúng tụ vào giữa thì nguyên âm đó được gọi là đặc, ngược

lại, nếu chúng xa nhau thì được gọi là loãng. Nếu chúng xuất hiện ở vùng tần số
thấp thì được gọi là trầm, ngược lại thì được gọi là bổng. Ví dụ: Nguyên âm [a] có
đặc trưng là đặc, không bổng, không trầm; [u,i] là loãng, trong đó [u] là trầm [i] là
bổng.
Trên đây là cách cấu tạo của các âm được gọi là nguyên âm. Ngoài ra là cách
cấu tạo âm thanh theo kiểu khác. Đó là sự thu hẹp lối thoát của không khí trên
đường từ phổi ra ngoài. Khi hai môi hoặc môi với răng cũng như khi các bộ phận
khác nhau của lưỡi (đầu lưỡi, mặt lưỡi, gốc lưỡi) tiến tới răng, lợi, ngạc, mạc hoặc
lưỡi con, tạo thành một khe hở (khe hở có thể tròn hoặc dẹt) hoặc thanh môn thu
hẹp lại làm cho không khí đi qua khó khăn, tạo nên những tiếng động của sự cọ sát,
thì ta có một loạt âm thanh khác, được gọi là phụ âm và phương thức sát, ví dụ cách
cấu tạo các âm [f,s,z].
Nếu sự thu hẹp lối thoát của không khí đến mức cao nhất là ngăn chặn hoàn
toàn, không khí không ra được, áp suất tăng lên và muốn thoát ra phải phá vỡ sự
cản trở ấy, tạo nên một tiếng nổ, thì ta cũng có các âm được gọi là phụ âm và
phương thức cấu tạo chúng là phương thức tắc, chẳng hạn khi phát các âm [p, b, t].
2.1.2.2

Các kiểu tạo âm

Trên đây ta đã nói đến một trong những kiểu cấu tạo âm thanh phổ biến trong
nhiều ngôn ngữ, trong đó có tiếng Việt, đó là kiểu cấu tạo do luồng hơi đi ra từ
- 21 -

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron
phổi. Trong một số ngôn ngữ có những kiểu cấu tạo đặc biệt, tạo nên những đối lập
cần cho sự diễn đạt của ngôn ngữ, hoặc do luồng hơi xuất phát, hoặc do dạng của
thanh môn.
a. Luồng hơi

• Cách phát âm phổ biến nhất là bằng hơi ở phổi. Những phụ âm tắc thông
thường ta vẫn gặp, theo cách phát âm này gọi là âm nổ để phân biệt với
những âm tắc trong các kiểu tạo âm khác.
• Kiểu tạo âm thứ hai ít phổ biến hơn, chỉ gặp ở một số ngôn ngữ và ở một số
phụ âm đó là cách phát âm do hơi ở họng, gồm các loại như sau:
1. Khe thanh hay thanh môn đóng lại, khối không khí ở phía trên được đẩy ra
ngoài do thanh hầu nhích lên cao hơn vị trí bình thường giống như pít tông
trong một chiếc bơm. Không khí được dồn lên yết hầu nhưng bị chặn lại ở
một vị trí nào đó, chẳng hạn ở mạc, áp suất sẽ tăng lên và không khí phải
phá vỡ sự cản trở ấy. Kết quả là âm được gọi là âm bật (ejective). Âm bật
do được cấu tạo như vậy nên luồng không khí đi ra yếu và bao giờ cũng là
âm vô thanh, tức chỉ là tiếng động vì ở đây dây thanh không làm việc.
2. Trái ngược với việc nâng cao thanh hầu là hạ thấp thanh hầu. Không khí ở
họng không đi ra mà đi vào. Luồng hơi từ phổi đang đi ra,có phần nào tràn
qua khe thanh và duy trì sự trấn động của dây thanh. Cách phát âm này tạo
nên những âm gọi là âm đóng (implosive). Khi phát âm một âm tắc thông
thường hay âm nổ thì áp suất của không khí trong khoang miệng tăng lên
còn ở đây thực ra áp suất không tăng giảm gì cả, do đó các khí quản phát
âm sau khi chặn không khí buông rất nhẹ. Các âm trong tiếng Việt được
ghi bằng chữ “b”, chữ “d” ở tuyệt đại đa số trường hợp được phát âm như
vậy. Âm đóng bao giờ cũng là âm hữu thanh, tức là khi phát âm dây thanh
chấn động.
• Kiểu tạo âm thứ ba cũng ít phổ biến, có thể thấy trong một số ngôn ngữ ở
Châu Phi như là tiếng Zulu. Đó là cách phát âm bằng hơi ở mạc. Người Việt
khi chặc lưỡi, biểu thị thái độ miễn cưỡng hay một tìmh thái nào đó, đã thực
sự phát ra một âm mặt lưỡi theo cách này.
b. Dạng của thanh môn
Nói về dạng thanh môn tức là nói về sự khép mở của dây thanh dưới sự điều
khiển của hai sụn hình chóp. Như trên ta đã biết khi hai dây thanh khép lại rồi
- 22 -

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron
mở ra liên tục, tức chấn động, tạo nên thanh. Các phụ âm có thanh gọi là hữu
thanh. Trái lại nếu thanh môn mở rộng, hai dây thanh không hoạt động để
không khí ra tự do, sẽ không có chút âm thanh nào, phụ âm chỉ được tạo thành
bởi tiếng động và được gọi là vô thanh. Khi thanh môn không mở rộng lắm, hai
dây thanh vẫn xa nhau nhưng một luồng hơi qua khá mạnh làm cho dây thanh
rung đôi chút giống như cách phát âm [h], ta sẽ được cái gọi là giọng thở
(breathy voice) hay tiếng thì thào.
Trong trường hợp hai sụn hình chóp giáp lại nên dây thanh chỉ còn chấn
động được ở phía kia. Âm được cấu tạo có cao độ rất thấp như khi ta hạ giọng ở
cuối câu. Kết quả của hiện tượng này gọi là giọng kẹt (creaky voice) hay còn
gọi là thanh hầu hoá (laryngealization).

2.2 Nguyên âm
2.2.1 Âm tố
Một khúc đoạn của lời nói được chia thành những đơn vị nhỏ hơn. Đơn vị cấu
âm nhỏ nhất là âm tiết, ví dụ hai âm tiết “xà” “phòng”. Tuy nhiên khi nghe cũng
như khi phát âm mỗi âm tiết người ta vẫn thấy mỗi đơn vị ấy bao gồm những đơn vị
nhỏ hơn nữa.
Về mặt thính giác, rõ ràng là “xà”được tạo nên bởi những thành tố đồng chất.
Về mặt cấu âm, để tạo âm tiết này hoạt động của khí quản phát âm đã trải qua hai
quá trình khác nhau: Phần đầu và phần sau khác nhau về vị trí của lưỡi, về sự tham
gia của dây thanh.
Đương nhiên còn có lý do ngôn ngữ học khác mà ta xét đến sau này, nhưng ở
đây ta cũng có thể thừa nhận một phần nào cơ sở của việc phân chia âm thanh của
lời nói ra thành những đơn vị cấu âm – thính giác nhỏ nhất, được gọi là âm tố.
Số lượng âm tố là vô hạn, tuy nhiên giữa chúng có một đặc trưng âm học, cũng
như cấu âm chung nào đó, cho phép phân loại chúng thành những tập hợp lớn đầu

tiên là nguyên âm và phụ âm.
2.2.2 Đặc trưng chung của nguyên âm
Để thấy rõ những đặc điểm của nguyên âm ta sẽ đối chiếu nó với phụ âm. Về
mặt bản chất âm học, nguyên âm chỉ do thanh cấu tạo nên, nó có đường cong biểu
hiện không tuần hoàn. Nhiều phụ âm có thanh xen lẫn và chiếm tỷ trọng cao, tuy
nhiên vẫn là phụ âm chính vì sự có mặt của tiếng động. Đương nhiên cần loại trừ
một số trường hợp đặc biệt, chúng sẽ được xét riêng.
- 23 -

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron
Về mặt cấu âm phụ âm được tạo nên do sự cản trở không khí vốn cần thiết để
gây nên tiếng động, trong khi để cấu tạo nguyên âm thì luồng hơi ra tự do. Một hệ
quả của sự khác biệt trên là luồng hơi cần cho sự phát âm các phụ âm bao giờ cũng
mạnh (dù chỉ là tương đối) còn luồng hơi ở các nguyên âm thì yếu.
Một hệ quả khác là khi cấu âm các phụ âm, bộ máy phát âm chỉ căng thẳng cục
bộ, tức chỉ gây nên sự trở ngại cho luồng không khí đi ra hoặc đi vào trái với
nguyên âm với sự căng thẳng của toàn thể khí quản phát âm, vốn cần thiết để tạo
nên một âm sắc nhất định.
2.2.3 Xác định các nguyên âm
Sự phân biệt phẩm chất các nguyên âm là căn cứ vào các âm sắc của chúng mà
âm sắc lại phụ thuộc vào khả năng cộng hưởng của các khoang quan trọng như
miệng và yết hầu. Xác định các nguyên âm, tức xác định âm sắc, quy cho cùng là
miêu tả các khoang nối trên 3 tiêu chuẩn:
Lưỡi cao hay thấp hoặc miệng mở hay khép
Lưỡi trước hay sau
Môi tròn hay dẹt
Theo tiêu chuẩn thứ nhất: cao – thấp hay mở – khép có thể có 4 mức và phân
các nguyên âm ra 4 nhóm:
Nguyên âm thấp, còn gọi là nguyên âm mở như “a” trong tiếng Việt

Nguyên âm thấp vừa còn gọi là nguyên âm mở vừa “e” “o”(Việt)
Nguyên âm cao vừa còn gọi là khép vừa như “ê” “ô” (Việt)
Nguyên âm cao còn gọi là nguyên âm khép như “i” “u” “ư”(Việt)
Theo tiêu chuẩn thứ hai: Trước – sau có thể có ba nhóm:
Nguyên âm trước như “i” “ê” “e” (Việt)
Nguyên âm giữa như “i” trong từ “bird” của tiếng Anh
Nguyên âm sau như “u” “ư” “ơ” “o” (Việt)

2.3 Phụ âm
Như trên đã nói phụ âm về cơ bản là tiếng động được cấu tạo do sự cản trở
không khí trên lối thoát của nó. Có nhiều cách cản trở, được gọi là phương thức cấu
âm khác nhau, cùng một cách cản trở nhưng được thực hiện ở những chỗ khác nhau,
gọi là vị trí cấu âm, sẽ tạo cho ta những phụ âm khác nhau. Miêu tả một phụ âm
chính là xác định âm đó theo hai tiêu chuẩn:
- 24 -

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ-ron
¾ Phương thức cấu âm
¾ Vị trí cấu âm
2.3.1 Về phương thức cấu âm
Có thể nói đến ba phương thức chính: Tắc, xát, rung. Thuộc phương thức tắc có
thể có những cách cấu âm đặc biệt, chẳng hạn ở những âm (m, n) không khí bị cản
trở hoàn toàn ở đằng miệng nhưng lại ra tự do ở đằng mũi.
Khi xác định một phụ âm phát âm nào đó theo tiêu chuẩn phương thức cấu âm
và định rõ phụ âm đó thuộc nhóm nào. Ví dụ: (b, p) chẳng hạn là thuộc nhóm tắc
trong khi (m, n) không phải như thế.

2.3.1.1 Âm tắc
Là nhóm phụ âm kiểu (b. p), khi phát âm một âm tắc thì lưỡi con nâng lên bịt

kín lối thông lên mũi và không khí bị cản trở hoàn toàn, do những bộ phận khác
nhau ở miệng, muốn thoát ra phải phá vỡ sự cản trở hoàn toàn, do những bộ phận
khác nhau ở miệng, muốn thoát ra phải phá vỡ sự cản trở ấy, tạo nên một tiếng nổ.
Những âm (d, t, g, k) cũng là âm tắc.
Sự hoạt động của dây thanh, sự tham gia của yết hầu. Thanh hầu cũng được kể
trong phạm vị phương thức cấu âm để tạo nên những âm vô thanh, hữu thanh, bật
hơi, âm thở, âm đóng, âm thanh hầu hoả, âm bật.
Mỗi kiểu âm này làm thành một kiểu nhóm của âm tắc. Có một kiểu âm đặc
biệt, chẳng hạn âm đầu của từ “child”trong tiếng Anh được gọi là âm tắc xát
(affricate). Nó bắt đầu bằng một yếu tố tắc và tiếp theo là yếu tố xát hay đúng hơn
đó là một âm xát với sự bắt đầu tắc vì hai yếu tố này liền như là một ở cùng một vị
trí. Kiểu âm này nằm ở biên giới của sự phân loại giữa hai phương thức tắc và xát.
Tuy nhiên, người ta vẫn coi là một nhóm thuộc phương thức tắc. thậm chí là một
tiểu nhóm của nhóm phụ âm tắc.

2.3.1.2 Âm mũi
Như trên đã nói, cùng một phương thức tắc. nhưng được xếp thành nhóm riêng.
Khi phát âm lưỡi con hạ xuống. Không khí không qua miệng được, trở ra bằng
đường mũi. Vì dây thanh chấn động mà không khí ra tự do nên tỷ lệ thanh so với
tiếng động rất lớn những âm thanh này được gọi là âm vang, đối lập với âm thanh
có tỷ lệ tiếng động lớn hơn, được gọi là âm ồn. Trong đa số ngôn ngữ những âm
mũi đều là âm vang. Các âm [m, n] trong tiếng Việt, tiếng Anh đều là âm vang. Tuy
nhiên cũng có âm mũi vô thanh.

- 25 -

Xây dựng mô hình nhận dạng tiếng nói sử dụng mạng nơ ron

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về