Nghiên cứu về nhận dạng giọng nói tiếng việt và ứng dụng trong điều khiển

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.33 MB, 99 trang )

Trang | 1

c Lung  Tôn Thanh Hùng
CHƯƠNG 1. TỔNG QUAN
1.1. Giới thiệu đề tài
Đề tài này mang tên “Nghiên cứu về nhận dạng giọng nói tiếng Việt và ứng
dụng trong điều khiển”. Để thực hiện được việc nhận dạng giọng nói, ta phải xây dựng
một hệ thống gọi là Hệ thống nhân dạng tiếng nói tự động (Automatic Speech
Recognition -ASR), đây là hệ thống chuyển đổi chuỗi âm thanh tiếng nói thành chuỗi
từ. Việc xây dựng một hệ nhận dạng tiếng nói không phải là một công việc đơn giản,
đòi hỏi nhóm phát triển phải am hiểu các kỹ thuật, lý thuyết từ nhiều kiến thức khác
nhau như: âm học - vật lý, ngữ âm học, ngôn ngữ học, lý thuyết xác suất thống kê,
máy học, trí tuệ nhân tạo, … Trên thế giới, nhiều nhóm nghiên cứu đã phát triển thành
công hệ nhận dạng tiếng nói cho các ngôn ngữ lớn như: tiếng Anh, tiếng Trung Quốc,
tiếng Nhật, … nhưng giải pháp nhận dạng cho tiếng Việt vẫn còn nhiều mặt hạn chế.
1.2. Các nghiên cứu có liên quan đến khóa luận
1.2.1. Trên thế giới
Giao tiếp người-máy là một lĩnh vực nghiên cứu lớn và khó nhưng lại có nhiều
ứng dụng thực tiễn. Tiếng nói là một phương tiện giao tiếp tự nhiên nhất của con
người và vì vậy, nghiên cứu để máy tính có thể hiểu tiếng nói của con người, hay còn
gọi là nhận dạng tiếng nói tự động (Automatic Speech Recognition –ASR), đã trải
qua quá trình 70 năm phát triển. Những nỗ lực nghiên cứu đầu tiên về ASR đã được
tiến hành trong thập niên 50 với ý tưởng chính là dựa trên ngữ âm. Do kĩ thuật xử lí
tín hiệu số cũng như khả năng máy tính còn giới hạn, các hệ thống nhận dạng lúc đó
chỉ tập trung khai thác đặc trưng phổ cộng hưởng (spectral resonances) đối với các
nguyên âm của tín hiệu, sau khi đi qua các bộ lọc tương tự. Trong giai đoạn này, có
các hệ thống đáng chú ý như: hệ thống nhận dạng ký số rời rạc của Bell-lab (1952), bộ
nhận dạng 13 âm vị của trường đại học College–Anh (1958) [1, p. 8]…
Trong thập kỉ 1960, điểm đáng ghi nhận nhất là ý tưởng của tác giả người Nga,
Vintsyuk khi ông đề xuất phương pháp nhận dạng tiếng nói dựa trên qui hoạch động
theo thời gian (Dynamic Time Warping –DTW) [2, p. 1]. Đáng tiếc là mãi đến

những năm 1980, phương pháp này mới được thế giới biết đến. Cuối những năm
1960, Reddy ở trường đại học CMU (Mỹ) đã đề xuất những ý tưởng đầu tiên về nhận
Trang | 2

c Lung  Tôn Thanh Hùng
dạng tiếng nói liên tục bằng kĩ thuật đánh dấu đường đi và truy vết lùi tìm kết quả [2,
p. 2].
Đến những năm 70, nghiên cứu về nhận dạng tiếng nói đã bước đầu thu được
các kết quả khích lệ, làm nền tảng cho những phát triển sau này. Trước tiên là bài toán
nhận dạng từ rời rạc được giải quyết dựa trên ý tưởng của các nhà khoa học người
Nga và Nhật. Velichko và Zagoruyko (ở Nga) là những người đi tiên phong trong việc
áp dụng ý tưởng về phân lớp mẫu cho ASR. Sakoe và Chiba (Nhật) đề xuất các kĩ
thuật sử dụng phương pháp qui hoạch động. Và Itakura, trong thời gian ở Bell-lab, đã
đưa ra phương pháp mã hoá dự báo tuyến tính (Linear Predictive Coding –LPC) làm
tiền đề cho việc áp dụng các tham số phổ LPC vào ASR. Các hệ thống ASR đáng chú
ý của giai đoạn này gồm: Harpy và Hearsay-II của trường đại học CMU-Mỹ, hệ thống
HWIM của BBN… [2, p. 2]
Nghiên cứu về ASR trong thập kỉ 80 đánh dấu phép dịch chuyển trong phương
pháp luận: từ cách tiếp cận đối sánh mẫu sang cách tiếp cận sử dụng mô hình thống
kê. Ngày nay, hầu hết các hệ thống ASR đều dựa trên mô hình thống kê được phát
triển ở thập kỉ này, cùng với những cải tiến ở thập kỉ 90. Một trong những phát minh
quan trọng nhất ở thập kỉ 80 là mô hình Markov ẩn (Hidden Markov Model –HMM).
Mặc dù HMM được áp dụng thành công ở một số phòng LAB (chủ yếu là IBM và
viện nghiên cứuthuộc bộ Quốc phòng Mỹ) nhưng phải đợi đến vài năm sau đó, mô
hình này mới được xuất bản và phổ biến trên thế giới. Ngoài ra, hai đề xuất quan trọng
khác của giai đoạn này là tổ hợp Cepstrum và mô hình ngôn ngữ:
 Furui đề xuất sử dụng tổ hợp của các hệ số phổ cùng với đạo hàm bậc 1 và
bậc 2 của chúng, như là những đặc trưng cơ sở cho ASR. Phương pháp này
dù được đề xuất cuối những năm 70 nhưng đã không được áp dụng suốt
một thời gian dài. Ngày nay, hầu hết các hệ thống nhận dạng tiếng nói đều

sử dụng tổ hợp đặc trưng này. [2, p. 4]
 Những nhà khoa học thuộc công ty IBM là những người đi tiên phong trong
việc phát triển mô hình ngôn ngữ (Language Model –LM). Đây là một
công cụ hiệu quả trong việc lựa chọn chuỗi từ nhận dạng và đã được áp
dụng thành công trong tất cả các hệ thống ASR ngày nay, đặc biệt là các hệ
thống nhận dạng tiếng nói liên tục với bộ từ vựng lớn.
Trang | 3

c Lung  Tôn Thanh Hùng
Các hệ thống ASR ra đời trong thời gian này có thể kể đến: hệ thống Sphinx
của trường đại học CMU, Byblos của công ty BBN, Decipher của viện SRI, và các hệ
thống khác của Lincoln Labs, MIT và AT&T Bell Labs.
Thập niên 90 ghi nhận một số kết quả nghiên cứu mới trong lĩnh vực phân lớp
mẫu. Cụ thể, bài toán phân lớp theo mô hình thống kê (dựa trên luật quyết định
Bayes), đòi hỏi phương pháp ước lượng các phân bố cho dữ liệu, được chuyển thành
bài toán tối ưu, bao gồm phép cực tiểu lỗi phân lớp bằng thực nghiệm. Sự chuyển đổi
này về mặt bản chất xuất phát từ ý tưởng sau đây: mục tiêu của phân lớp là cực tiểu
lỗi chứ không phải cung cấp hàm phân bố phù hợp với dữ liệu nhận dạng. Khái niệm
cực tiểu lỗi này đã làm nảy sinh một số kĩ thuật như phương pháp huấn luyện riêng
biệt (Discriminative Training). Hai dạng điển hình của phép huấn luyện này là: CME
(Minimum Classification Error) và MMI (Maximum Mutual Information). Kết quả
thực nghiệm cho thấy các phương pháp huấn luyện mới đưa ra kết quả nhận dạng tốt
hơn so với phương pháp huấn luyện cực đại xác suất trước đó. Ngoài ra, nhận dạng
tiếng nói trong môi trường nhiễu cũng rất được quan tâm. Để nâng cao hiệu suất nhận
dạng cho dữ liệu nhiễu, một số kỹ thuật đã được đề xuất như: MLLR (Maximum
Likelihood Linear Regression), PMC (Parallel Model Combination)… [2, p. 3]
Cuối cùng, các ứng dụng được phát triển trong giai đoạn này gồm: hệ thống trả
lời thông tin tự động cho các chuyến bay (Air Travel Information Service –ATIS), hệ
thống ghi lại các bản tin phát thanh (Broadcast News Transcription System)….
Đến những năm đầu của thế kỷ 21, các nghiên cứu tập trung vào việc nâng cao

kết quả nhận dạng tiếng nói, thông qua chương trình có tên gọi EARS (Effective
Affordable Reusable Speech-to-Text) [2, p. 3]. Tới thời điểm này, tiếng nói được giả
thiết là đã được thu âm trong môi trường bình thường, không bị ràng buộc bởi bất cứ
điều kiện nào (các điều kiện giả thiết trước đây thường bao gồm tiếng nói được thu
trong phòng sạch cách âm và do người bản xứ đọc). Đích hướng tới của chương trình
này là khả năng nhận dạng, tóm tắt và chuyển ngữ các đoạn audio, giúp cho người đọc
hiểu nhanh nội dung của chúng thay vì phải nghe toàn bộ.
Hiện nay, với các ngôn ngữ phổ biến như tiếng Anh, tiếng Pháp, tiếng Tây Ban
Nha, các công trình nghiên cứu về nhận dạng tiếng nói đã thu được những kết quả rất
tốt, có nhiều ứng dụng thực tiễn được triển khai như:
Trang | 4

c Lung  Tôn Thanh Hùng
 Hệ thống giao tiếp hỏi đáp thông tin tự động qua điện thoại.
 Hệ thống truy vấn thông tin thoại.
 Hệ thống thông dịch tiếng nói xuyên ngữ tự động.
 Các trạm kiểm soát, hệ thống điều khiển sử dụng tiếng nói.
 Các ứng dụng tiếng nói trên thiết bị di động.
Về mặt kinh tế và thương mại, công nghệ nhận dạng tiếng nói đã thay đổi cách
con người tương tác với hệ thống và thiết bị, không còn bó buộc trong cách thức
tương tác truyền thống (như thông qua bàn phím của máy tính hay điện thoại) mà
chuyển sang tương tác trực tiếp bằng giọng nói. Trong môi trường kinh tế cạnh tranh,
các ứng dụng dần dần đã chuyển sang tích hợp tính năng tương tác âm thanh. Việc
ứng dụng và khách hàng có thể tương tác với nhau thông qua âm thanh không có
nghĩa là loại bỏ giao diện đồ họa truyền thống mà nó cung cấp thêm một cách truy
cập thông tin và dịch vụ tiện lợi, tự nhiên hơn.
Về mặt nghiên cứu khoa học, các hệ thống nhận dạng tiếng nói hiện tại đều dựa
trên phương pháp thống kê và so khớp mẫu. Phương pháp này đòi hỏi các tri thức về
ngữ âm và một lượng lớn dữ liệu huấn luyện, bao gồm cả dạng âm thanh và dạng văn
bản, để huấn luyện bộ nhận dạng. Lượng dữ liệu huấn luyện càng lớn, bộ dạng dạng

càng có nhiều khả năng đưa ra kết quả chính xác hơn.
1.2.2. Trong nước
Tại Việt Nam, có 2 nhóm nghiên cứu chính về bài toán nhận dạng tiếng nói liên
tục với bộ từ vựng lớn (LVCSR). Nhóm đầu tiên thuộc Viện Công nghệ Thông tin do
PGS. Lương Chi Mai đứng đầu, với phương pháp ANN và công cụ CSLU [3] được sử
dụng. Nhóm thứ hai thuộc trường Đại học Khoa học Tự nhiên thành phố Hồ
Chí Minh do PGS. Vũ Hải Quân đứng đầu, với phương pháp HMM và công cụ HTK
được sử dụng, các nghiên cứu của nhóm tập trung vào bài toán truy vấn thông tin
tiếng Việt, nhận dạng tiếng nói, hệ thống giao tiếp giữa người và máy, tìm kiếm bằng
giọng nói,
Ngoài ra, gần đây có nghiên cứu của LIG (Laboratoire Informatique de
Grenoble) hợp tác với phòng thí nghiệm MICA ở Hà Nội về sự khả chuyển của các
mô hình ngữ âm (acoustic model portability).
Trang | 5

c Lung  Tôn Thanh Hùng
Ở trong nước còn có các đề tài liên quan như: “c chính t, sử
dụng lượng hóa vector VQ, hạn chế về nhận dạng tiếng nói liên tục. “Phát trin các
kt qu tng hp, nhn dng câu lnh, chui s ting Vit liên tng
n tho [4], “ chính xác ca h thng mng neuron nhn
dng ting Vi [5], “  n dng lnh 10 ch s liên t  n
tho của Viện công nghệ thông tin sử dụng công cụ CSLU [6], phương pháp mô
hình Artificial neural network - ANN, giải mã bằng thuật toán Viterbi, cơ sở dữ liệu
mẫu âm học của CSLU.
1.3. Mục tiêu của khóa luận
Mục tiêu chung nhất: tìm hiểu, vận dụng các kiến thức về nhận dạng tiếng nói
đề xây dựng mộ chương trình nhận dạng tiếng nói tiếng Việt và ứng dụng trong điều
khiển thiết bị mô phỏng và thiết bị thật.
Mục tiêu chi tiết:
a. Tìm hiểu các khái niệm có liên quan đến hệ nhận dạng tiếng nói để làm rõ

hơn một số yếu tố quan trọng trong việc sử dụng công cụ hỗ trợ.
b. Tìm hiểu phương pháp cài đặt công cụ hỗ trợ xây dựng hệ nhận dạng tiếng
nói.
c. Tìm hiểu xây dựng mô hình âm học, mô hình ngôn ngữ thích hợp cho tiếng
Việt.
d. Xây dựng chương trình mô phỏng, thực nghiệm, thử nghiệm giữa các mô
hình với nhau từ đó đưa ra kết luận và nhận xét.
1.4. Phạm vi
Giải quyết bài toán nhận dạng các câu lệnh điều khiển cơ bản qua 2 thực
nghiệm (demo) đó là:
 Điều khiển trình duyệt web Google Chrome bằng giọng nói với tổ hợp câu
lệnh điều khiển gồm 45 từ.
 Điều khiển mô hình xe điều khiển bằng giọng nói với tổ hợp các câu lệnh
gồm 24 từ.
Do thời gian, và giới hạn phạm vi khóa luận nên demo chỉ mới thực hiện nhận
dạng thành công với một, hai người dùng (sinh viên thực hiện khóa luận), xác suất
nhận dạng (thực tế) đúng sấp xỉ 90%.
Trang | 6

c Lung  Tôn Thanh Hùng
1.5. Những điểm nỗi bật của khóa luận
Khóa luận được trình bày với đề mục rõ ràng và lượng kiến thức vừa đủ, giúp
những người phát triển sau này dễ dàng tiếp cận và phát triển khóa luận.
Thực hiện demo không chỉ trên máy tính mà còn có cả điều khiển cho vật thể
thật. Tuy về nguyên lý là hoàn toàn giống nhau, nhưng em đã cố gắng thực hiện triển
khai trên nhiều một trường và ứng dụng để tăng tính thực tiển cũng như xác thực của
đề tài. Khác với các đề tài nhận dạng trước chủ yếu chỉ mang tính demo nhận dạng.
1.6. Cấu trúc khóa luận
 Trình bày tổng quan: giới thiệu về đề tài, xác định mục tiêu những
vấn đề mà đề tài cần giải quyết, giới hạn phạm vi đề tài, xác định phương pháp giải

quyết và sau cùng chỉ ra những điểm nổi bật của đề tài.
 Trình bày cơ sở lý thuyết bao gồm: lý thuyết cơ bản về âm học, ngữ
âm học, đặc điểm trong tiếng Việt, các kiến thức cơ bản để xây dựng và sử dụng một
hệ nhận dạng tiếng nói. Cơ sở lý thuyết về rút trích đặc trưng, một trong những khái
niệm quan trọng trong các hệ nhận dạng tiếng nói. Lý thuyết về mô hình Hidden
Markov Model (HMM). Bao gồm khái niệm, các thuật toán liên quan, ý nghĩa của
HMM trong một hệ nhận dạng tiếng nói.
3: Giới thiêu các khái niệm cơ bản, quan trọng của hai Framework hổ
trợ xây dựng một hệ nhận dạng tiếng nói phổ biến nhất hiện nay là HTK, Sphinx 4.
Khóa luận này sử dụng Sphinx 4 để xây dựng chương trình demo thực nghiệm.
Chương 4: Trình bày chi tiết quá trình cài đặt Sphinx4, thu âm, xây dựng bộ
huấn luyện, tiến hành huấn luyện, giải thích kết quả huấn luyện, thực hiện thử nghiệm
so sánh HTK và Sphinx cuối cùng là xây dựng chương trình demo.
: Nêu lên kết luận, trình bày những kết quả đạt được, những điểm
còn hạn chế, cũng như kinh nghiệm rút ra sau quá trình thực hiện khóa luận, từ đó nêu
lên các hướng cải thiện, nghiên cứu và phát triền.

Trang | 7

c Lung  Tôn Thanh Hùng
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
2.1. Tổng Quan Về Âm Học Và Tiếng Nói
2.1.1. Âm học
2.1.1.1. Khái niệm
Khi có nguồn phát ra âm thanh (như tiếng trống, tiếng nhạc cụ, tiếng nói), ta sẽ
nghe và cảm nhận được âm thanh phát ra. Vật tạo ra được âm thanh còn được gọi là
nguồn phát âm, âm thanh chính là sự dao động cơ của các thành phần vật chất trong
một môi trường nào đó lan truyền và đến tai ta và khi đó ta cảm nhận được âm thanh.
Trong môi trường không có vật chất tồn tại như chân không, không có dao động song
cơ do đó cũng không có âm thanh tồn tại. Trong đời sống xã hội, âm thanh là phương

tiện giao tiếp, truyền đạt thông tin phổ biến và xấu hiện từ lâu đởi nhất của con người.
Khi nghiên cứu về âm thanh, người ta thường quan tâm đến 2 đặc điểm: đặc trưng vật
lý và đặt trưng sinh học.
2.1.1.2. Biểu diễn tín hiệu âm thanh trong miền thời gian và tần số.
Thông thường, người ta dùng hàm toán học x(t) để biểu diễn âm thanh trong
miền thời gian. Trong đó:
- t: thời gian
- x: biên độ biến thiên, hay còn gọi là ly độ.
Như vậy, ta có thể biểu diễn x(t) bằng đồ thị theo thời gian.Đặt x(t) = A.sin 

t
= A. sin 2F
0
t

2.1 Biu din tín hiu âm thanh
Trang | 8

c Lung  Tôn Thanh Hùng
Phổ tính hiệu: là cách biểu diễn các thành phần cấu tạo nên x(t) theo tần số.
với tín hiệu Sin nói trên, đồ thị phổ là một vạch có cao độ là A tại điển có tần số F
0.
Ta
nói đó là phổ vạch. Trong thực tế, với x(t) bất kỳ, biến thiên, không tuần hoàn, người
ta sẽ dùng phân tích Fourier để tính toán phổ tín hiệu. Khi đó, ta có phổ liên tục X().
2.1.1.3. Các loại âm thanh
Những dao động cơ mà con người nghe được gọi âm thanh (sound).
Âm thanh có thể biểu diễn theo thời gian, song cũng có thể biểu diễn theo tần
số do có thể phân tích một tín hiệu âm thanh thành tổ hợp các thành phần tần số khác
nhau (Chuỗi Fourier, tích phân Fourier). Hoặc nói một cách đơn giản thực tiễn hơn,

một âm thanh có thể là tổ hợp từ nhiều đơn âm, từ nhiều nhạc cụ, mà mỗi cái có một
tần số dao động nhất định.
Dải tần số nghe được là từ 20 Hz - 20000 Hz. Siêu âm là âm dao động ngoài
20000 Hz. Hạ âm là các âm dao động dưới 20 Hz. Tai người không nghe được siêu
âm và hạ âm.
 Tiếng nói (voice, speech) là âm thanh phát ra từ miệng người, được truyền đi
trong không khí đến tai người nghe . Dải tần số của tiếng nói đủ nghe rõ là từ
300 Hz đến 3500 Hz, là dải tần tiêu chuẩn áp dụng cho điện thoại. Còn dải tần
tiếng nói có chất lượng cao có thể là từ 200 Hz-7000 Hz, áp dụng cho các
ampli hội trường.
 Âm nhạc (music) là âm thanh phát ra từ các nhạc cụ. Dải tần số của âm nhạc là
từ 20 Hz đến 15000 Hz.
 Tiếng kêu là âm thanh phát ra từ mồm động vật. Tiếng của Cá Heo (dolphins)
là một loại âm thanh trong dảy tần số 1-164 kHz, của Con Dơi (bats) 20 - 115
kHz, của Cá Voi (whale) 30-8000 Hz. (Cần xác minh lại số liệu).
 Tiếng động là âm thanh phát ra từ sự va chạm giữa các vật. Thí dụ tiếng va
chạm của 2 cái cốc, tiếng va chạm của cánh cửa, tiếng sách rơi.
 Tiếng ồn (noise) là những âm không mong muốn.
Nhìn chung lại, xét về phương diện tín hiệu và sự cảm thụ của tai người, có hai
loại âm:
 tuần hoàn bao gồm tiếng nói, âm nhạc
 không tuần hoàn như tín hiệu tạp nhiễu, một số phụ âm tắc xát như sh, s.
Trang | 9

c Lung  Tôn Thanh Hùng
2.1.1.4. Đơn vị đo âm thanh
Người ta thấy rằng con người cảm nhận độ to của âm thanh không tỉ lệ thuận
với cường độ âm thanh mà theo hàm số mũ.
Bel = 10lg P2/P1. (Phát âm là Ben)
decibel = 20lg I2/I1 (Phát âm là Đề xi ben)

2.1.2. Tiếng nói
Tiếng nói là âm thanh phát ra từ miệng (người). Nghiên cứu tiếng nói gồm: Bộ
máy phát âm của con người. Thụ cảm âm thanh của tai người. Phân loại tiếng nói.
Bộ máy phát âm của con người gồm:
 Phổi đóng vai trò là cái bơm không khí, tạo năng lượng hình thành âm.
 Đôi dây thanh (vocal fold, vocal cord)là hai cơ thịt ở trong cuống họng, có hai
đầu dính nhau, còn hai đầu dao động với tần số cơ bản là Fo, tiếng Anh gọi là
pitch, fundamental frequency. Fo của nam giới nằm trong khoảng 100-200 Hz,
của nữ giới là 300-400 Hz, của trẻ em là 500-600 Hz.
 Thanh quản và vòm miệng: c cng, tạo ra sự phân
biệt tần số khi tín hiệu dao động từ đôi dây thanh phát ra. Đáp ứng tần số của
hốc công hưởng này có nhiều đỉnh cộng hưởng khác nhau được gọi là các
formant.
 Miệng đóng vai trò phát tán âm thanh ra ngoài.
 Lưỡi thay đổi để tạo ra tần số formant khác nhau.
 Các âm khác nhau là do vị trí tương đối của formants.
Phân loại tiếng nói theo thanh:
 Âm hữu thanh (voiced, tiếng Pháp là voisé) là âm khi phát ra có sự dao động
của đôi dây thanh, nên nó tuần hoàn với tần số Fo. Vì vậy phổ của nguyên âm
là phổ vạch, khoảng cách giữa các vạch bằng chính Fo.
 Âm vô thanh (unvoiced, tiếng Pháp là non voisé) phát ra khi đôi dây thanh
không dao động. Thí dụ phần cuối của phát âm English, chữ sh cho ra âm xát.
Phổ tín hiệu có dạng là nhiễu trắng, phổ phân bổ đều.
Phân loại tiếng nói:
Trang | 10

c Lung  Tôn Thanh Hùng
 Nguyên âm (vowel) là âm phát ra có thể kéo dài. Tất cả nguyên âm đều là âm
hữu thanh, nghĩa là tuần hoàn và khá ổn định trong một đoạn thời gian vài chục
ms.

 Phụ âm (consonant) là âm chỉ phát ra một nhát, không kéo dài được. Có phụ
âm hữu thanh và phụ âm vô thanh.
Thanh điệu của tiếng Việt tương ứng với các dấu: không dấu, huyền, hỏi, ngã,
sắc, nặng khi viết. Phân tích máy móc cho thấy thanh điệu là sự thay đổi Fo, tần số cơ
bản pitch, trong quá trình phát âm các nguyên âm và tai người cảm nhận được. Tiếng
Việt có 6 thanh thể hiện sự phong phú và độc đáo, trong khi tiếng Trung quốc có 4
thanh. Tuy nhiên cư dân một số vùng ở Việt Nam có thể không phân biệt dấu ? và dấu
~ nên hay viết sai chính tả.
Giọng bổng (high voiced pitch, hay high pitched) hay giọng trầm (low voiced
pitch) là Fo cao hay thấp. Như vậy Fo đóng vai trò rất quan trọng trong cảm nhận,
trong thụ cảm âm thanh của con người.
Tiếng bổng hay tiếng trầm tương ứng với dải tần số cao hay thấp. Trong thợc
tế người ta dùng loa trầm là loa loa bass hay loa sub woofer, loa tép hay loa bổng
tương ứng với loa thích ứng phát các âm trong vùng tần số cao, treble.
2.2. Hệ Thống Ngữ Âm Tiếng Việt
2.2.1. Đặc điểm của tiếng Việt
Khác với một số ngôn ngữ khác như tiếng Anh, Pháp …, tiếng Việt là ngôn
ngữ đơn âm tiết, tức là các từ khi viết ra chỉ đọc lên thành một tiếng, không có từ nào
(thuần Việt) phát âm từ 2 tiếng trở lên. Một từ có cấu tạo gồm 2 phần là: nguyên âm V
(vowel) và phụ âm C (consonant) và được kết hợp theo 3 cách để tạo nên từ trong
tiếng Việt:
- C+V (phụ âm + nguyên âm). Ví dụ: ba, mẹ, đi
- C+V+C (phụ âm + nguyên âm + phụ âm). Ví dụ: bàn, con, mong
- V+C (nguyên âm + phụ âm). Ví dụ: an, ông, én
Trong tiếng Việt, ngoài 2 thành phần chính là nguyên âm, phụ âm, còn có các
thành phần khác giúp cho Việt phân loại trong âm tiết trở nên rõ ràng như nhị hợp âm,
tam hợp âm, phụ âm đơn, phụ âm kép. Khi học tiếng Việt, ngay từ đọc phải học thuộc
các nguyên âm, phụ âm, nhị hợp âm, tam hợp âm, phụ âm đơn, phụ âm kép, quy tác

Nghiên cứu về nhận dạng giọng nói tiếng việt và ứng dụng trong điều khiển

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về