Tải bản đầy đủ (.pdf) (61 trang)

Đề tài nghiên cứu và xây dựng cách tính toán hình dáng ống thanh quản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.09 MB, 61 trang )



Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 1 Nguyễn Thị Sim




MỤC LỤC

Trang
Trang phụ bìa
Lời cam ñoan……………………………………………………………………… 3
Danh mục các hình vẽ………………………………………………………………4
Danh mục các bảng………………………………………………………………
….
7
Danh mục các từ việt tắt………………………………………………………

8
MỞ ĐẦU………………………………………………………………………

9
Chương 1 – TỔNG QUAN VỀ NGUYÊN ÂM TIẾNG VIỆT…………………

13
1.1. Cấu tạo âm tiết tiếng Việt ……………………………………………
………
13
1.1.1. Âm ñầu ………………………………………………………………… 13


1.1.2. Âm ñệm ………………………………………………………………… 14
1.1.3. Âm chính………………………………………………………………….14
1.1.4. Âm cuối………………………………………………………………… 17
1.1.5. Thanh ñiệu ……………………………………………………………… 18
1.2. Các tham số cơ bản của tiếng nói ñối với nguyên âm tiếng Việt…………….19
Chương 2 – TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI ……………………… 23
2.1. Khái niệm về tiếng nói…………………………………

23
2.2. Cơ chế tạo tiếng nói……………………………………………
……………
23
2.3. Khái niệm về tổng hợp tiếng nói…………………………………………… 26
2.3.1. Tổng hợp mức cao ………………………………………………………….27
2.3.2. Tổng hợp mức thấp ……………………………………………
…………
29
2.4. Các phương pháp tổng hợp tiếng nói…………………………
………………
31
2.4.1. Phương pháp tổng hợp tiếng nói bằng cách mô phỏng bộ máy cấu âm của
con người………………………………………………………………………… 32
2.4.2. Phương pháp tổng hợp tiếng nói theo tần số formant……………
………
32

2.4.3. Phương pháp tổng hợp tiếng nói bằng cách ghép nối…………

……
35

Chương 3- MÔ HÌNH TỔNG HỢP TIẾNG NÓI DRM VÀ MÔ HÌNH CẤU ÂM….39
3.1. Mô hình tổng hợp tiếng nói Distinctive region model (DRM) ……
…………
.
39


Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 2 Nguyễn Thị Sim




3.2. Chương trình tổng hợp tiếng nói SMART ………………………………… 46
Chương 4: TỔNG HỢP CÁC NGUYÊN ÂM TIẾNG VIỆT
……………………
50
4.1. Đặc ñiểm của nguyên âm tiếng Việt………………………………………… 50
4.2 Tổng hợp các nguyên âm tiếng Việt sử dụng chương trình SMART
…………
55
Chương 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN …………………………….60
5.1. Kết Luận 60
5.2. Hướng phát triển 60
TÀI LIỆU THAM KHẢO ……………………………………
…………………
61
























Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 3 Nguyễn Thị Sim














LỜI CAM ĐOAN
Tôi xin cam ñoan luận văn là kết quả nghiên
cứu riêng của tôi, không sao chép của ai. Nội
dung của luận văn có tham khảo và sử dụng tài
liệu, thông tin ñược ñăng tải trên các tạp trí, sách,
báo, bài giảng và trang web theo danh mục tài liệu
của luận văn

Nguyễn Thị Sim













Luận văn thạc sỹ khoa học


Đo lường và các hệ thống ñiều khiển 4 Nguyễn Thị Sim





DANH MỤC CÁC HÌNH VẼ
Trang
Hình 1.1: Biểu diễn tần số F1 – F2 của hai nguyên âm /a/ và /ă/ khi ñược phát âm
ñộc lập…………………………………………………………………… 15
Hình 1.2: Thanh ñiệu trên nguyên âm /a/ và /ă/ khi ñược phát âm ñộc lập…… 16
Hình 1.3: Biểu diễn tốc ñộ thay ñổi của tần số F1 trong ñoạn chuyển tiếp CV

16
Hình 1.4: Đường cong mô tả giá trị tần số F0 của các thanh ñiệu trong tiếng
Việt 18
Hình 2.1: Cấu tạo bộ máy cấu âm của con người………………………………….24
Hình 2.2: Mô phỏng bộ máy cấu âm của người………………………
……………
25
Hình 2.3. Mô hình tổng hợp tiếng nói…………………………………………… 27
Hình 2.4. Sự phụ thuộc của ngôn ñiệu vào các yếu tố……………………
………
29
Hình 2.5: Cấu trúc cơ bản của một bộ tổng hợp tiếng nói theo tần số formant nối
tiếp 33
Hình 2.6. Cấu trúc cơ bản của một bộ tổng hợp tiếng nói theo tần số formant song
song 34
Hình 3.1: (a) Tiết diện của một ống âm học ñóng - mở; (b) Hình dáng của hàm

sensitivity ñối với tần số cộng hưởng thứ nhất F1 (R. Carré, Maria Mody, 1997) 39
Hình 3.2: (a) Hàm diện tích thiết diện của ống âm học ñóng – mở không ñều A
0
(n);
(b) hàm sensitivity S
0
F1(n) tương ứng với tần số formant F1; (c) hàm diện tích thiết
diện ban ñầu A
0
(n) (ñường nét mảnh) và hình dáng mới của ống A
1
(n) (ñường nét
ñậm) có ñược theo thuật toán 41
Hình 3.3: Thay ñổi hình dáng của ống âm học ñều ñóng – mở ñể tăng (a) hoặc
giảm (b) tần số formant F1; (c) sự thay ñổi của tần số formant F1; (d) biểu diễn
sự thay ñổi của F1 trên mặt phẳng F1-F2: ñường nét liền: F1 tăng, ñường nét
ñứt: F1 giảm 43
Hình 3.4: Thay ñổi hình dáng của ống âm học ñều ñóng – mở ñể tăng (a) hoặc
giảm (b) tần số formant F2; (c) sự thay ñổi của tần số formant F2; (d) biểu diễn


Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 5 Nguyễn Thị Sim




sự thay ñổi của F2 trên mặt phẳng F1-F2: ñường nét liền: F2 tăng, ñường nét
ñứt: F2 giảm……………………………………………………………

………
44
Hình 3.5: Các hàm sensibility (∆F) của một ống âm học ñều ñóng – mở của ba tần
số formant ñầu tiên (F1, F2, F3) và mô hình DRM với 8 vùng tương ứng với các vị
trí ñiểm qua không của các hàm sensibility 45
Hình 3.6: (a) Ống thanh quản và mô hình DRM 8 vùng phân biệt: R1 tương ứng với
thanh quản, R3, R4, R5, R6 tương ứng với lưỡi, R7 tương ứng với răng, và R8
tương ứng với môi; (b) Mô hình DRM 8 vùng phân biệt và vị trí cấu âm của nguyên
âm và phụ âm 46
Hình 3.7: Mô hình phương pháp tổng hợp tiếng nói theo phương pháp mô hình hóa
bộ máy cấu âm của con người 47
Hình 3.8: Quan hệ truyền ñạt tín hiệu tại vị trí kết nối giữa hai ñoạn ống trong mô
hình mô phỏng ống thanh quản…………………………………………………….47
Hình 3.9: Điều khiển chương trình SMART bằng mô hình DRM 49
Hình 4.1: Độ dài trung bình của các nguyên âm tiếng Việt trong ngữ cảnh của các
âm tiết có cấu trúc (C1)VC2, trong ñó C1 là phụ âm ñầu /b/, V là một trong các
nguyên âm /a, ă, ɤ, ɤ̆, ɔ, ɔ̆, ɛ, u, i/, C2 là một trong các phụ âm cuối /p, t, k/ 53
Hình 4.2: Độ dài trung bình của các nguyên âm tiếng Việt trong ngữ cảnh của các
âm tiết có cấu trúc (C1)V1V2, trong ñó C1 là phụ âm ñầu /b/, V1 là một trong các
nguyên âm /a, ă, ɤ, ɤ̆, ɔ, ɛ, u, i/,V2 là một trong các bán nguyên âm cuối /w, j/ 54
Hình 4.3: So sánh ñộ dài trung bình của các nguyên âm tiếng Việt trong hai ngữ
cảnh: (C1)VC2 và (C1)VV2, trong ñó C1 là phụ âm ñầu /b/, V là các nguyên âm
tiếng Việt /a, ă, ɤ, ɤ̆, ɔ, ɔ̆, ɛ, u, i/, C2 là một trong các phụ âm cuối /p, t, k/, V2 là
một trong các bán nguyên âm cuối /w, j/ 55
Hình 4.4: Chương trình SMART tổng hợp các nguyên âm tiếng Việt 56
Hình 4.5: Kết quả tổng hợp 02 nguyên âm /ai/ bằng chương trình SMART 56
Hình 4.6: Tín hiệu tổng hợp và tần số formant F1, F2, F3 của hai nguyên âm /ai/
tổng hợp bằng chương trình SMART 57



Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 6 Nguyễn Thị Sim




Hình 4.7: Tín hiệu tổng hợp và tần số formant F1, F2, F3 của hai nguyên âm /au/
tổng hợp bằng chương trình SMART 57
Hình 4.8: Tín hiệu tổng hợp và tần số formant F1, F2, F3 của hai nguyên âm /ui/
tổng hợp bằng chương trình SMART 58
Hình 4.9: Tín hiệu tổng hợp và tần số formant F1, F2, F3 của nguyên âm /a/ và bán
nguyên âm /j/ tổng hợp bằng chương trình SMART 58
Hình 4.10: Tín hiệu tổng hợp và tần số formant F1, F2, F3 của nguyên âm /ă/ và bán
nguyên âm /j/ tổng hợp bằng chương trình SMART 59
























Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 7 Nguyễn Thị Sim





DANH MỤC CÁC BẢNG
Bảng 1.1. Cấu trúc của âm tiết tiếng Việt…………………………………………13
Bảng 1.2. Liệt kê âm vị của 22 phụ âm ñầu trong tiếng Việt………………… 14
Bảng 1.3: Âm ñệm trong tiếng Việt………………………………………… 14
Bảng 1.4: Phân loại các nguyên âm tiếng Việt………………………………… 15
Bảng 1.5: Các âm cuối trong tiếng Việt………………………………………… 17
Bảng 1.6: Vị trí cấu âm và chế ñộ cấu âm của các nguyên âm cuối tiếng Việt
……
17
Bảng 1.7: Các thanh ñiệu trong tiếng Việt……………………………………… 18
Bảng 1.8: Các tần số formant F1, F2, F3 của một số nguyên âm tiếng Việt………22
Bảng 4.1: Độ dài của nguyên âm /a/ và /ă/ trong ngữ cảnh âm tiết (C1)VC2 50
Bảng 4.2: Độ dài của nguyên âm /a/ và /ă/ trong ngữ cảnh âm tiết (C1)V1V2 51
Bảng 4.3: Độ dài của các cặp nguyên âm dài – ngắn /ɤ, ɤ̆/ và /ɔ, ɔ̆/ trong ngữ cảnh

âm tiết (C1)VC2 52
Bảng 4.4: Độ dài trung bình của nguyên âm /ɤ/ và /ɤ̆/ trong ngữ cảnh âm tiết có cấu
trúc (C1)V1V2 52














Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 8 Nguyễn Thị Sim





DANH MỤC CÁC TỪ VIẾT TẮT
Formant: Là tần số cộng hưởng của tuyến âm
CV: Nguyên âm – Phụ âm
TTS: Tổng hợp tiếng nói
FE: Phần ñầu

BE: Phần cuối
NLP: Khối xử lý ngôn ngữ tự nhiên
DSP: Khối xử lý tổng hợp tiếng nói
CSDL: Cơ sở dữ liệu





















Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 9 Nguyễn Thị Sim






MỞ ĐẦU
Kể từ khi xuất hiện, máy tính càng ngày càng chứng tỏ rằng ñó là một công
cụ vô cùng hữu ích trợ giúp con người xử lý thông tin. Cùng với sự phát triển của
xã hội, khối lượng thông tin mà máy tính cần xử lý tăng rất nhanh trong khi thời
gian dành cho những công việc này lại giảm ñi. Vì vậy, việc tăng tốc ñộ xử lý thông
tin, trong ñó có tốc ñộ trao ñổi thông tin giữa con người và máy tính, trở thành một
yêu cầu cấp thiết. Hiện tại, giao tiếp người - máy ñược thực hiện bằng các thiết bị
như bàn phím, chuột, màn hình, với tốc ñộ tương ñối chậm nên cần có các phương
pháp trao ñổi thông tin mới giúp con người làm việc hiệu quả hơn với máy tính.
Một trong những hướng nghiên cứu này là sử dụng tiếng nói trong trao ñổi
thông tin người - máy. Những nghiên cứu này liên quan trực tiếp tới các kết quả của
chuyên ngành xử lý tiếng nói, trong ñó có tổng hợp tiếng nói.
Tổng hợp tiếng nói là lĩnh vực ñang ñược nghiên cứu khá rộng rãi trên thế
giới và ñã cho những kết quả khá tốt. Có ba phương pháp cơ bản dùng ñể tổng hợp
tiếng nói ñó là phương pháp tổng hợp tiếng nói bằng cách mô phỏng bộ máy phát
âm, phương pháp tổng hợp tiếng nói theo tần số formant và phương pháp tổng hợp
tiếng nói bằng cách ghép nối. Phương pháp tổng hợp tiếng nói bằng cách mô phỏng
bộ máy phát âm cho chất lượng tiếng nói tốt nhưng ñòi hỏi nhiều tính toán vì việc
mô phỏng chính xác bộ máy phát âm rất phức tạp. Phương pháp tổng hợp tiếng nói
theo tần số formant không ñòi hỏi chi phí cao trong tính toán nhưng cho chất lượng
tiếng nói chưa tự nhiên. Phương pháp tổng hợp tiếng nói bằng ghép nối cho chất
lượng tiếng nói tốt, chí phí tính toán không cao nhưng số lượng từ vựng phải rất
lớn.
Ở các nước phát triển, những nghiên cứu xử lý tiếng nói ñã cho các kết quả
khả quan, làm tiền ñề cho việc giao tiếp người-máy bằng tiếng nói. Ở Việt Nam, các
nghiên cứu trong lĩnh vực này tuy mới ñược phát triển trong những năm gần ñây
nhưng cũng ñã có một số kết quả khả quan.



Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 10 Nguyễn Thị Sim




Tổng hợp tiếng nói bằng phương pháp mô phỏng bộ máy cấu âm cho tiếng
nói có chất lượng tiếng nói tốt ñặc biệt là ñối với nguyên âm.

Tuy nhiên vẫn còn
tồn tại một vấn ñề quan trọng là: mặc dù mô hình hình thành nên những âm thanh
có sức thuyết phục nhưng rất khó ñể có thể ñiều khiển nó, ñặc biệt là ñể duy trì
tiếng nói liên tục khi có nhiều hiện tượng cùng cấu âm. Để giảm bớt sự khó khăn
này, chúng tôi ñề xuất một phương pháp mới là ghép mô hình tương tự vào mô hình
ñiều khiển âm thanh DRM.
Với mục ñích góp phần vào sự phát triển của tổng hợp tiếng Việt, ñề tài này
nghiên cứu về phương pháp tổng hợp nguyên âm tiếng Việt bằng mô hình cấu âm
và mô hình DRM.
Cơ sở khoa học và thực tiễn của ñề tài:

Có nhiều phương pháp tổng hợp tiếng nói, trong ñó phương pháp mô hình
hóa bộ máy cấu âm của con người cho chất lượng tiếng nói tốt, cho phép nghiên
cứu quá trình cấu âm của con người.
Đề tài nghiên cứu và xây dựng cách tính toán hình dáng ống thanh quản
(vocal tract) của con người dựa trên các giá trị tần số formant F1, F2, F3 ño ñược từ
tiếng nói ñể ñiều khiển hệ thống tổng hợp tiếng nói theo phương pháp mô hình hóa
bộ máy cấu âm và mô hình DRM

Lịch sử nghiên cứu:
Có nhiều nghiên cứu, ứng dụng tiếng nói vào trong lĩnh vực truyền thông.
Nhu cầu ñiều khiển máy móc, thiết bị bằng tiếng nói ngày càng bức thiết hơn ñặc
biệt ñối với các thiết bị cầm tay như: ñiện thoại di ñộng, PC,….Tuy nhiên, ở Việt
Nam, việc nghiên cứu tổng hợp nguyên âm tiếng Việt bằng mô hình cấu âm và mô
hình RDM còn ít nhất là trong các trung tâm ñào tạo và các trường ñại học.
Mục ñích của ñề tài (Các kết quả cần ñạt ñược)

Nghiên cứu phương pháp tính toán hình dáng ống thanh quản (vocal tract)
của con người dựa trên các giá trị tần số formant F1, F2, F3 của các nguyên âm
tiếng Việt.
Kết quả thử nghiệm một số nguyên âm bằng chương trình SMART


Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 11 Nguyễn Thị Sim




Nội dung của ñề tài, các vấn ñề cần giải quyết:
Chương 1: Tổng quan về nguyên âm tiếng Việt.
Nghiên cứu về cấu tạo âm tiết tiếng Việt và các tham số cơ bản của tiếng nói
ñối với nguyên âm tiếng Việt.
Chương 2: Tổng quan về tổng hợp tiếng nói
Nghiên cứu về khái niệm, nguồn gốc, cơ chế tạo tiếng nói và các phương
pháp tổng hợp tiếng nói
Chương 3: Mô hình tổng hợp tiếng nói DRM và mô hình cấu âm
Nghiên cứu mô hình tổng hợp tiếng nói DRM và chương trình tổng hợp tiếng

nói SMART
Chương 4: Tổng hợp các nguyên âm tiếng Việt
Nghiên cứu về ñặc ñiểm của nguyên âm tiếng Việt và việc tổng hợp các
nguyên âm tiếng Việt sử dụng chương trình SMART
Phương pháp nghiên cứu:
Chủ yếu dựa vào ñọc, nghiên cứu tài liệu, phân tích mục ñích của ñề tài kết
hợp với việc tổng hợp nguyên âm tiếng việt sử dụng chương trình SMART
Kết quả ñạt ñược:
Nghiên cứu, hiểu ñược cấu tạo âm tiếng việt
Nghiên cứu, hiểu ñược cơ chế tạo tiếng nói và các phương pháp tổng hợp
tiếng nói
Nghiên cứu mô hình tổng hợp tiếng nói DRM và chương trình tổng hợp tiếng
nói SMART
Tổng hợp ñược các nguyên âm tiếng Việt sử dụng chương trình SMART
Trong thời gian làm ñề tài tốt nghiệp, em ñã nhận ñược rất nhiều sự giúp ñỡ,
chỉ bảo tận tình của các thầy, các cô ở trung tâm ñào tạo sau ñại học và bộ môn Kỹ
thuật ño và tin học công nghiêp trường Đại Học Bách Khoa Hà Nội. Em xin chân
thành cảm ơn!
Đặc biệt, em gửi lời cảm ơn sâu sắc tới TS. Nguyễn Việt Sơn ñã trực tiếp
hướng dẫn em hoàn thành ñề tài của mình.


Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 12 Nguyễn Thị Sim




Em rất mong nhận ñược sự chỉ bảo, góp ý của các thầy, cô và các bạn ñồng

nghiệp cho luận văn của em. Em xin chân thành cảm ơn!
Hà Nội, ngày 30 tháng 3 năm 2011
Học viên

Nguyễn Thị Sim






Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 13 Nguyễn Thị Sim




Chương 1: TỔNG QUAN VỀ TIẾNG VIỆT
1. 1. Cấu tạo âm tiết tiếng Việt

Mỗi âm tiết tiếng Việt là một khối hoàn chỉnh trong phát âm. Trong thực tế
không ai phát âm tách nhỏ cái khối ñó ra ñược. Trong ngữ cảnh của người Việt, âm
tiết tuy ñược phát âm liền một hơi, nhưng không phải là một khối bất biến mà có
cấu tạo lắp ghép. Âm tiết tiếng Việt có 3 bộ phận ñó là: Thanh ñiệu, phần ñầu và
phần cuối. Phần ñầu của âm tiết ñược xác ñịnh là âm ñầu vì ở vị trí này chỉ có một
âm vị tham gia cấu tạo. Phần sau của âm tiết ñược gọi là phần vần gồm: âm ñệm,
âm chính và âm cuối.
Bảng 1.1
:

Cấu trúc của âm tiết tiếng việt
Thanh ñiệu
Phần vần
Phần ñầu
Âm ñệm Âm chính Âm cuối

1.1.1. Âm ñầu
Tại vị trí thứ nhất trong âm tiết, âm ñầu có chức năng mở ñầu âm tiết. Những
âm tiết mà chính tả không ghi âm ñầu như an, ấm, êm… ñược mở ñầu bằng ñộng
tác khép kín khe thanh, sau ñó mở ra ñột ngột, gây nên một tiếng bật. Động tác mở
ñầu ấy có giá trị như một phụ âm và người ta gọi là âm tắc thanh hầu. Như vậy, âm
tiết trong tiếng Việt luôn luôn có mặt âm ñầu (phụ âm ñầu). Với những âm tiết
mang âm tắc thanh hầu như vừa nêu trên thì trên chữ viết không ñược ghi lại, và
như vậy vị trí xuất hiện của nó trong âm tiết là zero, trên chữ viết nó thể hiện bằng
sự vắng mặt của chữ viết.
Trong tiếng Việt, âm ñầu trong các âm tiết bao giờ cũng là phụ âm. Theo
thống kê, tiếng Việt có 22 phụ âm ñầu [5], [6]. Căn cứ vào phương thức cấu âm
người ta có thể chia các phụ âm ñầu thành các nhóm ñối lập như: Phụ âm tắc – phụ
âm xát ; phụ âm vang – phụ âm ồn ; phụ âm vô thanh – hữu thanh.




Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 14 Nguyễn Thị Sim





Bảng 1.2: Liệt kê âm vị của 22 phụ âm ñầu trong tiếng Việt
Âm vị Chữ cái Âm vị Chữ cái Âm vị Chữ cái
/b/ b /v/ v /f/ ph
/d/ ñ /t/ t /t’/ th
/s/ x /z/ d, gi /m/ m
/n/ n /l/ l
/ʈ/
tr
/ȿ/
s
/ʐ/
r /c/ ch
/ɲ/
nh
/ŋ/
ng, ngh /k/ c, k, q
/x/ kh
/ɣ/
g, gh /h/ h
/p/ p

1.1.2. Âm ñệm
Là âm xuất hiện giữa phụ âm ñầu và âm chính (nguyên âm). Nó ñóng vai trò
của một âm lưỡi, một bán nguyên âm. Âm ñệm có chức năng tu chỉnh âm sắc của
âm tiết chứ không phải tạo nên âm sắc chủ yếu của âm tiết, cho nên âm ñệm là âm
không có tính âm tiết. Cũng có người cho rằng, âm ñệm là hiện tượng tròn môi của
phụ âm ñầu trong khi phát âm. Trong tiếng Việt có hai chữ cái có thể làm âm ñệm
ñó là chữ ‘o’ và chữ ‘u’ [5], [6]. Ví dụ: Trong từ TOÁN thì âm vị ‘O’ ñóng vai trò
âm ñệm, trong từ TUẦN âm ñệm là U.
Bảng1.3: Âm ñệm trong tiếng Việt

Âm vị Ký tự
/w/ u, o
1.1.3. Âm chính
Âm chính ñứng ở vị trí thứ ba trong âm tiết, là hạt nhân, là ñỉnh của âm tiết,
nó mang âm sắc chủ yếu của âm tiết. Âm chính trong tiếng Việt do nguyên âm ñảm
nhiệm. Nguyên âm của tiếng Việt chỉ có chức năng làm âm chính và nó không bao
giờ vắng mặt trong âm tiết. Vì mang âm sắc chủ yếu của âm tiết nên âm chính là âm
mang thanh ñiệu.
Âm chính trong âm tiết tiếng Việt có thể là một nguyên âm hoặc một nguyên
âm ñôi. Theo tác giả Đoàn Thiện Thuật, Nguyễn Hữu Quỷnh, và theo những nghiên
cứu mới nhất của Nguyễn Việt Sơn, tiếng Việt có 12 nguyên âm (/a/, /ɛ/, /e/, /i/, /ɔ/,


Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 15 Nguyễn Thị Sim




/o/, /ɤ/, /u/, /ɯ/, /ă/, /ɤ̆/, /ɔ̆/) và 4 nguyên âm ñôi (/ie/, /ou/, /ɯɤ/, /ɛ̆/). Trong âm tiết
tiếng Việt, các bán nguyên âm ñóng vai trò giống như nguyên âm.
Tùy theo vị trí cấu âm, vị trí của lưỡi, của môi, ñộ mở của miệng mà người ta
chia các nguyên âm tiếng Việt ra thành những loại sau:
Bảng 1.4: Phân loại nguyên âm tiếng Việt
Vị trí lưỡi Trước Sau

Vị trí môi dài dài tròn
Đóng
/i/

/ɯ/
/u/
Nửa ñóng
/e/
/ɤ/, /ɤ̆/
/o/
Nửa mở
/ɛ/

/ɔ/, /ɔ̆/
Độ mở của
miệng
Mở
/a/, /ă/

Theo ñộ dài của nguyên âm, các nguyên âm tiếng Việt ñược chia làm 2 nhóm:
- Nguyên âm dài: /a, e, ɛ, i, ɔ, o, ɤ, u, ɯ/
- Nguyên âm ngắn /ă, ɤ̆, ɛ̆, ɔ̆/.
Theo kết quả nghiên cứu của tác giả Đoàn Thiện Thuật, Nguyễn Hữu Quỷnh,
Nguyễn Việt Sơn, các nguyên âm ngắn /ă, ɤ̆, ɛ̆, ɔ̆/ và nguyên âm dài /a, ɤ, ɛ, ɔ/ luôn
có cùng các giá trị tham số âm học (F1, F2, F3) nhưng các nguyên âm ngắn luôn
ñược phát âm với ñộ dài ngắn hơn so với nguyên âm dài. Đối với nguyên âm ngắn,
chúng không bao giờ tồn tại và ñược phát âm ñộc lập, mà chúng luôn ñược phát âm
kèm với một trong 6 phụ âm cuối hoặc một trong hai bán nguyên âm cuối.

Hình 1.1: Biểu diễn tần số F1 – F2 của hai nguyên âm /a/ và /ă/ khi ñược phát âm

ñộc lập
.



Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 16 Nguyễn Thị Sim





Hình 1.2: Thanh ñiệu trên nguyên âm /a/ và /ă/ khi ñược phát âm ñộc lập
Khi xét ở trạng thái ñộng, nghĩa là khi xét trong ngữ cảnh phụ âm – nguyên
âm (CV), các nguyên âm ngắn ñược phát âm với tốc ñộ dịch nhanh hơn so với
nguyên âm dài. Hình 1.3 dưới ñây ñưa ra kết quả phân tích tốc ñộ thay ñổi trong
phần chuyển tiếp CV của nguyên âm /ă/ và /
ɤ̆
/ (122Hz/ms và 81 Hz/ms) lớn so với
nguyên âm /a/ và /
ɤ
/ (97Hz/ms và 51Hz/ms).


Hình 1.3: Biểu diễn tốc ñộ thay ñổi của tần số F1 trong ñoạn chuyển tiếp CV




Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 17 Nguyễn Thị Sim





1.1.4. Âm cuối
Là những âm ñứng cuối vần, cuối âm tiết. Trong tiếng Việt có 6 phụ âm cuối
(/p, t, m, n, k, ŋ
/
) và 2 bán nguyên âm cuối (/j, w/). Các phụ âm cuối nói chung ñều
ñứng sau các nguyên âm, trong khi ñó các bán nguyên âm cuối chỉ ñứng ở vị trí sau
các nguyên âm chính có âm sắc ñối lập.
Bảng 1.5: Các âm cuối trong tiếng Việt
Âm cuối Ký tự
/p/ p
/t/ t
/k/ ch, c
/m/ m
/n/ n
Phụ âm cuối
/ŋ/
nh, ng
/w/ o, u
Bán nguyên âm
cuối
/j/ i, y

Theo vị trí cấu âm và chế ñộ cấu âm, người ta chia 6 nguyên âm cuối ra các
nhóm khác nhau như trong bảng dưới ñây:
Bảng 1.6: Vị trí cấu âm và chế ñộ cấu âm của các nguyên âm cuối tiếng Việt
Vị trí cấu âm


Chế ñộ cấu âm
môi răng Ngạc
Âm bật hơi
/p/ /t/ /k/
Âm tắc
Âm mũi
/m/ /m/
/ŋ/

Trái với các phụ âm ñầu, 6 phụ âm cuối của tiếng Việt là các âm tắc, và
không có nhiễu (bruit). Đặc biệt 3 phụ âm cuối /p, t, k/ thường có xu hướng kết thúc
âm tiết với một khoảng lặng. Các phụ âm này thường làm ảnh hưởng ñến sự thay
ñổi của các tần số formant của các nguyên âm chính ñứng phía trước nó. Sự thay
ñổi cũng như hướng thay ñổi của các tần số formant F1, F2, F3 là dấu hiệu duy nhất
cho phép phân biệt các phụ âm cuối này.




Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 18 Nguyễn Thị Sim




1.1.5. Thanh ñiệu
Tiếng Việt có 6 thanh ñiệu (ngang, sắc, huyền, hỏi ngã, nặng), chúng ñều
tham gia vào việc cấu tạo từ, làm chức năng phân biệt ý nghĩa của từ và làm dấu
hiệu phân biệt từ. Thanh ñiệu ñược thể hiện ñồng thời với các ñặc trưng của âm vị.

Thanh ñiệu là một yếu tố thể hiện ñộ cao và sự chuyển biến của ñộ cao trong
mỗi âm tiết. Mỗi âm tiết tiếng Việt nhất thiết phải ñược thể hiện với một thanh ñiệu.
Thanh ñiệu có chức năng phân biệt vỏ âm thanh, phân biệt nghĩa của từ.
Bảng 1.7: Các thanh ñiệu trong tiếng Việt
Thanh ñiệu Mô tả Ký hiệu
Thanh1 Thanh bằng (không dấu)

Thanh 2 Thanh huyền
\
Thanh 3 Thanh ngã
~
Thanh 4 Thanh hỏi
?
Thanh 5 Thanh sắc
/
Thanh 6 Thanh nặng
.


Hình 1.4: Đường cong mô tả giá trị tần số F0 của các thanh ñiệu trong tiếng Việt
Khi nghiên cứu về thanh ñiệu trong tiếng Việt, nhiều tác giả ñã kết luận, ba
tham số cơ bản của thanh ñiệu ñó là: âm ñiệu (tần số F0), năng lượng và ñộ dài,
trong ñó giá trị tần số cơ bản F0 ñóng vai trò quan trọng nhất.


Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 19 Nguyễn Thị Sim





Riêng ñối với thanh ñiệu số 5 và số 6, tùy theo giá trị ñiểm cuối cùng trong
ñường cong F0, người ta chia chúng thành hai nhóm: thanh 5a, 6a tương ứng với âm
tiết mở, và thanh 5b, 6b tương ứng với âm tiết ñóng. Như vậy, chúng ta có hai nhóm
các thanh ñiệu:
- Nhóm thanh ñiệu cao: thanh 1, 3, 5a, 5b.
- Nhóm thanh ñiệu thấp: 2, 4, 6a, 6b.
Theo ñộ dài của thanh ñiệu, các thanh ñiệu có thể chia làm 2 nhóm:
- Thanh ñiệu ngắn: 1, 2, 3, 4, 5a.
- Thanh ñiệu dài: 5b, 6a, 6b.
Theo các nghiên cứu của Trần Đỗ Đạt, thành phần phụ âm ñầu trong một âm
tiết thường không mang thông tin của thanh ñiệu. Các thông tin của thanh ñiệu chỉ
xuất hiện trên phần cuối của âm tiết.
1.2. Các tham số cơ bản của tiếng nói ñối với nguyên âm tiếng Việt:
Các formant ñược ñịnh nghĩa là các tần số cộng hưởng của tuyến phát âm, do
vậy chúng liên quan trực tiếp tới hình dạng, kích thước của cơ quan cấu âm và vì
thế, chúng sẽ cung cấp nhiều thông tin ñặc trưng
Tuyến âm ñược coi như một hốc cộng hưởng có tác dụng tăng cường một số
tần số nào ñó. Những tần số ñược tăng cường ñược gọi là các Formant
Với phổ của tín hiệu tiếng nói, mỗi ñỉnh có biên ñộ lớn nhất xét trong một
khoảng nào ñó (cực ñại khu vực) tương ứng với một formant. Ngoài tần số, formant
còn ñược xác ñịnh bởi biên ñộ và dải thông. Về mặt vật lý các formant tương ứng
với các tần số cộng hưởng của tuyến âm. Trong xử lý tiếng nói và nhất là trong tổng
hợp tiếng nói, ñể mô phỏng lại tuyến âm người ta phải xác ñịnh ñược các tham số
formant ñối với từng loại âm vị, do ñó việc ñánh giá, ước lượng các formant có ý
nghĩa rất quan trọng.
Tần số formant: là dải tần số ñược tăng cường do hiện tượng cộng hưởng
trong ống dẫn thanh, ñặc trưng cho âm sắc của mỗi nguyên âm. Trong mỗi dải tần
như thế có một tần số ñược tăng cường hơn cả gọi là ñỉnh formant. Một nguyên âm

do một người phát ra có nhiều formant. F1: ứng với cộng hưởng vùng yết hầu. F2:


Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 20 Nguyễn Thị Sim




ứng với cộng hưởng khoang miệng. Khi ta nói sẽ có sự xuất hiện của formant F3,
các formant khác F4, F5,…liên quan ñến các ñặc trưng giọng nói riêng của mỗi cá
nhân. Mỗi lần môi, lưỡi, hàm ở những vị trí khác nhau là một lần hộp cộng hưởng
miệng và yết hầu thay ñổi hình dáng, thể tích, lối thoát của không khí làm biến ñổi
âm sắc của âm thanh ñi qua chúng. Chính vì vậy, hai khoang miệng và yết hầu là
hai hộp cộng hưởng quan trọng nhất, chúng tạo nên hai formant chính formant F1
và F2 ñặc trưng của mỗi nguyên âm.
Mỗi formant chính là một ñỉnh của âm hữu thanh (cái này trong tuner xác
ñịnh nốt nhạc). Ta có thể tính ñến Formant thứ 5 nhưng quan trọng nhất là F1 và
F2. Cùng một người phát ra cùng một âm thì các Formant vẫn có thể khác nhau. Do
ñó nếu chỉ căn cứ vào Formant ñể ñặc trưng cho âm hữu thanh thì chưa chính xác,
ta phải dựa thêm vào sự phân bố tương ñối giữa các Formant. Để xác ñịnh các
Formant, ta không nên dựa trực tiếp vào phổ tiếng nói vì sẽ thiếu chính xác mà nên
dựa vào ñường bao phổ. Đó chính là ñáp ứng tần số của tuyến âm. Đối với âm vô
thanh thì vị trí nguồn âm nằm ñâu ñó trong tuyến âm, phụ thuộc vào âm nào ñược
phát ra. Phổ của âm vô thanh bằng phẳng trong phạm vi rộng từ 0Hz ñến 8Khz.
Tần số formant biến ñổi trong một khoảng rộng phụ thuộc vào giới tính của
người nói và phụ thuộc vào các dạng âm vị tương ứng với formant ñó. Đồng thời,
formant còn phụ thuộc các âm vị trước và sau ñó. Về cấu trúc tự nhiên, tần số
formant có liên hệ chặt chẽ với hình dạng và kích thước tuyến âm.

Thông thường phổ của tín hiệu tiếng nói có khoảng 5 formant nhưng chỉ có 3
formant ñầu tiên ảnh hưởng quan trọng ñến các ñặc tính của các âm vị, các formant
còn lại cũng có ảnh hưởng xong rất ít.
Tần số formant ñặc trưng cho các nguyên âm biến ñổi tuỳ thuộc vào người
nói trong ñiều kiện phát âm nhất ñịnh. Mặc dù phạm vi của các tần số formant
tương ứng với mỗi nguyên âm có thể trùm lên nhau nhưng vị trí giữa các formant là
không ñổi vì sự xê dịch của các formant là song song.


Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 21 Nguyễn Thị Sim




Các thống số quan trọng nhất cần xác ñịnh ñể phân biệt và tổng hợp các
nguyên âm là các tần số formant và ñộ rộng băng thông của nó, ngoài ra nó còn
phụ thuộc vào cường ñộ
Tần số cơ bản F
0
ñược ñịnh nghĩa là tần số dao ñộng của ñôi dây thanh quản
khi nó thể hiện cao ñộ của giọng nói. Tần số F
0
phụ thuộc vào cấu tạo sinh lý của
ñôi dây thanh quản ở mọi người. Ngoài ra nó còn phụ thuộc vào thanh ñiệu của âm
tiết phát ra.
Tấn số cơ bản trung bình theo thời gian có thể là ñại lượng có tính ổn ñịnh
ñối với mỗi người.
Tân số cơ bản trung bình không phải là ñại lượng hoàn toàn bất biến ñối với

mọi thời gian tính. Tần số cơ bản trung bình dài thì phạm vi thay ñổi F
0
trung bình
có xu hướng giảm.
Các formant ñược ñịnh nghĩa là các tần số cộng hưởng của tuyến phát âm, do
vậy chúng liên quan trực tiếp tới hình dạng, kích thước của cơ quan phát âm.
Tần số formant biến ñổi trong một khoảng rộng phụ thuộc vào giới tính của
người nói và phụ thuộc vào các dạng âm vị tương ứng với formant ñó.
Đồng thời formant còn phụ thuộc các âm vị trước và sau ñó. Về cấu trúc tự
nhiên, tần số formant có liên hệ chặt chẽ với hình dạng và kích thước tuyến âm.
Thông thường phổ của tín hiệu tiếng nói có khoảng 5 formant nhưng chỉ có 3
formant ñầu tiên ảnh hưởng quan trọng ñến các ñặc tính của các âm vị, các formant
còn lại cũng có ảnh hưởng xong rất ít. Tần số formant ñặc trưng cho các nguyên âm
biến ñổi tuỳ thuộc vào người nói trong ñiều kiện phát âm nhất ñịnh. Mặc dù phạm
vi của các tần số formant tương ứng với mỗi nguyên âm có thể trùm lên nhau nhưng
vị trí giữa các formant là không ñổi vì sự xê dịch của các formant là song song.
Tần số Formant không phải là ổn ñịnh hoàn toàn ñối với mọi người mà dao
ñộng trong một phạm vi nhất ñịnh mà tuỳ thuộc mỗi người mà các tần số formant
có phạm vi thay ñổi khác nhau. các formant có tần số cao thì phạm vi biến ñổi càng
lớn.


Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 22 Nguyễn Thị Sim




Với formant thứ nhất F

0
nằm trong khoảng từ 300 – 800 Hz phạm vi biến ñổi
tương ñương không vượt quá 11,8%.
Với formant thứ hai F
1
nằm trong khoảng từ 800 – 2400 Hz phạm vi biến ñổi
tương ñương không vượt quá 9,5%.
Với formant thứ ba F
2
nằm trong khoảng từ 2200- 3300 Hz phạm vi biến ñổi
tương ñương không vượt quá 6,9%
Bảng 1.8: Các tần số formant F1, F2, F3 của một số nguyên âm tiếng Việt
Nguyên âm F
1
(Hz) F
2
(Hz) F
3
(Hz)
/a/ 840 1580 2440
/ε/ 660 1840 2500
/e/ 480 2100 2650
/ɔ/
660 1050 2950
/u/ 350 770 2550
/ɯ/
350 1380 2650
/i/ 310 2320 2950
/o/ 480 890 2450
/ɤ/

510 1280 2550




Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 23 Nguyễn Thị Sim




Chương 2: TÔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI

2.1. Khái niệm tiếng nói
Tiếng nói (voice, speech) là phương tiện chủ yếu mà con người sử dụng ñể
trao ñổi thông tin, liên lạc với nhau (communication media). Có thể nói, tiếng nói là
phương tiện trao ñổi thông tin phổ biến nhất của con người, bên cạnh phương tiện
hình ảnh.
Tiếng nói ñược tạo ra từ tư duy của con người: trung khu thần kinh ñiều
khiển hệ thống phát âm làm việc tạo ra âm thanh. Tiếng nói ñược phân biệt với các
âm thanh khác bởi các ñặc tính âm học có nguồn gốc từ cơ chế tạo tiếng nói. Thực
tế người ta coi những âm thanh ñược phát ra từ bộ máy phát âm của con người (dây
thanh quan, ống thanh quản …) là tiếng nói.
Về mặt vật lý, tiếng nói là sự rung ñộng của dây thanh quản, và sự lan truyền
của tiếng nói trong môi trường truyền âm là truyền các sóng dao ñộng ñó. Tiếng nói
là âm thanh phát ra từ miệng người, ñược truyền ñi trong không khí ñến tai người
nghe . Dải tần số của tiếng nói mà tai người nghe ñược là 20Hz – 20000Hz.
2.2. Cơ chế tạo ra tiếng nói:
Tiếng nói ñược tạo ra từ bộ máy cấu âm của con người. Một cách tổng quát,

bộ máy cấu âm của người bao gồm các thành phần riêng rẽ như phổi, khí quản,
thanh quản, và các khoang miệng, mũi (xem hình 2.1 dưới ñây). Trong ñó:
- Thanh quản chứa hai dây thanh có thể dao ñộng tạo ra sự cộng hưởng cần
thiết ñể tạo ra âm thanh.
- Tuyến âm bao gồm hai khoang là khoang miệng và khoang mũi, trong ñó:
+ Khoang miệng là tuyến âm không ñều bắt ñầu từ dây thanh, kết thúc tại
môi. Khoang miệng là bộ phận nổi bật rất dễ nhận thấy trong vùng thanh âm, kích
thước và hình dáng của nó thay ñổi theo sự chuyển ñộng của lưỡi, môi, răng và vòm
miệng. Thông thường ñối với người trưởng thành, ñộ dài khoang miệng là 17 –
18cm.


Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 24 Nguyễn Thị Sim




+ Khoang mũi là tuyến âm không ñều bắt ñầu từ lưỡi gà kết thúc bởi ống
mũi. Đối với người trưởng thành, khoang mũi có ñộ dài cố ñịnh khoảng 12cm.

Hình 2.1: Cấu tạo bộ máy cấu âm của con người
Khi nói, toàn bộ bộ máy cấu âm của người hoạt ñộng, tạo ra các xung dao
ñộng của luồng không khí. Để hiểu rõ cách thức tạo ra tiếng nói của bộ máy phát
âm của người, chúng ta xét cấu trúc mô phỏng của nó trong hình 2.2. dưới ñây.
- Phổi ñóng vai trò là cái bơm không khí, tạo năng lương hình thành nguyên
âm. Đây là nguồn cung cấp năng lượng chính cho sự phát âm. Khi thể tích không
khí trong phổi bị nén, áp suất không khí tăng mạnh tạo ra một luồng không khí ñi
ra, qua thanh quản và vùng thanh âm.

- Thanh quản chứa hai nếp gấp gọi là dây thanh âm (vocal cords). Sự rung
ñộng, co căng của bộ phận này sẽ tạo ra các xung dao ñộng có tần số cơ bản (F0)
khác nhau. Nói một cách khác dây thanh có chức năng biến luồng không khí từ phổi
ñi lên thành sóng âm. Ở mỗi người, dây thanh có ñộ dày, mỏng, dài, ngắn khác
nhau. Tùy vào kích thước và ñộ căng của dây thanh mà các tín hiệu âm thanh ñược
tạo ra là cao hay thấp, trầm hay bổng Dây thanh của trẻ con thường mảnh và căng
hơn của người lớn nên giọng trẻ con thường cao hơn. Đối với nam giới, tần số dao


Luận văn thạc sỹ khoa học

Đo lường và các hệ thống ñiều khiển 25 Nguyễn Thị Sim




ñộng của dây thanh (tần số F0) thường có giá trị thay ñổi từ 100Hz ñến 200Hz, ñối
với giọng nữ, giá trị ñó là 300Hz ñến 400 Hz, của trẻ em là từ 500Hz ñến 600Hz.


Hình 2.2: Mô phỏng bộ máy cấu âm của người
- Tuyến âm như ñã nói ở trên gồm 2 khoang cơ bản là khoang miệng và khoang
mũi, trong ñó khoang mũi có hình dáng, kích thước không thay ñổi ñối với mỗi người,
ngược lại khoang miệng luôn thay ñổi hình dáng và kích thước trong suốt quá trình nói
do có sự chuyển ñộng của các bộ phận như lưỡi, răng, môi Tuyến âm ñóng vai trò
như một hộp cộng hưởng ñể cộng hưởng tần số dao ñộng cơ bản F0 tạo ra tiếng nói.
Trong quá trình tạo ra tiếng nói, tùy theo từng trường hợp (tiếng mũi, âm mũi
hay không) mà khoang mũi có thể tham gia hoặc không tham gia. Chính nhờ có sự
tham gia của khoang miệng và khoang mũi (hốc cộng hưởng), mà tần số F0 ñược
cộng hưởng ñể sinh ra các tần số cộng hưởng khác nhau (các giá trị tần số formant

F1, F2, F3 …). Tùy theo hình dáng của hộp cộng hưởng (sự thay ñổi vị trí của môi,
răng, lưỡi, sự tham gia hay không tham gia của khoang mũi), mà các giá trị của tần

×