trường hợp sử dụng mô hình GMM để nhận dạng phương ngữ tiếng
Việt, các tham số formant và dải thông tương ứng kết hợp với biến thể
của F0 đã làm tăng độ chính xác nhận dạng lên 1,4% so với khi chỉ có
đặc trưng MFCC và F0. Bên cạnh đó, để nâng cao hiệu năng nhận dạng
phương ngữ tiếng Việt, luận án khuyến nghị sử dụng biến thể của F0 là
chuẩn hóa F0 theo trung bình F0 trong trường hợp kết hợp với MFCC.
Còn trong trường hợp sử dụng formant và dải thông tương ứng, cần sử
dụng F0 chuẩn hóa theo trung bình và độ lệch chuẩn của F0. Cùng với
mô hình GMM, luận án đã nghiên cứu nhận dạng phương ngữ với một
số bộ phân lớp khác nhau như SVM (SMO), MultilayerPerceptrol, IBk,
JRip, PART. Từ nghiên cứu này, luận án đã chỉ ra bộ phân lớp
MultilayerPerceptrol cho kết quả nhận dạng tốt nhất phương ngữ tiếng
Việt với tập 384 tham số đặc trưng của tín hiệu tiếng nói. (4) Luận án đã
nghiên cứu mô hình HMM nhận dạng tự động tiếng Việt nói trên ngữ
liệu có phương ngữ và kết quả cho thấy vai trò tích cực của việc xác
định được phương ngữ trước khi nhận dạng nội dung tiếng nói. Nghiên
cứu này đã được tiến hành theo hai trường hợp. Trường hợp thứ nhất:
nhận dạng nội dung tiếng Việt nói trên ngữ liệu có phương ngữ nhưng
không dùng thông tin phương ngữ. Trường hợp thứ hai: nhận dạng nội
dung tiếng Việt nói trên ngữ liệu có phương ngữ nhưng dùng thông tin
phương ngữ. Kết quả nghiên cứu cho thấy, trong trường hợp nhận dạng
có thông tin phương ngữ, tỷ lệ lỗi từ tương đối đã giảm 27,9%, tương
đương với độ chính xác nhận dạng đã tăng lên một cách đáng kể. Đây là
lần đầu tiên mô hình HMM được sử dụng nhận dạng tự động tiếng Việt
nói trên ngữ liệu có phương ngữ. (5) Tổng hợp các kết quả đã nghiên
cứu, luận án đề xuất mô hình mới và mạnh để nhận dạng tiếng Việt nói
là một ngôn ngữ có phương ngữ rất đa dạng trong đó cần tiến hành nhận
dạng phương ngữ trước khi nhận dạng nội dung nhằm thực sự nâng cao
hiệu năng cho hệ thống nhận dạng tiếng Việt nói.
Định hướng phát triển:
Từ các kết quả nghiên cứu đã được thực hiện, luận án đề xuất các
kiến nghị sau nhằm mở rộng hướng nghiên cứu hiện có: (1) Bổ sung
các phương ngữ khác của tiếng Việt vào bộ ngữ liệu VDSPEC. (2)
Nghiên cứu đặc trưng theo phương thức phát âm của các phương ngữ
tiếng Việt đã được bổ sung. (3) Xây dựng mô hình nhận dạng tiếng Việt
theo hướng ngày càng hoàn thiện nhằm phù hợp với tính đa dạng của
phương ngữ tiếng Việt.
24
MỞ ĐẦU
1.
Lý do chọn đề tài
Ngày nay, với sự phát triển mạnh mẽ của máy tính, các ứng dụng
của máy tính trong mọi lĩnh vực của cuộc sống đã làm nảy sinh nhiều
yêu cầu nhằm đơn giản hoá quá trình sử dụng, tăng hiệu quả khai thác
máy tính và các ứng dụng trên máy tính. Trong đó, xử lý tiếng nói nói
chung và nhận dạng tiếng nói nói riêng là vấn đề đã và đang được quan
tâm nghiên cứu, phát triển ứng dụng nhằm nâng cao hiệu quả sử dụng
của máy tính phục vụ con người trong cuộc sống.
Trên thế giới đã có nhiều nghiên cứu về nhận dạng tiếng nói. Không
chỉ dừng lại ở nghiên cứu mà nhận dạng tiếng nói được triển khai trong
các sản phẩm ứng dụng. Đối với nhận dạng tiếng Việt, mặc dù cũng có
nhiều nghiên cứu và đã đạt được các kết quả nhất định nhưng để triển
khai thành các sản phẩm ứng dụng thực tế vẫn còn nhiều mặt hạn chế, đặc
biệt là độ chính xác, chất lượng nhận dạng. Ngoài các khó khăn trong
nhận dạng tiếng nói nói chung, nhận dạng tiếng Việt nói còn gặp trở ngại
lớn phải kể đến là vấn đề về phương ngữ tiếng Việt. Tiếng Việt có nhiều
phương ngữ khác nhau. Sự khác biệt giữa các phương ngữ gây ra không ít
khó khăn cho chính con người khi giao tiếp với các phương ngữ khác
nhau. Sự khác biệt đó cũng ảnh hưởng tới các hệ thống nhận dạng tiếng
Việt nói, làm giảm hiệu quả nhận dạng. Chính vì vậy, cần thiết phải
nghiên cứu vấn đề nhận dạng tiếng Việt nói theo các vùng phương ngữ
khác nhau nhằm tìm ra giải pháp kỹ thuật nâng cao hiệu quả nhận dạng
tiếng Việt nói. Trước khi tiến hành nhận dạng nội dung tiếng nói, nếu có
thể xác định được tiếng nói đó thuộc phương ngữ nào thì có thể sử dụng
mô hình nhận dạng đã được xây dựng phù hợp với phương ngữ đó nhằm
cải thiện hiệu năng hệ thống nhận dạng. Từ các lý do nêu trên, luận án lựa
chọn đề tài nghiên cứu “Tự động nhận dạng tiếng nói phát âm liên tục cho
các phương ngữ chính của tiếng Việt theo phương thức phát âm” để
nghiên cứu sâu hơn về vấn đề xử lý nhận dạng tiếng Việt nói, giải quyết
một số hạn chế trong nhận dạng tiếng Việt nói hiện tại liên quan đến
phương ngữ và góp phần phát triển các ứng dụng công nghệ thông tin cho
người Việt cũng như các sản phẩm ứng dụng công nghệ thông tin sử dụng
tiếng Việt trong dịch tự động, giao tiếp và tương tác người-máy.
1
2.
Mục tiêu nghiên cứu của luận án
Mục tiêu chính của luận án là Nghiên cứu nhận dạng tiếng Việt nói
cho các vùng phương ngữ chính, đánh giá ảnh hưởng của phương ngữ
đến hiệu năng của hệ thống nhận dạng và đề xuất giải pháp kỹ thuật
nhận dạng phương ngữ áp dụng vào hệ thống nhận dạng tiếng Việt nói
nhằm nâng cao hiệu năng nhận dạng.
3. Nhiệm vụ nghiên cứu của luận án
Để đạt mục tiêu đã đề ra, luận án cần thực hiện các nhiệm vụ chính
sau: Nghiên cứu đặc điểm phương ngữ tiếng Việt, đánh giá sự ảnh
hưởng của phương ngữ tới hệ thống nhận dạng tự động tiếng Việt nói,
xây dựng bộ ngữ liệu phương ngữ tiếng Việt phục vụ cho nghiên cứu
nhận dạng phương ngữ tiếng Việt và nhận dạng tiếng Việt nói, nghiên
cứu, đề xuất mô hình hệ thống nhận dạng tự động, bộ tham số phù hợp
để nhận dạng phương ngữ tiếng Việt và mô hình hệ thống nhận dạng tự
động tiếng Việt nói theo phương ngữ chính của tiếng Việt.
4. Đối tượng và phạm vi nghiên cứu của luận án
Đối tượng nghiên cứu trọng tâm của luận án là nhận dạng phương
ngữ tiếng Việt. Từ kết quả nhận dạng phương ngữ, xây dựng mô hình
nhận dạng tiếng Việt nói theo phương ngữ. Mô hình mới sử dụng thông
tin về phương ngữ nhằm cải thiện hiệu năng hệ thống nhận dạng tiếng
Việt nói. Việc nghiên cứu phương ngữ tiếng Việt chủ yếu chỉ tập trung
theo hướng xử lý tín hiệu mà không sử dụng yếu tố từ địa phương.
Phương ngữ tiếng Việt rất phong phú. Về mặt địa lý, xét theo phương
thức phát âm, phương ngữ có thể thay đổi theo từng làng, xã. Tuy nhiên
trong phạm vi nghiên cứu của luận án, do thời gian có hạn, luận án chỉ
giới hạn nghiên cứu nhận dạng ba phương ngữ chính và phổ biến của
tiếng Việt theo phương thức phát âm là phương ngữ Bắc (lấy giọng Hà
Nội làm đại diện), phương ngữ Trung (lấy giọng Huế làm đại diện) và
phương ngữ Nam (lấy giọng Thành phố Hồ Chí Minh làm đại diện).
Trong hệ thống mới nhận dạng tiếng Việt nói, nhận dạng phương ngữ
được xem như bước tiền xử lý nên cần được tiến hành trước khi nhận
dạng nội dung, nghĩa là ở thời điểm còn chưa biết nội dung tiếng nói. Vì
vậy, thao tác của hệ thống nhận dạng phương ngữ không cần thiết phải
khai thác các thông tin về từ địa phương mà chủ yếu là khai thác thông
tin về phương thức phát âm của phương ngữ. Điều này làm cho việc
2
Bắc, Trung, Nam trong khuôn khổ của luận án. Luận án thực hiện các
nghiên cứu nhận dạng phương ngữ tiếng Việt, đề xuất bộ tham số bao
gồm 13 hệ số MFCC kết hợp với biến thể của F0 phù hợp với mô hình
nhận dạng GMM. Kết quả nhận dạng được cải thiện khi kết hợp các
tham số formant, dải thông tương ứng và biến thể của F0. Bên cạnh đó,
luận án đã thực hiện các nghiên cứu một số bộ phân lớp như SVM
(SMO), IBk, JRip, MultilayerPerceptron, PART nhận dạng phương ngữ
tiếng Việt. Kết quả nghiên cứu cho thấy các bộ phân lớp này cũng nhận
dạng hiệu quả phương ngữ tiếng Việt.
Trên cơ sở các kết quả nghiên cứu, luận án đề xuất mô hình mới
nhận dạng tiếng Việt nói trong đó có nhận dạng phương ngữ. Trong mô
hình này, tiếng nói được nhận dạng phương ngữ trước khi nhận dạng nội
dung. Thông tin về phương ngữ giúp hệ thống nhận dạng lựa chọn mô
hình huấn luyện phù hợp với phương ngữ nhằm đạt được hiệu năng
nhận dạng tốt hơn so với trường hợp không có thông tin phương ngữ.
Đóng góp khoa học của luận án:
Các kết quả nghiên cứu mới và đóng góp khoa học của luận án như
sau: (1) Luận án đã xây dựng được bộ ngữ liệu tiếng Việt VDSPEC
dùng cho nghiên cứu nhận dạng phương ngữ tiếng Việt và nhận dạng
tiếng Việt nói. Đây là bộ ngữ liệu đầu tiên phục vụ cho nghiên cứu ba
phương ngữ chính của tiếng Việt mà đại diện là giọng Hà Nội cho
phương ngữ Bắc, giọng Huế cho phương ngữ Trung và giọng Thành
phố Hồ Chí Minh cho phương ngữ Nam. Ngữ liệu tiếng Việt VDSPEC
được ghi âm trực tiếp từ người nói theo văn bản đã được chuẩn bị sẵn và
tổ chức theo chủ đề. (2) Kết quả nghiên cứu đặc điểm của phương ngữ
tiếng Việt theo phương diện xử lý tín hiệu, các yếu tố của phương ngữ
ảnh hưởng tới hiệu năng của các hệ thống nhận dạng tiếng Việt nói cũng
là những đóng góp của luận án. Luận án đã đi sâu phân tích các đặc
điểm về phương thức phát âm của ba phương ngữ đại điện là Bắc, Trung
và Nam. Kết quả nghiên cứu đã chỉ ra các khác biệt về phương thức phát
âm theo phương diện xử lý tín hiệu, đặc biệt là phương thức phát âm
khác nhau đối với các thanh điệu và sự mũi hóa khác nhau của các
phương ngữ. (3) Một trong các đóng góp nữa của luận án là nhận dạng
phương ngữ tiếng Việt sử dụng mô hình GMM cùng với việc đề xuất
lựa chọn bộ tham số thích hợp cho mô hình bao gồm số thành phần
Gauss, các đặc trưng MFCC, tần số cơ bản F0, các biến thể của F0,
formant và dải thông tương ứng. Kết quả nghiên cứu cho thấy, trong
23
thông tin phương ngữ với lỗi từ trong trường hợp tốt nhất chỉ là 9,37%.
Sử dụng mô hình mới nhận dạng tiếng Việt nói đã được đề xuất, kết quả
cho thấy hiệu năng của hệ thống nhận dạng tiếng Việt nói được cải thiện
đáng kể khi có thông tin phương ngữ. Tỷ lệ lỗi từ tương đối đã giảm
được 27,9%.
KẾT LUẬN VÀ KIẾN NGHỊ
Kết luận:
Luận án đã hoàn thành các nội dung nghiên cứu, đáp ứng mục tiêu
đặt ra ban đầu là "Nghiên cứu nhận dạng tiếng Việt nói cho các vùng
phương ngữ chính, đánh giá ảnh hưởng của phương ngữ đến hiệu năng
của hệ thống nhận dạng, đề xuất giải pháp kỹ thuật nhận dạng phương
ngữ áp dụng vào hệ thống nhận dạng tiếng Việt nói nhằm nâng cao hiệu
quả nhận dạng". Tiếng Việt có phương ngữ đa dạng, phong phú. Các
nghiên cứu về phương ngữ tiếng Việt đã được thực hiện song chủ yếu
theo phương diện ngôn ngữ. Nghiên cứu theo phương diện xử lý tín hiệu
đối với phương ngữ tiếng Việt hầu như còn rất ít được công bố. Phương
ngữ tiếng Việt có thể được phân chia thành nhiều vùng khác nhau. Theo
ý kiến của đa phần các nhà nghiên cứu về phương ngữ tiếng Việt, có thể
phân chia phương ngữ tiếng Việt làm ba vùng chính là phương ngữ Bắc,
phương ngữ Trung và phương ngữ Nam. Sự phân chia này chỉ mang
tính tương đối vì sự khác nhau giữa các phương ngữ có thể xuất hiện
ngay giữa các làng xã liền kề và thay đổi theo vị trí địa lý. Luận án đã
tiến hành nghiên cứu sự khác biệt giữa ba phương ngữ chính của tiếng
Việt theo phương thức phát âm, ứng dụng trong hệ thống nhận dạng tự
động tiếng Việt nói nhằm cải thiện hiệu năng nhận dạng của hệ thống.
Để thực hiện các nghiên cứu nhận dạng phương ngữ, cần thiết phải có
ngữ liệu phương ngữ đáp ứng cho yêu cầu chuyên biệt này. Luận án đã
tiến hành xây dựng bộ ngữ liệu phương ngữ tiếng Việt mới VDSPEC
dùng cho các nghiên cứu về nhận dạng phương ngữ cũng như nhận dạng
tiếng Việt nói. Bộ ngữ liệu VDSPEC được ghi âm trực tiếp từ người nói
theo văn bản đã được chuẩn bị từ trước và phân chia theo chủ đề. Tiếng
nói được ghi âm từ ba giọng Hà Nội, Huế, Thành phố Hồ Chí Minh đại
diện cho ba vùng phương ngữ chính là phương ngữ Bắc, phương ngữ
Trung và phương ngữ Nam. Các phân tích trên bộ ngữ liệu VDSPEC
chỉ ra sự khác biệt trong quy luật biến thiên tần số cơ bản F0 cho mỗi
thanh điệu và sự mũi hóa ở các phương ngữ Trung, Nam. Những khác
biệt này có thể được sử dụng làm cơ sở để phân biệt ba phương ngữ
22
nhận dạng phương ngữ hoạt động linh hoạt mà không phụ thuộc vào nội
dung cần nhận dạng. Các thử nghiệm nhận dạng phương ngữ mà luận án
tiến hành dựa trên ngữ liệu với số lượng từ vựng hạn chế để từ đó xác
định được các đặc trưng của từng phương ngữ đồng thời đề xuất mô
hình nhận dạng phương ngữ nhằm nâng cao chất lượng hệ thống nhận
dạng tiếng Việt nói.
5. Ý nghĩa khoa học và thực tiễn của luận án
Nội dung nghiên cứu, kết quả dự kiến đạt được của luận án sẽ có
đóng góp đáng kể cho mở rộng nghiên cứu về phương ngữ tiếng Việt,
đặc biệt là về phương diện xử lý tín hiệu. Từ kết quả nhận dạng phương
ngữ, đề xuất mô hình mới nhận dạng tiếng Việt nói theo phương ngữ
nhằm cải thiện hiệu năng hệ thống nhận dạng tiếng Việt nói, góp phần
hoàn thiện hơn khả năng nhận dạng của hệ thống nhận dạng tự động
tiếng Việt nói.
6. Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận án là kết hợp nghiên cứu lý
thuyết với nghiên cứu thực nghiệm. Về lý thuyết: luận án nghiên cứu
tổng quan về phương ngữ tiếng Việt, các mô hình nhận dạng phương
ngữ của một số ngôn ngữ trên thế giới, các mô hình nhận dạng tiếng nói
dựa trên các tài liệu, công trình khoa học đã được công bố, sách báo,
giáo trình liên quan. Về thực nghiệm: luận án xây dựng bộ ngữ liệu tiếng
Việt mới phục vụ cho nghiên cứu nhận dạng phương ngữ tiếng Việt và
nhận dạng nội dung tiếng Việt nói; thực hiện các nghiên cứu, thử
nghiệm nhận dạng phương ngữ tiếng Việt, xây dựng và thử nghiệm mô
hình nhận dạng phương ngữ cũng như nhận dạng tiếng Việt nói theo
phương ngữ.
7. Kết quả nghiên cứu, đóng góp của luận án
Kết quả nghiên cứu và đóng góp của luận án tập trung vào các điểm
chính sau: Phân tích đặc điểm phương ngữ tiếng Việt, sự khác biệt giữa
các phương ngữ chính của tiếng Việt theo phương diện phát âm về mặt xử
lý tín hiệu, xây dựng bộ ngữ liệu tiếng Việt mới phục vụ cho nghiên cứu
nhận dạng phương ngữ tiếng Việt cũng như các nghiên cứu khác về nhận
dạng tiếng Việt nói; tiến hành một số nghiên cứu, thử nghiệm, phân tích
đặc điểm của phương ngữ tiếng Việt, đề xuất mô hình nhận dạng phương
ngữ tiếng Việt cùng với bộ tham số phù hợp cho mô hình nhận dạng
3
phương ngữ tiếng Việt và mô hình nhận dạng tiếng Việt nói dùng thông
tin phương ngữ nhằm cải thiện hiệu năng của hệ thống nhận dạng.
8. Nội dung luận án
Nội dung chính của luận án được trình bày trong 4 chương như sau:
Chương 1: Tổng quan về nhận dạng tiếng nói và nhận dạng phương
ngữ; Chương 2: Xây dựng bộ ngữ liệu cho nghiên cứu nhận dạng
phương ngữ tiếng Việt. Chương này đề cập các nghiên cứu tổng quan về
phương ngữ tiếng Việt, phương pháp xây dựng bộ ngữ liệu dùng cho
nghiên cứu nhận dạng phương ngữ tiếng Việt và kết quả phân tích đã đạt
được đối với một số đặc trưng của phương ngữ tiếng Việt dựa trên ngữ
liệu đã xây dựng. Chương 3: Nhận dạng phương ngữ tiếng Việt. Nội
dung chương này tập trung vào nghiên cứu các mô hình nhận dạng
phương ngữ tiếng Việt, việc lựa chọn tham số ứng dụng cho mỗi mô
hình và trình bày các kết quả thử nghiệm nhận dạng phương ngữ tiếng
Việt sử dụng các mô hình và tham số đã đề xuất. Chương 4: Cải thiện
hiệu năng nhận dạng tiếng Việt với thông tin về phương ngữ. Chương 4
trình bày mô hình nhận dạng tiếng Việt nói dựa trên HMM sử dụng các
thông tin về phương ngữ nhằm cải thiện hiệu năng nhận dạng. Cuối
cùng, phần Kết luận tổng hợp các kết quả nghiên cứu đã đạt được,
hướng mở rộng nghiên cứu, phát triển đề tài và các đóng góp khoa học
của luận án.
1. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI VÀ
NHẬN DẠNG PHƯƠNG NGỮ
1.1.
Nhận dạng tiếng nói
1.1.1. Tổng quan về nhận dạng tiếng nói
Nhiệm vụ của hệ thống nhận dạng tiếng nói là làm cho hệ thống
hiểu được tiếng nói của con người. Nhờ hệ thống này, tiếng nói có thể
được chuyển đổi tự động thành văn bản, hoặc tự động điều khiển các
quá trình khác [178].
1.1.2. Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận
dạng tiếng nói
Nhận dạng tiếng nói đã đạt được nhiều tiến bộ trong các năm qua.
Có nhiều mô hình nhận dạng đã được đề xuất. Trong đó, mô hình HMM
4
Hình 4.11: Sơ đồ hệ thống nhận dạng tiếng Việt nói
sử dụng thông tin phương ngữ
4.2.2. Nhận dạng tiếng Việt nói khi có thông tin phương ngữ
Nghiên cứu được thực hiện trên ngữ liệu VDSPEC sử dụng thông
tin về phương ngữ. Việc huấn luyện mô hình âm học được tiến hành độc
lập cho từng phương ngữ. Nhận dạng nội dung được thực hiện trên cơ
sở đã biết về thông tin phương ngữ. Kết quả nhận dạng tốt nhất với tỷ lệ
lỗi từ trung bình là 6,76% cho phương pháp huấn luyện tri3b. Phương
pháp huấn luyện này cũng cho kết quả nhận dạng tốt nhất khi chưa có
thông tin phương ngữ (9,37%). Tỷ lỗi từ khi có thông tin phương ngữ
giảm 2,61% so với khi chưa có thông tin phương ngữ. Tỷ lệ lỗi từ tương
đối (relative word error rate) đã giảm được 27,9%. Điều này tương
đương với độ chính xác nhận dạng đã tăng lên một cách đáng kể.
4.3. Kết chương
Kết quả sử dụng HMM nhận dạng tiếng Việt nói khi chưa sử dụng
21
với nền tảng chính không có nhiều thay đổi nhưng việc mô hình hóa, các
kỹ thuật cài đặt cụ thể liên tục được cải tiến. Vì thế, HMM vẫn giữ được
vị trí quan trọng trong các hệ thống nhận dạng tiếng nói. Bên cạnh đó,
các kỹ thuật phân tích tham số cũng đạt được nhưng bước tiến quan
trọng. Các thuật toán tìm kiếm được cải tiến giúp bộ giải mã thực hiện
các nhiệm vụ tìm kiếm, cho ra lời giải hiệu quả hơn.
1.1.3. Các thách thức đối với nhận dạng tiếng nói
Thách thức lớn đối với nhận dạng tự động tiếng nói là xử lý được
các biến đổi trong tiếng nói. Tiếng nói được phát âm sẽ bị biến đổi bởi
nhiều yếu tố khác nhau, do bản thân người nói, do môi trường tác động.
Thách thức lớn khác đối với nhận dạng tự động tiếng nói là phải
giải quyết bài toán nhận dạng nhầm, khi mà hệ thống thường phải đối
mặt với thực tế là tiếng nói cần nhận dạng không hoàn toàn theo đúng
với tiếng nói đã được huấn luyện.
Hình 4.9: Mô hình nhận dạng tự động tiếng nói
4.1.2.2. Bộ công cụ nhận dạng Kaldi
Kaldi là một bộ công cụ nhận dạng tiếng nói mã nguồn mở của
trường đại học Johns Hopkins được xây dựng từ năm 2009.
4.1.2.3. Kaldi nhận dạng tiếng Việt nói theo ba phương ngữ chính
Nghiên cứu dùng Kaldi nhận dạng phương ngữ tiếng Việt trên bộ
ngữ liệu VDSPEC, chưa dùng thông tin phương ngữ. Thử nghiệm nhận
dạng được tiến hành bằng phương pháp đánh giá chéo (5:1). Kết quả
nhận dạng tốt nhất ứng với phương pháp huấn luyện tri3b trong đó tỷ lệ
lỗi từ là 9,37%.
4.2. Cải thiện hiệu năng nhận dạng tiếng Việt nói thông
qua sử dụng thông tin phương ngữ
4.2.1. Mô hình nhận dạng tiếng Việt nói với việc sử dụng thông
tin phương ngữ
Luận án đề xuất mô hình mới nhận dạng tiếng Việt nói được mô tả
trên sơ đồ Hình 4.11. Tiếng nói trước khi nhận dạng được đưa qua bước
tiền xử lý nhận dạng phương ngữ. Hệ thống căn cứ trên kết quả nhận
dạng phương ngữ để có điều chỉnh lựa chọn mô hình thích hợp.
1.1.4. Phân loại nhận dạng tiếng nói
Các hệ thống nhận dạng tự động tiếng nói có thể được phân loại
theo các cách khác nhau tùy thuộc tiêu chí sử dụng phân loại như dựa
trên sự phụ thuộc người nói, đặc điểm liên tục hay rời rạc của tiếng nói
cần nhận dạng, độ lớn của từ vựng. Theo tiêu chí sự phụ thuộc vào
người nói, hệ thống nhận dạng tiếng nói có thể được chia làm 3 loại gồm
hệ thống nhận dạng tiếng nói phụ thuộc người nói, hệ thống nhận dạng
tiếng nói độc lập người nói và hệ thống nhận dạng tiếng nói thích nghi
người nói. Các hệ thống nhận dạng tiếng nói được phân loại dựa trên
đặc điểm của tiếng nói huấn luyện và nhận dạng sẽ gồm bốn loại như
sau: hệ thống nhận dạng tiếng nói theo từ rời rạc không liên kết về nghĩa
với nhau, hệ thống nhận dạng tiếng nói có các từ rời rạc liên kết về
nghĩa với nhau, hệ thống nhận dạng tiếng nói liên tục, hệ thống nhận
dạng tiếng nói tự nhiên. Hệ thống nhận dạng tiếng nói cũng có thể phân
loại theo số lượng từ vựng. Theo cách này, các hệ thống nhận dạng tiếng
nói có thể chia thành 3 loại bao gồm hệ thống nhận dạng với từ vựng ít,
hệ thống nhận dạng tiếng nói với từ vựng trung bình và hệ thống nhận
dạng tiếng nói với từ vựng lớn.
1.2. Nhận dạng phương ngữ
Nhận dạng phương ngữ dựa trên tín hiệu tiếng nói là một lĩnh vực
20
5
của xử lý tín hiệu tiếng nói thu hút nhiều nhà khoa học tham gia.
Phương pháp tiếp cận của nhận dạng phương ngữ cũng giống như các
phương pháp được dùng trong nhận dạng ngôn ngữ.
1.2.1. Các mô hình nhận dạng phương ngữ
1.2.1.1. Mô hình ràng buộc âm vị
Với mỗi ngôn ngữ, các từ đều được cấu thành từ một tập các âm vị.
Các mô hình nhận dạng dựa trên ràng buộc âm vị (Phonotactic
Modeling) được xây dựng được trên các bộ nhận dạng âm vị. Bộ nhận
dạng âm vị sẽ tiến hành phân tích tiếng nói cần nhận dạng thành các âm
vị.
1.2.1.2. Mô hình âm học
Cách tiếp cận khác để nhận dạng phương ngữ thay cho cách tiếp
cận dựa trên mô hình ràng buộc âm vị là sử dụng mô hình âm học
(Acoustic Modeling). Cách tiếp cận này sử dụng các mô hình nhận dạng
khác nhau trong đó có mô hình hỗn hợp Gauss (Gaussian Mixture
Model – GMM), SVM, ANN… Các mô hình này dùng các tham số là
các đặc trưng của tiếng nói cần nhận dạng như phổ, ngôn điệu, tần số cơ
bản,...
1.2.2. Nhận dạng phương ngữ theo các phương diện khác nhau
1.2.2.1. Theo phương diện ngôn ngữ học
Nghiên cứu nhận dạng phương ngữ được bắt đầu từ khá sớm.
Những ghi nhận đầu tiên có thể kể đến là các khảo sát để nhận dạng các
vùng phương ngữ của George Wenker vào đầu năm 1877. Việc nhận
dạng phương ngữ có thể dựa trên nguyên âm, phụ âm, từ vựng, hệ thống
các từ, các đặc trưng âm học, âm vị,...
1.2.2.2. Theo phương diện của phương pháp nhận dạng
Nhiều phương pháp đã được sử dụng trong nhận dạng ngôn ngữ
cũng được sử dụng cho nhận dạng phương ngữ trong đó có thể kể đến
một số phương pháp như GMM, HMM, SVM (Support Vector
Machines), NN (Neural Networks), DNN (Deep Neural Networks)...
1.3. Nghiên cứu nhận dạng tiếng nói và nhận dạng
phương ngữ tiếng Việt
nhận dạng cho hệ thống nhận dạng phương ngữ tiếng Việt. Lựa chọn kết
hợp bộ tham số MFCC bao gồm 13 hệ số với thông tin F0 cho kết quả
nhận dạng tốt trong mô hình GMM. Bên cạnh đó, thử nghiệm cho thấy
kết hợp bộ tham số bao gồm formant, dải thông tương ứng và tham số
F0 cũng cho kết quả nhận dạng tốt. Ngoài mô hình GMM, kết quả thử
nghiệm nhận dạng phương ngữ tiếng Việt sử dụng các bộ phân lớp
SVM (SMO), MultilayerPerceptron, IBk, JRip, PART cho thấy các bộ
phân lớp này có thể ứng dụng hiệu quả trong nhận dạng phương ngữ
tiếng Việt.
4. CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG
VIỆT VỚI THÔNG TIN VỀ PHƯƠNG NGỮ
4.1.
HMM nhận dạng tiếng Việt nói
4.1.1. Mô hình HMM
HMM xuất phát từ các quá trình và chuỗi Markov do Andrey
Andreyevich Markov là một nhà toán học Nga đề xuất vào năm 1906.
Năm 1913, Markov đã áp dụng lý thuyết của mình để tính toán xác suất
xuất hiện của các từ trong tác phẩm “Eugene Onegin” của Puskin [23].
Trong những năm 60 của thế kỷ trước, L.E. Baum và cộng sự đã có các
công trình nghiên cứu về mặt lý thuyết của HMM [93] và vào những
năm 70, HMM được J.K. Baker ở CMU [76], F. Jelinek và cộng sự ở
IBM ứng dụng để xử lý tiếng nói và đặc biệt là nhận dạng tiếng nói [48].
4.1.2. HMM nhận dạng tiếng Việt nói theo ba phương ngữ chính
4.1.2.1. Hệ thống nhận dạng tự động tiếng nói
Mô hình hệ thống nhận dạng tự động tiếng nói được thể hiện trên
Hình 4.9. Hệ thống nhận dạng bao gồm 2 giai đoạn là: huấn luyện mô
hình và nhận dạng.
Nghiên cứu về nhận dạng tiếng Việt nói đã được một số nhà nghiên
6
19
3 phương ngữ là 99,5% (cao hơn so với trường hợp k=1 Điều này cho
thấy kết quả nhận dạng đúng có tăng khi tăng số láng giềng gần nhất.
3.4. Nhận dạng phương ngữ tiếng Việt với bộ phân lớp
MultilayerPerceptron
3.4.1. Bộ phân lớp MultilayerPerceptron
Với Weka [69], MultilayerPerceptron là bộ phân lớp sử dụng mạng
nơ-ron lan truyền ngược lỗi để huấn luyện.
3.4.2. MultilayerPerceptron nhận dạng phương ngữ tiếng Việt
Nghiên cứu này sử dụng 384 tham số như đã trình bày ở mục 3.2.3.
Kết quả nhận dạng trung bıǹ h cả 3 phương ngữ là 99,5%. Bộ phân lớp
này cho tỷ lệ nhận dạng đúng cao.
3.5. JRip nhận dạng phương ngữ tiếng Việt
3.5.1. Bộ phân lớp JRip
JRip là thuật giải RIPPER (Repeated Incremental Pruning to
Produce Error Reduction) để suy diễn luật một cách hiệu quả và nhanh
do William W. Cohen đề xuất, là phiên bản tối ưu hóa của IREP [30].
cứu trong và ngoài nước thực hiện như một số nghiên cứu nhận dạng từ
rời rạc, số lượng từ vựng hạn chế [31, 120]. Nghiên cứu về hệ thống
nhận dạng các số phát âm liên tục bằng tiếng Việt được thực hiện ở
[121]. Gần đây, có các nghiên cứu nhận dạng tiếng Việt phát âm liên tục
độc lập người nói có số lượng từ vựng lớn [115, 116, 117, 118], Nghiên
cứu trong [156] là nhận dạng tiếng nói liên tục tiếng Việt vốn từ vựng
lớn, sử dụng bộ công cụ HTK trên cơ sở dữ liệu âm thanh thu từ đài phát
thanh VOV. Hệ thống nhận dạng tiếng Việt nói cũng đã được thực hiện
bằng hệ nhúng và hoạt động trên thời gian thực [4]. Về phương diện
ngôn ngữ, tiếng Việt và phương ngữ tiếng Việt đã có nhiều nghiên cứu
được tổng hợp trong công trình của tác giả Hoàng Thị Châu [2], các tác
giả khác như Hoàng Phê [1], Nguyễn Kim Thản, Nguyễn Trọng Báu,
Nguyễn Văn Tu [5], Mai Ngọc Chừ, Vũ Đức Nghiệu, Hoàng Trọng
Phiến [3], Trần Thị Ngọc Lang [162], Võ Xuân Trang [171]. Tuy nhiên,
nghiên cứu phương ngữ tiếng Việt theo phương diện xử lý tín hiệu còn
rất hạn chế.
1.4. Một số mô hình nhận dạng
3.5.2. Nhận dạng phương ngữ tiếng Việt với JRip
1.4.1. Mô hình GMM
JRip cũng sử dụng 384 tham số. Tỷ lê ̣ nhâ ̣n da ̣ng trung bıǹ h của 3
phương ngữ là 93,3%.
3.6. Nhận dạng phương ngữ tiếng Việt với PART
Mô hình hỗn hợp Gauss đa thể hiện (multi-variate) GMM được biết
đến là một trong các mô hình có khả năng phân lớp rất tốt đã được sử
dụng trong các nghiên cứu về nhận dạng người nói [80], định danh các
phương ngữ tiếng Anh [159], tiếng Trung [102], tiếng Thái [149], tiếng
Hindi [146], nhận dạng ngôn ngữ [25, 160]. Một mô hình hỗn hợp
Gauss đa thể hiện là tổng có trọng số của M thành phần mật độ Gauss
như biểu thức (1.3):
3.6.1. Bộ phân lớp PART
Bộ phân lớp PART được dùng để có các luật từ các cây quyết định
riêng phần đã được xây dựng bằng cách sử dụng J4.8. J4.8 là cài đặt mã
nguồn mở Java của thuật giải C4.5 và thuật giải này được dùng để tạo
cây quyết định do Ross Quinlan phát triển [133].
( | )=
( | ,
)
(1.3)
3.6.2. Kết quả dùng PART nhận dạng phương ngữ tiếng Việt
Bộ 384 tham số cũng được sử dụng cho PART như trong các
trường hợp SMO, IBk, MultilayerPerceptron và JRip. Tỷ lê ̣ nhâ ̣n da ̣ng
đúng trung bı̀nh của 3 phương ngữ đa ̣t 93%.
3.7. Kết chương
Mô hình GMM có khả năng ứng dụng tốt vào nhận dạng phương
ngữ tiếng Việt. Thành phần F0 có ý nghĩa trong việc nâng cao hiệu quả
18
Trong (1.3), X là véc tơ dữ liệu (chứa các tham số của đối tượng
cần biểu diễn), πi, i=1, ..., M là các trọng số của hỗn hợp và ( | , )
là các hàm mật độ Gauss thành phần.
1.4.2. Bộ phân lớp SVM
SVM (Suport Vector Machine) cơ bản là một bộ phân lớp nhị phân
phi tuyến có khả năng đoán nhận liệu một véc tơ vào x thuộc về lớp 1
7
(khi đó đầu ra mong muốn là y = +1) hoặc thuộc lớp 2 (y = -1). Thuật
giải phân lớp này lần đầu tiên được đề xuất năm 1992 [21].
1.4.3. Mạng nơ ron nhân tạo
Mạng nơ-ron nhân tạo (Artificial Neural Network – ANN) thường
gọi tắt là mạng nơ-ron (Neural network) là mô hình toán học hay hệ
thống xử lý thông tin được xây dựng dựa trên cơ sở tổng quát hóa mô
hình toán học của nơ-ron thần kinh sinh học và phỏng theo cơ chế làm
việc của bộ não người.
1.5. Kết chương
Nhận dạng tiếng nói nói chung và tiếng Việt nói nói riêng đã được
nhiều nhà khoa học trong và ngoài nước nghiên cứu và công bố kết quả.
Các nghiên cứu về phương ngữ tiếng Việt đã được thực hiện nhiều song
chủ yếu trên phương diện ngôn ngữ học. Về phương diện xử lý tín hiệu,
nghiên cứu về phương ngữ tiếng Việt hầu như còn rất ít được công bố.
Mặt khác, phương ngữ tiếng Việt lại rất đa dạng và phong phú. Việc
định danh đúng phương ngữ cho hệ thống nhận dạng tiếng Việt sẽ nâng
cao hiệu năng của hệ thống nhận dạng.
2. XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU
NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT
2.1.
Tổng quan phương ngữ tiếng Việt
2.1.1. Phương ngữ và phân vùng phương ngữ tiếng Việt
Phương ngữ tiếng Việt có thể được phân chia thành các vùng. Việc
phân vùng phương ngữ tiếng Việt đã được nhiều nhà nghiên cứu đề cập
đến và có các ý kiến khác nhau về cách phân chia. Số đông các nhà
nghiên cứu cho rằng tiếng Việt được chia làm 3 vùng phương ngữ chính
là phương ngữ Bắc (các tỉnh phía Bắc đến Thanh Hóa), phương ngữ
Trung (từ Thanh Hóa vào đến Đèo Hải Vân) và phương ngữ Nam (từ
Đèo Hải Vân vào các tỉnh thành phía Nam). Việc phân chia các vùng
phương ngữ như trên chỉ mang tính tương đối.
8
Đây là dữ liê ̣u thố ng kê của mỗi file tiếng nói. Với mỗi file tiế ng nói
tương ứng với 384 tham số được trích chọn.
3.2.2.3. Dùng đầy đủ 384 tham số đặc trưng
Ngữ liệu phương ngữ dùng cho nhận dạng được chia theo phương
pháp đánh giá chéo với tỷ lệ 1:10. Thời gian huấn luyện mô hình hết
148,13 giây. Tỷ lê ̣ nhâ ̣n da ̣ng trung bı̀nh của 3 phương ngữ là 96,9%.
3.2.2.4. Trường hợp không có thông tin liên quan trực tiếp F0
Trong trường hợp này, 12 hê ̣ số liên quan trực tiếp F0 được loa ̣i
khỏi tâ ̣p 384 tham số đặc trưng. Tỷ lê ̣ nhâ ̣n da ̣ng trung bı̀nh của 3
phương ngữ là 96,7%. Kết quả này thấ p hơn so với trường hợp có sử
du ̣ng F0 ở mục 3.2.3.3.
3.2.2.5. Trường hợp chı̉ dùng các tham số liên quan trực tiếp F0
Đây là trường hợp chı̉ cho ̣n 12 tham số đặc trưng liên quan trực
tiếp F0 để huấ n luyê ̣n và nhận dạng. Tỷ lệ nhận dạng đúng trung bı̀nh
của 3 phương ngữ là 52,2%. Kết quả này cho thấy thông tin F0 giúp ích
cho nhận dạng phương ngữ.
3.2.2.6. Chı̉ dùng tham số đặc trưng liên quan trực tiếp MFCC
Thử nghiê ̣m này chı̉ cho ̣n 12 tham số liên quan trực tiếp với
MFCC. Tỷ lê ̣ nhâ ̣n da ̣ng đúng trung bình là 75,8% cho ba phương ngữ.
Kết quả này cho thấy các tham số đặc trưng cho MFCC cũng đóng vai
trò khá quan trọng trong nhận dạng phương ngữ.
3.3. IBk nhận dạng phương ngữ tiếng Việt
3.3.1. Bộ phân lớp IBk
Bộ phân lớp IBk là dẫn xuất của phân lớp IBL (Instance Based
Learning). IBk là bộ phân lớp k láng giềng gần nhất (Lazy k-NearestNeighbor Classifier) [176] với số láng giềng cố định [22] sử dụng cùng
một độ đo khoảng cách.
3.3.2. Kết quả nhận dạng phương ngữ tiếng Việt sử dụng IBk
Sử dụng 384 tham số đặc trưng như đã thực hiện ở 3.2. Phương
pháp đánh giá chéo với tỷ lệ 1:10 đã được áp dụng cho bộ ngữ liệu
VDSPEC. Có hai giá trị k = 1 và k = 5 đã được sử dụng. Với trường hợp
k = 1, tỷ lê ̣ nhâ ̣n da ̣ng trung bı̀nh cho 3 phương ngữ là 99,1%. Kế t quả
thử nghiệm nhận dạng với k = 5 có tỷ lê ̣ nhâ ̣n da ̣ng đúng trung bı̀nh cho
17
dụng MFCC (58,6%). Các thử nghiệm cho thấy nếu số lượng các hệ số
MFCC chọn bằng 13 thì mô hình GMM thích hợp dùng cho nhận dạng
phương ngữ tiếng Việt sẽ có tỷ lệ nhận dạng đúng cao nhất.
3.1.4. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường
hợp kết hợp formant, dải thông tương ứng và tham số F0
Các tham số đưa vào mô hình GMM với số thành phần Gauss
bằng 20 bao gồm: formant, dải thông tương ứng, F0 và các giá trị
chuẩn hóa từ F0. Tỷ lệ nhận dạng cao nhất đạt 72,2% khi kết hợp với
F0sbMSD(t). Tỷ lệ nhận dạng này cao hơn so với tỷ lệ nhận dạng cao
nhất (70,8%) đạt được trong trường hợp kết hợp sử dụng tham số
MFCC và F0 chuẩn hóa theo trung bình (F0sbM(t)) như đã trình bày
ở phần trên.
3.1.5. Ảnh hưởng của số lượng thành phần Gauss đối với hiệu
năng nhận dạng phương ngữ tiếng Việt
Để khảo sát ảnh hưởng của số lượng thành phần Gauss đối với hiệu
năng nhận dạng phương ngữ tiếng Việt, số lượng hệ số MFCC bằng 13 kết
hợp với tham số F0 được chuẩn hóa theo trung bình F0 (F0sbM(t)) đã được
lựa chọn. Số lượng thành phần Gauss (M) được thay đổi từ 20 (baseline)
đến 4096. Nhìn chung, kết quả cho thấy khi tăng M thì hiệu năng nhận dạng
cũng tăng theo. Tỷ lệ nhận dạng cao nhất đạt 75,1% khi M bằng 2048.
3.2. SVM nhận dạng phương ngữ tiếng Việt
3.2.1. Bộ phân lớp SMO
SMO (Sequential Minimal Optimization Algorithm) là thuật giải tối
ưu hóa cực tiểu lần lượt được dùng để giải bài toán quy hoạch toàn phương
(Quadratic Programming - QP) phát sinh trong huấn luyện SVM [85].
SMO phân giải bài toán PQ tổng thể thành bài các bài toán con [130].
3.2.2. Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO
3.2.2.1. Bộ phân lớp SMO trong Weka
Công cu ̣ dùng thử nghiê ̣m là Weka. Weka gồm tập hợp các thuật
giải học máy dùng cho khai phá dữ liệu do Đại học Waikato, New
Zealand phát triển trong đó có bộ phân lớp SMO [116].
3.2.2.2. Trích chọn đặc trưng
Dữ liê ̣u dùng cho huấ n luyện và nhận dạng được trı́ch cho ̣n đă ̣c
trưng bao gồ m 384 hê ̣ số do bộ công cu ̣ OpenSMILE [46] thực hiện.
16
2.1.2. Đặc điểm ngữ âm ba vùng phương ngữ chính của tiếng
Việt
2.1.2.1. Phương ngữ Bắc
Phương ngữ Bắc (PNB) có một số đặc điểm chính như sau [2]: có
đủ 6 thanh điệu, đối lập từng đôi về âm vực và âm điệu; có 20 phụ âm
đầu; Có đủ các âm cuối ghi trong chính tả.
2.1.2.2. Phương ngữ Trung
Phương ngữ Trung (PNT) có một số đặc điểm chính: có 5 thanh
điệu, ít hơn một thanh điệu so với PNB; Có 23 phụ âm đầu, hơn PNB 3
phụ âm uốn lưỡi ghi trong chính tả là s, r, tr.
2.1.2.3. Phương ngữ Nam
Các đặc điểm chính của PNN bao gồm: chỉ có 5 thanh điệu, thanh
ngã trở thành thanh hỏi; Có 23 phụ âm đầu.
2.1.3. Sự khác biệt về từ vựng và ngữ nghĩa giữa ba vùng
phương ngữ tiếng Việt
Ngoài sự khác biệt về ngữ âm, các phương ngữ tiếng Việt còn khác
biệt khá lớn về từ vựng-ngữ nghĩa [2]. Trong PNN có nhiều từ vay
mượn từ tiếng Chăm, tiếng Khơme. Trong khi PNB có nhiều từ vay
mượn từ tiếng Thái. Có những từ Hán-Việt được sử dụng ở PNB thì
PNN lại dùng từ thuần Việt và ngược lại.
2.2. Cấu trúc âm tiết, âm vị trong phương ngữ tiếng Việt
2.2.1. Âm tiết và âm vị trong tiếng Việt
2.2.1.1. Âm tiết
Tiếng Việt là một ngôn ngữ đơn âm tiết [2, 3]. Mỗi một âm tiết
được phát âm tách rời nhau và được thể hiện bằng một chữ viết. Âm tiết
tiếng Việt có một số đặc điểm: Có tính độc lập cao, có khả năng biểu
hiện ý nghĩa, có cấu trúc chặt chẽ.
2.2.1.2. Âm vị
Tiếng Việt có năm hệ thống âm vị: hệ thống âm đầu, hệ thống âm
đệm, hệ thống âm chính, hệ thống âm cuối và hệ thống thanh điệu.
2.2.2. Âm đệm và cách kết hợp âm đệm trong các phương ngữ
2.2.2.1. Âm đệm kết hợp với phụ âm trước nó
Trong PNB và PNT âm đệm /-w-/ có thể kết hợp với hầu hết các
9
phụ âm đầu trừ các phụ âm môi. Trong PNN, âm đệm /-w-/ có tác động
mạnh đến các phụ âm hầu và mạc đứng trước nó.
2.2.2.2. Âm đệm kết hợp với nguyên âm sau nó
Do khuynh hướng dị hóa, âm đệm /-w-/ không kết hợp với những
nguyên âm tròn môi (u, ô, o, uô). Trong PNB, do ảnh hưởng mạnh của
xu hướng dị hóa, các âm đệm /-w-/ cũng không kết hợp với nguyên âm
[ư] và [ươ]. Trong PNT (các tỉnh Nghệ-Tĩnh, Bình-Trị-Thiên), kết hợp
/w/ với â được thay thế bằng sự kết hợp /w/ với ư. Ở PNN thì âm -wmất đi, chỉ còn ư. Nói khác đi, PNN không có âm đệm -w-.
2.3. Phụ âm đầu trong phương ngữ tiếng Việt
2.3.1. Hệ thống phụ âm đầu
2.3.1.1. Hệ thống phụ âm đầu PNB
Hệ thống các phụ âm đầu (theo chuẩn chính tả) hiện còn xuất hiện
nhiều ở phương ngữ các tỉnh ở đồng bằng Bắc Bộ như Thái Bình, Nam
Định, Ninh Bình mặc dù không tiêu biểu cho toàn bộ PNB.
2.3.1.2. Hệ thống phụ âm đầu PNT
PNT có hệ thống phụ âm đầu khá phong phú, gần như xuất hiện đủ
các phụ âm (theo chuẩn chính tả).
2.3.1.3. Hệ thống phụ âm đầu PNN
Sự khác biệt chủ yếu về hệ thống phụ âm đầu của PNN so với các
phương ngữ khác chính là sự ngạc hóa một số phụ âm [2]. Do ảnh
hưởng của yếu tố ngạc hóa trong PNN nên các phụ âm Bj, Dj, Zj bị biến
thành j.
3. NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT
3.1.
Nhận dạng phương ngữ tiếng Việt với GMM
3.1.1. Công cụ thử nghiệm nhận dạng phương ngữ ALIZE
ALIZE được phát triển dựa trên mô hình GMM thích hợp cho nhận
dạng người nói (định danh người nói) và nhận dạng phương ngữ.
3.1.2. Lựa chọn số lượng hệ số MFCC
Để tìm được số tham số MFCC tốt nhất cho nhận dạng, các thử
nghiệm được tiến hành lần lượt với số hệ số MFCC tăng dần từ 5 đến 19
trên toàn bộ ngữ liệu VDSPEC, không phân biệt giới tính. Kết quả
nghiên cứu cho thấy giá trị MFCC = 11 và MFCC = 13 thể hiện các ưu
điểm về sự cân bằng về điểm số giữa các phương ngữ đồng thời có điểm
số trung bình khá cao. Vì vậy số hệ số MFCC=11 và MFCC=13 được
chọn cho các thử nghiệm tiếp theo.
3.1.3. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong
trường hợp kết hợp MFCC với tham số F0
Thanh điệu trong âm tiết tiếng Việt là thành phần đặc biệt, bao trùm
lên toàn bộ âm tiết hoặc ít nhất là thành phần vần của âm tiết. Đây là
một đơn vị siêu đoạn [2]. Trong tiếng Việt, thanh điệu là một trong
Trong các thử nghiệm này, bộ tham số MFCC được kết hợp với tần
số cơ bản F0, LogF0(t) và các biến thể của F0, LogF0(t) bao gồm: đạo
hàm F0 (diffF0(t)), chuẩn hóa F0 theo xu hướng đi lên hoặc đi xuống
của F0 mỗi câu (cdF0(t)), chuẩn hóa F0 theo giá trị trung bình F0 cho
mỗi câu (F0sbM(t)), chuẩn hóa F0 theo trung bình và độ lệch chuẩn của
F0 (F0sbMSD(t)), đạo hàm LogF0(t) (diffLogF0(t)), chuẩn hóa LogF0(t)
theo giá trị min LogF0(t) và max LogF0(t) cho mỗi câu
(LogF0sbMM(t)), chuẩn hóa LogF0(t) theo trung bình LogF0(t) mỗi câu
(LogF0sbM(t)), chuẩn hóa theo LogF0(t) theo trung bình và độ lệch
chuẩn của LogF0(t) (LogF0sbMSD(t)).
Thử nghiệm được thực hiện theo phương pháp đánh giá chéo
(cross-validation) tỷ lệ 1:5. Dữ liệu dùng cho thử nghiệm là độc lập với
dữ liệu dùng huấn luyện mô hình. Bộ tham số bao gồm các hệ số
MFCC, F0 và các giá trị chuẩn hóa từ F0 sẽ được sử dụng cho thử
nghiệm nhận dạng dùng mô hình GMM dựa trên công cụ ALIZE. Kết
quả cho thấy, trong trường hợp số hệ số MFCC bằng 13, tỷ lệ nhận dạng
cao nhất đạt được là 70,8% khi kết hợp MFCC với F0 chuẩn hóa theo
trung bình của F0 (F0sbM(t)). Như vậy, khi kết hợp MFCC với biến thể
của F0, tỷ lệ nhận dạng đúng tăng lên 12,2% so với trường hợp chỉ sử
10
15
2.3.2. So sánh hệ thống phụ âm đầu ba phương ngữ BắcTrung-Nam
Từ các phân tích trên, sự khác biệt trong hệ thống các phụ âm đầu
của ba phương ngữ chính PNB, PNT và PNN được thể hiện ở dãy phụ
âm tiền ngạc, phụ âm bật hơi, phụ âm xát hữu thanh.
2.4. Hệ thống thanh điệu và các biến thể trong phương
ngữ tiếng Việt
thiên F0 rộng hơn so với hai phương ngữ còn lại.
2.7.2. Phân tích thống kê phân bố F0 của các thanh điệu
Dữ liệu phân tích thống kê phân bố F0 của các thanh điệu được
biểu diễn bằng các đồ thị boxplot. Kết quả cho thấy chiều hướng và
phạm vi biến thiên F0 của giọng Huế có xu hướng ngược lại so với
giọng Hà Nội. Trừ thanh ngã, xu hướng biến thiên F0 của giọng Thành
phố Hồ Chí Minh khá gần với giọng Hà Nội. Thanh ngã của giọng
Thành phố Hồ Chí Minh có xu hướng biến thiên F0 đi lên giống như
thanh hỏi của giọng Hà Nội. Các kết luận trên đây cũng tương đồng với
sự cảm nhận trên thực tế về phương thức phát âm khác nhau cho các
thanh điệu của ba phương ngữ.
2.7.3. Phân tích dữ liệu dùng LDA
2.7.3.1. Bộ phân lớp LDA
Phép chiếu LDA (Linear Discriminant Analysis) được thực hiện
bằng biến đổi tuyến tính hoặc phi tuyến, nhằm tối ưu theo tiêu chí đã
cho: cực đại hóa phương sai, bảo toàn khoảng cách, cực đại hóa cách
biệt các lớp.
2.7.3.2. Đánh giá hiện tượng mũi hóa giữa các phương ngữ
Trong phương thức phát âm một số từ ở PNT và PNN có hiện
tượng mũi hóa. Ví dụ, trong cách nói giọng Thành phố Hồ Chí Minh, từ
“nhanh” được phát âm thành “nhăn”, “thành” phát âm thành “thằn”,
“tích” phát âm thành “tứt”, hay từ “chính” được phát âm là “chứn”…
Thử nghiệm phân lớp trên một số từ thuộc nhóm từ bị mũi hóa ở PNT
và PNN cho thấy có sự khác biệt khá rõ ràng.
2.8. Kết chương
Phương ngữ tiếng Việt phong phú và đa dạng. Có thể chia phương
ngữ tiếng Việt thành ba vùng chính là Bắc, Trung và Nam. Luận án đã
xây dựng bộ ngữ liệu phương ngữ tiếng Việt VDSPEC đáp ứng các yêu
cầu chuyên biệt cho các nghiên cứu về phương ngữ tiếng Việt. Các phân
tích biến thiên tần số cơ bản F0 cho thấy sự khác biệt đáng kể giữa các
phương ngữ về thanh điệu. Bên cạnh đó, sự mũi hóa ở một số từ trong
phương thức phát âm của các phương ngữ cũng tạo ra sự khác biệt rõ
ràng giữa các vùng phương ngữ chính của tiếng Việt.
14
những đặc điểm phân biệt phương ngữ, thổ ngữ [2]. Người ta thường
dựa vào thanh điệu của người nói để phân biệt và nhận ra đó là phương
ngữ miền nào. Mỗi phương ngữ, thổ ngữ đặc biệt có một hệ thống thanh
điệu riêng.
2.4.1. Hệ thống thanh điệu Hà Nội
Thanh ngang: có âm điệu bằng phẳng, cường độ không thay đổi,
thuộc âm vực trung bình của lời nói. Thanh huyền: âm điệu hơi đi
xuống, có âm vực thấp, cường độ không đổi. Thanh ngã: có âm điệu
biến thiên theo hai chiều: đi xuống rồi đi lên như hình chữ V với nhánh
đi lên cao gấp đôi nhánh đi xuống. Thanh hỏi: cũng có âm điệu biến
thiên theo hai chiều đi xuống rồi đi lên nhưng không chia làm hai đoạn
rõ rệt như thanh ngã. Thanh sắc: bắt đầu ở độ cao thấp hơn thanh ngang,
đi ngang hoặc hơi đi xuống ở đoạn đầu rồi vút lên cao. Thanh nặng:
khởi đầu ở độ cao của thanh huyền, có âm điệu đi ngang hay hạ dần như
thanh huyền đến khoảng 1/3 thanh điệu thì đi xuống với độ dốc lớn và
kết thúc bằng một tắc thanh hầu.
2.4.2. Hệ thống thanh điệu Nghệ - Tĩnh và Huế
Hệ thống thanh điệu các tỉnh này có thể được xem như tiêu biểu
cho thanh điệu PNT. Với các tỉnh Nghệ An, Hà Tĩnh, thanh ngã trùng
với thanh nặng. Song ở Huế, thanh ngã lại trùng với thanh hỏi. Nếu xem
một cách tổng thể, các tỉnh này đều có hệ thống năm thanh điệu bao
gồm: ngang, huyền, sắc, nặng và hỏi (không có thanh ngã).
2.4.3. Hệ thống thanh điệu Đà Nẵng và Thành phố Hồ Chí Minh
Hệ thống thanh điệu của các tỉnh này cơ bản giống nhau và có thể
tiêu biểu cho thanh điệu PNN đồng thời có điểm tương đồng với thanh
điệu của PNB.
2.4.4. Một số nhận xét về hệ thống thanh điệu các phương ngữ
Hệ thống thanh điệu của ba phương ngữ Bắc, Trung và Nam có
nhiều điểm khác biệt cả về số lượng và sự biến thiên tần số cơ bản ở mỗi
thanh. Sự khác biệt này có thể được sử dụng làm yếu tố để phân biệt các
phương ngữ trong hệ thống nhận dạng phương ngữ tiếng Việt.
2.5. Ảnh hưởng của phương ngữ tới nhận dạng tiếng nói
Sự tồn tại của phương ngữ trong ngôn ngữ là một thách thức lớn
cho các hệ thống xử lý ngôn ngữ tự nhiên nói chung [71] cũng như trong
11
các hệ thống nhận dạng tiếng nói. Chính vì vậy, việc nghiên cứu về
phương ngữ, giải quyết vấn đề liên quan đến phương ngữ trong nhận
dạng tiếng nói là rất cần thiết để giúp nâng cao chất lượng hệ thống nhận
dạng tiếng nói.
2.6. Ngữ liệu phương ngữ trên thế giới và xây dựng bộ
ngữ liệu dùng cho nhận dạng phương ngữ tiếng
Việt
Trên thế giới đã có một số bộ ngữ liệu cho phương ngữ như tiếng
Anh [17], tiếng Ả rập [50], tiếng Trung [78], tiếng Hindi [146], tiếng
Thái [149],… Đối với tiếng Việt, đã có một số bộ ngữ liệu được xây
dựng như VNSPEECHCORPUS [165], VOV (Voice of Vietnamese)
Corpus [155] hoặc VNBN (United Broadcast News corpus) [172]. Ngữ
liệu phương ngữ cần thiết cho các nghiên cứu nhận dạng phương ngữ
tiếng Việt. Các ngữ liệu tiếng Việt hiện có chưa đáp ứng đầy đủ các yêu
cầu cần thiết cho nghiên cứu nhận dạng phương ngữ. Do vậy, luận án
tiến hành xây dựng bộ ngữ liệu phương ngữ tiếng Việt mới VDSPEC
(Vietnamese Dialect Speech Corpus) dùng cho nghiên cứu nhận dạng
phương ngữ và nội dung tiếng Việt nói. Bộ ngữ liệu VDSPEC được xây
dựng cho ba phương ngữ. Phương ngữ Bắc đại diện bằng giọng Hà Nội,
phương ngữ Trung đại diện bằng giọng Huế và phương ngữ Nam lấy
giọng Thành phố Hồ Chí Minh làm đại diện.
2.6.1. Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng
Việt
VDSPEC đã được xây dựng bằng phương pháp ghi âm trực tiếp
người nói để đảm bảo tính chủ động cũng như chất lượng tiếng nói tốt.
2.6.2. Chuẩn bị và chuẩn hóa văn bản
Dữ liệu tiếng nói được ghi âm thông qua việc người nói đọc các
văn bản đã được chuẩn bị sẵn. Văn bản này được tổ chức thành 6 chủ
đề. Sự xuất hiện của các thanh điệu trong văn bản được chuẩn bị là cân
bằng với nhau (mỗi thanh gồm 717 từ); bao phủ các âm tiết của tiếng
Việt.
chất lượng cao. Micro dùng ghi âm là loại chuyên dụng phù hợp với ghi
âm tiếng nói.
2.6.3.2. Lựa chọn người nói
Để ghi âm được giọng đặc trưng cho phương ngữ, người nói được
chọn sao cho có giọng gốc của địa phương. Tuổi trung bình của người
nói là 21. Tổng số người được lựa chọn ghi âm là 150. Trong đó, mỗi
phương ngữ có 50 người nói bao gồm 25 giọng nam và 25 giọng nữ.
2.6.3.3. Phần mềm hỗ trợ ghi âm
Phần mềm hỗ trợ ghi âm được xây dựng dựa trên ngôn ngữ kịch
bản TCL/TK.
2.6.3.4. Môi trường ghi âm
Việc ghi âm được tiến hành trong phòng riêng có độ ồn thấp, tỷ số
tín hiệu trên nhiễu xấp xỉ 35 dB.
2.6.3.5. Định dạng ghi âm
Tiếng nói được ghi theo chuẩn PCM, không nén, tần số lấy mẫu
16 kHz, 16 bit mỗi mẫu, ghi trên một kênh (mono).
2.6.3.6. Tổ chức lưu dữ liệu
Các tập tin tiếng nói được đặt tên thống nhất theo một định dạng.
Tên tập tin chứa đựng thông tin về người nói, chủ đề và đoạn văn bản
tương ứng.
2.6.4. Kết quả ghi âm và đặc tính VDSPEC
Trong quá trình ghi âm, mỗi người nói được yêu cầu đọc đủ 25 câu.
Tổng số câu đã ghi âm của VDSPEC là 18750 câu (tương ứng 150
người nói x 125 câu, không kể chủ đề Cơ bản) với dung lượng lưu trữ là
4,84 GB và tổng cộng thời lượng là 45,12 giờ tiếng nói .
2.7. Phân tích một số đặc trưng phương ngữ tiếng Việt
của bộ ngữ liệu VDSPEC
2.7.1. Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ
2.6.3.1. Thiết bị ghi âm
Quá trình ghi âm được thực hiện bằng máy tính có card âm thanh
Khảo sát biến thiên F0 của tiếng nói phương ngữ Bắc, phương ngữ
Trung và phương ngữ Nam được tiến hành dựa trên bộ ngữ liệu
VDSPEC. Kết quả khảo sát sự biến thiên tần số F0 đối với 6 thanh điệu
của tiếng Việt cho thấy có sự khác biệt đáng kể giữa các phương ngữ.
Nhìn chung, đối với cả sáu thanh điệu, phương ngữ Bắc có phạm vi biến
12
13
2.6.3. Ghi âm