tổng hợp giọng nói sử dụng học sâu cho tiếng bahnar

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.05 MB, 75 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

ĐẠI HỌC QUỐC GIA TP.HCMTRƯỜNG ĐẠI HỌC BÁCH KHOA

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠITRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM

Cán bộ hướng dẫn khoa học: PGS.TS Quản Thành Thơ

Cán bộ chấm nhận xét 1: TS. Huỳnh Lương Huy ThôngCán bộ chấm nhận xét 2: TS. Ngô Đức Thành

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG TP.HCMngày 23 tháng 01 năm 2024.

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:1. Chủ tịch: TS. Nguyễn Đức Dũng

2. Thư ký: TS. Trần Tuấn Anh

3. Phản biện 1: TS. Huỳnh Lương Huy Thông4. Phản biện 2: TS. Ngô Đức Thành

5. Ủy viên: TS. Nguyễn Tiến Thịnh

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyênngành sau khi luận văn đã được sửa chữa (nếu có).

KỸ THUẬT MÁY TÍNH

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

ĐẠI HỌC QUỐC GIA TP.HCM

<b>TRƯỜNG ĐẠI HỌC BÁCH KHOA</b>

<b>CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMĐộc lập - Tự do - Hạnh phúc</b>

<b>NHIỆM VỤ LUẬN VĂN THẠC SĨ</b>

Họ tên học viên: HỒ MINH HOÀNGMSHV: 2170532Ngày, tháng, năm sinh: 01/06/1999Nơi sinh: Phú YênChuyên ngành: Khoa học Máy tínhMã số: 8480101

<b>I. TÊN ĐỀ TÀI:</b>

Tổng hợp giọng nói sử dụng học sâu cho tiếng BahnarSpeech synthesis using deep learning for Bahnaric languge

<b>II. NHIỆM VỤ VÀ NỘI DUNG:</b>

- Tìm hiểu về các mơ hình tổng hợp giọng nói, các cơng trình liên quan, các phươngpháp giải quyết bài toán, ưu và nhược điểm của các phương pháp, đặc biệt làphương pháp sử dụng các mô hình học sâu.

- Nghiên cứu và đề xuất cải thiện các mơ hình cho Bài tốn tổng hợp giọng nói trênngơn ngữ ít dữ liệu, thu thập và xử lý dữ liệu cho mơ hình đề xuất.

- Thực nghiệm, đánh giá kết quả của các mơ hình đề xuất huấn luyện trên tập dữ liệuthu thập.

<b>III.NGÀY GIAO NHIỆM VỤ : 04/09/2023</b>

<b>IV.NGÀY HOÀN THÀNH NHIỆM VỤ: 18/12/2023V.CÁN BỘ HƯỚNG DẪN: PGS.TS Quản Thành Thơ</b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

LỜI CẢM ƠN

Để hoàn thành luận văn tốt nghiệp này, học viên đã nhận được sự hỗ trợ tíchcực từ rất nhiều phía. Đầu tiên và quan trọng nhất, em xin gửi lời cảm ơn chânthành đến giảng viên hướng dẫn trực tiếp của em, thầy PGS.TS. Quản ThànhThơ. Thầy là người định hướng chính, cung cấp tài liệu cũng như theo dõi qtrình thực hiện đề tài và hỗ trợ khi em gặp khó khăn.

Em xin được tỏ lịng biết ơn sự tận tình dạy dỗ, giúp đỡ của q thầy cơtrong khoa Khoa học và Kỹ thuật Máy tính nói riêng cũng như trường Đại họcBách khoa TP. Hồ Chí Minh nói chung. Những kiến thức nhận được từ quý thầycô là vơ cũng q giá và bổ ích, hỗ trợ rất lớn cho em có thể hồn thành luận văntốt nghiệp này.

Em cũng xin được gửi lời cảm ơn đến các anh/bạn trong nhóm TTS đã gíupđỡ em, chia sẻ kinh nghiệm trong q trình hồn thành luận văn này.

Cuối cùng, em muốn gửi lời cảm ơn đến gia đình, người thân, bạn bè, nhữngngười đã quan tâm, động viên, giúp đỡ cả về thể chất lẫn tinh thần để em có đủnghị lực, sức khỏe hồn thành tốt luận văn tốt nghiệp này.

Với lòng biết ơn chân thành, em xin gửi lời chúc sức khỏe cũng như nhữnglời chúc tốt đẹp nhất đến các quý thầy cô trong Khoa Khoa học và Kỹ thuật Máytính - Trường Đại Học Bách Khoa Đại Học Quốc Gia Thành phố Hồ Chí Minh.

TP. Hồ Chí Minh, tháng 12 năm 2023

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

TĨM TẮT LUẬN VĂN

Bài tốn về việc tổng hợp giọng nói từ văn bản và đồng thời các bài tốn liênquan đến việc tạo ra giọng nói của con người, đã được nghiên cứu và ứng dụngtrong thực tiễn từ nhiều năm trước. Trong những năm trở lại đây, bài toán nàyđã được quan tâm và trở nên phổ biến hơn do sự phát triển mạnh mẽ của các mơhình học sâu có khả năng xử lý tốt tính tuần tự đã đạt được những thành tựu tolớn trong nhiều tác vụ của lĩnh vực Xử lý ngôn ngữ tự nhiên và tái tạo giọng nói.Tuy nhiên, hầu hết các nghiên cứu trước đó đều tập trung trên các ngơn ngữ cónguồn dữ liệu lớn, dồi dào như tiếng Anh, tiếng Trung. Với các ngơn ngữ ít tàingun như tiếng Việt, tiếng dân tộc thiểu số thì các kết quả, nghiên cứu ít hơnrất nhiều. Do đó, trong luận văn này, dựa trên cơ sở mơ hình Grad-TTS và mơhình StarGANv2, học viên sẽ tập trung khai thác và đề xuất cách kết hợp để cóthể tạo ra mơ hình tổng hợp giọng nói có tính tự nhiên nhất cho tiếng người dântộc thiểu số Bahnar - một ngôn ngữ có ít nguồn dữ liệu.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

ABSTRACT OF THESIS

The problem of synthesizing speech from text, along with related tasks volving the generation of human-like speech, has been researched and applied inpractice for many years. In recent years, this problem has garnered increased at-tention and popularity due to the robust development of deep learning modelscapable of effectively handling sequential information, achieving significant break-throughs in various tasks within the Natural Language Processing (NLP) field andspeech synthesis. However, most previous studies have primarily focused on lan-guages with abundant resources, such as English and Chinese. For languages withfewer resources, such as Vietnamese and minority languages, there is a significantscarcity of research results. Therefore, this thesis, based on the Grad-TTS modeland the StarGANv2 model, will concentrate on exploring and proposing an ap-proach to combine these models to create a speech synthesis model that exhibitsthe most natural characteristics for the Bahnar minority language - a languagewith limited available data.

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

in-LỜI CAM ĐOAN

Học viên xin cam đoan luận văn tốt nghiệp: “TỔNG HỢP GIỌNG NÓI SỬDỤNG HỌC SÂU CHO TIẾNG BAHNAR” là cơng trình nghiên cứu của bảnthân. Những phần tài liệu được sử dụng trong luận văn đã được nêu rõ trong phầnTài liệu tham khảo. Các số liệu, kết quả trình bày trong luận văn là hồn tồntrung thực, nếu có sai sót học viên xin chịu hồn tồn trách nhiệm và chịu mọi kỷluật của bộ môn và nhà trường đề ra.

Học viên

Hồ Minh Hoàng

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Mục lục

1.1 Giới thiệu chung . . . . 1

1.2 Mục tiêu và nhiệm vụ của luận văn . . . . 3

1.3 Giới hạn đề tài . . . . 4

1.4 Đóng góp của luận văn . . . . 4

1.5 Tóm tắt nội dung . . . . 5

2 CƠ SỞ LÝ THUYẾT 72.1 Mel-spectrogram . . . . 7

2.2 Mơ hình Artificial Neural Network - ANN . . . . 8

2.3 Mạng tích chập Convolutional Neural Network - CNN . . . . 11

2.4 Mơ hình mạng Generative Adversarial Networks . . . . 13

2.4.1 Mơ hình sinh (Generator) . . . . 14

2.4.2 Mơ hình phân biệt (Discriminator) . . . . 15

2.5 Mơ hình mạng Long short term memory . . . . 16

3 CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN 193.1 Các kỹ thuật cho bài tốn tổng hợp tiếng nói từ văn bản . . . . 19

3.1.1 Phương pháp tổng hợp khớp nối (Articulatory synthesis) . . 20

3.1.2 Phương pháp tổng hợp hình thái (Formant synthesis) . . . . 21

3.1.3 Phương pháp tổng hợp nối tiếp (Concatenative Synthesis) . 223.1.4 Phương pháp tổng hợp tham số thống kê (Statistical Para-metric Speech Synthesis) . . . . 24

3.1.5 Các thành phần chính của mơ hình cho bài tốn TTS hiệnđại sử dụng học sâu . . . . 25

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

3.1.5.1 Phân tích văn bản . . . . 25

3.1.5.2 Mơ hình âm thanh . . . . 26

3.1.5.3 Bộ phát âm . . . . 27

3.2 Các kỹ thuật cho bài tốn Chuyển đổi giọng nói . . . . 28

3.2.1 Hướng tiếp cận sử dụng mã hoá tự động (Auto encoder) . 283.2.2 Hướng tiếp cận sử dụng Mơ hình mạng sinh đối nghịch(GAN) . . . . 30

3.2.3 Hướng tiếp cận sử dụng Mơ hình tổng hợp giọng nói . . . . 31

4 MƠ HÌNH ĐỀ XUẤT 334.1 Mơ hình tham khảo . . . . 33

4.3.1 Tổng quan mơ hình đề xuất BN-TTS-VC . . . . 41

4.3.2 Grad-TTS cho tổng hợp tiếng Bahnar . . . . 42

4.3.3 Mơ hình HiFi-GAN-BN huấn luyện trên tiếng Bahnar chobộ phát âm của mơ hình Grad-TTS . . . . 44

4.3.4 Chuyển đổi giọng nói cho tiếng Bahnar bởi mơ hình GANv2 . . . . 47

Star-4.4 Tập dữ liệu và phương pháp xử lí . . . . 50

4.5 Kết quả thực nghiệm và thảo luận . . . . 51

5 KẾT LUẬN 535.1 Kết quả đạt được . . . . 53

5.2 Hạn chế và vấn đề tồn đọng . . . . 54

5.3 Hướng phát triển . . . . 54

Tài liệu tham khảo 55A Phụ lục 59A.1 Phụ lục 1 . . . . 59

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

A.2 Phụ lục 2 . . . . 60A.3 Phụ lục 3 . . . . 61

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Danh sách hình vẽ

1.1 Quá trình xử lý tổng hợp giọng nói từ văn bản . . . . 2

2.1 Ảnh mel-spectrogram của âm thanh . . . . 8

2.2 Cấu trúc của một Perceptron . . . . 9

2.3 Các hàm phi tuyến được sử dụng trong Perceptron . . . . 10

2.4 Mơ hình CNN cơ bản . . . . 11

2.5 Mơ hình mạng Generative Adversarial Networks . . . . 13

2.6 Mơ hình sinh (Generator) . . . . 14

2.7 Mơ hình phân biệt (Discriminator) . . . . 15

2.8 Kiến trúc của LSTM . . . . 17

3.1 Các hướng tiếp cận cho bài tốn tổng hợp giọng nói . . . . 19

3.2 Phương pháp tổng hợp hình thái . . . . 22

3.3 Phương pháp tổng hợp nối tiếp . . . . 23

3.4 Kiến trúc cơ bản của mô hình TTS . . . . 25

4.1 Mơ hình xác suất khuếch tán cho mel-spectrograms [21] . . . . 35

4.2 Kiến trúc mơ hình Grad-TTS [21] . . . . 35

4.3 Mơ hình StarGANv2-VC [22] . . . . 37

4.4 Bộ sinh (Generator) của mơ hình HiFi-GAN [13] . . . . 38

4.5 Bộ phân biệt (Discriminator) của mô hình HiFi-GAN [13] . . . 39

4.6 Ví dụ về phiên âm tiếng Bahnar . . . . 40

4.7 Bảng chữ cái tiếng Bahna sau khi xử lý . . . . 40

4.8 Minh hoạ quá trình xử lý tiếng Bahnar . . . . 40

4.9 Minh hoạ quá trình xử lý của mơ hình BN-TTS-VC . . . . 424.10 Minh hoạ q trình xử lý của mơ hình Grad-TTS cho tiếng Bahnar 43

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Danh sách bảng

4.1 Bảng kết quả đánh giá mơ hình StarGANv2-VC . . . . 514.2 Bảng kết quả đánh giá MOS . . . . 52A.1 Thơng số cho mơ hình đề xuất HiFi-GAN ở lớp convolution . . . . 59A.2 Thơng số huấn luyện mơ hình HiFi-GAN . . . . 60A.3 Thơng số huấn luyện mơ hình StarGANv2-VC . . . . 61

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Thuật ngữ & từ viết tắt

AI . . . Artificial IntelligenceANN . . . Artificial Neural NetworkCNN . . . Convolution Neural NetworkDNN . . . Deep Neural Network

GAN . . . Generative Adversarial NetworksHMM . . . Hidden Markov Models

MOS . . . Mean Opinion Score

MPD . . . Multi Period DiscriminatorNLP . . . Natural Language ProcessingMRF . . . Multi-receptive Field FusionMSD . . . Multi Scale DiscriminatorRNN . . . Recurrent Neural NetworkTTS . . . Text-to-speech

VC . . . Voice Conversion

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Các hệ thống chuyển văn bản thành giọng nói tạo ra nhằm giúp những ngườikhuyết tật về thị giác bằng cách cung cấp cơng cụ để có thể đưa văn bản thànhâm thanh nói để họ có thể nghe và tiếp nhận được. Khơng chỉ vậy , TTS cịn giúpcác cá nhân có thể nghe và tiếp thu các nội dung trên dạng giấy văn bản khi đangdi chuyển hoặc bất kỳ khu vực nào thuận tiện. TTS giúp cho các thông tin củanhân loại có sẵn ở nhiều định dạng giúp mọi người có thể truy cập nhanh hơn,tăng cường khả năng truyền thông đến mọi người.

Công nghệ ngày càng phát triển, các mơ hình mới hầu như đều có thể tạo rakết quả đúng cho câu truy vấn cần tổng hợp giọng nói, tuy nhiên nhìn chung các

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Hình 1.1: Q trình xử lý tổng hợp giọng nói từ văn bản

mơ hình tạo ra giọng nói đang đi theo bước tái tạo lại giọng nói của dữ liệu vàotạo giọng nói đầu ra vẫn cịn kém tự nhiên và cảm xúc. Khơng chỉ vậy, TTS địihỏi cần nó một khối lượng lớn ghi âm khổng lồ để có thể đạt được kết quả tốt.

Hiện nay, có khoảng 6500 ngơn ngữ trên thế giới. Trong số đó, tiếng Anh vàtiếng Trung là phổ biến nhất và có nguồn dữ liệu dồi dào nhất cho các tác vụ huấnluyện trong bài tốn tổng hợp giọng nói. Tuy nhiên, vẫn cịn một số ngơn ngữ íttài ngun khác như tiếng Việt chưa được khai thác tốt. Bất kể ngơn ngữ đó cótài ngun phong phú hay ít, thì cần phải có một lượng lớn dữ liệu để xây dựngvà đào tạo một hệ thống như vậy. Quy trình điển hình là thuê một người bản ngữchuyên nghiệp để đọc hàng chục giờ tài liệu trong một môi trường rõ ràng. Hơnnữa, môi trường phải đi kèm với micrô chất lượng cao, duy trì sự nhất qn trongchất lượng giọng nói của diễn viên.

Người Bahnar là dân tộc thiểu số ở Việt Nam, được chính phủ ưu tiên bảotồn văn hóa, truyền thống và ngôn ngữ của họ. Với sự đổi mới của cơng nghệ AIngày nay, việc tổng hợp giọng nói Bahnar có tiềm năng rất lớn trong nỗ lực này.Sự tiến bộ của cơng nghệ chuyển đổi giọng nói đã cải thiện đáng kể chất lượngvà tính tự nhiên của giọng nói tổng hợp. Tuy nhiên, những tiến bộ này chủ yếutập trung vào các ngôn ngữ được sử dụng rộng rãi, khiến các ngơn ngữ có nguồntài ngun thấp, chẳng hạn như họ ngơn ngữ Bahnaric, có nguồn lực hạn chế đểtổng hợp giọng nói. Việc xây dựng mơ hình TTS cho tiếng Bahnar là ngơn ngữcủa một dân tộc thiểu số ở Việt Nam giúp cho việc tiếp cận thông tin và giáo dụccho họ dễ dàng hơn. Nó mở ra cánh cửa cho việc tạo ra tài liệu, sách giáo trình,

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

tài liệu hướng dẫn và nhiều nguồn thông tin khác được chuyển đổi thành giọngnói dễ hiểu hơn. Khơng chỉ vậy, việc đưa ra được mơ hình TTS cho tiếng Bahnarcịn khắc phục rào cản giao tiếp giữa các dân tộc anh em hơn, với TTS có thể gópphần tạo ra một phương tiện mới để truyền đạt ý kiến, tương tác xã hội và thamgia vào cộng đồng một cách dễ dàng hơn. Ngồi ra, nó góp phần trong việc bảotồn ngơn ngữ này. Do đó việc ứng dụng và xây dựng mơ hình TTS cho tiếng ngườidân tộc thiểu số Bahnar sẽ là bài tốn có ích cho cuộc sống tuy nhiên sẽ tháchthức về mặt xử lý và làm giàu dữ liệu vì nguồn dữ liệu cho việc tạo ra mơ hìnhTTS cho ngơn ngữ này khá hạn chế.

Luận văn này giải quyết thách thức trong việc tổng hợp giọng nói có âm tựnhiên trong các ngơn ngữ có nguồn tài nguyên thấp bằng cách khám phá ứng dụngkỹ thuật chuyển đổi giọng cho ngôn ngữ Bahnaric. Trong luận văn này, học viênxin được đề xuất mơ hình hợp hệ thống chuyển văn bản thành giọng nói dựa trênGradTTS và kỹ thuật chuyển đổi giọng nói dựa trên StarGANv2, được điều chỉnhcho phù hợp với ngôn ngữ Bahnaric. GradTTS cho phép hệ thống phát âm các từtiếng Bahnaric mà không bị giới hạn từ vựng, trong khi StarGANv2 nâng cao tínhtự nhiên của lời nói tổng hợp khi có nguồn gốc từ các ngơn ngữ có nguồn tài ngunthấp như tiếng Bahnaric. Ngồi ra, mơ hình cũng có sự đóng góp với HifiGAN đượctinh chỉnh với tiếng Bahnaric giúp cải thiện chất lượng giọng nói với giọng bản địa.

1.2Mục tiêu và nhiệm vụ của luận văn

Mục tiêu của luận văn hướng đến việc nghiên cứu và xây dựng mơ hình tổnghợp giọng nói sử dụng học sâu từ văn bản. Cụ thể:

– Nắm được các phương pháp giải quyết cho Bài tốn tổng hợp giọng nói vàcác kiến thức liên quan, đặc biệt là các phương pháp gần đây sử dụng các mơhình học sâu

– Đưa ra được đề xuất có thể cải thiện hiệu suất của mơ hình dựa trên thựcnghiệm.

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Từ những mục tiêu trên, học viên đề ra các nhiệm vụ cần thực hiện trong qtrình hồn thiện luận văn:

– Tìm hiểu về các mơ hình tổng hợp giọng nói, các cơng trình liên quan, cácphương pháp giải quyết bài toán, ưu và nhược điểm của các phương pháp,đặc biệt là phương pháp sử dụng các mơ hình học sâu.

– Nghiên cứu và đề xuất cải thiện các mơ hình cho Bài tốn tổng hợp giọngnói, đặc biệt là với ngơn ngữ có ít dữ liệu.

– Thu thập tập dữ liệu thực tế và thực hiện xử lý dữ liệu để cho quá trình huấnluyện và đánh giá cho mơ hình đề xuất.

– Thực nghiệm, đánh giá kết quả của các mơ hình đề xuất trên các tập dữ liệuđã được xử lý trước đó.

– Chỉ ra những hạn chế và vấn đề tồn đọng, đề xuất các giải pháp cải tiến vàmở rộng của bài toán trong tương lai.

1.3Giới hạn đề tài

Tổng hợp giọng nói là một bài tốn rộng và có nhiều tác vụ cũng như nhiềucách tiếp cận khác nhau, vì vậy nội dung của luận văn sẽ được giới hạn như sau:

– Đề tài tập trung chủ yếu vào việc tổng hợp giọng nói.

– Tập dữ liệu được sử dụng là tập tiếng dân tộc thiểu số Bahnar– Tìm hiểu các phương pháp và đưa ra đề xuất cho bài tốn.

– Xây dựng được mơ hình có thể tổng hợp tiếng Bahnar với độ chính xác, tựnhiên và có giọng đọc tự nhiên

1.4Đóng góp của luận văn

Trong luận văn, học viên đề xuất mơ hình kết hợp các mơ hình để có kết quảtốt nhất trên tập dữ liệu tiếng Bahnar

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

– Thực hiện việc thu thập và tiền xử lý dữ liệu tệp âm thanh cho q trìnhhuấn luyện

– Đề xuất mơ hình kết hợp các mơ hình để có kết quả tốt nhất trên tập dữ liệutiếng Bahnar

– Chương 2, CƠ SỞ LÝ THUYẾT: tổng hợp những vấn đề học thuật liênquan nhất sẽ áp dụng để giải quyết bài toán, tập trung chủ yếu vào nội dungcủa học sâu, từ Mạng nơ ron nhân tạo (Artificial Neural Network), Mạng đốinghịch (Generative Adversarial Networks) và các kiến thức liên quan.

– Chương 3, CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN: trìnhbày một cách tổng quát về những nghiên cứu liên quan đã và đang được thựchiện, cũng như xu hướng chung hiện nay trong việc giải quyết bài toán. Phầnnày cũng đưa ra những bàn luận và đánh giá cho các phương pháp kể trên vìđó là cơ sở quan trọng cho những nghiên cứu của học viên trong quá trìnhthực hiện luận văn.

– Chương 4, MƠ HÌNH ĐỀ XUẤT: giới thiệu mơ hình cơ sở cho bài toán.Đồng thời đưa ra các cải tiến và động lực cho các đề xuất đó. Cuối cùng, họcviên trình bày các bước tiến hành thí nghiệm trên những tập dữ liệu khácnhau và đánh giá kết quả của những cải tiến so với mơ hình cơ sở.

– Chương 5, KẾT LUẬN: tổng hợp các kết quả đạt được trong quá trìnhthực hiện luận văn từ bước nghiên cứu và xây dựng giả thuyết đến triển khaithực nghiệm. Phần này cũng trình bày những hạn chế và vấn đề tồn đọng,cuối cùng đề xuất các giải pháp cải tiến trong tương lai.

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Mục lục, Danh sách hình vẽ, Danh sách bảng, Thuật ngữ và từ viết tắtđược cung cấp ở đầu luận văn. Tài liệu tham khảo sẽ được trình bày ở cuối luậnvăn.

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Chương 2

CƠ SỞ LÝ THUYẾT 2.1Mel-spectrogram

Audio Data có được bằng cách lấy mẫu từ Sound Analog Signal theo một chukỳ thời gian và đo đặc giá trị của biên độ tại mỗi thời điểm lấy mẫu đó. AudioData được lưu lại thành file theo một trong các định dạng nén (.mp3, .wav, . . . ).Khi đọc lên bằng các thư viện xử lý, nó được giải nén và chuyển thành một NumpyArray. Mảng dữ liệu này là giống nhau cho dù Audio Data được lưu dưới bất kỳđịnh dạng nào.

Trong bộ nhớ, Audio có thể coi là một chuỗi các giá trị của biên độ theo thờigian. Ví dụ, nếu tần số lấy mẫu là 16800Hz thì cứ 1s Audio sẽ có 16800 giá trịbiên độ. Khoảng giá trị của biên độ được quy định bởi thông số bit-length. Ví dụ,bit-length bằng 16 có nghĩa là biên độ có thể có giá trị trong khoảng từ 0 đến 15 .Bit-length càng lớn thì chất lượng của Audio càng tốt. Đây là dạng nguyên thủycủa spectrogram và chúng ta không thể thấy rõ được các thông tin về tần số, biênđộ mà spectrogram thể hiện. Điều này được giải thích là do khả năng nhận thứcâm thanh của con người. Hầu hết những âm thanh mà chúng ta nghe được đềutập trung xung quanh một dải tần số và biên độ khá hẹp.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

Để giải quyết vấn đề này, spectrogram được chuyển sang một dạng mới, gọilà mel-spectrogram mà ở đó:

• Tần số được thay thế bằng giá trị logarithmic của nó, gọi là Mel Scale.• Biên độ được thay thế bằng giá trị logarithmic của nó, gọi là Decibel Scale.

Hình 2.1: Ảnh mel-spectrogram của âm thanh [1]

2.2Mơ hình Artificial Neural Network - ANN

Mơ hình Artificial Neural Network - ANN (Mạng nơ-ron nhân tạo) [2] là mơhình tính tốn được xây dựng lấy ý tưởng từ cấu trúc và cách hoạt động của mạngnơ-ron thần kinh trong não người nhằm thực hiện một tác vụ nào đó với tập thơngtin đầu vào. Một mạng nơ-ron thần kinh được tạo nên từ nhiều nơ-ron sinh họckết nối và hoạt động cùng nhau. Chúng hoạt động bằng cách tiếp nhận các thôngtin đưa vào từ các đuôi gai (dendrite), tính tốn và tổng hợp tại thân nơ-ron (cellbody), sau đó lan truyền kết quả đến các nơ-ron khác thơng qua sợi trục (axon).Có thể dễ dàng rút ra nhận xét rằng nơ-ron sinh học nhận nhiều thông tinđầu vào nhưng chỉ đưa ra một kết quả duy nhất thơng qua q trìnhxử lý trung gian phức tạp.

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

Tương tự như cách thức hoạt động nêu trên của mạng nơ-ron thần kinh,ANN cũng được cấu thành từ nhiều nơ-ron được gọi là perceptron có cấu trúc nhưHình 2.2. Trong đó:

– x<sub>1</sub>, x<sub>2</sub>, x<sub>3</sub>, ..., x<sub>n</sub> lần lượt là các biến đại diện cho dữ liệu đầu vào.

– phép cộng (summation) và hàm kích hoạt (activation function) là các phéptính tốn và tổng hợp các thơng tin dữ liệu đầu vào.

– w<small>1</small>, w<small>2</small>, w<small>3</small>, ..., w<small>n</small> là các trọng số cần phải học, đóng vai trị tham gia q trìnhtính tốn và chuyển đổi các thơng tin đầu vào thành thông tin đầu ra.– y là output của tiến trình, đại diện cho dữ liệu đầu ra.

Hình 2.2: Cấu trúc của một Perceptron

Cụ thể hơn, phương thức tính tốn và tổng hợp dữ liệu của một perceptronđược mô tả theo từng bước sau:

1. Perceptron thực hiện phép cộng bằng cách tính tổng giá trị tất cả các tích sốcủa từng cặp dữ liệu đầu vào và giá trị trọng số tương ứng:

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

2. Kết quả a của phép cộng được đưa qua một hàm kích hoạt phi tuyến nhưSigmoid, Tanh, ReLU, LeakyReLU được minh họa ở Hình 2.3.

Hình 2.3: Các hàm phi tuyến được sử dụng trong Perceptron

3. Sau đó, perceptron thực hiện phép so sánh giá trị nhận được từ hàm kíchhoạt f(a) với một giá trị ngưỡng (threshold ) cho trước nhằm xác định giá trịđầu ra ˆy như là tín hiệu kích hoạt của perceptron.

ˆy =

1 iff (a) ≥ threshold

0 iff (a) < threshold <sup>(2.2)</sup>Bằng cách kết hợp nhiều perceptron với nhau sẽ tạo nên cấu trúc mơ hìnhmạng ANN. Mạng ANN bao gồm nhiều perceptron như là các nút mạng tính tốnlàm tăng tính phức tạp cũng như khả năng học cho mạng, các perceptron đó hìnhthành nên các tầng như sau:

– Tầng đầu vào (input layer): là tầng đầu tiên, thể hiện các dữ liệu đầu vàocủa mơ hình.

– Tầng ẩn (hidden layer): là tầng nằm giữa gồm các phép tính tốn nhằmchuyển đổi dữ liệu đầu vào sang dữ liệu đầu ra.

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

– Tầng kết quả (output layer): là tầng cuối cùng thể hiện dữ liệu đầu ra củamạng.

Số lượng tầng ẩn trong mơ hình ANN là không giới hạn và được xác định tùythuộc vào bài toán cần giải quyết. Đặc biệt, khi số lượng tầng ẩn lớn hơn 1 thì mơhình ANN được gọi là mơ hình Học sâu (Deep learning).

2.3Mạng tích chập Convolutional Neural work - CNN

Net-Mạng tích chập có 02 phần chính: Lớp trích lọc đặc trưng của ảnh (Conv,Relu và Pool) và Lớp phân loại (FC và softmax).

Đầu vào (dữ liệu training):

Hình 2.4: Mơ hình CNN cơ bản

• Input đầu vào là một bức ảnh được biểu diển bởi ma trn pixel vi kớch thc:[w ì h ì d]

ã W: chiều rộng• H: chiều cao

• D: Là độ sâu, hay dễ hiểu là số lớp màu của ảnh. Ví dụ ảnh RBG sẽ là 3 lớpảnh Đỏ, Xanh Dương, Xanh.

Conv Layer: Mục tiêu của các lớp tích chập là trích chọn các đặc trưng củaảnh đầu vào. Ảnh đầu vào được cho qua một bộ lọc chạy dọc bức ảnh. Bộ lọc có

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

kích thước là m × n và áp dụng phép tích vơ hướng để tính tốn, cho ra một giátrị duy nhất. Đầu ra của phép tích chập là một tập các giá trị ảnh được gọi làmạng đặc trưng (features map).

Phép tích chập đơn giản là phép tìm biên ảnh. Sau khi cho qua bộ lọc nó sẽlàm hiện lên các đặc trưng của đối tượng trong ảnh như đường vẽ xung quanh đốitượng, các góc cạnh,v.v.., và các layer tiếp theo sẽ lại trích xuất tiếp các đặc trưngcủa đặc trưng của các đối tượng đó, việc có nhiều layer như vậy cho phép chúngta chia nhỏ đặc trưng của ảnh tới mức nhỏ nhất có thể.

ReLU Layer: ReLU layer áp dụng các kích hoạt (activation function) max(0,x)lên đầu ra của Conv Layer, có tác dụng đưa các giá trị âm về thành 0. Layer nàykhơng thay đổi kích thước của ảnh và khơng có thêm bất kì tham số nào. Mụcđích của lớp ReLu là đưa ảnh một mức ngưỡng, ở đây là 0. Để loại bỏ các giátrị âm không cần thiết mà có thể sẽ ảnh hưởng cho việc tính tốn ở các layer sau đó.

Pool Layer: Pool Layer thực hiện chức năng làm giảm chiều không gian củađầu và giảm độ phức tạp tính tốn của model ngồi ra Pool Layer cịn giúp kiểmsốt hiện tượng overffiting. Thơng thường, Pool layer có nhiều hình thức khácnhau phù hợp cho nhiều bài toán, tuy nhiên Max Pooling là được sử dụng nhiềuvào phổ biến hơn cả với ý tưởng cũng rất sát với thực tế con người đó là: Giữ lại chitiết quan trọng hay hiểu ở trong bài tốn này chính giữ lại pixel có giá trị lớn nhất.

Fully Connected Layer (FC): Tên tiếng việt là Mạng liên kết đầy đủ. Tạilớp mạng này, mỗi một nơ-ron của layer này sẽ liên kết tới mọi nơ-ron của lớpkhác. Để đưa ảnh từ các layer trước vào mạng này, buộc phải dàn phẳng bức ảnhra thành 1 vector thay vì là mảng nhiều chiều như trước. Tại layer cuối cùng sẽsử dụng 1 hàm kinh điển trong học máy softmax để phân loại đối tượng dựa vàovector đặc trưng đã được tính tốn của các lớp trước đó.

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

2.4Mơ hình mạng Generative Adversarial works

Net-Generative Adversarial Networks [3] hay còn gọi Mạng đối nghịch tạo sinh(GAN) là một kiến trúc học sâu. GAN đào tạo hai mạng neuron cạnh tranh vớinhau nhằm tạo ra dữ liệu mới xác thực hơn từ một tập dữ liệu đào tạo nhất định.GAN được gọi là đối nghịch vì đào tạo hai mạng khác nhau và để hai mạng nàycạnh tranh với nhau. Một mạng tạo ra dữ liệu mới bằng cách lấy mẫu dữ liệu đầuvào và sửa đổi mẫu đó nhiều nhất có thể. Mạng cịn lại cố gắng dự đốn liệu đầura dữ liệu được tạo có thuộc tập dữ liệu ban đầu hay khơng. Nói cách khác, mạngdự đoán sẽ xác định liệu dữ liệu được tạo là dữ liệu giả hay thật. Hệ thống tạo racác phiên bản giá trị dữ liệu giả mới hơn và được cải thiện cho đến khi mạng dựđốn khơng thể phân biệt được dữ liệu giả và dữ liệu gốc nữa.

Có nhiều loại mơ hình GAN khác nhau, tùy thuộc vào cơng thức tốn học được

Hình 2.5: Mơ hình mạng Generative Adversarial Networks

sử dụng và các cách khác nhau để máy tạo và máy phân biệt tương tác với nhau.Các mơ hình GAN chủ yếu gồm:

• Mơ hình GAN đơn thuần• Mơ hình GAN có điều kiện• Mơ hình GAN tích chập

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

• Mơ hình GAN siêu phân giải

2.4.1Mơ hình sinh (Generator)

Mơ hình sinh nhận vào một vector ngẫu nhiên có độ dài cố định làm đầu vàovà tạo ra một mẫu trong miền dữ liệu. Vector này được rút ra ngẫu nhiên từ phânphối Gaussian, và vector này được sử dụng để khởi tạo quá trình tạo sinh. Sau qtrình huấn luyện, các điểm trong khơng gian vector đa chiều này sẽ tương ứng vớicác điểm trong miền dữ liệu, tạo thành một biểu diễn nén của phân phối dữ liệu.Không gian vector này được gọi là khơng gian ẩn, hoặc một khơng gian vector bao

Hình 2.6: Mơ hình sinh (Generator)

gồm các biến ẩn. Biến ẩn là những biến quan trọng cho một miền dữ liệu nhưngkhông thể quan sát trực tiếp.

Chúng ta thường đề cập đến biến ẩn, hoặc không gian ẩn, như là việc chiếu hayviệc nén của một phân phối dữ liệu. Nói cách khác, không gian ẩn cung cấp mộtphép nén hoặc khái niệm cấp cao về dữ liệu thô quan sát như phân phối dữ liệuđầu vào. Trong trường hợp của GANs, mơ hình sinh áp dụng ý nghĩa cho các điểmtrong không gian ẩn được lựa chọn, sao cho các điểm mới được rút ra từ khơnggian ẩn có thể được cung cấp cho mơ hình sinh làm đầu vào và được sử dụng đểtạo ra các mẫu mới và khác nhau. Sau q trình huấn luyện, mơ hình sinh có thểđược giữ và dùng để tạo ra các mẫu mới.

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

2.4.2Mơ hình phân biệt (Discriminator)

Mơ hình phân biệt nhận một mẫu giá trị từ miền dữ liệu làm đầu vào (thựctế hoặc được tạo ra) và dự đoán một nhãn lớp nhị phân là thực tế hoặc giả mạo(được tạo ra). Mẫu thực tế được lấy từ bộ dữ liệu huấn luyện. Các mẫu được tạora bởi lấy từ đầu ra của mơ hình sinh.

Mơ hình phân biệt là một mơ hình phân loại thơng thường trong học máy. Sau

Hình 2.7: Mơ hình phân biệt (Discriminator)

q trình huấn luyện, mơ hình discriminator bị loại bỏ vì chúng ta quan tâm đếnmơ hình sinh.

Đơi khi, mơ hình sinh có thể được tái sử dụng vì nó đã học cách trích xuấtđặc trưng một cách hiệu quả từ các ví dụ trong miền dữ liệu của vấn đề. Mộtsố hoặc tồn bộ các lớp trích xuất đặc trưng có thể được sử dụng trong các ứngdụng học chuyển giao bằng cách sử dụng dữ liệu đầu vào tương tự hoặc giống nhau.

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

2.5Mơ hình mạng Long short term memory

Trong các bài tốn phần tích ngơn ngữ tự nhiên (NLP), dữ liệu đầu vào củacác mô hình thường là một câu gồm nhiều từ, độ dài của câu khơng cố định vàgiữa các từ lại có quan hệ ngữ nghĩa với nhau. Do đó ta khơng thể chỉ sử dụngANN để giải quyết các bài toán NLP. Recurrent Neural Networks (RNN) đã đượcphát triển để giải quyết vấn đề này. Ý tưởng chính của RNN là việc tính tốn chođầu ra tại thời điểm thứ t sẽ phụ thuộc vào đầu vào tại thời điểm t và đầu ra tạithời điểm t − 1, vì sử dụng lại đầu ra tại các thời điểm trước đó là một đặc điểmcủa hồi quy (Recurrent) vì vậy, kiến trúc mạng như thế này được gọi là RecurrentNeural Network.

Một vấn đề khi sử dụng RNN đó là vấn đề phụ thuộc gần xa, tức là RNNkhông thể nhớ được các thơng tin q dài, nói cách khác với các câu quá dài,RNN sẽ quên dần các thông tin ở đầu câu khi tính tốn cho các từ ở cuối câu.Về lý thuyết, RNN có thể sử dụng tất cả các thông tin từ bước đầu tiên cho đếnbước hiện tại để tính tốn giá trị đầu ra ở bước hiện tại, nhưng vì càng qua nhiềubước tính tốn, đạo hàm càng tiêu biến dẫn đến việc RNN "quên" các thông tin ởquá xa so với bước hiện tại. Để giải quyết vấn đề này, có nhiều biến thể của RNNđược đề xuất, phổ biến nhất là Gated Recurrent Unit (GRU) và Long Short TermMemory (LSTM). Tuy nhiên trong phần này, học viên chỉ trình bày LSTM vì nóđược sử dụng rộng rãi nhất.

Kiến trúc của LSTM [4] phức tạp hơn RNN rất nhiều. Để nhớ được nhiềuthông tin, LSTM sử dụng các cổng để giữ lại các thông tin quan trọng và bỏ đinhững thông tin dư thừa. Thành phần quan trọng nhất của LSTM là cell state,đây chính là bộ nhớ của LSTM, ngồi ra cịn một thành phần khác là hiddenstate. Cell state và hidden state ở thời điểm t được kí hiệu là C<sub>t</sub> và h<sub>t</sub>. Cell statevà hidden state sẽ lần lượt được cập nhật ở mỗi thời điểm thông qua các cổng, chitiết như sau:

• Cổng forget giúp tính tốn các thơng tin cần loại bỏ:

f<sub>t</sub>= σ (W<sub>f</sub>[h<sub>t−1</sub>, x<sub>t</sub>] + b<sub>f</sub>) (2.3)

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

Hình 2.8: Kiến trúc của LSTM [4]• Cổng input giúp tính tốn các thơng tin cần giữ lại:

i<sub>t</sub>= σ (W<sub>i</sub>[h<sub>t−1</sub>, x<sub>t</sub>] + b<sub>i</sub>) (2.4)• Cổng output giúp tính tốn các thông tin cần xuất ra ở bước hiện tại:

o<sub>t</sub> = σ (W<sub>o</sub>[h<sub>t−1</sub>, x<sub>t</sub>] + b<sub>o</sub>) (2.5)• Cập nhật cell state bằng cách sử dụng cổng input và cổng forget:

C<sub>t</sub>= f<sub>t</sub>∗ C<sub>t−1</sub>+ i<sub>t</sub>∗ ˜C<sub>t</sub> (2.6)

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

với ˜C<sub>t</sub> được tính bằng:˜

C<sub>t</sub>= tanh (W<sub>C</sub>[h<sub>t−1</sub>, x<sub>t</sub>] + b<sub>C</sub>) (2.7)• Cập nhật hidden state bằng cách sử dụng cổng output:

h<sub>t</sub>= o<sub>t</sub>∗ tanh (C<sub>t</sub>) (2.8)

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

Chương 3

CƠNG TRÌNH NGHIÊNCỨU LIÊN QUAN

3.1Các kỹ thuật cho bài toán tổng hợp tiếng nóitừ văn bản

Hình 3.1: Các hướng tiếp cận cho bài tốn tổng hợp giọng nói

Tổng hợp giọng nói từ văn bản là một lĩnh vực nghiên cứu phổ biến trong cáclĩnh vực giọng nói, ngơn ngữ và máy học với nhiều ứng dụng. Phát triển một hệthống tổng hợp giọng nói từ văn bản dường như là một nhiệm vụ khó khăn vì nó

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

địi hỏi sự hiểu biết về ngôn ngữ và cách tạo ra giọng nói của con người, cũng nhưchun mơn trong nhiều lĩnh vực như ngơn ngữ học, âm học, xử lý tín hiệu số vàhọc máy.

Các cách tiếp cạn và phương pháp cho việc xây dựng một hệ thống tổng hợpgiọng nói từ văn bản đã có từ thế kỷ 12. Về hệ thống xây dựng trên máy tính,hệ thống tổng hợp giọng nói đầu tiên ra đời vào nửa sau thế kỷ 20. Các hệ thốngnày tận dụng các phương pháp cổ điển bao gồm tổng hợp khớp nối, tổng hợp địnhdạng và tổng hợp nối tiếp. Bên cạnh đó, các phương pháp theo hướng tiếp cậnbằng xác suất nói chung và phương pháp tiếp cận bằng các mơ hình học máy họcsâu phát triển cho ra các kết quả đầy hứa hẹn với nhịp điệu, trọng âm, cao độ vàâm điệu, tất cả đều mang thông tin cảm xúc và ý nghĩa bên cạnh các từ.

3.1.1Phương pháp tổng hợp khớp nối (Articulatory thesis)

syn-Tổng hợp giọng nói dựa trên phương pháp tổng hợp khớp nói sử dụng mơhình về các cơ quan nói cơ bản như lưỡi, và khí quản, để tạo ra âm thanh. Thay vìtập trung vào cấu trúc hình thái và quy tắc như trong tổng hợp hình thái, phươngpháp tổng hợp khớp nối tập trung vào mô phỏng chính xác các chuyển động cơhọc của các cơ quan nói khi hình thành tiếng.

Mơ hình hố cơ quan mơ phỏng giọng nói: phương pháp tổng hợp khớp nốimơ hình hố các cơ quan cơ bản của cơ thể người phụ trách cho việc phát ra giọngnói như lưỡi, mơi, phế quản, ... Mỗi cơ quan nói được biểu diễn như một bộ phậncủa mơ hình và được điều khiển để tạo ra các chuyển động phù hợp với ngữ cảnhvà nội dung của văn bản.

Mô phỏng các chuyển động cơ học: các chuyển động của các cơ quan nói, baogồm cả việc mở đóng cửa cơ bản, di chuyển của lưỡi, và thay đổi hình dạng củamơi, cần được mơ phỏng chính xác trong phương pháp tổng hợp khớp nối. Cácthông số như tốc độ, giai đoạn, và độ lớn của các chuyển động được tính tốn đểtạo ra âm thanh phù hợp.

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Do đó, phương pháp này có thể tạo ra giọng nói với tính linh hoạt, rõ ràngvà tự nhiên cao. Có thể điều chỉnh chi tiết các cơ quan nói để tạo ra các giọng nóikhác nhau, từ giọng trẻ trung đến giọng già, từ giọng nam tính đến giọng nữ tínhvới khả năng mơ phỏng chính xác các chuyển động cơ học.

Tuy nhiên, để đạt được việc mơ hình hố chính xác các bộ phận để mơ phỏnggiọng nói và các chuyển động cơ học kèm theo là một thách thức, và phức tạp vìcần hiểu rõ về cách tương tác để tạo ra âm thanh tự nhiên. Đồng thời, việc kếthợp các mơ hình lại cũng địi hỏi rất nhiều tính tốn để đạt được kết quả đầu ra.

Tổng qt, phương pháp tổng hợp khớp nối là một phương pháp tổng hợpgiọng nói từ văn bản mà nỗ lực mơ phỏng cơ bản cụ thể của cơ quan nói, mang lạikết quả âm thanh có chất lượng cao nhưng địi hỏi nhiều tài ngun, chi phí tínhtốn cao cùng nhiều dữ liệu đào tạo và kiến thức vững về cấu trúc cơ quan nói.

3.1.2Phương pháp tổng hợp hình thái (Formant synthesis)

Phương pháp tổng hợp hình thái cho tổng hợp giọng nói tập trung vào việctạo ra âm thanh bằng cách mơ phỏng các hình thái âm sắc và các đặc điểm phổkhác của tiếng nói. Âm sắc là các đỉnh của phổ âm thanh được tạo ra bởi cấutrúc của đường ống nói và cơ quan nói. Phương pháp tổng hợp hình thái sử dụngmột mơ hình của q trình nguồn-lọc trong sản xuất tiếng nói. Nó giả định rằngâm thanh tiếng nói có thể được mơ tả bằng một nguồn âm (source) và một bộ lọc(filter) tương ứng. Nguồn âm thường được mơ tả bằng các hàm sóng cơ bản, chẳnghạn như xung vuông, và bộ lọc được biểu diễn bằng các formant. Các formant làcác đỉnh trên đồ thị phổ âm thanh, và mỗi formant được đặc trưng bởi tần số vàđộ lớn của nó. Người nói có thể tạo ra các âm thanh khác nhau bằng cách thayđổi vị trí và độ lớn của các formant. Điều này có thể được kiểm sốt bằng cáchsử dụng một tập hợp quy tắc được xác định bởi những người nghiên cứu về ngơnngữ và giọng nói.

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

Hình 3.2: Phương pháp tổng hợp hình thái

Phương pháp Formant synthesis linh hoạt trong việc tạo ra các loại âm thanhkhác nhau. Bằng cách điều chỉnh tần số và độ lớn của các dao động sóng, ngườita có thể tạo ra các giọng nói khác nhau và các giọng địa phương khác nhau.

Phương pháp này khơng địi hỏi một lượng lớn dữ liệu đào tạo, và tính tốncủa nó thường ít hơn so với một số phương pháp khác.Tuy nhiên, do sự phụ thuộcvào quy tắc và cấu hình thủ cơng của bộ lọc, mặc dù khó xác định, nhưng khơngthể bắt chước hồn tồn giọng nói của con người, nên giọng nói được tạo ra sẽnghe kém tự nhiên hơn và có thể khá giả tạo.

Phương pháp tổng hợp hình thái thường được sử dụng trong các ứng dụngnơi cần tạo ra giọng nói nhân tạo, chẳng hạn như trong hệ thống trợ lý ảo, cácứng dụng học tiếng, và trong môi trường nghiên cứu âm thanh. Phương pháp nàycung cấp một cách tiếp cận linh hoạt và hiệu quả để tổng hợp giọng nói từ vănbản, mặc dù với một số hạn chế liên quan đến sự tự nhiên của âm thanh và địihỏi sự chính xác trong cách tạo ra quy tắc, bộ lọc và cấu hình.

3.1.3Phương pháp tổng hợp nối tiếp (Concatenative thesis)

Syn-Phương pháp tổng hợp nối tiếp là một trong những phương pháp phổ biếntrong tổng hợp giọng nói từ văn bản, dựa trên việc kết hợp các đoạn giọng nóithực tế để tạo ra câu nói hoặc đoạn văn. Đơn vị cơ bản trong tổng hợp nối tiếp

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

được gọi là "đoạn giọng nói" (units), và thường là các đoạn ngắn từ nguồn dữ liệugiọng nói thực tế, thường dài khoảng từ 10ms đến vài giây. Các đoạn này có thểlà các từ, từ phụ âm, nguyên âm, hoặc thậm chí là các câu ngắn, tùy thuộc vàomức độ chi tiết mà hệ thống mong muốn.

Để có thể tổng hợp giọng nói dựa trên phương pháp tổng hợp nối tiếp, cầncó một cơ sở dữ liệu lớn của giọng nói đã được ghi âm từ người nói thực tế. Cơ sởdữ liệu này chứa các đoạn giọng nói đã được phân đoạn và gán nhãn. Để có thểtổng hợp giọng nói dựa trên phương pháp tổng hợp nối tiếp, cần có một cơ sở dữliệu lớn của giọng nói đã được ghi âm từ người nói thực tế. Cơ sở dữ liệu này chứacác đoạn giọng nói đã được phân đoạn và gán nhãn. Các đoạn giọng nói trong cơsở dữ liệu được phân đoạn và gán nhãn để xác định điểm đầu và điểm cuối củatừng đoạn, cũng như thông tin về âm giai đoạn và các thuộc tính khác như cườngđộ, tần số.

Trong quá trình tổng hợp, một bước quan trọng là chọn lựa đoạn giọng nóitừ cơ sở dữ liệu để kết hợp thành câu nói. Điều này thường được thực hiện thơngqua một thuật tốn "unit selection" để chọn những đoạn giọng nói tốt nhất dựatrên tiêu chí như mức độ mượt mà và tự nhiên của giọng.

Hình 3.3: Phương pháp tổng hợp nối tiếp

Một thách thức trong phương pháp tổng hợp nối tiếp là tạo ra các liên kếtmượt mà giữa các đoạn giọng nói khác nhau. Các thuật toán chuyển tiếp cố gắng

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

làm cho các đoạn nối với nhau một cách tự nhiên nhất có thể. Lợi ích chính củaphương pháp này là khả năng tạo ra giọng nói tự nhiên và có chất lượng cao, đặcbiệt là khi có một cơ sở dữ liệu lớn và đa dạng về người nói và ngữ cảnh.

Tuy nhiên, hạn chế của phương pháp này bao gồm kích thước lớn của cơ sởdữ liệu, địi hỏi tài ngun tính tốn cao, và khả năng hạn chế trong việc tạo ragiọng nói động và giọng nói đầu ra kém cảm xúc.

3.1.4Phương pháp tổng hợp tham số thống kê (StatisticalParametric Speech Synthesis)

Phương pháp tổng hợp tham số thống kê trong tổng hợp giọng nói sử dụngcác mơ hình thống kê để mơ tả đặc điểm giọng nói. Các mơ hình này thường đượchuấn luyện trên cơ sở dữ liệu giọng nói lớn để học các mối quan hệ thống kê giữacác đặc trưng của giọng nói và văn bản đầu vào. Các đặc trưng đầu vào thườngbao gồm văn bản, đặc trưng ngôn ngữ như từ loại, cấu trúc ngữ pháp, và các thôngtin ngữ cảnh khác như giọng địa phương, tình cảm.

Các mơ hình thống kê như Hidden Markov Models (HMMs) và GaussianMixture Models (GMMs) thường được sử dụng để mơ hình hóa các đặc trưngcủa giọng nói. Mỗi đặc trưng có thể được mơ tả bằng một phân phối thống kê.Các mơ hình cũng có thể mơ tả các q trình giọng nói như pitch, độ lớn, và độ dài.

Khi có một đoạn văn bản mới, phương pháp sử dụng mơ hình đã được huấnluyện để dự đốn các đặc trưng giọng nói tương ứng. Các đặc trưng này sau đóđược sử dụng để tổng hợp giọng nói. Nhờ vậy phương pháp tổng hợp tham sốthống kê có khả năng tạo ra giọng nói tự nhiên và linh hoạt với khả năng điềuchỉnh các đặc trưng như tốc độ, giọng địa phương, và tình cảm. Nó có thể áp dụngcho nhiều ngơn ngữ và giọng địa phương do có thể huấn luyện trên cơ sở dữ liệuđa dạng.

Các hướng tiếp cận của phương pháp tổng hợp giọng nói sử dụng thống kê:

</div>