Tải bản đầy đủ (.doc) (22 trang)

tóm tắt luận văn thạc sĩ kỹ thuật NGHIÊN cứu một số PHƯƠNG PHÁP TỔNG hợp TIẾNG nói

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (536.92 KB, 22 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC KỸ THUẬT CÔNG NGHIỆP

NGUYỄN ĐỨC THỌ
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI
LUẬN VĂN THẠC SĨ KỸ THUẬT ĐIỆN TỬ
THÁI NGUYÊN 2013
BẢNG TÓM TẮT LUẬN VĂN CAO HỌC
Ngành : Kỹ thuật điện tử - Khóa 13
1. Tên luân văn
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI
2. Người thực hiện: KS.Nguyễn Đức Thọ
3. Thông tin liên quan
Email:
Điện thoại di động: 0982108055

4. Tóm tắt nội dung:
CHƯƠNG 1: TỔNG QUAN VÊ TỔNG HỢP TIẾNG NÓI
1.1.Giới thiệu về tổng hợp tiếng nói
1.1.1.khái niệm về tổng hợp tiếng nói
Tổng hợp tiếng nói là việc tạo ra tiếng nói con người từ đầu vào là văn bản
hay các mã hóa ngữ âm. Hệ thống tổng hợp tiếng nói cho phép chuyển đổi nội dung
văn bản của một ngôn ngữ nhất định trong thực tế thành tiếng nói tương ứng. Tổng
hợp tiếng nói là một phần trong bài toán xử lý ngôn ngữ tự nhiên - bao gồm cả nhận
dạng và tổng hợp tiếng nói.
Một hệ thống tổng hợp tiếng nói từ văn bản chuyển đổi ngôn ngữ viết sang
tín hiệu tiếng nói. Chất lượng của một bộ tổng hợp tiếng nói được đánh giá bằng
mức độ giống nhau của nó với giọng nói con người. Ứng dụng của Hệ thống tổng
hợp tiếng nói từ văn bản ngày càng trở nên phổ biến, chúng ta có thể thấy hệ thống
này trong các hệ thống, thiết bị sử dụng tương tác người máy bằng tiếng nói (robot
thông minh, hệ thống dẫn đường, hệ thống khai thác thông tin), hệ thống hỗ trợ cho


người khiếm thị, người khuyết tật mất khả năng nói. Nhiều hệ điều hành đã bao
gồm cả bộ tổng hợp tiếng nói từ đầu thập niên 1980.
1.1.2.Mô hình của một bộ tổng hợp tiếng nói
- 1 -
Hình 1.1:Mô hình hệ thống TTS
1.1.2.1. Thành phần xử lý ngôn ngữ tự nhiên

Hình 1.2: Thành phần xử lý ngôn ngữ tự nhiên trong hệ tổng hợp tiếng nói.
* Phân tích văn bản
Phân tích văn bản là một thành phần ngôn ngữ độc lập trong hệ thống tổng
- 2 -
hợp. Mục đích của bước phân tích văn bản là diễn giải được văn bản đầu vào thành
một chuỗi văn bản để máy có thể hiểu và đọc đúng theo phiên đó. Quá trình này
bao gồm ba bước chính:
- Tiền xử lý: Mô đun tiền xử lý tổ chức các câu đầu vào thành dãy các từ.
Nó xác định các số, các từ viết tắt, tên riêng, thành ngữ và biến đổi chúng
thành dạng văn bản đầy đủ khi cần đến.
- Phân tích hình thái: nhiệm vụ cung cấp mọi khả năng loại từ của một từ
riêng lẻ dựa vào các cách phát âm cơ bản.
- Phân tích ngữ cảnh: xét các từ trong ngữ cảnh và từ loại đi với chúng
trong từng ngữ cảnh đó. Quá trình này phải xem xét các từ trong ngữ cảnh để
phiên âm phù hợp nhất với ngữ cảnh trong câu. Xử lý các khả năng xuất hiện sự
nhập nhằng về mặt ngữ nghĩa của từ hiện tại và các từ lân cận với nó.
* Chuyển ký tự thành âm thanh
Mô đun này xác định phiên âm âm vị của văn bản đầu vào. Trong phần này
có hai kiểu mô đun phổ biến nhất là mô đun dựa trên từ điển và mô đun dựa trên
luật.
* Sinh ngôn điệu
Thuật ngữ ngôn điệu liên quan đến tính chất nào đó của tín hiệu tiếng nói mà
liên quan đến thay đổi pitch, độ to nhỏ, độ dài âm tiết.

1.1.2.2. Thành phần xử tín hiệu số
Nói chung, mô đun xử lý tín hiệu số chọn các âm vị và thông tin ngôn điệu
từ đầu ra của mô đun xử lý ngôn ngữ tự nhiên và đưa chúng thành các tín hiệu
tiếng nói. Có hai kỹ thuật chính sử dụng trong mô đun xử lý tín hiệu số: tổng hợp
theo luật hoặc tổng hợp ghép dựa trên ghép nối.
* Tổng hợp dựa trên luật
- 3 -
Theo Dutoit thì tổng hợp dựa trên luật gồm dãy các luật mô tả ảnh hưởng
của các âm vị lên một âm vị khác và hầu như nó rất phù hợp với các nhà ngữ âm
học, chúng liên quan đến việc tích lũy kinh nghiệm, cách tiếp cận có khả năng
tạo ra máy phiên âm âm vị theo luật.
* Tổng hợp ghép nối
1.2. Lịch sử phát triển và ứng dụng tổng hợp tiếng nói
Tạo ra tiếng nói bằng máy là một ước mơ của loài người và là mục tiêu thách
thức các nhà khoa học trên thế giới nhiều thế kỉ qua. Máy nói đầu tiên do Wolfgang
Von Kempelen chế tạo năm 1791 mô phỏng bộ máy phát âm của người đã có thể
phát ra được một vài âm tố. Ở đầu thế kỉ này vào năm 1939, máy VODER của nhà
khoa học Dudley, phòng thí nghiệm AT&T BELL LABS đã thành công trong
việc mô hình hoá cộng hưởng của ống thanh bằng linh kiện điện tử. Hệ thống
điều khiển nhân công 10 bộ cộng hưởng bằng các phóm và chiết áp đã có thể tạo ra
một số câu nói có thể nghe được. Từ giữa những năm 1950 trở lại đây, sự ra đời của
máy tính điện tử đã cho phép tạo ra một cách có hệ thống các tham số để điều khiển
bộ tổng hợp tiếng nói. Cùng với sự phát triển như vũ bão của khoa học và công
nghệ thập kỉ 80, 90, kỹ thuật tổng hợp tiếng nói đã có những bước phát triển rất
quan trọng có sự đóng góp rất lớn của máy tính và xử lý tín hiệu số.
Các ứng dụng này tập trung ở các lĩnh vực sau:
• Học ngoại ngữ
• Trợ giúp người tàn tật
• Truyền thông tin bằng âm thanh
• Trong lưu trữ và khai thác dữ liệu

• Trong viễn thông
- 4 -
CHƯƠNG 2: CÁC PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI
2.1 Phương pháp tổng hợp theo cấu âm.
Tổng hợp theo cấu âm sử dụng mô hình phỏng sinh học. Trong mô hình
này, tiếng nói được đặc trưng không chỉ bằng tín hiệu âm thanh mà cả bằng vị trí
của các cơ quan cấu âm, sự tham gia của khoang mũi, áp suất không khí trong
phổi, lực căng của dây thanh. Nó bao gồm hoạt động tương tác phi tuyến giữa
nguồn kích (chấn động dây thanh hoặc hỗn loạn không khí) và trở kháng đầu vào
thay đổi theo thời gian của ống thanh. Phương pháp này còn được gọi là tổng hợp
theo mô hình hệ thống.
2.2 Phương pháp tổng hợp theo formant.
● Luật nhằm làm trơn các formant đích.
● Luật để chuyển đổi các hàm thời giam thành dạng sóng thanh.
2.3 Phương pháp Tổng hợp ghép nối
2.4 Phương pháp tổng hợp theo ghép chuỗi.
- 5 -
CHƯƠNG 3
CHUẨN HOÁ VĂN BẢN VÀ THUẬT TOÁN PHÂN TÍCH VĂN BẢN
3.1 Tổng quan
Chuẩn hóa văn bản giúp cho bộ tổng hợp tiếng nói có khả năng hiểu được
cấu trúc và thành phần văn bản cũng như được hướng dẫn về cách đọc văn bản. Các
yếu tố nhập nhằng trong văn bản là khó khăn chính cho việc chuẩn hóa.Chương 3 sẽ
đưa ra giải pháp để giải quyết các vấn đề của bài toán chuẩn hóa văn bản trong tiếng
Việt.
3.2.Các vấn đề đối với bài toán Chuẩn hóa văn bản tiếng Việt
3.2.1 Bài toán chuẩn hóa văn bản tiếng Anh
Hình 3-1 Mô hình chuẩn hóa văn bản cơ bản cho tiếng Anh Error:
Reference source not found.
Theo mô hình này, văn bản đầu vào được đưa qua một bộ phân tách từ là

Tokenizer. Tokenizer sử dụng dấu cách để phân biệt các token. Sau đó văn bản lúc
- 6 -
này là các token đã được phân tách sẽ được đưa qua bộ Splitter để chia các token
phức ra thành các token nhỏ hơn. Khi các token đã được phân tách hoàn toàn.
3.2.2 Đặc điểm văn bản tiếng Việt
Tuy rất hiệu quả cho tiếng Anh, mô hình chuẩn hóa văn bản tiếng Anh chưa áp
dụng ngay được cho tiếng Việt vì một số khác biệt giữa tiếng Anh và tiếng Việt đã
trình bày ở chương 1 là cấu tạo từ, bản chất ngôn ngữ khác nhau, sự nhập nhằng cao
và sự không có quy chuẩn thống nhất trong văn bản tiếng Việt, cộng với cách viết
tắt khác nhau của tiếng Việt và tiếng Anh. Nhưng trình tự và thành phần các mô-
đun trong mô hình này có thể được tham khảo và sửa đổi để ứng dụng phù hợp cho
tiếng Việt, vừa giải quyết được các vấn đề chung của bài toán chuẩn hóa văn bản,
vừa đáp ứng được những yêu cầu riêng trong tiếng Việt.
3.2.3.Sự tổ chức không có quy chuẩn của một token
Trong văn bản tiếng Việt có nhiều trường hợp một tổ hợp chữ (hay một
token) biểu diễn một ngữ nghĩa lại bị viết tách rời nhau. Ví dụ như trong các loại số
điện thoại “090 434 3443”, trong số đếm “100 000”, cũng có một số token do lỗi
trình bày bị viết tách nhau ra như “ngày 1/ 5”… Do đó không thể áp dụng việc
dùng dấu cách để xác định các token ngay được. Những trường hợp như trên cần
phải được nhóm lại thành một token theo cách “0904343443” hoặc “090.434.3443”
3.2.3.1 Sự phức tạp của NSW
Trong văn bản tiếng Việt có những trường hợp phải tách một token ra để có
thể đọc lên được bằng các luật phiên âm hay so khớp từ điển. Đó là thời gian (có thể
là 12h00 hoặc 12:00 hoặc 12 giờ 00), tiền tệ (975$ hoặc $975, 1.000.000vnd), đơn
vị đo (1m75 hoặc 1.75m, 1.5kg, 1m2…), ta gọi những trường hợp phải tách ra như
thế trong tiếng Việt là NSW phức. Dù hình thái các NSW loại này có khác và ít
phong phú hơn tiếng Việt, trong mô hình chuẩn hóa văn bản tiếng Anh có mô-đun
Split Token. Nhiệm vụ của mô-đun này là chia các token vốn là sự kết hợp của
nhiều thành phần ra thành các thành phần nhỏ hơn gọi là subtoken để có thể phiên
- 7 -

âm các thành phần của nó, khi bản thân token đó đã được nhận ra nhưng chưa thể
phiên âm được. Đó là các trường hợp chỉ thời gian (12:00-3:00), tiền tệ ($975K-
$1,595,000) hay các loại đơn vị khác. Vì vậy trong mô hình chuẩn hóa tiếng Việt
cần có công đoạn nhận dạng, đánh dấu và phân tách các NSW phức này.
3.2.3.2 Xử lý các NSW khác nhau
NSW trong văn bản rất đa dạng. Mỗi loại NSW lại có cách xử lý khác nhau.
Có phân loại đúng các NSW thì mới đưa ra được cách đọc đúng cho văn bản. Lấy ví
dụ trong tiếng Việt, nếu token “8/3” thuộc loại ngày tháng, nó sẽ được đọc là “mồng
tám tháng ba”, nhưng nếu thuộc loại phân số, nó sẽ được đọc là “tám phầm ba”, nếu
thuộc loại tỷ lệ, nó sẽ đọc là “tám trên ba”. Tiếng Anh cũng có sự nhập nhằng tương
tự. Vì vậy việc phân loại đúng được các NSW để xử lý về sau là vấn đề rất quan
trọng trong bài toán chuẩn hóa văn bản các ngôn ngữ. Mô hình chuẩn hóa của tiếng
Anh dùng mô-đun Classifier để phân loại cho các NSW mà bỏ qua việc xác định
các NSW. Trong bộ chuẩn hóa văn bản tiếng Việt, bước xác định NSW sẽ được bổ
xung vào trước khi phân loại chúng.
3.2.3.3 Vấn đề phân loại NSW
Việc phân loại cho NSW cần dựa trên các thuộc tính của nó. NSW có một số
thuộc tính độc lập được thể hiện ở bản thân nó, đó là độ dài token, thành phần token
có hay không chứa các loại số, dấu và chữ cái, có hay không có nguyên âm, có chữ
viết hoa không, có được viết hoa toàn bộ hay không. Những thuộc tính này cũng
được áp dụng để xét cho một khung nhìn bao gồm 2 token liền trước và 2 token liền
sau token đang xét (tri-gram). NSW còn có một số thuộc tính phụ thuộc như tính
ngữ cảnh, loại của token dạng chữ thay đổi giữa các miền thông tin khác nhau, khi
đó ta cần tìm các thuộc tính dựa trên miền thông tin đó. Những thuộc tính này sẽ
quyết định việc phân loại chi tiết cho những NSW loại chữ. Ở mục 2.3 sau đây ta sẽ
đưa ra một hệ thống phân loại chi tiết cho các NSW
- 8 -
3.2.3.4.Vấn đề mở rộng NSW
Trong bước Tag Expander xác định cách đọc thì việc xác định cách đọc cho
từ viết tắt khá phức tạp và chứa nhập nhằng cần dùng tới mô hình ngôn ngữ, các

trường hợp còn lại xác định cách đọc dựa vào luật mở rộng. Vì cùng một từ viết tắt
nhưng nó viết tắt cho các từ khác nhau, cho nên cần phải chú ý giải quyết vấn đề
này. Để thuận tiện cho việc xử lý, bộ chuẩn hóa văn bản tiếng Việt sẽ tách công
đoạn này thành một bước riêng.
Tổng hợp lại từ các phân tích trên có thể dẫn đến một mô hình chuẩn hóa
phù hợp cho văn bản tiếng Việt như sẽ trình bày ở mục 2.3 sau đây.
3.3.Giải pháp đề xuất
Giải pháp cho bài toán chuẩn hóa văn bản tiếng Việt phải giải quyết được
những vấn đề chung của bài toán chuẩn hóa văn bản nói chung và những vấn đề đặc
thù trong tiếng Việt. Đó là phải xử lý được những trường hợp không thể áp dụng
luật phiên âm để đưa ra thông tin về ngữ âm. Cụ thể là thao tác với các loại NSW là
số (số điện thoại, số đếm, phân số, địa chỉ, thời gian … ), các từ viết tắt, các từ đọc
như một dãy kí tự (WTO, NATO, TP, TS…), các từ mượn (karaoke, auto,
version…), các từ phức như 1m75, các kí tự Hi Lạp, các địa chỉ mail và địa chỉ
URL…
3.3.1.Phân loại các từ chưa chuẩn hóa cho tiếng Việt
- Nhóm số được bao gồm những token có chứa ký tự là số. Nó bao gồm các loại
nhỏ hơn là:
- NTIM cho việc biểu diễn giờ (“9:30” hay “9.30” hay “9h30” tương ứng với “chín
giờ ba mươi phút”)
- NDAT chỉ ngày tháng năm đầy đủ (“17/3/1987”, “17/03/1987”, “17/03/87” tương
ứng với “ngày mười bảy tháng ba năm một nghìn chin trăm tám mươi bảy/một chin
tám bảy/tám bảy”)
- NDAY chỉ ngày và tháng (“17/03” hay “17/3” tương ứng với “ngày mười bảy tháng
- 9 -
ba”)
- NMON chỉ tháng và năm (“03/87” hay “3/87” tương ứng với “tháng ba năm tám
mươi bảy”)
- NNUM là số số học (“200.000” hay “200 000” tương ứng với “hai trăm nghìn”)
- NTEL cho số điện thoại (“38.68.39.39”, “38 683 939” tương ứng với “ba tám (nghỉ)

sáu tám (nghỉ) ba chin (nghỉ) ba chin”)
- NCODE cho dãy số chỉ kí hiệu (“mã số 999” tương ứng là “mã số chin chin
chin”).
- NSCR cho tỉ số (“tỉ số 2-3” tương ứng là “tỉ số hai (nghỉ) ba”)
-NRNG cho số chỉ miền giá trị (“từ 2-3 ngày” đọc thành “từ hai đến ba ngày”).
- NPER cho số phần trăm (“30-40%” được đọc là “ba mươi đến bốn mươi phần
trăm”).
- NFRC cho phân số (“34/5” tương ứng với “ba mươi tư phần năm”)
- NCOM cho những trường hợp tổ hợp số phức tạp, hay những biểu thức (2x2x3
đọc là “hai nhân hai nhân ba”).
- NSIG cho những đơn vị thông dụng (“m2” đọc là “mét vuông”, “nm” đọc là “na
nô mét”, “Nm” đọc là “niu tơn mét”).
Nhóm thứ hai là nhóm chữ cho những trường hợp như sau:
- LWRD cho các token không thể áp dụng được luật phiên âm. Đó là trường hợp
của danh từ nước ngoài hay các từ viết tắt gốc nước ngoài mà có thể đọc lên như
một từ (ghép) (“NATO” khi chuẩn hóa sẽ đọc là “na tô”).
- LSEQ cho những token đọc lên như một dãy các chữ cái (“ODA” đọc là “O dê
a”).
- LABB cho những token là từ viết tắt và cần phải tìm dạng đầy đủ của chúng
- 10 -
(“PV” mở rộng và đọc thành “phóng viên”).
3.3.2.Tổ chức gán thẻ cho NSW
Các NSW sẽ được bổ xung thông tin dưới dạng thẻ XML. Mỗi một bản tin sẽ
được đánh dấu bằng thẻ “Information”, mỗi NSW sẽ được đánh dấu bằng thẻ “W”,
thuộc tính của NSW gồm có loại NSW trong attribute “NSW” và thuộc tính là từ
đầy đủ của NSW trong attribute “FULL” của thẻ W, các NSW phức hợp được chia
nhỏ ra sẽ được đánh dấu bằng thẻ “SPLIT”. Ở đây sẽ đưa ra một ví dụ để có hình
dung về cách tổ chức thông tin này.
Ví dụ văn bản đầu vào là câu: ”Các hoạt động mít tinh ngày NGVN 20/11 sẽ
diễn ra tại sân nhà C2, lúc 8h30. Trong số khách mời có giáo sư Micheal (ĐH

Harvard)”
Kết quả sau khi được xử lý chuẩn hóa và gán thẻ:
<Infomation>
Các hoạt động mít tinh ngày
<W NSW="LABB" FULL="Nhà Giáo Việt Nam">NGVN</W>
<W NSW="NDAY" FULL="hai mươi tháng mười một">20/11</W>
sẽ diễn ra tại sân nhà
<SPLIT>
<W NSW="NCODE" FULL="xê">C</W>
<W NSW="NNUM" FULL="hai">2</W>
</SPLIT>
, lúc 8h30 . . Trong số khách mời có giáo sư
<W NSW=" LWRD " ="Mai cơn">Micheal</W>
- 11 -
<W NSW="PUNC" FULL="mở ngoặc đơn">(</W>
<W NSW="LABB" FULL="Đại học">ĐH</W>
<W NSW=" LWRD " ="Ha vớt"> Harvard </W>
<W NSW="PUNC" FULL="đóng ngoặc đơn">)</W>
</Infomation>
Hình 3-2 Mô hình chuẩn hóa văn bản tiếng Việt
- 12 -
Chuẩn phân tách
Tách các token
Tách câu
Tách NSW phức
Phát hiện NSW
So khớp với các từ điển
Phân loại NSW
Phân nhóm
Phân loại nhóm số

Phân loại nhóm chữ
Phân loại nhóm khác
Mở rộng cách đọc
Khôi phục từ viết tắt
Mở rộng cho các NSW
Văn bản đầu vào
Văn bản đã chuẩn hóa
3.3.3.Chuẩn phân tách
Văn bản đầu vào trước hết được xử lý bằng biểu thức chính quy để nhận ra
và đánh dấu các tổ hợp thuộc nhóm số, URLE bởi các nhóm này sẽ được xử lý
riêng. Tiếp đó các dấu trắng thừa trong văn bản được loại bỏ, thêm dấu trắng vào
trước và sau các dấu câu, các khoảng trắng trong một tổ hợp số được thay bởi dấu
chấm “.” để tiện cho việc xử lý về sau.Các câu trong văn bản được phân tách và
đánh dấu, phục vụ cho việc khai thác ngữ cảnh và đưa ra nhịp điệu đọc phù hợp cho
tiếng nói tổng hợp.Việc phân tách các câu sử dụng bộ phân tách câu tiếng Việt.
3.3.4.Phát hiện NSW
Đầu tiên dùng từ điển số Hi Lạp để kiểm tra định dạng của token. Sau đó sử
dụng mô hình ngôn ngữ để quyết định xem token phát hiện được có phải là số Hi
Lạp không, nếu phải thì đánh dấu NSW là GREE. Tiếp đó các token được tìm kiếm
trong một từ điển các âm tiết tiếng Việt có thể đọc được, nếu không thấy trong từ
điển và không tìm thấy trong tập các dấu trong câu đồng thời không áp dụng được
luật phiên âm thì đánh dấu là NSW.
3.3.5.Phân loại NSW
Các NSW nhóm số, nhóm chữ, nhóm khác được phân nhóm đơn giản bởi các
luật nhận ra định dạng của chúng trong biểu thức chính quy. Các NSW nhóm số thì
dùng biểu thức chính quy phát hiện số, các NSW nhóm khác dùng biểu thức chính
quy phát hiện dấu, các NSW nhóm chữ dùng biểu thức chính quy phát hiện chữ loại
trừ dấu và số. Chi tiết các biểu thức chính quy xem ở chương 3. Sau khi được phân
nhóm, các NSW ở mỗi nhóm lại được phân loại ra nhỏ hơn, việc xử lý mở rộng cho
NSW dựa trên các loại nhỏ của NSW này.

3.4.Các kỹ thuật và giải thuật
Biểu thức chính quy có những cú pháp nhất định phải tuân theo và một tập
các tập hợp đã được định nghĩa sẵn.Các tập định nghĩa sẵn này khác nhau cho
- 13 -
những dạng mãy khác nhau của văn bản. Kỹ thuật biểu thức chính quy được hỗ trợ
trong nhiều ngôn ngữ lập trình như PHP, .NET, Java, Pearl
3.4.1.Tổng quan về cây quyết định
- 14 -
cókhông
>40
Xuất sắc
Trung
bình
<=30
Tuổi
?
Tuổi
?


Điểm số?
Điểm số?
Sinh
viên?
Sinh
viên?


khôn
g

khôn
g


khôn
g
khôn
g
31…40
Hình 3-3 Minh họa về cây quyết định
3.4.2.Các bước xây dựng cây quyết định.
3.4.2.2.Độ đo thuộc tính
Bảng 3-2 Bảng giá trị thuộc tính
3.4.2.3.Rút luật phân lớp từ cây quyết định
− Mỗi một đường dẫn từ gốc đến lá trong cây tạo thành một luật.
− Mỗi cặp giá trị thuộc tính trên một đường dẫn tạo nên một sự liên.
− Nút lá giữ quyết định phân lớp dự đoán.
− Các luật tạo được dễ hiểu hơn các cây.
- 15 -
3.4.2.4.Hiện tượng “quá vừa” (overfitting) dữ liệu huấn luyện
Hình 3-4 Chọn thuộc tính temperature đầu tiên.
- Để cây quyết định có thể tổng quát hơn, phân loại đúng được cho các trường hợp
chưa gặp. Có nhiều giải pháp đã được đưa ra như cắt tỉa lại cây quyết định sau khi
học, hoặc cắt tỉa các luật sau khi chuyển cây về dạng luật.
Thuật toán C4.5 là thế hệ sau của ID3 với mục đích giải quyết những tồn tại
của ID3, thỏa mãn những yêu cầu đặt ra sẽ được sử dụng.
3.4.2.5.X lí quá v a d li uử ừ ữ ệ
- Dạng luật: if A and B and C… then class X. Không thỏa mãn điều kiện chuyển về
lớp mặc định.
Xây dựng luật: 4 bước:

- Mỗi đường đi từ gốc đến lá là một luật mẫu. Đơn giản luật mẫu bằng cách bỏ dần
điều kiện mà không ảnh hưởng tới độ chính xác của luật.
- 16 -
3.4.2.6.Áp d ng cây quy t nhụ ế đị
- Mô hình ngôn ngữ bắt đầu ý tưởng tính xác suất xuất hiện một cụm từ S gồm m từ
w
i
trong một văn bản (ở đây hiểu từ theo cách viết người Anh, tức là một token
được phân tách bởi dấu cách).
3.4.3.Mô hình ngôn ngữ chữ cái (Letter Language Modeling)
Mô hình ngôn ngữ chữ cái dựa trên những ý tưởng về mô hình ngôn ngữ
nhưng co hẹp phạm vi. Trong mô hình ngôn ngữ tính xác suất xuất hiện một cụm từ
thì mô hình ngôn ngữ chữ cái tính xác suất xuất hiện một từ (từ được hiểu theo cách
gọi của người Anh, trong bài này được hiểu là một token được phân cách bởi dấu
cách).
3.4.4.Kỹ thuật làm trơn mô hình Kneser-Ney cải tiến
Các tác giả ở trường đại học Harvard bằng thực nghiệm đã kết luận rằng
phương pháp làm trơn mô hình ngôn ngữ Kneser-Ney cho kết quả tối ưu nhất. Theo
phương pháp này, 3 tham số D1, D2, D3+ sẽ được lựa chọn để làm trọng số cho 3
mô hình monogram, digram và trigram:
3.5.Kết chương
Trong chương 3 trình bày về giải pháp cho bài toán chuẩn hóa văn bản tiếng
Việt. Quy trình chuẩn hóa được chia làm bốn bước chuẩn phân tách, phát hiện
NSW, phân loại NSW và mở rộng cách đọc. Chương tiếp theo sẽ cài đặt thử nghiêm
modul chuẩn hóa văn bản cho tiếng Việt
- 17 -
CHƯƠNG 4
CÀI ĐẶT THỬ NGHIỆM MODUL CHUẨN HÓA VĂN BẢN CHO
TIẾNG VIỆT
4.1 Cài đặt và thử nghiệm

4.1.1. Cài đặt
- Chương trình được cài đặt trên mội trường Windows sử dụng ngôn ngữ lập trình,
bộ công cụ lập trình và các thư viện sau:
o Ngôn ngữ lập trình Java
o Bộ công cụ lập trình Netbeans IDE
o Thư viện VietTalk: Sản phẩm TTS của Viện Công nghệ thông tin
o Thư viện Jsoup: lấy nội dung text từ trang web bất kì.
Chương trình sử dụng hệ thống TTS iSOLAR hoặc thư viện VietTalk để đọc nội
dung của các trang báo điện tử.
4. 1.2.Thử nghiệm chương trình
4.1.2.1.Ph ng pháp ánh giá k t quươ đ ế ả
Hình 4-3 Minh họa các độ đo

- 18 -
4.1.2.2.Bộ dữ liệu thử nghiệm Training
Bao gồm 400 bài lấy từ wikipedia
Số từ 703980
Số NSWs 69425
Tỷ lệ NSWs 9,86%
Tỉ lệ NSWs trong tập traing
Phân bố của các chủ đề trong tập training
(2) Testing
Tập test 1: 2000 câu rút ra từ tập training được gán nhãn bằng tay
Tập test 2: 2000 câu lấy từ trang tinngan.vn của Viettel được gán nhãn bằng tay
Phân phối của NSWs trong tập test
Nhóm Phân phối
trong tập test 1
Phân phối
trong tập test 2
NUMBERS 27% 40,5%

LETTERS 65% 58,3%
OTHERS 8% 1,2%
Phân bố của NSWs trong tập test
Bảng 4-2 Phân bố cụ thể của các loại thuộc kiểu NUMBERS
4.2.Kết quả thử nghiệm
Kết quả thử nghiệm là độ chính xác của việc gán nhãn được đánh giá dựa trên công
thức sau
Accuracy of a subcategory =
Độ chính xác trong nhóm LETTERS
Đánh giá kết quả
Precision Recall F-score
98,55% 96,13% 97,32%
Đánh giá theo các độ
- 19 -
Bảng 4-3 Phân bố của NSWs trong tập OTHERS
KẾT LUẬN VÀ HƯƠNG PHÁT TRIỂN
Kết quả đạt được
Qua thời gian nghiên cứu và cài đặt, luận văn đã đóng góp được những vấn đề
sau:
- Giúp người đọc hiểu được chi tiết các thành phần cơ bản của hệ tổng hợp tiếng
nói,
- Giới thiệu và đánh giá một số phương pháp tổng hợp tiếng nói hiện nay,
- Trình bày được các cách phương pháp nâng cao chất lượng tiếng nói tổng hợp,
đặc biệt giới thiệu các kỹ thuật phân tích ngôn điệu thường sử dụng để cải tiến chất
lượng tiếng nói,
-Thử nghiệm đưa ra được tập luật cho việc thay đổi biên độ, năng lượng, trường
độ và tần số cơ bản trong hệ tổng hợp tiếng Việt, cải thiện đáng kể chất lượng của
TTS
Hướng phát triển
Do thời gian làm luận văn có hạn nên chưa thực hiện được mọi khía cạnh để có

thể nâng cao chất lượng tiếng nói tổng hợp. Những định hướng tiếp theo của đề tài
là:
- Tiếp tục nghiên cứu quy luật biến đổi thanh điệu trong cụm từ, trong câu thay vì
mức từ đôi như hiện nay,
- Cải tiến chất lượng phụ âm đầu, đặc biệt là các phụ âm m, n, nh,
- Thử nghiệm mô hình Xu [TLTK] trong việc hiệu chỉnh đường F0, mô hình
này đã áp dụng được cho tiếng Trung Quốc,
- Xây dựng cơ sở dữ liệu tiếng nói lớn để ứng dụng mô hình markov ẩn trong
việc lựa chọn đơn vị tổng hợp trong các ngữ cảnh khác nhau. Đây là cách tiếp cận
mang hứa hẹn đem lại tiếng nói có chất lượng cao.
- 20 -
- 21 -

×