Lĩnh vực Công nghệ thông tin
Cơ sở nhận dạng tiếng nói
ThS.Đoàn Phan Long
Khoa Quốc tế -Đào tạo sau đại học
Túm tt: Tự động nhận dạng tiếng nói là một lĩnh vực nghiên cứu quan trọng để phát triển
và đa các ứng dụng tự động vào nhiều Ngành. Ngoài các yếu tố về công nghệ nhận dạng
tiếng nói, thì do tiếng nói của mỗi dân tộc có những đặc thù riêng, đòi hỏi phải đợc phân tích
và tìm ra các công nghệ áp dụng phù hợp. ở Việt nam, việc nghiên cứu và phát triển các hệ
thống nhận dạng tiếng nói còn đang ở bớc đầu với rất ít các kết quả đợc công bố. Bài báo
này nhằm mục tiêu tổng hợp các nghiên cứu công nghệ đã và đang đợc áp dụng trong các hệ
thống nhận dạng tiếng nói.
1. Lời nói đầu
Thời gian trớc đây, việc nhận biết tiếng nói chỉ đợc thể hiện trong các bộ phim viễn tởng nh
thuyền trởng Spok điều khiển con tàu vũ trụ Enterprise, những mệnh lệnh và những ý tởng
của thuyền trởng đợc máy tính nhận dạng, thu nhận và viết vào bộ nhớ. Huyền thoại về bộ
máy tính HAL trong phim 2001 cuộc phiêu lu trong vũ trụ còn có khả năng cao hơn là
nhận dạng lời nói từ sự cử động của môi.
Hiện tại, khả năng này vẫn cha thực sự đáp ứng, xong trong những năm gần đây, những hệ
thống nhận dạng tiếng nói đã có những bớc phát triển đáng kể và trong chừng mực nào đó,
bên cạnh bàn phím và con chuột, những phần mềm nhận dạng tiếng nói đã đóng vai trò là bộ
phận nhập dữ liệu rất tốt vào các máy PC. Đây là bộ phận nhập văn bản và dữ liệu cũng nh để
điều khiển máy PC thực hiện những thao tác mà ngời sử dụng đòi hỏi.
Những hãng công nghệ lớn nh IBM và Phillip có thị phần cao và uy tín, trong nhiều năm đã
đầu t đáng kể để dần hoàn chỉnh công nghệ nhận dạng nhằm đa ra thị trờng những thế hệ
máy mới có tích hợp công nghệ nhận dạng tiếng nói. Song song với các hãng này, những
công ty mới nh Dragon System, Lernout & Hauspie cũng đẩy nhanh quá trình đầu t nghiên
cứu của mình.
2. Cơ sở nhận dạng tiếng nói
Tiếng nói là công cụ truyền đạt thông tin quan trọng nhất của con ngời. Đối với chúng ta,
tiếng nói là cái gì đó rất tự nhiên, do vậy bình thờng chúng ta cũng không để ý xem quá trình
nhận dạng tiếng nói diễn ra nh thế nào, tại sao ta lại có thể hiểu đợc các từ, các câu một cách
rất đơn giản nh vậy.
Nếu máy tính cũng có thể hiểu đợc tiếng nói tự nhiên của con ngời thì không những đơn giản
rất nhiều cho quá trình trao đổi ngời - máy mà máy tính còn có thể áp dụng đợc vào nhiều
lĩnh vực khác.
Những nghiên cứu cơ bản trong lĩnh vực nhận dạng tiếng nói của thập kỷ qua đã góp phần đa
công nghệ nhận dạng có những phát triển đáng kể trong các lĩnh vực sử lý văn bản, viễn
thông, cơ sở dữ liệu cũng nh quá trình giao tiếp với hệ thống chuyên gia.
Quá trình phát triển của các giải pháp nhận dạng tiếng nói đợc tham gia bởi:
- Công nghệ máy tính và lập trình
- Ngữ âm
- Ngôn ngữ học
- Nhận dạng mẫu
- Trí tuệ nhân tạo
Học viện Công nghệ BCVT
Hội nghị Khoa học lần thứ 5
Những hệ thống tự động nhận dạng tiếng nói luôn cố gắng mô phỏng lại quá trình nhận dạng
tiếng nói của con ngời. Bên cạnh bàn phím và chuột thì Microphone là khả năng mới để nhập
dữ liệu và giao tiếp với máy PC.
3. Lịch sử của công nghệ nhận dạng tiếng nói
Nhận dạng tiếng nói tự động đã có lịch sử khoảng 40 năm nay. Những nhân tố quan trọng
giúp cho sự phát triển của công nghệ nhận dạng này có thể kể đến nh sự phát triển của các hệ
thống phân tích phổ âm thanh (1946) thể hiện dới dạng trực quan các tín hiệu âm, Lý thuyết
tạo âm thanh tiếng nói của con ngời (1948) và tất nhiên phải kể đến sự xuất hiện và phát triển
của các hệ thống máy tính số thơng mại đầu tiên trên thế giới (1958).
Hệ thống nhận dạng tiếng nói đầu tiên có khả năng nhận dạng từ rời rạc và phụ thuộc ngời
nói để phân tích và nhận dạng các chữ số hoặc các từ đơn âm sử dụng đặc tính miền thời gian
và các ngân hàng bộ lọc tơng tự. Tơng tự nh vậy, với phơng pháp âm học, hệ thống nhận
dạng âm vị phụ thuộc ngời nói và không phụ thuộc ngời nói đợc thiết kế mặc dù mới cho đợc
các kết quả còn rất khiêm tốn.
Trong thập kỷ 70, với sự phát triển của các thuật toán phân tích tín hiệu (mô hình dự đoán
tuyến tính, so sánh mẫu theo thời gian) công nghệ nhận dạng tiếng nói đợc tiếp tục phát triển
mạnh mẽ. Với các phơng pháp này các hệ thống nhận dạng với số lợng từ rất lớn không phụ
thuộc ngời nói đã đợc thực thi.
Trong những năm 60 của thế kỷ 20, nhiều phòng thí nghiệm của nhiều hãng lớn đã đợc đầu t
để nghiên cứu phát triển các hệ thống nhận dạng tiếng nói của các ngôn ngữ khác nhau. Đến
đầu những năm 80 khả năng về hiểu biết cũng nh về kỹ thuật đã cho phép các nhà nghiên cứu
xây dựng các hệ thống nhận dạng đợc hàng trăm các từ rời rạc. Sau đó công nghệ nhận dạng
đã có những bớc phát triển vô cùng nhanh chóng.
4. Các vấn đề kỹ thuật
Nhận dạng tiếng nói là vấn đề đợc bàn luận và đã đợc các nhà nghiên cứu phân loại thành các
hệ thống nhận dạng khác nhau cho những mục đích sử dụng khác nhau. Hình dới đây mô tả
một cái nhìn khái quát về sự phân loại các hệ thống nhận dạng tiếng nói, trong đó các hệ
thống nhận dạng tiếng nói đợc phân thành hai nhóm riêng biệt. Một nhóm chuyên đợc sử
dụng với mục đích điều khiển thiết bị thông qua tiếng nói và một nhóm chuyên xử lý từ tiếng
nói sang văn bản (Speech to Text)
Hình 1: Phân loại các hệ thống nhận dạng tiếng nói
Học viện Công nghệ BCVT
Phát âm từ
rời rạc
Phát âm từ
rời rạc
Phát âm liên
tục
Telephone
banking
Tìm dữ liệu
qua thoại
Điều khiển
thiết bị
Phát âm liên
tục
Nhận dạng
ng:ời nói
Thời gian thực
Có tiếp xúc với
PC
Điều khiển, ra lệnh
Nhận dạng tiếng
nói
Văn bản
Không tiếp xúc
với PC
Không thời
gian thực
Lĩnh vực Công nghệ thông tin
4.1. Nhận dạng tiếng nói để điều khiển và ra lệnh cho thiết bị
Trong các hệ thống điều khiển thờng sử dụng một th viện từ rất hạn chế, bởi vì để điều khiển
một thiết bị đòi hỏi số lợng các lệnh rất hữu hạn và không cần một kết nối trực tiếp đến hệ
thống máy tính nhận dạng tiếng nói. Nh vậy để nhập dữ liệu gián tiếp ngời ta có thể sử dụng
qua nhiều môi trờng nh đờng thoại, microphone ví dụ trong ứng dụng Telephone Banking
mà hệ thống Infogate của Trung tâm Công nghệ Thông tin CDIT đang áp dụng trên mạng sử
dụng nhập dữ liệu ví dụ qua bàn phím máy điện thoại để vấn tin và tạo các giao dịch tiền tệ
và tiến tới sau này có thể thông qua giọng nói, tiếng nói để điều khiển các giao dịch.
Điều khiển thiết bị thông qua tiếng nói kết nối trực tiếp tới máy tính phải kể đến trớc hết đó
là các hệ thống điều khiển thông qua các lệnh bằng tiếng nói để điều khiển các hệ thống máy
móc làm việc theo ý của ngời sử dụng.
4.2. Nhận dạng tiếng nói để xử lý văn bản
Quá trình nhận dạng tiếng nói là quá trình mà hệ thống chuyển đổi các từ đợc nói thành văn
bản viết hay cụ thể hơn là chuyển đổi từ các tín hiệu âm tần do ngời nói phát âm thành các từ
đợc viết thành văn bản. Những hệ thống này về nguyên tắc phải có vốn từ rất lớn để có khả
năng đạt đợc kết quả nhận dạng tiếng nói nh mong muốn. Một số hệ thống có thể nhận dạng
theo thời gian thực, một số hệ thống khác lại làm việc ở chế độ xử lý lần lợt (Batch Job).
Trong chế độ thời gian thực, kết quả là văn bản đợc thể hiện trên màn hình máy tính ngay sau
khi nói. Một tiêu chuẩn nữa để phân biệt công nghệ đó là câu hỏi liệu hệ thống có nhận dạng
tiếng nói đợc không khi ngời nói phát âm liên tục từ này tiếp nối từ kia nh ta phát âm bình th-
ờng hay ngời nói phải phát âm từng từ rời rạc?
4.3. Hệ thống nhận dạng tiếng nói rời rạc
Từ lâu nhiều nhà nghiên cứu đã chế tạo ra các hệ thống nhận dạng tiếng nói theo nguyên tắc
phát âm từ rời rạc. Những hệ thống nhận dạng có vốn từ hạn chế khoảng 1.000 từ không phù
hợp cho các môi trờng nh văn phòng làm việc, bệnh viện, các công sở lý do rất đơn giản là
trong những môi trờng trên các hệ thống nhận dạng đòi hỏi phải có khả năng làm việc với số
lợng từ rất nhiều tối thiểu phải trên dới 60.000 từ, phụ thuộc ngữ cảnh và phải không phụ
thuộc ngời nói.
4.4. Hệ thống nhận dạng tiếng nói liên tục
Trong quá trình ngời nói phát âm liên tục, các từ đợc phát âm từ nọ nối tiếp từ kia không có
giai đoạn nghỉ giữa chừng. Đối với con ngời thì quá trình nhận biết các từ đợc phát âm này
rất đơn giản, xong đối với máy móc thì độ phức tạp so với phát âm rời rạc tăng lên nhiều lần
do phải nhận biết và tách các từ này ra.
Trong câu đợc phát âm liên tục ta rất khó nhận biết đợc điểm bắt đầu và điểm kết thúc của
một từ, trong khi phát âm rời rạc ta thấy rất rõ đoạn nghỉ ngắt quãng giữa hai từ cạnh nhau.
Hệ thống nhận dạng phải quyết định rất nhanh điểm nào là điểm kết thúc của từ và nh vậy
với câu đợc phát âm liên tục máy tính đòi hỏi thời gian tính toán lớn hơn rất nhiều lần so với
từ đợc phát âm rời rạc. Điều này còn đặc biệt khó với nhiều ngôn ngữ nh ngôn ngữ tiếng Anh
đòi hỏi có sự phát âm từ nọ có đuôi nối tiếp sang từ kia.
Nhờ sự phát triển nhanh chóng của công nghệ tin học và máy tính đặc biệt là tốc độ và khả
năng tính toán của các máy tính cá nhân, ngày nay trong phòng thí nghiệm đã có những hệ
thống có khả năng nhận dạng tiếng nói phát âm liên tục.
Học viện Công nghệ BCVT
Hội nghị Khoa học lần thứ 5
4.5. Nhận dạng từ rời rạc và nhận dạng tiếng nói liên tục
Có nhiều định nghĩa và giả thiết về sự phân biệt khác nhau giữa hai khái niệm nhận dạng từ
rời rạc và nhận dạng tiếng nói liên tục, nên ở đây có thêm sự giải thích rõ hơn về hai khái
niệm này.
Các tín hiệu âm thanh đợc Microphone thu nhận, sau khi đợc hệ thống nhận dạng xử lý sẽ đ-
ợc chuyển đổi thành dạng văn bản. Mối liên hệ giữa tín hiệu âm và văn bản là các mẫu tín
hiệu tạo ra. Một mẫu tín hiệu có sự thống nhất chặt chẽ giữa tín hiệu âm và văn bản và đợc
một th viện âm lu trữ và đợc dùng để so sánh với nhiều phơng pháp khác nhau. Mỗi phần tử
âm thanh đợc tơng ứng với một mẫu tín hiệu đợc gọi là nhận dạng từ rời rạc.
4.6. Phụ thuộc ngời nói, không phụ thuộc ngời nói
Hệ thống nhận dạng không phụ thuộc ngời nói có khả năng làm công việc nhận dạng với bất
kỳ ngời nói nào mà không cần có giai đoạn luyện. Đối với hệ thống nhận dạng để xử lý văn
bản thì vấn đề độc lập với ngời nói đợc dựa vào vốn từ hay cả hệ thống. Đối với các hệ thống
nhận dạng không có th viện từ độc lập với ngời nói (Cơ sở dữ liệu của một số ít giọng nói) thì
ngời sử dụng trớc tiên phải xây dựng cho mình một cơ sở dữ liệu âm của mình. Với mỗi từ
mà ngời sử dụng phát âm và muốn đợc hệ thống nhận dạng phải có một từ mẫu trong th viện
của mình. Nếu th viện mẫu có đủ số lợng từ cần thiết thì chất lợng và kết quả nhận dạng của
hệ thống sẽ tăng lên, sai số sẽ giảm xuống. Xong bù lại ngời sử dụng phải có thời gian đủ lớn
để cho quá trình chuẩn bị tức là luyện cho máy hiểu đợc âm, giọng của mình. Phơng pháp
luyện nh thế này hiện đợc sử dụng rất ít. Thay vào đó là phơng pháp tách âm vị và so sánh
với mẫu các âm vị với lý do là số lợng các âm vị trong mỗi ngôn ngữ rất hữu hạn. Với bất kỳ
phơng pháp so sánh gì thì việc xây dựng một th viện mẫu cho mỗi ngời sử dụng là rất có ý
nghĩa, bởi vì hệ thống còn phải quen với cách nói, giọng nói, ngôn ngữ vùng của ngời sử
dụng nó. Hãy thử tởng tợng xem liệu có hệ thống nhận dạng nào có khả năng không cần giai
đoạn luyện mà làm việc đợc ngay với một ngời Hà nôi, TP Hồ chí Minh, Thanh hoá hoặc
Nghệ an không. Điều này còn gây nhiều khó khăn cho chính bản thân con ngời bởi vì tuỳ
thuộc vào cách nói, giọng nói, vốn từ, ngôn từ của từng vùng trong một đất nớc.
4.7. Vấn đề về ngôn ngữ học
Khó khăn lớn nhất trong quá trình nhận dạng tiếng nói là cùng một từ nhng không bao giờ
có thể đợc phát âm hoàn toàn giống nhau ngay với cả cùng một ngời nói. Ngoài ra các biến
thanh âm cũng còn bị phụ thuộc vào trạng thái vật lý và tâm lý của ngời nói cũng nh do các
ảnh hởng của ngữ cảnh, tính chất của Microphone và môi trờng cũng là các tác nhân ảnh h-
ởng đến giọng nói Nhiễu của môi trờng xung quanh cũng làm cho tần số của từ đợc phát
âm thay đổi rất nhiều và làm cho hệ thống rất khó nhận dạng và thậm chí còn không thể làm
việc đợc. Ngoài các ảnh hởng liên quan đến âm thanh thì vẻ mặt, điệu bộ của ngời nói
chuyện cũng đợc truyền tải rất nhiều thông tin mà hệ thống nhận dạng không có khả năng
chuyển đổi và đây cũng là hạn chế rất lớn của các hệ thống. Một lợi thế của khả năng nhận
biết tiếng nói của con ngời là ngoài việc nhận dạng đợc các từ phát âm, con ngời còn có thể
hiểu đuợc nội dung mà ngời nói chuyện với mình truyền tải. Trong tâm lý học ngời ta gọi
hiện tợng này là Cocktail-Party-Effect. Trong một bữa tiệc, do tiếng ồn ngời ta rất khó có
thể hiểu đợc cụ thể từng từ trong từng câu mà ngời nói chuyện với mình nói, xong ngời nghe
vẫn có thể hiểu đợc ngời nói chuyện với mình nói gì vì họ biết là ngời đối diện đang nói về
vấn đề gì.
4.8. Vốn từ cần thiết
Trong khi tiếng Anh để nói chuyện đợc với nhau ngời ta chỉ cần một kho vốn từ khoảng 800
từ thì tiếng Đức phải cần khoảng 4.000 từ và tiếng Việt cần khoảng 4.000 5.000 từ. Đối
với các nhà khoa học và nhà văn vốn từ của họ phải lớn hơn gấp 6 đến 7 lần để có thể diễn
Học viện Công nghệ BCVT
Lĩnh vực Công nghệ thông tin
đạt đợc hết ý nghĩ của mình. Trong tiếng Việt còn có nhiều vấn đề hơn so với tiếng Anh,
tiếng Đức ví dụ nh thanh âm (Huyền, hỏi, ngã, nặng, không dấu).
4.9. Từ đồng âm
Một vấn đề nữa trong nhận dạng tiếng nói là vấn đề đồng âm. Từ đồng âm là các từ đợc phát
âm hoàn toàn giống nhau hoặc gần giống nhau, nhng tuỳ thuộc ngữ cảnh thì nó đợc hiểu và
viết khác nhau. Trong tiếng Việt trờng hợp này thờng xảy ra ít hơn so với các ngôn ngữ châu
Âu khác nếu ngời phát âm phát âm thật chuẩn xác ví dụ các từ Chúc với Trúc Dụi với
Rụi
5. Các phơng pháp nhận dạng đợc áp dụng phổ biến
5.1. So sánh mẫu bằng phơng pháp lập trình động (Dynamic Program)
Khi so sánh tín hiệu thu ngời ta thờng phải so sánh với tất cả các mẫu, điều này sẽ làm tốn rất
nhiều thời gian tính toán. Để giảm thời gian tính toán và qua đó tăng tốc độ xử lý nhận dạng
ngời ta có thể sử dụng phơng pháp lập trình động. ở phơng pháp nhận dạng mẫu này các từ
cần nhận dạng sẽ đợc so sánh với các mẫu đợc lu trữ trong hệ thống và thực hiện việc so sánh
hai mẫu tín hiệu này để tìm ra mẫu có sai số là nhỏ nhất. Bởi vì tín hiệu âm thanh đợc tạo ra
tại các thời điểm khác nhau không bao giờ là giống nhau hoàn toàn. Nó luôn có sự sai khác
do một số yếu tố về trọng âm, ngữ điệu, tốc độ, Vì vậy cần phải thực hiện so sánh hai mẫu
theo các thuật toán biến dạng nhằm giảm thiểu sai số . Thuật toán DTW (Dynamic Time
Warping) có thể coi là thuật toán hiệu quả nhất cho việc ứng dụng so sánh hai mẫu tín hiệu
có chiều dài khác nhau và cho sai số nhỏ nhất. Thuật toán này sử dụng phơng pháp đệ quy, ví
dụ nh các chơng trình con (Procedure) đợc tự động gọi ra nhng với các thông số (parameter)
khác nhau và tìm các sai số so với các tín hiệu mẫu. Mẫu nào có sai số so với tín hiệu cần so
sánh nhỏ nhất thì mẫu đó chính là mẫu cần tìm.
5.2. Nhận dạng với phơng pháp Markov ẩn HMM (Hidden Markov-Modell)
Hệ thống nhận dạng từ rời rạc dựa trên HMM có sơ đồ khối nh hình 2 dới đây. Từ đợc nhận
dạng đợc chia thành chuỗi thời gian của T khung và đợc phân tích sử dụng một số thuật toán
phân tích nh biến đổi Fourier nhanh (FFT), phân tích mã hoá dự báo tuyến tính (LPC). Sau b-
ớc này ta có một chuỗi mẫu quan sát O
t
, t=1, 2, , T. Chuỗi O
t
đợc lợng tử hoá vector sử
dụng một sách mã codebook bao gồm một tập đại diện của M mẫu tiếng nói. Sau đó hệ thống
so sánh độ tơng ứng của mẫu từ đầu vào cha biết với W mô hình từ. Từ đầu vào đợc nhận
dạng bằng cách lấy từ giống với nó nhất trong từ điển của hệ thống
Về mặt toán học, mỗi mô hình từ M
i
, i=1, 2, , W đợc xác định bởi một tập tham số [, A,
B]. Gọi
{ }
Pr /
i t i
O M
là xác xuất nhận đợc chuỗi quan sát O
t
với mô hình M
i
. Từ đợc nhận
dạng RW đợc xác định từ công thức:
{ }
1,2,
max Pr /
=
=
i t i
i w
RW Arg O M
. Trong đó Argmax cho kết
quả là chỉ số i của mô hình M
i
có xác xuất
{ }
Pr /
i t i
O M
cao nhất.
Để tính giá trị
{ }
Pr /
i
O M
cần xét tất cả các chuỗi trạng thái có thể tạo ra chuỗi quan sát và
sau đó xác định chuỗi trạng thái nào có xác xuất cao nhât. Tuy nhiên nếu phải xét tất cả thì
sẽ không thực tiễn vì phải xét với số lợng rất lớn các chuỗi trạng thái. Để giảm thiểu khối l-
ợng tính toán có thể dùng các phơng pháp đệ quy với hai thuật toán là Baul-Welch và Viterbi.
Học viện Công nghệ BCVT
Phân
tích và
xác định
các
tham số
Lợng
tử hoá
Vector
So sánh
độ tơng
ứng với
các
HMM
Nguyên
tắc lựa
chọn
Các mô hình
HMM đ:ợc l:u
trữ
Tiếng nói
đầu vào
Từ đợc
nhận dạng
Hội nghị Khoa học lần thứ 5
Hình 2: Hệ thống nhận dạng tiếng nói sử dụng HMM
5.3. Nhận dạng từ sử dụng mạng Nơ ron
Công nghệ nhận dạng tiếng nói chủ yếu sử dụng phơng pháp nhận dạng mẫu và mạng Nơ-ron
là một trong những công cụ nhận dạng mẫu có hiệu quả, do vậy nhiều hệ thống đã ứng dụng
mạng nơ-ron vào việc nhận dạng tiếng nói.
Mạng nơ-ron cấu trúc Perceptron nhiều lớp nh hình 3 đợc sử dụng nhiều trong các hệ thống
nhận dạng. Perceptron là loại đơn giản nhất của các mạng liên kết tiến (là mạng không có
liên kết giữa các khối xử lý trong cùng một lớp và không có các liên kết giữa các khối xử lý ở
lớp ra quay ngợc về lớp vào) sử dụng thuật toán học có giám sát. Một mạng Perceptron bao
gồm nhiều đơn vị xử lý đợc sắp xếp thành các lớp. Mạng này đợc huấn luyện theo quy tắc
Delta hoặc các biến thể của nó. Các khối xử lý đợc xắp xếp thành các lớp bao gồm 1 lớp vào
một khối xử lý ở một lớp ẩn và 1 lớp ra. Các liên kết có trọng số khác nhau kết nối mỗi một
khối xử lý ở một lớp nào đó tới tất cả các khối xử lý ở lớp lân cận.
Hình 3: Mạng Perceptron. (a) Perceptron 1 lớp, (b) Perceptron nhiều lớp
mạng Nơ-ron loại này đợc huấn luyện bằng cách nhập một vector mẫu ở lớp đầu vào và tính
toán các đầu ra. Sau đó, đầu ra đợc so sánh với các mẫu đầu ra mong muốn. Sai số giữa đầu
ra thực tế với đầu ra mong muốn đợc tính và phản hồi qua mạng tới mỗi phần tử. Trọng số
đầu vào của mỗi phần tử đợc điều chỉnh để tối thiểu hoá sai số. Quá trình này đợc lặp lại đến
khi đầu ra thực tế lệch với đầu ra mong muốn trong phạm vi sai số xác định trớc. Có rất nhiều
cặp mẫu đầu vào, đầu ra đợc đa qua mạng và quá trình nêu trên đợc lặp lại cho mỗi cặp đầu
vào, đầu ra. Việc nhận dạng chính là nhập mẫu tiếng nói cha biết ở nút đầu vào của mạng đã
đợc huấn luyên và tính toán giá trị của các nút đầu ra để xác định mẫu tiếng nói đó.
Học viện Công nghệ BCVT
Lớp vào
Lớp ra
Lớp vào
Lớp ra
Lớp ẩn
(a)
(b)
Lĩnh vực Công nghệ thông tin
5.4. Khuynh hớng ứng dụng trí tuệ nhân tạo (Artificial Intelligence AI) trong nhận
dạng tiếng nói
ý tởng cơ bản của việc ứng dụng trí tuệ nhân tạo vào nhận dạng tiếng nói là thu thập kiến
thức từ các nguồn kiến thức khác nhau để giải quyết các vấn đề đặt ra. ví dụ: ứng dụng trí tuệ
nhân tạo để làm công đoạn phân đoạn và gán nhãn tiếng nói cần có sự tổng hợp về các kiến
thức âm học, ngữ âm học, từ vựng học, cú pháp học, ngữ nghĩa và kiến thức thực tế.
- Kiến thức âm học: Là kiến thức về đặc trng của âm thanh (các đơn vị ngữ âm) đợc phát
ra trên cơ sở các số đo về phổ tín hiệu và các đặc tính hữu thanh hoặc vô thanh
- Kiến thức về từ vựng: Là những nguyên tắc do từ điển đặt ra để kết hợp các âm thanh
thành từ và ngợc lại chia nhỏ từ thành âm thanh.
- Kiến thức về cú pháp: Là sự kết hợp các từ thành các cụm từ hoặc câu đúng ngữ pháp
- Kiến thức về ngữ nghĩa: Là sự hiểu biết về ngữ cảnh sao cho các câu hoặc cụm từ phù
hợp với mục tiêu định nói và phù hợp với các câu trớc.
- Kiến thức thực tế: Là khả năng suy luận logic cần thiết để làm rõ ý dựa trên những cách
thức thông thờng mà từ đợc dùng.
Có nhiều cách khác nhau để tổng hợp các nguồn kiến thức vào trong hệ thống nhận dạng
tiếng nói. Phơng pháp thông dụng nhất là xử lý từ dới lên. Theo cách này, các tiến trình xử lý
đợc triển khai tuần tự từ thấp lên cao. Tiến trình phân tích tín hiệu đầu vào, tìm đặc tính, phân
đoạn, gán nhãn đợc triển khai đầu tiên, sau đó là các tiến trình phân lớp âm thanh, xác định
từ, câu . Mỗi tiến trình xử lý đòi hỏi một nguồn kiến thức và các nguồn kiến thức này đợc
tích luỹ dần qua các quá trình xử lý thực tế giống nh kiến thức của con ngời.
5.5. Mô hình hai từ và ba từ (Bi- và Trigramme)
Để hệ thống có khả năng làm việc với độ chính xác cao hơn, bên cạnh phơng pháp nhận dạng
theo mô hình Markov ẩn ngời ta còn có thể tích hợp vào hệ thống một phơng pháp thống kê.
Thông qua mô hình hai từ cũng nh ba từ đợc thống kê tích luỹ trong quá trình tính toán nhận
dạng nhiều lần, tiến trình kiểm tra ngữ cảnh đợc thiết lập. Phơng pháp này còn có lợi thế là
hệ thống nhớ đợc ngữ cảnh mà ngời nói quen dùng. Hệ thống càng hoạt động lâu với một ng-
ời, sẽ ngày càng quen với cách nói của ngời đó và qua đó độ chính xác ngày càng cao. Trong
quá trình hệ thống nhận dạng làm việc với mô hình thống kê hai chữ thì cứ hai chữ trong câu
đợc so sánh với nhau. Nếu trớc đó hai từ này cũng đã tồn tại trong các câu trớc đó trong bộ
nhớ thống kê thì từ đã đợc nhận dạng đó đợc xác định là chính xác. Tơng tự nh vậy với mô
hình thống kê 3 từ . Các hệ thống nhận dạng của các hãng nh Dragon, Phillips và
Lernout&houspie đều đợc áp dụng phơng pháp thống kê hai từ. Hãng IBM áp dụng phơng
pháp thống kê 3 từ theo bản quyền của hãng. Phơng pháp thống kê 3 từ hiển nhiên cho kết
quả có độ chính xác cao hơn phơng pháp thống kê 2 từ. Một nhợc điểm của phơng pháp này
là tốc độ tính toán chậm hơn. Với phơng pháp thống kê 3 từ hệ thống có tốc độ xử lý chậm
hơn rất nhiều so với 2 từ vì phơng pháp thống kê 3 từ có độ phức tạp lớn hơn 2 từ rất nhiều
lần.
6. Kết luận
Cho đến nay, các hệ thống nhận dạng tiếng nói mặc dù đã đợc nhiều hãng đầu t nghiên cứu
nhiều năm, xong vẫn còn nhiều hạn chế nh sau và do đó cha đủ để áp dụng trong nhiều lĩnh
vực:
- Hệ thống tai nghe và microphone vẫn phải bắt buộc sử dụng và phải áp dụng các công
nghệ lọc nhiễu.
- Hệ thống vẫn bắt buộc phải qua quá trình luyện do giọng nói và kiểu nói của mỗi ng-
ời.
Học viện Công nghệ BCVT
Hội nghị Khoa học lần thứ 5
- Độ chính xác của tất cả các hệ thống nhận dạng vẫn chỉ đạt đợc ở mức trên dới 90%.
Tài liệu tham khảo
[1]. Fundamentals of speech recognition. Lawrence Rabiner . Biing Hwang Juang 1999.
[2]. Distortion measures for speech processing. R. M Gray, A. Buzo, A.H.Gray, Jr., and Y.
Matsuyama 1980.
[3]. Xây dựng chơng trình nhận dạng nguyên âm tiếng Việt bằng mạng Nơ-ron nhân tạo,
Luận văn tốt nghiệp cao học, Hà nội, 1998.
Học viện Công nghệ BCVT