Nghiên cứu nhận dạng giọng nói, áp dụng điều khiển ứng dụng hoặc trò chơi trên máy tính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.71 MB, 60 trang )

LỜI CAM ĐOAN
Học viên xin cam đoan đây là công trình nghiên cứu của riêng mình và dƣới
sự hƣớng dẫn khoa học của TS. Hồ Thị Hƣơng Thơm. Các nội dung nghiên cứu,
kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ
các công trình nào khác.
Các thông tin sử dụng trong luận văn là có nguồn gốc và đƣợc trích dẫn rõ
ràng. Học viên xin hoàn toàn chịu trách nhiệm về tính xác thực và nguyên bản của
luận văn.
Hải Phòng, ngày 10 tháng 03 năm 2016
Học viên

Nguyễn Thị Huyền Thanh

i

LỜI CẢM ƠN
Trong suốt quá trình học tập và nghiên cứu học viên đã nhận đƣợc rất nhiều
sự giúp đỡ của các thầy cô, bạn bè và gia đình.
Học viên xin bày tỏ lòng biết ơn sâu sắc và chân thành cảm ơn TS. Hồ Thị
Hƣơng Thơm đã tận tâm chỉ bảo, hƣớng dẫn và giúp đỡ tôi trong suốt thời gian
thực hiện đề tài:“NGHIÊN CỨU NHẬN DẠNG GIỌNG NÓI, ÁP DỤNG ĐIỀU
KHIỂN ỨNG DỤNG HOẶC TRÒ CHƠI TRÊN MÁY TÍNH”.
Học viên xin cảm ơn Trƣờng Đại học Hàng Hải, các thầy cô trong Viện đào
tạo sau Đại họcđã tạo điều kiện tốt nhất cho tất cả các học viên đƣợc học tập và
nghiên cứu tại trƣờng.
Học viên xin cảm ơn các đồng nghiệp và các thành viên trong gia đình đã
luôn động viên, ủng hộ, chia sẻ giúp học viên tập trung nghiên cứu và hoàn thành
luận văn của mình.
Học viênxin kính chúc các thầy cô luôn luôn mạnh khỏe để tiếp tục thực
hiện sứ mệnh cao đẹp trong sự nghiệp giáo dục.

Xin chân thành cảm ơn!
Học viên

Nguyễn Thị Huyền Thanh

ii

MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................ i
LỜI CẢM ƠN............................................................................................................. ii
MỤC LỤC ................................................................................................................ iii
DANG MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU .................................................... v
DANH MỤC CÁC HÌNH.......................................................................................... vi
DANH MỤC CÁC BẢNG ....................................................................................... viii
MỞ ĐẦU .................................................................................................................... 1
CHƢƠNG 1. GIỚI THIỆU KHÁI NIỆM TỔNG QUAN ................................................. 4

1.1.

Khái niệm cơ bản về tƣơng tác ngƣời máy .................................................. 4

1.2

Cơ sở lý thuyết của âm thanh giọng nói ....................................................... 7

1.2.1. Giới thiệu về xử lý giọng nói ........................................................................ 7
1.2.2. Chuyển đổi văn bản thành giọng nói ............................................................ 9
1.3.

Nhận dạng giọng nói .................................................................................. 10

1.3.1. Giới thiệu về nhận dạng tiếng nói .............................................................. 10
1.3.2. Phân loại hệ thống nhận dạng tiếng nói .................................................... 13
1.4.

Quá trình xử lý giọng nói............................................................................ 15

1.4.1. Phân tích ngữ âm và văn bản ..................................................................... 15
1.4.2. Chuyển đổi ký tự sang âm thanh ................................................................ 17
1.5.

Tổng hợp tiếng nói ...................................................................................... 19

1.6.

Kỹ thuật thích ứng tiếng nói ....................................................................... 22

1.7.Ứng dụng nhận dạng giọng nói trong thực tế và điều khiển trên máy tính ...... 23
CHƢƠNG 2. MỘT SỐ PHƢƠNG PHÁP NHẬN DẠNG GIỌNG NÓI .................. 27
2.1.

Phƣơng pháp mô hình độ tƣơng quan ........................................................ 27

2.1.1. Vị trí trình tự các biến ................................................................................ 28
iii

2.1.2. Miêu tả các thành phần vector tham số phổ độc lập.................................. 29
2.1.3. Kiểu nhận dạng ........................................................................................... 29

2.2.

Phƣơng pháp mạng nơron .......................................................................... 31

2.2.1. Giới thiệu về mạng nơron nhân tạo............................................................ 32
2.2.2. Mô hình mạng nơron .................................................................................. 32
2.2.3. Xử lý tín hiệu tiếng nói................................................................................ 34
2.2.4. Quá trình nhận dạng................................................................................... 34
2.2.5. Nhận dạng tiếng nói bằng mạng nơron ...................................................... 37
CHƢƠNG 3. CÀI ĐẶT, THỬ NGHIỆM VÀ ỨNG DỤNG ..................................... 42
3.1. Môi trƣờng thử nghiệm ................................................................................ 42
3.2. Mô phỏng chƣơng trình ................................................................................ 42
3.3. Thử nghiệm và đánh giá kết quả .................................................................. 45
KẾT LUẬN .............................................................................................................. 49
TÀI LIỆU THAM KHẢO ......................................................................................... 51

iv

DANG MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU
Chữ viết tắt

Giải thích

ANN

Artificial Neural Network

CNPM SIGCHI

Hiệp hội công nghệ phần mềm

CPU

Central Processing Unit

CSDL

Cơ sở dữ liệu

FD – PSOLA

Frequency Domain -Pitch Synchronous Overlap Add

HCI

Human Computer Interaction

HMM

Hidden Markov Model

iOS

iphone Operating System

LPC

Lower Order Connection

LP-PSOLA36

Linear Prediction - Pitch Synchronous Overlap Add

MFCC

Mel Frequency Cepstral Coeffcient

PSOLA

Pitch Synchronous Overlap Add

TD – PSOLA

Time Domain- Pitch Synchronous Overlap Add

TTS

Text To Speech

VNPT

Vietnam Posts Telecommunications

v

DANH MỤC CÁC HÌNH
Số hình
1.1.

Tên hình
Mô hình bộ xử lý thông tin của con ngƣời (do Card, Moran
và Newell đƣa ra năm 1983)

Trang
5

1.2

Tƣơng tác ngƣời – máy bằng giọng nói, cử chỉ, khuôn mặt.

6

1.3.

Dùng giọng nói để lên thực đơn, rồi điều khiển robot đi chợ

6

1.4.

Mô hình bài toán xử lý tiếng nói

8

1.5.

Bộ phân tích ngữ âm

9

1.6.

Nhận dạng giọng nói qua tƣơng tác máy tính

10

1.7.

Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói

13

1.8.

Điều khiển máy tính bằng giọng nói qua phần mềm PC
tohuman

14

1.9.

Điều khiển điện thoại bằng giọng nói

14

1.10

Lƣu đồ thuật toán xét các văn bản

15

1.11.

Sự biến đổi tần số cơ bản của các từ

16

1.12.

Sơ đồ thuật toán chuyển đổi ký tự sang âm thanh

18

1.13

Bộ tổng hợp tiếng nói

19

1.14.

Mô hình thích ứng tiếng nói

23

1.15.

Điều khiển giọng nói với máy tính bảng

24

1.16.

Soạn thảo văn bản bằng giọng nói trên Google Dos

26

vi

2.1.

Mô hình mạng Neuron

33

2.2.

Sơ đồ tổng quan của hệ thống nhận dạng

37

2.3.

Sơ đồ khối mô tả hệ thống nhận dạng tiếng nói

37

3.1.

Giao diện chính của chƣơng trình

42

3.2.

Giao diện mô phỏng

43

3.3.

Dữ liệu data trong tập huấn luyện

43

3.4.

Dữ liệu đang đƣợc huấn luyện

44

3.5.

Thu tín hiệu dùng để huấn luyện và nhận dạng

44

3.6.

Kết quả mô phỏng

44

vii

DANH MỤC CÁC BẢNG
Số bảng

Tên bảng

Trang

1

Kết quả nhận dạng huấn luyện mạng dùng LPC

46

2

Kết quả với bộ từ vựng điều khiển

47

viii

MỞ ĐẦU
Công nghệ thông tin đang giữ một vai trò quan trọng không chỉ trong các
ngành công nghiệp, quân sự, nghiên cứu, giải trí…mà ngay cả trong đời sống
và nhu cầu ngày nay của con ngƣời. Có rất nhiều các chuyên ngành khác nhau
trong công nghệ công tin, trong đó giao tiếp giữa ngƣời và máy là một phƣơng
pháp rất đƣợc quan tâm hiện nay và có đã nhiều ứng dụng trong thực tiễn.
Cùng với sự phát triển không ngừng của công nghệ, con ngƣời có thể
giao tiếp với máy tính thông qua nhiều phƣơng tiện hỗ trợ nhƣ: màn hình cảm
ứng, thiết bị thu hình, thiết bị thu âm… Trong đó tiếng nói là cách thức giao
tiếp cơ bản nhất của con ngƣời, sử dụng lời nói là một cách diễn đạt hiệu quả
nhất. Ngày nay, cùng với sự phát triển của khoa học kỹ thuật và công nghệ, đặc
biệt trong lĩnh vực tin học, nhu cầu giao tiếp với thiết bị máy tính bằng tiếng
nói là rất cần thiết và hỗ trợ con ngƣời trong nhiều ứng dụng. Vì vậy nghiên
cứu nhận dạng giọng nói trong tƣơng tác ngƣời – máy đang đƣợc nhiều nhà
nghiên cứu quan tâm,nó cho phép con ngƣời tƣơng tác với máy rất dễ dàng và
thuận tiện mà không cần sử dụng các phƣơng pháp tƣơng tác thông thƣờng nhƣ
bàn phím, chuột…
Về mặt kinh tế và thƣơng mại, việc nhận dạng tiếng nói đã thay đổi cách
con ngƣời tƣơng tác với hệ thống và thiết bị, không còn bị bó buộc trong cách
tƣơng tác truyền thống nhƣ thông qua bàn phím máy tính hay điện thoại mà
chuyển sang tƣơng tác trực tiếp bằng giọng nói.
Về mặt nghiên cứu khoa học, các hệ thống nhận dạng tiếng nói hiện tại
đều dựa trên phƣơng pháp thống kê và so khớp mẫu. Phƣơng pháp này đòi hỏi
một lƣợng kiến thức về ngữ âm và dữ liệu huấn luyện lớn, bao gồm cả dạng âm
thanh và dạng văn bản, để huấn luyện bộ nhận dạng. Lƣợng dữ liệu huấn luyện
càng lớn, bộ nhận dạng càng có nhiều khả năng đƣa ra kết quả chính xác hơn.
Việc nghiên cứu các phƣơng pháp nhận dạng giọng nói đã và đang thu hút
rất nhiều sự đầu tƣ và nghiên cứu của các nhà khoa học trên khắp thế giới. Trên
thế giới đã và đang có có rất nhiều công trình nghiên cứu ứng dụng về vấn đề

này với nhiều phƣơng pháp nhận dạng tiếng nói khác nhau. Và những nghiên
1

cứu đó cũng đã có những thành công đáng kể nhƣ: Via Voice Mellennium
(IBM), Via Voice Standrad (IBM), nhận dạng tiếng Anh, một số hệ thống nhận
dạng tiếng nói của các ngôn ngữ khác nhƣ Trung Quốc, Ý, Đức… Nghiên cứu
nhận dạng tiếng nói đƣợc ứng dụng để đáp ứng nhu cầu thiết yếu của con ngƣời
và xã hội đem lại nhiều thuận lợi cho con ngƣời trong nhiều lĩnh vực của đời
sống nhƣ:
- Cải thiện hiệu quả nhập thông tin: nhập bằng tiếng nói nhanh gấp 2 lần
nhập bằng gõ phím.
- Những ứng dụng ít sử dụng đến đôi tay (trong phòng tối, buồng lái)
- Giúp cho ngƣời khiếm thị giao tiếp dễ dàng với bộ thiết bị.
- Lĩnh vực chuyển đổi tín hiệu: Chuyển đổi lời nói thành văn bản.
- Lĩnh vực nhận diện: Hệ thống mật mã giọng nói.
- Các lĩnh vực trong y tế, quân sự…
Với mong muốn có thể hiểu rõ hơn cách thức giao tiếp giữa ngƣời và
máy tính, học viên lựa chọn đề tài: “Nghiên cứu một số kĩ thuật nhận dạng
tiếng nói, áp dụng trong việc điều khiển chương trình trên máy tính" dƣới sự
hƣớng dẫn khoa học của TS. Hồ Thị Hƣơng Thơm để nghiên cứu và tìm hiểu
về hệ thống này với mục tiêu, phƣơng pháp cụ thể nhƣ sau:
1. Mục tiêu của đề tài
Mục tiêu của đề tài là nghiên cứu nhận dạng giọng nói, ứng dụng tƣơng
tác điều khiển chƣơng trình trên máy tính.
2. Đối tượng và phạm vi nghiên cứu
Đối tƣợng nghiên cứu của đề tài:
- Xử lý âm thanh giọng nói
- Nhận dạng giọng nói
Phạm vi nghiên cứu:

- Âm thanh giọng nói đƣợc đƣa vào dƣới dạng các file wav từ các thiết
bị thu.
- Dựa vào các tập âm thanh giọng nói vào phân loại thành tập lệnh
tƣơng ứng tƣơng tác với máy tính.
2

- Cài đặt chƣơng trình thử nghiệm trên môi trƣờng Matlab.
3. Phương pháp nghiên cứu
Nghiên cứu và nắm rõ cơ sở lý thuyết của một số kỹ thuật về nhận dạng
giọng nói, từ đó cài đặt thử nghiệm trên môi trƣờng Matlab để đánh giá và đƣa
ra phƣơng hƣớng cụ thể khi ứng dụng thực tế.
4. Dự kiến kết quả đạt được
Đƣa ra đƣợc một số kết quả nghiên cứu về mặt lý thuyết nhận dạng giọng
nói, xây dựng một số tập lệnh để ứng dụng tƣơng tác chƣơng trình trên máy
tính nhƣ là điều khiển trò chơi hoặc thao tác một số cửa sổ trên window.
Nội dung luận văn đƣợc trình bày trong 3 chƣơng cụ thể nhƣ sau:
Chƣơng 1: Giới thiệu khái niệm tổng quan: trình bày những khái niệm
cơ bản về tƣơng tác ngƣời - máy, một số cơ sở lý thuyết của âm thanh giọng
nói, nhận dạng giọng nói, ứng dụng của nhận dạng giọng nói trong thực tế và
điều khiển trên máy tính.
Chƣơng 2: Một số phƣơng pháp nhận dạng giọng nói: đi vào nghiên
cứu cụ thể hai phƣơng pháp nhận dạng giọng nói.
Chƣơng 3: Cài đặt thử nghiệm và ứng dụng: Trên cơ sở một số kỹ
thuật nhận dạng giọng nói đƣợc trình bày ở chƣơng 2, chƣơng này đề mô
chƣơng trình, cài đặt, thử nghiệm và đánh giá kết quả.

3

CHƢƠNG 1: GIớI THIệU KHÁI NIệM TổNG QUAN
1.1.

Khái niệm cơ bản về tƣơng tác ngƣời – máy
Tƣơng tác ngƣời – máy (Human Computer Interaction – HCL) nói đơn

giản là việc nghiên cứu con ngƣời (ngƣời dùng), công nghệ máy tính và tác
động qua lại giữa các đối tƣợng đó. HCL là một lĩnh vực đƣợc quan tâm từ rất
lâu từ khi máy tính ra đời. Những nghiên cứu về tƣơng tác ngƣời – máy tính là
sự phát triển tiếp theo của khoa học trong thời đại hiện nay, khi vai trò của máy
tính và các ứng dụng công nghệ thông tin ngày càng trở nên phổ biến.
Trong tƣơng tác có hai thành phần cơ bản tham gia giao tiếp đó là con
ngƣời (ngƣời dùng) và máy tính. Phƣơng tiện giao tiếp giữa hai đối tƣợng đó là
đối thoại thông qua môi trƣờng là phần mềm. Cũng nhƣ giao tiếp giữa hai hay
nhiều ngƣời với nhau đƣợc thực hiện thông qua tiếng nói, hành động hay chữ
viết. Ngƣời dùng thông qua các phƣơng tiện giao tiếp cung cấp bởi phần mềm,
tƣơng tác với máy tính để đƣa ra các yêu cầu (dữ liệu hay mệnh lệnh) nhằm thực
hiện nhiệm vụ của mình. Máy tính sẽ phân tích yêu cầu, căn cứ vào các chức
năng định sẵn, thực hiện các yêu cầu đó bằng cách trao đổi giữa các moodun.
Việc trao đổi giữa các moodun là trong suốt với ngƣời dùng. Việc đáp lại hay sự
trả lời của hệ thống thông qua việc biến đổi trạng thái của mình thể hiện trên
thiết bị hiển thị. Điều quan trọng ở đây là làm sao, qua giao tiếp ngƣời dùng hiểu
công việc của mình làm và biết thực hiện công việc đó bằng cách nào. Con
ngƣời tƣơng tác với thế giới bên ngoài thông tin nhận đƣợc và đáp ứng bằng
thông tin gửi đi. Trong quá trình tƣơng tác với máy tính, ngƣời dùng nhận đƣợc
thông tin gửi ra bởi máy tính và đáp ứng bằng cách cung cấp thông tin vào cho
nó.
Kênh vào của con ngƣời diễn ra chủ yếu nhờ các giác quan. Còn kênh ra
nhờ mô tơ điều khiển các tác động thông qua các giác quan vật lý nhƣ: mắt, tay,
tai,... Trong 5 giác quan của con ngƣời, có 3 giác quan quan trọng với tƣơng tác

ngƣời – máy tính, đó là: thị giác (nhìn), thính giác (nghe) và xúc giác (sờ, nắm,

4

nhấn phím). Tƣơng tự nhƣ vậy các tác nhân có ảnh hƣởng đến đầu ra đó là: chân
tay, ngón tay, mắt, đầu và hệ thống ngữ âm.
Trong mô hình bộ xử lý của con ngƣời tƣơng tác với máy tính của Card,
Moran và Newell, bao gồm 3 hệ thống con: hệ thống tiếp nhận dùng để xử lý
các kích thích giác quan từ bên ngoài, hệ thống vận động dùng để điều khiển
hành động, và hệ thống nhận thức đƣa ra các xử lý cần thiết để kết nối với hai hệ
thống vận động

Hình 1.1. Mô hình bộ xử lý thông tin của con ngƣời (do Card, Moran và Newell
đƣa ra năm 1983)
Trong việc tƣơng tác của con ngƣời với thế giới bên ngoài, thông tin đƣợc
tiếp nhận và đƣợc gửi qua hệ thống đầu vào và đầu ra. Khi tƣơng tác với máy
tính, ngƣời sử dụng sẽ nhận thông tin từ đầu ra của máy tính sau đó phản hồi lại
bằng cách gửi thông tin đến đầu vào của máy tính. Khi đó đầu ra của ngƣời sử
dụng trở thành đầu vào của máy tính và ngƣợc lại.
Cả hai thành phần trong tƣơng tác ngƣời – máy đều phức tạp do đó giao
diện phải làm nhiệm vụ truyền tải một cách có hiệu quả giữa 2 thành phần đó để
5

đảm bảo tƣơng tác thành công. Sự truyền tải này có thể khó khăn vì rất nhiều lí
do, vì vậy việc sử dụng các mô hình tƣơng tác có thể giúp chúng ta hiểu về
những gì đang diễn ra trong tƣơng tác và nhận dạng đƣợc nguồn gốc của những
khó khăn đó. Chúng cũng cung cấp cho chúng ta một nền tảng để có thể so sánh
các kiểu tƣơng tác khác nhau và xem xét các vấn đề liên quan đến tƣơng tác.

Một ví dụ về một ứng dụng tƣơng tác thông minh điều khiển bằng máy
tính:
 Thực hiện tƣơng tác
ngƣời với máy bằng
giọng nói, cử chỉ và
khuôn mặt.

Hình 1.2.Tƣơng tác ngƣời – máy bằng giọng nói, cử chỉ, khuôn mặt.
 Robot của các đội thi thực
hiện thao tác mua hàng tại
siêu thị sau khi nhận yêu cầu
bằng giọng nói của ngƣời
điều khiển

Hình 1.3.Dùng giọng nói để lên thực đơn, rồi điều khiển robot đi chợ.

6

1.2. Cơ sở lý thuyết của âm thanh giọng nói
Máy tính ngày càng là một công cụ vô cùng hữu ích trợ giúp con ngƣời
xử lý thông tin. Cùng với sự phát triển của xã hội thì khối lƣợng thông tin mà
máy tính cần xử lý tăng lên rất nhanh trong khi thời gian dành cho những công
việc này lại giảm đi. Vì vậy, việc tăng tốc độ xử lý thông tin, trong đó có tốc độ
trao đổi thông tin giữa con ngƣời và máy tính, trở thành một yêu cầu cấp thiết.
Hiện tại, giao tiếp ngƣời - máy đƣợc thực hiện bằng các thiết bị nhƣ bàn phím,
chuột, màn hình,... với tốc độ tƣơng đối chậm nên cần có các phƣơng pháp trao
đổi thông tin mới giúp con ngƣời làm việc hiệu quả hơn. Một trong những
phƣơng pháp đó là sử dụng tiếng nói trong trao đổi thông tin ngƣời - máy.
1.2.1. Giới thiệu về xử lý giọng nói

Xử lý giọng nói hiện nay đang là vấn đề đƣợc quan tâm nghiên cứu nhiều
bởi khả năng ứng dụng trong nhiều lĩnh vực nhƣ: Công nghệ thông tin, Viễn
thông, tự động hóa... qua đó giúp quá trình tƣơng tác giữa ngƣời với máy trở nên
hiệu quả và tự nhiên hơn.
Quá trình xử lý tín hiệu giọng nói là quá trình thu nhận, lƣu trữ và truyền
tín hiệu. Quá trình nhận dạng, tổng hợp tiếng nói hay xác thực ngƣời nói thông
qua giọng nói là các ví dụ điển hình của quá trình xử lý tín hiệu tiếng nói.
Mục đích của xử lý giọng nói đó là:
-

Thực hiện xử lý, mã hoá một cách có hiệu quả tín hiệu tiếng nói để truyền

và lƣu trữ tiếng nói.
-

Tổng hợp và nhận dạng giọng nói nói tới giao tiếp ngƣời-máy bằng tiếng

nói dựa vào các thông tin của quá trình tiền xử lý…
Chúng ta có thể mô hình hóa cho bài toán xử lý giọng nói nhƣ sau:

7

Hình 1.4. Mô hình của bài toán nhận dạng tiếng nói.
Nhận dạng tiếng nói là một quá trình phức tạp bao gồm nhiều khâu biến
đổi. Tín hiệu tiếng nói phát ra là tƣơng tự. Qua quá trình lấy mẫu, lƣợng tử hoá
và mã hoá để thu đƣợc tín hiệu số. Các mẫu tín hiệu này đƣợc trích chọn đặc
trƣng. Những đặc trƣng này sẽ là đầu vào của quá trình nhận dạng. Hệ thống
nhận dạng sẽ đƣa ra kết quả nhận dạng tƣơng ứng.
Thông tin đầu vào lúc này là tín hiệu tiếng nói do con ngƣời phát ra, sau

đó tín hiệu này đƣợc số hóa (rời rạc, lƣợng tử và mã hóa dạng nhị phân). Quá
trình tiền xử lý tiếng nói tiến hành xử lý tín hiệu tiếng nói cho kết quả là các
tham số của tín hiệu tiếng nói. Các tham số này trở thành đầu vào đối với tất cả
các ứng dụng của xử lý tiếng nói.
Nhƣ vậy tất cả các ứng dụng của xử lý tiếng nói đều phải dựa trên các kết
quả của quá trình tiền xử lý. Kết quả của quá trình này sẽ góp phần quyết định
tính chính xác và đánh giá hiệu quả của các ứng dụng đó.
Một số yếu tố khó khăn cho bài toán nhận dạng tiếng nói đó là:
- Khi phát âm, ngƣời nói có tốc độ nói nhanh, chậm khác nhau.
- Các từ đƣợc nói thƣờng dài ngắn khác nhau.
-

Một ngƣời cùng nói một từ nhƣng ở hai lần phát âm khác nhau sẽ cho

ra kết quả phân tích khác nhau.
-

Những yếu tố nhƣ nhiễu của môi trƣờng, nhiễu của thiết bị thu…cũng

ảnh hƣởng không nhỏ tới kết quả nhận dạng.

8

1.2.2. Chuyển đổi văn bản thành tiếngnói
Các hệ thống chuyển đổi văn bản thành giọng nói có thể đƣợc xem giống
nhƣ hệ thống mã hóa tiếng nói cho phép lựa chọn các kiểu cách nói, tốc độ nói,
cƣờng độ và các hiệu ứng khác nhau. Hệ thống chuyển văn bản thành tiếng nói
(TTS) là một hệ thống có thể sinh ra tiếng nói gần giống với con ngƣời từ các
văn bản đƣợc đƣa vào (còn đƣợc gọi là hệ thống tổng hợp tiếng nói). Sự chuyển

đổi các từ dƣới dạng viết sang tiếng nói là một công việc khó khăn vì hệ thống
TTS phải cần dữ liệu từ vựng rất lớn và nhiều ngữ điệu của âm thanh mới có thể
chuyển đổi đƣợc.
Bộ phân tích văn bản sẽ chuẩn hóa văn bản sang dạng thích hợp qua hệ
thốngTTS gồm các thành phần:
- Bộ phân tích ngữ âm chuyển đổi văn bản đã đƣợc xử lý thành một dãy các
âm

tƣơng

ứng,

vàsau

đó

sẽ

đƣợcphântíchngữđiệuđểxácđịnhtrọngâm,ngắtnhịp,thờigian,..v..v..
- Bộ tổng hợp tiếng nói nhận các tham số đầu vào từ dãy âm vị đƣợc xử lý
đầyđủ.
Dƣới đây là sơ đồ bộ phân tích ngữ âm:

Hình 1.5. Bộ phân tích ngữ âm
9

 Thành phần phân tích vănbản gồm:
+ Xác định cấu trúc tài liệu, chuyển đổi ký hiệu, phân tích cấu trúc ngôn ngữ
+ Chuyển đổi các ký hiệu sang dạng chuẩn.

+ Chuyển đổi các số sang dạng chữ tƣơng ứng.
+ Phân tích khoảng trống, dấu chấm câu để xác định cấu trúc ngôn ngữ.
 Thành phần phân tích ngữâm gồm:
+ Chuyển đổi các từ đã chuẩn hóa sang các âm vị tƣơng ứng (với thông tin nhƣ
trọng âm, thời gian phát âm)
1.3. Nhận dạng giọng nói qua tƣơng tác ngƣời - máy
1.3.1. Giới thiệu về nhận dạng giọng nói
Nhận dạng giọng nói là một kỹ thuật nhằm làm cho máy hiểu đƣợc tiếng
nói của con ngƣời. Nhận dạng giọng nói chính là quá trình nghiên cứu tiếng nói
để đƣa ra tập đặc tính và quá trình nhận dạng, sau đó sẽ so sánh tiếng nói cần
đƣợc nhận dạng với tập đặc tính trên để phán đoán. Đây là một quá trình biến tín
hiệu tiếng nói do ngƣời phát ra thành tín hiệu số sau đó sử dụng một số giải
thuật để đối chiếu giữa tín hiệu thu đƣợc với các dữ liệu tham chiếu để xác định
xem tín hiệu thu đƣợc tƣơng ứng với dữ liệu tham chiếu nào trong bộ tham
chiếu. Kết quả của việc nhận dạng sau đó có thể đƣợc sử dụng trong các ứng
dụng khác nhƣ nhập số liệu, soạn thảo văn bản bằng lời nói, điều khiển tự
động…

Hình 1.6. Nhận dạng giọng nói qua tƣơng tác máy tính

10

Nhận dạng giọng nói là một quá trình nhận dạng mẫu, với mục đích là
phân lớp thông tin đầu vào từ tín hiệu tiếng nói thành một dãy tuần tự các mẫu
đã đƣợc học trƣớc đó và đƣợc lƣu trữ trong bộ nhớ. Các mẫu đó là các đơn vị
nhận dạng, chúng có thể là các từ hoặc các âm vị. Nếu các mẫu đó là bất biến
và không thay đổi thì việc nhận dạng tiếng nói sẽ đơn giản hơn bằng cách
sosánhdữliệutiếngnóicầnnhậndạngvớicácmẫuđãđƣợchọcvà

đƣợc

lƣutrữtrongbộnhớ.Khókhăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn
biến thiên theo thời gian. Sự khác biệt ở chỗ giữa tiếng nói của những ngƣời
nói khác nhau, tốc độ nói, ngữ cảnh và môi trƣờng âm học khác nhau.
Việc xác định những thông tin biến thiên của tiếng nói là có ích và những
thông tin nào là không có ích đối với việc nhận dạng tiếng nói là rất quan trọng.
Việc này ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong
việc tổng quát hoá từ các mẫu tiếng nói với những biến thiên quan trọng cần
thiết trong nhận dạng tiếng nói.
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản đó là:
- Tín hiệu tiếng nói đƣợc biểu diễn chính xác qua các giá trị phổ trong
một khung thời gian ngắn . Qua đó ta có thể trích ra các đặc điểm tiếng nói từ
những khoảng thời gian ngắn, sau đó dùng các đặc điểm này làm dữ liệu để
nhận dạng tiếngnói.
- Nội dung của tiếng nói đƣợc biểu diễn dƣới dạng chữ viết, đó là một
dãy các ký hiệu ngữ âm. Do đó ý nghĩa của một phát âm sẽ đƣợc bảo toàn khi
chúng ta phiên âm phát âm thành dãy các ký hiệu ngữâm.
- Nhận dạng tiếng nói có thể hiểu là một quá trình nhận thức. Thông tin
về ngữ nghĩa và suy đoán có giá trị trong quá trình nhận dạng tiếng nói, nhất là
khi thông tin về âm học không đƣợc rõràng.
Mục tiêu của hầu hết các chƣơng trình nhận dạng tiếng nói là kết quả
nhận dạng đạt đến độ chính xác gần 100% mà không phụ thuộc vào một điều
kiện nào cả. Tuy nhiên tất cả các nghiên cứu gần đây chỉ cho độ chính xác đến
11

khoảng 90% trong một số điều kiện cụ thể nào đó còn những chƣơng trình nhận
dạng mà không có điều kiện giới hạn gì thì độ chính xác chỉ đạt không quá 80%.
Các chƣơng trình nhận dạng tiếng nói hiện nay khá nhiều và hết sức đa dạng.

Tuy nhiên chúng ta cũng có thể dựa vào một số đặc điểm để phân chúng thành
một số dạng chủ yếu nhƣ:
 Nhận dạng các từ phát âm rời rạc, liên tục:
Trong các chƣơng trình nhận dạng các từ phát âm rời rạc yêu cầu ngƣời
nóiphải dừng một khoảng trƣớc khi nói từ tiếp theo. Còn hệ thống nhận dạng các
từ phát âm liên tục không yêu cầu điều kiện này.
 Nhận dạng tiếng nói độc lậpphụ thuộc ngƣời nói:
Đối với hệ thống nhận dạng phụ thuộc ngƣời nói đòi hỏi tiếng ngƣời nói
phải có trong cơ sở dữ liệu của hệ thống còn hệ thống nhận dạng không phụ
thuộc ngƣời nói thì ngƣời nói không nhất thiết phải có mẫu trƣớc khi nhận dạng
trong cơ sở dữ liệu.
 Nhận dạng với tử điển cỡ nhỏ, vừa, lớn:
Hiệu năng của một hệ thống nhận dạng với từ điển cỡ nhỏ thƣờng cao hơn
hiệu năng của các hệ thống nhận dạng có từ điển cỡ vừa và lớn.
 Nhận dạng trong môi trƣờng nhiễu cao, thấp:
Hiệu năng của các hệ thống nhận dạng không nhiễu sẽ cao hơn hiệu năng của
các hệ thống nhận dạng có nhiễu.
Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói đƣợc biểu diễn
theo sơ đồ sau:

12

Hình 1.7.Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói
Tín hiệu tiếng nói sau khi đƣợc số hóa sẽ phân thành các khung có độ dài
khoảng từ 10 đến 45ms qua bƣớc phân tích và xác định các đặc tính sẽ cho ta
một dãy các vector đặc tính của tiếng nói. Các vector này sau đó sẽ đƣợc sử
dụng để tìm kiếm các từ giống nhất trong từ điển dựa trên một số điều kiện ràng
buộc nào đó về mặt âm thanh, ngữ nghĩa, từ vựng…
Do tính chất của tiếng nói phụ thuộc vào nhiều yếu tố nên việc thu nhận,

phân tích các đặc trƣng của tiếng nói là việc không dễ dàng. Ở đây, chúng ta có
thể nêu ra một số yếu tố khó khăn cho bài toán nhận dạng tiếng nói nhƣ:
 Khi phát âm, ngƣời nói thƣờng nói nhanh chậm khác nhau.
 Các từ đƣợc nói thƣờng dài ngắn khác nhau.
 Một ngƣời cùng nói một từ nhƣng ở hai lần phát âm khác nhau thì
cho kết quả phân tích khác nhau.
 Mỗi ngƣời có một chất giọng riêng đƣợc thể hiện thông qua độ cao của
âm, độ to của âm, cƣờng độ âm và âm sắc
 Những yếu tố nhƣ nhiễu của môi trƣờng, nhiễu của thiết bị thu…
1.3.2. Phân loại hệ thống nhận dạng giọng nói
Nhận dạng tiếng nói đƣợc chia thành hai nhóm dựa trên mục đích sử
dụng:
13

 Nhóm đƣợc sử dụng với mục đích điều khiển thiết bị thông qua giọng nói

Hình 1.8. Điều khiển máy tính bằng giọng nói qua phần mềm PC to human
 Nhóm sử dụng nhằm xử lý từ tiếng nói sang văn bản.
Ứng dụng điều khiển smartphone bằng giọng nói có thể dịch văn bản sang
nhiều thứ tiếng khác nhau

Hình 1.9. Điều khiển điện thoại bằng giọng nói
Hiện nay, khả năng nhận dạng tiếng nói chƣa thực sự đáp ứng đƣợc các
yêu cầu của thực tế, song trong những năm gần đây những hệ thống nhận dạng
tiếng nói đã có bƣớc phát triển đáng kể. Trong một giới hạn nào đó thì bên cạnh
bàn phím và con chuột, những phần mềm nhận dạng tiếng nói đã đóng vai trò
nhƣ một bộ phận nhập dữ liệu vào các PC và một số thao tác điều khiển PC mà
ngƣời dùng đòi hỏi.
14

Nhƣ vậy, ta thấy đƣợc nhận dạng tiếng nói là lĩnh vực nghiên cứu quan
trọng để phát triển và đƣa các ứng dụng tự động vào nhiều ngành. Ngoài các yếu
tố về công nghệ nhận dạng tiếng nói, thì do tiếng nói của mỗi dân tộc có những
đặc thù riêng cũng đòi hỏi việc phân tích và tìm ra công nghệ phù hợp. Ở Việt
Nam việc phát triển các hệ thống nhận dạng tiếng nói còn đang ở bƣớc đầu
nghiên cứu với rất ít các kết quả đƣợc công bố.
1.4. Quá trình xử lý giọng nói
1.4.1. Phân tích ngữ âm và vănbản
a. Từvựng
Câu trong văn bản đƣợc ngăn cách với nhau bởi các dấu câu. Các dấu câu
đƣợc cho trong bảng dƣới. Các câu ở đây nhằm chỉ các loại câu khác nhau (trần
thuật, hỏi...) để xác định sự biến đổi của tần số cơ bản và có thể không chặt chẽ
về ngữpháp.
Các câu đƣợc xác định theo lƣu đồ thuật toán sau:

Hình 1.10. Lƣu đồ thuật toán xét các văn bản

15

a. Xác định cấu trúc tàiliệu
Sau khi đƣợc xác định, câu đƣợc phân loại để xử lý. Ta có thể chia thành
ba loại:
 Loại 1 (câu trần thuật): tƣơng ứng với các dấu: “.”, “;” “)”, “]”, “}”
 Loại 2 (câu hỏi): tƣơng ứng với dấu câu: “?”
 Loại 3 (câu hơi lên giọng ở cuối câu): dấu “,”, “!”
Sự biến đổi các thông số của tín hiệu tiếng nói tổng hợp phụ thuộc vào
từng loại câu.

Căn cứ vào sự biến đổi các thông số của tín hiệu tiếng nói, câu đƣợc
phân tích thành các từ đi kèm với các thông số của từ. Các thông số của từ bao
gồm:
 Sự biến đổi tần số cơ bản
 Biên độ
 Trƣờng độ
Hình dƣới đây minh hoạ sự biến đổi tần số cơ bản của các từ theo sự
biếnđổi tần số cơ bản của câu

Hình 1.11.Sự biến đổi tần số cơ bản của các từ

16

Các từ đƣợc nhấn mạnh trong câu có biên độ và trƣờng độ của từ này lớn
hơn các từ khác.Việc tách từ trong câu đƣợc thực hiện theo lƣu đồ thuật toán ở
trên. Để tiện xử lý về sau (sử dụng các bảng mã tiếng Việt khác nhau), trƣớc khi
tách thành hai diphone từ đƣợc chuyển thành dạng telex. Dấu của từ đƣợc viết ở
cuối từ.
Ví dụ: từ trƣờng đƣợc chuyển thành truwowngf
Việc chuyển từ dạng tiếng Việt thông thƣờng sang dạng telex tuỳ thuộc
vào loại bảng mã đƣợc sử dụng. Chƣơng trình sử dụng bảng mã 8 bit TCVN3ABC
1.4.2. Chuyển đổi ký tự sang âmthanh
Từ ở dạng biểu diễn telex đƣợc tách thành hai âm kép bắt đầu và kết thúc
tƣơng ứng. Âm kép bắt đầu đƣợc phân biệt bằng dấu “_” phía trƣớc, âm kép kết
thúc có dấu “_” phía sau.
Ví dụ: từ thuwowngf đƣợc tách thành hai âm kép _thuw và uwowng_
Mấu chốt của việc tách một từ thành hai âm kép là phát hiện đƣợc vị trí
bắt đầu và kết thúc của nguyên âm đầu tiên (theo chiều từ trái sang phải).
Ví dụ: nếu tìm đƣợc nguyên âm ƣ (uw) thì dễ dàng tách từ thuwowng

thành truw và uwowng.
Thuật toán xác định vị trí bắt đầu và kết thúc của nguyên âm đầu tiên
đƣợc cho trong hình 1.9.
Trong hình 1.9 ứng với quá trình kiểm tra xem hai ký tự liên tiếp có phải
là aa, aw, ee, oo, ow, uw hay không.
Việc xác định âm kép kết thúc phải đi kèm với việc xác định dấu của từ,
vì có trƣờng hợp âm kép kết thúc không thể tạo thành từ âm kép không dấu.
Ví dụ: từ hóc và học đều có âm kép kết thúc là oc_, âm kép này không thể
tạo thành từ âm kép không dấu nên phải căn cứ vào dấu của từ để xác định âm
kép là ocs_ hayocj_
17

Nghiên cứu nhận dạng giọng nói, áp dụng điều khiển ứng dụng hoặc trò chơi trên máy tính

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về