Tải bản đầy đủ (.pdf) (154 trang)

Thiết kế giải thuật nhận dạng tiếng nói trên FPGA điều khiển robot (fpga based designs for robot communications)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.53 MB, 154 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCK KHOA

HÀ HOÀNG KHA

ĐỀ TÀI

THIẾT KẾ GIẢI THUẬT
NHẬN DẠNG TIẾNG NÓI
TRÊN FPGA ĐIỀU KHIỂN ROBOT
FPGA BASED DESIGNS
FOR ROBOT COMMUNICATIONS
CHUYÊN NGÀNH: KỸ THUẬT VÔ TUYẾN ĐIỆN TỬ
MÃ SỐ: 2.07.01

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH 12-2002


LỜI CẢM ƠN

Xin chân thành cảm ơn Thầy Tiến só Lê Tiến Thường đã tận tình hướng dẫn,
cung cấp tài liệu và đóng góp những ý kiến quý báu giúp tôi hoàn thành luận
văn này.

Xin chân thành cảm ơn tất cả thầy côâ và bạn bè đồng nghiệp ở Trường Đại
học Bách Khoa đã quan tâm giúp đỡ và tạo điều kiện để tôi hoàn thành
chương trình học Cao học.


Tháng 12 năm 2002

Hà Hoàng Kha


LỜI NÓI ĐẦU
Nhận dạng tiếng nói là một lónh vực nghiên cứu quan trọng đã phát triển trong
những thập niên qua. Mục đích của hệ thống nhận dạng là tạo ra những cái
máy có thể giao tiếp với con người một cách tự nhiên và hiệu quả. Các hệ
thống nhận dạng có nhiều ứng dụng vô cùng to lớn trong các lónh lực của cuộc
sống, một trong những ứng dụng quan trọng là tạo ra các thế hệ robot thông
minh nhận tạo có thể “nghe”, “hiểu”, và “hoạt động” theo thông tin từ
tiếng nói, và có thể nói để trao đổi thông tin giữa các máy hoặc giữa máy với
người. Các robot có thể trao đổi thông tin như thế được gọi là robot
communications.
Đã có nhiều nhà nghiên cứu xây dựng các giải thuật nhận dạng cho robot
communications với những kết quả rất khả quan, tuy nhiên các giải thuật hầu
hết được thực hiện trên máy tính với sự trợ giúp mạnh các công cụ tính toán
cũng như dung lượng bộ nhớ. Việc chuyển những kết quả thực hiện trên máy
tính thành những vi mạch để ứng dụng vào thực tế gặp nhiều khó khăn, cần
nhiều thời gian và chi phí.
Tuy nhiên, trong những năm gần đây, với sự phát triển công nghệ ASICs
(Application Specific Integrated Circuits) đã mở ra một hướng phát triển mới
cho công nghệ kỹ thuật điện tử số hiện đại. Với những thiết bị có thể lập trình
như CPLD (Complex Programmable Logic Device), FPGA (Field
Progammable Gate Array) cho phép thiết kế thử nghiệm các hệ thống số tiện
lợi và rẻ tiền, và đặc biệt với ngôn ngữ mô tả phần cứng HDL (Hardware
Description Languages) quá trình sản xuất IC nhanh chóng và tiện lợi. Với
những ưu điểm trên, công nghệ FPGA đã trở thành một giải pháp hiệu quả
trong việc thử nghiệm và thiết kế các vi mạch ứng dụng.

Với đề tài : “THIẾT KẾ GIẢI THUẬT NHẬN DẠNG TIẾNG NÓI TRÊN
FPGA ĐỂ ĐIỀU KHIỂN ROBOT”. Luận án xây dựng một giải thuật nhận
dạng tiếng nói tiếng Việt theo hướng kết hợp mẫu, dựa trên các đặc trưng
năng lượng tiếng nói, tốc độ biến thiên qua zero, và phổ năng lượng của tín
hiệu bằng công cụ phân tích wavelets rời rạc với cấu trúc dãy bộ lọc hai kênh.
Toàn bộ giải thuật được viết bằng ngôn ngữ mô tả phần cứng chuẩn VHDL


và cài đặt thử nghiệm trên FPGA. Việc xây dựng chương trình trên FPGA
bằng ngôn ngữ VHDL sẽ là tiền đề cho việc thiết kế các IC chuyên dụng
nhận dạng tiếng nói tiếng Việt.
Phần trình bày luận án gồm các nội dung sau:
Chương 1: Giới thiệu khái quát về lịch sử phát triển robot, trình bày mô hình
robot communications, tổng quan về các phương pháp nhận dạng tiếng nói và
những khó khăn khi xây dựng hệ thống nhận dạng .
Chương 2: Trình bày các vấn đề tạo và tiếp nhận tiếng nói của con người, các
đặc trưng ngữ âm tiếng Việt.
Chương 3: Lý thuyết xử lý tín hiệu tiếng nói, bao gồm số hoá tín hiệu tiếng
nói, tiền xử lý, các đặc trưng thời gian ngắn như năng lượng frame, tốc độ
biến thiên qua zero, phân tích năng lượng frame bằng mô hình dãy bộ lọc,
thực hiện dãy bộ lọc bằng biến đổi Haar wavelets.
Chương 4: Các vấn đề trong kỹ thuật nhận dạng so sánh mẫu: giải thuật tách
điểm đầu cuối, kỹ thuật canh lề và chuẩn hoá thời gian dùng giải thuật quy
hoạch động, và luật quyết định nhận dạng.
Chương 5: Trình bày sự phát triển kỹ thuật EDA (Electronics Design
Automation), các cấu trúc và ứng dụng của thiết bị logic số có thể lập trình,
những ưu điểm và hạn chế ngôn ngữ mô tả phần cứng VHDL.
Chương 6: Thiết kế và thực hiện giải thuật nhận dạng tiếng nói theo hướng
kết hợp mẫu trên FPGA để điều khiển cánh tay robot. Giải thuật xây dựng
dựa trên các đặc trưng ZCR (Zero Crossing Rate), năng lượng frame, ước

lượng formant bằng waveletes rời rạc.
Chương 7: Nhận xét kết quả, những ưu điểm và hạn chế khi thực hiện giải
thuật trên FPGA, và đề xuất hướng phát triển đề tài.


PREFACE
Speech recognition is an important area of research for the last several
decades. The major goal of speech recognition is to create machines that can
interface with people naturally and efficiently. Speech recognition systems
have very important applications in many of aspects of our daily life. The
study of speech recognition is part of a quest for “artificially intelligent”
machines that can “hear”, understand” and “act upon” spoken information,
and “speak” in completing the information exchange. The machines are called
robot communications.
Many researchers have developed the speech recognition algorithms for robot
communications with relatively efficient recognition results. But, most
algorithms were programmed in high-level computing languages with
supporting the computation power and memory of a computer. Producing
these systems in the integrated circuits to apply in the real word is difficultly
and costly.
However, in recent years, successful developments in ASIC technology have
opened a new tendency in the modern digital electronic design. High-density
programmable logic Devices, including CPLD (Complex Programmable
Logic Device), FPGA (Field Programmable Gate Array) allow designing and
testing the digital systems quickly and effectively. Specially, with standard
hardware description language, VHDL, converting a design from a
programmable logic to an ASIC implementation is feasible. So, FPGA is
particularly suited for designing and testing application digital circuits.
The thesis, “FPGA based designs for robot communications”, develops a
speech recognition algorithm for Vietnamese language based on pattern

recognition approach. The features of the speech such as short time energy,
zero crossing rate and spectrum of signal from discrete wavelet transform are
parameters to be recognized. Realizing the speech recognition system on
FPGA with VHDL is the initial step to design integrated circuits for
recognizing Vietnamese speech.


The thesis is organized into seven chapters:
Chapter 1: Introduces generally about history of robot developments, robot
communication model. The global view of speech recognition approaches to
speech recognition and difficulties in building speech recognition system.
Chapter 2: Presents the speech production process in human being and the
acoustic-phonetic features of the sound in Vietnamese language.
Chapter 3: Presents the digital signal processing including: sampling, shortterm features energy frame, and correlation, zero crossing rate.). Specially,
introduces method to speech spectral analysis with filter bank model and
discrete wavelets transform.
Chapter 4: Discusses the problems in pattern comparison techniques: end
point detection, the algorithms to time aligning and normalizing, and discusses
dynamic time warping algorithms.
Chapter 5: Presents the advances in Electronics Design Automation,
introduces the architecture and applications of some programmable logic
devices. And show the strengths and weaknesses of VHDL.
Chapter 6: Design completely the speech recognition systems and configured
on FPGA to control robot communications. Presents detailed algorithms to
extract the features spectrum, ZCR of speech and implementation results.
Chapter 7: Comments on the speech recognition system, show the strengths
and weaknesses of implementation speech recognition on FPGA., and
proposes the future trends of thesis.



THIẾT KẾ GIẢI THUẬT NHẬN DẠNG TIẾNG NÓI TRÊN FPGA
ĐIỀU KHIỂN ROBOT
TÓM TẮT
Hệ thống nhận dạng tiếng nói được xây dựng dựa trên các đặc trưng tiếng nói
làm cơ sở nhận dạng. Về mặt ngữ âm tiếng nói được tạo ra bởi luồng không
khí từ phổi kích thích dây thanh đới dao động tạo ra hợp âm có tần số cơ bản
và rất nhiều hoạ tần. Các khoang cộng hưởng của cơ quan phát âm sẽ khuếch
đại một vài thành phần tần số và làm suy hao các thành phần tần số còn lại,
từ đó sẽ tạo ra các tiếng nói khác nhau. Các thành phần tần số được cộng
hưởng có khuynh hướng hình thành toàn bộ phổ tần tín hiệu tiếng nói, được
gọi là các formant. Do đó các formant là đặc trưng rất quan trọng để phân biệt
các âm tiết với nhau.
Tuy nhiên tiếng nói là tín hiệu không dừng, có các đặc trưng biến đổi theo
thời gian, do đó để phân tích tiếng nói cần phải khảo sát trong những khoảng
thời gian ngắn, gọi là một frame, và các đặc trưng trong một frame coi như
không thay đổi. Một công cụ xử lý tín hiệu hiệu quả để phân tích tín hiệu
không dừng đó là biến đổi wavelets, phân tích đa phân giải, có tính định vị
trong miềm thời gian và tần số. Để việc phân tích và xử lý tín hiệu trong thời
gian thực cần phải có một cấu trúc phần cứng xử lý song song, các thiết bị
logic có thể lập trình PLD (Programmable Logic Device) được chọn như là
một giải pháp hiệu quả.
Kết hợp đặc tính phân tích đa phân giải, biến đổi wavelets với cấu trúc xử lý
song song trên FPGA là một giải pháp hiện đại và hiệu quả cho việc xây
dựng một hệ thống nhận dạng tiếng nói tiếng Việt dựa trên các đặc trưng:
năng lượng frame, ZCR (Zero Crossing Rate) , các formant để làm cơ sở
nhận dạng.
Hệ thống nhận dạng tiếng nói được thực hiện gồm ba bước: lấy mẫu nhiễu
môi trường, huấn luyện và nhận dạng. Trong giai đoạn lấy mẫu nhiễu môi
trường, năng lượng nhiễu và ZCR được lưu trữ làm cơ sở cho việc tách âm
tiết. Trong quá trình huấn luyện các đặc trưng tiếng nói được trích ra và lưu

trữ trong cơ sở dữ liệu. Trong giai đoạn nhận dạng, các đặc trưng tiếng nói
được so sánh với các đặc trưng trong cơ sở dữ liệu để tìm ra từ có đặc trưng
gần nhất. Sau cùng, tiếng nói được nhận dạng và giải mã thành lệnh tương
ứng để điều khiển robot.


FPGA BASED DESIGNS FOR ROBOT COMMUNICATIONS
ABSTRACT
Speech recognition system is built based on the features of speech to
recognize. According to acoustic phonetic theory, speech is generated by the
airflow from the lung, which excite vocal cords vibrating to produces a series
of sounds, which have the fundamental frequency and many harmonics. The
resonant cavities of the human vocal organ will amplify some frequencies to
form the overall spectrum, called formants. The formant is a very important
feature to distinguish between syllables.
However, speech is a non-stationary signal which features vary slowly in time.
So, it needs to be analyzed and processed in short-time periods, called frame,
and the characteristics of frame are considered stationary. Wavelet is a good
signal processing method for non-stationary signal analysis with good
resolution in time and frequency. To process signal in real time needs
hardware architectures which can process parallel. Programmable logic
devices are chosen as effective solutions.
Implementation of multiresoulution signal processing in parallel processing
architecture of FPGA is a modern and effective solution for building a speech
recognition system.
The speech recognition system implemented in this thesis is a speakerdependent, isolated word system. The fundaments for recognizing are the
features: short-time energy, zero-crossing rate, and formants. The system has
three operating modes: noise sample, voice training, and recognition. In noise
sample mode, the number of zero-crossing and energy of the noise is found to
set the threshold for word boundary detection. In training phase, speech signal

is processed to extract important features to store in memory. During the
recognition stage, systems compares an unknown input word to a library of
stored words to find the closet match. After all, word recognized is decoded
into appropriate commands to control robot.


MỤC LỤC
Chương 1:

1.
1.1.
1.2.
1.3.
1.4.
1.5.
2.
3.
3.1.
3.2.
3.3.
3.4.
3.5.

Giới thiệu robot
Lịch sử phát triển robot
Mục đích sử dụng robot
Định nghóa và phân loại robot
Cấu trúc cơ bản hệ thống robot
Các tthế hệ robot
Robot communications

Hệ thống nhận dạng tiếng nói
Các hướng nhiên cứu nhận dạng tiếng nói
Mô hình nhận dạng tiếng nói
Phân loại hệ thống nhận dạng tiếng nói
Các khó khăng trong việc nhận dạng itếng nói
Các yếu tố ảnh hưởng mức độ phức tạp và chất lượng hệ thống
nhận dạng

Chương 2:
1.
1.1.
1.2.
1.3.
1.4.
1.5.
2.
2.1.
2.2.
2.3.
2.4.

TỒNG QUAN ROBOT COMUNICATION VÀ
HỆ THỐNG NHẬN DẠNG TIẾNG NÓI
1
1
4
4
6
6
6

7
8
9
10
11
11

ĐẶC TRƯNG NGỮ ÂM TIẾNG VIỆT

Các vấn đề cơ bản của tiếng nói
Bộ Máy phát âm của người
Cơ chế phát âm
Bản chất của tiếng nói
Các đặc trưng vất lý
Phân loại tiếng nói
Cơ sở ngữ âm tiếng Việt
Khái niệm âm tiết
m tố và nhận diện các âm tố
m vị
Hệ thống các âm vị trong tiếng Việt

13
13
14
15
15
16
17
17
20

24
25


Chương 3:
1.
2.
3.
3.1.
3.2.
3.3.
3.4.
3.5.
4.
4.1.
4.2.
5.
5.1.
5.2.
5.3.
5.4.
5.5.

Số hoá tín hiệu
Pre-emphasis
Xử lý tín hiệu thời gian ngắn
Frmae tiếng nói
Năng lượng thời gian ngắn
Tốc độ biến thiên qua zero
Hàm tương quan thời gian ngắn

Hàm sai biệt biên độ trung bình
Phân tích phổ bằng dãy bộ loc
Các dãy bộ lọc được sử dụng trong nhận dạng tiếng nói
Thực hiện dãy bộ lọc
Phân tích wavelets rời rạc
Khai triển chuỗi tín hiệu
Xử lý tín hiệu đa tần
Cơ sở wavelets rời rạc
Bộ lọc hai kênh
Dãy bộ lọc cấu trúc cây

Chương 4:

1.
2.
3.
4.
5.
5.1.
5.2.
6.

35
37
38
38
40
41
42
43

44
47
50
51
51
52
54
61
65

CANH LỀ VÀ CHUẨN HOÁ THỜI GIAN TRONG
HỆ THỐNG NHẬN DẠNG KẾT HP MẪU

Giới thiệu
Tách điểm đầu cuối
Các độ lệch trong nhận dạng tiếng nói
Canh lề và chuẩn hoá theo thời gian
Phép co giãn thời gian động
Giải thuật DTW đối xứng
Giải thuật DTW bất đối xứng
Mô hình nhận dạng theo hướng kết hợp mẫu

Chương 5:

1.
1.1.
1.2.
2.

PHÂN TÍCH VÀ XỬ LÝ TÍN HIỆU TIẾNG NÓI


66
67
70
73
77
77
80
82

THIẾT KẾ HIỆN ĐẠI TRÊN FPGA
NGÔN NGỮ MÔ TẢ PHẦN CỨNG

Sự phát triển và ứng dụng kỹ thuật EDA
Phương pháp thiết kế từ đỉnh xuống
Thiết kế ASIC
Các thiết bị lập trình dung lượng cao-FPGA

84
84
85
86
ii


2.1.
2.2.
2.3.
2.4.
2.5.

2.6.
2.7.
2.8.
3.

Một số thuật ngữ
Sự phát triển các thiết bị lập trình
Các công nghệ lập trình chip
Giới thiệu FPGA
Các loại FPGA
Quá trình cài đặc chương trình trên FPGA
Các loại FPGA trên thị trường
ng dụng của FPGA
Ngôn ngữ mô tả phần cứng VHDL

Chương 6:

1.
2.
2.1.
2.2.
2.3.
3.
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.
3.7.

3.8.
3.9.
4.
4.1.
4.2.

1.
2.
3.

THIẾT KẾ GIẢI THUẬT
NHẬN DẠNG TIẾNG NÓI TRÊN FPGA

Giới thiệu
Mô hình phần cứng
Mạch biến đổi AD
FPGA và kit UP1X
Cánh tay robot
Thiết kế giải thuật nhận dạng bằng ngôn ngữ VHDL
Khối giao tiếp AD
Khối lấy mẫu nhiễu
Khối tách điểm đầu cuối
Khối zero crossing rate
Ước lượng formant bằng Haar wavelets rời rạc
Khối điều khiển huấn luyện
khối điều khiển nhận dạng
Khối giao tiếp robot
Khối điều khiển hệ thống
Cài đặt hệ thống nhận dạng trên FPGA
Hệ thống nhận dạng dựa trên ZCR

Hệ thống nhận dạng dựa trên các formant

Chương 7:

86
87
90
94
98
98
100
104
105

109
110
111
114
115
117
119
121
122
123
124
129
130
131
131
132

133

KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI

Nhận xét kết quả
Kết luận
Hướng phát triển mở rộng

136
137
138

Tài liệu tham khảo
iii


FPGA ứng dụng cho robot communications

HD: TS. Lê Tiến Thường

Chương 1

TỔNG QUAN
ROBOT COMMUNICATIONS
NHẬN DẠNG TIẾNG NÓI

Tổng quan robot communications

1


KS. Hà Hoaøng Kha


FPGA ứng dụng cho robot communications

HD: TS. Lê Tiến Thường

1
TỔNG QUAN
ROBOT COMMUNICATIONS &
MÔ HÌNH NHẬN DẠNG TIẾNG NÓI
1.1.

GIỚI THIỆU ROBOT

1.1.1.

Lịch sử phát triển Robot

Nguồn gốc của robot có từ thời Hy Lạp cổ đại, các kỹ sư người Hy Lạp đã tạo
ra một cái tượng có khả năng chuyển động. Vào năm 270 trước Công nguyên,
Ctesibus, một kỹ sư người Hy Lạp đã chế tạo những cái đàn ống, đồng hồ
nước với các hình ảnh chuyển động.
Vào những năm 1770, Pierre Jacquet Droz, một nhà phát minh người Thụy Só
đã tạo ra ba con búp bê máy và mỗi con có thể thực hiện được những chức
năng riêng biệt: con có thể viết, con khác có thể chơi nhạc trên đàn ống, con
thứ ba có thể vẽ một bức tranh đơn giản. Đó là một kỳ công mà họ đã làm,
những con búp bê này thực hiện được những động tác tuyệt vời mà chỉ dùng
hộp số, nhông, chốt và lò xo.
Gần hơn, vào năm 1898, Nikola Tesla xây đã xây dựng tàu ngầm điều khiển

bằng sóng vô tuyến. Đây là một phát minh không nhỏ vào năm này. Tàu này
đã được trình diễn tại Madison Square Garden. Mặc dù Nikola Tesla đã có kế
hoạch cho tàu tự động, nhưng không đủ kinh phí cho cuộc nghiên cứu được
tiến triển xa hơn.
Từ “robot“ lần đầu tiên được sử dụng vào năm 1921 trong một vở kịch có tựa
đề R.U.R-Rossum’s Universal Robot của một tác giả người Séc, Karel
Capek. Trong đó, robot được mô tả như một máy phục vụ.

Tổng quan robot communications

2

KS. Haø Hoaøng Kha


FPGA ứng dụng cho robot communications

HD: TS. Lê Tiến Thường

Về mặt lịch sử, người ta cố tìm kiếm để đặt vào các vật thể vô tri vô giác
những khả năng và thuộc tính giống loài người. Điều này đã tạo ra một từ
“anthrobot”, robot có hình dạng của con người.
Bắt đầu từ đây, robot đã trở thành đề tài chủ yếu trong các phim truyện khoa
học giả tưởng, và đã tạo ra nhiều thuật ngữ mô tả các dạng khác nhau của
robot. Ngoài những robot bằng thiết cũ, còn có cyborg một nửa người và một
nửa máy và android là một robot được xây dựng đặc biệt, thiết kế giống
người.
Nhiều người lần đầu tiên nhìn thấy robot thật sự vào năm 1939 lúc chiến
tranh thế giới thứ hai. Westinghouse Electric đã xây dựng một con robot mà
họ gọi là Elektro the MotoMan. Mặc dù, Electro có các motor và hộp số để di

chuyển miệng, cánh tay và bàn tay, nhưng nó không thể thực hiện một công
việc có ích nào cả. Nó được gia nhập vào sân khấu với một con chó máy có
tên là Sparko.
Trong thời đại công nghiệp phát triển, các robot được ứng dụng rộng rãi trong
nhiều những vực nhằm thay thế con người trong việc thực hiện các công việc
lặp đi lặp lại và những công việc nguy hiểm cần độ chính xác cao. Sau đây là
sơ lược lịch sử phát triển của các máy móc tự động đã dẫn đến sự ra đời và
phát triển của các robot công nghiệp.
1801

Joseph Jacquard phát minh một máy dệt được điều khiển bằng card
đục lổ.

1830

Christopher Spencer (người Mỹ) thiết kế máy tiện hoạt động dựa vào
kỹ thuật cam.

1892

Ở Mỹ, Seward Babbitt thiết kế một cần trục cơ giới hóa có kẹp để di
chuyển các thỏi khỏi lò luyện.

1921

Từ robot xuất hiện lần đầu tiên trong một trò chơi ở Luân Đôn. Trò
chơi, được viết bởi Karel Capek (người Tiệp Khắc), giới thiệu từ robot
trong cụm từ Czech robota, có nghóa là một nông nô hoặc một lao
động q lụy. Từ đó khái niệm robot đã xuất hiện.


1938

Willard Pollard và Harold Roselund (người Mỹ) thiết kế một cơ cấu
sơn phun có thể lập trình được cho công ty DeVilbiss.

1946

George Devol được cấp bằng sáng chế về một thiết bị playback điều
khiển máy móc đa chức năng. Thiết bị sử dụng một bộ ghi từ tính.
Trong cùng năm này máy tính xuất hiện lần đầu tiên. Nhà khoa học

Tổng quan robot communications

3

KS. Haø Hoaøng Kha


FPGA ứng dụng cho robot communications

HD: TS. Lê Tiến Thường

người Mỹ J. Presper Eckert và John Mauchly xây dựng máy tính điện
tử lớn đầu tiên gọi là Eniac ở trường đại học Pennsylvania. Một máy
tính thứ hai được đặt tên là Whirlwind, là máy tính số đa năng đầu
tiên, được thiết kế ở M.I.T.
1948

Norbert Wiener, một giáo sư ở M.I.T, xuất bản quyển Cybertmetics
mô tả khái niệm giao tiếp và điều khiển trong điện tử, máy móc, và

hệ thống sinh vật học.

1951

Một cánh tay có khớp nối trang bị bộ hoạt động từ xa được thiết kế bởi
Raymond Goertz cho Atomic Energy Commission.

1954

Robot có thể lập trình đầu tiên được thiết kế bởi George Devol, người
đã đưa ra thuật ngữ Universal Automation. Sau đó thuật ngữ này được
viết ngắn gọn là Unimation, đó chính là tên của công ty robot đầu
tiên.

1959

Tập đoàn Planet đưa ra thị trường robot thương mại đầu tiên.

1960

Unimation được tập đoàn Condec mua lại và sự phát triển của Hệ
thống Robot Unimate được bắt đầu.
Tập đoàn AMF (American Machine and Foundry) đưa ra thị trường
một robot Versatran, được thiết kế bởi Harry Johnson và Veljko
Milenkovic.

1962

General Motors lắp đặt robot công nghiệp đầu tiên vào dây chuyền
sản suất. Đó chính là robot Unimate.


1964

Các phòng thí nghiệm nghiên cứu trí tuệ nhân tạo được mở ở M.I.T.,
Viện nghiên cứu Stanford (SRI), Đại học Stanford và Đại học
Edinburgh.

1968

SRI xây dựng và thử nghiệm robot di động có khả năng nhìn, được gọi
là Shakey.

1970

Đại học Stanford phát triển một cánh tay robot, làm tiêu chuẩn cho
các công trình nghiên cứu. Cánh tay hoạt động bằng điện năng và
được gọi là Cánh tay Stanford.

1973

Robot thương mại đầu tiên được điều khiển bằng máy tính mini được
Richard Hohn thiết kế cho tập đoàn Cincinnati Milacron. Robot được
gọi là T3, The Tomorow Tool.

1974

Giáo sư Scheiman, người phát triển Cánh tay Stanford, thành lập liên
hợp Vicarm để đưa ra thị trường một phiên bản cánh tay mới cho các
ứng dụng công nghiệp. Cánh tay mới được điều khiển bằng một máy
tính mini.


Tổng quan robot communications

4

KS. Haø Hoaøng Kha


FPGA ứng dụng cho robot communications

HD: TS. Lê Tiến Thường

1976

Các cánh tay robot được sử dụng trên tàu vũ trụ không người lái
Viking1 và Viking2.

1977

ASEA, một công ty robot châu Âu, đưa ra các robot công nghiệp dùng
điện năng. Chúng sử dụng một máy vi tính để điều khiển lập trình và
hoạt động. Cùng năm Unimation mua lại liên hợp Vicarm.

1978

Robot Puma (Programable Universal Machine for Assembly) được
Unimation phát triển từ kỹ thuật Vicarm.

1980


Công nghiệp robot bắt đầu phát triển nhanh chóng với một robot mới
hoặc một công ty ra đời mỗi tháng.

1.1.2.

Mục đích sử dụng robot

Robot là những thiết bị không thể thiếu trong nên sản xuất công nghiệp. Lý
do là chi phí trên một giờ để vận hành robot thì nhỏ hơn nhiều so với chi phí
của một người lao động thực hiện cùng chức năng. Hơn nữa, khi được lập
trình, robot có thực hiện các công việc lặp đi lặp lại với độ chính xác cao hơn
hẳn một công nhân nhiều kinh nghiệm. Tuy nhiên, con người thì linh hoạt hơn
và có thể chuyển giao nhiệm vụ công việc một cách dễ dàng hơn. Robot thì
chỉ làm công việc chuyên biệt, không thể chuyển robot hàn thành robot đếm
sản phẩm trong thùng. Ngoài việc thực hiện công việc một cách nhanh chóng
và hiệu quả, robot còn thay thế cho con người thực hiện các công việc trong
môi trường độc hại, nguy hiểm, có rủi ro cao như: công việc trong các hầm
mỏ, nơi có phóng xạ, hoá chất nguy hiểm v.v...
1.1.3.

Định nghóa và phân loại robot

Khái niệm phổ biết về người máy là một thiết bị thực hiện những công việc
giống như con người và có những khả năng thông minh của con người như có
thể nghe và nói.
Robot là một cái máy tự động đa chức năng có thể lập trình lại được thiết để
di chuyển các công cụ hoặc các thiết bị đặc biệt thông qua những thao tác
được lập trình sẵn để thực hiện các nhiệm vụ khác nhau.
Hai đặc điểm đa chức năng và có thể lập trình lại là đặc trưng quan trọng
nhất để phân biệt robot với các máy móc tự động khác. Một robot phải có

khả năng có thể được lập trình lại để thực hiện một nhiệm vụ mới hoặc có
thể thay đổi các cử động của cánh tay hoặc công cụ. Ngoài ra, robot phải có

Tổng quan robot communications

5

KS. Haø Hoaøng Kha


FPGA ứng dụng cho robot communications

HD: TS. Lê Tiến Thường

khả năng thực hiện nhiều chức năng khác nhau, phụ thuộc vào chương trình
và công cụ đang dùng.
Robot có thể được phân loại theo kỹ thuật điều khiển, khả năng, sự di chuyển:
ƒ
-

ƒ
-

ƒ
-

Phân loại theo kỹ thuật điều khiển, có:
Robot điểm-điểm: có khả năng di chuyển từ điểm này đến điểm khác
và không thể dừng ở các điểm trung gian bất kỳ.
Robot điểm liên tục: có thể di chuyển trên một đường và có thể dừng ở

một điểm trung gian bất kỳ.
Robot di chuyển theo quỹ đạo: di chuyển theo một quỹ đạo được mô tả
bằng phương trình đại số.
Robot được điều khiển phụ: có những thiết bị cảm biến trạng thái hiện
tại và hồi tiếp về để điều khiển robot.
Phân loại theo khả năng, gồm:
Robot được điều khiển trình tự: là những máy thực hiện những thao tác
trình tự cố định theo những lệnh, ví dụ trình tự giặt trong máy giặt.
Robot thích nghi: có khả năng tương tác với môi trường thông qua cảm
biến để thực hiện công việc bằng cách thay các thông số điều khiển.
Robot thông minh: được trang bị cảm biến để học và lấy mẫu môi
trường để tạo ra cơ sở kiến thức và hoạt động với sự trợ giúp của hệ
chuyên gia. Cơ sở kiến thức được cập nhật thường xuyên để robot hoạt
động tốt hơn.
Phân loại theo khả năng di chuyển, có:
Robot cố định: được gắn cố định trong một không gian làm việc.
Robot di động: được đặt trên những bánh xe, có thể di chuyển tự động
hoạt được điều khiển từ xa.
Robot đi bộ: là những robot có chân, có thể di chuyển trong địa hình khó
khăn. Đôi khi có khả năng leo lên và xuống dốc. Vấn đề khó khăn của
robot đi bộ là đảm bảo sự cân bằng trong khi di chuyển.

1.1.4.

Cấu trúc cơ bản của một hệ thống Robot

Một hệ thống robot cơ bản bao gồm một cánh tay cơ khí được gắn công cụ để
làm việc (gọi là công cụ end-of-arm), một bộ điều khiển dựa vào máy tính
gắn với trạm dạy (teach station) và thiết bị lưu trữ chương trình, một nguồn
năng lượng khí nén hoặc thủy lực để điều khiển cánh tay máy (hình 1.1).

Ngoài ra, để có các thông tin về môi trường bên ngoài, hệ thống phải dùng
thêm một loạt các cảm biến.
Tổng quan robot communications

6

KS. Haø Hoaøng Kha


FPGA ứng dụng cho robot communications

HD: TS. Lê Tiến Thường

Các cảm
biến

Thiết bị
dạy đầu
cuối

Nguồn năng
lượng khí nén
hoặc thủy lực

Máy tính
điều khiển
robot

Cánh tay
cơ khí

robot

Đóa lưu
chương trình

Công cụ
end-of-arm

Hình 1.1- Hệ thống robot cơ bản
1.1.5.
-

Các thế hệ Robot

Thế hệ thứ nhất: là những robot nhặt đặt dùng khí nén, có hơn khoảng
90% robot đang sử dụng thuộc loại này.
Thế hệ hai: robot được trang bị thiết bị cảm biến để tìm hướng đi.
Thế hệ thứ ba: robot thông minh nhân tạo, có khả năng tự học hỏi và ra
quyết định.
Thế hệ thứ tư: là loại robot sinh học nhân tạo.

1.2.

ROBOT COMMUNICATIONS

Sự thông minh của robot là một yếu tố rất quan trọng nên các nhà nghiên cứu
đang cố gắng tạo ra các thế hệ robot ngày càng thông minh hơn. Một trong
các nổ lực đó là mang lại khả năng giao tiếp tự nhiên giữa người với robot
cũng như giao tiếp giữa người với người: tạo ra các robot có thể nghe và nói
với con người. Robot có khả năng giao tiếp với con người bằng tiếng nói được

gọi là robot communications.
Về cơ bản, một robot communications có mô hình như ở hình 1.2
Xử lý tín hiệu
tiếng nói

Hệ thống nhận
dạng tiếng nói

Điều khiển
robot

7

KS. Hà Hoàng Kha

Micro

Tổng quan robot communications


FPGA ứng dụng cho robot communications

HD: TS. Lê Tiến Thường

Hình 1.2 –Mô hình robot Communications
Các lệnh điều khiển robot được nói trực tiếp vào micro hoặc thông qua một
đường truyền hữu tuyến hoặc vô tuyến. Khối xử lý tiếng nói có nhiệm vụ tách
tín hiệu tiếng nói từ nền nhiễu và thực hiện số hoá tín hiệu. Bộ phận nhận
dạng tiếng nói phân tích tín hiệu tiếng nói để trích các đặc trưng và thực hiện
so sánh với các mẫu đã lưu trưng trong bộ từ vựng để tìm ra lệnh gần giống

nhất. Khối điểu khiển robot có chức năng giao tiếp giữa khối nhận dạng và
robot, thực hiện chuyển đổi lệnh thành mã phù hợp để điều khiển robot thực
hiện công việc tương ứng. Mô hình robot trong luận án là một cánh tay robot
(robotic arm).

Hình 1.3 – Mô hình cánh tay Robot
1.3.

HỆ THỐNG NHẬN DẠNG TIẾNG NÓI

Tiếng nói là một phương tiện trao đổi thông tin một cách tự nhiên và hiệu
quả. Mục tiêu của hệ thống nhận dạng là tạo ra những cái máy có thể nhận
thông tin từ tiếng nói và hoạt động theo thông tin đó. Hơn nữa, việc trao đổi
thông tin từ máy với người có thể thực hiện thông qua bộ tổng hợp tiếng nói.
Do đó, việc nghiên cứu nhận dạng tiếng nói là một phần yêu cầu của “một
máy thông minh nhân tạo” có thể “nghe”, “hiểu” và “hoạt động” theo
thông tin từ tiếng nói, và có thể “nói” để trao đổi thông tin giữa các máy hoặc
giữa máy với người.

Tổng quan robot communications

8

KS. Haø Hoaøng Kha


FPGA ứng dụng cho robot communications

HD: TS. Lê Tiến Thường


Hệ thống nhận dạng tiếng nói chủ yếu dựa vào các đặc trưng tiếng nói để làm
cơ sở nhận dạng. Tuy nhiên do tính chất quá phức tạp của tiếng nói, nên việc
nhận dạng gặp rất nhiều khó khăn. Để vượt qua những khó khăn này, người ta
đã theo đuổi nhiều hướng nghiên cứu khác nhau nhằm mục đích nâng cao độ
chính xác của quá trình nhận dạng.
Để có thể nghiên cứu được cấu trúc của tiếng nói, đòi hỏi phải có sự kết hợp
của các nhà ngôn ngữ học, tâm lý học, và các nhà sinh lý học. Mục tiêu việc
nhận dạng tiếng nói là tạo ra hệ thống máy có thể thông tin về nhau qua tiếng
nói.
1.3.1.
1.

Các hướng nghiên cứu nhận dạng tiếng nói:

Hướng âm học-ngữ âm (The Acoustic-Phonetic Approach)

Các hướng nghiên cứu ban đầu dựa vào việc tìm âm tiếng nói và gán nhãn
(label) cho các âm này. Đây là cơ sở của hướng âm học-ngữ âm với giả thuyết
tồn tại một số hữu hạn các đơn vị ngữ âm khác nhau có thể phân biệt được
trong ngôn ngữ nói với các đặc điểm được mô tả bằng các đặc tính âm học
hiện diện rõ ràng trong tín hiệu tiếng nói. Mặc dù các đặc tính âm học của
các đơn vị ngữ âm có thể thay đổi theo người nói hoặc theo các âm lân cận,
hướng nghiên cứu âm học-ngữ âm giả sử rằng các qui luật chi phối sự thay đổi
là không phức tạp (straightforward) và có thể cho máy học dễ dàng. Bước đầu
tiên trong hướng âm học-ngữ âm là phân đoạn và gán nhãn (segmentation and
labeling) trong đó tín hiệu tiếng nói được phân ra thành các vùng âm học ổn
định, mỗi vùng được gán bởi một hoặc nhiều kí hiệu ngữ âm tạo thành một
chuỗi âm vị mô tả tiếng nói. Bước thứ hai là cố gắng xác định một từ có nghóa
(hoặc một chuỗi các từ) từ chuỗi kí hiệu âm vị được tạo ra trong bước đầu
tiên. Trong quá trình này, các giới hạn ngôn ngữ học (ví dụ như từ vựng, ngữ

cảnh và các qui luật ngữ nghóa) được áp dụng để truy xuất bộ từ vựng dựa trên
chuỗi âm vị. Hướng âm học-ngữ âm không được sử dụng rộng rãi trong các
ứng dụng thương mại.
2.

Hướng kết hợp mẫu (Pattern-Matching Approach)

Hướng kết hợp mẫu gồm hai bước chủ yếu là huấn luyện mẫu (pattern
training) và so sánh mẫu (pattern comparison). Đặc tính chủ yếu của hướng
này là sử dụng các cơ cấu toán học rõ ràng và thiết lập sự biểu diễn thích hợp
các mẫu tiếng nói cho việc so sánh chính xác các mẫu từ một tập hợp các mẫu
huấn luyện đã gán nhãn thông qua giải thuật huấn luyện nghiêm chỉnh. Tiếng
nói có thể được biểu diễn ở dạng mẫu tiếng nói (speech template) hoặc một
Tổng quan robot communications

9

KS. Haø Hoaøng Kha


FPGA ứng dụng cho robot communications

HD: TS. Lê Tiến Thường

mô hình thống kê (statistical model), và có thể được áp dụng cho một âm, một
từ hoặc một nhóm từ. Trong giai đoạn so sánh mẫu, có một sự so sánh trực
tiếp giữa tiếng nói chưa biết (cần nhận dạng) với mỗi mẫu được học trong giai
đoạn huấn luyện để xác định đặc tính của mẫu chưa biết dựa theo chất lượng
của việc kết hợp mẫu.
3.


Hướng thông minh nhân tạo (Artificial Intelligence Approach)

Hướng thông minh nhân tạo cố gắng máy móc hóa hoạt động nhận dạng theo
cách con người áp dụng trí khôn trong việc hình dung, phân tích và đánh giá
tiếng nói dựa trên một tập hợp các tính chất âm học đo được. Trong số các kỹ
thuật được sử dụng trong hướng này có việc sử dụng một hệ chuyên gia trong
đó tích hợp âm vị, từ vựng, cú pháp, ngữ nghóa và ngay cả các kiến thức thực
tế cho việc phân đoạn và gán nhãn, và sử dụng các công cụ như các mạng
neural nhân tạo cho việc học các quan hệ giữa các sự kiện âm vị. Trọng tâm
trong hướng này chủ yếu là sự biểu diễn kiến thức và tích hợp các nguồn
kiến thức. Phương pháp này chưa được sử dụng rộng rãi trong các hệ thống
thương mại.
1.3.2.

Mô hình hệ thống nhận dạng tiếng nói

Mô hình tổng quát của một hệ thống nhận dạng theo hướng kết hợp mẫu được
mô tả ở hình 1.4. Tín hiệu tiếng nói đầu tiên được biến đổi thành dạng tín
hiệu phù hợp cho việc xử lý. Trong quá trình xử lý, tiếng nói được phân tích
và trích các đặc trưng. Nếu trong quá trình huấn luyện thì các đặc trưng này
được lưu trữ thành cơ sở dữ liệu dưới dạng mẫu tham khảo hoặc mô hình
thống kê để phục vụ cho việc so sánh mẫu trong khối kết hợp mẫu. Trong giai
đoạn nhận dạng các đặc trưng sẽ được so sánh với các mẫu đã lưu trữ để tìm
mẫu gần với đặc trưng tiếng nói cần nhận dạng nhất. Khối quyết định nhận
dạng sẽ chọn mẫu nhận dạng tốt nhất.
Huấn luyện
Tiếng nói

Tiền

xử lý

Lưu trữ
đặc trưng

Trích
đặc trưng
Nhận dạng

Kết hợp
mẫu

Tiếng nói
nhận dạng
Quyết định được
nhận dạng

Hình 1.4 -. Sơ đồ khối bộ nhận dạng tiếng nói theo hướng kết hợp mẫu

Tổng quan robot communications

10

KS. Haø Hoaøng Kha


FPGA ứng dụng cho robot communications

1.3.3.


HD: TS. Lê Tiến Thường

Phân loại hệ thống nhận dạng tiếng nói

Các hệ thống nhận dạng tiếng nói được phân loại dựa vào các tiêu chí sau:
1.
ƒ
ƒ
ƒ

Kích thước bộ từ vựng nhận dạng, bao gồm:
Bộ từ vựng nhỏ: khả năng nhận dạng có thể tới 100 từ;
Bộ từ vựng trung bình: từ 100 đến 1000 từ;
Bộ từ vựng lớn: lớn hơn 1000 từ.

2.
ƒ

Cách thức người sử dụng nói với hệ thống nhận dạng, có ba kiểu:
Kiểu từ cô lập: người sử dụng nói từng từ hoặc từng lệnh riêng biệt và
có khoảng dừng giữa các từ.
Kiểu từ nối nhau: người sử dụng nói lưu loát toàn bộ các từ trong một
bộ từ vựng nhỏ (ví dụ số điện thoại).
Kiểu nói liên tục (continous speech mode): người sử dụng có thể nói
một cách lưu loát các từ trong một bộ từ vựng lớn (thường không giới
hạn).

ƒ
ƒ


3.
ƒ
ƒ

ƒ

4.
ƒ
ƒ

Thông tin về các mẫu tiếng nói của người sử dụng, bao gồm:
Hệ thống phụ thuộc người nói: người sử dụng phải là người đã huấn
luyện hệ thống.
Hệ thống độc lập người nói: người sử dụng không nhất thiết là người
đã huấn luyện hệ thống, do đó hệ thống này có thể làm việc trên một số
lượng lớn người sử dụng.
Hệ thống thích ứng người nói: tự cập nhật thông tin về từng người sử
dụng riêng biệt trong thời gian hệ thống được sử dụng.
Số lượng kiến thức về âm học và từ vựng học sử dụng trong hệ
thống, bao gồm:
Hệ thống âm học đơn giản không có kiến thức về ngôn ngữ học;
Hệ thống tích hợp kiến thức âm học và ngôn ngữ học.

1.3.4. Các khó khăn trong việc nhận dạng tiếng nói
ƒ

Cùng một âm có thể khác nhau khi được phát âm bởi các người khác
nhau do đặc trưng bộ máy phát âm của từng người. Thậm chí tiếng nói
của cùng một người khi phát âm cùng một âm cũng có khác nhau do ảnh
hưởng của các âm lân cận.


Tổng quan robot communications

11

KS. Hà Hoàng Kha


FPGA ứng dụng cho robot communications

HD: TS. Lê Tiến Thường

ƒ

Không có các ranh giới rõ ràng giữa các âm hoặc các từ. Ngay cả việc
khá đơn giản là tìm điểm bắt đầu và kết thúc của một âm (endpoint
detection) cũng khó khăn và dễ xảy ra lỗi, đặc biệt trong môi trường
nhiễu.

ƒ

Sự thay đổi của tiếng nói do tiếng địa phương, trong đó thường bỏ sót
một số âm hoặc thay thế một âm bằng một âm khác. Các đặc tính ngôn
điệu như âm điệu, nhịp điệu và trọng âm cũng có thể gây thay đổi tín
hiệu tiếng nói.

ƒ

Bản thân tín hiệu tiếng nói không thể luôn luôn mang tất cả các thông
tin âm học-ngữ âm cần thiết để nhận dạng.


1.3.5.

Các yếu tố ảnh hưởng mức độ phức tạp và chất lượng hệ thống
nhận dạng

Các yếu tố nào quyết định sự thành công hay thất bại của một hệ thống nhận
dạng và mức độ phức tạp khi thiết kế hệ thống ?
1.
2.
3.
4.

Hệ thống yêu cầu nhận dạng một người nói hay nhiều người ?
Kích thước bộ từ vựng ?
Tiếng nói được nói từng từ riêng biệt có khoảng dừng giữa các từ hay nói
liên tục ?
Môi trường hoạt động : lý tưởng hay nhiễu ? Bản chất loại nhiễu ?

1.3.5.1. Hệ phụ thuộc người nói hay độc lập người nói
Về nguyên lý, các giải thuật nhận dạng tiếng nói có thể được sử dụng cho cả
hệ thống phụ thuộc người nói hay độc lập người nói, chỉ có sự khác biệt
trong giai đoạn huấn luyện. Hệ thống nhận dạng phụ thuộc người nói sử dụng
đặc trưng tiếng nói của một người làm cơ sở nhận dạng. Do đó, người sử dụng
phải là người đã huấn luyện hệ thống. Hệ thống này có chất lượng tốt hơn hệ
thống độc lập người nói bởi vì các từ có các đặc trưng tiếng nói tương đối ổn
định. Hơn nữa, thư viện nhận dạng tương đối nhỏ bởi vì số mẫu đặc trưng yêu
cầu cho mỗi từ tương đối ít. Do giọng nói, tốc độ nói của từng người, từng
vùng là khác nhau, nên chất lượng hệ thống phụ thuộc người nói suy giảm khi
người sử dụng không phải là người huấn luyện. Vì vậy, hệ thống này không

phù hợp cho các ứng dụng công cộng, vì cần phải huấn luyện lại hệ thống khi
người mới sử dụng.

Tổng quan robot communications

12

KS. Hà Hoàng Kha


FPGA ứng dụng cho robot communications

HD: TS. Lê Tiến Thường

Hệ thống nhận dạng độc lập người nói thường được huấn luyện từ nhiều
người. Quá trình huấn luyện phức tạp hơn vì cần nhiều mẫu đặc trưng hơn cho
một từ (có thể hàng trăm hoặc hàng ngàn mẫu cho một từ) để huấn luyện hệ
thống. Do đó, hệ thống độc lập người nói thường yêu cầu bộ nhớ lớn hơn.
1.3.5.2. Kích thước bộ từ vựng
Chất lượng và tốc độ nhận dạng sẽ giảm khi khích thước bộ từ vựng tăng. Các
nhà nghiên cứu nhận dạng tiếng nói ước lượng rằng mức độ khó khăn của hệ
thống nhận dạng tăng theo hàm logarithm với kích thước bộ từ vựng. Dung
lượng nhớ cũng tăng khi kích thước bộ từ vựng tăng.
1.3.5.3. Nhận dạng từ cô lập hay liên tục
Bộ nhận dạng từ cô lập IWR (Isolated Word Recognition) được huấn luyện
bằng những từ rời rạc. Trong quá trình nhận dạng, người nói phát âm một câu
với khoảng dừng đủ dài giữa các từ (tối thiểu là 20ms) để khoảng im lặng
không nhầm với phụ âm xát yếu và khoảng bật hơi. Ranh giới giữa các từ
được xác định bằng các giải thuật tách điểm đầu cuối (endpoint detection).
Đây là bộ nhận dạng đơn giản nhất, và đặc biệt phù hợp cho các ứng dụng

điều khiển máy móc bằng lệnh đơn.
Hệ thống nhận dạng phức tạp nhất là nhận dạng tiếng nói liên tục CSD
(Continuous Speech Recognition). Người sử dụng phát âm một thông điệp
tương đối dài không giới hạn. Vấn đề khó khăn là phải tách ra ranh giới giữa
các từ khi có sự ảnh hưởng của âm lân cận.
1.3.5.4. Nhiễu môi trường
Một trong những vấn đề quan trọng của hệ thống nhận dạng là làm thế nào hệ
thống có tính chống nhiễu tốt. Các nguồn nhiễu có thể là âm thanh từ các
nguồn khác như: các thiết bị âm thanh, máy điều hoà… hoặc các nhiễu trong
nhà máy…. Các loại nhiễu này sẽ làm suy giảm chất lượng của hệ thống nhận
dạng.

Tổng quan robot communications

13

KS. Haø Hoaøng Kha


FPGA ứng dụng cho robot communications

2.1.

HD: TS. Lê Tiến Thường

CÁC VẤN ĐỀ CƠ BẢN CỦA TẾNG NÓI

Nghiên cứu quá trình tạo và cảm nhận tiếng nói của con người, cùng với các
đặc tính ngữ âm của tiếng nói chính là cơ sở cho việc phân tích, phân loại, xử
lý và nhận dạng tiếng nói.

2.1.1.

Bộ máy phát âm của người

Bộ máy phát âm của người bao gồm các thành phần cơ bản: phổi, khí quản,
thanh quản, khoang miệng và khoang mũi.
Thanh quản (larynx) chứa hai nếp gấp trong da gọi là dây thanh đới. Sự dao
động của dây thanh đới chính là nguồn gốc tạo ra tiếng nói.
Khoang miệng (vocal tract) là một ống âm học (acoustic tube) có chiều dài
xấp xỉ khoảng 17cm đối với người đàn ông trưởng thành. Nó được kết thúc
phía trước bởi hai môi và phía sau bởi dây thanh đới. Vùng diện tích cắt ngang
có thể thay đổi trong khoảng từ 0 đến 20 cm2 bằng cách điều khiển các cơ bắp
của bộ máy phát âm. Khoang miệng đóng vai trò hộp cộng hưởng động, thể
tích của nó có thể thay đổi được nhờ vào sự chuyển động của các cơ quan như
lưỡi, môi, hàm dưới… Nhờ vào sự chuyển động này mà tần số cộng hưởng của
khoang miệng có thể thay đổi và tạo ra các tiếng nói khác nhau.
Khoang mũi (nasal tract) cũng là một ống phát âm với diện tích và chiều dài
cố định, được kết thúc phía trước bởi lỗ mũi (nostrils) và phía sau bởi vòm
miệng (velum).

Đặc trưng ngữ âm Tiếng Việt

13

KS. Hà Hoàng Kha


×