ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA
---------------------------------------
LÊ VĂN VŨ
ỨNG DỤNG KỸ THUẬT NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG
HỖ TRỢ HOẠT ĐỘNG KIỂM SỐT KHƠNG LƯU
C
C
R
L
T.
U
D
Chun ngành : KỸ THUẬT ĐIỆN TỬ
Mã số: 8520203
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. Hoàng Lê Uyên Thục
Đà Nẵng – Năm 2020
LỜI CAM ĐOAN
Tơi cam đoan đây là cơng trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong
luận văn là trung thực và chưa từng được ai cơng bố trong bất kỳ cơng trình nào khác.
Tác giả luận văn ký và ghi rõ họ tên
C
C
U
D
R
L
T.
MỤC LỤC
TRANG PHỤ BÌA
LỜI CAM ĐOAN
MỤC LỤC
TĨM TẮT LUẬN VĂN
DANH MỤC CÁC CHỮ VIẾT TẮT
DANH MỤC CÁC CHỮ
DANH MỤC CÁC HÌNH
MỞ ĐẦU..............................................................................................................................1
Chương 1 - TỔNG QUAN HOẠT ĐỘNG KIỂM SỐT KHÔNG LƯU ..................... 3
C
C
1.1
Giới thiệu chương..................................................................................................3
1.2
Cơ bản về hoạt động kiểm sốt khơng lưu ........................................................3
1.3
Yếu tố con người trong hoạt động không lưu..................................................... 5
R
L
T.
1.3.1
Yếu tố con người ..................................................................................................................5
1.3.2
Ý nghĩa của yếu tố con người ..........................................................................................6
1.3.3
Lỗi lặp lại và nghe lại .........................................................................................................6
U
D
1.4 Tình hình nghiên cứu về ứng dụng nhận dạng tiếng nói trong hoạt động
khơng lưu .........................................................................................................................7
1.5
Các ứng dụng nhận dạng tiếng nói tự động trong điều khiển khơng lưu........9
1.6
Giới thiệu hệ thống hỗ trợ hoạt động kiểm sốt khơng lưu ............................ 10
Chương 2 - LÝ THUYẾT ỨNG DỤNG TRONG NHẬN DẠNG TIẾNG NĨI TỰ
ĐỘNG ................................................................................................................................12
2.1
Giới thiệu chương................................................................................................12
2.2
Q trình hình thành và phát triển của mơ hình LSTM ................................12
2.3
Mơ hình LSTM kết hợp phương pháp học sâu ...............................................14
2.4
Các ứng dụng nhận dạng tiếng nói tự động sử dụng kỹ thuật học sâu.........16
2.5
Kết luận chương .....................................................................................................................17
Chương 3 - HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG ..............................18
3.1
Giới thiệu chương................................................................................................18
3.2
Nguyên lý chuyển đổi tiếng nói thành văn bản ...............................................18
3.3
Nhận dạng tiếng nói tự động trên nền tảng điện toán đám mây ..................... 19
3.4
Dịch vụ điện toán đám mây Azure ....................................................................21
3.4.1
Nhận thức thị giác.................................................................................... 23
3.4.2
Nhận thức tiếng nói.................................................................................. 23
3.4.3
Nhận thức ngơn ngữ………….................................................................. 24
3.4.4
Nhận thức tìm kiếm………………................................................................. 24
3.4.5
Nhận thức quyết định…………….............................................................. 25
3.5
Kết luận chương ................................................................................................25
Chương 4 - THÍ NGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG PHÁT HIỆN LỖI TIẾNG
NÓI................................................................................................................................... 26
4.1
Giới thiệu chương................................................................................................26
4.2
Cơ sở dữ liệu tiếng nói ........................................................................................26
4.3
Tiêu chí đánh giá hệ thống .................................................................................29
4.4
Phương pháp đánh giá hệ thống ........................................................................27
4.5
Tiến hành thí nghiệm ..........................................................................................30
C
C
R
L
T.
4.5.1
Chuyển đổi tiếng nói thành văn bản ............................................................30
4.5.2
So khớp văn bản ............................................................................................31
4.6
4.6.1
U
D
Kết quả thí nghiệm..............................................................................................33
Thí nghiệm 1: đánh giá tỉ lệ nhận dạng của mơ hình có sẵn......................33
4.6.2
Thí nghiệm 2: huấn luyện thêm cho mơ hình có sẵn và đánh giá tỉ lệ nhận
dạng của mơ hình mới .................................................................................................34
4.6.3
4.7
Thí nghiệm 3: mơ phỏng ứng dụng so khớp mực bay .................................37
Kết luận chương ..................................................................................................37
KẾT LUẬN VÀ KIẾN NGHỊ..........................................................................................39
DANH MỤC TÀI LIỆU THAM KHẢO ........................................................................40
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN
PHỤ LỤC 1
PHỤ LỤC 2
PHỤ LỤC 3
TÓM TẮT LUẬN VĂN
ỨNG DỤNG KỸ THUẬT NHẬN DẠNG TIẾNG NĨI TỰ ĐỘNG ĐỂ
HỖ TRỢ HOẠT ĐỘNG KIỂM SỐT KHƠNG LƯU
Học viên: Lê Văn Vũ
Chuyên ngành: Kỹ thuật điện tử
Mã số: 8520203 Khóa: 37 Trường Đại học Bách khoa - ĐHĐN
Tóm tắt – Kiểm sốt khơng lưu là một hoạt động mang ý nghĩa cực kỳ quan trọng nhằm đảm bảo sự an
tồn và duy trì sự thơng suốt của các chuyến bay. Một số các nhiệm vụ của kiểm sốt viên khơng lưu là
hiệp đồng với phi cơng để hướng dẫn phi cơng tn thủ lộ trình bay và tránh xung đột giữa các máy
bay. Nhằm hỗ trợ cho kiểm sốt viên khơng lưu, bài báo đề xuất ứng dụng kỹ thuật nhận dạng tiếng nói
tự động trong việc phát hiện lỗi do thông tin sai lệch giữa kiểm sốt viên và phi cơng. Trong giai đoạn
nghiên cứu ban đầu, hệ thống hỗ trợ tập trung vào khai thác dịch vụ điện tốn đám mây Azure thuộc tập
đồn Microsoft. Hệ thống đề xuất gồm có hai phần: trước tiên, tiếng nói của phi cơng và kiểm sốt viên
được chuyển đổi thành văn bản dựa trên nền tảng học sâu LSTM (Long Short Term Memory); sau đó
tiếng nói của hai đối tượng này được so sánh với nhau dựa vào so sánh hai văn bản tương ứng, từ đó
phát hiện ra lỗi lặp lại và lỗi nghe lại. Các thí nghiệm được tiến hành với 10 mực bay trong vùng trời
điều hành từ độ cao 15.000 feet đến 25.000 feet, trong môi trường bay giả lập và thực tế. Kết quả thí
nghiệm bước đầu đã cho tỷ lệ nhận dạng chấp nhận được và tỷ lệ phát hiện lỗi rất khả quan.
C
C
R
L
T.
U
D
Từ khóa – Kiểm sốt khơng lưu, nhận dạng tiếng nói tự động, chuyển đổi tiếng nói sang văn bản, mạng
LSTM (Long Short Term Memory), lỗi nghe lại và lỗi lặp lại.
APPLICATION OF AUTOMATIC SPEECH RECOGNITION TO SUPPORT
AIR TRAFFIC CONTROL
Abstract – Air traffic control activity plays a critical important role in accomplishing the safety and
maintaining the orderly flow of air flights. Among other responsibilities, the controller cooperates with
the pilot by instructing the pilot to follow the planned flight route and to resolve aircraft conflicts. In
order to decrease the workload of air traffic controllers we propose the application of the automatic
speech recognition to detect controller-pilot voice miscommunication errors. In the very beginning
stage, the support system focuses on using Azure, a cloud computing service created by Microsoft
group. The system consists of two phases: firstly, pieces of speech of the pilot and the controller are
converted into texts based on long short term memory (LSTM) network; secondly, these speech pieces
are compared to each other based on comparing the two corresponding texts; then read back and hear
back errors are detected. The conducted experiments are implemented on 10 flight levels in the airspace
between 15,000 feet and 24,500 feet, via simulated and realistic air environments. Initially experimental
results give the acceptable recognition rate and promissing error detection rate.
Key words – Air traffic control, automatic speech recognition, speech-to-text, LSTM network (Long
Short Term Memory), hearback error and readback error.
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
ADS-B
Automatic Dependent Surveillance
AI
Artificial Intelligence
ATC
Air Traffic Control
ASR
Automatic Speech Recognition
ASRS
Aviation Safety Report System
AWS
Amazon Web Service
BLSTM
Bidirectional -Long Short Term Memory
CNN
Convolution Neural Network
CNN-BLSTM
Convolution Neural Network – Bi-Long Short Term Memory
CNN-LSTM
Convolution Neural Network - Long Short Term Memory
DBM
Deep Boltzmann Machines
DBN
Deep Belief Network
DNN
Deep Neural Network
DS2
Deep Speech 2
EPO
European Patent Office
ERS
Ergonomic Research Society
FAA
Federal Aviation Administration
FAIR
Facebook AI Research
FL
Flight Level
GAN
Generative adverarial network
GMM
Gausian Makov model
GNSS
Global Navigation Satellite System
GPU
Graphics Processing Unit
HMM
Hidden Makov Model
ICAO
International Civil Aviation Organization
IEA
International Ergonomi Association
C
C
R
L
T.
U
D
KSVKL
Kiểm sốt viên khơng lưu
LACE
Layer-wise Context Expansion with Attention
LAS
Listen, Attent and Spell
LSTM
Long Short Term Memory
L-LSTM
Layer - Long Short Term Memory
CAASD
Center for Advanced Aviation System Developement
NASA
National Aeronautics and Space Administration
NLP
Natural Language Processing
SAE
Stack Auto-Encoder
SSR
Secondary Surveillance Radar
T-LSTM
Time - Long Short Term Memory
TRACON
Terminal Radar Approach Control
WER
Word Error Rate
ResNet
Residual Network
RNN
Recurent Neural Network
PCM
Pulse Code Modulation
VAE
Variational Autoencoder
VHF
Very High Frequency
R
L
T.
C
C
U
D
DANH MỤC CÁC BẢNG
Số hiệu bảng
Tên bảng
Trang
2.1
Các mơ hình nhận dạng tiếng nói hiện nay
13
2.2
Tỷ lệ WER (%) của mơ hình LSTM, lt LSTM
với tập kiểm tra là Cortana và Conversation
14
3.1
Các loại dịch vụ nhận thức
22
3.2
Nhận thức thị giác
23
3.3
Nhận thức tiếng nói
23
3.4
Nhận thức ngơn ngữ
24
3.5
Nhận thức tìm kiếm
3.6
Nhận thức quyết định
4.1
Thành phần tập dữ liệu
4.2
Tên mẫu dữ liệu tiếng nói
4.3
So sánh tỷ lệ nhận dạng của mơ hình có sẵn và
mơ hình mới
R
L
.
UT
D
C
C
24
25
27
28
35
9
DANH MỤC CÁC HÌNH
Số hiệu hình vẽ
Tên hình vẽ
Trang
1.1
Hệ thống kiểm sốt khơng lưu
4
1.2
Sơ đồ các khối chức năng của hệ thống hỗ trợ hoạt
động kiểm sốt khơng lưu
6
2.1
Mơ hình LSTM nhiều lớp ẩn
14
2.2
Mơ hình ltLSTM nhiều lớp ẩn
15
3.1
Sơ đồ nguyên lý nhận dạng tiếng nói
19
3.2
Các sản phẩm dịch vụ của Azure
21
4.1
Sơ đồ các bước huấn luyện và đánh giá mơ hình
trên nền tảng Azure
31
4.2
Lưu đồ thuật tốn so khớp
32
4.3
Chọn mơ hình có sẵn để đánh giá FL220
4.4
Biểu đồ tỷ lệ nhận dạng của mơ hình có sẵn và mơ
hình mới
36
4.5
Một số kết quả mô phỏng phát hiện lỗi lặp lại
37
C
C
R
L
T.
U
D
33
10
MỞ ĐẦU
Ngày nay cùng với sự phát triển của kinh tế, du lịch, dịch vụ thì nhu cầu vận tải hàng
hóa, đi lại của con người bằng đường hàng khơng càng mang tính phổ thơng vì sự an tồn
và nhanh chóng. Cùng với sự gia tăng số chuyến bay mỗi năm là áp lực và khối lượng công
việc trong việc quản lý và điều khiển luồng không lưu tăng lên, nhưng vẫn bảo đảm tiêu
chí “an tồn, điều hịa, hiệu quả” . Vì vậy kiểm sốt khơng lưu là một hoạt động mang ý
nghĩa cực kỳ quan trọng nhằm đảm bảo sự an tồn và duy trì sự thơng suốt của các chuyến
bay. Một trong số các nhiệm vụ chính của kiểm sốt viên khơng lưu là hiệp đồng với phi
cơng để hướng dẫn phi cơng tn thủ lộ trình bay và tránh xung đột giữa các máy bay. Tuy
nhiên, để một chuyến bay an tồn thì người hướng dẫn tàu bay là kiểm sốt viên khơng lưu
(KSVKL) dưới mặt đất phải nói và hiệp đồng liên tục với phi cơng trên tàu bay bằng sóng
VHF. Cường độ cơng việc cao như vậy có thể dẫn đến việc nghe và lặp lại huấn lệnh của
KSVKL và phi công bị nhầm lẫn, đặc biệt khi hiệp đồng với nhiều tàu bay cùng một lúc và
với số lượng tàu bay ngày một tăng. Bên cạnh đó, chất lượng của tiếng nói trong hoạt động
kiểm sốt khơng lưu phụ thuộc vào nhiều yếu tố khác nữa như tai người nghe, phát âm của
người nói, chất lượng kênh truyền VHF khơng – địa, thiết bị thu phát sóng. Tất cả những
yếu tố đã phân tích ở trên là những nguyên nhân chủ quan và khách quan gây ra lỗi nghe
lại (hear back error) và lỗi lặp lại (read back error) là một trong những lỗi có thể xảy ra
trong hoạt động kiểm sốt khơng lưu, gây nguy hiểm đến an toàn bay. Như vậy, với hoạt
động kiểm sốt khơng lưu làm việc bằng phương tiện tiếng nói thì việc ứng dụng kỹ thuật
nhận dạng tiếng nói tự động là một vấn đề hết sức cấp thiết, nhằm hỗ trợ cho kiểm sốt viên
khơng lưu hiện lỗi do thơng tin sai lệch giữa kiểm sốt viên và phi cơng.
Trên cơ sở đó, đề tài luận văn: “Ứng dụng kỹ thuật nhận dạng tiếng nói tự động để hỗ
trợ hoạt động kiểm sốt khơng lưu” được thực hiện với hai mục tiêu chính: Thứ nhất, nghiên
cứu ứng dụng nhận dạng tiếng nói tự động vào việc so sánh hai câu nói để phát hiện trùng
khớp hay sai khác nội dung. Thứ hai, đề xuất hệ thống phần mềm phát hiện và cảnh báo lỗi
nghe lại và lặp lại trong hoạt động kiểm sốt khơng lưu với độ chính xác khoảng 80%.
Đối tượng nghiên cứu của luận văn là nhận dạng tiếng nói, là một nhánh con của trí tuệ
nhân tạo, là nền tảng để hướng đến nghiên cứu về xử lý ngôn ngữ tự nhiên NLP (Natural
Language Processing) đang rất phát triển hiện nay. Cấu trúc luận văn gồm có 4 chương như
sau:
Chương 1- Tổng quan về hoạt động kiểm sốt khơng lưu
Chương 2- Lý thuyết ứng dụng trong nhận dạng tiếng nói tự động
Chương 3- Hệ thống nhận dạng tiếng nói tự động
Chương 4- Thí nghiệm và đánh giá hệ thống phát hiện lỗi tiếng nói
C
C
U
D
R
L
T.
11
Trong phạm vi nghiên cứu ban đầu, hệ thống hỗ trợ tập trung vào khai thác dịch vụ
điện toán đám mây Azure thuộc tập đoàn Microsoft. Hệ thống đề xuất gồm có hai phần:
trước tiên, tiếng nói của phi cơng và kiểm soát viên được chuyển đổi thành văn bản dựa
trên nền tảng học sâu LSTM (Long Short Term Memory); sau đó tiếng nói của hai đối
tượng này được so sánh với nhau dựa vào so sánh hai văn bản tương ứng, từ đó phát hiện
ra lỗi lặp lại và lỗi nghe lại. Các thí nghiệm được tiến hành với tiếng nói cần nhận dạng là
10 giá trị mực bay trong vùng trời điều hành từ độ cao 15.000 feet đến 25.000 feet, trong
môi trường bay giả lập và thực tế. Kết quả thí nghiệm bước đầu đã cho tỷ lệ nhận dạng chấp
nhận được (81%) và tỷ lệ phát hiện lỗi rất khả quan
Đề tài có thể phát triển thành một thiết bị nhận dạng tức thời mối nguy hiểm dễ xảy ra
trong công việc hằng ngày của KSVKL và xuất ra cảnh báo kịp thời với tỉ lệ cảnh báo đúng
là cao nhất, nhờ đó giảm thiểu sai sót, giảm áp lực cơng việc cho KSVKL, góp phần vào
bảo đảm an tồn giao thơng hàng khơng.
C
C
Qua lời mở đầu của cuốn luận văn này, em xin chân thành cảm ơn các thầy cô trong
khoa Điện tử -Viễn Thông đã truyền dạy kiến thức từ khi em là sinh viên khóa 09DT đến
học viên cao học khóa K37-38 hiện tại. Đặc biệt, em xin cảm ơn cơ Hồng Lê Uyên Thục
đã hướng dẫn, giúp đỡ em từ những ý tưởng làm luận văn ban đầu và động viên em trong
q trình viết bài báo khoa học và hồn thành luận văn tốt nghiệp hôm nay. Một lần nữa,
em chân thành cảm ơn và chúc thầy cô luôn mạnh khỏe!
R
L
T.
U
D
Xin gửi lời cảm ơn đến anh Vũ Hồng Sơn đã tạo điều kiện để em thu thập dữ liệu ghi
âm tiếng nói điều hành bay tại Đài Kiểm sốt khơng lưu Đà Nẵng!
Xin gửi lời cảm ơn đến các anh em đồng nghiệp tại đội Radar Sơn Trà đã quan tâm,
chia sẻ và tạo điều kiện để tôi gấp rút hoàn thành bài báo gửi đến hội nghị FAIR và viết
luận văn này trong thời gian đi trực chốt dịch COVID -19 vừa qua!
Con xin gửi lời cảm ơn đến gia đình đã ủng hộ, tin tưởng, ln động viên con trong
thời gian qua và luôn là chỗ dựa tinh thần vững vàng nhất!
Cuối cùng, cảm ơn người đã luôn ủng hộ anh, cho anh ý tưởng thực tiễn để làm đề tài
luận văn này và hỗ trợ anh trong suốt thời gian đi học cao học cho đến thời điểm hoàn thành
luận văn này, Hoàng Lê Hoài Phương!
Trong quá trình làm luận văn có gì thiếu sót mong thầy cô bỏ qua. Một lần nữa, em xin
chúc sức khỏe và xin chân thành cảm ơn!
12
Chương 1 - TỔNG QUAN HOẠT ĐỘNG KIỂM SỐT
KHƠNG LƯU
1.1 Giới thiệu chương
Chương đầu tiên của luận văn này sẽ giới thiệu tổng quan về hoạt động kiểm sốt khơng
lưu, các yếu tố từ con người ảnh hưởng đến hoạt động kiểm sốt khơng lưu và tình hình
ứng dụng nhận dạng tiếng nói tự động vào hoạt động kiểm sốt không lưu trên thế giới.
1.2 Cơ bản về hoạt động kiểm sốt khơng lưu
Trong thập niên gần đây, ngành cơng nghiệp hàng khơng đã có những bước tăng trưởng
vượt bậc. Cùng với sự phát triển không ngừng của kinh tế, du lịch, dịch vụ thì nhu cầu vận
tải hàng hố, đi lại của con người bằng đường hàng không ngày càng mang tính phổ thơng
hơn vì sự an tồn và thuận tiện. Các hãng hàng không được mở ra nhiều hơn, số đường bay
khai thác mới và số chuyến bay cất hạ cánh trong ngày gia tăng nhanh chóng [1].
Sự phát triển mạnh mẽ của ngành hàng không khiến cho hoạt động điều hành bay càng
trở nên khó khăn và đầy thách thức. Hoạt động điều hành bay được thực hiện bởi kiểm sốt
viên khơng lưu (KSVKL)- là những người chuyên trách đảm nhận việc gửi các hướng dẫn
và cảnh báo đến phi công nhằm giúp tàu bay tuân thủ lộ trình bay và tránh va chạm giữa
các tàu bay trong cùng vùng trời điều hành hoặc giữa các vùng trời lân cận, đảm bảo điều
phối hiệu quả và thông suốt từ lúc tàu bay cất cánh đến khi hạ cánh [2]. Quy trình hoạt động
của KSVKL có thể minh hoạ thơng qua hai vịng lặp như thể hiện trên Hình 1.1 [2]. Vịng
lặp bên ngồi có mục đích chính là giám sát, thơng báo cho KSVKL về tình trạng hiện tại
của tàu bay và tồn hệ thống. Vịng lặp ngồi bao gồm: KSVKL gởi hướng dẫn đến phi
cơng (thể hiện ở nhánh A), phi công thực hiện điều khiển máy bay (thể hiện ở nhánh B), lộ
trình của máy bay được giám sát bởi đài giám sát (thể hiện ở nhánh C), đài giám sát cung
cấp thông tin về máy bay cho hệ thống quản lý không lưu tự động (thể hiện ở nhánh D), hệ
thống này cung cấp thơng tin cho KSVKL hiển thị trên màn hình radar (thể hiện ở nhánh
E). Vòng lặp bên trong là sự trao đổi thơng tin bằng tiếng nói giữa KSVKL và phi công
(thể hiện ở nhánh A hai chiều).
C
C
U
D
R
L
T.
13
C
C
R
L
T.
Hình 1.1 Hệ thống kiểm sốt khơng lưu[2]
Hiện nay, Việt Nam có tổng cộng 22 Đài kiểm sốt khơng lưu tại các sân bay quốc
tế và nội địa trong cả nước; 03 Cơ sở kiểm soát tiếp cận ở Sân bay Nội Bài, Đà Nẵng và
Tân Sơn Nhất; và 02 Trung tâm Kiểm sốt đường dài Hồ Chí Minh và Trung tâm Kiểm
sốt Khơng lưu Hà Nội. Phân cách an toàn quy định giữa các tàu bay tuân thủ theo quy định
quốc tế của tổ chức ICAO, cụ thể là khoảng cách tối thiểu là 1.000 feet (304.8 m) theo độ
cao, 5 dặm (9.26 km) theo phương ngang trong vùng trời tiếp cận và 10 dặm (18,52 km)
trong vùng trời đường dài. Để hỗ trợ việc giám sát tàu bay bảo đảm đúng phân cách của
KSVKL, hiện nay tại các trung tâm điều hành bay đang sử dụng thiết bị giám sát như hệ
thống dẫn đường toàn cầu sử dụng tín hiệu vệ tinh GNSS, hệ thống giám sát tự động phụ
thuộc quảng bá ADS-B, hệ thống radar thứ cấp SSR... nhằm giúp KSVKL kiểm tra sự
tương quan giữa huấn lệnh được đưa ra và hành động của phi công. Ngồi ra, KSVKL phải
kiểm sốt tốt huấn lệnh được phát ra, đồng thời nghe lại và theo dõi cẩn thận việc lặp lại và
hành động của phi công theo huấn lệnh. Tuy nhiên, các phương pháp này chỉ giảm thiểu
được một phần rủi ro do, trên thực tế vẫn không phát hiện triệt để các nhầm lẫn từ việc nghe
và nói của KSVKL, kể cả nhìn vào các màn hình các thiết bị giám sát bởi vì tất cả các cơng
việc nói, nghe, nhìn đều mang yếu tố chủ quan của một người KSVKL, và con người không
phải lúc nào cũng trong trạng thái tốt nhất để thực hiện tốt các chức năng đó. Các vấn đề
có thể ảnh hưởng đến trạng thái làm việc của con người như sự tập trung, quá nhiều việc
hoặc quá ít việc gây xao nhãng, nghe nhầm, nói nhầm theo thói quen... được gọi là các yếu
U
D
14
tố con người [4]. Nhằm hạn chế thấp nhất sai sót do các yếu tố đó, hiện nay tại các tháp
điều hành bay, các phiên điều hành bay đang sử dụng thêm người để giám sát và hỗ trợ cho
KSVKL, dẫn đến hiệu quả sử dụng lao động chưa cao [5]
Khơng nằm ngồi xu thế phát triển chung của hàng khơng tồn cầu, hàng khơng Việt
Nam cần có kế hoạch tự động hoá dần dần hoạt động giám sát và hỗ trợ cho KSVKL. Để
chuẩn bị cho bước đi này, trong giai đoạn ban đầu, chúng tôi đặt ra bài tốn thử nghiệm
ứng dụng kỹ thuật nhận dạng tiếng nói tự động (ASR) vào hỗ trợ cho KSVKL người Việt.
Trước mắt, nghiên cứu tập trung vào nhiệm vụ hàng đầu của KSVKL là bảo đảm phân cách
an toàn giữa các tàu bay, thông qua phát hiện lỗi lặp lại của KSVKL về các huấn lệnh thay
đổi mực bay (FL). Dữ liệu được lựa chọn cho thử nghiệm được thu thập từ các Đài điều
hành bay thuộc Công ty Quản lý bay Miền Trung.
1.3 Yếu tố con người trong hoạt động không lưu
C
C
1.3.1 Yếu tố con người
R
L
T.
Hiệu suất của con người được coi là yếu tố nguyên nhân tiềm ẩn trong phần lớn các
vụ tai nạn máy bay. Nếu muốn giảm tỷ lệ tai nạn, các vấn đề về yếu tố con người trong
hàng không phải được hiểu rõ hơn và áp dụng kiến thức về yếu tố con người một cách rộng
rãi và chủ động hơn. Như vậy, kiến thức về yếu tố con người phải được áp dụng, được tính
tốn và tích hợp trong giai đoạn thiết kế và chứng nhận hệ thống, cũng như trong quá trình
chứng nhận nhân sự khai thác, điều hành tàu bay, trước khi hệ thống và con người đi vào
hoạt động. Việc mở rộng nhận thức về yếu tố con người mang đến cho cộng đồng hàng
không quốc tế một cơ hội quan trọng nhất để làm cho hàng khơng an tồn hơn và hiệu quả
hơn[4].
U
D
Các yếu tố con người được thể chế hóa cùng lúc với sự thành lập của một số tổ chức
như Hiệp hội Nghiên cứu mối quan hệ giữa lao động và con người (ERS) vào năm 1949,
Hiệp hội Các Yếu tố Con người (HFS) năm 1957 và Hiệp hội Quốc tế Nghiên cứu mối
quan hệ giữa lao động và con người (IEA) vào năm 1959 [4].
Sự hiểu biết về các yếu tố con người cơ bản trong toàn ngành hàng không đã dẫn đến
nhiều cách tiếp cận khác nhau đối với cách đào tạo chính thức ở các quốc gia khác nhau.
Qua việc điều tra nguyên nhân một số vụ tai nạn hoàn toàn do yếu tố con người, đã khiến
ICAO ban hành các yêu cầu đào tạo về yếu tố con người trong khi đào tạo nhân viên hàng
khơng và trong q trình điều tra tai nạn [4]. Thỏa thuận năm 1976 giữa Cục Hàng không
Liên bang Hoa Kỳ (FAA) và Cơ quan Hàng không và Vũ trụ Quốc gia (NASA) để thiết lập
Hệ thống Báo cáo An tồn Hàng khơng (ASRS) bí mật, khơng trừng phạt, tự nguyện đã tạo
được một nơi báo cáo và chia sẻ các sự vụ sự cố một cách tự nguyện, trung thực của các
phi công và KSVKL. Theo số liệu thống kê từ trang web của hệ thống ASRS này, số báo
15
cáo liên quan từ khóa tìm kiếm “Human factor” và “Confusion” là 14.152 báo cáo [6] cho
thấy sự cố do yếu tố con người góp phần khơng nhỏ trong các sự cố hàng khơng. Các
chương trình tương tự sau đó đã được thiết lập ở Vương quốc Anh (CHIRP), Canada
(CASRP) và Úc (CAIR).
1.3.2 Ý nghĩa của yếu tố con người
Yếu tố con người được áp dụng cho bất kỳ yếu tố nào liên quan đến con người. Yếu tố
con người là bộ phận linh hoạt, dễ thích ứng và có giá trị nhất trong hệ thống hàng không,
nhưng cũng là yếu tố dễ bị tác động nhất có thể ảnh hưởng xấu đến hiệu quả hoạt động.
Trong suốt những năm qua, khoảng ba trong số bốn vụ tai nạn là do hoạt động của con
người kém hơn mức tối ưu [4]. Điều này thường được phân loại là lỗi của con người.
Thuật ngữ “yếu tố con người” khơng giúp ích gì trong việc ngăn ngừa tai nạn bởi vì
mặc dù nó có thể chỉ ra sự cố xảy ra ở ĐÂU trong hệ thống, nhưng nó khơng cung cấp
hướng dẫn TẠI SAO nó xảy ra. Tuy nhiên, tư duy an toàn đương đại cho rằng lỗi của con
người nên là điểm xuất phát để có các biện pháp ngăn chặn hơn là điểm dừng lại trong điều
tra sự cố khi nguyên nhân được tìm thấy là do yếu tố con người. Lỗi do con người trong hệ
thống có thể do thiết kế gây ra hoặc bởi nội dung đào tạo khơng đầy đủ, các quy trình được
thiết kế sai; các hướng dẫn, bố cục không rõ ràng của danh sách kiểm tra hoặc sổ tay hướng
dẫn[19]...Sự hiểu biết về các khả năng và hạn chế có thể dự đốn được của con người và
việc áp dụng hiểu biết này là những mối quan tâm chính của yếu tố con người. Yếu tố con
người đã được phát triển, hoàn thiện và thể chế hóa từ cuối thế kỷ trước, và hiện được hỗ
trợ bởi một kho kiến thức khổng lồ để tất cả nhân viên hàng khơng có thể áp dụng và cả
các kỹ sư ứng dụng công nghệ hiện đại để tạo ra các sản phẩm tăng cường an toàn cho hệ
thống hàng không dân dụng ngày nay.
C
C
R
L
T.
U
D
1.3.3 Lỗi lặp lại và nghe lại
Tổ chức Hàng không Dân dụng Quốc tế (ICAO) quy định liên lạc bằng tiếng nói giữa
KSVKL và phi công được thực hiện trên phương tiện liên lạc vô tuyến cao tần VHF.
KSVKL theo dõi thông tin từ màn hình radar để đưa ra huấn lệnh, phi công sau khi nghe
phải đọc lại nội dung huấn lệnh để xác nhận, gọi là read back, KSVKL phải nghe lại xác
nhận read back của phi công, gọi là hear back. Nếu nội dung hear back không đúng nội
dung huấn lệnh đã gởi đi thì KSVKL phải đọc lại nội dung huấn lệnh một lần nữa. Lỗi phi
công xác nhận lại huấn lệnh không đúng được gọi là lỗi lặp lại (read back error). Trường
hợp KSVKL nghe phi công xác nhận huấn lệnh không đúng nhưng không phát hiện được
gọi là lỗi nghe lại (hear back error). Nếu hai lỗi này cùng xảy ra thì nguy cơ cao sẽ gây ra
mất an tồn hàng khơng.
16
Về nguyên nhân gây ra lỗi nghe lại và lỗi lặp lại, có thể phân chia làm hai ngun
nhân chính là do yếu tố kỹ thuật và yếu tố con người. Lỗi do yếu tố kỹ thuật bao gồm chất
lượng của kênh truyền VHF và thiết bị thu phát âm tần như micro và loa. Muốn giảm thiểu
lỗi kỹ thuật này, ta có thể nâng cao chất lượng kênh truyền VHF bằng cách đặt bộ lọc nhiễu
thích nghi tại máy thu. Lỗi do yếu tố con người có thể do vô thức, do kỹ năng nghe, do phát
âm giọng địa phương,v..v..Ngay cả khi môi trường làm việc quá rảnh hoặc quá bận do điều
hành nhiều tàu bay môt lúc đều có thể gây ra mất tập trung dẫn đến lỗi do yếu tố con người.
Trong tình hình lưu lượng chuyến bay tăng nhanh mỗi năm, yêu cầu phải nghe, nói
và hiệp đồng liên tục với nhiều phi công trên nhiều tàu bay đồng thời thơng qua mơi trường
VHF địi hỏi KSVKL phải chịu đựng được cường độ công việc cực kỳ cao và áp lực công
việc cực kỳ lớn. Điều này dẫn đến gia tăng nguy cơ xảy ra sai sót trong q trình nghe, nói
để chỉ dẫn và hiệp đồng với tàu bay, làm gia tăng nguy cơ mất an tồn hàng khơng.
Cụ thể, số liệu thống kê tại TRACON (Terminal Radar Approach Control) của nhóm
nghiên cứu MITRE CAASD cho biết một trong những lỗi trong thông tin liên lạc hàng
không phổ biến là lỗi nghe lại của KSVKL và lỗi lặp lại của phi cơng, trong đó lỗi lặp lại
chiếm 6% và lỗi nghe lại chiếm 92% [7]. Trong báo cáo về các vụ xâm phạm đường cất hạ
cánh do lỗi từ phía KSVKL thì có 10,7 % là do lỗi đọc lại. Đối chiếu với tổng số chuyến
bay điều hành trong vòng 6 năm của 500 đài Điều hành bay trên tồn nước Mỹ, dự đốn sẽ
xảy ra 129 vụ xâm phạm đường cất hạ cánh do lỗi đọc lại, cứ 407.000 lần xảy ra lỗi lặp lại
hoặc 163.000 lần xảy ra lỗi nghe lại sẽ dẫn đến 1 vụ xâm phạm đường cất hạ cánh[7]. Tuy
xác suất này rất bé nhưng tiềm ẩn hậu quả cực kỳ nặng nề khi sự cố dẫn đến tai nạn hàng
không!
Như vậy, vấn đề cấp bách đặt ra là cần có các biện pháp ứng dụng cơng nghệ hỗ trợ để
giảm bớt áp lực công việc cho KSVKL, giảm rủi ro tai nạn do lỗi trong thông tin liên lạc
giữa KSVKL và phi cơng.
C
C
R
L
T.
U
D
1.4 Tình hình nghiên cứu về ứng dụng nhận dạng tiếng nói trong hoạt động khơng
lưu
Năm 2010, một bài báo khoa học “System And Method For Reducing Aviation Voice
Communication Confusion” [8] từ công ty Collin Aerospace, là một đơn vị của tập đoàn
Raytheon Technology Corp dẫn đầu về công nghệ thông minh và tiên tiến cho ngành cơng
nghiệp quốc phịng và hàng khơng vũ trụ tồn cầu, đã mô tả các khối chức năng cơ bản của
một hệ thống nhận dạng tiếng nói và so sánh để phát hiện các lỗi nhầm lẫn về định danh
chuyến bay (Flight ID) hoặc tên đường lăn. Nguyên lý của hệ thống cơ bản có 4 khối chức
năng theo thứ tự như sau: Nhận dạng tiếng nói thứ nhất, nhận dạng tiếng nói thứ hai, so
sánh hai tiếng nói, phát cảnh báo nếu có sai khác. Bài báo đã mơ tả chức năng từng khối và
đề cập đến việc sử dụng kỹ thuật nhận dạng tiếng nói Speech recognition để thưc hiện nhận
17
dạng ở bước 1 và bước 2 của hệ thống. Tuy chưa có kết quả thí nghiệm nhưng bài báo là
nền móng đầu tiên để tiếp cận ứng dụng nhận dạng tiếng nói vào hoạt động hàng khơng.
Trong vịng 5 năm trở lại đây, ứng dụng nhận dạng tiếng nói tự động vào lĩnh vực
điều khiển không lưu là một hướng đi mới, nhiều thách thức, thu hút được sự quan tâm rất
lớn từ các hãng hàng không trên thế giới. Nhiều kỹ sư, nhà nghiên cứu đến từ các tập đồn
về lĩnh vực hàng khơng hoặc các tổ chức hàng khơng thế giới, các chun gia về trí tuệ
nhân tạo của tập đồn phần mềm Microsoft đã có những bài báo khoa học, dự án về ứng
dụng ASR vào hoạt động kiểm sốt khơng lưu:
Năm 2015, một bài báo được Văn phịng Sáng chế Châu Âu (EPO) cơng bố với tiêu
đề “Aircraft systems and methods for reducing and detecting read-back and hear-back
errors” [9] đề xuất một hệ thống phát hiện lỗi nghe và lặp lại của phi công và kiểm sốt
viên khơng lưu bằng kỹ thuật Speech-to-text, hiển thị lên màn hình thơng tin điều hành bay
như định danh tàu bay (aircraft identify, call sign) hướng mũi tàu bay và các thơng tin lên
xuống duy trì độ cao tàu bay để người KSVKL theo dõi, và hệ thống vẫn phát cảnh báo nếu
phát hiện lỗi nghe và lặp lại xảy ra.
Một bài báo khác từ các kỹ sư của công ty Honeywell International Inc đã được EPO
công bố tháng 12 năm 2016 với tiêu đề : “System and method for Aircraft voice - to- text
communication message validation ”[10] cũng đề xuất hệ thống nhận dạng lỗi nghe lại và
lặp lại dựa trên chuyển đổi tiếng nói sang văn bản. Tuy nhiên, bài báo có đề cập sử dụng
thêm một khối có nhiệm vụ phân tích từ khóa (Keyword Analyzer) và thư viện từ khóa
(Keyword dataset) để tăng độ chính xác của việc chuyển đổi voice -to- text dựa trên ngun
lý phân tích, xác định các từ khóa quan trọng và các từ khóa phụ thuộc của nó dựa trên thư
viện từ khóa đã được nạp vào chương trình trước đó.
Ngồi ra cịn có các bài báo của các cá nhân được đăng trên trang tài liệu học thuật
của tập đoàn Microsoft [11] như: Civil-Aviation Ground-Air Dialogue Verification System
(2016), Voice Recognition Method And Voice Recognition Device In Air Traffic Control
Systerm (2010), Pilot Repeat Monitering Method And Device (2017)
Năm 2018 hãng hàng không Airbus đã tổ chức cuộc thi “The Airbus Air Traffic
Control speech recognition 2018 challenge: towards ATC automatic transcription and call
sign detection”[12] dành cho các công ty, nhà nghiên cứu, các nhóm khởi nghiệp, trường
đại học, cao đẳng, viện nghiên cứu và các nhân với mục đích chia sẻ một số những trở ngại
trong ngành hàng không vũ trụ và cung cấp các tập dữ liệu để thúc đẩy nghiên cứu và hợp
tác trong lĩnh vực này. Hai nội dung ra thi là chuyển đổi tự động hội thoại của phi cơng từ
tiếng nói sang văn bản và phát hiện cuộc gọi từ KSVKL đến tàu bay đã nhận được rất nhiều
bài dự thi đến từ các công ty và start-up trên tồn thế giới, từ các nhóm nghiên cứu của các
trường đại học và cả cá nhân.
C
C
U
D
R
L
T.
18
Ngồi ra, hội nghị quốc tế về tiếng nói INTERSPEECH lần thứ 21 sẽ được tổ chức tại
Trung tâm Hội nghị Quốc tế Thượng Hải, từ ngày 25 đến ngày 29 tháng 10 năm 2020.
INTERSPEECH đã phát triển thành hội nghị kỹ thuật lớn nhất thế giới tập trung vào xử lý
và ứng dụng giọng nói với hơn 1000 người tham dự và hơn 600 bài báo[13]. Hội nghị nhấn
mạnh các cách tiếp cận liên ngành giải quyết tất cả các khía cạnh của khoa học và cơng
nghệ lời nói, từ các lý thuyết cơ bản đến các ứng dụng nâng cao với mong đợi sẽ có những
bài báo về ứng dụng nhận dạng tiếng nói tự động trong ngành hàng khơng.
1.5 Các ứng dụng nhận dạng tiếng nói tự động trong điều khiển khơng lưu
Nhận dạng tiếng nói tự động ứng dụng trong điều khiển khơng lưu có những đặc điểm
riêng và khác biệt so với các ứng dụng trong các lĩnh vực khác, cụ thể là chất lượng âm
thanh rất tệ do môi trường truyền âm là môi trường vơ tuyến VHF có nhiễu lớn, ngơn ngữ
sử dụng là tiếng Anh được phát âm từ người nói đến từ khắp nơi trên thế giới gồm cả người
bản xứ và khơng phải bản xứ, tốc độ nói thường nhanh hơn bình thường, đơi khi có thể xảy
ra nhập nhằng ví dụ như nhập nhằng giữa mực bay và tốc độ. Bên cạnh những khó khăn kể
trên thì nhận dạng tiếng nói trong điều khiển khơng lưu cũng có một số thuận lợi, chẳng
hạn như tính chất của hội thoại là hướng đến nhiệm vụ trong lĩnh vực hẹp nên số lượng từ
vựng ít hơn thơng thường, ngữ nghĩa ít rối hơn thông thường và định dạng của hội thoại
tuân thủ theo các quy định quốc tế.
Vì những lý do phân tích ở trên nên nghiên cứu ứng dụng nhận dạng tiếng nói vào điều
khiển khơng lưu là một nhánh mới thuộc lĩnh vực nhận dạng tiếng nói tự động. Đây là
hướng nghiên cứu mở rất hứa hẹn và thu hút sự quan tâm lớn của ngành hàng khơng.
Có thể phân chia ứng dựng nhận dạng tiếng nói trong điều khiển khơng lưu thành 04 nhóm
sau đây[14]:
C
C
R
L
T.
U
D
- Đào tạo học viên kiểm sốt khơng lưu: hiện nay học viên được đào tạo nhờ vào “phi
cơng giả”- là người đóng vai phi công, hành xử giống như phi công thật, hội thoại giống
như phi công thật trong môi trường liên lạc giả lập. Việc sử dụng phi cơng giả địi hỏi chi
phí cao và kém linh hoạt. Vấn đề này được giải quyết bằng cách sử dụng nhận dạng tiếng
nói tự động để tạo ra ứng dụng “phi công tự động”- là phần mềm có thể hiểu, xử lý tiếng
nói của học viên và đáp ứng lại học viên bằng khối tổng hợp tiếng nói.
- Đo lường và cân bằng tải cơng việc của KSVKL: trong hệ thống kiểm sốt khơng
lưu, tải công việc của KSVKL là yếu tố quyết định làm hạn chế hiệu suất của cả hệ thống,
đặc biệt trong điều kiện tăng nhanh lưu lượng bay thì vấn đề đo lường và cân bằng tải công
việc cho KSVKL càng trở nên quan trọng. Công việc này nếu thực hiện thủ cơng sẽ rất khó
khăn và tốn chi phí rất lớn. Với sự trợ giúp của hệ thống nhận dạng tiếng nói, các sự kiện
19
điều khiển do KSVKL nói ra sẽ được tự động phát hiện, từ đó tải cơng việc sẽ được đo
lường trực tiếp để dùng cho cân bằng tải công việc một cách tự động.
- Phân tích và phiên dịch hội thoại giữa KSVKL và phi công: với sự hỗ trợ của hệ
thống nhận dạng tiếng nói, ta có thể phân tích tự động một khối lượng dữ liệu hội thoại lớn
để dùng cho điều tra và cải thiện các giao thức và quy định đối với KSVKL. Cơng việc
phân tích cũng là một thành phần trong quá trình chuyển đổi đoạn âm thanh tiếng nói sang
dạng văn bản, dựa vào văn bản này có thể so khớp câu huấn lệnh của KSVKL và câu lặp
lại của phi công để phát hiện lỗi.
- KSVKL dự phòng: hệ thống nhận dạng tiếng nói tự động kết hợp với các nguồn thơng
tin khác trong ngữ cảnh kiểm sốt khơng lưu (thơng tin radar, độ cao an tồn tối thiểu, vùng
giới hạn, thơng tin thời tiết, v.v) có thể được sử dụng làm đầu vào cho một hệ thống được
gọi là KSVKL dự phòng. KSVKL dự phịng có thể nắm bắt các tình huống nguy hiểm tiềm
ẩn bị KSVKL thực bỏ sót, đưa ra các đề xuất và thơng tin an tồn cho KSVKL xem xét.
C
C
1.6 Giới thiệu hệ thống hỗ trợ hoạt động kiểm sốt khơng lưu
R
L
T.
Để giải quyết vấn đề cấp thiết của đề tài đã nêu ở trên, luận văn đề xuất một hệ thống
hỗ trợ hoạt động kiểm sốt khơng lưu gồm hai khối chức năng chính là hệ thống nhận dạng
tiếng nói và khối so khớp (Hình 1.2). Chức năng của hệ thống này chính là ứng dụng thứ
ba Phân tích và phiên dịch hội thoại giữa KSVKL và phi cơng đã được đề cập ở mục 1.5.
U
D
Trong hình 1.2, tiếng nói của KSVKL trước khi phát đến phi cơng qua hệ thống phát
vơ tuyến VHF sẽ được trích ra và đưa vào hệ thống nhận dạng tiếng nói tự động. Tiếng nói
của phi cơng từ tàu bay, sau khi thu về qua thiết bị thu vô tuyến VHF đã loại bỏ bớt nhiễu
được trích ra đưa vào hệ thống nhận dạng tiếng nói tự động. Tiếng nói của KSVKL và phi
công sau khi ra khỏi hệ thống nhận dạng tiếng nói sẽ cùng được đưa vào phần mềm so
khớp. Nếu kết quả so khớp khơng giống nhau thì sẽ xuất ra cảnh báo cho người KSVKL
biết xảy ra lỗi nghe và lặp lại.
20
C
C
R
L
T.
U
D
Hình 1.2 Sơ đồ các khối chức năng của hệ thống hỗ trợ hoạt động kiểm sốt khơng lưu
Độ chính xác của hệ thống hỗ trợ phụ thuộc rất lớn vào khả năng nhận dạng tiếng nói
của hệ thống nhận dạng tiếng nói. Tuy nhiên khơng nhất thiết phải nhận dạng được hoàn
toàn 100% nội dung của cuộc đối thoại giữa KSVKl và phi công, tùy vào mục tiêu so khớp
là các thông tin nào của tàu bay như mực bay, hướng mũi tàu bay, định danh tàu bay, số
hiệu đường lăn, đường băng, hay các huấn lệnh thay đổi độ cao…thì hệ thống chỉ cần nhận
dạng được các thơng thơng tin đó để đưa vào so khớp và xuất ra cảnh báo nếu có lỗi.
1.7 Kết luận chương
Kết thúc chương 1, luận văn đã giới thiệu tổng quan về hoạt động kiểm sốt khơng lưu,
qua đó nêu ra lỗi nghe lại và lặp lại của KSVKL và phi công, trình bày tình hình ứng dụng
kỹ thuật nhận dạng tiếng nói vào hoạt động kiểm sốt khơng lưu trên thế giới và các hướng
ứng dụng ASR trong tương lai. Chương tiếp theo của luận văn là giới thiệu lý thuyết ứng
dụng trong kỹ thuật nhận dạng tiếng nói tự động, cụ thể là mơ hình LSTM kết hợp với mạng
học sâu.
21
Chương 2 - LÝ THUYẾT ỨNG DỤNG TRONG NHẬN DẠNG
TIẾNG NĨI TỰ ĐỘNG
2.1 Giới thiệu chương
Nhận dạng tiếng nói tự động là q trình phân lớp đoạn tiếng nói đầu vào thành một
dãy tuần tự các mẫu đã được học. Tuỳ theo cấp độ của bài toán nhận dạng mà mẫu học là
âm vị hoặc là từ. Trường hợp mẫu là từ thì nhận dạng tiếng nói có thể xem là chuyển câu
nói thành văn bản, với câu là chuỗi gồm các từ chứa trong câu nói. Nhận dạng tiếng nói là
một nhiệm vụ hết sức khó khăn và phức tạp do tiếng nói ln biến thiên theo thời gian, do
sự khác biệt lớn giữa những người nói khác nhau (phát âm, âm sắc, độ to, độ cao,…), tốc
độ nói khác nhau, ngữ cảnh khác nhau, môi trường âm học khác nhau[15]. Nội dung phần
này trình bày những nền tảng lý thuyết của bài tốn nhận dạng tiếng nói được sử dụng trong
luận văn này.
C
C
2.2 Quá trình hình thành và phát triển của mơ hình LSTM
R
L
T.
Hiện nay, các mơ hình RNN đang dẫn đầu các hệ thống nhận dạng tiếng nói hiện tại,
đặc biệt là trong các ứng dụng mới nổi của NLP. RNN đã thành công trong việc cải thiện
hiệu suất nhận dạng tiếng nói vì khả năng học các mẫu tuần tự trong dữ liệu lời nói, ngơn
ngữ hoặc chuỗi thời gian. Một kiến trúc RNN bao gồm các lớp ẩn giữ lại bộ nhớ của các
phần tử trong quá khứ của một chuỗi đầu vào. Mặc dù hiệu quả trong việc mơ hình hóa dữ
liệu tuần tự, các RNN bị hạn chế về khả năng ghi nhớ các thơng tin từ các bước có khoảng
cách xa trong quá khứ do đó những phần tử đầu tiên trong chuỗi đầu vào khơng có nhiều
ảnh hưởng đến kết quả tính tốn dự đốn phần tử cho chuỗi đầu ra ở các bước sau. Mơ hình
LSTM làm giảm bớt sự thiếu sót này bằng các đơn vị ẩn đặc biệt được gọi là “cổng” có thể
kiểm sốt hiệu quả quy mơ thơng tin cần nhớ hoặc qn trong q trình truyền thông tin.
Sak và cộng sự lần đầu tiên nghiên cứu kiến trúc LSTM trong nhận dạng tiếng nói trên một
bộ từ vựng lớn, đó là mơ hình LSTM sâu hai lớp gọi là Deep-Speech-2 (DS2) , được cho
là vượt trội hơn so với mơ hình DBN cơ bản. DS2 áp dụng cho hai ngôn ngữ chủ yếu khác
nhau là Tiếng Anh và tiếng Trung phổ thông [16].
Các nghiên cứu nhận dạng giọng nói khác sử dụng mạng LSTM đã cho thấy hiệu
suất đáng kể cải tiến so với các mơ hình dựa trên DBN hiện đại trước đây. Cụ thể Chien và
cộng sự đã thực hiện một thử nghiệm với các kiến trúc LSTM khác nhau để nhận dạng tiếng
nói và so sánh hiệu suất với các mơ hình DBN hiện đại[16].
Mơ hình LSTM được mở rộng trong nghiên cứu của Xiong sang LSTM hai
chiều[17]. BLSTM này được xếp chồng lên nhau trên các lớp phức hợp để cải thiện hiệu
suất nhận dạng tiếng nói.
U
D
22
Các mơ hình LSTM hoạt động tốt hơn với cơ chế Attention (chú ý). Cơ chế Chú ý
bao gồm Nghe, Tham dự và Đánh vần (LAS) lần lượt được sử dụng để mã hóa, tham dự
và giải mã . Mơ-đun LAS này được sử dụng với LSTM để cải thiện hiệu suất nhận dạng
giọng nói [18]. Sử dụng kỹ thuật Pre-training kết hợp với Attention và mơ hình LSTM đã
cải thiện hiệu suất nhận dạng tiếng nói lên một cấp độ mới nhất, hiệu quả nhất [19]. Bảng
2.1 tổng hợp các mơ hình khác nhau, bộ dữ liệu được sử dụng và hiệu suất tỷ lệ lỗi đạt được
bởi các mơ hình nhận dạng tiếng nói hiện đại nhất[16].
Bảng 2.1 Các mơ hình nhận dạng tiếng nói hiện nay
Mơ hình
Tập dữ liệu
Tỷ lệ lỗi
Autoencoder/DBN –
English Broadcast News
15.5 %
Collaboration,2012
Speech Corpora
(spoken word recognition)
LSTM-Google,2014
Google Voice Search Task
10.7 %
(spoken word recognition)
Deep LSTM- National Chiao
ChiME 3 Challeng
8.1 %
Tung University
(spoken word recognition)
CNN-BLSTM,Microsoft,2017
Switchboard
5.1 %
(spoken word recognition)
Attenion (LAS) &LSTM,
In-house google dictation
4.1 %
Google ,2018
(spoken word recognition)
Attention & LSTM with
LibriSpeech
3.54 %
pretraining, Collaboration,2018
(spoken word recognition)
C
C
R
L
T.
U
D
Mơ hình dựa trên RNN (bao gồm cả LSTM) đã vượt xa nhận dạng tiếng nói để tiến
đến hỗ trợ xử lý ngôn ngữ tự nhiên (NLP). NLP nhằm mục đích diễn giải ngơn ngữ và ngữ
nghĩa từ lời nói hoặc văn bản để thực hiện nhiều tác vụ thơng minh, chẳng hạn như phản
hồi tiếng nói của con người, trợ lý thông minh (Siri,Alexa và Cortana), phân tích cảm xúc
để xác định thái độ tích cực hoặc tiêu cực đối với một tình huống, xử lý các sự kiện hoặc
tin tức, và dịch ngôn ngữ trong cả bài phát biểu và văn bản. Để áp dụng RNN / LSTM tối
ưu hơn trong phân tích tình cảm, các tác giả trong [20] đã đề xuất một kiến trúc cây LSTM (
Tree- LSTM) để nắm bắt cảm xúc từ các cụm từ tạo thành nên các bậc cảm xúc khác nhau
trong ngôn ngữ tự nhiên.
Gần đây hơn, Karpathy và cộng sự đã sử dụng một phương pháp kết hợp, kết hợp mô
tả ngôn ngữ tuần tự từ LSTM và thị giác máy tính từ CNN để đạt được hiệu suất tối ưu
trong chú thích hình ảnh[16].
23
Nhận dạng giọng nói cũng có một số bộ dữ liệu tiêu chuẩn mới nhất đến thời điểm hiện
tại như hợp tác giữa Texas Instruments và MIT để tạo tập dữ liệu phiên âm giọng nói
TIMIT thu thập từ 630 người nói tiếng Anh Mỹ. VoxCeleb là tập dữ liệu giọng nói mới
hơn, với hơn 1000 phiên âm giọng nói của những người nổi tiếng không bị giới hạn và
trong bối cảnh tự nhiên[16].
2.3 Mơ hình LSTM kết hợp phương pháp học sâu
LSTM tiêu chuẩn là một T-LSTM (Time-LSTM) thực hiện hồi qui thời gian bằng cách
lấy đầu ra của T- LSTM tại bước thời gian trước đó làm đầu vào củaT- LSTM tại thời điểm
hiện tại. Để tăng sức mạnh mơ hình hóa, nhiều lớp T- LSTM các đơn vị được xếp chồng
lên nhau để tạo thành một LSTM nhiều lớp (Multi- layer LSTM) được hiển thị trong Hình
2.1.
C
C
R
L
T.
U
D
Hình 2.1 Mơ mình LSTM nhiều lớp ẩn
Từ Hình 2.1, có thể thấy rằng đầu ra của một LSTM được sử dụng làm đầu vào của
LSTM tại cùng một bước trong lớp tiếp theo và đầu vào của LSTM của bước tiếp (recurrent
input) theo trong cùng một lớp. Lớp ẩn cuối cùng của đầu ra được sử dụng để dự đoán kết
quả nhận dạng. Do đó, cùng một đầu ra được sử dụng cho mục đích ghi nhớ tạm thời của
mơ hình dọc theo trục thời gian và mục đích của việc phân biệt đặc điểm tiếng nói dọc theo
trục lớp. Tuy nhiên, hai mục đích này thực sự là rất khác nhau. Do đó, mơ hình LSTM thời
gian tiêu chuẩn có thể khơng được tối ưu
24
Trong bài báo [21], nhóm nghiên cứu của Microsoft đã đề xuất một mơ hình mới được
gọi là ltLSTM (Layer trajectory LSTM) khi thêm vào các đơn vị L-LSTM (Layer LSTM)
như hình 2.2. L-LSTM quét các đầu ra của các lớp T-LSTM của cùng một bước để thu thập
thông tin tất cả các lớp, sử dụng cho việc phân loại sắc thái của từ. Mơ hình L-LSTM này
có nhiệm vụ khác với mơ hình T-LSTM, nó mang các thơng tin về tiếng nói như giọng
điệu, giới tính, tuổi tác của người nói... giúp mang lại lợi ích của cả độ chính xác và thời
gian chạy cho mơ hình ltLSTM .
C
C
R
L
T.
U
D
Hình 2.2 Mơ hình Layer trajectory LSTM nhiều lớp ẩn (ltLSTM)
Với thí nghiệm được đào tạo với 30 nghìn giờ dữ liệu giọng nói, ltLSTM 6 lớp cải thiện
hơn so với LSTM 6 lớp tiêu chuẩn là 5,8% và 9,0% lần lượt trên các bộ kiểm tra Cortana
và Conversation[21].
25
Bảng 2.2 Tỉ lệ WER (%) của mơ hình LSTM, ltLSTM với tập kiểm tra là Cortana và
Conversation[10]
Cortana
10.37
9.85
10.58
9.28
4-Layer LSTM
6-Layer LSTM
10-Layer LSTM
6-Layer ltLSTM
Conversation
19.41
19.20
19.92
17.47
2.4 Các ứng dụng nhận dạng tiếng nói tự động sử dụng kỹ thuật học sâu
Trong những năm gần đây, các tập đồn cơng nghệ lớn như Google, Facebook, Apple,
Microsoft, IBM và một số công ty khác đã áp dụng học sâu như một trong những lĩnh vực
nghiên cứu cốt lõi của họ về trí tuệ nhân tạo (AI).
Facebook tiến hành sâu rộng học nghiên cứu trong phịng thí nghiệm Nghiên cứu AI
của Facebook (FAIR) [22] để nhận dạng hình ảnh và hiểu ngơn ngữ tự nhiên. Nhiều người
dùng trên toàn cầu đã tận dụng hệ thống nhận dạng này trong ứng dụng Facebook. Cột mốc
tiếp theo của họ là tích hợp các phương pháp tiếp cận NLP dựa trên học sâu vào hệ thống
Facebook để đạt được hiệu suất gần giống với con người trong hiểu ngôn ngữ tự nhiên. Gần
đây, Facebook đã ra mắt hệ thống trợ lý AI beta có tên là ‘M’. ‘M’ sử dụng NLP để hỗ trợ
các nhiệm vụ phức tạp hơn như mua đồ, sắp xếp việc giao quà, đặt chỗ nhà hàng và đi du
lịch sắp xếp, hoặc cuộc hẹn.
Microsoft đã nghiên cứu bộ công cụ Nhận thức (Cognitive Toolkit) cho phép người
dùng cho thể huấn luyện mơ hình bằng phương pháp học sâu trên máy tính cá nhân một
cách hiệu quả. Họ cũng đã triển khai một hệ thống nhận dạng giọng nói tự động đạt được
cấp độ như con người trong nhận dạng giọng nói đàm thoại [23]. Gần đây hơn, họ đã giới
thiệu một trợ lý giọng nói dựa trên học sâu được gọi là Cortana và tích hợp nó trên hệ điều
hành Window 10, iOS, Android, Windows Phone. Các đối thủ trợ lý thông minh cạnh tranh
chủ yếu của Cortana có thể kể đến như Apple Siri, Google Assistant , Amazon Alexa,
Samsung Bixby. Các ngôn ngữ phổ biến đều được hỗ trợ trên các trợ lý thông minh này
như Tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Ý, tiếng Nhật, , tiếng Trung.
Baidu đã nghiên cứu học sâu để tạo ra Hệ thống nhận dạng tiếng nói có tên Deep Speech
2 (DS2) đã cho thấy hiệu suất được cải thiện đáng kể so với các đối thủ cạnh tranh. Baidu
cũng là một trong những nhóm nghiên cứu tiên phong giới thiệu xe tự lái dựa trên công
nghệ học sâu cùng BMW.
IBM có gần đây đã giới thiệu hệ thống điện toán nhận thức (Cognitive computing) của
họ được gọi là Watson. Hệ thống này kết hợp thị giác máy tính và nhận dạng giọng nói
trong giao diện thân thiện với con người và hiểu được ngôn ngữ tự nhiên của con người.
Watson dựa trên hệ thống điện toán toán nhận thức đã cung cấp một loạt các ứng dụng hữu
C
C
U
D
R
L
T.