Tải bản đầy đủ (.pdf) (71 trang)

(Luận văn thạc sĩ) Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng công nghệ xử lý ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.25 MB, 71 trang )

LỜI CAM ĐOAN
Tôi xin cam đoan nội dung trong luận văn: “Nghiên cứu robot hỗ trợ người
khiếm thính ứng dụng công nghệ xử lý ảnh” là sản phẩm do tôi thực hiện dưới sự
hướng dẫn của PGS. TS. Nguyễn Trường Thịnh. Tất cả các tài liệu tham khảo đều có
xuất xứ rõ ràng và được trích dẫn hợp lý.
Tơi xin hồn tồn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định
cho lời cam đoan của mình.

Tp. Hồ Chí Minh, ngày 10 tháng 09 năm 2017
(Ký tên và ghi rõ họ tên)

Nguyễn Trung Hiếu

iii


LỜI CẢM ƠN
Lời tri ân đầu tiên tôi xin bày tỏ lòng biết ơn sâu sắc và chân thành tới
thầy PGS.TS. Nguyễn Trường Thịnh, người đã trực tiếp hướng dẫn, chỉ bảo tơi tận tình trong
suốt q trình nghiên cứu và hoàn thiện luận văn này. Hơn nữa, thầy cũng là người đã luôn
bên cạnh động viên, giúp đỡ tôi vượt qua nhưng khó khắn khơng chỉ trong suốt q trình
học tập tại trường.
Tơi xin được gửi lời cảm ơn đến gia đình và bạn hữu đã giúp đỡ, động viên tôi bằng
cách này hay cách khác trong thời gian vừa qua.
Xin kính chúc thầy PGS.TS. Nguyễn Trường Thịnh, thân nhân và bạn hữu luôn đạt
được nhiều niềm vui và bình an trong cuộc sống.

Học viên

Nguyễn Trung Hiếu


iv


ABSTRACT
One of the important problems our society is facing is that deaf and dumb
people find difficulties in communicating with normal people who don’t understand
sign language. Even though sign language is the best way for deaf and dumb people
to communicate with each other. Sign language is also used a little by normal people
because it is an expressive and natural way for communicating. However, people
can’t understand all information which were transferred by deaf and dumb people.
Similarly, deaf and dumb people can’t understand all the things said by normal
people. Therefore, we need a system which can translate from sign language to speech
and vice versa. Hence, that makes the communication between normal person and
deaf, as well as dumb people easier. The whole idea is to build a service robot that
enables communications between speech-hearing impaired individual and a normal
person. In this thesis, we will present two tasks. First, we will present how to translate
sign language to speech. We focus in the image processing algorithm to achieve hand
gestures using depth sensor and then convert to speech. Second, we focus in speech
recognition algorithm. The recognized speech is converted to text, and displayed on
screen.

v


MỤC LỤC
LÝ LỊCH KHOA HỌC .....................................................................................ii
LỜI CAM ĐOAN ............................................................................................ iii
LỜI CẢM ƠN ................................................................................................... iv
ABSTRACT ....................................................................................................... v
MỤC LỤC ........................................................................................................ vi

DANH SÁCH CÁC CHỮ VIẾT TẮT ...........................................................viii
DANH SÁCH CÁC HÌNH ............................................................................... ix
DANH SÁCH CÁC BẢNG .............................................................................. xi
Chương 1: TỔNG QUAN ................................................................................. 5
1.1. Giới thiệu đề tài ........................................................................................ 5
1.2. Mục tiêu đề tài .......................................................................................... 9
1.3. Tổng quan hoạt động của robot hỗ trợ người khiếm thính .................. 10
1.4. Nội dung nghiên cứu trong luận văn ..................................................... 11
Chương 2: TỔNG QUAN VỀ NGÔN NGỮ KÝ HIỆU ................................. 13
2.1. Khiếm thính ............................................................................................ 13
2.2. Nguồn gốc và lịch sử phát triển ngôn ngữ ký hiệu ................................ 15
2.3. Đặc điểm ngôn ngữ ký hiệu .................................................................... 19
2.4. Ngôn ngữ và cuộc sống ........................................................................... 20
2.5. Chuẩn hóa và phổ biến ngôn ngữ ký hiệu ............................................. 20
2.6. Một số điểm khác biệt về cú pháp của NNKH ở Việt Nam so với ngôn
ngữ thông thường - tiếng Việt ......................................................................... 21
Chương 3: NHẬN DẠNG NGÔN NGỮ KÝ HIỆU
DỰA TRÊN XỬ LÝ ẢNH............................................................................... 23
3.1

Nguyên lý hoạt động camera cảm biến chiều sâu ................................. 23

3.2

Nhận dạng bàn tay dựa trên thông tin về chiều sâu ............................. 27

3.3

Giải thuật nhận dạng ............................................................................. 29


3.4

Nhận dạng và định nghĩa cử chỉ bàn tay ............................................... 36

Chương 4: NHẬN DẠNG TIẾNG NĨI.......................................................... 41
4.1. Hệ thống tiếng nói của con người .......................................................... 41
4.2. Cơ sơ lý thuyết xử lý và nhận dạng tiếng nói ........................................ 43

vi


4.2.1.

Các thành phần cơ bản của một hệ thống nhận dạng tiếng nói ........ 43

4.2.2.

Các phương pháp tiếp cận trong nhận dạng tiếng nói ...................... 44

4.2.3.

Phát hiện tiếng nói............................................................................... 49

4.2.4.

Phương pháp trích chọn tham số đặc trưng của tín hiệu tiếng nói... 51

4.3. Nhận dạng tiếng nói sử dụng cơng cụ Google cloud speech API .......... 57
4.3.1.


API là gì? ............................................................................................. 57

4.3.2.

Nhận dạng tiếng nói sử dụng cơng cụ Google cloud speech API ...... 58

4.3.3.
API.

Lưu đồ giải thuật nhận dạng tiếng nói sử dụng Google cloud speech
………………………………………………………………………… 59

Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................................... 60
5.1. Thực nghiệm ........................................................................................... 60
5.2. Đánh giá .................................................................................................. 61
KẾT LUẬN ...................................................................................................... 62
TÀI LIỆU THAM KHẢO ............................................................................... 63

vii


DANH SÁCH CÁC CHỮ VIẾT TẮT
NNKH

Ngôn ngữ ký hiệu

WHO

World Heath Organization


LĐ-TB-XH

Lao động –thương binh – xã hội

DTW

Dynamic Time Wraping

LPC

Linear Predictive Coding

HMM

Hidden Markov Modle

ANN

Artificial Neural Network

DFT

Discrete Fouerier Transforms

SE

Short Energy

ZCR


Zero Crossing

VAD

Voice Activity Detector

MFCC

Mel-scale Frequency Cepstral Coefficient

DCT

Biến đổi Cosine rời rạc

FFT

Fast Fouerier Transforms

API

Application Programming Interface

Paas

Platform as a Service

ML

Machine Learning


LPC

Linear Predictive Coding

viii


DANH SÁCH CÁC HÌNH
Hình 1.1: Truyền âm thanh qua xương sọ cho bệnh nhân bị khiếm thính…………7
Hình 1.2: Phục hồi thính giác bằng các tái sinh tế bào lơng thính giác…………..8
Hình 1.3: Găng tay Enable Talk………………………………………………………..8
Hình 1.4: Sơ đồ hoạt động của robot hỗ trợ người khiếm thính………………….10
Hình 3.1: Hoạt động của của camera chiều sâu……………………………………24
Hình 3.2: Mơ hình tính tốn cơ bản của ngun lý tam giác……………………..25
Hình 3.3: Dữ liệu chiều sâu được tính bằng khoảng cách từ cảm biến đến đối
tượng……………………………………………………………………………………..26
Hình 3.4: Mơ hình động học của bàn tay……………………………………………27
Hình 3.5: Sơ đồ giải thuật truy bắt bàn tay……………………………………..….31
Hình 3.6: Giới hạn vùng tìm kiếm bàn tay………………………………………….34
Hình 3.7: Đa giác bao quanh bàn tay trong khơng gian Euclide………………..35
Hình 3.8:Đoạn thẳng trong tỷ lệ vàng………………………………………………35
Hình 3.9. Các tỷ lệ vàng trên bàn tay người……………………………………….36
Hình 3.10: Các khớp ngón tay sau khi nhận dạng………………………………..38
Hình 3.11: So sánh độ chính xác giữa phương pháp Euclid và DTW…………38
Hình 3.12: Ma trận lưới các điểm………………………………………………….39
Hình 3.13: Hình dạng đường đi trong ma trận……………………………………….…..40

Hình 4.1: Bộ máy phát âm của con người………………………………………….....42
Hình 4.2: Tín hiệu tương tự và tín hiệu số tương ứng………………………….......43
Hình 4.3: Các phần tử cơ bản của một hệ thống nhận dạng tiếng nói……..…..45

Hình 4.4: Sơ đồ khối nhận dạng tiếng nói theo Âm học-Ngữ âm học……….....46

ix


Hình 4.5: Sơ đồ khối hệ nhận dạng tiếng nói theo phương pháp mẫu…..……..47
Hình 4.6: Sơ đồ khối hệ nhận dạng tiếng nói theo phương pháp từ dưới lên....48
Hình 4.7: Sơ đồ tính tốn các hệ số MFCC…………………………………………...51
Hinh 4.8: Các băng lọc tam giác theo thang tần số Mel…………………………...53
Hình 4.9: Sơ đồ bộ xử lý LPC dùng trích chọn đặc trưng tiếng nói……………..55
Hình 4.10: Sơ đồ các bước xác định hệ số PLP……………………………………..56
Hình 4.11: Sơ đồ nhận dạng tiếng nói dung Google Speech API…….……..…..59
Hình 5.1: Biểu đồ tỷ lệ nhận dạng chính xác của các từ………………………..61

x


DANH SÁCH CÁC BẢNG
Bảng 1.1: Phân loại và biểu hiện của khiếm thính………………………………….…5
Bảng 2.1: Bảng chữ cái của ngơn ngữ ký hiệu quốc tế…………………………….…14
Bảng 2.2: Bảng chữ cái ngôn ngữ ký hiệu Việt Nam…………………………………15
Bảng 2.3 : So sánh cấu trúc câu tiếng Việt và câu NNKH………………………..…21
Bảng 3.1 : So sánh ưu nhược điểm của hai loại thông tin thu được từ camera ảnh
bình thường và thơng tin thu được từ cảm biến chiều sâu…………………………..29
Bảng 5.1: Tỷ lệ nhận dạng chính xác của các từ……………………………………..61

xi


Chương 1: TỔNG QUAN

1.1.

Giới thiệu đề tài

Một trong những giác quan giúp con người có thể giao tiếp với người khác,
giúp tiếp thu nguồn tri thức nhân loại cũng như để sẻ chia những điều trong cuộc sống
đó chính là thính giác. Nếu như một người thiếu thính giác, hoặc thính giác hoạt động
khơng tốt thì đó là một thiệt thịi rất lớn đối với người đó. Trong khi đó, bộ phận
những người có khuyết tật về thính giác lại chiếm một bộ phận không nhỏ trong cộng
đồng nhân loại. Vấn đề về tình trạng của người có khuyết tật về thính giác lại thêm
phức tạp bởi lẽ khiếm thính có nhiều cấp độ và biểu hiện khác nhau. Bảng 1.1 đưới
đây trình bày tổng quát về phân loại và biểu hiện của khiếm thính:
Phân loại

Biểu hiện

Khiếm thính tiếp nhận

Tổn thương tai ngồi và tai giữa.

Khiếm thính dẫn truyền

Tổn thương tai trong.

Khiếm thính hỗn hợp

Tổn thương cả tai ngồi, tai giữa và tai trong.

Khiếm thính tai trung ương


Dây thần kinh số 8, tổn thương ở não.

Nghe kém nhẹ

Không nghe được tiếng nói nhỏ. Khó nghe tiếng nói
nơi ồn.

Nghe kém trung bình

Nghe được tiếng nói nhỏ, tiếng nói bình thường.
Rất khó nghe được tiếng nói nơi ồn ào.

Nghe kém nặng

Khơng nghe được ngay cả tiếng nói lớn. Các cuộc
nói chuyện được thực hiện rất khó khăn với nhiều
nỗ lực.

Nghe kém sâu

Khơng nghe được cả khi hét vào tai, không sử dụng
thiết bị trợ thính thì sẽ khơng thể nghe được.

Điếc

Hồn tồn khơng nghe được cho dù có dung thiết
bị trợ thính.

Bảng 1.1: Phân loại và biểu hiện của khiếm thính
Hiện nay, theo thống kê của Tổ Chức Y Tế Thế Giới (WHO), trên thế giới có

khoảng 278 triệu người câm điếc các dạng, chiếm 4,5% dân số thế giới. Hầu hết trong

5


số họ có mức sống trung bình và dưới trung bình do rào cản ngơn ngữ [1]. Ở Việt
Nam, theo thống kê của bộ LĐ-TB-XH, Việt Nam có khoảng 2 triệu người câm điếc
các dạng, chiếm khoảng 13,5% dân số. Trong đó có khoảng 400 ngàn người đang
trong độ tuổi đi học [1]. Riêng tại thành phố Hồ Chí Minh, theo thống kê của bộ LĐ
–TB – XH vào năm 2006, số người khiếm thính khoảng 3.550 người, trong đó số
lượng người có thể thơng dịch được khơng q 20 người, và những người có thể
thơng dịch tại các hội nghị quốc tế không quá 7 người. [2]
Những năm gần đây, việc hồ nhập của những người khiếm thính các dạng đã
được cải thiện hơn nhờ sự trợ giúp của y học, các thiết bị công nghệ. Sự phát triển và
dần đi đến sự thống nhất của ngôn ngữ ký hiệu cũng đã tạo thêm nhiều thuận lợi hơn
cho người khiếm thính trong giao tiếp hằng ngày.
Tuy nhiên, những sự hỗ trợ đó cũng chưa thể giải quyết được rốt ráo những
vấn đề của người khiếm thính, mà chỉ giải quyết được một phần nào đó mà thơi. Bởi
vì, tình trạng khiếm tính có nhiều cấp độ rất khác nhau nên các phương pháp áp dụng
cũng phải khác nhau và thương là cụ thể cho những trường hợp nhất định. Chẳng hạn,
những người bị tổn thương về tai có thể được chữa trị bằng phương pháp y học để
giúp hồi phục thính giác. Hoặc những người có thính giác kém, có thể nghe nhưng
nghe khơng tốt có thể được hỗ trợ việc nghe nhờ thiết bị trợ thính. Như thế, tuỳ những
trường hợp cụ thể mà có những phương pháp phù hợp nhất định riêng. Cịn đối với
những người có thính giác rất kém hoặc mất hẳn mà chúng ta thường gọi là điếc thì
cơng cụ giúp họ giao tiếp chính là ngơn ngữ ký hiệu. Chính điều này đã gây trở ngại
nhiều trong giao tiếp hằng ngày giữa người điếc và người bình thường. Bởi lẽ, ngơn
ngữ ký hiệu đa phần những người bình thường khơng biết hoặc có thể sử dụng được
rất hạn chế.
Gần đây đã có một số cơng trình nghiên cứu nhằm hỗ trợ những người mất

khả năng thính giác này. Các cơng trình có thể kể ra đây như:
Nghiên cứu truyền âm thanh qua xương sọ cho bệnh nhân bị khiếm thính. Các
nhà nghiên cứu đến từ đại học công nghệ Chalmers, Thuỵ Điển đã phát triển thành

6


công một thiết bị cấy ghép giúp truyền âm thanh vào tai trong bằng cách gởi những
rung động trực tiếp qua xương sọ thay vì tai giữa. Qua đó, những bệnh nhân bị điếc
do các vấn đề liên quan đến tai giữa sẽ có cơ hội lấy lại thính giác của mình. Thiết bị
cấy ghép Bone Conduction Implant (BCI) có kích thước 6 cm chiều dài và được gắn
tại khu vực phía sau tai, dưới da, ngay trên bề mặt xương sọ. Thiết bị được kết nối
với một bộ xử lý âm thanh bên ngồi có nhiệm vụ thu nhận tiếng động xung quanh.
Bộ phận này được đặt trên da, cạnh thiết bị cấy ghép và được giữ cố định nhờ nam
châm tích hợp trên cả 2 thiết bị. Âm thanh từ bộ xử lý sẽ được truyền qua da và được
thiết bị cấy ghép tiếp nhận nhờ một cuộn cảm ứng. Thiết bị sau đó sử dụng một loa
khuếch đại mini để chuyển tiếp những rung động âm thanh vào xương sọ và từ đó âm
thanh đi vào tai trong.

Hình 1.1: Truyền âm thanh qua xương sọ cho bệnh nhân bị khiếm thính
Cơng trình nghiên cứu phục hồi thính lực bằng cách tái sinh tế bào lơng thính
giác của các chuyên gia từ bệnh viện mắt và tai Massachusetts và trường y khoa
Harvard. Các nhà nghiên cứu đã kích thích các tế bào lơng thính giác thành tế bào
mới, dẫn đến phục hồi một phần thính lực ở chuột bị tai tổn thương tai do chấn thương
tiếng ồn. Tế bào lơng thính giác nằm trong ốc tai trong chịu trách nhiệm chuyển kích
thích thính giác thành tín hiệu điện, một khi các tế bào này bị tổn thương do tiếng ồn

7



quá mức, nhiễm trùng, độc tố hay một số kháng sinh và thuốc ung thư, chúng không
thể tái sinh một cách tự nhiên. Các bào lông bị mất được thay thế bằng các tế bào
lông mới sau khi điều trị bằng thuốc và phân tích về vị trí của chúng sẽ giúp cải thiện
tính giác trong các vùng tế bào lơng được thay thế.

Hình 1.2: Phục hồi thính giác bằng các tái sinh tế bào lơng thính giác.

Một nhóm nghiên cứu đến từ Ukraina đã nghiên cứu một chiếc găng tay biết
chuyển đổi ngơn ngữ ký hiệu thành lời nói hồn chỉnh Enable Talk. Enable Talk có
hình dáng giống đơi găng tay thông thường, nhưng được gắn thêm nhiều cảm biến,
như con quay hồi chuyển (Gyroscope), cảm biến gia tốc (Accelerometer) và một số
viên pin năng lượng mặt trời. Hệ thống này có tính năng dịch ngơn ngữ ký hiệu thành
dạng văn bản, sau đó thành lời nói sử dụng cơng nghệ Text-to-Speech. [3]

Hình 1.3: Găng tay Enable Talk.

8


Tại Việt Nam, có một số đề tài nghiên cứu hỗ trợ người khiếm thính trong giao
tiếp hằng ngày. Một trong những đề tài đó là đề tài: Ứng dụng cảm biến 3D Kinect
trong nhận diện ngôn ngữ cử chỉ tiếng Việt hỗ trợ việc giao tiếp với người khuyết tật
khiếm thính (Đại học Cơng Nghệ - ĐH Quốc gia Hà Nội 2014). Tuy nhiên đề tài này
dừng lại ở việc trình bày việc áp dụng thuật tốn di truyền để tính tốn tìm ra các giá
trị của 20 biến khớp của bàn tay.
Những nghiên cứu trên thật sự đang mở ra một cơ hội cho những người khiếm
thính. Tuy vậy, các đề tài này vẫn đang trong tiến trình nghiên cứu và có những giới
hạn riêng của nó. Nghiên cứu về thiết bị truyền thanh qua xương sọ bệnh nhân khiếm
thính chỉ áp dụng cho những người có bệnh về tai liên quan đến tai giữa. Nghiên cứu
tái sinh tế bào lông tai bị đang thực sự mở ra một cảnh cửa mới cho bệnh nhân khiếm

thính. Tuy nhiên, cơng trình này vẫn đang được nghiên cứu và cần thời gian khá dài.
Nghiên cứu thiết kế găng tay chuyển đổi ngơn ngữ ký hiệu thành tiếng nói bị hạn chế
bởi ba lý do: một là khá bất tiện khi phải thường xuyên đeo găng tay trong giao tiếp;
hai là chỉ thực hiện nột chiều tức là chuyển đổi ngôn ngữ ký hiệu thành âm thanh mà
thiếu chiều ngược lại; ba nếu chỉ dùng găng tay thì sẽ dễ bỏ sót biểu hiện của khn
mặt cũng như một vài cử chỉ khác, dẫn đến bỏ sót hoặc chuyển dịch sai ý tưởng người
dùng.
Từ sự phân tích, nhận định ở trên, cùng với xu hướng áp dụng robot vào việc
hỗ trợ các sinh hoạt trong cuộc sống hằng ngày của con người như robot giải trí, robot
phục vụ, robot chun mơn… ngày càng phổ biến, người nghiên cứu đã chọn đề tài:
"Nghiên cứu robot hỗ trợ người khiếm thính ứng dụng cơng nghệ xử lý ảnh."
Vơi mục đích nghiên cứu một công cụ khác nhằm hỗ trợ, tạo sự trực quan và gần gũi
đối với việc giao tiếp giữa người khiếm thính và những người bình thường.
1.2.

Mục tiêu đề tài

Luận văn nghiên cứu nhận dạng vị trí của các khớp ngón tay và cánh tay
trong không gian ba chiều từ dữ liệu thu về nhờ vào cảm biến chiều sâu (Kinect).
Luận văn sẽ trình bày giải thuật để có thể phân tích tính tốn được vị trí của các khớp

9


bàn tay, cánh tay trong không gian từ khung dữ liệu thu về nhờ vào cảm biến chiều
sâu (Kinect) từ đó truy bắt các ký hiệu của ngơn ngữ ký hiệu được thực hiện từ các
cử chỉ của bàn tay từ đó nội suy và chuyện dịch sang âm thanh. Bước đầu, luận văn
sẽ thực hiện nhận dạng ngôn ngữ ký hiệu trong một đoạn đối thoại nhỏ.
1.3.


Tổng quan hoạt động của robot hỗ trợ người khiếm thính

Để thực hiện vài trị chuyển dịch từ ngơn ngữ ký hiệu sang ngơn ngữ nói và
ngược lại, robot hỗ trợ người khiếm thính có hai nhiệm vụ chính là: một là nhận diện
ngơn ngữ ký hiệu từ người khiếm thính sau đó chuyển đổi sang ngơn ngữ nói; hai là
nhận dạng giọng nói của người bình thường sau đó chuyển đối sang ngơn ngữ ký hiệu
bằng cách suất ra trên màn hình. Trong nhiệm vụ thứ nhất, robot thực hiện một chuỗi
các xử lý sau: nhận diện vị trí và cử chỉ của hai bàn tay cũng như cánh tay, truy bắt
các chuyển động của chúng và so sánh với cơ sở dữ liệu, sau đó xuất ra dưới dạng âm
thanh. Như vậy, trong nhiệm vụ thứ nhất này, robot sử dụng một camera nhằm thu
hình ảnh về trong thời gian thực, dùng thuật tốn xử lý ảnh để xử lý tín hiệu thu về,
sau đó so sánh với cơ sở dữ liệu để xuất tín hiệu âm thanh. Trong nhiệm vụ thứ hai,
robot sẽ nhận dạng giọng nói được thu về nhờ một micro. Dữ liệu âm thanh này được
xử lý nhận dạng nhờ giải thuật điện toán đám mây, sau đó so sánh với cơ sở dữ liệu
và xuất ra màn hình ngơn ngữ ký hiệu tương ứng . Hình 1.5 thể hiện tổng quát hoạt
động của robot hỗ trợ người khiếm thính.

(1)

(1)

(2

(2)

Hình 1.4: Sơ đồ hoạt động của robot hỗ trợ người khiếm thính:
Chiều (1) ngơn ngữ ký hiệu  ngôn ngữ âm thanh;
Chiều (2) ngôn ngữ âm thanh  ngôn ngữ ký hiệu

10



Với cách thức hoạt động hai chiều như thế, đề tài tiến hành nghiên cứu: ngôn
ngữ ký hiệu, các quy ước cũng như cấu trúc trong ngôn ngữ ký hiệu; nghiên cứu thuật
tốn nhận dạng và truy bắt vị trí cũng như cử chỉ của hai bàn tay và cánh tay; nghiên
cứu việc truy xuất dữ liệu với thời gian thực; nghiên cứu giải thuật nhận dạng giọng
nói, xử lý và sử dụng dữ liệu truy xuất.
Trong luận văn này, người nghiên cứu tập trung giải quyết vấn đề nhận dạng
ngôn ngữ ký hiệu, xử lý và truy xuất cơ sở dữ liệu để chuyển dịch từ ngôn ngữ ký
hiệu sang ngơn ngữ nói. Trong đó, ngơn ngữ ký hiệu được nghiên cứu dùng để nhận
dạng là ngôn ngữ ký hiệu được sử dụng tại thánh phố Hồ Chí Mình. Bởi vì, hiện nay
ngơn ngữ ký hiệu Việt Nam có nhiều hệ thống có nhiều điểm khác nhau, chưa có sự
thống nhất nhất định. Mặt khác, tại thành phố Hồ Chí Minh có nhiều trung tâm dành
cho người khiếm thính với số lượng người khiếm thính chiếm phần đơng trong tổng
số người khiếm thính của cả nước.
1.4.

Nội dung nghiên cứu trong luận văn

Luận văn ngoài chương tổng quan, nội dung nghiên cứu gồm các chương:
Chương 2 trình bày tổng quan ngôn ngữ ký hiệu về khái niệm, cấu trúc nền
tảng văn hố của ngơn ngữ ký hiệu. Những dữ liệu này về ngôn ngữ ký hiệu sẽ giúp
tạo cơ sở để xây dựng yêu cầu cho quá trình nhận dạng ngơn ngữ ký hiệu dùng xử lý
ảnh.
Chương 3 trình bày thuật tốn nhận dạng ngơn ngữ ký hiệu bằng cách nhận
dạng vị trí và cử chỉ của bàn tay và cánh tay. Những dữ liệu thu nhận được để được
xử lý, tính tốn và so sánh với cơ sở dữ liệu nhờ vào thuật tốn DTW, sau đó chuyển
dịch sang ngơn ngữ âm thanh.
Chương 4 trình bày hệ thống và bộ phận phát âm của con người, cơ sở lý thuyết
xử lý và nhận dạng tiếng nói, đồng thời xây dựng chương trình nhận dạng tiếng nói

chuyển dịch sang dạng văn bảng.

11


Chương 5 trình bày kết quả thực nghiệm, đánh giá khả năng nhận dạng, độ
chính xác của thuật tốn.
Phần kết luận nêu lên nhận định về giải thuật nhận dạng ngôn ngữ của hệ thống
cũng như đề xuất hướng cải thiện trong nhận dạng.

12


Chương 2: TỔNG QUAN VỀ NGƠN NGỮ KÝ HIỆU

Ngơn ngữ ký hiệu, cơng cụ giao tiếp chính yếu của những người khiếm thính
tự bản thân cũng có những đặc điểm và những phức tạp riêng trong cấu trúc của nó.
Cũng như ngơn ngữ nói, ngơn ngữ ký hiệu có một quá trình lịch sử hình thành, được
xây dựng trên nền tảng của một truyền thống và văn hoá, trong một vùng địa lý nhất
định. Do đó, nó có những nét rất riêng biệt giữa chính các ngơn ngữ ký hiệu ở từng
địa phương, quốc gia. Chương hai trình tổng quan về khái niệm, quá trình hình thành,
cấu trúc cũng như nền tảng văn hố của ngơn ngữ ký hiệu.
2.1.

Khiếm thính

Khiếm thính là tình trạng một người hoặc một động vật có thính giác kém hoặc
mất hồn tồn khả năng nghe trong khi cá thể khác cùng một lồi có thể nghe thấy
âm thanh đó dễ dàng. Bệnh do nhiều yếu tố khác nhau, bao gồm tuổi tác, tiếng ồn,
bệnh tật, hóa chất và các chấn thương vật lý. [2]

Tiếng Việt thơng thường dùng những danh từ như khiếm thính hoặc lãng tai
để chỉ trường hợp khiếm thính. Khiếm thích tồn cầu ảnh hưởng khoảng 10% dân số
ở những cấp khác nhau. Nó gây bệnh tật trung bình đến nghiêm trọng khoảng 124,2
triệu người năm 2004 (107,9 triệu ở các nước thu nhập thấp và trung bình). Trong số
này 65 triệu bị lúc cịn nhỏ. Khi sinh có tỉ lệ ~3/1000 ở các nước phát triển và hơn
6/1000 ở các nước đang phát triển có các vấn đề về tai. [4]
Đối với người có thính giác yếu nhưng có thể sử dụng các thiết bị trợ giúp
nhằm tăng khả năng nghe thì vẫn có thể sử dụng ngơn ngữ nói để giao tiếp. Đối với
những người mất hoàn toàn khả năng thính giác thì ngơn ngữ nói đối với họ hồn
tồn khơng thể sử dụng được. Cơng cụ chính yếu mà họ sử dụng trong giao tiếp với
nhau chính là ngơn ngữ ký hiệu.
Ngôn ngữ ký hiệu hay ngôn ngữ dấu hiệu, thủ ngữ là ngôn ngữ dùng những
biểu hiện của bàn tay, điệu bộ của cơ thể và nét mặt thay cho âm thanh của tiếng nói.

13


Ngôn ngữ ký hiệu được tạo ra nhằm giúp người khiếm thính có thể giao tiếp với nhau
trong cộng đồng của mình và tiếp thu tri thức của xã hội.[2]
Như thế ngôn ngữ ký hiệu sử dụng hai bàn tay để thể tất cả các ý tưởng của
người dùng. Vì là ký hiệu nên ngơn ngữ ký hiệu có nhựng nguyên tắc riêng nhằm tạo
sự thuận tiện cho người dùng. Bảng 2.1 thể hiện bảng chữ cái trong ngôn ngữ ký hiệu
quốc tế. Bảng 2.2 thể hiện bảng chữ cái trong ngn ngữ ký hiệu dùng ở thành phố
Hồ Chí Minh, Việt Nam. Khi so sánh hai bảng chữ cái này, giữa ngôn ngữ ký hiệu
quốc tế và ngôn ngữ ký hiệu dùng tại thành phố Hồ Chí Mình có một sự khác biệt
tượng đối nào đó.

A

B


C

D

E

F

G

H

I

J

K

L

M

N

O

P

Q


R

S

T

U

V

W

X

Y

Z

Bảng 2.1: Bảng chữ cái của ngôn ngữ ký hiệu quốc tế.

14


A

+

+


Ă

Â

B

C

D

Đ

G

H

I

K

L

+
E

Ê

+
M


N

O

Ơ

Ơ

P

Q

R

S

T

U

Ư

V

W

X

Y


Z

Bảng 2.2: Bảng chữ cái ngơn ngữ ký hiệu Việt Nam
2.2.

Nguồn gốc và lịch sử phát triển ngôn ngữ ký hiệu

Tự bản thân mỗi người đã có thể sử dụng một số ngơn ngữ ký hiệu thay cho
lời nói. Chẳng hạn, ký hiệu chỉ vào mình để thay thế cho từ “tơi”… Như thế, có những
dấu hiệu, cử chỉ được thực hiện có thể hiểu được ý nghĩa của nó mà không cần được
dạy. Ngôn ngữ ký hiệu cũng từ đó được hình thành. Ngơn ngữ ký hiệu là tổng hợp
của các dấu hiệu mà con người dùng các cử chỉ của hai bàn tay và biểu cảm của khuôn
mặt mà thể hiện. Những dấu hiệu này lúc đầu còn rời rạc, lẻ tẻ, nhưng dần dần được
tổng hợp lại thành một hệ thống và trở thành một công cụ giao tiếp của con người đặc
biệt là người khiếm thính.

15


Theo nghiên cứu về nguồn gốc NNKH của David F. Armstrong và Sherman
Wilcox thì: “NNKH, hay chí ít là hệ thống kí hiệu, đã được xác định xuất hiện trong
quá trình nghe của con người dưới những điều kiện cự thể nhất định. Những kí hiệu
đó có thể xuất phát trong cộng đồng tu sĩ đạo Thiên Chúa với cuộc sống theo quy luật
im lặng. Họ có những giờ phải giữ im lặng tuyệt đối, do đó để trao đổi khi cần thiết,
họ sử dụng những cử chỉ của hai tay để ra hiệu cho nhau. Ngồn gốc của NNKH cũng
có thể đến từ một loại ngơn ngữ đặc biệt của phụ nữ thổ dân Úc. Nguồn gốc của
NNKH cũng có thể đến từ số những cơng nhân khắc khổ làm việc trong mơi trường
đầy tiếng ồn. Để có thể trao đổi với nhau, họ sử dụng dấu hiệu từ hai bàn tay. Một giả
thiết khác về nguồn gốc của NNKH đó là các dấu hiệu xuất phát trong cộng động
những thợ săn. Trong quá trình săn bắn, họ ra hiệu cho nhau nhằm tránh gây tiếng

động.
Nguồn gốc của NNKH có thể có nhiều giả thiết khác nhau, nhưng một điều
khẳng định rằng, NNKH đã có một q trình hình thành và phát triển ngay trong
chính cuộc sống sinh hoạt của con người. Ban đầu, đó có thể chỉ là những ký hiệu
được thực hiện cách đơn giản nhờ vào hai tay, dần dần nó phát triển và trở thành một
hệ thống với những quy tắc về cấu trúc ngữ pháp chắc chẽ hơn.
Ban đầu, khi ngôn ngữ ký hiệu chưa được hệ thống thì những người khiếm
thính bị gạt ra bên ngồi xã hội bởi vì khổng thể hồ nhập vào cuộc sống cuộc cộng
đồng.Từ trước công nguyên, Aristotle (384- 322 TCN), triết gia vĩ đại của Hy Lạp,
đã tun bố rằng: “Người khiếm thính khơng thể giáo dục được. Nếu không nghe
được, con người không thể học được” [4]. Điều này đồng nghĩa với việc người khiếm
thính đứng bên lề xã hội vì họ khơng thể giao tiếp cũng như khơng thể học hành được.
Tình trạng này kéo dài đến tận thế kỷ XVI – Thời kỳ Phục Hưng. Tất cả thay đổi khi
nhà toán học Geronimo Cardano người Padua tun bố người khiếm thính có thể học
tập thơng qua giao tiếp bằng ký hiệu. Tử đó, người ta tập trung vào việc nghiên cứu
hình thức giao tiếp giữa người khiếm thính và họ đã nhận ra rằng họ đã sử dụng bàn
tay để đánh vần những chữ cái. Quá trình nghiên cứu được tiến hành và bước đầu đã
đạt được một số kết quả đáng trân trọng.

16


Đến thế kỷ XVII, Juan Pablo de Bonet xuất bản cuốn sách đầu tiên về ngôn
ngữ ký hiệu, đồng thời công bố bảng chữ cái năm 1620 dựa trên nền tảng là ngôn ngữ
ký hiệu được cộng đồng người khiếm thính phát triển theo bản năng từ trước.
Bước sang thế kỷ XVII là thời kỳ nở rộ của các công trình nghiên cứu về
NNKH. Năm 1755, Cha Charles-Michel de l’Épée (người Pháp và được coi là người
khai sinh ra hệ thống ngôn ngữ ký hiệu Pháp) thành lập trường học miễn phí đầu tiên
dành cho người khiếm thính. Hệ thống ký hiệu tiếp tục được phát triển và được cộng
đồng người khiếm thính sử dụng. Hệ thống ngơn ngữ ký hiệu của Pháp được hoàn

thiện trong giai đoạn này.
Năm 1778, Tại Leipzig, Đức, Samuel Heinicke, trường công lập đầu tiên dành
cho người khiếm thính khơng chỉ sử dụng NNKH mà cịn dùng phương pháp nói và
đọc khẩu hình (speech-reading) – tiên phong cho việc dùng tất cả các phương pháp
để giao tiếp tối ưu (dùng tất cả các biện pháp giao tiếp có thể: ngơn ngữ ký hiệu, cử
chỉ, đánh vần bằng ký hiệu, đọc khẩu hình, nói, trợ thính, đọc, viết và tranh vẽ).
Năm 1815, Thomas Hopkins Gallaudet tới châu Âu nghiên cứu phương pháp
giáo dục dành cho người khiếm thính. Trở lại Hoa Kỳ cùng với giáo viên ngôn ngữ
ký hiệu, Gallaudet và Laurent Clerc mở trường công dành cho người khiếm thính đầu
tiên của Hoa Kỳ tạiHartford, Connecticut năm 1817. Đây được xem là trường học
đầu tiên tại Hoa Kỳ dành cho người khiếm thính.
Bước sang thế kỷ XX, đã xuất hiện nhiều hoạt động dành cho người khiếm
thính trên tồn thế giới, đánh dấu bước hồ nhập của người khiếm thính vào cộng
đồng xã hội. Năm 1924, tổ chức World Games đầu tiên dành cho người khiếm thính.
Đồng thời trong thời điềm này, các nhà nghiên cứu bắt đầu phát triển Gestuno (ngôn
ngữ ký hiệu chuẩn quốc tế).Năm 1951, Đại hội đầu tiên của Liên hiệp Người Khiếm
thính Thế giới (WFD) diễn ra tại Roma.Năm1960, William Stokoe, người Mỹ, xuất
bản cuốn sách ngôn ngữ học đầu tiên về ngôn ngữ ký hiệuMỹ (American Sign
Language - ASL). Năm 1979, Klima và Bellugi tiến hành nghiên cứu đầu tiên về
ngôn ngữ ký kiệu Mỹ (ASL) trong phương diện ngôn ngữ học. [4]

17


Đầu tháng 6, năm 1988, Quốc hội Cộng hòa Séc thơng qua một đạo luật chính
thức cơng nhận Ngơn ngữ ký hiệu Séc là ngơn ngữ chính dành cho người khiếm thính
tại quốc gia này. Người khiếm thính có quyền được nhận dịch vụ phiên dịch ngôn
ngữ ký hiệu miễn phí 24/24. Trẻ em khiếm thính có quyền được giáo dục bằng ngơn
ngữ ký hiệu bản địa. Thêm vào đó, theo quy định pháp luật, phụ huynh của trẻ khiếm
thính được dự các lớp ngơn ngữ ký hiệu miễn phí. Dù vậy, luật pháp vẫn chưa quy

định việc phiên dịch ngôn ngữ ký hiệu trong trường trung học, đại học và toà án.
Hiện tại, theo Chỉ số dân tộc học (The Ethnologue Index) liệt kê, có 103
NNKH được sử dụng trên khắp thế giới. Giống như những ngôn ngữ khác, để được
sử dụng, duy trì và phát triển, NNKH cần có một lượng người sử dụng. Tuy nhiên,
trong nhiều xã hội, người khiếm thính sống trong những cộng đồng khơng đủ đơng
để duy trì một NNKH thực sự. Do đó, vấn đề xảy ra là mỗi cá nhân khiếm thính phát
triển một hệ thống kí hiệu giao tiếp được thoả thuận (anagreed contach signing
system) để sử dụng với những người thân hay những láng giềng của mình – như tình
trạng kí hiệu mang tính vùng miền của Việt Nam hiện nay. [5]
Tại Việt Nam, trường Câm điếc Lái Thiêu tiền thân của Trung tâm Ni dạy
trẻ khiếm thính Thuận An, Bình Dương là cái nơi của nền giáo dục trẻ khiếm thính ở
Việt Nam. Trường được linh mục chính xứ họ đạo Lái Thiêu tên Azemar (còn được
gọi là cha Lực) thành lập năm 1886. [7] Vì thế NNKH của Việt Nam xuất phát từ
NNKH Pháp (LSF) và hiện nay cịn nhiều kí hiệu cơ bản giống kí hiệu của Pháp. Tuy
nhiên do hoàn cảnh chiến tranh kéo dài, sau hơn 25 thống nhất đất nước, Việt Nam
vẫn chưa có điều kiện để thống nhất những ký hiệu giao tiếp cơ bản, chưa chính thức
nghiên cứu để xác định và hình thành một NNKH thật sự là của Việt Nam.
Từ những năm 2000, Việt Nam bắt đầu triển khai những nỗ lực của mình nhằm
hồn thiện hệ thống NNKH Việt Nam. Các CLB, nhóm dạy, sinh hoạt, các nghiên
cứu khoa học bắt đầu hình thành và nở rộ. Một số tài liệu khoa học công phu xuất
hiện như: bộ 3 tập Ký hiệu cho người khiếm thính Việt Nam, từ điển ngôn ngữ ký
hiệuViệt Nam...

18


2.3.

Đặc điểm ngơn ngữ ký hiệu


Cũng như ngơn ngữ nói, ngơn ngữ ký hiệu của từng quốc gia, thậm chí là từng
khu vực trong một quốc gia rất khác nhau. Điều đó là do mỗi quốc gia, khu vực có
lịch sử, văn hóa, tập quán khác nhau nên ký hiệu để biểu thị sự vật hiện tượng cũng
khác nhau.
Tuy nhiên, ký hiệu tất cả mọi nơi trên thế giới đều có những điểm tương đồng
nhất định. Ví dụ: ký hiệu ‘uống nước’ thì nước nào cũng làm như nhau là giả bộ cầm
cốc uống nước. Mỗi người (dù bình thường hay khiếm thính) đều có sẵn 30% kiến
thức ngơn ngữ ký hiệu. Do ngôn ngữ ký hiệu phát triển hơn trong cộng đồng người
khiếm thính, nên những người thuộc cộng đồng này của hai nước khác nhau có thể
giao tiếp với nhau tốt hơn hai người bình thường nhưng mà không biết ngoại ngữ.
Hai đặc điểm quan trọng nhất của ngơn ngữ ký hiệu là tính giản lược và
có điểm nhấn. Ví dụ như:

Anh có khoẻ khơng?
(Cấu trúc bình thường)

Giản lược
Nhấn mạnh

Khoẻ khơng?
(ngơn ngữ ký hiệu)

Do tính giản lược và có điểm nhấn nên cấu trúc ngữ pháp ngơn ngữ ký hiệu
nhiều khi khơng thống nhất, cùng một câu có thể sắp xếp nhiều cách khác nhau
(thường thì điểm nhấn được đưa lên đầu câu để gây hiệu quả chú ý).Ví dụ như: bình
thường: Hơm qua, tơi gặp lại người bạn thân ở công viên. Trong câu này, điểm nhấn
là GẶP, và BẠN THÂN. Ngôn ngữ ký hiệu sẽ là: Bạn thân Gặp ở công viên hôm
qua.

Hôm qua, tôi gặp lại ban

thân ở công viên.

Giản lược
Nhấn mạnh

Bạn thân Gặp ở công
viên hôm qua.

Những đặc điểm này của NNKH sẽ gây nhiều khó khan cũng như hiểu nhầm,
thậm chí khơng thể hiểu được đối với những người ít biết hoặc khơng biết về NNKH.

19


Điều này cũng sẽ gây trở ngài lớn cho vấn đề nhận dạng và chuyển dịch từ NNKH
sang ngôn ngữ nói bằng xử lý ảnh.
2.4.

Ngơn ngữ và cuộc sống

Ngơn ngữ ký hiệu chính là cuộc sống, vì nó bắt nguồn từ cuộc sống. Dù có
hay khơng nhận thức ra, nhưng chúng ta vẫn đã và đang sử dụng NNKH rất nhiều
trong cuộc sống hàng ngày. Khoa học đã chứng minh chúng ta truyền tải ngôn ngữ
70% thông qua các biện pháp không lời, tức là cử chỉ, điệu bộ, nét mặt… [4]
Như thế, ngôn ngữ ký hiệu tràn ngập trong cuộc sống của chúng ta, chúng ta
có thể khơng nhận thức, nhưng nó vẫn tồn tại, phát triển và giúp cho cuộc sống tiện
lợi, thoải mái hơn. Nói cách khác, chính những người bình thường “phát minh” ra
NNKH, người khiếm thính làm một việc là mơ phỏng và hệ thống hóa tất cả lại thành
một thứ ngơn ngữ của riêng họ.
2.5.


Chuẩn hóa và phổ biến ngơn ngữ ký hiệu

Tại Việt Nam hiện nay có rất nhiều ngơn ngữ ký hiệu khác nhau theo từng khu
vực: Hà Nội, Hải Phòng, Thái Bình, Đà Nẵng, Bình Dương, Thành phố Hồ Chí
Minh.... Trong đó, ba ngơn ngữ ký hiệu được sử dụng chính là Hà Nội, Hải Phịng và
Thành phố Hồ Chí Minh.
Ngơn ngữ ký hiệu thành phố Hồ Chí Minh có khoảng 58% từ vựng cốt lõi cơ
bản của nó giống với ngôn ngữ ký hiệu Hà Nội và 54% giống với ngơn ngữ ký hiệu
Hải Phịng. Những tỉ lệ này cho thấy ngơn ngữ ký hiệu ở thành phố Hồ Chí Minh,
ngôn ngữ ký hiệu Hà Nội và ngôn ngữ ký hiệu Hải Phịng khơng phải là những
phương ngữ khác của cùng một ngơn ngữ. Bởi vì những phương ngữ của cùng một
ngôn ngữ thường được mong đợi là phải chia sẻ từ khoảng 80% trở lên tỉ lệ cùng
nguồn gốc với nhau về từ vựng cốt lõi cơ bản. Tuy nhiên những tỉ lệ này xác định
rằng 3 ngôn ngữ ký hiệu quan trọng ở Việt Nam có thể được sắp xếp gần như là những
ngơn ngữ có mối quan hệ thuộc cùng một họ ngôn ngữ. Những ngôn ngữ có liên quan
trong cùng một họ ngơn ngữ có thể được mong đợi chia sẻ từ 36% đến 79% từ vựng
cơ bản. [5]

20


×