Tải bản đầy đủ (.pdf) (112 trang)

Nhận dạng ngôn ngữ ký hiệu tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.49 MB, 112 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

VÕ ĐỨC HOÀNG

NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TIẾNG VIỆT

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Đà Nẵng - 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

VÕ ĐỨC HOÀNG

NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TIẾNG VIỆT

Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số

: 62 48 01 01

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Người hướng dẫn khoa học:
1. GS.TS. Jean Meunier
2. TS. Huỳnh Hữu Hưng



Đà Nẵng - 2018


LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện, dưới sự hướng
dẫn của GS. TS. Jean Meunier và TS. Huỳnh Hữu Hưng.
Tôi cam đoan các kết quả nghiên cứu được trình bày trong luận án là trung
thực và không sao chép từ bất kỳ luận án nào khác. Một số kết quả nghiên cứu là
thành quả tập thể và đã được các đồng tác giả đồng ý cho sử dụng. Mọi trích dẫn đều
có ghi nguồn gốc xuất xứ rõ ràng và đầy đủ.

Tác giả

NCS. VÕ ĐỨC HOÀNG

i


MỤC LỤC
LỜI CAM ĐOAN .......................................................................................................i
MỤC LỤC ..................................................................................................................ii
DANH MỤC TỪ VIẾT TẮT...................................................................................iv
DANH MỤC BẢNG BIỂU ....................................................................................... v
DANH MỤC HÌNH VẼ ...........................................................................................vi
MỞ ĐẦU .................................................................................................................... 1
1. Mục tiêu nghiên cứu ........................................................................................... 3
2. Đối tượng và phạm vi nghiên cứu ...................................................................... 3
3. Phương pháp nghiên cứu .................................................................................... 4
3. Cấu trúc của luận án............................................................................................ 4

4. Đóng góp chính của luận án ............................................................................... 6
TỔNG QUAN ................................................................................. 7
Tổng quan về ngôn ngữ ký hiệu ....................................................................... 7
Các nghiên cứu liên quan nhận dạng ngôn ngữ ký hiệu ................................ 11
Phân loại theo phương pháp thu nhận dữ liệu ....................................... 13
Phân loại theo kỹ thuật học máy ........................................................... 22
Kết chương 1 .................................................................................................. 35
NHẬN DẠNG CỬ CHỈ TĨNH .................................................... 37
Phương pháp mô hình hình học ..................................................................... 37
Tiền xử lý............................................................................................... 38
Trích xuất đặc trưng .............................................................................. 45
Huấn luyện và nhận dạng ...................................................................... 46
Kết quả thực nghiệm ............................................................................. 47
Phương pháp xếp hạng ma trận tương quan (ROCM) ................................... 48
Thu nhận dữ liệu, phân đoạn bàn tay .................................................... 49
Tiền xử lý............................................................................................... 51
Trích xuất đặc trưng .............................................................................. 53
Nhận dạng ngôn ngữ ký hiệu tiếng Việt................................................ 56
Thực nghiệm .......................................................................................... 59
Phân đoạn tự động video trong nhận dạng cử chỉ tĩnh ................................... 62
Các khái niệm về phân đoạn video ........................................................ 62
Phân đoạn video và xác định khung hình chính .................................... 64
Giải pháp đề xuất phân đoạn tự động video .......................................... 67
Trích xuất đặc trưng .............................................................................. 69
Thực nghiệm và đánh giá ...................................................................... 70
ii


Kết chương 2 .................................................................................................. 71
NHẬN DẠNG CỬ CHỈ LIÊN TỤC ........................................... 73

Nhận dạng trên hệ tọa độ cầu ......................................................................... 73
Thu nhận dữ liệu và tiền xử lý............................................................... 75
Trích xuất đặc trưng .............................................................................. 77
Huấn luyện và nhận dạng ...................................................................... 79
Kết quả thực nghiệm ............................................................................. 82
Nhận dạng với phương pháp chia khối .......................................................... 83
Thu nhận dữ liệu và tiền xử lý............................................................... 84
Trích xuất đặc trưng độ sâu ................................................................... 85
Huấn luyện và nhận dạng ...................................................................... 87
Kết quả thực nghiệm ............................................................................. 87
Kết chương 3 .................................................................................................. 89
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................................. 91
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ...................... 95
TÀI LIỆU THAM KHẢO ...................................................................................... 96

iii


DANH MỤC TỪ VIẾT TẮT
Từ viết tắt

Nghĩa chữ viết tắt

Dịch nghĩa tiếng Việt

ANN

Artificial Neural Network

Mạng nơ-ron nhân tạo


ASL

American Sign Language

Ngôn ngữ ký hiệu Mỹ

DTW

Dynamic Time Warping

So khớp thời gian động

GMM

Gaussian Mixture Model

Mô hình hỗn hợp Gauss

HMM

Hidden Markov Model

Mô hình Markov ẩn

KNN

K-Nearest Neighbor

K lân cận gần nhất


MLP

Multi Layer Perceptron

Mạng truyền thẳng nhiều lớp

PCA

Principal Component Analysis

Phân tích thành phần chính

Pixel

Picture of Element

Điểm ảnh

RGB

Red Green Blue

Hệ màu Đỏ-Lục-Lam

ROCM

Rank Order Correlation Matrix

Xếp hạng ma trận tương quan


SDK

Software Development Kit

Công cụ phát triển phần mềm

SLR

Sign Language Recognition

Nhận dạng ngôn ngữ ký hiệu

SVM

Support Vector Machine

Máy vec-tơ hỗ trợ

VSL

Vietnamese Sign Language

Ngôn ngữ ký hiệu tiếng Việt

iv


DANH MỤC BẢNG BIỂU
Bảng 1.1: Bảng tóm tắt các phương pháp thống kê, nhận dạng................................32

Bảng 2.1: So sánh với các nghiên cứu liên quan (cùng bộ dữ liệu) ..........................48
Bảng 2.2: Độ chính xác 5 mô hình với 5 cách chia ma trận .....................................60
Bảng 2.3: Độ chính xác 10 cử chỉ số với 5 cách chia ma trận ..................................61
Bảng 2.4: Mô tả 12 giá trị vec-tơ đặc trưng ..............................................................69
Bảng 2.5: Thống kê tỉ lệ nhận dạng khi chọn khung hình liên tiếp (k) .....................70

v


DANH MỤC HÌNH VẼ
Hình 1.1: Bảng chữ cái, chữ số ngôn ngữ ký hiệu tiếng Việt. ....................................9
Hình 1.2: Biểu diễn từ “Hoa hồng” ...........................................................................11
Hình 1.3: Sơ đồ quy trình nhận dạng ảnh .................................................................12
Hình 1.4: Sơ đồ nhận dạng ngôn ngữ ký hiệu ...........................................................13
Hình 1.5: Cảm biến gia tốc và cảm biến điện sinh học trên cánh tay [27]. ..............15
Hình 1.6: Găng tay dữ liệu ........................................................................................16
Hình 1.7: Hệ thống CopyCat [34] .............................................................................17
Hình 1.8: Găng tay màu sắc và thiết lập đặc trưng [35] ...........................................18
Hình 1.9: Thu nhận hình ảnh để nhận dạng [40] ......................................................20
Hình 1.10: Hình ảnh bàn tay qua các bước xử lý ......................................................20
Hình 1.11: Ví dụ mô hình Markov ẩn .......................................................................26
Hình 1.12: Chain code và đồ thị hành động sau khi chuyển đổi[60] ........................31
Hình 2.1: Sơ đồ nhận dạng theo mô hình hình học ...................................................37
Hình 2.2: Phân đoạn ảnh và xác định điểm lồi, lõm .................................................41
Hình 2.3: Xác định đường viền của thuật toán Theo, P. [71] ...................................42
Hình 2.4: Đánh nhãn xác định các điểm lồi ..............................................................43
Hình 2.5: Cách xác định đỉnh ngón tay .....................................................................44
Hình 2.6: Phát hiện và tách cổ tay.............................................................................44
Hình 2.7: Trích xuất đặc trưng bàn tay .....................................................................46
Hình 2.8: Một số hình ảnh cử chỉ trong tập dữ liệu đã sử dụng................................47

Hình 2.9: Sơ đồ khối nhận dạng cử chỉ đơn ..............................................................49
Hình 2.10: Khoảng cách thu nhận dữ liệu với Kinect...............................................51
Hình 2.11: Chuẩn hóa kích thước .............................................................................52
Hình 2.12: Bộ dữ liệu hình ảnh chiều sâu của NNKH tiếng Việt .............................53
vi


Hình 2.13: Xếp hạng giá trị trung bình ma trận 4x4. ................................................54
Hình 2.14: Chuyển đổi ma trận xếp hạng tương quan vào vec-tơ ............................55
Hình 2.15: Thuật toán chuyển ma trận vào vec-tơ đặc trưng....................................55
Hình 2.16: Thuật toán vec-tơ đặc trưng vào vec-tơ tương quan ...............................56
Hình 2.17: Biểu diễn trực quan của 2 loại vec-tơ .....................................................57
Hình 2.18: Minh họa thuật toán phân 5 lớp ..............................................................58
Hình 2.19: Hình ảnh thử nghiệm với bảng chữ cái. ..................................................59
Hình 2.20: Hình ảnh thử nghiệm tương ứng 10 chữ số 0-9 ......................................60
Hình 2.21: Độ chính xác của các kỹ thuật phân loại khác nhau ...............................61
Hình 2.22: Cấu trúc phân cấp của của video.............................................................63
Hình 2.23: Mô hình phân đoạn cứng ........................................................................64
Hình 2.24: Mô tả phân đoạn khung hình chính.........................................................69
Hình 2.25: Mô tả giá trị vec-tơ đặc trưng. ................................................................70
Hình 3.1: Sơ đồ hoạt động của hệ thống ...................................................................75
Hình 3.2: Các vị trí cần lấy để nhận dạng ngôn ngữ ký hiệu tiếng Việt ...................76
Hình 3.3: Chuyển đổi hệ quy chiếu máy quay sang đối tượng .................................77
Hình 3.4: Chia vùng chuẩn hóa dữ liệu góc kinh độ φ và góc nâng θ .....................78
Hình 3.5: Mẫu dữ liệu thu nhận ................................................................................79
Hình 3.6: So khớp với DTW .....................................................................................79
Hình 3.7: Đường đi tối ưu sử dụng DTW .................................................................81
Hình 3.8: Độ chính xác khi kiểm tra 10 từ. ...............................................................82
Hình 3.9: Sơ đồ thực hiện nhận dạng cử chỉ động ....................................................84
Hình 3.10: Xác định khung bao của đối tượng .........................................................85

Hình 3.11: Kết quả mảng Z và giá trị vec-tơ đưa vào thử nghiệm ...........................87
Hình 3.12: Kết quả sử dụng SVM, HMM tương ứng chia khối 4 và 16 ..................87
vii


Hình 3.13: Độ chính xác trung bình của các kỹ thuật chia khối 4,16 và 32 .............88
Hình 3.14: Hình ảnh dữ liệu thử nghiệm ..................................................................89

viii


MỞ ĐẦU
Theo thống kê của Bộ Lao động Thương binh và Xã hội, Việt Nam là một
trong những nước có số người khuyết tật khá cao ở khu vực châu Á - Thái Bình
Dương với khoảng 7,3 triệu người khuyết tật từ 5 tuổi trở lên và người bị khiếm thính
chiếm khoảng 15% số người khuyết tật1. Người khiếm thính là những người có khuyết
tật về khả năng nghe, nguyên nhân có thể do bẩm sinh hay bị tai nạn. Người khiếm
thính sử dụng ngôn ngữ ký hiệu là ngôn ngữ cử chỉ tay với dấu hiệu truyền trực quan
bằng tay và cảm xúc khuôn mặt để truyền đạt ý nghĩa từ thay vì sử dụng âm thanh.
Ngôn ngữ này được sử dụng trong cộng đồng người khiếm thính, tuy nhiên không
được phổ biến trong cộng đồng giao tiếp, do đó có một rào cản lớn giữa người khiếm
thính và người bình thường.
Hiện nay, người khuyết tật nhận được sự quan tâm mạnh mẽ của xã hội, họ
cần được đến trường để học tập, học nghề và hòa nhập làm việc cùng với cộng đồng.
Người khiếm thính không thể nói chuyện với nhau nên việc giao tiếp thông tin thường
được biểu diễn qua các hành động điệu bộ. Ngôn ngữ ký hiệu được phát triển một
cách tự nhiên theo tập quán, thói quen của từng vùng miền, từng quốc gia nên có
những khác biệt rất lớn. Các quốc gia đã chú trọng xây dựng hệ thống ngôn ngữ ký
hiệu của riêng mình nhằm tạo ra sự thống nhất chung. Tuy nhiên, ngôn ngữ ký hiệu
chưa được phổ biến, chủ yếu được giảng dạy và sử dụng trong cộng đồng người

khiếm thính. Để thuận tiện cho việc giao tiếp giữa người khiếm thính và người bình
thường cần nghiên cứu xây dựng hệ thống hỗ trợ dịch ngôn ngữ ký hiệu sang văn bản
viết, nói và ngược lại. Hiện nay, nhiều nghiên cứu liên quan đến nhận dạng ngôn ngữ

1

Theo số liệu năm 2015 của Bộ Lao động, Thương binh & Xã hội

1


ký hiệu tại Việt Nam và trên thế giới đã được nhiều nhà khoa học đề xuất thử nghiệm.
Các nghiên cứu cần tập trung vào thiết kế và triển khai ứng dụng cho một hệ thống
nhận dạng ngôn ngữ ký hiệu - SLR (Sign Language Recognition). Các giải pháp kỹ
thuật đề xuất để thu nhận dữ liệu trong hệ thống SLR được sử dụng như găng tay cảm
biến [24, 32, 40, 65, 67], máy ảnh (thị giác máy tính) [22, 55, 60] hay thiết bị Kinect
[20, 41, 45, 66, 69, 70, 93]. Sau khi thu nhận dữ liệu, quá trình tiền xử lý và trích xuất
đặc trưng sẽ tạo ra các thông tin cơ bản để sử dụng các phương pháp phân loại học
máy khác nhau như: mạng nơ-ron nhân tạo - ANN [26, 34], mô hình Markov ẩn –
HMM [3, 14, 49, 90], mô hình học máy vec-tơ hỗ trợ - SVM [52, 90] hay so khớp
thời gian động - DTW [48, 86]. Các công bố nghiên cứu về nhận dạng ngôn ngữ ký
hiệu có kết quả thành công cao tuy nhiên để có thể ứng dụng hệ thống nhận dạng
ngôn ngữ ký hiệu vào thực tế cần giải quyết những khó khăn về kỹ thuật như sau:
- Khi sử dụng găng tay cảm biến hay các cảm biến gắn trên cơ thể để thu nhận
dữ liệu thì người thực hiện cần phải mang các thiết bị điện tử kết nối với
máy tính, điều này gây bất tiện khi thực hiện [8, 30, 32, 46, 96].
- Khi sử dụng máy ảnh để thu nhận dữ liệu thì hình nền, điều kiện ánh sáng,
sự che lấp hình ảnh bàn tay ảnh hưởng rất lớn đến chất lượng thu nhận hình
ảnh và cần phải tách đối tượng nhận dạng ra khỏi ảnh nền [25, 97].
- Thời gian xử lý chậm và trích xuất các đặc trưng chưa thể hiện rõ sự khác

biệt giữa các đối tượng để đưa vào nghiên cứu nhận dạng [60].
- Các nghiên cứu về nhận dạng ngôn ngữ ký hiệu tiếng Việt còn hạn chế và
mới chỉ tập trung vào các cơ sở dữ liệu sẵn có, chưa tập trung vào bộ từ vựng
của ngôn ngữ ký hiệu tiếng Việt. Mặc dù ngôn ngữ ký hiệu tiếng Việt có
những nét tương đồng với các ngôn ngữ ký hiệu khác trên thế giới tuy nhiên
có những đặc trưng riêng về sử dụng dấu, từ ghép, cách thể hiện.
Xuất phát từ bối cảnh trên, tôi chọn đề tài “Nhận dạng ngôn ngữ ký hiệu
tiếng Việt” làm nội dung của luận án Tiến sỹ kỹ thuật với mong muốn được góp phần
vào lĩnh vực nghiên cứu về kỹ thuật nhận dạng ngôn ngữ ký hiệu tiếng Việt, hướng
2


đến mục tiêu áp dụng trong thực tế để giúp người khiếm thính hòa nhập cộng đồng.

1. Mục tiêu nghiên cứu
Luận án nghiên cứu nhằm giải quyết nhận dạng ngôn ngữ ký hiệu tiếng Việt
(VSL – Vietnamese Sign Language), khắc phục các khó khăn về kỹ thuật thu nhận
dữ liệu, tiền xử lý và trích xuất đặc trưng hỗ trợ người khiếm thính giao tiếp hòa nhập
cộng đồng. Cụ thể là luận án nhằm hướng đến các mục tiêu như sau:
- Các phương pháp trích xuất đặc trưng của ngôn ngữ ký hiệu.
- Xây dựng phương pháp tiền xử lý, trích xuất đặc trưng giảm sự phụ thuộc
vào hình ảnh nền và môi trường thực hiện để nâng cao tỉ lệ nhận dạng so với
các nghiên cứu trước.
- Áp dụng các mô hình học máy để thử nghiệm, chọn mô hình có kết quả tốt
nhất để huấn luyện và nhận dạng các cử chỉ của ngôn ngữ ký hiệu tiếng Việt.
- Xây dựng bộ dữ liệu mẫu của ngôn ngữ ký hiệu tiếng Việt và nghiên cứu
phương pháp phân đoạn video để nâng cao tỉ lệ nhận dạng, áp dụng triển
khai hệ thống nhận dạng theo thời gian thực.

2. Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của luận án bao gồm các nội dung:
- Các thuật toán, giải pháp để phân tích và nhận dạng ngôn ngữ ký hiệu.
- Bảng chữ cái của ngôn ngữ ký hiệu tiếng Việt.
- Các từ, cụm từ biểu diễn của cử chỉ liên tục ngôn ngữ ký hiệu tiếng Việt.
Xác định mục tiêu và đối tượng nghiên cứu như trên, phạm vi nghiên cứu của
luận án tập trung như sau:
- Nghiên cứu kỹ thuật xử lý ảnh hỗ trợ cho hệ thống nhận dạng ngôn ngữ ký
hiệu tổng quát, phân tích và đánh giá kết quả hướng đến nhận dạng ngôn
ngữ ký hiệu tiếng Việt .
- Nghiên cứu hệ thống nhận dạng ngôn ngữ ký hiệu tĩnh là bảng chữ cái ngôn
ngữ ký hiệu tiếng Việt bao gồm hai công việc chính là: (1) xây dựng phương
3


pháp thu nhận dữ liệu, kết hợp trích xuất đặc trưng cơ bản, (2) tìm kiếm, lựa
chọn, cải thiện phương pháp nhận dạng sao cho phù hợp với hệ thống nhận
dạng ngôn ngữ ký hiệu tiếng Việt.
- Nghiên cứu xây dựng hệ thống nhận dạng ký hiệu cử chỉ liên tục bao gồm
các từ, hướng đến việc dịch các câu hoàn chỉnh của ngôn ngữ ký hiệu tiếng
Việt.

3. Phương pháp nghiên cứu
Việc thực hiện luận án dự trên cơ sở kế thừa các kiến thức nền tảng sau đây:
- Thị giác máy tính.
- Kỹ thuật học máy.
- Xử lý tín hiệu ảnh và video.
- Lý thuyết thống kê.
Phương pháp nghiên cứu sử dụng trong luận án là phương pháp kết hợp lý
thuyết và thực nghiệm để đánh giá kết quả:
- Phân tích những đặc điểm riêng của của ngôn ngữ ký hiệu tiếng Việt, xây

dựng cơ sở dữ liệu mẫu để thử nghiệm.
- Xem xét các nghiên cứu liên quan, đánh giá các ưu điểm và khuyết điểm của
các phương pháp nhận dạng khác nhau để từ đó đề xuất ý tưởng cho nhận
dạng ngôn ngữ ký hiệu tiếng Việt. Việc đánh giá dựa vào tiêu chí thời gian
xử lý và tỷ lệ nhận dạng thành công.
- Thiết kế và thực thi các thí nghiệm với cơ sở dữ liệu chung có sẵn để đánh
giá hiệu quả.

3. Cấu trúc của luận án
Trên cơ sở các nhiệm vụ nghiên cứu nêu trên, để đạt mục tiêu đề ra và đảm
bảo tính hợp lý của vấn đề nghiên cứu, ngoài phần mở đầu, phần kết luận và hướng
phát triển, luận án được cấu trúc gồm ba chương với nội dung chính của các chương
như sau:
4


Chương 1 của luận án giới thiệu tổng quan ngôn ngữ ký hiệu hiện nay tại Việt
Nam và trên thế giới. Phần tiếp theo trình bày các nghiên cứu liên quan về nhận dạng
ngôn ngữ ký hiệu theo hai cách phân loại dựa vào quá trình thu nhận dữ liệu và
phương pháp học máy. Kết quả nghiên cứu tổng quan sẽ là cơ sở cho các đề xuất mới
trong nghiên cứu nhận dạng ngôn ngữ ký hiệu tiếng Việt trong những chương tiếp
theo.
Chương 2 trình bày hai nghiên cứu về nhận dạng cử chỉ tĩnh của ngôn ngữ ký
hiệu, nhằm hướng đến nhận dạng bảng chữ cái của ngôn ngữ ký hiệu tiếng Việt.
Nghiên cứu thứ nhất được đề xuất dựa trên quy trình xử lý ảnh cơ bản. Dữ liệu thu
nhận bằng máy ảnh là hình ảnh các bàn tay, quá trình tiền xử lý sử dụng bộ lọc màu
da để loại bỏ nhiễu. Nghiên cứu áp dụng các phương pháp hình học để xác định được
đỉnh các ngón tay, loại bỏ phần cánh tay. Sau khi trích xuất được đặc trưng là các
vec-tơ, nghiên cứu sử dụng mô hình học máy vec-tơ hỗ trợ đa lớp (SVMs) để huấn
luyện và nhận dạng. Nghiên cứu thứ hai sử dụng cảm biến độ sâu để thu nhận dữ liệu,

trích xuất đặc trưng dựa vào mô hình xếp hạng ma trận tương quan (ROCM). Trong
nghiên cứu này đã xây dựng bộ dữ liệu hình ảnh của ngôn ngữ ký hiệu tiếng Việt với
các ký hiệu đơn, ký hiệu kép và các dấu mũ phục vụ cho các thử nghiệm sau này.
Chương 3 trình bày nghiên cứu về nhận dạng cử chỉ liên tục của ngôn ngữ ký
hiệu tiếng Việt. Các cử chỉ liên tục được thu nhận và lưu trữ dưới dạng một chuỗi các
khung hình liên tiếp. Nghiên cứu thứ nhất sử dụng dữ liệu từ cảm biến khung xương
của thiết bị Kinect. Dữ liệu thu nhận dùng để nghiên cứu là tọa độ trong không gian
ba chiều của các khớp xương cổ tay, khuỷu tay. Nghiên cứu chuyển đổi dữ liệu thành
vec-tơ đặc trưng tương ứng với giá trị tọa độ của các điểm thu nhận và sử dụng mô
hình so khớp thời gian động (DTW) để huấn luyện, nhận dạng. Nghiên cứu thứ hai
sử dụng cảm biến độ sâu để thu nhận dữ liệu, áp dụng mô hình không gian ba chiều
(3D) để xử lý dữ liệu theo thời gian thực. Sau khi trích xuất được vec-tơ đặc trưng,
nghiên sử dụng mô hình học máy vec-tơ hỗ trợ (SVM) để huấn luyện và nhận dạng.

5


4. Đóng góp chính của luận án
Luận án đề xuất nghiên cứu nhận dạng ngôn ngữ ký hiệu tiếng Việt cho người
khiếm thính, áp dụng được theo thời gian thực để làm công cụ hỗ trợ giảng dạy cho
trẻ khiếm thính hay hỗ trợ giao tiếp tại nơi công cộng như nhà ga, bệnh viện, sân bay.
Nghiên cứu của luận án bao được chia thành hai phần riêng biệt: nhận dạng cử
chỉ tĩnh và cử chỉ liên tục của ngôn ngữ ký hiệu tiếng Việt. Các đóng góp chính của
luận án cụ thể như sau:
- Nghiên cứu cơ bản về nhận dạng ngôn ngữ ký hiệu (cử chỉ tĩnh và cử chỉ
liên tục) dựa trên dữ liệu thu nhận từ máy ảnh màu và trích xuất đặc trưng
theo mô hình hình học. Thử nghiệm với các phương pháp học máy vec-tơ
hỗ trợ (SVM), đánh giá hiệu quả phương pháp nghiên cứu dựa vào tỉ lệ nhận
dạng thành công.
- Đề xuất phương pháp thu nhận dữ liệu từ cảm biến độ sâu: (1) trích xuất đặc

trưng dựa vào phương pháp xếp hạng ma trận tương quan để nhận dạng
bảng chữ cái (cử chỉ tĩnh); (2) sử dụng phương pháp chia khối theo mô hình
không gian ba chiều để nhận dạng các từ, cụm từ, câu (cử chỉ liên tục) của
ngôn ngữ ký hiệu tiếng Việt.
- Nghiên cứu phương pháp phân đoạn video để trích xuất khung hình chính,
áp dụng nhận dạng và ghép các ký tự của bảng chữ cái ngôn ngữ ký hiệu
tiếng Việt theo thời gian thực.
- Đối với cử chỉ liên tục của ngôn ngữ ký hiệu tiếng Việt, nghiên cứu và thực
nghiệm với hai phương pháp thu nhận dữ liệu: tọa độ khớp xương và cảm
biến độ sâu để thu nhận dữ liệu, phân tích đặc trưng, nhận dạng và đánh giá
hiệu quả.
Luận án là đề tài nghiên cứu theo hướng ứng dụng kỹ thuật vào cuộc sống. Kết
quả nghiên cứu không thể tạo ra công cụ thay thế hoàn toàn quá trình giao tiếp của
người khiếm thính, nhưng có thể góp phần giúp người khiếm thính giao tiếp được với
người bình thường, hòa nhập tốt trong cộng đồng và có tính nhân văn sâu sắc.
6


TỔNG QUAN
Ngày nay với sự phát triển mạnh mẽ của ngành khoa học máy tính, cùng với sự
quan tâm nghiên cứu của các nhà khoa học, máy tính trở nên thông minh hơn và sự
tương tác giữa con người với máy tính có ý nghĩa cực kỳ quan trọng trong cuộc sống
hằng ngày. Nhận dạng cử chỉ giúp máy tính có thể hiểu và giao tiếp với con người
thuận tiện hơn. Cử chỉ là các chuyển động, thay đổi của cánh tay, bàn tay, ngón tay,
đầu mặt hoặc cơ thể với mục đích truyền đạt thông tin hoặc tương tác môi trường bên
ngoài. Một cử chỉ có thể được hệ thống máy tính nhận dạng thông qua các thiết bị
thu, sử dụng kỹ thuật phân tích, nhận dạng và đưa ra các hành động tương ứng.
Ngôn ngữ ký hiệu là ngôn ngữ giao tiếp của người khiếm thính, đã được các
quốc gia chú trọng phát triển và có những nét tương đồng như ngôn ngữ cử chỉ nhưng
được phát triển có hệ thống và thống nhất trong cộng đồng của từng vùng miền, từng

quốc gia. Nhận dạng ngôn ngữ ký hiệu được phát triển dựa trên nền tảng từ nhận dạng
ngôn ngữ cử chỉ, để tạo ra sự giao tiếp giữa người bình thường và người khiếm thính
thông qua hệ thống máy tính.
Nội dung của chương 1 gồm có hai phần chính: phần thứ nhất trình bày tổng
quan về ngôn ngữ ký hiệu trên thế giới và tại Việt Nam; phần thứ hai nêu tóm tắt các
nghiên cứu liên quan về nhận dạng ngôn ngữ cử chỉ, ngôn ngữ ký hiệu đến hiện nay.

Tổng quan về ngôn ngữ ký hiệu
Ngôn ngữ ký hiệu hay ngôn ngữ dấu hiệu (thủ ngữ) là ngôn ngữ chủ yếu được
cộng đồng người khuyết tật sử dụng nhằm chuyển tải thông tin qua cử chỉ, điệu bộ
của cơ thể và nét mặt thay cho lời nói. Lịch sử phát triển của ngôn ngữ ký hiệu nói
chung và ngôn ngữ ký hiệu tiếng Việt nói riêng đã trải qua nhiều giai đoạn thăng
trầm. Từ thế kỉ 16, Geronimo Cardano - nhà vật lý học người Padua, đã tuyên bố
người khiếm thính có thể học tập thông qua giao tiếp bằng ký hiệu. Đến năm 1620,
Juan Pablo de Bonet xuất bản cuốn sách đầu tiên về ngôn ngữ ký hiệu, đồng thời công
bố bảng chữ cái thể hiện bằng tay dựa trên nền tảng là ngôn ngữ ký hiệu đã được cộng
7


đồng người khiếm thính phát triển theo bản năng từ trước.
Ngôn ngữ ký hiệu lần đầu tiên được phát triển và truyền bá vào cộng đồng người
khiếm thính vào năm 1755 khi cha Charles-Michel de l'Épée (người Pháp và được
coi là người khai sinh ra hệ thống ngôn ngữ ký hiệu Pháp) thành lập trường học miễn
phí đầu tiên dành cho người khiếm thính. Hệ thống ký hiệu tiếp tục được phát triển
và được cộng đồng người khiếm thính sử dụng. Hệ thống ngôn ngữ ký hiệu của Pháp
được hoàn thiện trong giai đoạn này.
Vào năm 1778 tại Leipzig, Đức, Samuel Heinicke, trường công lập đầu tiên
dành cho người khiếm thính không chỉ sử dụng ngôn ngữ ký hiệu mà còn dùng
phương pháp nói và đọc khẩu hình, tiên phong cho việc dùng tất cả các phương pháp
để giao tiếp tối ưu (các biện pháp giao tiếp có thể: ký hiệu bàn tay, cử chỉ, đánh vần

bằng ký hiệu, đọc khẩu hình, nói, trợ thính, đọc, viết và tranh vẽ).
Năm 1815, Thomas Hopkins Gallaudet tới châu Âu nghiên cứu phương pháp
giáo dục dành cho người khiếm thính. Trở lại Hoa Kỳ cùng với các giáo viên ngôn
ngữ ký hiệu, Gallaudet và Laurent Clerc mở trường công dành cho người khiếm thính
đầu tiên của Hoa Kỳ tại Hartford, Connecticut năm 1817.
Ở Việt Nam, ngôn ngữ ký hiệu đã được đưa vào giáo dục và sử dụng từ rất
sớm từ năm 1866, một linh mục người Pháp là cha Azemar đã quy tụ khoảng 5 trẻ
khiếm thính để dạy ngôn ngữ và đạo đức. Sau đó, một trong những trẻ này đã sang
Pháp để học tập phương pháp dùng ngôn ngữ ký hiệu và về nước mở trường dạy trẻ
khiếm thính tại Thuận An (Bình Dương). Trung tâm này chính là cái nôi của người
khiếm thính tại Việt Nam.
Từ những năm 2000, Việt Nam bắt đầu triển khai những nỗ lực của mình nhằm
hoàn thiện và hệ thống hóa ngôn ngữ ký hiệu Việt Nam. Các câu lạc bộ, nhóm học
tập bắt đầu hình thành và phát triển. Hiện nay, các tài liệu được đưa vào sử dụng cho
người khiếm thính Việt Nam như: bộ 3 tập Ký hiệu cho người khiếm thính Việt Nam,
Từ điển ngôn ngữ ký hiệu Việt Nam.

8


Hình 1.1: Bảng chữ cái, chữ số ngôn ngữ ký hiệu tiếng Việt2.
Bảng chữ cái ngôn ngữ ký hiệu biểu diễn các hình dạng của bàn tay. Ngôn ngữ
ký hiệu tiếng Việt được xây dựng tương tự như ngôn ngữ ký hiệu Mỹ (ASL) đã được
sử dụng rộng rãi ở một số quốc gia. Bảng chữ cái bao gồm 23 chữ cái, các từ ghép,
dấu mũ và dấu thanh (Hình 1.1). Các chữ cái Ă, Â, Ê, Ô, Ơ, Ư, CH, GH, NGH là sự
kết hợp từ hai hoặc ba cử chỉ tay liên tục. Bảng chữ cái ngôn ngữ ký hiệu thường

2




9


được dùng trong giảng dạy ban đầu của các trường học dành cho người khiếm thính.
Ngoài các ký hiệu biểu diễn bảng chữ cái còn có các biểu diễn cử chỉ liên tục
được sử dụng để mô tả các đối tượng, con người là các từ, cụm từ, câu. Ngôn ngữ ký
hiệu tiếng Việt có số lượng từ vựng hơn khoảng 4500 từ và hiện đang được hoàn
thiện tiếp tục bổ sung. Đối với cử chỉ liên tục có sự khác nhau rất lớn về cách thể
hiện, trật tự biểu diễn các từ trong một câu. Ngôn ngữ ký hiệu mỗi quốc gia đều có
những đặc trưng riêng và có thể hoàn toàn khác nhau giữa các nước trên thế giới.
Ngoài ra, tại Việt Nam cũng có sự phân loại ra nhiều vùng thể hiện biểu diễn ngôn
ngữ ký hiệu khác nhau: Thành phố Hồ Chí Minh, Bình Dương, Hà Nội, Hải Phòng.
Ngôn ngữ ký hiệu liên tục là các dấu hiệu thể hiện bằng sự di chuyển của bàn
tay, cánh tay, có thể chia thành hai nhóm dựa trên bản chất của cử chỉ: dấu hiệu tự
nhiên và dấu hiệu thông qua giáo dục. Dấu hiệu tự nhiên là các dấu hiệu hay cử chỉ
mà con người học hỏi từ các dấu hiệu trong tự nhiên được sử dụng để mô tả các hành
động chung trong các hoạt động hằng ngày như: ăn uống, ca hát, khóc, ngủ, đói
bụng... Các dấu hiệu này thường mô phỏng các hành động chung và hiểu được trong
những ngữ cảnh nhất định, có thể dễ hiểu giữa người bình thường và người khiếm
thính. Dấu hiệu hoặc cử chỉ thông qua giáo dục dùng để diễn tả các khái niệm trừu
tượng hoặc các đối tượng trong thực tế cuộc sống như đẹp, xấu xí, thích, hạnh phúc...
Những cử chỉ này không thể hiểu được đối với người bình thường và người khiếm
thính nếu không được học qua các lớp đào tạo. Hiện nay tại Việt Nam các nhà nghiên
cứu đang nỗ lực để xây dựng hoàn thiện một bộ công cụ từ điển thống nhất về ngôn
ngữ ký hiệu giữa các vùng.
Biễu diễn từ ngữ trong ngôn ngữ ký hiệu Tiếng Việt bao gồm nhiều cử chỉ
phức tạp như: hành động cánh tay, hình dạng bàn tay, các ngón tay, khẩu hình miệng,
cảm xúc khuôn mặt. Khác với cách biểu diễn cử chỉ bằng bảng chữ cái, các từ ngữ
trong từ điển ngôn ngữ ký hiệu tiếng Việt rất đa dạng và phong phú và thường được

sáng tạo với từng cá nhân, từng vùng miền. Đối với ký hiệu liên tục sự di chuyển
(thay đổi vị trí) của bàn tay và cánh tay là quan trọng nhất. Các thông tin quy định về
10


biểu diễn là một chuỗi các hành động liên tục theo thời gian, ta có thể phân tích cử
chỉ liên tục là một chuỗi các hình ảnh tĩnh (Hình 1.2) để có thể trích xuất giá trị đặc
trưng và nhận dạng.

Hình 1.2: Biểu diễn từ “Hoa hồng”
Hiện nay tại Việt Nam chưa có quy định chuẩn về cách biểu diễn cử chỉ liên
tục của ngôn ngữ ký hiệu. Các từ vựng, câu được tổng hợp từ các trung tâm đào tạo
trẻ khiếm thính nên chưa có sự thống nhất cao. Dữ liệu cho nghiên cứu về nhận dạng
cử chỉ liên tục của ngôn ngữ ký hiệu tiếng Việt trong luận án này được sử dụng từ
trang web từ điển ngôn ngữ ký hiệu được xây dựng từ năm 20133.

Các nghiên cứu liên quan nhận dạng ngôn ngữ ký hiệu
Cùng với sự phát triển ngày càng mạnh mẽ của khoa học kĩ thuật trong một
vài thập kỷ gần đây, xử lý ảnh tuy là một ngành khoa học còn tương đối mới mẻ so
với nhiều ngành khác nhưng đã có những nghiên cứu đóng góp tích cực vào cuộc
sống. Xử lý ảnh đóng vai trò quan trọng trong nhiều ứng dụng thực tế về khoa học kĩ
thuật cũng như trong cuộc sống thường ngày như: kiểm tra chất lượng sản phẩm, sự
di chuyển của robot, nhận dạng các phương tiện đi lại, công cụ hướng dẫn cho người

3

/>
11



khiếm thị, an ninh và giám sát, nhận dạng đối tượng, nhận dạng khuôn mặt, các ứng
dụng trong y học, sản xuất, hiệu chỉnh video,…

Hình 1.3: Sơ đồ quy trình nhận dạng ảnh
Một hệ thống nhận dạng ảnh thường bao gồm các giai đoạn cơ bản như hình
1.3. Đối với từng giai đoạn thì có các phương pháp xử lý khác nhau. Thu nhận ảnh là
quá trình đầu tiên trong chuỗi xử lý, ảnh thường được thu nhận bằng các máy ảnh có
độ phân giải cao. Tiền xử lý thực hiện việc biến đổi ảnh đầu vào sao cho ảnh thu được
thỏa mãn những tiêu chí định trước, ví dụ như không chứa nhiễu hay có độ tương
phản cao. Trong một số trường hợp, bước tiền xử lý có thể được bỏ qua do ảnh đầu
vào đã đạt yêu cầu. Các phép tiền xử lý thường được thực hiện ở bước này là cải
thiện, phục hồi ảnh và xử lý hình thái học. Thông thường, các ứng dụng nhận dạng
ảnh không sử dụng thông tin của toàn bộ miền ảnh mà chỉ khu vực chứa đối tượng
12


cần quan tâm. Vì vậy, đối tượng đó cần được tách ra khỏi ảnh để phục vụ các bước
xử lý tiếp theo sau đó. Kỹ thuật thường được sử dụng để thực hiện nhiệm vụ này là
phân đoạn ảnh, tức là chia nhỏ ảnh thành nhiều vùng. Sau khi phân đoạn tùy vào yêu
cầu của công cụ dùng để huấn luyện, nhận dạng ta có thể trích xuất các đặc trưng để
phân biệt. Việc lựa chọn đặc trưng của đối tượng có ảnh hưởng rất lớn đến kết quả
huấn luyện và nhận dạng. Ở mức xử lý bậc cao thường sử dụng các mô hình học máy
như ANN, HMM, SVM…. để nhận dạng. Nhận dạng ngôn ngữ ký hiệu thường được
dựa trên nguyên tắc cơ bản của nhận dạng ảnh và được thể hiện ở hình 1.4.
Thực hiện cử chỉ
-

Điện cơ đồ.
Găng tay
Máy ảnh

Thiết bị Kinect

Thu nhận dữ liệu

Tiền xử lý, trích xuất đặc trưng
-

SVM
ANN
HMM
DTW

- Tín hiệu
- Ảnh
- Video

- Vec-tơ đặc trưng

Huấn luyện (học máy)

Nhận dạng

Kết quả (chữ cái, từ)
Hình 1.4: Sơ đồ nhận dạng ngôn ngữ ký hiệu
Để khái quát về các nghiên cứu đã thực hiện, có thể tóm tắt, phân loại nhận
dạng ngôn ngữ ký hiệu thành 2 nhóm chính dựa vào phương pháp thu nhận dữ liệu
và phân loại học máy để tổng hợp và đánh giá.

Phân loại theo phương pháp thu nhận dữ liệu
Bước đầu tiên của việc xử lý nhận dạng ngôn ngữ ký hiệu là thu nhận dữ liệu.

13


Dữ liệu thu nhận được phân tích bằng cách sử dụng các phương pháp khác nhau để
trích xuất đặc trưng và đưa vào các mô hình thống kê để nhận dạng. Đối với thu nhận
dữ liệu cũng có thể phân loại thành 2 nhóm riêng biệt: thu nhận từ cảm biến hay thu
nhận từ máy ảnh. Năm 2012, Microsoft phát triển Kinect, thiết bị này được tích hợp
máy ảnh màu, cảm biến chiều sâu, tọa độ khung xương đã làm giảm đi đáng kể các
bước tiền xử lý sau khi thu nhận dữ liệu đầu vào cho các hệ thống nhận dạng ngôn
ngữ ký hiệu [11, 41, 45, 93].
1.2.1.1 Điện cơ đồ (EMG- Electromyography)
Điện cơ đồ là một hệ thống tương tác trực tiếp giữa người và máy tính thông
qua các tín hiệu của cơ thể hay suy nghĩ đã trở thành một thành phần quan trọng trong
các nghiên cứu về phát hiện chuyển động của cơ thể con người. Hệ thống giúp cho
máy tính hiểu được các cử động của con người ví dụ như điều khiển rô bốt, trò chơi
ảo, điều khiển chi giả dành cho người khuyết tật. Máy tính sẽ thu nhận được các tín
hiệu điện sinh học nhờ các cảm biến gắn trực tiếp trên cơ thể và phân loại, sau khi
tổng hợp thông tin dữ liệu hệ thống thường sử dụng mô hình mạng nơ-ron nhân tạo
(ANN) để phân loại và nhận dạng. Việc sử dụng tín hiệu điện cơ đồ hiện vẫn còn
được tiếp tục nghiên cứu trong nhiều lĩnh vực như y tế, điều khiển bằng suy nghĩ.
Trong nhận dạng ngôn ngữ ký hiệu, Jung KK [26] đã giới thiệu một phương pháp
phân loại 6 cử chỉ tay ngôn ngữ ký hiệu Hàn Quốc dựa vào dữ liệu thu được từ cảm
biến cơ bắp gắn trên các cánh tay. Zhang [96] và cộng sự xây dựng bộ điều khiển trò
chơi và nhận dạng ký hiệu tay dựa trên cảm biến gia tốc 3D và cảm biến điện cơ sinh
học. Hệ thống này xây dựng một trò chơi Rubic 3D ảo trên máy tính được điều khiển
bởi các động tác trực tiếp từ tay con người. Có tổng cộng 18 động tác điều khiển cơ
bản và được huấn luyện mỗi động tác 10 lần, kết quả công bố nhận dạng chính xác
trung bình khoảng 91,7%. Các nghiên cứu này tập trung vào các chuyển động cơ bản
của tay người, sử dụng các cảm biến để đo được sự thay đổi xung nhịp do cơ bắp con
người tạo ra.


14


Kosmidou E [36] và cộng sự cũng phát triển hệ thống sử dụng năng lượng cơ
thể, thu nhận tín hiệu bằng cảm biến sinh học và dữ liệu thu được nhờ vào cảm biến
gia tốc gắn trên cánh tay nhằm nhận dạng ngôn ngữ ký hiệu Hy Lạp (Greek sign
language). Các cử chỉ động được thu nhận, xử lý nhận dạng chính xác nhờ các cảm
biến gia tốc. Nghiên cứu đã thử nghiệm với 60 từ, mỗi từ lặp lại 10 lần, do 3 người
thực hiện với tỉ lệ thành công đạt 93%. Hệ thống thử nghiệm có dây nối trực tiếp giữa
cảm biến và máy tính, tác giả mong muốn tiếp tực nghiên cứu và phát triển hệ thống
kết nối không dây và tích hợp nhận dạng trên các thiết bị cầm tay. Tiếp tục các nghiên
cứu trước, Yun Li [46] và cộng sự xây dựng hệ thống nhận dạng ngôn ngữ ký hiệu
Trung Quốc dựa trên các cảm biến gia tốc và điện cực sinh học gắn trên các cánh tay
của cơ thể con người. Hệ thống cảm biến bao gồm hai cảm biến gia tốc ba chiều (3DACC) và tám cảm biến điện sinh học phân bố đều trên hai cánh tay (Hình 1.5). Mỗi
cảm biến 3D đặt mặt sau cẳng tay gần với cổ tay để nắm bắt thông tin về hướng và
quỹ đạo chuyển động. Mỗi cảm biến điện sinh học có thu nhận tín hiệu tương tự và
được số hóa chuyển qua thiết bị máy tính để xử lý.

Hình 1.5: Cảm biến gia tốc và cảm biến điện sinh học trên cánh tay [46].
Sau trích xuất dữ liệu đặc trưng, hệ thống sử dụng thuật toán cây quyết định và
mô hình Markov ẩn (HMM) để nhận dạng ngôn ngữ ký hiệu Trung Quốc. Kết quả
thực nghiệm với độ phân loại chính xác 95,78% trên 121 ký hiệu. Tuy nhiên, hệ thống
15


×