Nhận dạng ngôn ngữ ký hiệu tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.49 MB, 112 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

VÕ ĐỨC HỒNG

NHẬN DẠNG NGƠN NGỮ KÝ HIỆU TIẾNG VIỆT

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Đà Nẵng - 2018

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

VÕ ĐỨC HỒNG

NHẬN DẠNG NGƠN NGỮ KÝ HIỆU TIẾNG VIỆT

Chun ngành : KHOA HỌC MÁY TÍNH
Mã số

: 62 48 01 01

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Người hướng dẫn khoa học:
1. GS.TS. Jean Meunier
2. TS. Huỳnh Hữu Hưng

Đà Nẵng - 2018

LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu do tôi thực hiện, dưới sự hướng
dẫn của GS. TS. Jean Meunier và TS. Huỳnh Hữu Hưng.
Tôi cam đoan các kết quả nghiên cứu được trình bày trong luận án là trung
thực và không sao chép từ bất kỳ luận án nào khác. Một số kết quả nghiên cứu là
thành quả tập thể và đã được các đồng tác giả đồng ý cho sử dụng. Mọi trích dẫn đều
có ghi nguồn gốc xuất xứ rõ ràng và đầy đủ.

Tác giả

NCS. VÕ ĐỨC HOÀNG

i

MỤC LỤC
LỜI CAM ĐOAN .......................................................................................................i
MỤC LỤC ..................................................................................................................ii
DANH MỤC TỪ VIẾT TẮT...................................................................................iv
DANH MỤC BẢNG BIỂU ....................................................................................... v
DANH MỤC HÌNH VẼ ...........................................................................................vi
MỞ ĐẦU .................................................................................................................... 1
1. Mục tiêu nghiên cứu ........................................................................................... 3
2. Đối tượng và phạm vi nghiên cứu ...................................................................... 3
3. Phương pháp nghiên cứu .................................................................................... 4
3. Cấu trúc của luận án............................................................................................ 4

4. Đóng góp chính của luận án ............................................................................... 6
TỔNG QUAN ................................................................................. 7
Tổng quan về ngôn ngữ ký hiệu ....................................................................... 7
Các nghiên cứu liên quan nhận dạng ngôn ngữ ký hiệu ................................ 11
Phân loại theo phương pháp thu nhận dữ liệu ....................................... 13
Phân loại theo kỹ thuật học máy ........................................................... 22
Kết chương 1 .................................................................................................. 35
NHẬN DẠNG CỬ CHỈ TĨNH .................................................... 37
Phương pháp mơ hình hình học ..................................................................... 37
Tiền xử lý............................................................................................... 38
Trích xuất đặc trưng .............................................................................. 45
Huấn luyện và nhận dạng ...................................................................... 46
Kết quả thực nghiệm ............................................................................. 47
Phương pháp xếp hạng ma trận tương quan (ROCM) ................................... 48
Thu nhận dữ liệu, phân đoạn bàn tay .................................................... 49
Tiền xử lý............................................................................................... 51
Trích xuất đặc trưng .............................................................................. 53
Nhận dạng ngôn ngữ ký hiệu tiếng Việt................................................ 56
Thực nghiệm .......................................................................................... 59
Phân đoạn tự động video trong nhận dạng cử chỉ tĩnh ................................... 62
Các khái niệm về phân đoạn video ........................................................ 62
Phân đoạn video và xác định khung hình chính .................................... 64
Giải pháp đề xuất phân đoạn tự động video .......................................... 67
Trích xuất đặc trưng .............................................................................. 69
Thực nghiệm và đánh giá ...................................................................... 70
ii

Kết chương 2 .................................................................................................. 71
NHẬN DẠNG CỬ CHỈ LIÊN TỤC ........................................... 73

Nhận dạng trên hệ tọa độ cầu ......................................................................... 73
Thu nhận dữ liệu và tiền xử lý............................................................... 75
Trích xuất đặc trưng .............................................................................. 77
Huấn luyện và nhận dạng ...................................................................... 79
Kết quả thực nghiệm ............................................................................. 82
Nhận dạng với phương pháp chia khối .......................................................... 83
Thu nhận dữ liệu và tiền xử lý............................................................... 84
Trích xuất đặc trưng độ sâu ................................................................... 85
Huấn luyện và nhận dạng ...................................................................... 87
Kết quả thực nghiệm ............................................................................. 87
Kết chương 3 .................................................................................................. 89
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................................. 91
DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ...................... 95
TÀI LIỆU THAM KHẢO ...................................................................................... 96

iii

DANH MỤC TỪ VIẾT TẮT
Từ viết tắt

Nghĩa chữ viết tắt

Dịch nghĩa tiếng Việt

ANN

Artificial Neural Network

Mạng nơ-ron nhân tạo

ASL

American Sign Language

Ngôn ngữ ký hiệu Mỹ

DTW

Dynamic Time Warping

So khớp thời gian động

GMM

Gaussian Mixture Model

Mơ hình hỗn hợp Gauss

HMM

Hidden Markov Model

Mơ hình Markov ẩn

KNN

K-Nearest Neighbor

K lân cận gần nhất

MLP

Multi Layer Perceptron

Mạng truyền thẳng nhiều lớp

PCA

Principal Component Analysis

Phân tích thành phần chính

Pixel

Picture of Element

Điểm ảnh

RGB

Red Green Blue

Hệ màu Đỏ-Lục-Lam

ROCM

Rank Order Correlation Matrix

Xếp hạng ma trận tương quan

SDK

Software Development Kit

Công cụ phát triển phần mềm

SLR

Sign Language Recognition

Nhận dạng ngôn ngữ ký hiệu

SVM

Support Vector Machine

Máy vec-tơ hỗ trợ

VSL

Vietnamese Sign Language

Ngôn ngữ ký hiệu tiếng Việt

iv

DANH MỤC BẢNG BIỂU
Bảng 1.1: Bảng tóm tắt các phương pháp thống kê, nhận dạng................................32

Bảng 2.1: So sánh với các nghiên cứu liên quan (cùng bộ dữ liệu) ..........................48
Bảng 2.2: Độ chính xác 5 mơ hình với 5 cách chia ma trận .....................................60
Bảng 2.3: Độ chính xác 10 cử chỉ số với 5 cách chia ma trận ..................................61
Bảng 2.4: Mô tả 12 giá trị vec-tơ đặc trưng ..............................................................69
Bảng 2.5: Thống kê tỉ lệ nhận dạng khi chọn khung hình liên tiếp (k) .....................70

v

DANH MỤC HÌNH VẼ
Hình 1.1: Bảng chữ cái, chữ số ngơn ngữ ký hiệu tiếng Việt. ....................................9
Hình 1.2: Biểu diễn từ “Hoa hồng” ...........................................................................11
Hình 1.3: Sơ đồ quy trình nhận dạng ảnh .................................................................12
Hình 1.4: Sơ đồ nhận dạng ngơn ngữ ký hiệu ...........................................................13
Hình 1.5: Cảm biến gia tốc và cảm biến điện sinh học trên cánh tay [27]. ..............15
Hình 1.6: Găng tay dữ liệu ........................................................................................16
Hình 1.7: Hệ thống CopyCat [34] .............................................................................17
Hình 1.8: Găng tay màu sắc và thiết lập đặc trưng [35] ...........................................18
Hình 1.9: Thu nhận hình ảnh để nhận dạng [40] ......................................................20
Hình 1.10: Hình ảnh bàn tay qua các bước xử lý ......................................................20
Hình 1.11: Ví dụ mơ hình Markov ẩn .......................................................................26
Hình 1.12: Chain code và đồ thị hành động sau khi chuyển đổi[60] ........................31
Hình 2.1: Sơ đồ nhận dạng theo mơ hình hình học ...................................................37
Hình 2.2: Phân đoạn ảnh và xác định điểm lồi, lõm .................................................41
Hình 2.3: Xác định đường viền của thuật tốn Theo, P. [71] ...................................42
Hình 2.4: Đánh nhãn xác định các điểm lồi ..............................................................43
Hình 2.5: Cách xác định đỉnh ngón tay .....................................................................44
Hình 2.6: Phát hiện và tách cổ tay.............................................................................44
Hình 2.7: Trích xuất đặc trưng bàn tay .....................................................................46
Hình 2.8: Một số hình ảnh cử chỉ trong tập dữ liệu đã sử dụng................................47

Hình 2.9: Sơ đồ khối nhận dạng cử chỉ đơn ..............................................................49
Hình 2.10: Khoảng cách thu nhận dữ liệu với Kinect...............................................51
Hình 2.11: Chuẩn hóa kích thước .............................................................................52
Hình 2.12: Bộ dữ liệu hình ảnh chiều sâu của NNKH tiếng Việt .............................53
vi

Hình 2.13: Xếp hạng giá trị trung bình ma trận 4x4. ................................................54
Hình 2.14: Chuyển đổi ma trận xếp hạng tương quan vào vec-tơ ............................55
Hình 2.15: Thuật tốn chuyển ma trận vào vec-tơ đặc trưng....................................55
Hình 2.16: Thuật tốn vec-tơ đặc trưng vào vec-tơ tương quan ...............................56
Hình 2.17: Biểu diễn trực quan của 2 loại vec-tơ .....................................................57
Hình 2.18: Minh họa thuật tốn phân 5 lớp ..............................................................58
Hình 2.19: Hình ảnh thử nghiệm với bảng chữ cái. ..................................................59
Hình 2.20: Hình ảnh thử nghiệm tương ứng 10 chữ số 0-9 ......................................60
Hình 2.21: Độ chính xác của các kỹ thuật phân loại khác nhau ...............................61
Hình 2.22: Cấu trúc phân cấp của của video.............................................................63
Hình 2.23: Mơ hình phân đoạn cứng ........................................................................64
Hình 2.24: Mơ tả phân đoạn khung hình chính.........................................................69
Hình 2.25: Mơ tả giá trị vec-tơ đặc trưng. ................................................................70
Hình 3.1: Sơ đồ hoạt động của hệ thống ...................................................................75
Hình 3.2: Các vị trí cần lấy để nhận dạng ngơn ngữ ký hiệu tiếng Việt ...................76
Hình 3.3: Chuyển đổi hệ quy chiếu máy quay sang đối tượng .................................77
Hình 3.4: Chia vùng chuẩn hóa dữ liệu góc kinh độ φ và góc nâng θ .....................78
Hình 3.5: Mẫu dữ liệu thu nhận ................................................................................79
Hình 3.6: So khớp với DTW .....................................................................................79
Hình 3.7: Đường đi tối ưu sử dụng DTW .................................................................81
Hình 3.8: Độ chính xác khi kiểm tra 10 từ. ...............................................................82
Hình 3.9: Sơ đồ thực hiện nhận dạng cử chỉ động ....................................................84
Hình 3.10: Xác định khung bao của đối tượng .........................................................85

Hình 3.11: Kết quả mảng Z và giá trị vec-tơ đưa vào thử nghiệm ...........................87
Hình 3.12: Kết quả sử dụng SVM, HMM tương ứng chia khối 4 và 16 ..................87
vii

Hình 3.13: Độ chính xác trung bình của các kỹ thuật chia khối 4,16 và 32 .............88
Hình 3.14: Hình ảnh dữ liệu thử nghiệm ..................................................................89

viii

MỞ ĐẦU
Theo thống kê của Bộ Lao động Thương binh và Xã hội, Việt Nam là một
trong những nước có số người khuyết tật khá cao ở khu vực châu Á - Thái Bình
Dương với khoảng 7,3 triệu người khuyết tật từ 5 tuổi trở lên và người bị khiếm thính
chiếm khoảng 15% số người khuyết tật1. Người khiếm thính là những người có khuyết
tật về khả năng nghe, nguyên nhân có thể do bẩm sinh hay bị tai nạn. Người khiếm
thính sử dụng ngơn ngữ ký hiệu là ngơn ngữ cử chỉ tay với dấu hiệu truyền trực quan
bằng tay và cảm xúc khuôn mặt để truyền đạt ý nghĩa từ thay vì sử dụng âm thanh.
Ngơn ngữ này được sử dụng trong cộng đồng người khiếm thính, tuy nhiên không
được phổ biến trong cộng đồng giao tiếp, do đó có một rào cản lớn giữa người khiếm
thính và người bình thường.
Hiện nay, người khuyết tật nhận được sự quan tâm mạnh mẽ của xã hội, họ
cần được đến trường để học tập, học nghề và hòa nhập làm việc cùng với cộng đồng.
Người khiếm thính khơng thể nói chuyện với nhau nên việc giao tiếp thông tin thường
được biểu diễn qua các hành động điệu bộ. Ngôn ngữ ký hiệu được phát triển một
cách tự nhiên theo tập quán, thói quen của từng vùng miền, từng quốc gia nên có
những khác biệt rất lớn. Các quốc gia đã chú trọng xây dựng hệ thống ngôn ngữ ký
hiệu của riêng mình nhằm tạo ra sự thống nhất chung. Tuy nhiên, ngôn ngữ ký hiệu
chưa được phổ biến, chủ yếu được giảng dạy và sử dụng trong cộng đồng người

khiếm thính. Để thuận tiện cho việc giao tiếp giữa người khiếm thính và người bình
thường cần nghiên cứu xây dựng hệ thống hỗ trợ dịch ngôn ngữ ký hiệu sang văn bản
viết, nói và ngược lại. Hiện nay, nhiều nghiên cứu liên quan đến nhận dạng ngôn ngữ

1

Theo số liệu năm 2015 của Bộ Lao động, Thương binh & Xã hội

1

ký hiệu tại Việt Nam và trên thế giới đã được nhiều nhà khoa học đề xuất thử nghiệm.
Các nghiên cứu cần tập trung vào thiết kế và triển khai ứng dụng cho một hệ thống
nhận dạng ngôn ngữ ký hiệu - SLR (Sign Language Recognition). Các giải pháp kỹ
thuật đề xuất để thu nhận dữ liệu trong hệ thống SLR được sử dụng như găng tay cảm
biến [24, 32, 40, 65, 67], máy ảnh (thị giác máy tính) [22, 55, 60] hay thiết bị Kinect
[20, 41, 45, 66, 69, 70, 93]. Sau khi thu nhận dữ liệu, quá trình tiền xử lý và trích xuất
đặc trưng sẽ tạo ra các thông tin cơ bản để sử dụng các phương pháp phân loại học
máy khác nhau như: mạng nơ-ron nhân tạo - ANN [26, 34], mơ hình Markov ẩn –
HMM [3, 14, 49, 90], mơ hình học máy vec-tơ hỗ trợ - SVM [52, 90] hay so khớp
thời gian động - DTW [48, 86]. Các công bố nghiên cứu về nhận dạng ngơn ngữ ký
hiệu có kết quả thành cơng cao tuy nhiên để có thể ứng dụng hệ thống nhận dạng
ngôn ngữ ký hiệu vào thực tế cần giải quyết những khó khăn về kỹ thuật như sau:
- Khi sử dụng găng tay cảm biến hay các cảm biến gắn trên cơ thể để thu nhận
dữ liệu thì người thực hiện cần phải mang các thiết bị điện tử kết nối với
máy tính, điều này gây bất tiện khi thực hiện [8, 30, 32, 46, 96].
- Khi sử dụng máy ảnh để thu nhận dữ liệu thì hình nền, điều kiện ánh sáng,
sự che lấp hình ảnh bàn tay ảnh hưởng rất lớn đến chất lượng thu nhận hình
ảnh và cần phải tách đối tượng nhận dạng ra khỏi ảnh nền [25, 97].
- Thời gian xử lý chậm và trích xuất các đặc trưng chưa thể hiện rõ sự khác

biệt giữa các đối tượng để đưa vào nghiên cứu nhận dạng [60].
- Các nghiên cứu về nhận dạng ngôn ngữ ký hiệu tiếng Việt còn hạn chế và
mới chỉ tập trung vào các cơ sở dữ liệu sẵn có, chưa tập trung vào bộ từ vựng
của ngôn ngữ ký hiệu tiếng Việt. Mặc dù ngôn ngữ ký hiệu tiếng Việt có
những nét tương đồng với các ngơn ngữ ký hiệu khác trên thế giới tuy nhiên
có những đặc trưng riêng về sử dụng dấu, từ ghép, cách thể hiện.
Xuất phát từ bối cảnh trên, tôi chọn đề tài “Nhận dạng ngôn ngữ ký hiệu
tiếng Việt” làm nội dung của luận án Tiến sỹ kỹ thuật với mong muốn được góp phần
vào lĩnh vực nghiên cứu về kỹ thuật nhận dạng ngôn ngữ ký hiệu tiếng Việt, hướng
2

đến mục tiêu áp dụng trong thực tế để giúp người khiếm thính hịa nhập cộng đồng.

1. Mục tiêu nghiên cứu
Luận án nghiên cứu nhằm giải quyết nhận dạng ngôn ngữ ký hiệu tiếng Việt
(VSL – Vietnamese Sign Language), khắc phục các khó khăn về kỹ thuật thu nhận
dữ liệu, tiền xử lý và trích xuất đặc trưng hỗ trợ người khiếm thính giao tiếp hịa nhập
cộng đồng. Cụ thể là luận án nhằm hướng đến các mục tiêu như sau:
- Các phương pháp trích xuất đặc trưng của ngơn ngữ ký hiệu.
- Xây dựng phương pháp tiền xử lý, trích xuất đặc trưng giảm sự phụ thuộc
vào hình ảnh nền và môi trường thực hiện để nâng cao tỉ lệ nhận dạng so với
các nghiên cứu trước.
- Áp dụng các mơ hình h��n của bàn tay,
cánh tay và đầu được quan tâm trong việc tiền xử lý, trích xuất đặc trưng. Trong phần
này nghiên cứu tập trung vào sự di chuyển bàn tay của đối tượng thực hiện và hình
ảnh thu nhận được từ một cử chỉ phụ thuộc vào thời gian thực hiện. Vị trí người thực
hiện khơng cố định nên hình ảnh thu nhận của đối tượng có thể có kích thước khác
nhau, do đó trong bước đầu tiên của tiền xử lý sẽ xác định khung bao quanh đối tượng,
sau khi sử dụng lọc ngưỡng Otsu [63] sẽ trích xuất được khung hình ảnh chỉ chứa đối

tượng (Hình 3.10).

Hình 3.10: Xác định khung bao của đối tượng
Sau khi có khung và tách được hình ảnh đối tượng, sử dụng bộ lọc ngưỡng để
chuyển đổi các điểm ảnh bên trong khung, không thuộc đối tượng thành giá trị điểm
ảnh (pixel) là 255 (màu trắng). Sử dụng bộ lọc trung vị giá trị 5 x 5 để loại bỏ điểm
ảnh nhiễm, việc sử dụng bộ lọc có thể làm thay đổi 1 số giá trị điểm ảnh ban đầu
nhưng sẽ tạo ra ngưỡng điểm ảnh có giá trị tốt hơn.

Trích xuất đặc trưng độ sâu
Trích xuất đặc trưng là một bước quan trọng có ảnh hưởng lớn đến kết quả
phân loại và nhận dạng. Gọi d là số lượng các khung hình, h là chiều cao, w là chiều
85

rộng của khung giới hạn tối thiểu. Kết hợp các giá trị ta được mảng A với kích cỡ
h*w*d phần tử (mảng 3 chiều). Mục tiêu của bước tiếp là chỉnh sửa kích cỡ ma trận
này thành ma trận có giá trị n*n*n phần tử mà không làm thay đổi tính chất của ma
trận.
Đầu tiên, mảng A được cố định theo thời gian chiều d và thay đổi kích khơng
gian 2 chiều h*w thành n*n. Kết quả mảng B sau khi thay đổi có kích thước n*n*d.
A(h,w, d) → B(n,n,d)

(3.13)

Bước tiếp theo mảng B sau khi xử lý, từ cột 1 đến cột n ta xem như như một
ma trận 2 chiều n*d phần tử, ta tiến hành chuyển đổi thành ma trận n*n phần tử. Kết
quả thu được là mảng C có n*n*n phần tử (3 chiều).

B(n,n,d) → C(n,n,n)

(3.14)

Trong nghiên cứu này để thay đổi kích thước ma trận sử dụng phép biến đổi
Bicubic [29] vì phương pháp này cho kết quả thay đổi tốt nhất và được sử dụng nhiều
trong xử lý ảnh, máy ảnh số và máy in. Trong kỹ thuật này giá trị điểm ảnh mới được
tính dựa trên giá trị trung bình của 16 điểm ảnh lân cận gần nhất tương tương giá trị
trung bình của ma trận 4 x 4.
Trước hết, các phần tử trong mảng được điều chỉnh dựa trên giá trị trung bình
trong mảng. Gọi m là trị trung bình của tất cả phần tử trong mảng C, giá trị mới của
từng phần tử trong mảng được xác định bằng cách đem từng phần tử trừ đi m. Việc
tổng các phần tử trong mảng mới bằng 0 giúp giảm đi tác động của độ lệch về khoảng
cách giữa đối tượng biểu diễn cử chỉ với Kinect trong các chuỗi cử chỉ khác nhau.
Tiếp theo, mảng C được chia thành các khối, mỗi khung hình có thể là 4, 16 hoặc 32
khối để thử nghiệm. Cuối cùng, mỗi khối được biểu diễn bởi một giá trị duy nhất
tương ứng với trung bình các phần tử thuộc khối. Kết quả thu được là mảng Z có kích
thước Z^3, nhỏ hơn đáng kể so với C. Hình 3.11 mơ tả mảng 3 chiều Z thu được sau
khi chia mảng 3 chiều C thành 4^3= 64 khối.

86

Huấn luyện và nhận dạng
Với vec-tơ đặc trưng Z nhận được, nghiên cứu tiếp tục chuyển đổi dữ liệu để
phù hợp với các mơ hình học máy khác nhau, sau đó tiến hành nhận dạng và so sánh
kết quả. Bộ dữ liệu sử dụng trong thực nghiệm được xây dựng từ 5 người với khoảng
cách trung bình giữa đối tượng và Kinect là 2,5m. Mỗi người thực hiện 30 cử chỉ đã
được định nghĩa trước và thực hiện 20 lần đối với mỗi ký hiệu, tương ứng với 600
chuỗi ảnh cho mỗi ký tự. Mỗi ảnh chiều sâu được tạo ra ở 30 khung hình/giây với độ
phân giải 512 x 424 pixel.

Hình 3.11: Kết quả mảng Z và giá trị vec-tơ đưa vào thử nghiệm

Kết quả thực nghiệm

Hình 3.12: Kết quả sử dụng SVM, HMM tương ứng chia khối 4 và 16
87

Hình 3.12 biểu diễn kết quả tỉ lệ nhận dạng thành công của 30 từ trong tập cơ
sở dữ liệu đã thu nhận. Tương ứng với mỗi phương pháp chia khối dữ liệu (4 hoặc
16) nghiên cứu tiến hành thử nghiệm huấn luyện và nhận dạng trên 2 phương pháp
học máy khác nhau (SVM và HMM). Qua thực nghiệm đối với phương pháp chia
khối dữ liệu thành 4 và sử dụng phương pháp học máy SVN cho ra kết quả nhận dạng
tương đói đồng đều và đạt giá trị trung bình cao nhất. Trong tổng số 3000 cử chỉ được
ghi lại bởi 5 người, tập huấn luyện bao gồm 1800 mẫu tương ứng với 3 đối tượng và
phần còn lại được sử dụng cho giai đoạn thử nghiệm. Với mỗi cách phân chia khối
và trích xuất đặc trưng nghiên cứu sử dụng 2 phương pháp phân loại HMM và SVM
để huấn luyện và nhận dạng.
100%

95%

90%

83%

80%

80%

67%

70%
60%
50%

48%

45%

40%
30%
20%
10%
0%
Grid 4

Grid 16
HMM

Grid 32

SVM

Hình 3.13: Độ chính xác trung bình của các kỹ thuật chia khối 4,16 và 32
Hình 3.12 và 3.13 cho thấy sự chính xác với các thí nghiệm khác nhau, sử
dụng phương pháp tiếp cận HMM và SVM. Rõ ràng là phương pháp SVM với kích
thước lưới 3D 4*4*4 cho kết quả cao nhất (95%) so với các phương pháp khác.

88

Hình 3.14: Hình ảnh dữ liệu thử nghiệm

Kết chương 3
Chương 3 đã trình bày chi tiết về các nghiên cứu về thu nhận dữ liệu, trích
xuất đặc trưng và nhận dạng cử chỉ liên tục của ngôn ngữ ký hiệu tiếng Việt. Các
phân tích và nhận xét sau mỗi phương pháp nghiên cứu cho thấy các hệ thống đã đáp
89

ứng được mục tiêu với từng nghiên cứu. Cụ thể là:
− Hệ thống nhận dạng dựa trên dữ liệu khớp xương thu nhận từ thiết bị Kinect
đã giải quyết được các nhược điểm của găng tay, thị giác máy tính. Q trình
tiền xử lý đơn giản nhưng nhược điểm chính là chỉ dữ liệu xử lý nhỏ. Khi xử
lý theo thời gian thực thường chậm và và xảy ra tràn bộ nhớ khi triển khai thực
tế với dữ liệu lớn.

− Hệ thống nhận dạng từ cảm biến độ sâu, trích xuất đặc trưng dựa trên phân
khối dữ liệu đã khắc phục được các nhược điểm do ảnh hưởng môi trường.
Quá trình trích xuất đặc trưng được mơ hình hóa thành ma trận 3 chiều kết hợp
phương pháp phân chia khối dữ liệu (block) đã giảm đi đáng kể chi phí cho
quá trình tiền xử lý. Thay đổi cách tiếp cận nghiên cứu phụ thuộc vào thời
gian. Nghiên cứu được thử nhiệm với dữ liệu thu nhận gồm 30 từ với nhiều
cách phân chia khối khác nhau (4, 16, 32), thử nghiệm với nhiều mơ hình và
đã cho ra được kết quả khá tốt theo thời gian thực đạt 95%. Nghiên cứu sẽ
được tiếp tục để cải tiến và hoàn thiện để áp dụng trong thực tế tại các nơi công
cộng như nhà ga, sân bay, bệnh viện.

90

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
1. Các kết quả của luận án
Luận án đã hoàn thành được các mục tiêu đã đề ra về nhận dạng ngôn ngữ ký
hiệu tiếng Việt. Nghiên cứu hướng đến hai đối tượng xử lý là nhận dạng cử chỉ tĩnh
và liên tục của ngôn ngữ ký hiệu tiếng Việt. Việc ứng dụng các nghiên cứu cũng đã
được áp dụng triển khai trong thực tế mang lại hiệu quả hỗ trợ cho người khuyết tật.
Các cơng việc chính sau đây đã được thực hiện trong luận án:
− Nghiên cứu tổng quan về hệ thống nhận dạng ngơn ngữ ký hiệu, phân tích,
đánh giá thành tựu, hạn chế, phạm vi ứng dụng của kỹ thuật nhận dạng và học
máy. Sắp xếp, phân loại, đánh giá các cơng trình nghiên cứu gần đây về trích
đặc trưng và nhận dạng.
− Áp dụng phương pháp trích xuất đặc trưng hình ảnh theo mơ hình hình học để
nhận dạng cử chỉ tĩnh và cử chỉ động của ngôn ngữ ký hiệu. Thử nghiệm với
bộ dữ liệu có sẵn, áp dụng các mơ hình học máy để thử nghiệm và so sánh để
chọn phương pháp tối ưu. Tuy kết quả nhận dạng thành công chưa cao nhưng
là cơ sở để phát triển các nghiên cứu về nhận dạng ngôn ngữ ký hiệu tiếng Việt
(Cơng trình 1, 4, 5)
− Đề xuất mới phương pháp trích xuất đặc trưng dựa vào dữ liệu hình ảnh thu
nhận từ cảm biến độ sâu của thiết bị Kinect. Sử dụng phương pháp xếp hạng
ma trận tương quan (ROCM) cho nghiên cứu nhận dạng cử chỉ tĩnh (Cơng
trình 2).
− Nghiên cứu thành cơng phương pháp phân đoạn video theo thời gian thực
nhằm trích chọn khung hình chính, loại bỏ các khung hình dư thừa áp dụng
nhận dạng các cử chỉ tĩnh của ngôn ngữ ký hiệu theo thời gian thực (Cơng
trình 3).
− Đề xuất thử nghiệm nghiên cứu cử chỉ liên tục của ngôn ngữ ký hiệu tiếng Việt
dựa trên thông tin từ khớp xương và mô hình nhận dạng DTW kết hợp kNN
91

(Cơng trình 6)
− Nghiên cứu về nhận dạng cử chỉ liên tục của ngôn ngữ ký hiệu dựa trên phương
pháp chia khối theo thời gian thành không gian ba chiều (3D). Áp dụng triển
khai trong thời gian thực, loại bỏ sự phụ thuộc về việc thực hiện cử chỉ liên tục
theo thời gian (Cơng trình 7).
− Sử dụng thuật tốn SVM truyền thống, kết hợp với mơ hình MAX_WIN ứng
dụng vào hệ thống nhận ngôn ngữ ký hiệu tĩnh và liên tục.
− Xây dựng được hai bộ dữ liệu về cử chỉ tĩnh (hình ảnh) và cử chỉ liên tục
(video) của ngôn ngữ ký hiệu tiếng Việt để thử nghiệm và đánh giá các phương
pháp nghiên cứu được đề xuất.
− Thiết kế và triển khai hệ thống nhận dạng ngôn ngữ ký hiệu để áp dụng thực
tế tại các nơi công cộng như nhà ga, sân bay, bệnh viện, trường học.
2. Đánh giá kết quả
So với mục tiêu đặt ra ban đầu, có thể đánh giá các kết quả đạt được như sau:
− Phần nghiên cứu tổng quan đã nêu lên đầy đủ các yêu cầu toàn diện về lĩnh
vực nghiên cứu nhận dạng ngôn ngữ ký hiệu và các vấn đề liên quan, dựa vào
đó có thể phân tích các ưu, nhược điểm nhằm định hướng các nghiên cứu trong
luận án.
− Phần nhận dạng ngôn ngữ ký hiệu tĩnh đã đưa ra hai phương pháp nghiên cứu
để đánh giá hiệu quả. Đối với nghiên cứu nhận dạng ký hiệu tĩnh dùng phương
pháp mơ hình hình học, áp dụng quy trình chuẩn về xử lý ảnh, cải tiến phương
pháp trích xuất đặc trưng và phương pháp huấn luyện nhận dạng. Tuy kết quả
nhận dạng chưa cao (89.5%) nhưng nghiên cứu đã mang lại những kinh
nghiệm cơ bản về xử lý ảnh, nhận dạng ngôn ngữ ký hiệu dựa trên máy ảnh
màu. Trong nghiên cứu tiếp theo, hệ thống thu nhận dữ liệu từ cảm biến độ sâu
của Kinect, áp dụng phương pháp trích xuất đặc trưng xếp hạng ma trận tương
quan (ROCM) và mơ hình huấn luyện SVM kết hợp MAX-WIN để phân loại
và nhận dạng. Nghiên cứu đã khắc phục được các hạn chế trước đó như: thu

92

nhận dữ liệu bị ảnh hưởng của ánh sáng, hình nền, sự che lấp bàn tay, ngón
tay khi thực hiện, q trình trích xuất đặc trưng chưa có tính phân loại cao,
tổng hợp nhiều thông số nên dẫn đến kết quả nhận dạng thấp. Đặc biệt trong
nghiên cứu này đã nhận dạng thành công ngôn ngữ ký hiệu tiếng Việt có sự
kết hợp của hai bàn tay. Kết quả nghiên cứu được thử nghiệm trên bộ dữ liệu
hình ảnh ngơn ngữ ký hiệu tiếng Việt với nhiều mơ hình khác nhau và tỉ lệ
nhận dạng đạt thấp nhất 94.22% cao nhất lên đến 99%.
−

Luận án đã thành công khi nghiên cứu tự động phân đoạn video, trích xuất
khung hình chính dựa trên thời gian thực, giúp hệ thống có thể triển khai trong
thực tế, đáp ứng nhu cầu của người thực hiện nhận dạng các cử chỉ tĩnh của
ngôn ngữ ký hiệu tiếng Việt theo thời gian thực.

− Việc nhận dạng cử chỉ liên tục của ngôn ngữ ký hiệu tiếng Việt đã được thử
nghiệm và nghiên cứu trên nhiều mơ hình khác nhau. Trong các nghiên cứu 4
và 5 dữ liệu thu nhận dựa trên máy ảnh màu được gắn trực tiếp vào máy tính,
sử dụng mơ hình hình học để trích xuất đặc trưng và áp dụng mơ hình HMM,
DTW để phát hiện các trạng thái chuyển đổi. Nghiên cứu đã kế thừa và phát
triển từ các mô hình xử lý ảnh trước đó tuy nhiên kết quả nhận dạng không
cao. Trong nghiên cứu 6, dữ liệu tọa độ khung xương của thiết bị Kinect được
sử dụng. Nghiên cứu này đã thay đổi hoàn toàn cách tiếp cận về nhận dạng cử
chỉ liên tục của ngôn ngữ ký hiệu. Nghiên cứu 7, tác giả sử dụng phương pháp
trích xuất đặc trưng bằng cách mơ hình hóa dữ liệu thời gian thành khơng gian
ba chiều, áp dụng mơ hình học máy SVM đã thu được những kết quả rất khả
quan. Nghiên cứu đã được thử nghiệm với bộ dữ liệu 30 từ của ngôn ngữ ký
hiệu tiếng Việt và so sánh với nhiều cách phân chia khối dữ liệu khác nhau và

mơ hình học máy khác nhau kết quả cao nhất đạt đến 95%.
− Cơ sở dữ liệu sử dụng trong luận án được xây dựng cho mỗi phương pháp tiếp
cận khác nhau. Được thực hiện trên nhiều đối tượng khác nhau, dữ liệu có sự
đa dạng về cách thu nhận như từ máy ảnh màu, cảm biến độ sâu, tọa độ khung
93

xương thu nhận từ thiết bị Kinect.
3. Hướng phát triển
Ngoài các kết quả đã đạt được, một số vấn đề nảy sinh từ luận án cần được
tiếp tục nghiên cứu hoàn thiện trong tương lai bao gồm:
− Hạn chế về việc xây dựng bộ dữ liệu mẫu nên việc nghiên cứu triển khai trên
thực tế sẽ gặp nhiều khó khăn.
− Vấn đề nhận dạng cử chỉ liên tục mới chỉ dừng ở mức độ từng từ, cụm từ việc
nhận dạng thành câu có ý nghĩa phụ thuộc rất nhiều vào ngữ pháp và ngữ cảnh.
Đặc biệt về cú pháp câu của ngơn ngữ ký hiệu vẫn chưa có sự thống nhất và
phụ thuộc vào yếu tố cảm nhận cử từng người, từng vùng miền. Việc nghiên
cứu kết hợp biễu diễn ngôn ngữ ký hiệu với ngữ cảnh là một hướng nghiên
cứu mở và có nhiều triển vọng.
− Vấn đề cơ sở dữ liệu là một phần quan trọng trong hướng nghiên cứu tiếp theo
của luận án. Cần hợp tác với các giáo viên, người nghiên cứu về ngôn ngữ ký
hiệu và đặc biệt là người khiếm thính. Tất cả các mẫu dữ liệu thử nghiệm
không được nhận dạng đúng đều được lưu trữ và bổ sung vào tập dữ liệu huấn
luyện để huấn luyện lại hệ thống. Quy trình gồm các bước “thu thập dữ liệu kiểm tra - huấn luyện lại - cập nhật hệ thống” phải được diễn ra thường xuyên
và liên tục.
Tóm lại, nghiên cứu nhận dạng ngôn ngữ ký hiệu được thực hiện không nhằm
tạo ra hệ thống thay thế hoàn toàn sự học hỏi, giao tiếp của người khiếm thính và
người bình thường mà là nhằm cung cấp một công cụ hỗ trợ giao tiếp cơ bản. Trong
tương lai hệ thống sẽ được tiếp tục nghiên cứu thêm về các biểu hiện khn mặt, khẩu
hình miệng và xây dựng phương pháp xác định ý nghĩa câu trong từng ngữ cảnh.

94

DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ
1. Nguyen Trong-Nguyen, Duc-Hoang Vo, Huu-Hung Huynh, and Jean Meunier.
"Geometry-based static hand gesture recognition using support vector machine."
In Control Automation Robotics & Vision (ICARCV), 2014 13th International
Conference on, pp. 769-774. IEEE, 2014.
2. Duc-Hoang Vo, Trong-Nguyen Nguyen, Huu-Hung Huynh, and Jean Meunier.
"Recognizing vietnamese sign language based on rank matrix and alphabetic rules."
In Advanced Technologies for Communications (ATC), 2015 International Conference
on, pp. 279-284. IEEE, 2015.
3. Duc-Hoang Vo, Huu-Hung Huynh, Thanh-Nghia Nguyen, and Jean Meunier.
"Automatic hand gesture segmentation for recognition of Vietnamese sign language."
In Proceedings of the Seventh Symposium on Information and Communication
Technology, pp. 368-373. ACM, 2016.
4. Duc-Hoang Vo, Huu-Hung Huynh, and Trong-Nguyen Nguyen. "Modeling dynamic
hand gesture based on geometric features." In Advanced Technologies for
Communications (ATC), 2014 International Conference on, pp. 471-476. IEEE, 2014.
5. Vo, Duc-Hoang, Huu-Hung Huynh, and J. Meaunier. "Geometry-based dynamic hand
gesture recognition." Issue on Information and Communications Technology, Vol 1
(2015): pp13-19.
6. VÕ ĐỨC HOÀNG, Huỳnh Hữu Hưng, Nguyễn Hồng Sang, Jean Meunier, “Nhận dạng
ngôn ngữ ký hiệu tiếng Việt với cử chỉ động dựa trên hệ tọa độ cầu.” Hội thảo quốc gia
về điện tử, truyền thông và công nghệ thông tin. Số: 1. Trang: 222-226, 2015.

7. Duc-Hoang Vo, Huu-Hung Huynh, Phuoc-Mien Doan and Jean Meunier, “Dynamic
Gesture Classification for Vietnamese Sign Language Recognition” International
Journal of Advanced Computer Science and Applications(IJACSA), 8.3 (2017), pp. 415420.

95

TÀI LIỆU THAM KHẢO
1.

2.

3.

4.
5.
6.

7.
8.
9.
10.

11.
12.

13.
14.

15.

Admasu, Y.F. and K. Raimond. Ethiopian sign language recognition using
Artificial Neural Network. in Intelligent Systems Design and Applications

(ISDA), 2010 10th International Conference on. 2010. IEEE.
Assaleh, K. and M. Al-Rousan, Recognition of Arabic sign language alphabet
using polynomial classifiers. EURASIP Journal on Applied Signal Processing,
2005. 2005: p. 2136-2145.
Bao, P.T., N.T. Binh, and T.D. Khoa. A new approach to hand tracking and
gesture recognition by a new feature type and HMM. in Fuzzy Systems and
Knowledge Discovery, 2009. FSKD'09. Sixth International Conference on.
2009. IEEE.
Bellman, R. and R. Kalaba, On adaptive control processes. Automatic
Control, IRE Transactions on, 1959. 4(2): p. 1-9.
Bowden, R., et al., A linguistic feature vector for the visual interpretation of
sign language, in Computer Vision-ECCV 2004. 2004, Springer. p. 390-401.
Brashear, H., et al. American sign language recognition in game development
for deaf children. in Proceedings of the 8th international ACM SIGACCESS
conference on Computers and accessibility. 2006. ACM.
Brashear, H., et al., Using multiple sensors for mobile sign language
recognition. 2003.
Bui, T. and L.T. Nguyen, Recognizing postures in Vietnamese sign language
with MEMS accelerometers. Sensors Journal, IEEE, 2007. 7(5): p. 707-712.
Burges, C.J., A tutorial on support vector machines for pattern recognition.
Data mining and knowledge discovery, 1998. 2(2): p. 121-167.
Capilla, D.M., Sign Language Translator using Microsoft Kinect XBOX 360
TM. Department of Electrical Engineering and Computer Science, University
of Tennessee, 2012.
Chai, X., et al. Sign Language Recognition and Translation with Kinect. in
IEEE Conf. on AFGR. 2013.
Dong, C., M. Leu, and Z. Yin. American Sign Language Alphabet Recognition
Using Microsoft Kinect. in Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition Workshops. 2015.
Elgammal, A., C. Muang, and D. Hu, Skin detection-a short tutorial.

Encyclopedia of Biometrics, 2009: p. 1-10.
Elmezain, M., et al. A hidden markov model-based continuous gesture
recognition system for hand motion trajectory. in Pattern Recognition, 2008.
ICPR 2008. 19th International Conference on. 2008. IEEE.
Fleck, M.M., D.A. Forsyth, and C. Bregler. Finding naked people. in
European Conference on Computer Vision. 1996. Springer.
96

16.

17.
18.

19.

20.

21.

22.

23.

24.
25.

26.
27.

28.
29.

30.

Fukumizu, K., G.R. Lanckriet, and B.K. Sriperumbudur. Learning in Hilbert
vs. Banach spaces: A measure embedding viewpoint. in Advances in Neural
Information Processing Systems. 2011.
Gao, W., et al., A Chinese sign language recognition system based on
SOFM/SRN/HMM. Pattern Recognition, 2004. 37(12): p. 2389-2402.
Grobel, K. and M. Assan. Isolated sign language recognition using hidden
Markov models. in Systems, Man, and Cybernetics, 1997. Computational
Cybernetics and Simulation., IEEE International Conference on. 1997. IEEE.
Grzejszczak, T., M. Kawulok, and A. Galuszka, Hand landmarks detection
and localization in color images. Multimedia Tools and Applications, 2016.
75(23): p. 16363-16387.
Hachaj, T., M.R. Ogiela, and M. Piekarczyk. Dependence of Kinect sensors
number and position on gestures recognition with Gesture Description
Language semantic classifier. in Computer Science and Information Systems
(FedCSIS), 2013 Federated Conference on. 2013. IEEE.
Hai, P.T., et al. Automatic feature extraction for Vietnamese sign language
recognition using support vector machine. in 2018 2nd International
Conference on Recent Advances in Signal Processing, Telecommunications &
Computing (SigTelCom). 2018. IEEE.
Hasan, M.M. and P.K. Mishra, HSV brightness factor matching for gesture
recognition system. International Journal of Image Processing (IJIP), 2010.
4(5): p. 456.
Hasan, M.M. and P.K. Misra, Brightness factor matching for gesture
recognition system using scaled normalization. International Journal of
Computer Science & Information Technology, 2011. 3(2).

Hewitt, S., et al., The Efficacy of Anti-vibration Gloves. Acoustics Australia,
2016. 44(1): p. 121-127.
Hu, J.-S. and T.-M. Su, Robust background subtraction with shadow and
highlight removal for indoor surveillance. EURASIP Journal on Applied
Signal Processing, 2007. 2007(1): p. 108-108.
Jung, K.K., et al. EMG pattern classification using spectral estimation and
neural network. in SICE, 2007 Annual Conference. 2007. IEEE.
Karami, A., B. Zanj, and A.K. Sarkaleh, Persian sign language (PSL)
recognition using wavelet transform and neural networks. Expert Systems
with Applications, 2011. 38(3): p. 2661-2667.
Kawulok, M., et al., Self-adaptive algorithm for segmenting skin regions.
EURASIP Journal on Advances in Signal Processing, 2014. 2014(1): p. 170.
Keys, R., Cubic convolution interpolation for digital image processing. IEEE
transactions on acoustics, speech, and signal processing, 1981. 29(6): p. 11531160.
Khan, Y.N. and S.A. Mehdi, Sign Language Recognition using Sensor Gloves.
97

Nhận dạng ngôn ngữ ký hiệu tiếng Việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về