Tải bản đầy đủ (.pdf) (5 trang)

Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử chỉ động dựa trên hệ tọa độ cầu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (645.86 KB, 5 trang )

Thảo
Quốc
Gia
2015vềvềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThông
Thông và
TinTin
(ECIT
2015)
HộiHội
Thảo
Quốc
Gia
2015
và Công
CôngNghệ
NghệThông
Thông
(ECIT
2015)

Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử chỉ
động dựa trên hệ tọa độ cầu
Võ Đức Hoàng, Huỳnh Hữu Hưng, Nguyễn Hồng Sang
Trung tâm DATIC, Trường Đại học Bách Khoa, Đại học Đà Nẵng.
Email: {hoangvd.it, hhhung}@dut.udn.vn,
Abstract—Ngôn ngữ ký hiệu là phương tiện giao tiếp được sử
dụng phổ biến trong cộng đồng người khiếm thính. Ngơn ngữ ký
hiệu có những đặc trưng riêng với các quốc gia khác nhau, được


biểu diễn thông qua các cử chỉ và hình dạng bàn tay, khuỷu tay,
hay khn mặt. Trong bài báo này, chúng tôi đề xuất phương
pháp nhận dạng ngôn ngữ ký hiệu tiếng Việt cử chỉ động với dữ
liệu được thu từ camera Kinect phiên bản 2. Việc xác định mức
độ tương đồng giữa hai cử chỉ được thực hiện bởi thuật toán
Dynamic Time Warping (DTW) và kết quả phân lớp được đưa ra
bởi Nearest Neighbor (NN). Việc thực nghiệm trên 10 từ tiếng
Việt mang lại hiệu quả nhận dạng trung bình lên đến 92%, đồng
thời hệ thống có thể xử lý theo thời gian thực nhằm phù hợp với
ứng dụng thực tế.

Sự ra đời của camera Kinect là một bước ngoặc lớn trong
xử lý ngôn ngữ cử chỉ.

Hình 1. Camera đa năng Kinect

Năm 2010, Microsoft cho ra mắt phiên bản camera Kinect
XBOX (hình 1) với nhiều tính năng thú vị như: camera hồng
ngoại, camera chiều sâu, camera màu, nhận dạng giọng nói,…
Đặc biệt, ta có thể sử dụng những cảm biến của camera thông
qua các API được hỗ trợ trong bộ SDK dành cho Kinect
XBOX. Với những ưu điểm vượt trội trong tiền xử lý dữ liệu,
nhiều bài báo khoa học sử dụng Kinect XBOX như một thiết bị
thu nhận dữ liệu trong xử lý ngôn ngữ ký hiệu.
Zahoor Zafrulla và các cộng sự [9] có thể coi là người cho
đặt nền móng cho nhận dạng ngơn ngữ ký hiệu sử dụng Kinect.
Nhóm tác giả nhận thấy trị chơi giáo dục cho trẻ em khiếm
thính CopyCat rất có tiềm năng và có thể cải thiện hiệu quả
nhận dạng đáng kể bằng cách sử dụng Kinect. Hệ thống mới
giúp người dùng thỏa mái hơn khi không phải mang găng tay

màu, cảm biến gia tốc và phải có dây nối trực tiếp với máy
tính. Đặc biệt sử dụng Kinect giá thành rẻ hơn so với việc sử
dụng máy ảnh có độ phân giải cao.
Tháng 6/2012 Capilla, D.M. [10] cơng bố dự án bao gồm
một hệ thống tự động dịch ngơn ngữ ký hiệu kết nối với máy
tính nhằm tạo ra sự giao tiếp thuận tiện giữa người khiếm thính
và người bình thường khơng hiểu ngơn ngữ ký hiệu. Hệ thống
sử dụng Kinect XBOX 360TM do Microsoft phát triển để theo
dõi cử chỉ của người khiếm thính (hình 2).

Keywords- Vietnamese sign language, Kinect, Dynamic Time
Warping, Nearest Neighbor, so khớp mẫu, khung xương.

I.

GIỚI THIỆU

Ngày nay hệ thống thị giác máy tính được áp dụng nhiều
trong các lĩnh vực như: giám sát, điều khiển công nghiệp, giao
tiếp người và máy, truyền thông, điều khiển rơ bốt... Có hai xu
hướng nghiên cứu chính về nhận dạng ngôn ngữ ký hiệu tùy
thuộc vào loại cử chỉ tĩnh hay động. Các nghiên cứu về nhận
dạng ngôn ngữ ký hiệu tiếng Việt (Vietnamese Sign Language
- VSL) tĩnh [1]-[4] đã cho các kết quả khá cao, ví dụ ở nghiên
cứu nhận dạng VSL tĩnh được H.H.Hưng và cộng sự đưa ra
vào năm 2012 [1], dữ liệu được thu nhận dưới dạng ảnh 2D
thông qua camera màu. Sau khi trích xuất đặc trưng dựa trên
hình dạng và đường bao, mạng nơ-ron nhân tạo được sử dụng
để thực hiện việc phân lớp. Việc thử nghiệm được thực hiện
trên bộ ký hiệu tương ứng với bảng chữ cái tiếng Việt (nhiều

ký tự hơn so với quốc tế) với độ chính xác lên đến 98%.
Trong các nghiên cứu về xử lý ngôn ngữ cử chỉ trước đây,
các nhà khoa học đã sử dụng các phương pháp thu nhận dữ liệu
khác nhau để nhận dạng ngôn ngữ ký hiệu: Starner T. và cộng
sự [6] sử dụng hai camera để thu ảnh được hai hình ảnh hai
chiều, tuy nhiên quá trình tiền xử lý phức tạp vì phải đồng bộ
dữ liệu của hai camera. Imagawa và cộng sự [7] đã áp dụng kĩ
thuật xử lý ảnh màu để phát hiện và theo vết bàn tay, Jung [8]
sử dụng thiết bị thu nhận đo điện cơ đồ (EMGElectromyography) để phân loại 6 cử chỉ tay ngơn ngữ ký hiệu
tiếng Hàn Quốc. Bên cạnh đó, nhiều nghiên cứu sử dụng găng
tay cảm biến, găng tay màu cũng được giới thiệu. Tất cả các
phương pháp này đều tồn tại những ưu nhược điểm riêng: việc
nhận dạng bằng camera 2D đơn giản về mặt thiết bị nhưng
phức tạp ở khâu xử lý để cho ra dữ liệu chuẩn; các phương
pháp điện cơ đồ, găng tay cảm biến và màu mang lại sự bất tiện
và đòi hỏi chi phí thiết bị đáng kể trong ứng dụng thực tế.

ISBN: 978-604-67-0635-9

Jean Meunier
DIRO, Đại học Montreal, Canada.
Email:

Hình 2. Hệ thống hỗ trợ người khiếm thính

222
222


HộiHội

Thảo
Quốc
Gia
2015
và Công
CôngNghệ
NghệThông
Thông
(ECIT
2015)
Thảo
Quốc
Gia
2015vềvềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThông
Thông và
TinTin
(ECIT
2015)
Với phiên bản Kinect for Windows (Kinect v2), các thông
số kỹ thuật của camera vượt trội hơn so với bản Microsoft
XBOX: camera màu được nâng lên FullHD (1920 x 1080 @30
fps) so với (640 x 480 @30 fps), camera chiều sâu (512 x 424)
so với (320 x 240), bắt được 25 điểm khung xương so với 20
điểm, theo dõi cùng lúc 6 đối tượng là người thao tác trước
thiết bị.
Ngồi ra cịn có rất nhiều nghiên cứu về nhận dạng ngôn
ngữ ký hiệu sử dụng Kinect. Các báo cáo của Simon Lang [11]

sử dụng Kinect để thu nhận dữ liệu 3D, áp dụng mơ hình
HMM để nhận dạng các ký hiệu với kết quả đạt 97.7%. Bài báo
về theo dõi chuyển động tay của Li Yi [12] cho thấy Kinect
thật sự phù hợp với nhận dạng ngôn ngữ ký hiệu vì nó cung
cấp dữ liệu hình ảnh 3D hiệu quả thay vì phải sử dụng nhiều
camera cũng như định vị và trích xuất hiệu quả các bộ phận
trên cơ thể người thu như: bàn tay, khủy tay, đầu, thân và chân.
Một ưu điểm của Kinect là thiết bị độc lập với mơi trường ánh
sáng, có thể phát hiện chuyển động của cơ thể con người trong
bóng tối. Kinect giúp giải quyết vấn đề thu nhận dữ liệu đầu
vào không cần găng tay cảm biến, dây nối từ người thực hiện
hay phải thông qua bước tiền xử lý ảnh như: loại bỏ ảnh nền và
lọc nhiễu, làm mịn đối tượng. Giải pháp do chúng tôi đề xuất
cũng sử dụng thơng tin 3D do Kinect cung cấp để trích xuất
đặc trưng biểu diễn cử chỉ.
Ngôn ngữ ký hiệu tiếng Việt so với các ngơn ngữ ký hiệu
trên thế giới có những đặc điểm chung: sử dụng chung ký hiệu
của bảng chữ cái latinh, sử dụng chung bảng chữ số, sử dụng
các hành động bàn tay kết hợp với hành động khn mặt, khẩu
hình miệng, ngơn ngữ cơ thể để bày tỏ ý kiến, miêu tả đối
tượng hoặc hành động. Ngoài ra, ngôn ngữ ký hiệu tiếng Việt
(cử chỉ động) cũng có những đặc trưng khác biệt so với ngơn
ngữ ký hiệu các nước khác: sử dụng các cách đánh dấu cho từ
ngữ, sử dụng các cách đánh tay biểu diễn các phụ âm ghép, tùy
thuộc vào văn hóa vùng miền.
Các ký hiệu tĩnh trong VSL chủ yếu biểu diễn hình ảnh bàn
tay tương ứng với bảng chữ cái và chữ số. Số lượng các ký
hiệu này khá ít và thường được thống nhất trên toàn quốc. Các
ký hiệu động trong VSL thường bao gồm nhiều cử chỉ phức tạp
như chuyển động cánh tay, hình dạng bàn tay, hay hướng các

ngón tay, tùy thuộc vào quy ước của từng bộ cử chỉ. Tuy nhiên,
thông tin về hành động của bàn tay và cánh tay thường được
chú trọng hơn những yếu tố khác. Khác với bộ cử chỉ tĩnh chỉ
gói gọn trong bảng chữ cái và chữ số, cử chỉ động biểu diễn từ
ngữ với số lượng và thể loại rất đa dạng và phong phú. Hiện
nay, bộ từ điển từ ngữ ký hiệu tiếng Việt có khoảng 4474 từ,
các từ lại có sự khác nhau đối với mỗi vùng miền.
Nghiên cứu của chúng tôi tập trung vào các ký hiệu được
quy ước trong bộ từ điển ngôn ngữ ký hiệu Việt Nam [5]. Cụ
thể, các cử chỉ được xử lý theo thời gian thực, mỗi hành động
được thu lại bằng camera Kinect v2. Các cử chỉ được biểu diễn
bởi thông tin tọa độ các khớp liên quan đến tay trong hệ tọa độ
cầu thay vì hệ tọa độ Descartes. Việc nhận dạng được thực hiện
bởi thuật toán Nearest Neighbor kết hợp với kĩ thuật đo độ
tương đồng DTW. Việc thử nghiệm được thực hiện trên 10 từ,
trong đó mỗi từ bao gồm 30 mẫu, với 10 mẫu được sử dụng
làm dữ liệu huấn luyện và 20 mẫu kiểm tra.

II.

PHƯƠNG PHÁP ĐỀ XUẤT

Hình 3. Sơ đồ hoạt động của hệ thống

A. Dữ liệu khung xương
Kinect v2 có thể nhận biết được 25 vị trí khớp trong khung
xương. Sau khi khảo sát từ điển ngôn ngữ ký hiệu tiếng Việt,
chúng tôi kết luận rằng chuyển động của đôi tay là yếu tố quan
trọng nhất, các thành phần khác của khuôn mặt như khẩu hình
miệng hay chuyển động mắt khơng được sử dụng. Do đó,

chúng tơi chỉ sử dụng 4 điểm liên quan đến tay gồm 2 điểm bàn
tay trái và phải, 2 điểm khuỷu tay trái và phải (hình 4).

Hình 4. Dữ liệu khung xương

223
223


Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)

Dữ liệu khung xương được thu bởi Kinect với tốc độ 30
khung hình mỗi giây. Tuy vậy, hệ thống mà chúng tôi xây
dựng chỉ chọn và xử lý 5 khung xương trong số đó. Do đó, việc
thu nhận dữ liệu được thực hiện cứ sau mỗi 0.2 giây. Cụ thể, cứ
thu được 6 khung hình thì hệ thống tiến hành tính khung xương
trung bình và đưa vào mơ-đun nhận dạng. Lưu ý rằng mỗi
khung hình được thu nhận sẽ được kiểm tra có chứa các thành
phần bàn tay, khuỷu tay và tâm cơ thể hay khơng. Nếu có điểm
bất kỳ không được thu nhận, hệ thống sẽ tự động điền thơng tin
đó bằng dữ liệu từ khung hình trước.
J 



n

Jk


k 1

n

(1)

B. Trích xuất đặc trưng
Cơng việc chính ở giai đoạn này là chuyển thông tin khung
xương ở hệ tọa độ Descartes sang hệ tọa độ cầu. Camera
Kinect v2 với cảm biến chiều sâu cho phép làm việc với dữ liệu
chiều sâu của đối tượng. Do đó, ta có thể sử dụng dữ liệu 3D để
xử lý ngôn ngữ ký hiệu tiếng Việt. Thông tin về khung xương
đã đề cập ở trên có thể biểu diễn trong hệ tọa độ Cartesian với
3 thông số (𝑥𝑥𝑥 𝑥𝑥𝑥 𝑥𝑥). Tuy nhiên, phương pháp này bộc lộ nhược
điểm là chỉ có thể sử dụng dữ liệu trong trường hợp vị trí và
khoảng cách của đối tượng với camera Kinect là không thay
đổi. Do đó, ta cần phải đổi hệ quy chiếu từ máy quay sang hệ
quy chiếu của đối tượng: lấy tâm người làm gốc tọa độ, các dữ
liệu về bàn tay và khuỷu tay được quy về theo hệ tọa độ này
(hình 5).

Hình 6. Hệ tọa độ cầu Spherical

Để chuyển từ hệ tọa độ Cartesian sang hệ tọa độ cầu
Spherical, ta sử dụng các công thức sau:
n

r
 J i 


i

i 1

n



   J i 
2

z

 Tz 

  J  i  z  Tz  

ri



 arccos 

  J  i  y  Ty  

  J  i  x  Tx  
i 1


Trong đó, n là số điểm trong tập hợp J.

n



i

 atan 2 

2

(2)
(3)
(4)

Hình 7. Chia vùng chuẩn hóa dữ liệu góc kinh độ φ

Dữ liệu ban đầu đưa vào là dữ liệu số thực ở hệ tọa độ
Descartes, hệ tọa độ sau khi chuyển đổi là hệ tọa độ cầu với
tâm là tâm cơ thể của đối tượng. Các góc θ và φ được chia
thành 12 góc nhỏ với mỗi góc 300 (hình 7). Bán kính r được
nhân với 10 và lấy phần ngun (dữ liệu thơ tính bằng đơn vị
mét). Quá trình này giúp làm giảm sai số trong việc làm trịn
giá trị. Như vậy sau q trình chuẩn hóa dữ liệu, dữ liệu đưa
vào bao gồm các giá trị nguyên.
Sau khi thực hiện xong việc trích xuất đặc trưng, vector
biểu diễn cử chỉ bao gồm 12 phần tử chứa dữ liệu của 4 điểm
khớp tại một thời điểm:
J  rLE ,  LE ,  LE , rRE ,  RE ,  RE , rLH ,  LH ,  LH , rRH ,  RH ,  RH  (5)

Trong toán học, một hệ tọa độ cầu Spherical là một hệ tọa

độ cho không gian 3 chiều mà vị trí một điểm được xác định
bởi 3 số: khoảng cách theo hướng bán kính từ gốc tọa độ r, góc
nâng từ điểm đó từ một mặt phẳng cố định θ, và góc kinh độ
của hình chiếu vng góc của điểm đó lên mặt phẳng cố định
đó φ (hình 6).
Dữ liệu cần xét trong bài báo là tập hợp các vector của bàn
tay trái (LH), bàn tay phải (RH), khuỷu tay trái (LE), khuỷu tay
phải (RE). Ta có tập hợp khung xương:
J LE, RE, LH , RH 

Các thông tin tương ứng với hệ tọa độ cầu bao gồm
 Tập hợp khoảng cách r  rLE , rRE , rLH , rRH 


i

i 1

Hình 5. Chuyển đổi hệ quy chiếu từ máy quay sang hệ quy chiếu đối
tượng [10]





 Tx   J  i  y  Ty
2

x


C. Phân loại
Trong quá trình này, dữ liệu đầu vào được so sánh với các
ký hiệu sẵn có để chọn ra cử chỉ gần giống nhất. Ở đây, việc so
khớp có thể thực hiện cả khi khơng có sự trùng khớp về mặt

Tập hợp góc nâng   LE ,  RE ,  LH ,  RH 
Tập hợp góc kinh độ   LE ,  RE , LH , RH 

224
224


Thảo
Quốc
Gia
2015vềvềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThông
Thông và
TinTin
(ECIT
2015)
HộiHội
Thảo
Quốc
Gia
2015
và Công
CôngNghệ

NghệThông
Thông
(ECIT
2015)

thời gian thực hiện cử chỉ. DTW được sử dụng để so khớp hai
dữ liệu có sự sai khác nhau về thời gian.
Thuật toán DTW được giới thiệu từ những năm 1960 [13],
đây là thuật toán so khớp sự giống nhau của 2 chuỗi mà không
phụ thuộc vào thời gian cũng như tốc độ của các chuỗi này.
Vào năm 1983, Joseph Kruskal và cộng sự [14] đã giới thiệu
một kỹ thuật mới cho phép tìm ra đường chuẩn hoá tối ưu dựa
trên việc so sánh hai mẫu dữ liệu được vector hố đặc trưng
(tức là tính khoảng cách giữa chúng). Kỹ thuật này được gọi là
time warping, có thể so khớp hai vector có đặc trưng khác nhau
về thời gian và tốc độ. Kỹ thuật so khớp đồng bộ thời gian
bằng cách tính khoảng cách Euclidean hay Mahattan và so sánh
điểm thứ i của một thời điểm ở chuỗi mẫu với điểm i đó trong
chuỗi đối chiếu có nhược điểm là kết quả so khớp thường thấp
với 2 chuỗi khơng có nhiều tương đồng về thời gian (hình 8).

một mảng vector. Vấn đề đặt ra là: trong hai dữ liệu về bàn tay
và cánh tay, dữ liệu nào đặc trưng hơn cho từ vựng của ngôn
ngữ ký hiệu? Tại mỗi thời điểm, bàn tay di chuyển nhiều hơn
khuỷu tay. Đánh giá hai dữ liệu này qua thực nghiệm đã đưa ra
được kết luận: dữ liệu của bàn tay quan trọng hơn dữ liệu của
khuỷu tay. Do đó, chúng ta lấy trọng số 80% cánh tay và 20%
khuỷu tay.
III.


KẾT QUẢ THỰC NGHIỆM

Phương pháp đề xuất được thử nghiệm với 10 từ trong bộ
từ điển Ngôn ngữ Ký hiệu Tiếng Việt [5]. Mỗi từ được lấy 30
mẫu gồm 20 mẫu kiểm tra và 10 mẫu huấn luyện, được thực
hiện bởi 2 người và các vị trí có sự khác nhau so với thiết bị
Kinect. Quá trình phân loại được thực hiện bằng thuật tốn
DTW và Nearest Neighbor. Cấu hình hệ thống thử nghiệm:
Windows 8 Professional, CPU Intel Core i5 2.5GHz, RAM 4G,
Kinect v2 for Windows. Hệ thống hoạt động cho ra kết quả
trong thời gian thực.
Bảng 1.Kết quả nhận dạng ngơn ngữ ký hiệu tiếng Việt

Hình 8. So khớp bằng phương pháp khoảng cách Euclidean

Thuật toán DTW đưa ra kỹ thuật so sánh 2 chuỗi phi tuyến
tính theo thời gian cho phép so khớp 2 chuỗi ngay cả khi chúng
không đồng bộ về mặt thời gian cũng như tốc độ (hình 9).

Từ
Buổi sáng
Bàn hội nghị
Bánh chưng
Cầu vượt
Giao thơng

Độ chính xác
90%
85%
95%

90%
95%

Ấm áp
Ăn mặc
Thành phố
Biểu quyết
Tình nguyện

90%
80%
95%
100%
100%

IV.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Trong bài báo này chúng tôi đề xuất một giải pháp mới để
nhận dạng ngôn ngữ ký hiệu tiếng Việt cử chỉ động dựa trên bộ
dữ liệu khung xương thu nhận từ thiết bị Kinect. Đặc trưng
biểu diễn cử chỉ được trích xuất dựa trên việc chuyển đổi vị trí
các khớp tay trong hệ tọa độ Descartes sang hệ tọa độ cầu và
đưa các giá trị thu được về tập số nguyên. Việc phân lớp được
thực hiện bởi kĩ thuật Nearest Neighbor, trong đó thuật tốn
DTW được dùng để đánh giá độ tương đồng của hai mẫu dữ
liệu có sự sai khác nhau về thời gian. Kết quả thu được khá khả
quan khi độ chính xác trung bình lên đến trên 92%. Ngoài ra,
việc thực nghiệm cho thấy giải pháp đề xuất có thể xử lý trong

thời gian thực với chi phí thấp. Trong các nghiên cứu tiếp theo,
chúng tơi sẽ phân tích thêm các thơng tin về hình dạng bàn tay
và biểu hiện khuôn mặt để nâng cao khả năng biểu diễn cử chỉ
và tăng hiệu quả nhận dạng.

Hình 9. So khớp với DTW

Trong hình trên, mỗi đường thẳng nối một điểm trên chuỗi
thời gian này với các điểm tương đồng trên chuỗi thời gian kia.
Các đường có giá trị giống nhau trên trục y, nhưng đã được
tách ra để các đường thẳng đứng giữa chúng có thể dễ dàng
nhìn thấy. Nếu cả chuỗi thời gian trong hình giống hệt nhau thì
tất cả các đường sẽ là thẳng đứng vì lúc này không cần phải
dùng kỹ thuật “time warping” nữa. Khoảng cách đường là độ
đo sự khác nhau giữa hai chuỗi thời gian sau khi được chỉnh
sửa so khớp với nhau, được tính bằng tổng các khoảng cách
giữa mỗi cặp điểm được nối với nhau bằng các đường thẳng
đứng trong hình trên. Như vậy, hai chuỗi thời gian mà giống
hệt nhau ngoại trừ việc kéo dãn cục bộ của các trục thời gian sẽ
có khoảng cách DTW bằng 0.
Trong quá trình thu nhận cử chỉ chúng tơi sử dụng phương
pháp phân lớp Nearest Neighbor được sử dụng để đưa ra kết
quả so khớp là khoảng cách nhỏ nhất giữa dữ liệu đầu vào và
các cụm dữ liệu đã huấn luyện. Đây là dữ liệu đầu vào để áp
dụng cho phương pháp phân loại DTW. Dữ liệu đưa vào gồm 2
phần chính là dữ liệu khuỷu tay và dữ liệu bàn tay trong cùng

V.

LỜI CẢM ƠN


Nghiên cứu này được hỗ trợ bởi Nguyễn Trọng Nguyên và
nhóm nghiên cứu xử lý ảnh, khoa Công nghệ Thông tin,
Trường Đại học Bách khoa, Đại học Đà Nẵng.

225
225


Thảo
QuốcGia
Gia2015
2015về
vềĐiện
Điện Tử,
Tử,Truyền
Truyền Thông
Thông và
Thông
TinTin
(ECIT
2015)
HộiHội
Thảo
Quốc
vàCông
CôngNghệ
Nghệ
Thông
(ECIT

2015)

VI.
[1]

[2]
[3]

[4]

[5]
[6]

[7]

TÀI LIỆU THAM KHẢO

Huỳnh Hữu Hưng, Nguyễn Trọng Ngun, Võ Đức Hồng, Hồ
Viết Hà, Nhận dạng ngơn ngữ ký hiệu tiếng Việt sử dụng mạng
Neuron nhân tạo. Tạp chí Khoa học và Cơng nghệ, Đại học Đà
Nẵng, 2012. 12: p. 75-80.
Nguyen, T.-N., H.-H. Huynh, and J. Meunier, Static Hand
Gesture Recognition Using Artificial Neural Network. Journal
of Image and Graphics, 2013. 1(1).
Nguyen, T.-N., et al. Geometry-based static hand gesture
recognition using support vector machine. in Control
Automation Robotics & Vision (ICARCV), 2014 13th
International Conference on. 2014. IEEE.
Trong-Nguyen Nguyen, H.-H.H., and Jean Meunier, Static Hand
Gesture Recognition using Principal Component Analysis

combined with Artificial Neural Network. Journal of
Automation and Control Engineering, 2015. Vol. 3, No. 1: p. 4045.
VSDIC. Từ điển ngôn ngữ ký hiệu. 2014.
Starner, T., J. Weaver, and A. Pentland, Real-time american sign
language recognition using desk and wearable computer based
video. Pattern Analysis and Machine Intelligence, IEEE
Transactions on, 1998. 20(12): p. 1371-1375.
Imagawa, K., L. Shan, and S. Igi. Color-based hands tracking
system for sign language recognition. in Automatic Face and

[8]
[9]
[10]
[11]
[12]
[13]
[14]

226
226

Gesture Recognition, 1998. Proceedings. Third IEEE
International Conference on. 1998.
Kyung Kwon, J., et al. EMG pattern classification using spectral
estimation and neural network. in SICE, 2007 Annual
Conference. 2007.
Zafrulla, Z., et al., American sign language recognition with the
kinect, in Proceedings of the 13th international conference on
multimodal interfaces. 2011, ACM: Alicante, Spain. p. 279-286.
Capilla, D.M., Sign Language Translator using Microsoft Kinect

XBOX 360 TM. Department of Electrical Engineering and
Computer Science, University of Tennessee, 2012.
Lang, S., M. Block, and R. Rojas. Sign language recognition
using kinect. in Artificial Intelligence and Soft Computing.
2012. Springer.
Li, Y. Hand gesture recognition using Kinect. in Software
Engineering and Service Science (ICSESS), 2012 IEEE 3rd
International Conference on. 2012. IEEE.
Bellman, R. and R. Kalaba, On adaptive control processes.
Automatic Control, IRE Transactions on, 1959. 4(2): p. 1-9.
Kruskal, J.B. and M. Liberman, The symmetric time-warping
problem: from continuous to discrete. Time Warps, String Edits
and Macromolecules: The Theory and Practice of Sequence
Comparison, 1983: p. 125-161.



×