Tải bản đầy đủ (.pdf) (42 trang)

Nhận dạng cử chỉ trong việc hỗ trợ người khuyết tật giao tiếp = Gesture recognition for disabled people communication

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (19.68 MB, 42 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
NHẬN DẠNG c ủ CHỈ TRONG VIỆC HỎ TRỢ NGƯỜI
KHUYẾT TẬT GIAÒ t iế p
Mã số: QC.07.20
Chủ nhiệm đề tài: ThS. Nguyễn Thị Nhật Thanh
Đ A I HOC QUỐC GIA HÀ NỘI
TRUNG tam ỈHÒNg TIN THƯ VIỆN
- & L /
Hà Nội - 2008
MỤC LỤC
MỤC L Ụ C 2
DANH SÁCH NHỮNG NGƯỜI THựC HIỆN ĐỀ T À I 3
DANH MỤC HÌNH VẼ VÀ BẢNG BIÉU
4
1. Đặt vấn đề 5
2. Tổng quan về phân đoạn ngôn ngữ dấu hiệu
6
3. Phương pháp phân đoạn đề xuất và thực nghiệm

7
3.1 Phương pháp phân đoạn 7
• Phân đoạn ký tự dựa trên vận tốc chuyển động của tay 7
• Bộ lọc ký tự dựa trên tốc độ ra kí hiệu 8
• Nhận dạng ký tự và tách từ 8
3.2 Thực nghiệm và thảo luận 9
• Thu nhận dừ liệu và tiền xử lý 9
• Phân đoạn với bộ lọc vận tốc và tốc độ ra ký hiệu 10
• Kết quả 12
4. Kết quả nghiên cứu 13
5. Kết luận 14
6. Tài liệu tham khảo 15


PHỤ L Ụ C 17
~)
DANH SÁCH NHỮNG NGƯỜI T H ựC HIỆN ĐÈ TÀI
Chủ nhiệm đề tài
ThS. Nguyễn Thị Nhật Thanh, Trường Đại học Công nghệ, Đại học Quốc gia
Hà Nội
Những người tham gia
STT
Họ tên Học hàm, Học vị
Co' quan công tác
1
Bùi Thê Duy
TS Trường Đại học Công nghệ,
ĐHQGHN
2
Lê Thị Hợi
NCS
Trường Đại học Công nghệ,
ĐHQGHN
3 Ngô Thị Duyên
NCS Trường Đại học Công nghệ,
ĐHQGHN
3
DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU
Hình 1. Cử chỉ biểu diễn chữ cái có khoảng thời gian thể hiện nằm giữa ngưỡng thấp
và ngưỡng cao của bộ lọc dựa trên tốc độ ra ký hiệu 8
Hỉnh 2. Dữ liệu thô 9
Hình 3. Dữ liệu được làm trơn với bộ lọc Gaussian 9
Hình 4. Các đoạn dữ liệu của từ “CHUA” 10
Hình 5. Năm đoạn dữ liệu được đưa ra dựa trên vận tốc chuyển độc của tay, trong đó

hai đoạn không họp lệ được loại bỏ bời bộ lọc dựa trên tốc độ ra ký hiệu
11
Hỉnh 6. Đoạn dữ liệu không hợp lệ vì quá dài, được loại bỏ bởi bộ lọc dựa trên tốc độ
ra ký hiệu 11
Hình 7. Vẩn đề hai cử chỉ liên tiếp cùng thể hiện một chữ cái (từ “CO OI” trong ví dụ
này) được giải quyết bằng bộ lọc dựa trên tốc độ ra ký hiệu 11
Hình 8. Độ chính xác của hai kỹ thuật phân đoạn 13
Hình 9. Độ gợi nhớ của hai kỹ thuật phân đoạn
13
Bảng 1. Phân doạn theo vận tốc tay với các ngưỡng vận tốc khác nhau 12
Bảng 2. Phân đoạn theo vận tốc tay và bộ lọc dựa trên tốc độ ra ký hiệu với các
ngưỡng vận tốc khác nhau 12
4
Đe tài : Nhận dạng cử chỉ trong việc hồ trợ người khuyết tật giao tiếp
Mã số: QC.07.20
Chủ nhiệm đề t à i: ThS. Nguyễn Thị Nhật Thanh
• Mục tiêu
Nghiên cứu các phương pháp và các kỹ thuật hỗ trợ phân đoạn trong nhận dạng cử chỉ
người và ứng dụng vào lĩnh vực nhận dạng ngôn ngữ dấu hiệu Tiếng Việt.
• Phương pháp và nội dung nghiên cứu
Trong đề tài này, chúng tôi tiến hành nghiên cứu về phân đoạn dữ liệu tự động cho
ngôn ngữ dấu hiệu. Phân đoạn dữ liệu nhàm xác định những đoạn dữ liệu có nghĩa
trong dòng dữ liệu thu được theo thời gian. Chất lượng của quá trinh phân đoạn sẽ
quyết định chất lượng của các quá trình nhận dạng và dịch tự động sau này. Dựa trên
những nghiên cứu hiện có, chúng tôi đã đề xuất một phương pháp mới cho phân đoạn
chữ cái trong ngôn ngữ dâu hiệu tiêng Việt. Theo phương pháp này, nhiêu kỹ thuật
được áp dụng tuân tự đê xác định đoạn dừ liệu có nghĩa trong dòng dừ liệu thu được
theo thời gian. Đầu tiên, vận tốc của tay được tính toán. Các đoạn dừ liệu tương ứng
với vị trí tay đang thể hiện chữ cái được lựa chọn. Một bộ lọc dựa trên tốc độ ra ký tự
được áp dụng để loại bỏ những đoạn dữ liệu không chính xác. Cuối cùng, chừ cái được

nhận dạng và nhóm lại thành từ dựa trên từ điên tiếng Việt.
Phương pháp đã được thử nghiệm với ngôn ngữ dấu hiệu tiếng Việt và thu được dộ
chính xác (Precision Rate) và độ gợi nhớ (Recall Rate) cao trong việc phân đoạn :
94.95% và 95.27%. So với những kỹ thuật hiện có, phương pháp này trả lại kết quả có
độ chính xác cao hơn. Những vấn đề đặc biệt như hai chữ cái liền kề giống nhau cũng
được giải quyết. Ngoài ra, việc phân tách từ tự động cũng được xét đến. Phương pháp
đề xuất cung cấp một giải pháp hoàn chỉnh cho việc tách từ được biểu diễn bàng ngôn
ngữ cử chỉ tiếng Việt theo cách đánh vần không dấu.
• Kết quả
Sản plìâm khoa hoc
o 01 bài báo (Nguyen Thi Nhat Thanh and Bui The Duy, “A new framework for
automated gesture segmentation in Vietnamese Sign Language”, In: VNU
Journal of Science, Natural Sciences and Technology 24, No. 3S (2008), pp. 82-
89)
o 01 báo cáo tổng hợp về kết quả nghiên cứu của đề tài
Kêt quà ínig dunẹ: 01 chương trình thử nghiệm phân đoạn và nhận dạng các chừ cái
tiếng Việt trong dòng dừ liệu theo thời gian.
Kết quả đào tao: 01 khoá luận cử nhân chuyên ngành CNTT (Trần Xuân Dũng, “Các
phương pháp mô tả ngôn ngữ dấu hiệu và ứng dụng xây dựng từ điển nhập liệu cho
ngôn ngữ dấu hiệu Tiếng Việt”, 2007).
19
1. Đặt vấn đề
Ngôn ngữ dấu hiệu được sử dụng để truyền đạt thông tin trong cộng đồng nhừng naười
khiêm thính. Khác với ngôn ngữ nói, ngôn ngừ dâu hiệu sử đụna cách đánh vân băng
tay hoặc các hành động đê truyên tải thông tin. Những nghiên cứu trong lĩnh vực nhận
dạng tự động tập trung vào việc hiểu ngôn ngữ này và dịch chúng sang dạng chừ hoặc
lời nói nham xoá bỏ rào cản trong giao tiếp giữa người khiếm thính và cộns đồng.
Nhận dạng tự động thường đi theo hai hướng tiếp cận: sử dụng máy quay (vision based
approach) và sử dụng găng tay dừ liệu (device based approach) để thu nhận dữ liệu về
cử chỉ. Nhận dạng có thể được thực hiện tĩnh (trên các dữ liệu đã được phân tách sẵn

cho mỗi chữ hoặc từ tương ứng trong ngôn ngữ dấu hiệu) hoặc được thực hiện động
(trên dòng dữ liệu thu được theo thời gian). Nhận dạng động được áp dụng cho các
ứng dụng thời gian thực, cần có sự xử lý thông tin trước khi tiến hành nhận dạng.
Trong nhận dạng động, dừ liệu thu được là một dòng liên tục theo thời gian, tương ứng
với những chuyển động của người thực hiện cử chỉ. Tuy nhiên, chỉ một số cử chỉ mang
thông tin trong khi một sổ khác là dư thừa. Do vậy, một vấn đề đang thu hút được
nhiều sự quan tâm của các nhà nghiên cứu là làm sao để xác định những doạn dừ liệu
có nghĩa trong dòng dữ liệu thu được. Các kỹ thuật phân đoạn tập trung vào giải quyết
vấn đề này. Chất lượng của quá trình phân đoạn sẽ quyết định chất lượng của các quá
trinh nhận dạng và dịch tự động sau này.
Trong đề tài này, chúng tôi đề xuất một phươne pháp mới để phân tách tự động ngôn
ngữ dấu hiệu tiếng Việt. Chúng tôi tập trung vào cách biểu diễn ngôn ngữ dấu hiệu
bằng đánh vần trong đó người sử dụng biểu diễn các chữ cái tuần tự theo cú pháp đã
được qui định để biểu diễn một từ. Do vậy, phương pháp tập trung vào tách các chữ
cái trong dòng dữ liệu liên tục theo thời gian. Theo phương này, một số các kỹ thuật
được áp dụng lần lượt để xác định những đoạn dữ liệu có nghĩa (thể hiện chữ cái)
trong dãy các dòng dữ liệu được ghi lại. Đầu tiên, vận tốc của chuyển động tay được
tính toán nhằm xác định những đoạn tay đứng yên. Tiếp đó, một bộ lọc dựa trên tốc độ
ra ký hiệu được sử dụng để loại bỏ những đoạn dư thừa. Tại mỗi đoạn dữ liệu có nghĩa
được xác định, chữ cái được nhận dạng. Sau đó, các từ tiếng Việt được tách tự động
theo phương pháp khớp từ dài nhất dựa trên từ điển.
Với phương pháp này, các câu tiếng Việt được biểu diễn bàng ngôn ngữ cử chi có thể
đirợc phân tách nhanh và chính xác. Bằng cách kết hợp nhiều kỹ thuật, phương pháp
này hoạt động hiệu quả hơn những phương pháp đã có. vấn đề hai chữ cái liền kề
giống nhau được nêu ra trong [12] cũng được giải quyết. Ngoài ra, việc phân tách từ tự
động cũng được xem xét và giải quyết trorm phuơnR pháp này. Phươns pháp được đề
xuất cung cấp một giải pháp hoàn chỉnh cho việc tách từ dược bièu diễn bãng ngôn
ngữ cử chỉ tiếng Việt theo cách đánh vần. Chúng tôi cũne đã thử nghiệm phương pháp
được đề xuất và thu được kết quả tốt.
5

2. Tổng quan về phân đoạn ngôn ngữ dấu hiệu
Phân đoạn trong ngôn ngữ dấu hiệu tập trung vào nghiên cứu và áp dụng các kỹ thuật
khác nhau để tách các dữ liệu có nghĩa từ dòng dữ liệu thu được. Sự khác biệt giữa
những cử chỉ có nghĩa và cử chỉ dư thừa phụ thuộc cách biểu diễn ngôn ngữ dấu hiệu.
Có hai cách biêu diên ngôn ngữ dâu hiệu thông dụng: sử dụng các hành động đại diện
(gesture) hoặc đánh vần với các ký tự trong bảng chữ cái (finger spelling). Theo cách
dùng các hành động (gesture), một từ hoặc một cụm từ được thể hiện bằng hình dạng,
vị trí, hướng, và quĩ đạo chuyển động của một hoặc hai tay. Do vậy, đoạn dữ liệu có
nghĩa là đoạn mà tay đang diễn tả thông tin thông qua hình dáng, vị trí. hướng và
chuyển động. Đoạn dữ liệu dư thừa là khi tay chuyển từ vị trí kết thúc của từ này tới vị
trí bắt đầu để biểu diễn một từ khác. Nhiều nghiên cứu sử dụng vận tốc chuyển động
của tay để thực hiện việc phân doạn. Tanibata [3] phân tách cử chỉ và chuyển động dựa
trên giả thiết ràng cử chỉ có vận tốc nhỏ trong khi chuyển động sẽ có giá trị vận tốc lớn.
Thêm nữa, những thay đổi lớn vể chuyển động của tay được xem như là đầu mối để
phân tách các từ. Sagawa và Takeuchi [2] sử dụng cách tiếp cận tương tự. Tuy nhiên,
họ xem xét thêm việc loại bỏ nhiễu gây ra bởi sự rung tay bàng cách so sánh tổng vận
tốc lớn nhất của hai đoạn kề nhau với một ngưỡng được định nghĩa trước. Những
chuyển động có nghĩa và những chuyển động dư thừa được tách dựa trên gia tốc trong
đó chuyển động có nghĩa thường có gia tốc nhỏ. Phương pháp này được áp dụng cho
100 từ trong ngôn ngữ đấu hiệu tiếng Nhật và đạt độ chính xác 80%. Một cách tiếp cận
khác được sử dụng trong [4] là sử dụng tham sổ thay đổi thời gian (time-varying
parameter - TVP) để xác định những cử chỉ có nghĩa. Những cử chỉ hày sẽ có số TVP
thấp hơn một nguỡng nào đó. Gaolin Fang [5] đề xuất một phương pháp hiệu quả hơn.
Mạng hôi quy dơn giản (Simple Recurrent Network - SRN) được sử dụng dê phân lớp
các hành động thành ba loại: biên trái, biên phải, và chính giữa đoạn. Sử dụng một
mình SRN, độ chính xác của phân đoạn là 87%. Do vậy SOFM (Self Organizing
Feature Maps) được thêm vào, xử lý các đặc trưng trước khi nó được đưa vào mạng
SRN. Phương pháp này đạt tỷ lệ gợi nhớ (Recall Rate) lên tới 98.8%.
Theo cách đánh vần, các cử chỉ (posture) tương ứng với các chữ cái được the hiện lân
lượt, tuân theo các luật đánh vần để tạo ra một từ. Phân đoạn cho đánh vần là xác định

những điểm mà cử chỉ xảy ra. Một vài nghiên cứu giải quyết vấn đê này băng cách
chèn vào những ký hiệu đánh dấu [16] hoặc giữ yên tay khoảng một phút để nhận dạng
[17]. Hanrling [6] tính toán sức căng của tay (hand tension) và sử dụng nó để phân
đoạn. Tay ở trạng thái thoải mái có ít sức căng hơn khi tay thể hiện cử chỉ biểu diễn
chữ cái. Việc chuyển từ một cử chỉ này sang cử chỉ khác sẽ đi qua một trạng thái tay
thoải mái. Quan sát này được sử dụng để phát hiện biên giữa các chữ cái. Tuy nhiên,
phương pháp này mới chì được thử nghiệm trên một tập dừ liệu nhỏ và dường như chỉ
phù hợp với những hệ thống sử dụng găng tay dữ liệu để thu nhận thông tin. Wu [10]
dựa trên sự khác nhau giữa frame ảnh hiện tại và frame trung bình đê tách các đoạn
chuyển động và đứng yên của tay. H. Birk [12] sử dụng hai kỹ thuật dựa trên chuyển
đông để phân đoạn các dữ liệu theo thời gian. Ngoài ra, vấn đề tách hai kỷ tự liền nhau
giống nhau cũng được xem xét (VD: chữ cái T trong từ "hello”). Đe giải quyết vấn đề
6
này, H. Birk sử dụng kỹ thuật thử ba dựa trên quan sát ràng có một chuyển động nhỏ
giữa chúng. Ba kỹ thuật này được kêt họp với nhau bàng phép toán AND để xác định
kêt quả cuối cùng. R. Erenshteyn [11] nhận dạng các chữ cái theo thời gian thực và sử
dụng hai bộ lọc cho phân tách đoạn. Kỹ thuật đầu tiên sử dụng sự khác nhau giữa các
frame ảnh. Kỷ thuật thữ hai dựa trên những phân tích về độ biến đổi. Trong kỹ thuật
này, điểm kết thúc của một chữ cái là nơi có sự biến đổi lớn nhất của kết quả nhận
dạng và cách nhau một khoảng nhất định nào đó. Việc nhận dạng được thực hiện tại
điểm giữa của đoạn dữ liệu được phát hiện. Độ chính xác của hai bộ lọc là 87.8% và
92.3%. Tuy nhiên, bộ lọc thứ nhất cho nhiều đoạn dư thừa trong khi bộ lọc thứ hai xoá
mất một số đoạn.
Những kỹ thuật hiện tại thường được áp dụng một cách riêng lẻ. Do vậy, độ chính xác
phân đoạn không được cao. Hiện tại, cũng không có một giải pháp toàn diện từ việc
tách chữ đến tách từ tự động phục vụ cho việc nhận dạng ngôn ngữ dấu hiệu nói chung
và ngôn ngữ dấu hiệu tiếng Việt nói riêng theo cách đánh vần. Bởi vậy, trone đề tài
này, chúng tôi đề xuất một phương pháp mới cho việc phân đoạn. Theo phương pháp
này, một số các kỹ thuật được áp dụng tuần tự để xác định các đoạn dữ liệu có nghĩa
trong dòng dữ liệu theo thời gian. Đầu tiên, vận tốc chuyển động cùa tay được tính

loán để tìm ra những đoạn dữ liệu ứng cử viên. Tiếp đó, một bộ lọc dựa trên tốc độ ra
ký hiệu được sử dựng để loại bỏ những đoạn dư thừa. Các chữ cái được nhận dạng tại
mỗi doạn dữ liệu được phát hiện. Cuối cùng, các từ dược tự động phân tách từ dãy các
ký tự bằng phương pháp khớp từ với các từ dã được định nghĩa trong từ điển tiếng
Việt. Phương pháp cũng đã được thử nghiệm và thu được những kết quả khả quan.
3. Phương pháp phân đoạn đề xuất và thực nghiệm
3.1 Phương pháp phân đoạn
Phương pháp phân đoạn tập trung vào việc tách các ký tự và từ từ dòng dữ liệu theo
thời gian. Bước đầu tiên, vận tốc tay được tính toán để tìm ra những điểm tay đứng
yên để biểu diễn cử chỉ. Tuy nhiên, kỹ thuật này rất nhạy với nhiễu nên thường tìm ra
rất nhiều đoạn dữ liệu dư thừa. Do vậy, bộ lọc thứ hai dựa trên tốc độ ra ký hiệu được
sử dụng giải quyết vấn đề này. Tại đoạn dữ liệu hợp lệ thu được, giá trị của chữ cái
được tính là trung binh của tổng có trọng số của các giá trị xuất hiện trong đoạn. Giá
trị này sẽ được sử dụng cho nhận dạng. Việc phân tách các từ từ dãy các chừ cái thu
dược dựa trên phương pháp khớp từ cực đại với những từ hiện có trong từ điển tiếng
Việt. Các tiếp cận này cũng được sử dụng để chuẩn hoá những ký tự bị nhận dạng sai.
• Phân đoạn ký tự dựa trên vận tốc chuyển động của tay
Kỹ thuật này dựa trên bản chất của của việc đánh vần trong ngôn ngừ cử chỉ. Theo
cách này, các ký tự được thể hiện tuần tự, tuân theo cú pháp đánh vần. Mỗi ký từ được
biểu diễn bàng một cử chỉ tay (posture), đặc trưng bời hình dáng tay và hướng lòng
bàn tay. Các cử chỉ sẽ được giữ yên một khoảng thời gian đú dê nhận biết. Do vậy, các
cử chỉ này tương ứng với các đoạn dữ liệu có vận tốc tay nhỏ, trong khi các động tác
chuyển sẽ có vận tốc lớn hơn [2][3][12]. Dựa trên các thông số về tav, vận tốc được
7
tính toán và so sánh với một ngưỡng đã được xác định trước để tìm ra các đoạn dữ liệu
có nghĩa sẽ được sử dụng cho bước tiếp theo.
• Bô loc ký tư dưa trên tốc đô ra kí hiêu
• • J ■ • * •
Với kỹ thuật được nêu ở trên, hầu hết các đoạn dử liệu có nghĩa được xác định. Tuy
nhiên, chỉ một sự thay đổi nhỏ khi tay đang thể hiện ký tự hoặc nhiểu cũng ảnh hường

tới kỹ thuật này và tạo ra nhiều đoạn dư thừa. May mắn thay, người “nói” bằng ngôn
ngữ dấu hiệu phải giữ tay một khoảng đủ lâu để người “nghe” có thể nhận biết. Bời
vậy, để loại bỏ những đoạn dừ liệu bị phân tách sai, chúng tôi sử dụng bộ lọc dựa trên
tốc độ ra ký tự. Đặc trưng được sử dụng là khoảng thời gian thể hiện cử chỉ. Tại mỗi
đoạn dữ liệu thu được từ kỹ thuật trên, đặc trưng này được tính toán và so sánh với hai
ngưỡng: ngưỡng thấp và ngưỡng cao. Một đoạn dữ liệu được chọn nếu thời gian ra ký
hiệu nam giữa hai ngưỡng (Hình! 1)
1 2
1
o 8
0 6
0 4
0 2
0
1 1 1
r * - * - * * ■— * * * 1 A <^ 1
— -

— Ị f —i


t i ĩ
a 15 22 29 -S7 FiA 71 1A ị « i ỊỊ 1 ịỴ
113 1 2 0 1 2 7 1J4 14
1 140
posture
Hình 1. Cử chỉ biểu diễn chữ cái có khoảng thời gian thể hiện nằm giữa ngưỡng thấp
và ngưởng cao của bộ lọc dựa trên tốc độ ra ký hiệu
• Nhận dạng ký tự và tách từ
Tại mỗi đoạn dữ liệu hợp lệ, giá trị của ký tự được tính là trung bình của các giá trị có

mặt trong đoạn dữ liệu đỏ (Công thức 5). Giá trị này được sử dụng để nhận dạng ký tự.
d(k) = {pỢ,k),i = Q.M} (5)
p ụ ,k ) = ‘-ữ Af
N
Trong đó d(k) là giá trị của đoạn dữ liệu k, p(i,k) là giá trị trung bình của sensor i tại
đoạn dữ liệu k, P(i,t) là giá trị của sensor i tại frame t, và N là tổng số frame trong đoạn
k.
Chúng tôi áp dụng phương pháp phân loại được đề cập trong [15]. 23 ký tự (A, B, c.
D, Đ, E, G, H, I, K, L, M, N, o, p, Q, R, s, T, u, V, X, và Y) trong naôn rmữ dấu hiệu
tiếng Việt được nhận dạng với độ chính xác cao.
8
3.2 Thực nghiệm và thảo luận
• Thu nhận dữ liệu và tiền xử lý
Chúng tôi sử dụng găng tay dữ liệu 5DT Data Glove 5 [14] để thu nhận dử liệu cho hệ
thống. Găng tay dữ liệu có 18 sensor tương ứng với 10 vị trí trên ngón tay (giữa ngón
cái, đỉnh ngón cái, giữa ngón trỏ, đỉnh ngón trỏ, giữa ngón giữa, đỉnh ngón giữa, giữa
ngón đeo nhẫn, đỉnh ngón đeo nhẫn, giữa ngón út, và đỉnh ngón út), bốn vị trí giữa các
ngón tay (cái/trỏ, trỏ/giữa, giữa/đeo nhẫn, đeo nhẫn/út), và một vị trí trẽn mu bàn tay.
Các sensor đo và trả lại độ cong (flexure) và độ giang (spread) của các ngón tay, độ
gập (pitch) và độ xoay (roll) của bàn tay. Sau khi căn chỉnh (calibration) và chuẩn hoá
(normalization), giá trị các sensor ở trong khoảng từ 0 đến 1 (xem Hình 2).
Chúng tôi thực hiện thử nghiệm trên 594 mẫu của 23 chữ cái trong bàng chữ tiếng Việt.
Trong giai đoạn tiền xử lý, dữ liệu nhận được từ găng dữ liệu được lọc bỏ nhiễu bàng
một Gaussian filter (xem Hình 3) với phân bo Gaussian một chiều và độ lệch chuẩn
bàng 1 (công thức 1)
1 “77
G(x) = — J = e 2ỗ
ốyllĩr trong đó à ~ 1 (1)
9
• Phân đoạn vói bộ lọc vận tốc và tốc độ ra ký hiệu

Với dữ liệu thu được, vận tốc được tính theo công thức 2 tại mỗi frame
v(0 = ^

(2)
trong đó P(i, t) là giá trị của sensor i tại thời frame t, và n là tổng số sensor
Hai frame liền kề được ghép vào một đoạn nếu vận tốc tay tại mỗi frame thấp hơn
ngưỡng. Hầu hết các đoạn dữ liệu chứa cử chỉ đều được phát hiện bàng kỹ thuật này.
Tuy nhiên, số lượng các đoạn dư thừa khá lớn. Lý do là khi tay thể hiện cử chí, nó
không hoàn toàn được giữ nguyên (VD: đoạn thứ ba trong Hình 5), hoặc do sự chuyển
động chậm của một số ngón tay (VD: đoạn thứ tư trong Hình 5) gây ra nhiễu. Chúng
tôi nhận thấy ràng nhiễu thường nhẹ và nhanh hơn các cử chỉ. Ngoài ra, các đoạn dữ
liệu quá dài cũng là những hiện tượng không bình thường. Trong hầu hết các trường
hợp, các đoạn dữ liệu này được tách ra do sai số trong phân đoạn theo vận tốc hơn là
do người sử dụng. Do vậy, chúng cũng là thông tin dư thừa (xem Hình 6). Chúng tôi
tính toán khoảng thời gian giữ yên cử chỉ tại mỗi đoạn dừ liệu có nghĩa. Trong thực
nghiệm này, đoạn dữ liệu được loại bỏ nếu giá trị này nhỏ hơn ngưỡng 150tns hoặc
lớn hơn ngưỡng 1500ms.
Ngoài ra, ngôn ngữ dấu hiệu tiếng Việt cũng phải đối mặt với vấn đề hai chừ cái liền
kề giống nhau. Như đã phân tích trong [12], có một chuyển động nhỏ giữa chúng. Do
vậy, bộ lọc dựa trên tốc độ ra ký tự có thể giải quyết vấn đề này (Hình 7).
10
Hình 5. Năm đoạn dữ liệu được đưa ra dựa trên vận tốc chuyển độc của tay, tronạ đó
hai đoạn không hợp lệ dược loại bò bởi bộ lọc dựa trên tốc độ ra ký hiệu.
-
L v '
«
\
u ỉ
h
\

I
*
P
!
1 7 13 '
9 25 31 37 4 3 49 5 5 61 67 73 7 9 8 5 91
97 103 109 11
5 121
Hình 7. Vấn đề hai cử chỉ liên tiếp cùng thể hiện một chữ cái (từ "CO or trong ví dụ
này) được giải quyết bàng bộ lọc dựa trên tốc độ ra ký hiệu.
11
• Kết quả
Ngưỡng được sử dụng cho việc phân đoạn dựa trên vận tốc được kiểm tra với năm giá
trị (0.02, 0.05, 0.10, 0.15 và 0.20). Độ chính xác (Precision) và độ gợi nhớ (Recall)
được tính toán lần lượt bằng công thức 3 và công thức 4.
. . NumberofVa lidSegment s ,nnn,
Pr ecision - —





X 100%
NumberofDe tectedSegm ents ^
3
)
NumberofValidSegment ,
Re call =

J b


X 100%
NumberofActualSegments
Kết quả được thể hiện trong bảng 1 và bảng 2. Kỹ thuật phân đoạn đạt kết quả tốt nhất
với hai ngưỡng vận tốc 0.05 và 0.10. Trong thực nghiệm này, nếu lấy ngưỡng nhó hơn
0.02, nhiều đoạn dữ liệu có nghĩa bị bỏ qua. Ngược lại, nếu lấy ngưỡng lớn hơn như
0.15 hoặc 0.20, các đoạn dữ liệu bị ghép lại với nhau. Điều này dẫn đến độ chính xác
và độ gợi nhớ giảm.
Chi sử dụng kỹ thuật phân đoạn dựa trên vận tốc, 60.6% - 96.46% đoạn dữ liệu có
nghĩa được phát hiện. Tuy nhiên, độ chính xác thì tương đối thấp do xuất hiện nhiều
đoạn dư thừa (57.08% - 68.95%). Ket hụp thêm bộ lọc thứ hai, độ gợi nhớ được giữ
nguyên trong khi độ chính xác tăng lên đáng kể (81.08% - 95.27%). Điều này chứng tỏ
rằng việc kết hợp các kỹ thuật đưa lại kết quả cao hơn so với phương pháp chỉ dùng
một kỹ thuật đơn lẻ. Độ gợi nhớ được giữ nguyên chứng tỏ sự hiệu quà trong việc lựa
chon ngưỡng cho bộ lọc dựa trên tốc độ ra ký tự.
Bảng 1. Phân đoạn theo vận tốc tay với các ngưỡng vận tốc khác nhau.
Ngưỡng vận tốc Phân đoan theo vân tốc
Độ chính xác (%)
Độ gợi nhó (%)
0.02 57.08
83.50
0.05 68.95 96.46
0.10
65.81 94.95
0.15
60.87
77.78
0.20
57.14
60.60

Bảng 2. Phân đoạn theo vận tốc tay và bộ lọc dựa trên tốc độ ra ký hiệu với các
ngưỡng vận tôc khác nhau.
Ngưỡng vân tôc
Phân đoạn theo vận tốc và bộ lọc dựa
trên tốc độ ra ký hiệu
Độ chính xác (%)
Độ gợi nhớ (%)
12
0.02
86.26
83.50
0.05
93.78
96.46
0.10
95.27 94.95
0.15
87.50 77.78
0.20
81.08 60.60
<♦— H a n d ve lo city F ilt er
m— H an d velo ctiy and
S ignin g rate filter
Hình 9. Độ gợi nhớ của hai kỹ thuật phân đoạn.
4. Kết quả nghiên cứu

Sán phẩm khoa học
o 01 bài báo tại tạp chí Khoa học tự nhiên và Công nghệ, Đại học Quốc Gia
Thi Nhat Thanh Nguyen and The Duy Bui (2008), “A new framework for
automated gesture segmentation in Vietnamese Sign Language”, In: VNƯ

Journal o f Science, Natural Sciences and Technology 24, No. 3S (2008), pp. 82-
89.
o 01 báo cáo tổng hợp về kết quả nghiên cứu của đê tài
13

Kết quả ứng dụng
01 chương trình phân đoạn và nhận dạng các chữ cái tiếng Việt trong dòng dừ
liệu theo thời gian.

Kết quả đào tạo
o 01 khoá luận cử nhân chuyên ngành CNTT:
Trần Xuân Dũng, “Các phương pháp mô tả ngôn ngữ dấu hiệu và ứng dụng xây
dựng từ điển nhập liệu cho ngôn ngữ đấu hiệu Tiếng Việt”, 2007.
5. Kết luận
Trong đề tài này, chúng tôi đã đề xuất ra một phương pháp mới cho phân đoạn chữ cái
tiếng Việt trong ngôn ngữ dấu hiệu. Chúng tôi áp dụng nhiều kỹ thuật tuần tự để xác
định đoạn dữ liệu có nghĩa trong dòng dữ liệu thu được theo thời gian. Đầu tiên, vận
tốc của tay được tính toán. Các đoạn dữ liệu tương ứng với tay đứng yên được lựa
chọn. Một bộ lọc dựa trên tốc độ ra ký tự được áp dụng để loại bỏ những đoạn dữ liệu
không chính xác. Cuối cùng, ký tự được nhận dạng và nhóm lại thành từ dựa trên từ
điển tiếng Việt. Với phương pháp này, chúng tôi đạt được độ chính xác và độ gợi nhớ
cao trong việc phân đoạn. So với những kỹ thuật hiện có, phương pháp này trả lại kết
quả có độ chính xác cao hơn. Những vấn đề đặc biệt như hai chữ cái liền kề giống
nhau cũng được giải quyết. Ngoài ra, việc phân tách từ tự động cũng được xem xét và
giải quyết trong phương pháp này. Phương pháp được đề xuất cung cấp một giái pháp
hoàn chỉnh cho việc tách từ được biểu diễn bằng ngôn ngữ cử chỉ tiếng Việt theo cách
đánh vần không dấu. Phương pháp được đề xuất đã được thử nghiệm và thu được kết
quả tốt.
Vấn đề phân đoạn cho các chữ cái tiếng Việt có dấu chưa được xem xét trong đề tài
này. Ngoài 23 chữ cái thông thường, tiếng Việt còn có những chữ cái có dấu (À, Ă, ô,

ơ, Ê, và Ư) và sáu thanh (bang, sắc, huyền, hỏi, ngà, và nặng). Trong ngôn ngữ dấu hiệu
tiếng Việt, các dấu râu, dấu mũ, dấu móc được biểu diễn bằng một cử chỉ đặc biệt. Các
cử chỉ này sẽ theo sau một số chữ cái nhất định để tạo ra một chữ cái có dấu. Phương
pháp được đề xuất hoàn toàn có thể áp dụng để tách các dấu này. Tuy nhiên, phương
pháp tách từ dựa trên việc ghép các chữ cái thành từ sau khi nhận dạng sẽ cần được
làm mịn. Trong trường hợp năm thanh (sắc, huyền, hỏi, ngã, và nặng), mỗi thanh sẽ
được thể hiện bàng sự kết hợp một cử chỉ và chuyển động. Do cách biểu diễn đặc biệt
như vậy, việc phân đoạn liên quan đên việc nhận dạng và tách các chuyển động có
nghĩa. Phương pháp được đề xuât cần phải được mở rộng mới có thể giải quyết được
vấn đề này.
Trong tương lai, chúng tôi sẽ thực hiện phương pháp được đề xuất với các kỹ thuật
nhận dạng khác nhau dê thu được kết quả toàn diện. Chủng tôi cùng quan tâm đến việc
mở rộng phương pháp cho tiêng Việt có dàu. Ngoài ra, chúng tôi cũng dự định áp dụng
phương pháp này cho các ứng dụng sử dụng máy quay (vision based approach).
14
6. Tài liệu tham khảo
Tài liệu tiếng nước ngoài
[ljDurell Bouchard (2006), “Automated Time Series Segmentation for Human
Motion Analysis”,

df.
[2] H. Sagawa, and M. Takeuchi (2000), “A Method for Recognizing a Sequence of )f
Sign Language Words Represented in a Japanese Sign Language Sentence”, Proc.
Fourth IEEE International Conf. on Automatic Face and Gesture Recognition, pp.
434-439.
[3] N. Tanibata, and N. Shimada (2002), “Extraction of Hand Features for Recognition
of Sign Language Words”, Proc. Int’l Conf. Vision Interface, pp. 391-398.
[4] Rung-Huei Liang, Ming Ouhyoung (1998), “A Real-time Continuous Gesture
Recognition System for Sign Language”, Proc. Third IEEE International Conf. on
Automatic Face and Gesture Recognition, pp. 558-567.

[5] Gaolin Fang, Wen Gao, Xilin Chen, Chunli Wang, and Jiyong Ma (2001), “Signer-
independent Continuous Sign Language Recognition Based on SRN/HMM”,
Lecture Notes In Computer Science, vol. 2298, pp. 76-85.
[6] Philip A. Harling, and Alistair D.N. Edwards (1996), “Hand tension as a gesture
segmentation cue”, Proc. of Gesture Workshop on Progress in Gestural
Interaction, pp. 75-88.
[7] Peter Vamplew, and Anthony Adams (1998), “Recognition of sign language
gestures using neural networks”, Australian Journal of Intelligent Information
Processing Systems, pp. 94-102
[8] Sylvie c.w . Ong and Surendra Ranganath (2005), “Automatic Sign Language
Analysis: A Survey and the Future beyond Lexical meaning”, IEEE Transaction on
Pattern Analysis and Machine Intelligence, vol. 27, no. 6, pp. 873-891.
[9] J. Karamer and L. Leifer (1978), “The Talking Glove: An Expressive and
Receptive Verbal Communication Aid for the Deaf, Deaf-Blind, and Nonvocal”,
Pi VC. Third Ann. Conf. Computer Technology>, Special Education, Rehabilitation,
pp. 335-340.
[10] J. Wu and w . Gao (2001), “The Recognition of Funger-Spelling for Chiness
Sign Language”, Proc. Gesture Workshop, pp. 96-100.
[11] R. Erenshteyn, p. Laskov, R. Foulds, L. Messing, and G. Stem (1996),
“Recognition Approach to Gesture Language Understanding”, Proc. Int’I Conf.
Pattern Recognition, vol. 3, pp. 431-435.
15
[12] H. Birk, T.B. Moeslund, and C.B. Madsen (1997), “Real-Time Recognition of
Hand Alphabet Gestures Using Principal Component Analysis”, Proc.
Scandinavian Conf. Image Analysis, pp. 261-268.
[13] N. Chaimanonart, and D. J. Young (2006), “Remote RF powering system for
wireless MEMS strain sensors”, IEEE Sensors Journal, Vol. 6-2, pp. 484 - 489.
[14] Fifth Dimension Technologies (2004), “5DT Data Glove Ultra Series, User’s
Manual”, .
[15] The Duy Bui, and Thang Long Nguyen (2007), “Recognizing postures in

Vietnamese Sign Language with MEMS accelerometers”, Sensors Journal, IEEE,
vol. 7-5, pp. 707-712.
[16] D. Rubine (1991), “Specifying Gestures by Example”, Computer Graphics, pp.
329-337
[17] T. Takahashi and F. Kishino (1991), “Hand Gesture Coding Based on
Experiments using a Hand Gesture Interface Device”, SIGCHI Bulletin, pp. 67-73.
16
PHỤ LỤC
1. 01 bài báo tại tạp chí Khoa học tự nhiên và công nghệ, Đại học quuốc gia Hà Nội
2. 01 khoá luận cử nhân chuyên ngành CNTT
3. Đe cương và hợp đồng thực hiện đề tài nghiên cứu
4. Báo cáo tóm tắt kết quả nghiên cứu (01 bản tiếng Việt, 01 bàn tiếng Anh)
5. Phiếu đăng ký kết quả nghiên cứu KHCN
ĐAI HOC QUỐC GIA HÀ NÔI
TRUNG TẦM THÔNG TIN THƯ VIỆN
17
ĐẠI HỌC QUOC GIA HA NỘI
VIETNAM NATIONAL UNIVERSITY, HANOI
I55N 0 36 6 ■ 3612
JC IU R N A L D F S C IE N C E
KHOA HỌC Tự NHIÊN VÀ CÕNG NGHỆ
NATURAL SCIENCES AND TECHNOLOGY
Special Issue on ICT Research and Development
Symposium of Hanoi Forum on
Information and Communication Technology
December 11-12, 2008
Hanoi, Vietnam
VIETNAM NATIONAL UNIVERSITY, HANOI
JOURNAL OF SCIENCE
NATURAL SCIENCES AND TECHNOLOGY

Vol. 24, No. 3S, 2008
CONTENTS
1 . Dominique Estival, Author attribution with email messages 1
2. Ho Tu Bao, Vietnamese language processing: issues and challenges 10
3 . Mathai Joseph, New opportunities in software engineering 17
4 . Cao Tuan Dung, Nguyen Thi Thu Trang, Nguyen Due Dat, Kieu Quang Thien, Do
Dinh Thang, An approach based on web services and ontology for improving the
interoperability in an E-Health system 23
5 . Cao Tuan Dung, Nguyen Thi Thu Trang, Trinh Tuan Dat, Nguyen Tu Hoan, Ngo
Tuan Phong, Method and tool for semantic web query construction and graphical
result presentation 36
6 . Oily Gotel, Vidya K ulkarni, Des Phal, Moniphal Say, Christelle Scharff,
Thanwadee Sunetnanta, Impacting global software development through socialization
activities in virtual world environments 49
7 . Ho Tu Bao, Pham Ngoe Khanh, Ha Thanh Le, Nguyen Thi Phuong Thao, Issues
and first phase development of the English-Vietnamese translation system EVSMT1.0 59
8 . Wojciech Jamroga, A Temporal Logic for Multi-Agent MDP’s 67
9 . Nguyen Quoc Dai, Nguyen Quoc Dat, Pham Bao Son, Bui The Duy, A fast
approach to automatic detection of web page content 75
10 . Nguyen Thi Nhat Thanh, Bui The Duy, A new framework for automated gesture
segmentation in Vietnamese Sign Language 82
11. Pham Van Huong, Tran Minh Tuan, Do Quoc Huy, Le Hong Trang,
Vu Thanh Nhan, N guyen Ngoe Binh, Truong Anh Hoang, Vu Quang Dung, Some
approaches to Nôm optical character recognition 90
12 . c . Rosenthal-Sabroux, Towards a new vision of Information System Engineering 100
13 . Tran Ngoc Bao, Nguyen Dinh Thuc, Tran Dan Thu, An improvement o f Graph
Isomorphism based authentication protocol using modular Matrix cipher 108
14 . Tran Binh Giang, Pham Due Dang, Pham Bao Son, A knowledge engineering
approach for English-Vietnamese weather bulletins machine translation
1 1

6
15 . Trinh Thanh Binh, Truong Anh Hoang, Nguyen Viet Ha, A dynamic birthmark to
detect the theft of Java programs
1

?3
6 . To Van Khanh, Pham Van Viet, Truong Ninh Thuan, Nguyen Viet Ha, Checking the
conformance between the implementation and PSM specifications in component model 131
VNU Journal of Science, Natural Sciences and Technology 24, No. 3S (2008) 82-89
A New Framework for Automated Gesture Segmentation in
Vietnamese Sign Language
Thi Nhat Thanh Nguyen1’*, The Duy Bui1
1Human Machine Interaction Laboratory, College o f Technology', Vietnam National University, Hanoi
E3, /44 Xuan Thuv, Can Giay, Hanoi. Vietnam
Received
A b stract In this paper, we propose a new framework for automatic segm entation in Vietnam ese
sign language. We focus on signing with postures, in which user spells each word with finger signs
corresponding to the letters o f the alphabet. In our framework, a number o f techniques are applied
sequentially to identify the valid segm ent for each letter in the time serial data. Firstly, hand
velocity is calculated to find the stable candidates where velocities decrease to a threshold. Then,
we apply a filter based on the signing rate featured by the holding duration o f a sign to remove
superfluous segments. At each valid segment, the letter is recognized. After that, words com posed
from these letters are segm ented according to the lexicon o f Vietnam ese Sign Language. With our
framework, a sentence expressing by finger spelling can be continuously segm ented with high
recall and precision rate.
Keywords. Vietnamese Sign Language, letter segmentation, velocity filter, s i g n i n g rate n i t e r ,
m a x i m a l m a t c h i n g .
1. Introduction
Sign language, a non-verbal language, is
a primary means of communication in the

deaf community. Different from speech, sign
language uses finger spelling and gestures to
convey information. Automatic sign
language recognition and interpretation
conccntrate on understanding human signs
and translating them into text or speech,
which might help to overcome the difficulties
* Corresponding author. Tel.: +84 4 3754 yuio
E-mail: thanhntn;»!vnu.edu.vn.
in communication between the deft people
and the rest of the world. These systems are
often developed with two main approaches:
vision based approach and device based
approach. Corresponding to the two
approaches, time-serial data is obtained as
the input of systems in two different formats.
Vision based approach uses video cameras to
capture user’s gesture, while device based
approach depends on sensing gloves to get
hand parameters such as joint angles and
hand position.
Sign language is presented by the
sequential gestures in which some gestures
1
N.T.N. Thanh, B.T.Duy / VNU Journal of Science, Natural Sciences and Technology 24, No. 3S (2008) 82-89 83
bring information, while others are
epenthesis. The arisen question is how to
identify and locate valid gestures in the time-
serial data. Segmentation is one solution to
this problem. Segmentation has been

considered as a critical phase that determined
the quality of the later processing of sign
language recognition and interpretation
systems.
The differentiation between meaning
gestures and epenthesis used for the
segmentation phase depends on sign
language expression manners which are
gestures and finger spelling. In gestures, a
word or even a phrase is presented by the
shape, position, orientation, and movement
trajectory of one or both hands. Therefore,
the valid segment is where the hand posture
expressed by hand shape, hand position, hand
orientation; and movement trajectory are
parts of a sign. The epenthesis is where
hands transit from the end-point of a sign to
the begin-point of the next sign. Many
researches uses hand velocity as the cue for
gestures segmentation. Tanibata et al. |10|
separated pose and motion with the
assumption that pose has the small velocity
while motion has large velocity. In addition,
the large changes of hand motion were
considered as the cues of borders. Sagawa
and Takeuchi [6] proposed the similar
approach. Besides, they also considered the
noise made by unstable gesture. They
excluded them by comparing the sum of
maximum velocities of two adjacent

candidates to predefined thresholds. The
meaning motions and transitions are
separated by acceleration in which motions
have the minimum acceleration. This
method was applied for 100 words of
Japanese Sign Language, and got 80.2%
accuracy. Another approach in [14] uses
iime-varying parameters (TVP) as the cues to
detect the correct postures which have the
number of TVPs dropping below a threshold.
Gaolin Fang et al. [31 proposed a more
effective method. Simple Recurrent Network
(SRN) was used to classify gesture into three
output units: the left boundary, the right
boundary, and interior of segments. Using
SRN independently, the accuracy of
segmentation IS 87%. Hence, self organizing
feature maps (SOFM) was added. It was used
as the feature extraction network providing
inputs for SRN. It can determine the left
boundary and right boundary, used as
constraint in the segmentation. With this
method, the segmentation recall reaches to
98.8%.
Beside gestures, finger spelling plays an
important role in sign language. In this
manner, finger postures corresponding to
letters of the alphabet are presented
sequentially and conform to the spelling rules
to make a word. The segmentation for finger

spelling concentrates on marking the points
where valid postures occur. Some approaches
require unnatural performance to mark the
valid segments such as inserting marks [2] or
keeping a posture about one minute before it
is recognized [16]. Harling et al. [12]
calculated hand tension and used it as the cue
to detect segmentation. The relaxed gestures
have less tension than posturing. The
transition from one intentional posture to the
next intentional posture goes through a
relaxed hand state, which is used to detect
letter borders. However, this method is only
tested on a small scale and suitable for
systems based on device based approach. Wu
et al. 18] based on the difference between
current frames and means to separate the
moving and steady. H. Birk et al. [5] used
two motion cues to solve the temporal
segmentation. In addition, they considered to
th e c a s e that th e sa m e lette r is re p ea ted , e.g.
le tte r 1 in hello. The third cu e IS b as ed on the
view that there is a small amount of motion
between them. Three cues are combined with
AND operation to obtain final decision. R.
Erenshteyn et al. [13] recognized letters in
real time and then used two filters for
N.T.N. Thanh, B.T.Duy / VNU journal of Science, Natural Sciences and Technology 24, No. 3S (2008) 82-89 84
segmentation of dynamic signing. A low pass
filter relies on the difference between frames.

The derivative analysis provides the
foundation for the second filter. In this filter,
the end point of a letter is where there is
greatest variation of recognition results and
meets an additional minimum proximity
heuristic. The recognition is performed at the
midpoints of the segments. The segmentation
accuracies of two filters are 87.8% and
92.3%, respectively. Nevertheless, the first
filter leaves many redundant segments, and
the second deletes extra middle points.
In this paper, we propose a new
framework for automatic gesture
segmentation of Vietnamese Sign Language.
We concentrate on finger spelling
segmentation. In our framework, a number of
techniques are applied sequentially to
identify the valid segment for each letter in
the time serial data. Firstly, hand velocity is
calculated to find the stable candidates where
velocities decrease to a certain threshold.
Then, we apply a filter based on the signing
rate featured by the posturing duration to
remove redundant segments. A represented
value of each valid segment is calculated to
be the input of a letter recognition system.
After that, words are segmented from the
sequence of recognized letters based on
maximal matching to predefined words in a
Vietnamese dictionary. With our framework,

a sentence presented by finger spelling can
be segmented fast and correctly. By
combining segmentation techniques, our
framework has proved to be more effective
than existing methods. The signing rate filter
based on posturing duration works well in
eliminating superfluous segments. The
problem of two adjacent letters referring to
the same value (ex: “hello”, “litter”) as
mention in [51 is solved by this filter.
Moreover, the segmentation of words in a
sentence IS considered in our framework We
performed an experiment applied this
framework and obtained the promising
results. We archived high recall rate and
precision rate, 94.95% and 95.27%,
respectively. Words are also segmented with
high rate.
The rest of the paper is organized as
follows. In section 2 we propose the
segmentation framework and related
techniques in detail. Section 3 shows the
experimental results and discussion.
2. Segmentation framework
The segmentation framework focuses on
separating letters and words from a time-
serial data of a sentence presented by finger
spelling. Firstly, hand velocity is calculated
to find the stable candidates where velocities
decrease to predefined threshold. However,

many redundant segments are found together
with valid segments because this technique is
very sensitive with noises. Therefore, in the
next step, we apply a filter based on the
sig n in g rate w h ic h fea tu re s w ith the
posturing duration to remove superfluous
candidates. The letter value and the average
of weighted sum of values in a selected
segment are used for recognition. After that,
words need to be recognized from the
sequence of recognized letters. Word
segmentation is not required if the signer is
forced to place a special sign after each
word. However, that is not a natural way of
signing. In order to separate word
automatically from a sequence of characters,
we use the maximal matching approach with
the presence of a Vietnamese dictionary. This
approach is also used to correct mis-
recognized letters.
2.1. Letter segmentation by hand velocity
This technique is based on the nature of
finger spelling. In this manner, letters are
signed sequentially following the spelling
N.T.N. Thanh, B.T.Duy / VNU Journal of Science, Natural Sciences and Technology 24, No. 3S (2008) 82-89 85
grammar. Each letter is presented by a posture
described by hand shape and palm orientation.
Postures have to be stable to recognize.
Therefore, postures are corresponding to
segments having low hand velocity, while

transitions are vise versa as mentioned in
[6][10][5]. Based on hand parameters, hand
velocity is calculated and compared with
predefined threshold to find the candidates for
the next step.
2.2. Letter segmentation by signing rate filter
Based on hand velocity techniques, most of
valid segments are detected. However, the
subtle changes of the hand velocity in unstable
postures or noise make many superfluous
candidates. Fortunately, a signer has to hold a
posture enough long for other people to
recognize. Therefore, in order to remove
superfluous candidates, we propose a letter
signing rate filter. Letter signing rate refers to
the duration of signing a posture. At each
segment candidate, we calculate the letter
signing rate and compare to experimentally
chosen thresholds (low threshold and high
threshold). A valid segment is the one with
posturing duration in between two thresholds
(see Figure 1).
pasture
Figure 1. The posture is hold at suitable duration
between signing rate low threshold and signing rate
high threshold
2.3. Letter recognition
At each valid segment, we calculate the
represented value of the segment which is used
for recognition. This value is calculated as the

average of sum of corresponding values in a
selected number of segments (Equation 1):
d(k) - {p(i,k),i = 0 17} (1)
p ơ . o
p(i,k) = — —
N
where d(k) is the represented value of
segment k, p(i, k) is the average value of sensor
i at segment k, P(i, t) is the value of sensor i at
frame t, and N is the number of frames in
segment k.
We applied the classification method
mentioned in [17], 23 letters (A, B, c, D, Đ, E,
G, H, I, K, L, M, N, o, p, Q, R s ’ T, u, V, X,
and Y) of Vietnamese Sign Language alphabet
are recognized with high recognition accuracy.
In this paper, we have not considered
letters with diacritical signs {e.g. Ả, Ả, 0, ơ, E,
Ư) and tones (e.g. level, high rising, low
(falling), dipping rising, high rising glottalized,
and low glottalized) of the Vietnamese
alphabet. Each diacritical sign is presented by
an independent sign and follows a particular
letter to form another. Each tone is formed by a
sign combined with a motion. Therefore, the
segmentation for them is carried out after the
recognition phase and needs additional
techniques.
3. Experiment and discussion
3.1. Data collection and pre-processing

We used 5DT Data Glove 5 [3] as an input
device for our system. The data glove has 18
sensors corresponding to ten positions on
fingers (thumb near, thumb far, index near,
index far, middle near, middle far, ring near.
N.T.N. Thanh, B.T.Duy / VNU journal of Science, Natural Sciences and Technology 24, No. 3S (2008) 82-89 86
ring far, litter near, litter far), four positions
between fingers (thumb/index, index/middle,
middle/ring, ring/litter), and a position on the
back of the hand. Sensors measure and return
values of finger’s flexure, finger’s spread, and
the pitch and roll of the hand. After calibration
and normalization, the sensor values are in the
range from 0 to 1 (see Figure 2).
We performed the experiment on 594
samples of 23 letters in Vietnamese alphabet. In
the pre-processing phase, data received from
sensing glove is smoothed by Gaussian filter
(see Figure 3) based on the Gaussian
distribution in 1-D with the standard deviation
of the distribution as 1 (Equation 2).
1
G(x) = — J = e 2gl where s ~ 1 (2)
5^2ĩc

- S '
_ l ^
——



1» w r . . -
1 J
1 4 7 10 13 16 19 22 25 2fl 31 34 37 40 43 46 49 52 S5 56 61 64 67 70 73 76 79 82 65
Figure 2. Raw data.
1 A 7 to 13 16 19 22 25 2B 31 34 37 40 43 46 49 52 55 58 61 M 67 70 73 78 79 B2 B5
Figure 3. Data is smoothed with Gaussian Filter.
3.2. Segmentation with hand velocity and
signing rate filter
With the data collected from the Data
Glove, the hand velocity was calculated by
Equation 3 at every frame:
ỀlPí/.O-PO í-i)!
v(0 = —

77

(3)
N
where P(i, t) is the value of sensor i at
frame t, and N is the number of sensors.
The adjacent frames form a candidate if the
velocities at these frames are lower than a
threshold. Almost of all segments including
postures are detected by this technique.
However, the number of superfluous segments
is rather large. The reason is that unstable
postures, e.g. the third segment in Figure 5, or
slow movement parts of the hand, e.g. the
fourth segment in Figure 5, create invalid
segments (noises). We found that noise is often

slighter and faster than posture. Besides, too
long segments are also abnormal. In most cases,
they are found by wrong velocity segmentation
rather than formed by signers. Therefore, they
are often redundant (see Figure 6). We calculate
the posturing duration at each segment
candidate. In this experiment, the segment is
rejected if its posturing duration is lower than
the empirically determined threshold of 150ms
or higher than the empirically determined
threshold of 1500ms.
In addition, Vietnamese Sign Language
also has to face the problem of two adjacent
letters, similar to two I in hello in American
Sign Language. As being analyzed in [5], there
is a small amount of motion between them.
Therefore, signing rate filter which is based on
posturing duration can solve it (Figure 7).
Figure 4. Valid segm ents o f the word
“C H U A ”.

×