recognizing the sign language of people with disabilities using computer vision

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.88 MB, 14 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>I H C BÁCH KHOA HÀ N I </b>

Trường Điện-Điện T ử

<b> TECHNICAL WRITING AND PRESENTATION </b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>LỜI NÓI ĐẦU </b>

Khiếm khuy t v khế ề ả năng nói là một khi m khuy t l n trong vi c giao ti p ế ế ớ ệ ếbằng lời nói c a m t cá nhân. Trong cu c s ng ln c n có s giao ti p gi a mủ ộ ộ ố ầ ự ế ữ ọi ngườ ới v i nhau. Vì vậy để khắc phục, ngơn ngữ kí hiệu đượ ạo ra. Tuy nhiên, c tchúng ta c n ph i có h ầ ả ệ thống ph n mầ ềm ứng dụng nào đó để có th hiể ểu được các ngơn ng ký tữ ự đó dành cho những người không hi u bi t v ngơn ng kí tể ế ề ữ ự đóvẫn có th giao tiể ếp được với người khiếm khuyết.

Hiện nay trên th giế ới cũng như trong nước đã có nhiều nghiên c u v h ứ ề ệ thống này, s dử ụng phương pháp xử lí hình nh k t h p v i h c máyả ế ợ ớ ọ . Xử ảnh để ử lí x lí ban đầu, trích suất ra ph n hình nh c n thiầ ả ầ ết. Từ nh ng hình ữ ảnh đó đối chi u vế ới tập d ữ liệu đã được tạo ra để phát hi n kí t . ệ ự

Bài báo cáo này s trình bày v nh ng tìm hi u c a em v bài toán phát hi n ẽ ề ữ ể ủ ề ệngôn ng kí t bữ ự ằng phương pháp học máy ế ợ k t h p v i x ớ ử lí ảnh.

Em xin cảm ơn thầy Nguy n Ti n Hòa cùng các bễ ế ạn đã tạo ra m t m u template ộ ẫtuyệt vời để chúng em có th s dể ử ụng. Và em cũng cảm ơn thầy đã hướng dẫn chúng em tận tình trong mơn technical này. Em xin trân thành cảm ơn!

Sinh viên thực hiện

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI ... 1</b>

1.1 Giới thiệu chung ... 1

1.2 Phạm vi tìm hi u ... 1ể<b>CHƯƠNG 2. NHẬN DẠNG NGÔN NGỮ KÝ HIỆU ... 2</b>

2.1 Ngơn ngữ kí hi u ... 2ệ2.2 Thuật toán đề suất ... 2

<b>TÀI LIỆU THAM KH O ... 9</b>Ả

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>DANH MỤC HÌNH V </b>Ẽ

Hình 1 Bảng kí hi u ch ệ ữ cái c a Anhủ ... 2Hình 2 Khu vực quan tâm trong khung màu xanh ... 3Hình 3 Hình ảnh thang độ xám được chuẩn hóa ... 3Hình 4 Hình nh t lả ỷ ệ xám được thay đổi kích thước thành 28x28 và nh ng hình ữảnh này được sử dụng để tạo tập dữ liệu. ... 4Hình 5 Các bước xử lí ảnh ... 4Hình 6 các chữ cái đư c đánh sợ ố ... 6Hình 7 Độ chính xác của mơ hình cho dữ liệu đào tạo và th nghiệm ... 7ửHình 8 Hình ảnh đầu ra ... 7

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

CNN ROI RGB SHV

Convolutional Neural Network

Region of interest

Không gian màu( Red, Green, Blue) Hue, Saturation, Value

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

CHƯƠNG 1. ỔNG QUAN ĐỀ<b> T TÀI 1.1 Giới thiệu chung </b>

Giao ti p b ng ti ng nói là vô cùng quan tr ng trong cu c s ng và ch nh ng ế ằ ế ọ ộ ố ỉ ữngười mất đi khả năng đó mới thấy đượ ầm quan trọng của nó. Theo các chuyên c tgia c a Orfield lab, mủ ột người bình thường có thể bị “phát điên” chỉ sau 45 phút ởtrong căn phòng im lặng mà họ đã tạo ra. Vậy mà những người câm vs điếc phải đối mặt v i sự im lặng đó trong suốt cả một cu c đ i. Theo thớ ộ ờ ống kê năm 2020, ởnước ta có khoảng 1 đến 2,5 triệu người câm điếc và khi m thính [3]. ế Để họ có th ểgiao ti p v i nhau và v i mế ớ ớ ọi người xung quanh, ngơn ng kí hiữ ệu đượ ạo ra đểc tthực hiện điều đó.

Ngơn ng kí hi u dùng c ữ ệ ử chỉ tay, nét m t hay hình th ặ ể để truy n t i n i dung. ề ả ộMỗi một cử chỉ đều có một ý nghĩa riêng biệt. Tuy nhiên để giao tiếp được b ng ằngôn ng kí hiữ ệu thì người ta c n có ki n th c v ngơn ng kí hiầ ế ứ ề ữ ệu. Điều này gây ra khó khăn cho người khiếm khuyết trong việc giao tiếp với người khơng có kiến thức v ngơn ng kí hi u. Vì v y c n có mề ữ ệ ậ ầ ột phương pháp để giúp phát hi n và ệhiểu được ngơn ngữ kí hiệu dễ dàng hơn.

<b>1.2 Phạm vi tìm hi u </b>ể

Nhận d ng ngơn ng có th ạ ữ ể được chia làm 2 lo i: Nh n d ng kí t riêng l và ạ ậ ạ ự ẻnhận d ng kí t liên tạ ự ục. Nhận d ng kí t riêng l x lí các hình nh kí t có tính ạ ự ẻ ử ả ựổn định. Nhận dạng kí tự liên tục theo dõi cử chỉ và quyết định dấu hiệu dựa trên các chuyển động trên khung hình.

Trong bài này, chúng ta s tìm hi u vẽ ể ề phương pháp nhận d ng ngôn ng ạ ữriêng lẻ. S d ng 24 kí hi u ch ử ụ ệ ữ cái để ạ ậ t o t p d u. ữ liệ

Sử dụng phương pháp xử lí hình ảnh kết hợp với học máy. X lí hình ử ảnh đểxử lí các bức ảnh đưuọc chụp, t o ra t p dạ ậ ữ liệu để đưa vào giai đoạn học máy.

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>CHƯƠNG 2. NHẬN DẠNG NGÔN NGỮ KÝ HIỆU 2.1 Ngơn ngữ kí hiệu </b>

Ngơn ng kí hi u là m t ngơn ng có c u trúc. M i c ữ ệ ộ ữ ấ ỗ ử chỉ tay tương ứng với một ch cái khác nhau. Liên k t các kí hi u l i s cho ra mữ ế ệ ạ ẽ ột thơng tin nào đó. Mỗi một qu c gia có ngơn ng khác nhau vì v y kí hiố ữ ậ ệu cũng sẽ có s khác nhau. Tuy ựnhiên v n có s ẫ ự tương đồng v i nhau. ớ

Hình 1 là m t ví d v b ng ch cái kí hiộ ụ ề ả ữ ệu Anh. Cũng khá tương đồng với tiếng Vi t ta. ệ

Hình 1 B ng kí hi u ch cái c a Anh ả ệ ữ ủ

<b>2.2 Thuật toán đề suất </b>

Phần này s cung c p cái nhìn t ng quan v ẽ ấ ổ ề phương pháp và thuật toán được sử d ng trong dụ ựu án này. Chia thành 2 giai đoạn: x lí hình nh và h c máy. T ử ả ọ ừnhững hình nh thu thả ập được, s ẽ được x lí và t o ra t p d u x d ng cho quá ử ạ ậ ữ liệ ử ụtrình h c máy , s d ng trong thu t toán CNN (ọ ử ụ ậ Convolutional Neural Network hay là mạng nơ ron tích chập)[4] .

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Ban đầu, hình ảnh bàn tay được ch p s ụ ẽ được x lí. Mử ột khung được v ẽ ra để bao quanh đối tượng c n quan tâm. Chúng ta ch ầ ỉ quan tâm đến hình ảnh trong vùng ROI-region of interest[5]. Công việc ban đầu này là c n thi t vì m i bầ ế ỗ ức ảnh có kích thước và t l khác nhau, ta c n th c hi n công viỉ ệ ầ ự ệ ệc trên để đảm bảo tính đồng nhất trong tập d ữ liệu.

Hình 2 Khu v c quan tâm trong khung màu xanh ự

Hình ảnh ban đầu định dạng RGB sẽ được chuyển sang định dạng HSV đểphát hi n màu da c a bàn tay trong các nệ ủ ền khác nhau. Sau đó một m t n cho da ặ ạtay được tạo ra. Mặt nạ này tiếp tục được xử lí hình ảnh khác như làm mịn, giảm nhiểu, co dãn và một số công việc c n thi ầ ết.

Sau đó bức ảnh sẽ được xám hóa ở thang 28x28 để việc tính tốn trong các quy trình sau tr lên dở ẽ dàng hơn. Những hình nh xám hóa ti p tả ế ục được đưa vềma trận hàng 1x 784 để lưu đến cơ sở ữ liệ d u. sau đó được đưa vào thuật tốn CNN.

Hình 3 Hình ảnh thang độ xám được chu n hóa ẩ

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

chuyển đổi từ hình ảnh Màu.

Hình 4 Hình nh t l ả ỷ ệ xám được thay đổi kích thước thành 28x28 và nh ng hình nh ữ ảnày được sử dụng để tạo tập dữ liệu.

Dưới đây là sơ đồ các bước thực hiện thuật tốn

Hình 5 Các bước x ử lí ảnh

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

Giai đoạn để phát hiện các đặc điểm khác nhau của bàn tay và phân loại các cử chỉ tay tương ứng với các chữ cái khác nhau. Thuật toán CNN có vai trị chủ đạo trong việc phân biệt các đặc điểm của hình ảnh đầu vào. CNN được phát triển từ vi c l y cệ ấ ảm ứng t cách th c hoừ ứ ạt động c a các t bào th n kinh não b con ủ ế ầ ộngười nên có cấu trúc tương tự.

Trong thí nghi m này, các l p ệ ớ CNN được s dử ụng để thiế ế ột k m t mơ hình. Các chức năng sẵn có của thư viện Keras được s dử ụng để x p ch ng các l p CNN. ế ồ ớTập dữ liệu được đọc bằng thư viện Pandas của Python và 15% dữ liệu được lưu giữ để thử nghi m và dệ ữ liệu còn lại đượ ử ụng đểc s d hu n luy n mơ hình. B d ấ ệ ộ ữliệu g m 240 ồ ảnh, mỗi ký t ự chữ cái có 10 ảnh. Hai bi n báo J và Z yêu c u chuyể ầ ển động không thuộc tập dữ liệu này.

Sau đây là mơ tả thuật tốn CNN:

Hình ảnh trong t p d u liậ ữ ệu đang ở ạ d ng ma tr n 1x784, vì v y chúng lậ ậ ại đưuọc chuẩn về dạng ma trận kích thước 28x28x1. Ma trận này được chuyển đến lớp tích ch p ch a 32 hậ ứ ạt nhân khác nhau để phát hiện các tính năng khác nhau. Các h t nhân này có th ạ ể có kích thước 3x3 ho c 5x5 và ngta ặ đã sử dụng kích thước 5x5 ở đây. Sau khi tích chập, 32 k t qu ế ả đầu ra khác nhau thu được t l p tích ch p ừ ớ ậđược gộp lại. L p tổng h p tớ ợ ối đa 2x2 được sử dụng giúp giảm kích thước hình ảnh bằng cách lo i bỏ dữ liệu dư thừa ho c không quá quan trọng. ạ ặ

Cùng v i tích ch p trong lớ ậ ớp đầu vào và l p n, chớ ẩ ức năng kích hoạt ReLU được sử dụng để loại bỏ giá tr âm. B c c chung c a t t c các lị ố ụ ủ ấ ả ớp này được hiển thị trong Hình 5. Sau khi di chuyển xa hơn, số lượng hạt nhân được lớp chập sử dụng nhiều hơn, giống như lớp ch p th hai s d ng 64 h t nhân. Vậ ứ ử ụ ạ ề cuố ữ liệi d u được làm phẳng để ạ t o thành m t lộ ớp được k t nế ối đầy đủ. Đối v i lớ ớp đầu ra thay vì ReLU, chức năng kích hoạt Softmax được s d ng vì nói mử ụ ột cách đơn giản hơn, Softmax cung cấp xác suất về vị trí của đầu ra như xác suất là 99% đầu ra đó ở vị trí th 3 ho c h ng 3. Vì vứ ặ ạ ậy, con người có th d dàng hiể ễ ểu được d u xác ữ liệsuất đó và quyết định đầu ra. Các bước này được lặp lại theo các kỷ ngun. Sau đó, độ chính xác của phương pháp được tính tốn và hi n th . Sau khi ki m tra tính ể ị ểnăng phát hiện tay theo thời gian thực bắt đầu và theo lớp dấu hiệu của hình ảnh được hiển th . ị

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Hình 6 các ch ữ cái được đánh số

Độ chính xác và tổn thất đư c tính tốn cho cả tập dữ liệu huấn luyện và thử ợnghiệm sau m i kỗ ỷ nguyên và được vẽ trong hình dưới đây, độ chính xác có xu hướng tăng ở đây. Các kết quả hiển thị bên dưới có phân loại các dấu hiệu được phát hi n. Các kệ ết quả được chụp có ch ủ đích trong các điều ki n ánh sáng và n n ệ ềkhác nhau để ểm tra độ ki bền của thuật toán và cách thuật toán phản ứng khi môi trường thay đổi. S lố ớp được hi n th bể ị ằng màu đỏ trên hình ảnh b ng cách s d ng ằ ử ụxử lý hình ảnh để có kết quả phát hi n theo thệ ời gian thực.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Hình 7 Độ chính xác c a mơ hình cho d ủ ữ liệu đào tạo và th nghi m ử ệ

Dưới đây là hình ảnh đư c chợ ụp trong các điều kiệu ánh sáng khác nhau và trong b i c nh khác nhau. Tuy nhiên nó v n có th phát hiố ả ẫ ể ện và có độ chính xác khá cao 83%.

Hình 8 Hình ảnh đầu ra

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<b>CHƯƠNG 3. KẾT LUẬN 3.1 Kết luận </b>

Dự án nh n d ng ngơn ng kí hiậ ạ ữ ệu được th c hiự ện để giúp cho các cá nhân không may m n b khi m khuy t có th giao ti p v i th giắ ị ế ế ể ế ớ ế ới bên ngoài, đặc biệt là vi c giao ti p v i nhệ ế ớ ững người khơng bi t ngơn ng kí hi u m t cách d dàng ế ữ ệ ộ ễhơn. Dự án có 2 phần chính cần thực hiện: thứ nhất là xử lí ảnh để nhận diện màu da và l y phấ ần đối tượng c n quan tâm. Th hai là vi c h c máy thông qua viầ ứ ệ ọ ệc ứng dụng thuật tốn CNN. V i độớ chính xác của thí nghiệm lên t i 83% , vì vậy ớdựu án có th phát tri n thêm và ng d ng vào trong cuể ể ứ ụ ộc sống.

<b>3.2 Hướng phát triển </b>

Có thể phát tri n thêm dể ự án để tăng độ chính xác c a bài toán. ủ

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<b>TÀI LIỆU THAM KH O </b>Ả

[1] Ketan Gomase, "Sign Language Recognition using Mediapipe", IRJET, 2022. [2]

[3]

[4] [5]

Jinalee Jayeshkumar Raval, “Real-time Sign Language Recognition using Computer Vision,” ICPSC, 2021.

VOV Giao Thông, 2020, available at: dich-vien-benh-nhan-dac-biet-thiet thoi- -ve- -hoi-co cham-soc-y- -te

</div>