Tải bản đầy đủ (.pdf) (85 trang)

Khóa luận hệ thống nhận diện ngôn ngữ ký hiệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.37 MB, 85 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN
KHOA CƠNG NGHỆ PHẦN MỀM

CAO MINH HUY

KHĨA LUẬN TỐT NGHIỆP

HỆ THỐNG
NHẬN DIỆN NGÔN NGỮ KÝ HIỆU
System supports Sign language recognition

KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM

TP. HỒ CHÍ MINH, 2021


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM

CAO MINH HUY – 16520502

KHĨA LUẬN TỐT NGHIỆP

HỆ THỐNG
NHẬN DIỆN NGƠN NGỮ KÝ HIỆU
System supports Sign language recognition
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM



GIẢNG VIÊN HƯỚNG DẪN
TS. NGUYỄN QUANG ANH
ThS. NGUYỄN CÔNG HOAN

TP. HỒ CHÍ MINH, 2021


THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
…………………… ngày ………………….. của Hiệu trưởng Trường Đại học Công
nghệ Thông tin.
1.......................................................... -Chủ tịch.
2.......................................................... -Thư ký.
3.......................................................... -Ủy viên.
4.......................................................... -Ủy viên.


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC

Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN
TP. HCM, ngày 26 tháng 06 năm 2021

NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP

(CỦA CÁN BỘ HƯỚNG DẪN)
Tên khóa luận:
HỆ THỐNG NHẬN DIỆN NGƠN NGỮ KÝ HIỆU
Nhóm SV thực hiện:

Cán bộ hướng dẫn:

Cao Minh Huy

16520502

TS. Nguyễn Quang Anh
ThS. Nguyễn Cơng Hoan

Đánh giá Khóa luận
1. Về cuốn báo cáo:
Số trang

_______

Số chương

_______

Số bảng số liệu

_______

Số hình vẽ


_______

Số tài liệu tham khảo

_______

Sản phẩm

_______

Một số nhận xét về hình thức cuốn báo cáo:
……………………………………………………………………….................
……………………………………………………………………….................
……………………………………………………………………….................
2. Về nội dung nghiên cứu:
……………………………………………………………………….................
……………………………………………………………………….................
……………………………………………………………………….................
3. Về chương trình ứng dụng:


……………………………………………………………………….................
……………………………………………………………………….................
……………………………………………………………………….................
4. Về thái độ làm việc của sinh viên:
……………………………………………………………………….................
……………………………………………………………………….................
……………………………………………………………………….................
Đánh giá chung:
………………………………………………………………………………….

………………………………………………………………………………….
………………………………………………………………………………….
Điểm từng sinh viên:
Cao Minh Huy: …/10

Người nhận xét
(Ký tên và ghi rõ họ tên)

ThS. Nguyễn Công Hoan


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC

Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN
TP. HCM, ngày 26 tháng 06 năm 2021

NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ PHẢN BIỆN)
Tên khóa luận:
HỆ THỐNG NHẬN DIỆN NGƠN NGỮ KÝ HIỆU
Nhóm SV thực hiện:

Cán bộ hướng dẫn:


Cao Minh Huy

16520021

TS. Nguyễn Quang Anh
ThS. Nguyễn Cơng Hoan

Đánh giá Khóa luận
1. Về cuốn báo cáo:
Số trang

_______

Số chương

_______

Số bảng số liệu

_______

Số hình vẽ

_______

Số tài liệu tham khảo

_______

Sản phẩm


_______

Một số nhận xét về hình thức cuốn báo cáo:
……………………………………………………………………….................
……………………………………………………………………….................
……………………………………………………………………….................
2. Về nội dung nghiên cứu:
……………………………………………………………………….................
……………………………………………………………………….................
……………………………………………………………………….................
3. Về chương trình ứng dụng:


……………………………………………………………………….................
……………………………………………………………………….................
……………………………………………………………………….................
4. Về thái độ làm việc của sinh viên:
……………………………………………………………………….................
……………………………………………………………………….................
……………………………………………………………………….................
Đánh giá chung:
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….
Điểm từng sinh viên:
Cao Minh Huy: …/10

Người nhận xét
(Ký tên và ghi rõ họ tên)


ThS. Phan Trung Hiếu


LỜI CẢM ƠN
Sau hơn 4 năm học tập và rèn luyện tại Trường Đại Học Công Nghệ
Thông Tin, được sự chỉ bảo và giảng dạy nhiệt tình của quý thầy cô, đặc biệt
quý thầy cô trong khoa Công Nghệ Phần Mềm, em đã học tập được rất nhiều
kiến thức bổ ích về lý thuyết và thực hành trong thời gian qua. Trong khoảng
thời gian thực hiện luận văn tốt nghiệp, em càng học hỏi thêm được nhiều kiến
thức, kinh nghiệm để áp dụng và đã hoàn thành được luận văn tốt nghiệp.
Xin chân thành cảm ơn quý thầy cô Khoa Công Nghệ Phần mềm, đặc biệt
là thầy Nguyễn Quang Anh và thầy Nguyễn Cơng Hoan đã tận tình hướng dẫn
em hồn thành luận văn tốt nghiệp này.
Bên cạnh đó, một lần nữa xin cảm ơn nhóm các bạn cùng lớp làm khóa
luận đã động viên, thảo luận và góp ý cho nhóm đồng thời đã khơi thêm nguồn
động lực cho nhóm để tiếp thêm động lực cho nhóm trong giai đoạn đầy khó
khăn. Ngồi ra, chúng em cũng cảm ơn các anh, chị, bạn bè và gia đình đã giúp
đỡ và tạo điều kiện cho chúng em hoàn tất luận văn này.
Mặc dù đã rất cố gắng, tuy nhiên vì khả năng giới hạn nên vẫn không
tránh khỏi những sai sót, em rất mong nhận được sự thơng cảm và góp ý chân
tình từ q thầy cơ và các bạn. Một lần nữa xin được chân thành cảm ơn mọi
người.
Thành phố Hồ Chí Minh, tháng 7 năm 2021

CAO MINH HUY


ĐHQG TP. HỒ CHÍ MINH.
TRƯỜNG ĐẠI HỌC

CƠNG NGHỆ THƠNG TIN

CỘNG HOÀ XÃ HỘI CHỦ NGHĨA
VIỆT NAM
Độc Lập – Tự Do – Hạnh Phúc

ĐỀ CƯƠNG CHI TIẾT

TÊN ĐỀ TÀI: HỆ THỐNG NHẬN DIỆN NGÔN NGỮ KÝ HIỆU

Cán bộ hướng dẫn:
-

ThS. Nguyễn Công Hoan

-

TS. Nguyễn Quang Anh

Thời gian thực hiện: Từ ngày 08/03/2021 đến ngày 26/6/2021
Sinh viên thực hiện:
Cao Minh Huy – 16520502
Nội dung đề tài:
Mục tiêu:
• Nghiên cứu, tìm hiểu các thuật tốn, mơ hình trong Deep Learning
• Nghiên cứu, tìm hiểu các model phục vụ máy học và nhận dạng hình ảnh
• Huấn luyện mơ hình được lựa chọn để nhận dạng ngơn ngữ ký hiệu
• Xây dựng ứng dụng minh họa nhận diện ngơn ngữ ký hiệu
Phạm vi:
Mơ hình đáp ứng nhận dạng ngôn ngữ ký hiệu bao gồm 24 ký tự theo chuẩn ASL

trừ ký tự ‘J’ và ‘Z’
Đối tượng nghiên cứu:
• Tensorflow, OpenCV, Object-Detection API
• Các nền tảng và công cụ hỗ trợ việc thực hiện mô hình (Anaconda3)


Phương pháp thực hiện:
Thực hiện đề tài theo các bước:
• Khảo sát đề tài
• Phân tích và nghiên cứu đề tài
• Thiết kế cơ bản các yêu cầu
• Nghiên cứu cơng nghệ để áp dụng
• Phát triển sản phẩm qua các giai đoạn
• Kiểm thử và hồn thiện

Kết quả mong đợi:
• Phân tích, tìm hiểu rõ các cơng nghệ để thiết kế mơ hình
• Thiết kế mơ hình nhận diện ngơn ngữ ký hiệu từ các cơng nghệ tìm hiểu:
Tensorflow, OpenCV, Object-Detection API của Tensorflow,…
• Triển khai mơ hình nhận diện ngơn ngữ ký hiệu dựa trên đó.


Kế hoạch thực hiện:
Công việc

STT

Thời gian
thực hiện


Phase 1: Khảo sát, nghiên cứu các công nghệ và thiết kế mô

16 tuần
(08/03/2021 –

hình

3/5/2021)
1
1.1

Sprint 1: Tìm hiểu deep learning
– Deep Learning là gì?

Tuần 1 - 3

– Neural network là gì?
– Lựa chọn vấn đề để giải quyết
2
2.1

(08/03/2021 22/03/2021)

Sprint 2: Tìm hiểu các mơ hình thực tế,
xác định các thành phần trong mơ hình
– Tìm hiểu: Các mơ hình nghiên cứu trên thị

Tuần 4 - 6
(23/03/2021 05/04/2021)


trường, Tensorflow, OpenCV
Sprint 3: Cài đặt và xây dựng mội trường
3
3.1

– Cài đặt môi trường làm việc Anaconda3 và
Jupyter Notebook

Tuần 7 - 11
(06/04/2021 –
03/05/2021)

– Cài đặt và thử nghiệm các công nghệ: OpenCV,
Tensorflow
4

Sprint 4: Nghiên cứu nhận diện ngôn ngữ ký hiệu
Tuần

4.1

Nghiên cứu và xây dựng công cụ nhận diện ngơn ngữ ký
hiệu

Phase 2: Hồn thiện và kiểm thử mơ hình

12 - 16
(04/05/2021 –
31/05/2021)


4 tuần
(01/06/2021 – 26/06/2021)

5

Sprint 5: Hồn thiện mơ hình
- Hồn thiện mơ hình

5.1

Tuần 16 - 18


(01/06/2021 14/06/2021)
6

- Sprint 6: Kiểm thử

6.1

- Kiểm thử
- Đánh giá

Tuần 18 - 20
(15/06/2021 26/06/2021)

Xác nhận của CBHD

TP.HCM, ngày 26 tháng 06 năm


(Ký tên và ghi rõ họ tên)

2021
(Ký tên và ghi rõ họ tên)

Cao Minh Huy


MỤC LỤC

Mục lục
TÓM TẮT KHÓA LUẬN ..................................................................................1
MỞ ĐẦU ............................................................................................................2
Lý do chọn đề tài: ...........................................................................................2
Chương 1. TỔNG QUAN ĐỀ TÀI.....................................................................3
1.1

Mục tiêu và phạm vi..............................................................................3

1.1.1

Mục tiêu ..........................................................................................3

1.1.2

Phạm vi ...........................................................................................3

1.2

Nội dung thực hiện ................................................................................3


Chương 2. DEEP LEARNING LÀ GÌ ...............................................................4
2.1. Lịch sử hình thành .................................................................................4
2.2. Deep Learning là gì? .............................................................................5
2.3. Artificial Neural Network .....................................................................7
2.4. Deep Neural Network ...........................................................................8
2.5. Loss Function ......................................................................................10
2.6. Activation Function.............................................................................11
2.7. Gradient Descent .................................................................................14
2.8. Convolutional Neural Network ...........................................................15
Chương 3. CỞ SỞ LÝ THUYẾT .....................................................................19
3.1. Anaconda.............................................................................................19
3.1.1. Jupyter Notebook ............................................................................19
3.2. TensorFlow .........................................................................................21


3.2.1. Data Flow Graph ............................................................................21
3.2.2. Data Flow Graphs trong TensorFlow .............................................23
3.3. MobileNET ........................................................................................25
3.3.1. MobileNET là gì? ...........................................................................25
3.3.2. Kiến trúc mạng MobileNET? .........................................................25
3.3.2.1. Depthwise Separable Convolution ..............................................25
3.3.2.2. Kiến trúc MobileNET ..................................................................28
3.3.2.3. So sánh MobileNET với các mơ hình State of
the art (SOTA) ..............................................................................30
3.4. Các mơ hình nhận dạng hình ảnh ......................................................30
3.4.1. Một số khái niệm cơ bản ................................................................30
3.4.1.1. IoU (Intersection over Union) .....................................................30
3.4.1.2. Anchor box ..................................................................................32
3.4.1.3. Non Max Suppression (NMS) .....................................................33

3.4.1.4. Image Classfication, Image Localization và
Object Detection ...........................................................................33
3.4.2. Một số mô hình nhận dạng hình ảnh ..............................................35
3.4.2.1. R-CNN (Regional Convolutional Neural
Network) .......................................................................................35
3.4.2.2. Fast R-CNN .................................................................................38
3.4.2.3. Faster R-CNN ..............................................................................40
3.4.2.4. YOLO (You Only Look Once) ....................................................42
Chương 4. XÂY DỰNG ỨNG DỤNG NHẬN DIỆN NGÔN
NGỮ KÝ HIỆU ................................................................................................46


4.1. Trình bày ý tưởng ................................................................................46
4.2. Khái quát, tổng quan ý tưởng ..............................................................47
4.3. Các Use case của đề tài .......................................................................47
4.3.1. Input data ........................................................................................47
4.3.2. Phân tích dữ liệu .............................................................................48
4.3.3. Train model .....................................................................................49
4.3.4. Thử nghiệm model ..........................................................................49
4.4. labelImg...............................................................................................50
4.5. Mô phông thực tế ................................................................................50
4.5.1. Nguồn dữ liệu và mô tả tập dữ liệu ................................................50
4.5.2. Dùng LabelImg để chú thích ảnh ...................................................51
4.5.3. Cài đặt môi trường và khởi tạo label-map ......................................52
4.5.4. Điều chỉnh cấu hình model và train model .....................................54
4.5.5. Load model và nhận diện trong thời gian thực ...............................55
4.5.6. Đánh giá độ chính xác ....................................................................56
4.5.7. Đưa model lên web thông qua TensorFlowJS ................................58
Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................60
5.1. Kết quả đạt được ....................................................................................60

5.2. Nhận xét .................................................................................................60
5.2.1. Ưu điểm ..........................................................................................60
5.2.2. Khuyết điểm....................................................................................60
6.3. Hướng phát triển ....................................................................................61
TÀI LIỆU THAM KHẢO ................................................................................62



DANH MỤC HÌNH VẼ

Hình 2.1 Lịch sử ra đời của Deep Learning ............................................................. 04
Hình 2.2 Mối quan hệ giữa AL, ML và DL ............................................................. 05
Hình 2.3 Mơ hình mạng ANN.................................................................................. 07
Hình 2.4 Mơ hình cấu trúc của mạng DNN ............................................................. 08
Hình 2.5 Hồi quy tuyến tính tìm đường thẳng tốt nhất đi qua một tập hợp các điểm
đầu vào đã cho .......................................................................................................... 09
Hình 2.6 Hồi quy phi tuyến thực hiện phân tách các giá trị đầu thành hai nhóm .... 10
Hình 2.7 Đồ thị hàm số Sigmoid .............................................................................. 12
Hình 2.8 Đồ thị hàm số Tanh ................................................................................... 12
Hình 2.9 a) Đồ thi hàm số ReLU, b) Đồ thị hàm số Leaky ReLu ........................... 13
Hình 2.10 Mơ hình mơ phỏng Gradient Descent ..................................................... 14
Hình 2.11 Ảnh hưởng của learning rate ................................................................... 15
Hình 2.12 Phép tính convolution với kích thước 3*3*3 .......................................... 16
Hình 2.13 Đặc điểm của khn mặt chó mèo được lọc ra từ CNN ......................... 16
Hình 2.14 Sau pooling layer (2*2) ........................................................................... 17
Hình 2.15 Ví dụ mơ hình CNN ................................................................................ 18
Hình 3.1 Giao diện Anaconda Navigator ................................................................. 19
Hình 3.2 Trực quan hóa mơ hình trong Jupyter Notebook ...................................... 20
Hình 3.3 DFG cơ bản ............................................................................................... 22
Hình 3.4 DFG hồn chỉnh ........................................................................................ 22

Hình 3.5 Cấu trúc một DFG trong Tensorflow ........................................................ 24
Hình 3.6 Depthwise Convolution ............................................................................. 26
Hình 3.7 Pointwise Convolution. ............................................................................. 26
Hình 3.8 Kiến trúc tổng quát của MobileNET ......................................................... 28
Hình 3.9 Convolution truyền thống (trái) so với DSC (phải). ................................. 29
Hình 3.10 Kết quả so sánh giữa mơ hình truyền thống và DSC .............................. 29


Hình 3.11 So sánh với các mơ hình State of the art ................................................. 30
Hình 3.12 So sánh với các mơ hình State of the art (2) ........................................... 30
Hình 3.13 Cơng thức tính IoU.................................................................................. 31
Hình 3.14 Nhận xét về hệ số IoU ............................................................................. 32
Hình 3.15 Cách hoạt động của NMS ....................................................................... 33
Hình 3.16 Image Localization .................................................................................. 34
Hình 3.17 Object Detection...................................................................................... 35
Hình 3.18 Cách hoạt động của Selective Search ..................................................... 36
Hình 3.19 Kết quả của thuật tốn Selective Search ................................................ 37
Hình 3.20 Kết quả của việc phân vùng quá nhiều ................................................... 37
Hình 3.21 Quá trình thực hiện của R-CNN.............................................................. 38
Hình 3.22 Cấu trúc của Fast R-CNN ....................................................................... 39
Hình 3.23 So sánh giữa Fast R-CNN với R-CNN ................................................... 39
Hình 3.24 Cấu trúc của Faster R-CNN .................................................................... 40
Hình 3.25 So sánh tốc độ của Faster R-CNN với các mơ hình khác ....................... 41
Hình 3.26 Kiến trúc của YOLO ............................................................................... 42
Hình 3.27 Cách YOLO hoạt động............................................................................ 43
Hình 3.28 Kiến trúc của SSD ................................................................................... 44
Hình 3.29 SSD sử dụng feature map có tỷ lệ khác nhau để nhận dạng ................... 44
Hình 3.30 Cải thiện độ chính xác bằng tăng cường dữ liệu ..................................... 45
Hình 4.1 Kiến trúc tổng quát của ứng dụng ............................................................. 46
Hình 4.2 Các use case của đề tài .............................................................................. 47

Hình 4.3 Giao diện LabelImg................................................................................... 50
Hình 4.4 Chia các ảnh lấy được theo từng ký tự ...................................................... 50
Hình 4.5 Tạo dữ liệu đầu vào và lưu vào thư mục tương ứng ................................. 51
Hình 4.6 Chú thích ảnh ký hiệu A............................................................................ 51
Hình 4.7 Các file XML được tạo ra ......................................................................... 52
Hình 4.8 Thơng số bounding box của một file XML............................................... 52


Hình 4.9 Khởi tạo đường dẫn ................................................................................. ..52
Hình 4.10 Khởi tạo label-map ................................................................................ ..53
Hình 4.11 Biến đổi file .XMl thành TFRecord ...................................................... ..54
Hình 4.12 Điều chỉnh cấu hình model ................................................................... ..55
Hình 4.13 Các checkpoint được tạo ra sau khi train .............................................. ..55
Hình 4.14 Load checkpoint .................................................................................... ..55
Hình 4.15 Kết quả .................................................................................................. ..56
Hình 4.16 Total loss của model.............................................................................. ..57
Hình 4.17 mAP của model ..................................................................................... ..57
Hình 4.18 Model sau khi được chuyển sang TFJS ................................................ ..58
Hình 4.19 Model được host trên IBM Cloud ......................................................... ..58
Hình 4.20 Hàm vẽ bounding box ........................................................................... ..59
Hình 4.21 Kết quả của web app ............................................................................. ..59


DANH MỤC BẢNG


DANH MỤC TỪ VIẾT TẮT
Từ viết
tắt
AI

ASL
BP
BN
CNN
DFG
DSC
DL
FCs
IoU
ML
NMS
R-CNN
RL
ROI
RPN
SL
SOTA
SSD
TFJS
UL
YOLO

Định nghĩa
Artificial Intelligence
American Sign Language
Backpropagation
Batch Normalization
Convolutional Neural Network
Data Flow Graph
Depthwise Separable Convolution

Deep Learning
Fully-connected Layer
Intersection over Union
Machine Learning
Non Max Suppression
Regional Convolutional Neural
Network
Reinforcement Learning
Region of Interest
Region Proposal Network
Supervised Learning
State-of-the-art
Single-shot Multibox Detector
TensorFlowJS
Unsupervised Learning
You Only Look Once


TÓM TẮT KHÓA LUẬN

-

Tổng quan đề tài: đặt vấn đề, lý do chọn đề tài, mục tiêu và phạm vi tiếp cận
đề tài

-

Tìm hiểu thực trạng, thị trường, khả năng phát triển

-


Nghiên cứu các công nghệ, cấu trúc, cơ chế hoạt động của các mơ hình nhận diện
ngơn ngữ ký hiệu

-

Tìm hiểu các cách để xây dựng ứng dụng ngơn ngữ ký hiệu

-

Phát triển ứng dụng dựa theo công nghệ tìm hiểu

-

Trình bày kết luận và hướng phát triển đồ án.

1


MỞ ĐẦU

Lý do chọn đề tài:
Trong thời đại ngày nay, trí tuệ nhân tạo dần trở thành một phần quen thuộc
trong cuộc sống mỗi người chúng ta hiện nay do khả năng hỗ trợ con người gần như
ở mọi lĩnh vực từ đơn giản như tìm kiếm thơng tin tới phức tạp như tính tốn, dự đốn
thời tiết. Việc sử dụng trí tuệ nhân tạo để nhận dạng ngơn ngữ ký hiệu để hỗ trợ cho
những người khiếm thính cũng không phải ngoại lệ.
Theo một số thống kê, 1 triệu người khiếm thính đang sử dụng Amercian Sign
Language (ASL) – Ngôn ngữ ký hiệu chuẩn của Mỹ, là ngôn ngữ chính của họ. Con
số đó lên tận 70 triệu trên tồn thế giới. Bên cạnh đó, 98% trong số họ khơng được

dạy về ngơn ngữ ký hiệu, 72% gia đình hạn chế giao tiếp bằng ngôn ngữ ký hiệu với
người thân bị khiếm thính và 70% người khiếm thính khơng thể làm việc hoặc bị thất
nghiệp. Chính vì những con số này, các quốc gia đã có chính sách hỗ trợ những người
khiếm thính. Ở Việt Nam, nước ta đã có các chính sách hỗ trợ việc hịa nhập của
người khuyết tật tái hịa nhập cộng đồng để có thể làm việc thông qua dự án
INCLUDE của Tổ chức Lao động Quốc tế (ILO).
Từ trên, việc phát triển mơ hình nhận dạng ngơn ngữ ký hiệu đã có nhiều cơng
trình tiếp cận với các phương thức khác nhau như nhận dạng qua video stream, nhận
dạng cử động hay nhận dạng từ thay vì từng ký hiệu với các mục đích như nghiên
cứu hay hỗ trợ cuộc sống những người khiếm thính. Thơng qua kiến thức cơng nghệ
học được, em cũng muốn đóng góp, hỗ trợ cho những người khiếm thính. Tuy nhiên,
để tìm ra giải pháp hồn hảo cho vấn đề giao tiếp hai phía giữa người khiếm thính
với người bình thường vẫn cịn là một thử thách lớn. Em đã cố gắng triển khai một
ứng dụng minh họa khả năng nhận diện bảng chữ cái của ngôn ngữ ký hiệu để giúp
một phần nào đó về phía những người khiếm thính.

2


Chương 1. TỔNG QUAN ĐỀ TÀI
1.1

Mục tiêu và phạm vi

1.1.1 Mục tiêu


Nghiên cứu, tìm hiểu các thuật tốn, mơ hình trong Deep Learning




Nghiên cứu, tìm hiểu các model phục vụ máy học và nhận dạng hình ảnh



Huấn luyện mơ hình được lựa chọn để nhận dạng ngôn ngữ ký hiệu



Xây dựng ứng dụng minh họa nhận diện ngôn ngữ ký hiệu
1.1.2 Phạm vi

Mơ hình đáp ứng nhận diện ngơn ngữ ký hiệu bao gồm 24 ký tự theo chuẩn
ASL trừ ký tự ‘J’ và ‘Z’.
1.2 Nội dung thực hiện
Mục tiêu của đề tài “Nghiên cứu hệ thống nhận diện ngôn ngữ ký hiệu”


Tìm hiểu về máy học, các khái niệm và định nghĩa chuyên ngành



Nghiên cứu các công nghệ để xây dựng mơ hình



Thiết kế mơ hình nhận diện ngơn ngữ ký hiệu




Tích hợp và triển khai



Viết báo cáo

3


Chương 2. DEEP LEARNING LÀ GÌ
2.1.

Lịch sử hình thành

Hình 2.1: Lịch sử ra đời của Deep Learning [1]
Trí tuệ nhân tạo (Artificial Intelligence – AI) luôn là một phần trong trí
tưởng tượng của chúng ta và ln là một chủ đề nóng hổi trong ngành nghiên
cứu. Việc nghiên cứu AI đã ra đời khi các nhà khoa học đã thống nhất tại
hội nghị Dartmouth vào năm 1956. Nối tiếp sự ra đời của AI, máy học
(Machine Learning – ML) ra đời và tới năm 2012, mọi chuyện thay đổi khi
học sâu (Deep Learning – DL) được giới thiệu cùng với mạng nơ-ron nhân
tạo (Artificial Neural Networks). Do ra đời sau, DL được củng cố các thuật
toán được sử dụng trong ML để huấn luyện các model kết hợp với mạng nơron được thiết kế lấy cảm hứng từ chính não con người chúng ta nhưng với
các tầng lớp, liên kết và hướng lan truyền các dữ liệu. Đồng thời, lúc này
khái niệm Dữ liệu lớn (Big Data) cũng bùng nổ khiến DL ngày càng trở nên
nổi bật và thành 1 phần thúc đẩy nghiên cứu khoa học vượt bậc trong ngành
AI [1].

4



×