ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN
KHOA CƠNG NGHỆ PHẦN MỀM
CAO MINH HUY
KHĨA LUẬN TỐT NGHIỆP
HỆ THỐNG
NHẬN DIỆN NGÔN NGỮ KÝ HIỆU
System supports Sign language recognition
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM
TP. HỒ CHÍ MINH, 2021
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
CAO MINH HUY – 16520502
KHĨA LUẬN TỐT NGHIỆP
HỆ THỐNG
NHẬN DIỆN NGƠN NGỮ KÝ HIỆU
System supports Sign language recognition
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM
GIẢNG VIÊN HƯỚNG DẪN
TS. NGUYỄN QUANG ANH
ThS. NGUYỄN CÔNG HOAN
TP. HỒ CHÍ MINH, 2021
THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
…………………… ngày ………………….. của Hiệu trưởng Trường Đại học Công
nghệ Thông tin.
1.......................................................... -Chủ tịch.
2.......................................................... -Thư ký.
3.......................................................... -Ủy viên.
4.......................................................... -Ủy viên.
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC
Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
TP. HCM, ngày 26 tháng 06 năm 2021
NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ HƯỚNG DẪN)
Tên khóa luận:
HỆ THỐNG NHẬN DIỆN NGƠN NGỮ KÝ HIỆU
Nhóm SV thực hiện:
Cán bộ hướng dẫn:
Cao Minh Huy
16520502
TS. Nguyễn Quang Anh
ThS. Nguyễn Cơng Hoan
Đánh giá Khóa luận
1. Về cuốn báo cáo:
Số trang
_______
Số chương
_______
Số bảng số liệu
_______
Số hình vẽ
_______
Số tài liệu tham khảo
_______
Sản phẩm
_______
Một số nhận xét về hình thức cuốn báo cáo:
……………………………………………………………………….................
……………………………………………………………………….................
……………………………………………………………………….................
2. Về nội dung nghiên cứu:
……………………………………………………………………….................
……………………………………………………………………….................
……………………………………………………………………….................
3. Về chương trình ứng dụng:
……………………………………………………………………….................
……………………………………………………………………….................
……………………………………………………………………….................
4. Về thái độ làm việc của sinh viên:
……………………………………………………………………….................
……………………………………………………………………….................
……………………………………………………………………….................
Đánh giá chung:
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….
Điểm từng sinh viên:
Cao Minh Huy: …/10
Người nhận xét
(Ký tên và ghi rõ họ tên)
ThS. Nguyễn Công Hoan
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC
Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
TP. HCM, ngày 26 tháng 06 năm 2021
NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ PHẢN BIỆN)
Tên khóa luận:
HỆ THỐNG NHẬN DIỆN NGƠN NGỮ KÝ HIỆU
Nhóm SV thực hiện:
Cán bộ hướng dẫn:
Cao Minh Huy
16520021
TS. Nguyễn Quang Anh
ThS. Nguyễn Cơng Hoan
Đánh giá Khóa luận
1. Về cuốn báo cáo:
Số trang
_______
Số chương
_______
Số bảng số liệu
_______
Số hình vẽ
_______
Số tài liệu tham khảo
_______
Sản phẩm
_______
Một số nhận xét về hình thức cuốn báo cáo:
……………………………………………………………………….................
……………………………………………………………………….................
……………………………………………………………………….................
2. Về nội dung nghiên cứu:
……………………………………………………………………….................
……………………………………………………………………….................
……………………………………………………………………….................
3. Về chương trình ứng dụng:
……………………………………………………………………….................
……………………………………………………………………….................
……………………………………………………………………….................
4. Về thái độ làm việc của sinh viên:
……………………………………………………………………….................
……………………………………………………………………….................
……………………………………………………………………….................
Đánh giá chung:
………………………………………………………………………………….
………………………………………………………………………………….
………………………………………………………………………………….
Điểm từng sinh viên:
Cao Minh Huy: …/10
Người nhận xét
(Ký tên và ghi rõ họ tên)
ThS. Phan Trung Hiếu
LỜI CẢM ƠN
Sau hơn 4 năm học tập và rèn luyện tại Trường Đại Học Công Nghệ
Thông Tin, được sự chỉ bảo và giảng dạy nhiệt tình của quý thầy cô, đặc biệt
quý thầy cô trong khoa Công Nghệ Phần Mềm, em đã học tập được rất nhiều
kiến thức bổ ích về lý thuyết và thực hành trong thời gian qua. Trong khoảng
thời gian thực hiện luận văn tốt nghiệp, em càng học hỏi thêm được nhiều kiến
thức, kinh nghiệm để áp dụng và đã hoàn thành được luận văn tốt nghiệp.
Xin chân thành cảm ơn quý thầy cô Khoa Công Nghệ Phần mềm, đặc biệt
là thầy Nguyễn Quang Anh và thầy Nguyễn Cơng Hoan đã tận tình hướng dẫn
em hồn thành luận văn tốt nghiệp này.
Bên cạnh đó, một lần nữa xin cảm ơn nhóm các bạn cùng lớp làm khóa
luận đã động viên, thảo luận và góp ý cho nhóm đồng thời đã khơi thêm nguồn
động lực cho nhóm để tiếp thêm động lực cho nhóm trong giai đoạn đầy khó
khăn. Ngồi ra, chúng em cũng cảm ơn các anh, chị, bạn bè và gia đình đã giúp
đỡ và tạo điều kiện cho chúng em hoàn tất luận văn này.
Mặc dù đã rất cố gắng, tuy nhiên vì khả năng giới hạn nên vẫn không
tránh khỏi những sai sót, em rất mong nhận được sự thơng cảm và góp ý chân
tình từ q thầy cơ và các bạn. Một lần nữa xin được chân thành cảm ơn mọi
người.
Thành phố Hồ Chí Minh, tháng 7 năm 2021
CAO MINH HUY
ĐHQG TP. HỒ CHÍ MINH.
TRƯỜNG ĐẠI HỌC
CƠNG NGHỆ THƠNG TIN
CỘNG HOÀ XÃ HỘI CHỦ NGHĨA
VIỆT NAM
Độc Lập – Tự Do – Hạnh Phúc
ĐỀ CƯƠNG CHI TIẾT
TÊN ĐỀ TÀI: HỆ THỐNG NHẬN DIỆN NGÔN NGỮ KÝ HIỆU
Cán bộ hướng dẫn:
-
ThS. Nguyễn Công Hoan
-
TS. Nguyễn Quang Anh
Thời gian thực hiện: Từ ngày 08/03/2021 đến ngày 26/6/2021
Sinh viên thực hiện:
Cao Minh Huy – 16520502
Nội dung đề tài:
Mục tiêu:
• Nghiên cứu, tìm hiểu các thuật tốn, mơ hình trong Deep Learning
• Nghiên cứu, tìm hiểu các model phục vụ máy học và nhận dạng hình ảnh
• Huấn luyện mơ hình được lựa chọn để nhận dạng ngơn ngữ ký hiệu
• Xây dựng ứng dụng minh họa nhận diện ngơn ngữ ký hiệu
Phạm vi:
Mơ hình đáp ứng nhận dạng ngôn ngữ ký hiệu bao gồm 24 ký tự theo chuẩn ASL
trừ ký tự ‘J’ và ‘Z’
Đối tượng nghiên cứu:
• Tensorflow, OpenCV, Object-Detection API
• Các nền tảng và công cụ hỗ trợ việc thực hiện mô hình (Anaconda3)
Phương pháp thực hiện:
Thực hiện đề tài theo các bước:
• Khảo sát đề tài
• Phân tích và nghiên cứu đề tài
• Thiết kế cơ bản các yêu cầu
• Nghiên cứu cơng nghệ để áp dụng
• Phát triển sản phẩm qua các giai đoạn
• Kiểm thử và hồn thiện
Kết quả mong đợi:
• Phân tích, tìm hiểu rõ các cơng nghệ để thiết kế mơ hình
• Thiết kế mơ hình nhận diện ngơn ngữ ký hiệu từ các cơng nghệ tìm hiểu:
Tensorflow, OpenCV, Object-Detection API của Tensorflow,…
• Triển khai mơ hình nhận diện ngơn ngữ ký hiệu dựa trên đó.
Kế hoạch thực hiện:
Công việc
STT
Thời gian
thực hiện
Phase 1: Khảo sát, nghiên cứu các công nghệ và thiết kế mô
16 tuần
(08/03/2021 –
hình
3/5/2021)
1
1.1
Sprint 1: Tìm hiểu deep learning
– Deep Learning là gì?
Tuần 1 - 3
– Neural network là gì?
– Lựa chọn vấn đề để giải quyết
2
2.1
(08/03/2021 22/03/2021)
Sprint 2: Tìm hiểu các mơ hình thực tế,
xác định các thành phần trong mơ hình
– Tìm hiểu: Các mơ hình nghiên cứu trên thị
Tuần 4 - 6
(23/03/2021 05/04/2021)
trường, Tensorflow, OpenCV
Sprint 3: Cài đặt và xây dựng mội trường
3
3.1
– Cài đặt môi trường làm việc Anaconda3 và
Jupyter Notebook
Tuần 7 - 11
(06/04/2021 –
03/05/2021)
– Cài đặt và thử nghiệm các công nghệ: OpenCV,
Tensorflow
4
Sprint 4: Nghiên cứu nhận diện ngôn ngữ ký hiệu
Tuần
4.1
Nghiên cứu và xây dựng công cụ nhận diện ngơn ngữ ký
hiệu
Phase 2: Hồn thiện và kiểm thử mơ hình
12 - 16
(04/05/2021 –
31/05/2021)
4 tuần
(01/06/2021 – 26/06/2021)
5
Sprint 5: Hồn thiện mơ hình
- Hồn thiện mơ hình
5.1
Tuần 16 - 18
(01/06/2021 14/06/2021)
6
- Sprint 6: Kiểm thử
6.1
- Kiểm thử
- Đánh giá
Tuần 18 - 20
(15/06/2021 26/06/2021)
Xác nhận của CBHD
TP.HCM, ngày 26 tháng 06 năm
(Ký tên và ghi rõ họ tên)
2021
(Ký tên và ghi rõ họ tên)
Cao Minh Huy
MỤC LỤC
Mục lục
TÓM TẮT KHÓA LUẬN ..................................................................................1
MỞ ĐẦU ............................................................................................................2
Lý do chọn đề tài: ...........................................................................................2
Chương 1. TỔNG QUAN ĐỀ TÀI.....................................................................3
1.1
Mục tiêu và phạm vi..............................................................................3
1.1.1
Mục tiêu ..........................................................................................3
1.1.2
Phạm vi ...........................................................................................3
1.2
Nội dung thực hiện ................................................................................3
Chương 2. DEEP LEARNING LÀ GÌ ...............................................................4
2.1. Lịch sử hình thành .................................................................................4
2.2. Deep Learning là gì? .............................................................................5
2.3. Artificial Neural Network .....................................................................7
2.4. Deep Neural Network ...........................................................................8
2.5. Loss Function ......................................................................................10
2.6. Activation Function.............................................................................11
2.7. Gradient Descent .................................................................................14
2.8. Convolutional Neural Network ...........................................................15
Chương 3. CỞ SỞ LÝ THUYẾT .....................................................................19
3.1. Anaconda.............................................................................................19
3.1.1. Jupyter Notebook ............................................................................19
3.2. TensorFlow .........................................................................................21
3.2.1. Data Flow Graph ............................................................................21
3.2.2. Data Flow Graphs trong TensorFlow .............................................23
3.3. MobileNET ........................................................................................25
3.3.1. MobileNET là gì? ...........................................................................25
3.3.2. Kiến trúc mạng MobileNET? .........................................................25
3.3.2.1. Depthwise Separable Convolution ..............................................25
3.3.2.2. Kiến trúc MobileNET ..................................................................28
3.3.2.3. So sánh MobileNET với các mơ hình State of
the art (SOTA) ..............................................................................30
3.4. Các mơ hình nhận dạng hình ảnh ......................................................30
3.4.1. Một số khái niệm cơ bản ................................................................30
3.4.1.1. IoU (Intersection over Union) .....................................................30
3.4.1.2. Anchor box ..................................................................................32
3.4.1.3. Non Max Suppression (NMS) .....................................................33
3.4.1.4. Image Classfication, Image Localization và
Object Detection ...........................................................................33
3.4.2. Một số mô hình nhận dạng hình ảnh ..............................................35
3.4.2.1. R-CNN (Regional Convolutional Neural
Network) .......................................................................................35
3.4.2.2. Fast R-CNN .................................................................................38
3.4.2.3. Faster R-CNN ..............................................................................40
3.4.2.4. YOLO (You Only Look Once) ....................................................42
Chương 4. XÂY DỰNG ỨNG DỤNG NHẬN DIỆN NGÔN
NGỮ KÝ HIỆU ................................................................................................46
4.1. Trình bày ý tưởng ................................................................................46
4.2. Khái quát, tổng quan ý tưởng ..............................................................47
4.3. Các Use case của đề tài .......................................................................47
4.3.1. Input data ........................................................................................47
4.3.2. Phân tích dữ liệu .............................................................................48
4.3.3. Train model .....................................................................................49
4.3.4. Thử nghiệm model ..........................................................................49
4.4. labelImg...............................................................................................50
4.5. Mô phông thực tế ................................................................................50
4.5.1. Nguồn dữ liệu và mô tả tập dữ liệu ................................................50
4.5.2. Dùng LabelImg để chú thích ảnh ...................................................51
4.5.3. Cài đặt môi trường và khởi tạo label-map ......................................52
4.5.4. Điều chỉnh cấu hình model và train model .....................................54
4.5.5. Load model và nhận diện trong thời gian thực ...............................55
4.5.6. Đánh giá độ chính xác ....................................................................56
4.5.7. Đưa model lên web thông qua TensorFlowJS ................................58
Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ......................................60
5.1. Kết quả đạt được ....................................................................................60
5.2. Nhận xét .................................................................................................60
5.2.1. Ưu điểm ..........................................................................................60
5.2.2. Khuyết điểm....................................................................................60
6.3. Hướng phát triển ....................................................................................61
TÀI LIỆU THAM KHẢO ................................................................................62
DANH MỤC HÌNH VẼ
Hình 2.1 Lịch sử ra đời của Deep Learning ............................................................. 04
Hình 2.2 Mối quan hệ giữa AL, ML và DL ............................................................. 05
Hình 2.3 Mơ hình mạng ANN.................................................................................. 07
Hình 2.4 Mơ hình cấu trúc của mạng DNN ............................................................. 08
Hình 2.5 Hồi quy tuyến tính tìm đường thẳng tốt nhất đi qua một tập hợp các điểm
đầu vào đã cho .......................................................................................................... 09
Hình 2.6 Hồi quy phi tuyến thực hiện phân tách các giá trị đầu thành hai nhóm .... 10
Hình 2.7 Đồ thị hàm số Sigmoid .............................................................................. 12
Hình 2.8 Đồ thị hàm số Tanh ................................................................................... 12
Hình 2.9 a) Đồ thi hàm số ReLU, b) Đồ thị hàm số Leaky ReLu ........................... 13
Hình 2.10 Mơ hình mơ phỏng Gradient Descent ..................................................... 14
Hình 2.11 Ảnh hưởng của learning rate ................................................................... 15
Hình 2.12 Phép tính convolution với kích thước 3*3*3 .......................................... 16
Hình 2.13 Đặc điểm của khn mặt chó mèo được lọc ra từ CNN ......................... 16
Hình 2.14 Sau pooling layer (2*2) ........................................................................... 17
Hình 2.15 Ví dụ mơ hình CNN ................................................................................ 18
Hình 3.1 Giao diện Anaconda Navigator ................................................................. 19
Hình 3.2 Trực quan hóa mơ hình trong Jupyter Notebook ...................................... 20
Hình 3.3 DFG cơ bản ............................................................................................... 22
Hình 3.4 DFG hồn chỉnh ........................................................................................ 22
Hình 3.5 Cấu trúc một DFG trong Tensorflow ........................................................ 24
Hình 3.6 Depthwise Convolution ............................................................................. 26
Hình 3.7 Pointwise Convolution. ............................................................................. 26
Hình 3.8 Kiến trúc tổng quát của MobileNET ......................................................... 28
Hình 3.9 Convolution truyền thống (trái) so với DSC (phải). ................................. 29
Hình 3.10 Kết quả so sánh giữa mơ hình truyền thống và DSC .............................. 29
Hình 3.11 So sánh với các mơ hình State of the art ................................................. 30
Hình 3.12 So sánh với các mơ hình State of the art (2) ........................................... 30
Hình 3.13 Cơng thức tính IoU.................................................................................. 31
Hình 3.14 Nhận xét về hệ số IoU ............................................................................. 32
Hình 3.15 Cách hoạt động của NMS ....................................................................... 33
Hình 3.16 Image Localization .................................................................................. 34
Hình 3.17 Object Detection...................................................................................... 35
Hình 3.18 Cách hoạt động của Selective Search ..................................................... 36
Hình 3.19 Kết quả của thuật tốn Selective Search ................................................ 37
Hình 3.20 Kết quả của việc phân vùng quá nhiều ................................................... 37
Hình 3.21 Quá trình thực hiện của R-CNN.............................................................. 38
Hình 3.22 Cấu trúc của Fast R-CNN ....................................................................... 39
Hình 3.23 So sánh giữa Fast R-CNN với R-CNN ................................................... 39
Hình 3.24 Cấu trúc của Faster R-CNN .................................................................... 40
Hình 3.25 So sánh tốc độ của Faster R-CNN với các mơ hình khác ....................... 41
Hình 3.26 Kiến trúc của YOLO ............................................................................... 42
Hình 3.27 Cách YOLO hoạt động............................................................................ 43
Hình 3.28 Kiến trúc của SSD ................................................................................... 44
Hình 3.29 SSD sử dụng feature map có tỷ lệ khác nhau để nhận dạng ................... 44
Hình 3.30 Cải thiện độ chính xác bằng tăng cường dữ liệu ..................................... 45
Hình 4.1 Kiến trúc tổng quát của ứng dụng ............................................................. 46
Hình 4.2 Các use case của đề tài .............................................................................. 47
Hình 4.3 Giao diện LabelImg................................................................................... 50
Hình 4.4 Chia các ảnh lấy được theo từng ký tự ...................................................... 50
Hình 4.5 Tạo dữ liệu đầu vào và lưu vào thư mục tương ứng ................................. 51
Hình 4.6 Chú thích ảnh ký hiệu A............................................................................ 51
Hình 4.7 Các file XML được tạo ra ......................................................................... 52
Hình 4.8 Thơng số bounding box của một file XML............................................... 52
Hình 4.9 Khởi tạo đường dẫn ................................................................................. ..52
Hình 4.10 Khởi tạo label-map ................................................................................ ..53
Hình 4.11 Biến đổi file .XMl thành TFRecord ...................................................... ..54
Hình 4.12 Điều chỉnh cấu hình model ................................................................... ..55
Hình 4.13 Các checkpoint được tạo ra sau khi train .............................................. ..55
Hình 4.14 Load checkpoint .................................................................................... ..55
Hình 4.15 Kết quả .................................................................................................. ..56
Hình 4.16 Total loss của model.............................................................................. ..57
Hình 4.17 mAP của model ..................................................................................... ..57
Hình 4.18 Model sau khi được chuyển sang TFJS ................................................ ..58
Hình 4.19 Model được host trên IBM Cloud ......................................................... ..58
Hình 4.20 Hàm vẽ bounding box ........................................................................... ..59
Hình 4.21 Kết quả của web app ............................................................................. ..59
DANH MỤC BẢNG
DANH MỤC TỪ VIẾT TẮT
Từ viết
tắt
AI
ASL
BP
BN
CNN
DFG
DSC
DL
FCs
IoU
ML
NMS
R-CNN
RL
ROI
RPN
SL
SOTA
SSD
TFJS
UL
YOLO
Định nghĩa
Artificial Intelligence
American Sign Language
Backpropagation
Batch Normalization
Convolutional Neural Network
Data Flow Graph
Depthwise Separable Convolution
Deep Learning
Fully-connected Layer
Intersection over Union
Machine Learning
Non Max Suppression
Regional Convolutional Neural
Network
Reinforcement Learning
Region of Interest
Region Proposal Network
Supervised Learning
State-of-the-art
Single-shot Multibox Detector
TensorFlowJS
Unsupervised Learning
You Only Look Once
TÓM TẮT KHÓA LUẬN
-
Tổng quan đề tài: đặt vấn đề, lý do chọn đề tài, mục tiêu và phạm vi tiếp cận
đề tài
-
Tìm hiểu thực trạng, thị trường, khả năng phát triển
-
Nghiên cứu các công nghệ, cấu trúc, cơ chế hoạt động của các mơ hình nhận diện
ngơn ngữ ký hiệu
-
Tìm hiểu các cách để xây dựng ứng dụng ngơn ngữ ký hiệu
-
Phát triển ứng dụng dựa theo công nghệ tìm hiểu
-
Trình bày kết luận và hướng phát triển đồ án.
1
MỞ ĐẦU
Lý do chọn đề tài:
Trong thời đại ngày nay, trí tuệ nhân tạo dần trở thành một phần quen thuộc
trong cuộc sống mỗi người chúng ta hiện nay do khả năng hỗ trợ con người gần như
ở mọi lĩnh vực từ đơn giản như tìm kiếm thơng tin tới phức tạp như tính tốn, dự đốn
thời tiết. Việc sử dụng trí tuệ nhân tạo để nhận dạng ngơn ngữ ký hiệu để hỗ trợ cho
những người khiếm thính cũng không phải ngoại lệ.
Theo một số thống kê, 1 triệu người khiếm thính đang sử dụng Amercian Sign
Language (ASL) – Ngôn ngữ ký hiệu chuẩn của Mỹ, là ngôn ngữ chính của họ. Con
số đó lên tận 70 triệu trên tồn thế giới. Bên cạnh đó, 98% trong số họ khơng được
dạy về ngơn ngữ ký hiệu, 72% gia đình hạn chế giao tiếp bằng ngôn ngữ ký hiệu với
người thân bị khiếm thính và 70% người khiếm thính khơng thể làm việc hoặc bị thất
nghiệp. Chính vì những con số này, các quốc gia đã có chính sách hỗ trợ những người
khiếm thính. Ở Việt Nam, nước ta đã có các chính sách hỗ trợ việc hịa nhập của
người khuyết tật tái hịa nhập cộng đồng để có thể làm việc thông qua dự án
INCLUDE của Tổ chức Lao động Quốc tế (ILO).
Từ trên, việc phát triển mơ hình nhận dạng ngơn ngữ ký hiệu đã có nhiều cơng
trình tiếp cận với các phương thức khác nhau như nhận dạng qua video stream, nhận
dạng cử động hay nhận dạng từ thay vì từng ký hiệu với các mục đích như nghiên
cứu hay hỗ trợ cuộc sống những người khiếm thính. Thơng qua kiến thức cơng nghệ
học được, em cũng muốn đóng góp, hỗ trợ cho những người khiếm thính. Tuy nhiên,
để tìm ra giải pháp hồn hảo cho vấn đề giao tiếp hai phía giữa người khiếm thính
với người bình thường vẫn cịn là một thử thách lớn. Em đã cố gắng triển khai một
ứng dụng minh họa khả năng nhận diện bảng chữ cái của ngôn ngữ ký hiệu để giúp
một phần nào đó về phía những người khiếm thính.
2
Chương 1. TỔNG QUAN ĐỀ TÀI
1.1
Mục tiêu và phạm vi
1.1.1 Mục tiêu
–
Nghiên cứu, tìm hiểu các thuật tốn, mơ hình trong Deep Learning
–
Nghiên cứu, tìm hiểu các model phục vụ máy học và nhận dạng hình ảnh
–
Huấn luyện mơ hình được lựa chọn để nhận dạng ngôn ngữ ký hiệu
–
Xây dựng ứng dụng minh họa nhận diện ngôn ngữ ký hiệu
1.1.2 Phạm vi
Mơ hình đáp ứng nhận diện ngơn ngữ ký hiệu bao gồm 24 ký tự theo chuẩn
ASL trừ ký tự ‘J’ và ‘Z’.
1.2 Nội dung thực hiện
Mục tiêu của đề tài “Nghiên cứu hệ thống nhận diện ngôn ngữ ký hiệu”
–
Tìm hiểu về máy học, các khái niệm và định nghĩa chuyên ngành
–
Nghiên cứu các công nghệ để xây dựng mơ hình
–
Thiết kế mơ hình nhận diện ngơn ngữ ký hiệu
–
Tích hợp và triển khai
–
Viết báo cáo
3
Chương 2. DEEP LEARNING LÀ GÌ
2.1.
Lịch sử hình thành
Hình 2.1: Lịch sử ra đời của Deep Learning [1]
Trí tuệ nhân tạo (Artificial Intelligence – AI) luôn là một phần trong trí
tưởng tượng của chúng ta và ln là một chủ đề nóng hổi trong ngành nghiên
cứu. Việc nghiên cứu AI đã ra đời khi các nhà khoa học đã thống nhất tại
hội nghị Dartmouth vào năm 1956. Nối tiếp sự ra đời của AI, máy học
(Machine Learning – ML) ra đời và tới năm 2012, mọi chuyện thay đổi khi
học sâu (Deep Learning – DL) được giới thiệu cùng với mạng nơ-ron nhân
tạo (Artificial Neural Networks). Do ra đời sau, DL được củng cố các thuật
toán được sử dụng trong ML để huấn luyện các model kết hợp với mạng nơron được thiết kế lấy cảm hứng từ chính não con người chúng ta nhưng với
các tầng lớp, liên kết và hướng lan truyền các dữ liệu. Đồng thời, lúc này
khái niệm Dữ liệu lớn (Big Data) cũng bùng nổ khiến DL ngày càng trở nên
nổi bật và thành 1 phần thúc đẩy nghiên cứu khoa học vượt bậc trong ngành
AI [1].
4