Tải bản đầy đủ (.pdf) (64 trang)

Đồ án một PHƯƠNG PHÁP PHÁT HIỆN đối TƯỢNG TRONG KHÔNG ẢNH CHỨA SƯƠNG mờ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.04 MB, 64 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

TRẦN TUẤN MINH- 18520314
TRẦN VĂN BẢO - 18520499

BÁO CÁO ĐỒ ÁN 1
MỘT PHƯƠNG PHÁP PHÁT HIỆN ĐỐI TƯỢNG
TRONG KHƠNG ẢNH CHỨA SƯƠNG MỜ

TP. HỒ CHÍ MINH, 2021


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

TRẦN TUẤN MINH- 18520314
TRẦN VĂN BẢO - 18520499

BÁO CÁO ĐỒ ÁN 1
MỘT PHƯƠNG PHÁP PHÁT HIỆN ĐỐI TƯỢNG
TRONG KHƠNG ẢNH CHỨA SƯƠNG MỜ

TP. HỒ CHÍ MINH, 2021


LỜI CẢM ƠN
Lời đầu tiên, nhóm tác giả xin chân thành cảm ơn quí đến thầy TS. Nguyễn
Tấn Trần Minh Khang – giảng viên hướng dẫn đồ án. Thầy là người đã tạo ra cơ hội


cho nhóm tác giả được thực hiện đề tài và nghiên cứu khoa học. Đồng thời, nhóm
cũng xin gửi lời cảm ơn đến thầy ThS.Võ Duy Nguyên đã luôn giúp đỡ, hướng dẫn,
sửa chữa và đóng góp nhiều ý kiến quý báu xuyên suốt quá trình nhóm thực hiện đồ
án.
Tơi cũng xin chân thành cảm ơn tập thể quý thầy cô trường Đại học Công nghệ
Thông tin,đặc biệt các quý thầy cô khoa Công nghệ Phần mềm, phịng thí nghiệm
Truyền thơng Đa phương tiện MMLab đã truyền đạt kiến thức, hỗ trợ và tạo điều kiện
cho nhóm được thực hiện đề tài một cách sn sẻ nhất.
Tuy nhiên trong quá trình thực hiện, do kiến thức và kinh nghiệm cịn nhiều hạn
chế, khó tránh khỏi những thiếu sót. Chính vì vậy, nhóm tác giả rất mong nhận được
sự góp ý từ q thầy cơ để nhóm hồn thiện thêm những kiến thức mà nhóm đã học
tập, làm hành trang q báu cho nhóm trong cơng việc sau này.
Xin chân thành cảm ơn q thầy cơ !
Nhóm tác giả
Trần Văn Bảo
Trần Tuấn Minh


MỤC LỤC
TÓM TẮT ........................................................................................................1
Chương 1. TỔNG QUAN ĐỀ TÀI................................................................2
1.1.

Động lực nghiên cứu ........................................................................2

1.2.

Phát biểu bài toán .............................................................................2

1.3.


Các thách thức ..................................................................................4

1.4.

Mục tiêu và phạm vi nghiên cứu ......................................................5

1.5.

Đóng góp của đồ án .........................................................................5

1.6.

Cấu trúc báo cáo đồ án .....................................................................6

Chương 2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN .7
2.1.

Giới thiệu tổng quan.........................................................................7

2.2.

Computer Vision ..............................................................................8

2.3.

Một số cơ sở lý thuyết ....................................................................10

2.3.1. Mạng nơ-ron ..............................................................................10
2.3.1.1. Nơ-ron nhân tạo (perceptron) .............................................10

2.3.1.2. Hàm kích hoạt (Activation function) ..................................12
2.3.2. Mạng nơ-ron tích chập (Convolutional Nơ-ron Network) ........13
2.3.2.1. Fully Connected Layer - FC Layer (Classification) ...........15
2.3.2.2. Convolutional Layer ...........................................................16
2.3.2.3. Pooling Layer .....................................................................17
2.4.

Các phương pháp cơ sở ..................................................................17

2.4.1. Khử sương mờ đơn ảnh .............................................................17
2.4.2. Feature Fusion Attentoin Network (FFA-Net) ..........................19
2.4.2.1. Feature Attention (FA) .......................................................21


2.4.2.2. Khối kiến trúc cơ bản (Basic Block Structure)...................22
2.4.2.3. Attention-based different levels Feature Fusion (FAA) .....22
2.4.3. Phát hiện đối tượng ....................................................................23
2.4.3.1. Tổng quan ...........................................................................23
2.4.3.2. Phân loại .............................................................................24
2.4.3.3. Ứng dụng ............................................................................25
2.4.4. Probabilistic Anchor Assignment with IoU Prediction for Object
Detection (PAA)................................................................................................25
Chương 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................................29
3.1.

Dữ liệu thực nghiệm.......................................................................29

3.1.1. Mô tả cơ bản ..............................................................................29
3.1.2. Mô tả chi tiết ..............................................................................31
3.2.


Mô tả thực nghiệm .........................................................................32

3.2.1. Mơ tả quy trình thực nghiệm .....................................................32
3.2.2. Cấu hình thực nghiệm ................................................................33
3.2.2.1. Cấu hình phần cứng ............................................................33
3.2.2.2. Config mơ hình ...................................................................33
3.3.

Phương pháp đánh giá ....................................................................33

3.3.1. Intersection over Union (IoU) ...................................................33
3.3.2. Average Precision (AP) .............................................................34
3.3.3. Mean Average Precision (mAP) ................................................36
3.4.

Kết quả thực nghiệm và đánh giá...................................................37

3.4.1. Kết quả thực nghiệm ..................................................................37
3.4.2. Trực quan kết quả ......................................................................37


3.4.2.1. Kết quả khử sương mờ .......................................................37
3.4.2.2. Kết quả phát hiện đối tượng ...............................................38
3.4.3. Đánh giá kết quả ........................................................................39
Chương 4. ĐỀ XUẤT CẢI TIẾN VÀ ĐÁNH GIÁ KÉT QUẢ ..................41
4.1.

Đề xuất cải tiến ..............................................................................41


4.2.

Đánh giá kết quả đề xuất ................................................................41

4.2.1. Kết quả đề xuất ..........................................................................41
4.2.2. Trực quan hóa kết quả ...............................................................42
4.3.

Đánh giá kết quả ............................................................................44

Chương 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.................................45
5.1.

Kết luận ..........................................................................................45

5.2.

Thuận lợi ........................................................................................45

5.3.

Khó khăn ........................................................................................46

5.4.

Hướng phát triển ............................................................................46

TÀI LIỆU THAM KHẢO..............................................................................47
PHỤ LỤC A – BÀI BÁO ..............................................................................48



DANH MỤC HÌNH
Hình 1-1 Bài tốn phát hiện đối tượng trong không ảnh chứa sương mờ. Đầu vào là
ảnh chụp từ trên khơng, đầu ra là vị trí và nhãn phương tiện giao thơng. ..................3
Hình 2-1 Mối quan hệ giữa AI, Machine Learning và Deep Learning. ......................8
Hình 2-2 Sơ đồ mối liên hệ giữa các kĩ thuật trong Computer Vision. ......................9
Hình 2-3 Cấu tạo nơ ron thần kinh ............................................................................10
Hình 2-4 Kiến trúc một mạng nơ-ron nhân tạo cơ bản .............................................11
Hình 2-5 Công thức và đồ thị của một số hàm kích hoạt..........................................12
Hình 2-6 Một quy trình CNN phân loại chữ số viết tay ...........................................13
Hình 2-7 Minh họa local receptive field ...................................................................14
Hình 2-8 Minh họa FC Layer ....................................................................................15
Hình 2-9 Minh họa Convolutional Layer ..................................................................16
Hình 2-10 Minh họa Pooling Layer ..........................................................................17
Hình 2-11 Kiến trúc mạng FFA-Net .........................................................................19
Hình 2-12 Ảnh thể hiện mức độ hiệu quả của FFA-Net so với các phương pháp khử
mờ khác trên bộ dữ liệu RESIDE..............................................................................20
Hình 2-13 Feature Attention module ........................................................................21
Hình 2-14 Ảnh minh họa Khối kiến trúc cơ bản .......................................................22
Hình 2-15 Các kỹ thuật Phát hiện đối tượng .............................................................23
Hình 2-16 Phân loại phương pháp phát hiện đối tượng ............................................24
Hình 2-17 Một trường hợp về anchor được tính tốn bằng mơ hình detect và phân bố
của chúng...................................................................................................................26
Hình 2-18 Bảng so sánh thực nghiệm phương pháp PAA và một số phương pháp khác
của tác giả ..................................................................................................................27
Hình 3-1 Một số hình ảnh trong bộ dữ liệu RESIDE Outdoor Training Set (OTS) 29
Hình 3-2 Biểu đồ phân chia bộ dữ liệu UAVDT-Benchmark-M .............................30
Hình 3-3 Một số ảnh trong bộ dữ liệu UAVDT-Benchmark-M ...............................30
Hình 3-4 Biểu đồ thống kế số các lớp đối tượng trong bộ dữ liệu UAVDTBenchmark-M ...........................................................................................................31



Hình 3-5 Kiến trúc thực nghiệm. Ảnh chứa sương mờ thơng qua FFA-Net để khử
sương mờ sau đó trở thành đầu vào của mơ hình phát hiện đối tượng. ....................32
Hình 3-6 Cơng thức minh họa IoU ...........................................................................34
Hình 3-7 Cách tính Precision và Recall ....................................................................36
Hình 3-8 Ảnh kết quả khử sương mờ tốt sử dụng FFA-Net (a) Ảnh nguyên bản, (b)
Ảnh đã khử sương mờ ...............................................................................................37
Hình 3-9 Ảnh kết quả khử sương mờ xấu sử dụng FFA-Net (a) Ảnh nguyên bản, (b)
Ảnh đã khử sương mờ ...............................................................................................38
Hình 3-10 Ảnh kết quả phát hiện đối tượng trường hợp sử dụng tập dữ liệu huấn
luyện gốc ...................................................................................................................38
Hình 3-11 Ảnh kết quả phát hiện đối tượng trường hợp sử dụng tập dữ liệu huấn
luyện khử sương mờ ..................................................................................................39
Hình 4-1 Ảnh kết quả khử sương loại trừ đối tượng truck .......................................42
Hình 4-2 Ảnh kết quả phát hiện đối tượng trên dữ liệu khử sương mờ loại trừ truck
(a) Ground truth, (b) Khử sương toàn bộ ảnh, (c) Khử sương loài trừ truck ............43


DANH MỤC BẢNG
Bảng 4-1 Bảng kết quả thực nghiệm phương pháp phát hiện đối tượng PAA. Kết quả
tốt nhất được in đậm. .................................................................................................37
Bảng 5-1 Bảng kết quả thực nghiệm với bộ dữ liệu huấn luyện được khử sương mờ
loại trừ đối tượng truck phương pháp phát hiện đối tượng PAA. Kết quả tốt nhất
được in đậm. ..............................................................................................................41


DANH MỤC TỪ VIẾT TẮT
AP

Average Precision


mAP

Mean Average Precision

IoU

Intersection over Union

UAVDT

Unmanned Aerial Vehicle Benchmark Object Detection and
Tracking

UAV

Unmanned Aerial Vehicle

CNN

Convolutional Nơ-ron Networks

PAA

FFA-Net

Probabilistic Anchor Assignment with IoU Prediction for
Object Detection
Feature Fusion Attention Network



TĨM TẮT
Trong thời kì số hóa, phát triển mạnh mẽ của trí thơng minh nhân tạo, vai trị
của dữ liệu ngày càng lớn. Yêu cầu về sự phong phú, đa dạng của các bộ dữ liệu hình
ảnh trong đó có hình ảnh được thu từ thiết bị bay khơng người lái cũng ngày càng
tăng. Tuy nhiên, sương mờ, khói bụi tồn tại trong khí quyển ảnh hưởng khơng nhỏ
đến việc phát hiện đối tượng từ không ảnh. Dễ thấy như sương mờ gây hạn chế tầm
nhìn, làm sai lệch các thơng số như màu sắc, tương phản,… Từ đó gây ảnh hưởng
trực tiếp đến đặc trưng của các lớp đối tượng dẫn tới quá trình huấn luyện cũng như
kết quả khơng đạt như mong đợi. Đó là trở ngại của nhiều nghiên cứu trên bộ dữ liệu
chứa sương mờ.
Trong đồ án này, nhóm nghiên cứu xem xét hai giả thuyết: sương mờ là yếu
tố gây nhiễu đồng thời sương mờ là một phần đối tượng trong một số trường hợp.
Nhóm kết hợp loại bỏ sương mờ bằng Feature Fusion Attention Network (FFA-Net)
và phát hiện đối tượng bằng phương pháp Probabilistic Anchor Assigment (PAA) với
những ưu điểm đặc thù để đánh giá hai giả thuyết trên. Thông quá các thực nghiệm
mở rộng, nhóm nhận thấy việc loại bỏ sương mờ trên lớp car và giữ nguyên trên lớp
truck giúp cải thiện kết quả phát hiện đối tượng lớp car lên đến 2,3% trên tập dữ liệu
UAVDT-Benchmark-M.
Kết quả nghiên cứu được đăng tại Hội nghị Khoa học Trẻ và nghiên cứu sinh
năm 2021 được tổ chức bởi trường Đại học Công nghệ thơng tin: “MỘT PHƯƠNG
PHÁP PHÁT HIỆN ĐỐI TƯỢNG TRONG KHƠNG ẢNH CHỨA SƯƠNG
MỜ”1.

1

/>

Chương 1. TỔNG QUAN ĐỀ TÀI
1.1. Động lực nghiên cứu

Ngày nay - bối cảnh công nghệ phát triển vượt bậc, cải tiến không ngừng, cuộc
sống con người được hỗ trợ về nhiều mặt khác nhau. Các công việc quản lý quy mơ
lớn, u cầu tính tốn phức tạp, độ chính xác cao, chi phí thực hiện lớn,… có thể kể
tới như quản lý hệ thống giao thông, xác định phương tiện tham gia giao thông, cứu
hộ, cứu nạn ở các khu vực địa hình xấu,…
Từ đó địi hỏi con người cũng cần có góc nhìn quan sát đa dạng, bao qt mà
cụ thể nhóm quan tâm đến đó chính là góc nhìn từ trên khơng. Các ứng dụng thực
tiễn áp dụng phát hiện đối tượng trong khơng ảnh có thể kể tới như thống kê số lượng
phương tiện tham gia giao thơng trên một tuyến đường, kiểm sốt an ninh khu vực
biên giới hay cập nhật tình hình các địa điểm xảy ra thiên tai,… Mặc dù công nghệ
hiện đại giúp con người thu được hình ảnh tương đối dễ dàng từ thiết bị bay không
người lái nhưng vẫn tồn tại khá nhiều thách thức. Đặc biệt là trong điều kiện sương
mờ - vấn đề khá nhiều quốc gia phải đối mặt vì mật độ sương mờ từ khi quyển thời
tiết xấu, khói bụi từ cơng nghiệp, cháy rừng,… Một khi trong ảnh chứa sương mờ sẽ
dẫn tới các thông số của đối tượng như độ nét, màu sắc, tương phản,… khơng cịn
chuẩn xác. Chính điều này ảnh hưởng đến q trình huấn luyện phát hiện đối tượng
mang vai trị trong lĩnh vực máy học nói riêng cũng như trí thơng minh nhân tạo nói
chung. Tuy nhiên, với nỗ lực không ngừng của nghiên cứu khoa học đã tạo ra nhiều
phương pháp hỗ trợ công việc nhằm giảm thiểu thách thức gặp phải trong lĩnh vực
thị giác máy tính.
Điều này đã thơi thúc nhóm thực hiện tìm hiểu, thử nghiệm, nghiên cứu đồ án
“Phát hiện đối tượng trong không ảnh chứa sương mờ”.
1.2. Phát biểu bài toán
Phát hiện đối tượng là một trong những bước cốt lõi để phân tích các video
được thu thập từ máy bay không người lái (UAV) mang tính ứng dụng thực tế cao

2


như các bộ phận cảm biến, camera an ninh, hệ thống cứu hộ. Việc thực hiện trên

không ảnh tồn tại những thách thức riêng do thay đổi góc quay làm cho dữ liệu đa
dạng, phong phú. Bên cạnh đó, bối cảnh phức tạp hơn bởi xuất hiện đối tượng khác
như tịa nhà, bảng hiệu giao thơng, cây cối. Hình ảnh thu được với góc nhìn khơng
giới hạn, độ phân giải thấp của video, các yếu tố như thời tiết, độ sáng, tốc độ, góc
quay, mật độ các đối tượng hay vị trí đều ảnh hưởng đến kết quả phát hiện đối tượng.
Thực tế, sự tồn tại của khói, bụi, sương mờ trong khí quyển làm hình ảnh đầu vào bị
mờ, độ tương phản thấp, ảnh hưởng màu sắc gây ra nhiều khó khăn trong các tác vụ
phân loại, theo dõi, nhận dạng con người,... đặc biệt là phát hiện đối tượng.

Đầu vào

Đầu ra

Hình 1-1 Bài tốn phát hiện đối tượng trong không ảnh chứa sương mờ. Đầu vào là
ảnh chụp từ trên khơng, đầu ra là vị trí và nhãn phương tiện giao thông.

3


Trong nghiên cứu lần này, nhóm tập trung vào hình ảnh thu nhận trong điều
kiện tầm nhìn hạn chế do sương gây ra, bài toán nhận vào ảnh chụp từ trên khơng
chứa sương mờ, gây hạn chế tầm nhìn, đầu ra bài tốn là vị trí các phương tiện giao
thơng trong ảnh.
Một số phương pháp thường được áp dụng cho bài toán khử sương phổ biến
như GCA-Net [1], DCP [3], AOD-Net[5], Dehaze-Net [7] cho kết quả tốt. Tuy nhiên,
kết quả khử sương vẫn còn tồn tại sự sai lệch về màu sắc, độ tương phản. Điều này
đã được khắc phục khi phương pháp FFA-Net [6] được công bố gần đây. Nghiên cứu
đã chỉ ra được tác động của sương mờ trong bài tốn phát hiện phương tiện giao thơng
từ khơng ảnh.
Nhóm đánh giá trên bộ dữ liệu chứa sương mờ chọn từ UAVDT-BenchmarkM [2] chỉ ra rằng giả thuyết coi sương mờ như là một phần của đối tượng và không

thực hiện khử sương vùng ảnh chứa đối tượng cho kết quả tốt trên lớp truck.
1.3. Các thách thức
Bằng việc tham khảo, khảo sát về các bài toán phát hiện đối tượng trong khơng
ảnh chưa sương mờ, nhóm nhận thấy thách thức của bài toán tương đối đáng kể, đến
từ nhiều hướng khác nhau.
Thách thức mang yếu tố bên ngoài như điều kiện thời tiết xấu có thể ảnh hưởng
trực tiếp đến chất lượng hình ảnh như mật độ sương mờ dày đặc che khuất đối tượng,
ánh sáng phân bổ không đều gây hiệu suất phát hiện đối tượng thấp trong vài trường
hợp, các khu vực địa hình mang đặc thù riêng, xuất hiện các vật thể che chắn các đối
tượng,…
Thách thức mang yếu tố bên trong điển hình như các phương pháp vẫn cịn
tồn tại khuyết điểm, khơng thể khử sương mờ tối ưu, phát hiện đối tượng chưa chuẩn
xác hay các bộ dữ liệu mang đặc thù khác nhau, địi hỏi nhóm phải linh hoạt, thử
nghiệm liên tục nhiều trường hợp để đạt kết quả mong muốn.

4


Mặt khác, về khía cạnh dữ liệu, hình ảnh trong các bộ dữ liệu được chụp ở
nhiều góc cạnh, điều kiện ánh sáng sáng khác nhau, mật độ của các yếu tố như sương
mờ, mưa, khói khơng đồng đều. Từ đó dẫn đến hình ảnh bị suy giảm độ tương phản
và độ trung thực của màu sắc. Điều này gây ảnh hưởng nghiêm trọng đến các tác vụ
thị giác trong ảnh, địi hỏi cần có kỹ thuật tiền xử lý ảnh và rút trích đặc trưng phù
hợp. Thách thức cốt lõi của bài toán này là làm thế nào để tăng độ chính xác khi nhận
diện các đối tượng bị ảnh hưởng nặng nề bởi các yếu tố ngoại cảnh.
Về ứng dụng thực tiễn, trong thực tế việc phát hiện đối tượng ở các ảnh bị ảnh
hưởng bởi sương mờ vẫn cịn nhiều khó khăn do phụ thuộc các yếu tố như mật độ,
ánh sáng và tương phản của ảnh,… Do đó việc phát hiện đối tượng trên ảnh sương
mờ vẫn còn là vấn đề cần nghiên cứu thêm để đưa vào các ứng dụng thực tiễn.
1.4. Mục tiêu và phạm vi nghiên cứu

Trong phạm vi nghiên cứu đồ án một, những mục tiêu chính được đặt ra như:
-

Tìm hiểu tổng quan về các bài toán Phát hiện đối tượng trong khơng ảnh
nói chung cũng như trong khơng ảnh chứa sương mờ nói riêng.

-

Tìm hiểu các kỹ thuật, phương pháp học sâu tiên tiến, có kết quả khả quan
trên các bộ dữ liệu tương đồng.

-

Cài đặt thực nghiêm nhiều phương pháp khác nhau để có cái nhìn khái qt
như FFA-Net, RepPoint, PAA,…

-

Sau khi thu được kết quả, lựa chọn, đặt giả thuyết để chọn ra phương pháp
phù hợp để cải tiến, nâng cao kết quả.

-

Tổng hợp kết quả, phân tích đánh giá kết quả từ mơ hình thực nghiệm và
viết báo cáo.

1.5. Đóng góp của đồ án
Đóng góp chính của đồ án này là đề xuất việc kết hợp hai phương pháp tiên
tiến FFANet (AAAI-2021) và PPA (ECCV-2020) cho việc pháp hiện phương tiện
trong không ảnh chứa sương mờ trên bộ dữ liệu UAV DT Benchmark-M.


5


Ngồi ra, nhóm cũng m hiểu, trình bày lý thuyết cơ sở và các phương pháp
liên quan trong bài toán, cài đặt, chạy thực nghiệm các phương pháp tiên tiến trên bộ
dữ liệu thực tế. Mặt khác cải tiến, hiệu chỉnh đạt kết quả khả quan trong việc phát
hiện đối tượng trong khơng ảnh chứa sương mờ.
Đóng góp 1 bài báo trong Hội nghị Khoa học Trẻ và nghiên cứu sinh năm
2021 được tổ chức bởi trường Đại học Công nghệ thông tin: “MỘT PHƯƠNG
PHÁP PHÁT HIỆN ĐỐI TƯỢNG TRONG KHÔNG ẢNH CHỨA SƯƠNG
MỜ”2.
1.6. Cấu trúc báo cáo đồ án
Báo cáo đồ án bao gồm 5 chương như sau
-

Chương 1 Tổng quan đề tài: Giới thiệu nội dung sơ lược bao gồm động lực
nghiên cứu, phát biểu bài toán, các thách thực, mục tiêu, phạm vi của
nghiên cứu và đóng góp của đồ án.

-

Chương 2 Cơ sở lý thuyết và các nghiên cứu liên quan: Trình bày phần tìm
hiểu về lý thuyết, các nghiên cứu, hướng tiếp cận trên thế giới.

-

Chương 3 Thực nghiệm và đánh giá: Trình bày dữ liệu thực nghiệm quá
trình cài đặt thực nghiệm, , phương pháp đánh giá và phân tích kết quả.


-

Chương 4 Đề xuất cải tiến và đánh giá kết quả: Trình bày các đề xuất cải
tiến sau khi quan sát kết quả, đánh giá các kết quả đề xuất và so sánh với
kết quả của các mơ hình mặc định trước đó.

-

Chương 5 Kết luận và hướng phát triển: Tổng kết các kết quả quan trọng
đã đạt được trong đề tài và hướng phát triển của đề tài trong tương lai

2

/>
6


Chương 2. CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN
2.1. Giới thiệu tổng quan
Machine Learning là một lĩnh vực của Trí tuệ nhân tạo, liên quan tới việc
nghiên cứu và xây dựng các thuật tốn, mơ hình cho phép các hệ thống có khả năng
"học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Nếu như trước kia, để
giải quyết vấn đề, con người sử dụng dòng code để đưa những chỉ thị, hành động cụ
thể cho máy tính thực hiện, thì nay chỉ với dữ liệu và các thuật tốn, máy tính được
huấn luyện và có thể tự mình đưa ra những quyết định hoặc dự đốn từ q trình học
hỏi. Phương pháp này đưa ra kết quả nhanh, chính xác và hiệu quả, thậm chí cịn tốt
hơn con người rất nhiều nhờ áp dụng các thuật tốn để phân tích, thống kê từ hàng
trăm, hàng nghìn dữ liệu. Nói tóm lại, Machine Learning là q trình dạy máy tính
có khả năng học hỏi để hồn thành một nhiệm vụ mà khơng cần kỹ thuật lập trình
phức tạp.

Machine Learning là ngành rất rộng về toán, gồm rất nhiều thuật toán và mỗi
thuật toán có ứng dụng riêng tùy vào bài tốn:
• Linear Regression.
• Logistic Regresstion.
• Decision Tree và Random Forest.
• Support Vector Machines.
• K-Nearest Neighbors.
• Principal component analysis (PCA).
• Neural network.
Trong số đó, Deep Learning được bắt nguồn từ thuật toán Neural network –
một trong những thuật toán lấy cảm hứng từ cấu trúc bộ não con người để xử lý dữ
liệu. Dù chỉ là một ngành nhỏ của Machine Learning nhưng sự phát triển cùng khả
năng tính tốn vượt trội của máy tính và lượng dữ liệu khổng lồ mà con người tạo ra,

7


những ứng dụng của Deep Learning đã và đang tạo ra những bước đột phá thực sự
lớn.

Hình 2-1 Mối quan hệ giữa AI, Machine Learning và Deep Learning.
Trong đồ án này, nhóm tơi quyết định chọn lĩnh vực Thị giác máy tính
(Computer Vision) – một nhánh nhỏ của Deep Learning để thực hiện nghiên cứu và
ứng dụng cho bài toán “Phát hiện đối tượng trong không ảnh chứa sương mờ”.
2.2. Computer Vision
Thị giác máy tính (Computer Vision) là một trong những lĩnh vực nổi bất nhất
của Deep Learning. Thị giác máy tính là một lĩnh vực khoa học giúp máy tính tập
trung vào việc tái tạo và mơ phỏng các phần phức tạp của hệ thống thị giác con người
và cho phép máy tính xác định và xử lý các đối tượng trong hình ảnh và video giống
như cách con người làm.


8


Hình 2-2 Sơ đồ mối liên hệ giữa các kĩ thuật trong Computer Vision.
Một số kỹ thuật phổ biến trong Computer Vision gồm:
• Nhận diện vật thể (Object Recognition) là một kỹ thuật liên quan đến việc
nhận dạng, xác định và định vị các đối tượng trong một bức ảnh với một mức độ tin
cậy nhất định.
• Phân loại hình ảnh (Image Classification) là một kỹ thuật liên quan đến việc
dự đốn lớp của một đối tượng trong một hình ảnh.
• Định vị vật thể (Object Localization): là một kỹ thuật xác định vị trí của một
hoặc nhiều đối tượng trong một hình ảnh và vẽ bounding box xung quanh chúng.
• Phát hiện đối tượng (Object Detection): là một kỹ thuật kết hợp phân loại
hình ảnh và định vị vật thể cho một hoặc nhiều đối tượng trong hình ảnh.
• Phân đoạn đối tượng (Object Segmentation) là một kỹ thuật nhận dạng đối
tượng bằng cách nổi bật các pixel cụ thể của đối tượng thay vì bounding box.
• Chú thích ảnh (Image Captioning) là một kỹ thuật kết hợp giữa các kiến trúc
mạng CNN vs LSTM để đưa ra các lý giải về hành động hoặc mô tả nội dung của
một bức ảnh.

9


Nhờ sự tiến bộ của khoa học và ứng dụng các thuật tốn tiên tiến, chúng ta đã
giúp máy tính có khả năng thu nhận hình ảnh, xử lý và hiểu hình ảnh để ứng dụng
chúng trong mọi lĩnh vực xung quanh ta như:
• Nhận diện khn mặt trong các smartphone (Face ID).
• Kiểm tra các sản phẩm lỗi trong ngành cơng nghiệp sản xuất .
• Hỗ trợ bác sĩ trong chuẩn đoán và điều trị bệnh ung thư dựa vào ảnh.

• Nhận diện biển báo, người đi đường cho các xe tự lái.
• Nhận diện cảm xúc để đánh giá hành vi mua hàng trong các cửa hàng.
• Nhận biết trường hợp té ngã để kịp thời cấp cứu dựa vào phát hiện hành vi
dị thường của con người.
2.3. Một số cơ sở lý thuyết
2.3.1.

Mạng nơ-ron

2.3.1.1. Nơ-ron nhân tạo (perceptron)
Mạng nơ-ron nhân tạo (Artificial Nơ-ron Networks) hay gọi tắt Nơ-ron
Networks (NNs) là mạng lưới thần kinh được liên kết đầy đủ giữa các lớp với nhau.
ANN xuất phát từ ý tưởng mô phỏng hoạt động của não bộ con người, cụ thể là nơ
ron thần kinh.

Hình 2-3 Cấu tạo nơ ron thần kinh

10


Một mạng NN sẽ có 3 kiểu tầng:
Tầng vào (input layer): Là tầng bên trái cùng của mạng thể hiện cho các đầu
vào của mạng.
Tầng ra (output layer): Là tầng bên phải cùng của mạng thể hiện cho các đầu
ra của mạng.
Tầng ẩn (hidden layer): Là tầng nằm giữa tầng vào và tầng ra thể hiện cho việc
suy luận logic của mạng.

Hình 2-4 Kiến trúc một mạng nơ-ron nhân tạo cơ bản
Trên mỗi lớp có các node được thể hiện như các nơ-ron thần kinh, mỗi node

trong một lớp thì liên kết với tất cả các node trong lớp tiếp theo. Trong một mạng nơron nhân tạo thì số lớp ẩn là không giới hạn và số lượng các nơ ron trên mỗi lớp cũng
không giới hạn.
Mạng nơ ron nhân tạo được ứng dụng cho rất nhiều lĩnh vực như: tài chính,
giao dịch, phân tích kinh doanh, lập kế hoạch cho doanh nghiệp và bảo trì sản
phẩm. Neural Network cịn được sử dụng khá rộng rãi cho những hoạt động kinh
doanh khác như: dự báo thời tiết, và tìm kiếm các giải pháp nhằm nghiên cứu tiếp thị,
đánh giá rủi ro và phát hiện gian lận. Nhiều trường hợp còn sử dụng mạng nơ ron

11


nhân tạo để thực hiện đánh giá và khai quật những cơ hội giao dịch dựa vào việc phân
tích dữ liệu lịch sử. Mạng nơron còn được áp dụng rất phổ biến để phân biệt sự phụ
thuộc giữa các phi tuyến lẫn nhau của đầu vào. Đây là vấn đề mà các mơ hình phân
tích kỹ thuật khác khơng thể đáp ứng được.
2.3.1.2. Hàm kích hoạt (Activation function)
Hàm kích hoạt (activation function) mô phỏng tỷ lệ truyền xung qua axon của
một neuron thần kinh. Trong một mạng nơ-ron nhân tạo, hàm kích hoạt đóng vai trị
là thành phần phi tuyến tại output của các nơ-ron.

Hình 2-5 Cơng thức và đồ thị của một số hàm kích hoạt
Các hàm kích hoạt phổ biến như Sigmoid, Tanh, ReLU, Leaky ReLU,
MaxOut,… Khi tìm hiểu về các cấu trúc mạng cụ thể, các activation khác nhau sẽ
được sử dụng, tuỳ vào độ sâu của mạng, output mong muốn, thậm chí là dữ liệu của
bài toán.

12


2.3.2.


Mạng nơ-ron tích chập (Convolutional Nơ-ron Network)

Hình 2-6 Một quy trình CNN phân loại chữ số viết tay
Mạng nơron tích chập (còn gọi là ConvNet / CNN) là một thuật tốn Deep
Learning có thể lấy hình ảnh đầu vào, gán độ quan trọng cho các đặc trưng/đối tượng
khác nhau trong hình ảnh và có thể phân biệt được từng đặc trưng/đối tượng này với
nhau. Công việc tiền xử lý được u cầu cho mạng nơron tích chập thì ít hơn nhiều
so với các thuật toán phân loại khác. Trong các phương thức sơ khai, các bộ lọc được
thiết kế bằng tay, với một quá trình huấn luyện để chọn ra các bộ lọc/đặc trưng phù
hợp thì mạng nơron tích chập lại có khả năng tự học để chọn ra các bộ lọc/ đặc trưng
tối ưu nhất.
Kiến trúc của nơron tích chập tương tự như mơ hình kết nối của các nơron
trong bộ não con người và được lấy cảm hứng từ hệ thống vỏ thị giác trong bộ não
(visual cortex). Các nơ-ron riêng lẻ chỉ phản ứng với các kích thích trong một khu
vực hạn chế của trường thị giác được gọi là Trường tiếp nhận (Receptive Field). Một
tập hợp các trường như vậy chồng lên nhau để bao phủ tồn bộ khu vực thị giác.
Trong mơ hình CNN có 2 khía cạnh cần quan tâm là tính bất biến (Location
Invariance) và tính kết hợp (Compositionality). Với cùng một đối tượng, nếu đối
tượng này được chiếu theo các gốc độ khác nhau (translation, rotation, scaling) thì độ
chính xác của thuật tốn sẽ bị ảnh hưởng đáng kể. Đó là lý do tại sao CNNs cho ra

13


mơ hình với độ chính xác rất cao. Cũng giống như cách con người nhận biết các vật
thể trong tự nhiên.
Mạng CNN sử dụng 3 ý tưởng cơ bản:
-


Các trường tiếp nhận cục bộ (local receptive field):

Lớp này có nhiệm vụ tách lọc dữ liệu, thông tin ảnh và lựa chọn các vùng ảnh
có giá trị sử dụng cao nhất.Đầu vào của mạng CNN là một ảnh. Ví dụ như ảnh có
kích thước 28×28 thì tương ứng đầu vào là một ma trận có 28×28 và giá trị mỗi điểm
ảnh là một ơ trong ma trận. Trong mơ hình mạng ANN truyền thống thì chúng ta sẽ
kết nối các neuron đầu vào vào tầng ảnh. Tuy nhiên trong CNN chúng ta không làm
như vậy mà chúng ta chỉ kết nối trong một vùng nhỏ của các neuron đầu vào như một
filter có kích thước 5×5 tương ứng (28 - 5 + 1) 24 điểm ảnh đầu vào. Mỗi một kết nối
sẽ học một trọng số và mỗi neuron ẩn sẽ học một bias. Mỗi một vùng 5×5 đấy gọi là
một trường tiếp nhận cục bộ.

Hình 2-7 Minh họa local receptive field
-

Trọng số chia sẻ (shared weights)

14


Lớp này giúp làm giảm tối đa lượng tham số có tác dụng chính của yếu tố này
trong mạng CNN. Trong mỗi convolution sẽ có các feature map khác nhau và mỗi
feature lại có khả năng giúp detect một vài feature trong ảnh.
-

Tổng hợp (pooling)

Lớp cuối cùng và có tác dụng làm đơn giản các thơng tin đầu ra. Có nghĩa là,
sau khi đã hồn tất tính tốn và qt qua các lớp thì đến pooling layer để lược bớt các
thơng tin khơng cần thiết. Từ đó, cho ra kết quả theo như ý mà người dùng mong

muốn.
Mạng nơ-ron tích chập (Convolutional Nơ-ron Networks - CNN) là một trong
những phương pháp được áp dụng nhiều nhất trong lĩnh vực xử lý ảnh (Computer
vision) để giải quyết các bài toán như nhận dạng hình ảnh, phân loại hình ảnh, phát
hiện đối tượng, nhận diện khuôn mặt, …v.v.
2.3.2.1. Fully Connected Layer - FC Layer (Classification)

Hình 2-8 Minh họa FC Layer
Kiến trúc của tầng liên kết đầy đủ tương tự kiến trúc của mạng nơ-ron nhân
tạo đã được trình bày ở mục. Kết quả đầu ra của tầng tích chập và tầng tổng hợp là
các ma trận ở dạng hai chiều hoặc ba chiều. Các ma trận trên sẽ được làm phẳng
(Flatten) thành một vector rồi mới được đưa vào tầng liên kết đầy đủ. Lớp cuối cùng
trong tầng liên kết đầy đủ chính là đầu ra cho bài tốn.

15


×