Ứng dụng mạng Nơ ron tích chập nhận dạng các đối tượng di động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.76 MB, 27 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN VĂN NAM

ỨNG DỤNG MẠNG NƠ RON TÍCH CHẬP NHẬN
DẠNG CÁC ĐỐI TƯỢNG DI ĐỘNG

Chuyên ngành: Kỹ thuật điều khiển và tự động hóa
Mã số: 8520216

LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2020

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

Người hướng dẫn khoa học: TS. NGÔ ĐÌNH THANH

Phản biện 1: TS. Phan Văn Hiền
Phản biện 2: TS. Nguyễn Bê

Luận văn được bảo vệ tại Hội đồng chấm luận văn tốt nghiệp thạc sĩ
chuyên ngành Kỹ thuật điều khiển và tự động hóa họp tại Trường Đại
học Bách khoa vào ngày 18 tháng 1 năm 2020
Có thể tìm hiểu luận văn tại:
- Trung tâm thông tin-Học liệu, Đại học Đà Nẵng
- Thư viện trường Đại học Bách khoa Đà Nẵng

1
MỞ ĐẦU
1. Tính cấp thiết của đề tài
Những năm gần đây, việc ứng dụng các mô hình Deep Learning
vào trong thực tế được nhiều nhà khoa học quan tâm tham gia nghiên
cứu, nổi trội trong đó là mô hình mạng Nơ ron tích chập (CNN Convolutional Neural Networks) [1], [2], [3] như một ứng cử viên sáng
giá để giải quyết các vấn đề như: xử lý dữ liệu đầu vào lớn; xử lý
online; nâng cao độ chính xác và khả năng xử lý nhiễu đầu vào. Để
thực hiện được những yêu cầu trên mô hình CNN cũng trải qua các cải
tiến cụ thể: Mạng Nơ ron tích chập khu vực (R-CNN - Regional
convolutional neural networks) [4], [5], [6]; Mạng Nơ ron tích chập
khu vực nhanh (Fast R-CNN - Fast region-based convolutional neural
networks) [7]; Mạng Nơ ron tích chập khu vực nhanh hơn (Faster RCNN - Faster region-based convolutional neural networks) [8], [9].
Trong đó, mô hình Faster R-CNN không dùng thuật toán tìm kiếm
chọn lọc để lấy ra các khu vực, mà nó thêm một mạng CNN mới gọi
là mạng đề xuất khu vực (RPN - Region Proposal Networks) để tìm
các khu vực [8]. Đầu tiên cả bức ảnh được cho qua mô hình huấn
luyện trước để lấy bản đồ đặc trưng. Sau đó bản đồ đặc trưng được
dùng cho RPN để lấy được các khu vực, sau khi lấy được vị trí các khu
vực thì thực hiện tương tự Fast R-CNN [7].
Độ chính xác nhận dạng là một yếu tố quan trọng của mô hình khi
ứng dụng vào trong thực tế, khi đầu vào bị nhiễu (nhiễu: hình ảnh trong
môi trường trời tối, trời mưa hoặc ảnh bị che khuất một phần…) nó
ảnh hưởng đến quá trình nhận dạng như thế nào? Do vậy, trong nghiên
cứu này sẽ cho thấy được sự ảnh hưởng của nhiễu ở đầu vào lên độ
chính xác trong nhận dạng của mô hình Faster R-CNN.

2

Với những lý do trên, tôi quyết định chọn nghiên cứu đề tài: “Ứng
dụng mạng Nơ ron tích chập nhận dạng các đối tượng di động”.
Mục tiêu của đề tài là thực nghiệm mô hình Faster R-CNN nhận dạng
các đối tượng tĩnh và di động, đưa ra các đánh giá độ chính xác của
mô hình trong trường hợp tín hiệu đầu vào lúc bình thường và nhiễu.
2. Mục tiêu của đề tài
Mục tiêu của đề tài là thực nghiệm mô hình Faster R-CNN nhận
dạng các đối tượng tĩnh và di động, đưa ra các đánh giá độ chính xác
của mô hình trong trường hợp tín hiệu đầu vào lúc bình thường và
nhiễu. Từ đó tiến hành xây dựng mô hình nhận dạng các đối tượng từ
một hình ảnh, một đoạn video hoặc từ camera online. Đánh giá về khả
năng ứng dụng mô hình Faster R-CNN để phân loại loài hoa, nhận
dạng hệ động thực vật rừng di động.
3. Đối tượng và phạm vi nghiên cứu
3.1 Đối tượng nghiên cứu:

- Cơ sở dữ liệu trên hình ảnh, video trên Google
- Cơ sở lý thuyết về nhận dạng các đối tượng
- Các phương pháp, giải thuật về nhận dạng đối tượng
- Thuật toán mạng Nơ ron tích chập
3.2 Phạm vi nghiên cứu:

- Nghiên cứu về các kỹ thuật nhận dạng các đối tượng từ hình ảnh
- Nghiên cứu nhận dạng đối tượng tĩnh và di động
4. Cách tiếp cận, phương pháp nghiên cứu
4.1 Cách tiếp cận

- Tìm hiểu nghiên cứu các tài liệu liên quan đến đề tài trên các tạp
chí trong và ngoài nước, trên các trang diễn đàn kỹ thuật, nguồn tư liệu
từ các trang mạng internet như Google, YouTube…

3
4.2 Phương pháp nghiên cứu
4.2.1 Phương pháp lý thuyết:

- Tìm hiểu cơ sở lý thuyết về xử lý hình ảnh, xử lý video …
- Tìm hiểu cơ sở lý thuyết về thuật toán mạng Nơ ron tích chập
- Các tài liệu liên quan đến nhận dạng các đối tượng từ hình ảnh,
video, từ kho dữ liệu Google
4.2.2 Phương pháp thực nghiệm:

- Xây dựng mô hình Faster R-CNN để nhận dạng đối tượng tĩnh và
di động

- Kiểm tra đánh giá độ chính xác mô hình Faster R-CNN nhận dạng
thực nghiệm 10 loài hoa trong trường hợp hình ảnh đưa vào lúc bình
thường và nhiễu.
5. Cấu trúc luận văn
Phần mở đầu
Chương 1: Tổng quan về thuật toán nhận dạng
Chương 2: Xây dựng và huấn luyện mô hình Faster R-CNN
Chương 3: Kết quả thực nghiệm và đánh giá độ chính xác mô hình
Faster R-CNN
Kết luận
CHƯƠNG 1 - TỔNG QUAN VỀ THUẬT TOÁN NHẬN DẠNG
Tổng quan về nhận dạng các đối tượng
1.1.1. Khái niệm về nhận dạng
Nhận dạng mẫu là một ngành thuộc lĩnh vực máy học. Nói cách
khác, nó có thể được xem là việc "cần thực hiện một tác động” vào dữ

liệu thô mà tác động cụ thể là gì sẽ tùy vào loại của dữ liệu đó. Như
vậy nó là một tập các phương pháp học có giám sát.

4
Nhận dạng mẫu nhằm mục đích phân loại dữ liệu dựa trên là kiến
thức đi trước hoặc dựa vào thông tin thống kê được trích rút từ các mẫu
có sẵn. Các mẫu cần phân loại thường được biểu diễn thành các nhóm
của các dữ liệu đo đạc hay quan sát được, mỗi nhóm là một điểm ở
trong một không gian đa chiều phù hợp. Đó là không gian của các đặc
tính để dựa vào đó ta có thể phân loại.
1.1.2. Các khó khăn trong việc nhận dạng đối tượng
1.1.2.1. Tư thế , góc chụp
1.1.2.2. Sự xuất hiện hoặc thiếu một số thành phần
1.1.2.3. Sự biến dạng của đối tượng
1.1.2.4. Sự che khuất
1.1.2.5. Sự phức tạp của hình nền
1.1.2.6. Môi trường của ảnh
1.1.3. Các ứng dụng trong nhận dạng đối tượng hiện nay
1.1.4. Tổng quan kiến trúc một hệ thống nhận dạng đối tượng
1.1.5. Tổng quan về nhận dạng hoa
Hệ thống nhận dạng hoa là một ứng dụng máy tính tự động xác định
hoặc nhận dạng loại hoa nào đó từ một bức hình ảnh kỹ thuật số hoặc
một khung hình video từ một nguồn video. Một trong những cách để
thực hiện điều này là so sánh các đặc điểm trên các loại hoa chọn trước
từ hình ảnh và một cơ sở dữ liệu về loại hoa đó.
Từ tập dữ liệu sau khi huấn luyện, sẽ lấy được các đặc trưng của
các loại hoa. Hệ thống sẽ so sánh với hình ảnh thu về từ camera trực
tiếp qua ứng dụng để cho ra kết quả đó là loại hoa gì. Đồng thời xuất
ra các thông tin cơ bản của loại hoa đó như tên hoa, đặc điểm, nguồn

gốc của hoa.

5

Hình 1.1: Nhận dạng hoa mai
Tổng quan về mạng Nơ ron
Mạng Nơ ron được xây dựng dựa trên những hiểu biết về bộ não
con người. Mạng bao gồm một loạt các đơn vị liên kết khác nhau, nó
là một ánh xạ giữa tập đầu vào và tập đầu ra. Mỗi đơn vị này gọi là
một Nơ ron. Hai loại Nơ ron nhân tạo quan trọng là perceptron và
sigmoid Nơ ron.
Perceptron được phát triển trong những năm 1950-1960 bởi nhà
khoa học Frank Rosenblatt dựa trên cảm hứng từ nghiên cứu trước đó
của Warren McCulloch và Walter Pitts. Cách thức hoạt động của
perceptrons là sử dụng một vài đầu vào nhị phân x1, x2… và tạo ra
một đầu ra nhị phân như hình 1.2.

Hình 1.2: Cách thức perceptron hoạt động
Giả sử perceptrons có ba đầu vào: x1, x2, x3. Để tính toán đầu ra
chúng ta giả sử các trọng số w1, w2, w3… là các số thực diễn tả độ
quan trọng của đầu vào tương ứng. Đầu ra của Nơ ron là 0 hay 1 được

6
xác định thông qua so sánh tổng xích ma của các tích wj*xj với một
giá trị ngưỡng theo biểu thức sau:
0 if  j w j x j  threshold
output  
 1 if  j w j x j  threshold

Tổng quan về mạng Nơ ron tích chập (CNN)
1.3.1. Kiến trúc mạng Nơ ron tích chập
Mạng Nơ ron tích chập có kiến trúc khác với mạng Nơ ron thông
thường. Mạng Nơ ron bình thường chuyển đổi đầu vào thông qua hàng
loạt các tầng ẩn. Mỗi tầng là một tập các Nơ ron và các tầng được liên
kết đầy đủ với các Nơ ron ở tầng trước đó. Và ở tầng cuối cùng sẽ là
tầng kết quả đại diện cho dự đoán của mạng.
Đầu tiên, mạng Nơ ron tích chập được chia thành 3 chiều: rộng, cao
và sâu. Tiếp theo các Nơ ron trong mạng không liên kết hoàn toàn với
toàn bộ Nơ ron kế đó nhưng chỉ liên kết tới một vùng nhỏ. Cuối cùng
một tầng đầu ra được tối giản thành vector của giá trị xác suất.

Hình 1.3: Mạng Nơ ron thông thường (trái) và CNN (phải)
CNN gồm hai thành phần:

- Phần tầng ẩn hay phần rút trích đặc trưng: trong phần này mạng
sẽ tiến hành tính toán hàng loạt phép tích chập và phép hợp nhất
(pooling) để phát hiện các đặc trưng. Ví dụ: nếu ta có hình ảnh con
ngựa vằn thì trong phần này mạng sẽ nhận diện các sọc vằn, hai tai, và
bốn chân của nó.

7

- Phần phân loại: tại phần này một lớp với các liên kết đầy đủ sẽ
đóng vai trò như một bộ phân lớp các đặc trưng đã rút trích được trước
đó. Tầng này sẽ đưa ra xác suất của một đối tượng trong hình 1.4.

Hình 1.4: Lớp rút trích đặc trưng của ảnh (Conv, Relu và Pool) và

Lớp phân loại (FC và softmax)
1.3.2. Trích rút đặc trưng
1.3.3. Phân loại
Tổng quan về Faster R-CNN
1.4.1. Bài toán nhận dạng vật thể

Hình 1.5: Nhận dạng hoa đồng tiền
Bài toán object detection có đầu vào là ảnh màu và đầu ra là vị trí
của các vật thể trong ảnh. Ta thấy nó bao gồm hai bài toán nhỏ:

- Xác định các khung quanh vật thể.
- Với mỗi khung thì cần phân loại xem đấy là vật thể gì với bao
nhiêu phần trăm chắc chắn.
1.4.2. Mạng Nơ ron tích chập khu vực (R-CNN)
Ý tưởng thuật toán R-CNN khá đơn giản:

8
Bước 1: Dùng thuật toán tìm kiếm chọn lọc để lấy ra khoảng 2000
khu vực trong ảnh đầu vào mà có khả năng chứa vật thể.
Bước 2: Với mỗi khung ta xác định xem nó là vật thể nào.
1.4.2.1. Thuật toán tìm kiếm chọn lọc
1.4.2.2. Phân loại khu vực được đề xuất
1.4.2.3. Vấn đề với R-CNN
1.4.3. Mạng Nơ ron tích chập khu vực nhanh (Fast R-CNN)
Sau khi đã có đầu ra của các khu vực, chúng ta sẽ tìm hiểu về khái
niệm anchors. Tại mỗi vị trí của cửa sổ trượt trên đặc trưng tích chập,
chúng ta tạo ra k anchors tương ứng ở hình ảnh gốc. Trong nghiên cứu
[7] tác giả sử dụng một hình vuông, 2 hình chữ nhật với tỉ lệ chiều
rộng, chiều dài là 1×2 hoặc 2×1, cùng với 3 kích cỡ khác nhau, như

vậy k= 3×3 = 9.
Các anchors này sẽ được gán mác là tích cực hoặc tiêu cực dựa vào
diện tích chồng chéo với ground truth box theo luật như sau.
Các anchor được phân loại là tích cực nếu:

- Là anchor có tỉ lệ diện tích chồng chéo trên diện tích chồng chéo
(Intersection-over-Union) lớn nhất với một ground truth box.

- Là anchor có tỉ lệ giao nhau với một ground truth lớn hơn 0.7.
Các anchor được phân loại là tiêu cực nếu có giá trị IoU bé hơn 0.3.
Tại sao phải tạo ra những anchors này. Câu trả lời gồm 2 nguyên
nhân chính:

- Dựa phân loại của anchor, để dự đoán xác suất chứa vật thể của
các khu vực.

- Dựa vào khoảng cách từ anchor đến ground truth box, để dự đoán
vị trí của khung.
Từ đây ta xác định được mục tiêu đầu ra của box-regression layer
và box-classification được nhắc tới ở phần cấu trúc mạng RPN.

9
Box-classification dự đoán xác suất chứa vật thể của k khu vực
được đề xuất, tương ứng với k anchor tại từng vị trí của slidingwindow.
Box-regression dự đoán khoảng cách từ anchor đến khung dữ liệu
thật tương ứng.
Tuy nhiên là kích thước của các khu vực khác nhau nên khi làm
phẳng sẽ ra các vector có kích thước khác nhau nên không thể áp dụng
neural network được. Nó đã thay đổi kích thước các khu vực về cùng

kích thước trước khi dùng thay đổi cách học. Tuy nhiên ở bản đồ đặc
trưng ta không thể thay đổi kích thước được, nên ta phải có cách khác
để chuyển các khu vực trong bản đồ đặc trưng về cùng kích thước. ROI
pooling ra đời.
1.4.3.1. Region of Interest pooling (ROI pooling)
1.4.3.2. Đánh giá giữa R_CNN và Fast R-CNN
1.4.4. Mạng Nơ ron tích chập khu vực nhanh hơn (Faster R-CNN)
Faster R-CNN [8], [9] không dùng thuật toán tìm kiếm chọn lọc để
lấy ra các khu vực, mà nó thêm một mạng CNN mới gọi là RPN để tìm
các khu vực.

Hình 1.6: Mô hình ROI pooling

10
1.4.4.1. Intersection over Union (IoU)
1.4.4.2. Kết quả của Faster R-CNN
1.4.4.3 Các bước thực hiện

CHƯƠNG 2 - XÂY DỰNG VÀ HUẤN LUYỆN MÔ HÌNH
FASTER R_CNN
2.1. Xây dựng môi trường thực nghiệm mô hình Faster R_CNN
Môi trường thực nghiệm cho mô hình Faster R-CNN ở đây chính
là xây dựng một bộ máy tính có cấu hình đủ mạnh (máy tính có card
đồ họa rời) và được cài đặt đầy đủ các phần mềm ứng dụng bao gồm:

- Các phần mềm hỗ trợ có mã nguồn mở và phần mềm lập trình
như: tensorflow; Anaconda; CUDA, Python

- Cài đặt file môi trường: là không gian chứa file chương trình và

nơi cài đặt các thư viện hỗ trợ cho mô hình.

- Cài đặt các thư viện hỗ trợ như tensorflow-gpu, opencv-python,
pandas, …
2.1.1. Cấu hình phần cứng cho môi trường thực nghiệm mô hình
Nghiên cứu được thực nghiệm trên máy tính PC có cấu hình: main
H310; Bộ xử lý (CPU): Core I7 8700es 6 nhân 12 luồng; Bộ nhớ
(RAM): 16GB bus 1600GHz; Ổ cứng (SSD): 240GB; Card đồ họa
(VGA): GTX 1060.
2.1.2. Các phần mềm hỗ trợ và phần mềm lập trình
2.1.2.1. Phần mềm CUDA
2.1.2.2. Phần mềm Anaconda
2.1.2.3. Phần mềm Python
2.1.2.4. Phần mềm Tensorflow
2.1.2.5. Cài đặt file môi trường
2.1.2.6. Cài đặt các thư viện hỗ trợ

11
2.1.3. Cài đặt file môi trường
2.1.4. Cài đặt các thư viện hỗ trợ
2.2. Huấn luyện cho mô hình nhận dạng mười loài hoa
Để thực nghiệm mô hình đạt kết quả tốt thì quá trình thu thập tập
dữ liệu để huấn luyện cho mô hình học là rất quan trọng. Ở nghiên cứu
này tác giả chọn thực nghiệm nhận dạng cho mười loài hoa nên việc
thu thập dữ liệu chủ yếu được lấy từ mạng internet thông qua trang tìm
kiếm Google. Đây cũng là một thuận lợi trong quá trình nghiên cứu.
2.2.1. Thu thập dữ liệu
Tổng số hình ảnh thu thập để huấn luyện mô hình là 506 (ảnh) [17].
Các loài hoa được gán số thứ tự và được chia thành hai tập: tập dạy mô

hình học (train) chiếm 80% trong tổng số hình ảnh; còn lại tập kiểm
tra mô hình (test) chiếm 20%. Tập hình ảnh trong train và test được
chọn một cách ngẫu nhiên. Số lượng hình ảnh từng loài hoa thu thập
được thể hiện chi tiết tại bảng 2.1

Hình 2.1: Thu thập dữ liệu hoa hồng và hoa hướng dương
2.2.2. Gán nhãn cho các loài hoa
Sử dụng phần mềm LabelImg để gán nhãn cho các loài hoa trong
thư mục train và test. Trong mỗi hình ảnh ta lấy các khu vực (RPN) rồi
gán nhãn như hình 2.2.

12
Tương tự ta thực hiện việc gán nhãn cho tất cả các loài hoa trong
thư mục train và test. Số liệu cụ thể được thể hiện tại bảng 1 và dữ liệu
được lưu tại [18].

Hình 2.2: Gán nhãn cho hoa hồng và hoa cẩm tú cầu
Bảng 2.1: Bảng thu thập dữ liệu các loài hoa và gán nhãn
Số lượng
Số
Số
Số
Số
Tên
lượng
lượng
lượng
Tên gán nhãn
TT

loài hoa
tổng
train
test
1
1 Cầu
55
44
11
Hydrangeas
2
2 Cúc
50
40
10
Chrysanthemum
3 Tiền3
41
33
8
Gerbera
4
4 Dương
45
36
9
Sun Flower
5
5 Hồng
57

46
11
Rose
6
6 Ly
55
44
11
Lily
7
7 Mai
51
41
10
Apricot Plossom
8
8 Sen
55
44
11
Lotus
9
9 Sứ
56
45
11
Porcelain Flower
10
10 Tiên
41

33
8
Narcissus
Tổng
506
406
100 10 (loài hoa)
Chú thích: 1) Hoa cẩm tú cầu; 2) Hoa Cúc; 3) Hoa đồng tiền; 4) Hoa
hướng dương; 5) Hoa hồng; 6) Hoa ly; 7) Hoa mai; 8) Hoa sen; 9)
Hoa sứ; 10) Hoa thủy tiên

13
2.2.3. Xây dựng chương trình huấn luyện
Sau khi xây dựng được tập cơ sở dữ liệu tác giả tiến hành xây dựng
chương trình mạng Nơ ron tích chập nhanh hơn (Faster R-CNN) để rút
trích giá trị đặc trưng của đối tượng cần nhận dạng. Chương trình được
viết trên phần mềm Python gồm hai file đó là: labelmap.py và
faster_rcnn.py và được đặt trong folder trainning như hình sau:

Hình 2.3: File chương trình huấn luyện
2.2.4. Huấn luyện cho mô hình

(a)

(b)

Hình 2.4: a) Quá trình bắt đầu huấn luyện dữ liệu mô hình; b) Quá
trình kết thúc huấn luyện dữ liệu mô hình
2.2.5. Dừng huấn luyện mô hình

Trong quá trình huấn luyện thì việc dừng huấn luyện cho mô hình
tác giả dựa vào đồ thị tensorboard, biểu đồ mất mát theo thời gian trong
quá trình huấn luyện.

14

Hình 2.5: Biểu đồ mất mát theo thời gian của mô hình Faster R-CNN
Biểu đồ tại hình 10 cho thấy từ bước 25000 trở đi thì độ mất mát
khi huấn luyện dao động trong khoảng từ 0 đến 0.06. Như vậy, khi
huấn luyện đến bước này thì có thể dừng huấn luyện cho mô hình học.
Theo hình 4b tác giả dừng huấn luyện mô hình ở bước 45555 và nhận
được kết quả 0.0214, là độ mất mát khi huấn luyện. Trung bình thời
gian để huấn luyện một bước là 0.300 (giây/step)
2.2.6. Kết quả sau khi huấn luyện
Sau khi kết thúc việc huấn luyện thì mô hình sẽ tạo ra các cơ sở dữ
liệu như hình 2.6

Hình 2.6: Cơ sở dữ liệu sau khi huấn luyện mô hình học
2.3. Xây dựng chương trình nhận dạng cho đối tượng
Sau khi huấn luyện và tạo các cơ sở dữ liệu, tác giả xây dựng
chương trình nhận dạng đối tượng tĩnh và di động với nguồn đầu vào

15
nhận dạng là từ một hình ảnh, một video hoặc từ một camera online
(webcam). Các file chương trình được viết trên ngôn ngữ Python như
hình sau:

Hình 2.7: Các file chương trình nhận dạng đối tượng

2.4. Thực nghiệm mô hình

- Thực nghiệm mô hình Faster R-CNN với đối tượng tĩnh:
Đối với đối tượng tĩnh tác giả tiến hành thực nghiệm với đối tượng
đầu vào ở môi trường bình thường (ảnh trong môi trường có ánh sáng
tốt) và nhiễu (ảnh bị che khuất 1/3; Ảnh bị che khuất 1/2; Ảnh trong
môi trường thiếu ánh sáng). Qua đó tiến hành đánh gá độ chính xác
của mô hình tương ứng với bốn trạng thái đầu vào trên.

- Thực nghiệm mô hình Faster R-CNN với đối tượng di động:
Đối với đối tượng di động tác giả thực nghiệm từ một nguồn đầu
vào là một video với đối tượng di dộng hoặc thực nghiệm với nguồn
đầu vào từ webcam với đối tượng di động.
2.1. Phương pháp đánh giá độ chính xác nhận dạng mô hình
Faster R_CNN
Lập bảng ma trận để đánh giá độ chính xác tổng thể mô hình, độ
chính xác của quá trình nhận dạng dựa vào số mẫu (số ảnh) nhận dạng
đúng chia cho tổng số mẫu (số ảnh) kiểm chứng đưa vào.

Trong đó:

16
ĐCX: Độ chính xác quá trình nhận dạng
SMNDĐ: Số mẫu nhận dạng đúng
TSMKC: Tổng số mẫu kiểm chứng đưa vào
CHƯƠNG 3 - THỰC NGHIỆM VÀ ĐÁNH GIÁ ĐỘ CHÍNH
XÁC MÔ HÌNH FASTER R_CNN
3.1 Thực nghiệm mô hình Faster R-CNN
3.1.1. Thực nghiệm mô hình Faster R-CNN với đối tượng tĩnh

3.1.1.1. Thực nghiệm nhận dạng với đối tượng bình thườn

Hình 3.1: Hình ảnh đối tượng nhận dạng ở môi trường bình thường
Tại hình 3.1 tác giả đưa vào bốn hình ảnh để nhận dạng đó là: Hình
3.1a-hoa cẩm tú cầu; hình 3.1b-hoa cúc; hình 3.1c-hoa đồng tiền; hình
3.1d-hoa hồng, các hình ảnh này được tác giả chụp từ thực tế.
Kết quả nhận dạng bởi mô hình Faster R-CNN được thể hiện tại
hình 3.2.

17

Hình 3.2: Kết quả nhận dạng bởi mô hình
3.1.1.2. Thực nghiệm nhận dạng với đối tượng bị che khuất 1/3
Tại hình 3.3 tác giả đã tạo ra các hình ảnh với đối tượng nhận dạng
bị che khuất khoảng 1/3 như hình 3.3a-hoa cẩm tú cầu; hình 3.3b-hoa
cúc; hình 3.3c-hoa đồng tiền; hình 3.3d-hoa hồng. Kết quả nhận dạng
bởi mô hình Faster R-CNN được thể hiện tại hình 3.4.

Hình 3.3: Hình ảnh đối tượng nhận dạng bị che khuất 1/3

18

Hình 3.4: Kết quả nhận dạng các đối tượng bị che khuất 1/3
3.1.1.3. Thực nghiệm nhận dạng với đối tượng bị che khuất 1/2
Tại hình 3.5 tác giả đã tạo ra các hình ảnh với đối tượng nhận dạng
bị che khuất khoảng 1/2 như hình 3.5a-hoa cẩm tú cầu; hình 3.5b-hoa
cúc; hình 3.5c-hoa đồng tiền; hình 3.5d-hoa hồng. Kết quả nhận dạng
bởi mô hình Faster R-CNN được thể hiện tại hình 3.6.

Hình 3.5: Hình ảnh đối tượng nhận dạng bị che khuất ½

19

Hình 3.6: Kết quả nhận dạng các đối tượng bị che khuất ½
3.1.1.4. Thực nghiệm nhận dạng với đối tượng trong môi trường thiếu
ánh sáng
Hình ảnh đối tượng đưa vào nhận dạng được tác giả chụp lúc trời
tối như hình 3.7 bên dưới gồm hình 3.7a-hoa cẩm tú cầu; hình 3.7bhoa cúc; hình 3.7c-hoa đồng tiền; hình 3.7d-hoa hồng. Sau đó đưa vào
mô hình Faster R-CNN nhận dạng kết quả nhận dạng được thể hiện tại
hình 3.8.

Hình 3.7: Hình ảnh đối tượng nhận dạng ở môi trường thiếu ánh
sáng

20

Hình 3.8: Kết quả nhận dạng các đối tượng trong môi trường thiếu
ánh sáng
3.1.1.5. Đánh giá kết quả thực nghiệm nhận dạng đối tượng ở trạng
thái bình thường và nhiễu
Quy ước đối với kết quả nhận dạng: Kết quả nhận dạng đúng là kết
quả nhận dạng đúng với mẫu kiểm chứng đưa vào; kết quả nhận dạng
sai là kết quả nhận dạng không đúng với mẫu kiểm chứng đưa vào;
không nhận dạng được là kết quả không cho kết quả nhận dạng của
loài nào hoặc cùng một mẫu kiểm chứng nhưng cho ra kết quả nhận
dạng từ hai loài khác nhau trở lên.

Kết quả đánh giá độ chính xác mô hình lúc bình thường và nhiễu
được thể hiện tại bảng sau:
Bảng 3.1: Bảng tổng hợp đánh giá độ chính xác kết quả nhận dạng
của mô hình
Môi trường TN Môi trường Môi trường Môi trường đối Môi trường đối
bình

thiếu ánh

tượng bị che

tượng bị che

thường

sáng

khuất 1/3

khuất 1/2

Kết quả nhận dạng đúng

138

68

102

44

Kết quả nhận dạng nhầm

0

7

7

10

Không nhận dạng

1

34

21

55

TCM đưa vào nhận dạng

139

109

130

109

Độ chính xác nhận dạng

99,28%

62,38%

78,46%

40,36%

Kết quả TN

Ghi chú: TN: Thực nghiệm; TCM: Tổng số mẫu

21
3.1.2. Thực nghiệm mô hình với đối tượng di động
3.1.2.1. Thực nghiệm trên loài hoa di động
Với đầu vào là một nguồn video loài hoa di động:

Hình 3.9: Nguồn video hoa cẩm tú cầu di động

Hình 3.10: Kết quả nhận dạng hoa cẩm tú cầu bởi mô hình
3.1.2.2. Thực nghiệm trên một số đối tượng di động khác

22
Với đầu vào nhận dạng là một video người, xe di động:

Hình 3.11: Nguồn video người, xe di động

Hình 3.12: Kết quả nhận dạng người, xe di động bởi mô hình

23
KẾT LUẬN
1. Thuận lợi của đề tài
Đây là một hướng nghiên cứu mới nhưng bước đầu tác giả đã thực
nghiệm thành công cho mô hình Faster R-CNN nhận dạng trên mười
loài hoa ở chế độ bình thường và nhiễu. Qua đó đã đưa ra được đánh
giá độ chính xác của mô hình với bốn trạng thái đầu vào khác nhau của
đối tượng nhận dạng.
Ngoài ra, việc thực nghiệm tác giả cũng đã thực nghiệm nhận dạng
thành công trên các đối tượng di động đây cũng là một bước tiến thuận
lợi để thực hiện các nghiên cứu tiếp theo.
2. Hạn chế của đề tài

- Môi trường thực nghiệm mô hình có cấu hình chưa đủ mạnh nên
chưa thể thực hiện được khi dữ liệu đầu vào có dung lượng lớn.

- Chưa đưa ra được các đánh giá về độ chính xác nhận dạng của
mô hình với đối tượng di động.

- Chưa đánh giá được ảnh hưởng của khoản cách chụp ảnh đến độ
chính xác nhận dạng của mô hình.
3. Kết quả đạt được
Xây dựng hoàn thiện một mô hình nhận dạng các đối tượng tĩnh và
di động.

- Xây dựng hoàn thiện một mô hình nhận dạng các đối tượng tĩnh
và di động.

- Thực nghiệm mô hình Faster R-CNN nhận dạng đối tượng tĩnh ở
trạng thái bình thường và nhiễu.

- Đánh giá độ chính xác nhận dạng của mô hình Faster R-CNN với
4 trạng thái khác nhau của hình ảnh đưa vào nhận dạng: Ảnh trong môi
trường có ánh sáng tốt; ảnh bị che khuất 1/3; ảnh bị che khuất 1/2; ảnh
trong môi trường thiếu ánh sáng. Kết quả cho, độ chính xác đạt

Ứng dụng mạng Nơ ron tích chập nhận dạng các đối tượng di động

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về