Tải bản đầy đủ (.pdf) (56 trang)

Nghiên cứu tự động phát hiện điểm mốc trên ảnh cánh côn trùng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.83 MB, 56 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

LUẬN VĂN THẠC SĨ
Nghiên cứu tự động phát hiện điểm mốc
trên ảnh cánh côn trùng
NGÔ XUÂN QUANG

Ngành: Kỹ thuật Điện tử

Giảng viên hướng dẫn:

TS. Võ Lê Cường

Viện:

Điện tử - Viễn thông

Giảng viên đồng hướng dẫn: TS. Nguyễn Hồng Hà
Đơn vị:

ĐH Khoa học và Cơng nghệ Hà Nội

HÀ NỘI, 06/2021


TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

LUẬN VĂN THẠC SĨ
Nghiên cứu tự động phát hiện điểm mốc
trên ảnh cánh côn trùng
NGÔ XUÂN QUANG



Ngành Kỹ thuật Điện tử

Giảng viên hướng dẫn:

TS. Võ Lê Cường

Viện:

Điện tử - Viễn thông

Giảng viên đồng hướng dẫn:

TS. Nguyễn Hồng Hà

Đơn vị:

ĐH Khoa học và Cơng nghệ Hà Nội

HÀ NỘI, 06/2021

Chữ ký của GVHD


CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc

BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn: Ngô Xuân Quang.
Đề tài luận văn: Nghiên cứu tự động phát hiện điểm mốc trên ảnh

cánh côn trùng
Chuyên ngành: Kỹ thuật điện tử
Mã số SV: CA190079

Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận
tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày 27 tháng
4 năm 2021 với các nội dung sau:
- Chỉnh sửa và bổ sung luận văn theo đúng quy định của luận văn
- Chỉnh sửa luận văn theo ý kiến của hội đồng
Ngày 27 tháng 6 năm 2021
Giáo viên hướng dẫn

Tác giả luận văn

TS. Võ Lê Cường

Ngơ Xn Quang
CHỦ TỊCH HỘI ĐỒNG

TS. Phạm Dỗn Tĩnh


LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này là cơng trình nghiên cứu của cá nhân tơi,
được thực hiện dưới sự hướng dẫn của TS. Võ Lê Cường - cán bộ tại Viện Điện
tử - Viễn thông, trường Đại học Bách Khoa Hà Nội (HUST) và thầy TS. Nguyễn
Hoàng Hà – giảng viên tại khoa Công nghệ Thông tin và Truyền thông, trường
Đại học Khoa học và Công nghệ Hà Nội (USTH) trong suốt quá trình học tập và
nghiên cứu tại Trường Đại học Bách khoa Hà Nội.
Để hoàn thành luận văn này, tôi tham khảo các tài liệu liên quan đã được

liệt kê tại cuối luận văn này. Những tài liệu tham khảo tơi đã chỉ dẫn trích rõ
nguồn trong danh mục tài liệu tham khảo.

Hà Nội, ngày 26/06/2021
Học viên

Ngô Xuân Quang


LỜI CẢM ƠN
Trong suốt quá trình học tập và nghiên cứu cao học khóa Thạc sỹ 2019A
ngành Kỹ thuật Điện tử tại Viện Điện tử - Viên thông, trường Đại học Bách khoa
Hà Nội, tôi đã luôn nhận được sự dạy dỗ, chỉ bảo tận tình của các cán bộ thầy, cô
giáo với nhiều kiến thức mở rộng nâng cao.
Với đề tài luận văn “Nghiên cứu tự động phát hiện điểm mốc trên ảnh
cánh cơn trùng” Tơi bày tỏ lịng biết ơn sâu sắc tới thầy TS. Võ Lê Cường - cán
bộ tại Viện Điện tử - Viễn thông, trường Đại học Bách Khoa Hà Nội (HUST) và
thầy TS. Nguyễn Hồng Hà – giảng viên tại khoa Cơng nghệ Thơng tin và
Truyền thông, trường Đại học Khoa học và Công nghệ Hà Nội (USTH) đã dìu
dắt, hướng dẫn, giúp tơi hịa nhập với mơi trường nghiên cứu khoa học, tạo mọi
điều kiện thuận lợi nhất cho tôi trong suốt quá trình làm thực nghiệm và viết
khóa luận.
Tơi xin gửi lời cám ơn tới các cán bộ thầy, cô giáo của Viện Điện tử Viễn thông và trường Đại học Bách khoa Hà Nội đã mở ra môi trường học tập
nghiên cứu hiện đại và tiên tiến để tơi có thể học tập và nghiên cứu nâng cao
trình độ.
Cuối cùng, tơi xin bày tỏ lịng biết ơn tới gia đình, bạn bè và đồng nghiệp
nơi đơn vị đang công tác đã động viên, khuyến khích và tạo điều kiện tối đa cho
tơi trong suốt q trình học tập và nghiên cứu tại trường Đại học Bách khoa Hà
Nội.


Học viên

Ngô Xuân Quang


TÓM TẮT NỘI DUNG LUẬN VĂN
Nhận diện điểm mốc là bài tốn con thuộc bài tốn đốn hình dạng. Với
một ảnh đầu vào, hệ thống nhận dạng sẽ cố gắng xác định các điểm quan trọng
trong ROI của ảnh đó. Trong Sinh học, giải pháp ứng dụng Học máy, Học sâu
vào nghiên cứu vẫn còn khá mới mẻ, rất đáng được quan tâm và khai thác. Đồng
thời, nhận thấy được sự quan trọng của việc phân tích hình thái dựa trên điểm
mốc, chúng tôi đã tiến hành nghiên cứu phát hiện điểm mốc hình thái cánh cơn
trùng tự động bằng Học sâu, cụ thể là trên tập dữ liệu ảnh cánh của loài ruồi giấm
(tên khoa học: Drosophila).
Luận văn này tập trung vào vấn đề “Nghiên cứu tự động phát hiện điểm
mốc trên ảnh cánh côn trùng” Dựa vào những cơ sở trên. Luận văn này sẽ phân
tích và so sánh hiệu năng giữa các mơ hình tiêu biểu, từ đó chọn ra mơ hình tốt
nhất. Do vậy một số luận điểm và đóng góp cơ bản trong luận văn này bao gồm:
Nghiên cứu tổng quan bài toán Nhận diện đối tượng và chi tiết các mạng nhận
dạng Học sâu. Nghiên cứu thực nghiệm, kết quả và đánh giá. Trong phần này,
nói tới tập dữ liệu và q trình huấn luyện, kiểm định các mơ hình. Đồng thời,
hiệu năng và độ chính xác của những mơ hình Học sâu cũng được làm rõ thơng
qua thí nghiệm. Nghiên cứu tổng kết công việc đã thực hiện, bàn luận về hạn chế
của đề tài và hướng nghiên cứu tương lai.


MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ....................................... ii
DANH MỤC CÁC BẢNG........................................................................ iii
DANH MỤC HÌNH ẢNH ........................................................................ iv

ĐẶT VẤN ĐỀ .......................................................................................... iv
CHƯƠNG 1: GIỚI THIỆU .........................................................................2
1.1 Lý do chọn đề tài ..................................................................................2
1.2 Các nghiên cứu liên quan ......................................................................3
1.3 Quá trình nghiên cứu.............................................................................5
1.4 Cấu trúc của luận án ..............................................................................8
CHƯƠNG 2: PHƯƠNG PHÁP NGHIÊN CỨU .........................................9
2.1 Tổng quan bài toán và phương pháp Học Sâu .......................................9
2.1.1 Tổng quan bài toán .........................................................................9
2.1.2 Giới thiệu về Học Sâu (Machine Learning) ................................... 10
2.2 Phương pháp đánh giá mơ hình ...........................................................11
2.3 Các mạng nhận dạng Học sâu .............................................................12
2.3.1 Một số khái niệm và thuật ngữ thường dùng ................................ 12
2.3.2 Cấu trúc các mạng backbone trong Học sâu ................................. 13
CHƯƠNG 3: THỰC NGHIỆM, KẾT QUẢ VÀ ĐÁNH GIÁ ...................29
3.1 Tập dữ liệu ..........................................................................................29
3.2 Thực nghiệm .......................................................................................32
3.2.1 Tiền xử lý .....................................................................................32
3.2.2 Huấn luyện ...................................................................................32
3.2.3 Kiểm định ....................................................................................34
3.3 Kết quả................................................................................................35
3.4 Đánh giá..............................................................................................39
CHƯƠNG 4: KẾT LUẬN ........................................................................40
PHỤ LỤC .................................................................................................41
TÀI LIỆU THAM KHẢO .........................................................................46
i


DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
KÝ HIỆU CHÚ GIẢI TIẾNG ANH


CHÚ GIẢI TIẾNG VIỆT

ROI

Region of Interest

Khu vực quan tâm

SVM

Support Vector Machine

Máy véc-tơ hỗ trợ

RF

Random Forest

Rừng ngẫu nhiên

CART

Classification and Regression

Cây phân loại và hồi quy

Tree
PGH


Pairwise Geometric Histogram

Biểu đồ hình học theo cặp

PHT

Probabilistic Hough Transform

Biến đổi Hough theo xác suất

IOU

Intersection Over Union

Diện tích phần giao nhau chia
cho diện tích phần hợp giữa
khung chữ nhật đoán và khung
giá trị thật

DNN

Deep neural network

Mạng nơ-ron sâu

RPN

Region proposal network

Mạng đề xuất khu vực


CNN

Convolutional Neural Network

Mạng nơ-ron tích chập

SSD

Single MultiBox Shot Detector

Mơ hình nhận diện và phân loại
nhiều đối tượng trong các khung
chữ nhật chỉ với một lần xử lý

YOLO

You Only Look Once

Bạn chỉ phải nhìn một lần

ii


DANH MỤC CÁC BẢNG

Bảng 3. 1: Thông tin về gen alen của Drosophila ......................................29
Bảng 3. 2: Kết quả đánh giá của mơ hình Faster R-CNN .......................... 36
Bảng 3. 3: Kết quả đánh giá của mơ hình SSD ..........................................37
Bảng 3. 4: Kết quả đánh giá của mơ hình YOLO ......................................38


iii


DANH MỤC HÌNH ẢNH
Hình 1. 1. Sơ đồ khối quy trình nhận dạng điểm mốc .................................5
Hình 1. 2: Hai phương pháp nhận dạng điểm mốc ......................................6
Hình 2. 1: Khung chữ nhật bao quanh các điểm mốc được nhận diện .........9
Hình 2. 2: Cách tính IOU ..........................................................................11
Hình 2. 3: Ví dụ về nhận diện đối tượng ...................................................13
Hình 2. 4: Mơ tả phân hình qua thuật tốn tìm kiếm chọn lọc ................... 14
Hình 2. 5: Phân loại khung hình đề xuất khu vực R-CNN ......................... 15
Hình 2. 6: Kiến trúc của Fast R-CNN .......................................................16
Hình 2. 7: So sánh training time, test time giữa R-CNN và Fast R-CNN .. 17
Hình 2. 8: Kiến trúc của Faster R-CNN ....................................................18
Hình 2. 9: Chi tiết mạng đề xuất khu vực - RPN .......................................18
Hình 2. 10: Cơng dụng của cửa sổ trượt và bản đồ đặc trưng .................... 19
Hình 2. 11: Khung hình chữ nhật của anchor trong RPN .......................... 20
Hình 2. 12: RPN tạo ra các k mỏ neo tương ứng ở ảnh gốc ....................... 21
Hình 2. 13: So sánh test-time speed R-CNN, Fast R-CNN và Faster R-CNN
..................................................................................................................22
Hình 2. 14: Kiến trúc của SSD .................................................................23
Hình 2. 15: Kiến trúc multi-sacle convolution prediction sử dụng trong SSD
..................................................................................................................24
Hình 2. 16: MultiBox prior And IOU ........................................................25
Hình 2. 17: Minh họa cho ý tưởng của Fixed Priors .................................. 26
Hình 2. 18: Kiến trúc cua YOLO ..............................................................26
Hình 2. 19: Các bước xử lý trong mơ hình YOLO .................................... 27
Hình 3. 1: Dữ liệu ảnh cánh ruồi giấm Drosophila thu thập được ở [7] ..... 30
Hình 3. 2: Dữ liệu ảnh cánh ruồi giấm Drosophila thu thập được ở [9] ..... 30

Hình 3. 3: Ảnh bên trái được gán nhãn 15 điển mốc bằng tay theo bên phải31
Hình 3. 4: Quá trình gán nhãn thủ cơng bằng phần mềm TpsDig2 ver2.3131
Hình 3. 5: Quá trình huấn luyện Faster R-CNN theo Tensorflow .............. 33
Hình 3. 6: Quá trình huấn luyện SSD theo Tensorflow ............................. 33
Hình 3. 7: Quá trình huấn luyện YOLO theo Darknet ............................... 34
Hình 3. 8: Kết quả kiểm thử từng ảnh của mạng Faster R-CNN và SSD .. 35
Hình 3. 9: Kết quả kiểm thử từng ảnh của mạng YOLO ........................... 35
Hình 3. 10: So sánh độ chính xác của các mơ hình nhận diện ................... 39

iv


ĐẶT VẤN ĐỀ
Trí tuệ nhân tạo (Artificial Intelligence – viết tắt là AI) là một ngành
thuộc lĩnh vực Khoa học máy tính. Thuật ngữ AI thường được sử dụng để
chỉ các máy móc, máy tính có khả năng bắt chước được chức năng “nhận
thức” của con người. Theo đó, Thị giác máy tính là một nhánh trong AI,
với mục đích là “dạy” cho máy tính có thể hiểu và cảm nhận được mơi
trường xung quanh thơng qua hình ảnh số thu được từ máy ảnh, máy
quay,…
Các tác vụ cơ bản thường thấy trong Thị giác máy tính là Phân loại
hình ảnh (image classification), Định vị vật thể (object localization), Nhận
diện đối tượng (object detection), Phân mảnh hình ảnh (image
segmentation), Mơ tả hình ảnh (image captioning).
Phát hiện điểm mốc (Lankmark detection) trong Thị giác máy tính có
quan hệ mật thiết tới tác vụ phân tích hình dáng (shape analysis) trong bài
tốn nhận diện vật thể. Các mơ hình học máy cổ điển như Support Vector
Machine (SVM) và Random Forest (RF) tuy đã trích xuất được nhiều đặc
trưng quan trọng như SURF, FREAK, BRISK và HOG nhưng vẫn chưa đạt
được độ chính xác trên 80%. Trong luận văn này này, chúng tôi tập trung

vào phương pháp sử dụng những mơ hình Học sâu hiện có để nhận diện tự
động các đối tượng là điểm mốc trên cánh của ruồi cát. Bằng các phép so
sánh và đánh giá về độ chính xác, hiệu quả của từng mơ hình, ta có thể
chọn ra một mơ hình thích hợp nhất cho bài tốn này.
Từ khóa: Nhận dạng điểm mốc, tự động, Thị giác máy tính, mơ hình
Học sâu, độ chính xác cao, hiệu quả

1


CHƯƠNG 1: GIỚI THIỆU
1.1. Lý do chọn đề tài
Trong hình thái học nghiên cứu hình dạng và cấu trúc của sinh vật,
điểm mốc là các điểm có ý nghĩa sinh học giúp xác định tương ứng giữa
các cá thể trong một quần thể  Phát hiện điểm mốc là một cơng việc quan
trọng trong hình thái học. Đã có nhiều nghiên cứu về nhận dạng điểm mốc
như điểm mốc áp dụng trong nhận dạng khuôn mặt và biểu cảm khuôn mặt,
điểm mốc trong ảnh y tế để xác định bệnh, nhận dạng vân tay thông qua
điểm mốc, nhận dạng điểm mốc trên cánh côn trùng.
Thông thường điểm mốc cánh côn trùng được đánh dấu bằng tay để
nghiên cứu mối tương quan giữa hình dạng và cấu trúc cánh với các yếu tố
môi trường, bệnh lý, ... Các điểm mốc là giao điểm của các đường gân,
mép cánh có ý nghĩa phân loại và thể hiện đặc tính/trạng thái của sinh vật
Khi số lượng điểm mốc và số lượng ảnh lớn thì đây là cơng việc tốn
nhiều cơng sức và tiềm ẩn sai sót vì thế cần tự động hóa việc đánh dấu
điểm mốc.
Nghiên cứu và phân tích hình dạng của vật thể mang ý nghĩa quan
trọng trong ngành sinh học. Các cá thể trong cùng lồi được phân biệt bởi
hình dáng riêng. Đối với các nhà sinh vật học nói riêng và các nhà khoa
học nói chung, phân tích hình dạng là một phương pháp được ưa chuộng để

hiểu rõ hơn về đa dạng lồi và biến đổi hình thái học.
Nhận diện điểm mốc là bài toán con thuộc bài tốn đốn hình dạng.
Với một ảnh đầu vào, hệ thống nhận dạng sẽ cố gắng xác định các điểm
quan trọng trong ROI của ảnh đó. Ứng dụng thường gặp nhất của hệ thống
này trong thực tế là xác thực dấu vân tay hay nhận diện cảm xúc mặt người,
hoặc đối chiếu liệu hai ảnh chụp khn mặt có phải của một người hay
khơng?,…
Có nhiều cách tiếp cận để giải quyết bài tốn phát hiện điểm mốc, từ
Xử lý hình ảnh đến Học máy cổ điển và cao cấp hơn là Học sâu. Xử lý hình
ảnh sử dụng hai phép biến đổi hình thái là giãn nở (Dilation) và co
2


(Erosion) để phân tích và xử lý kết cấu hình học, cấu trúc tơpơ – sự tương
quan giữa các hình dạng vật thể như tính liên thơng, tính liên tục. Bên cạnh
đó, việc tìm đường viền chủ động cùng thuật toán Khớp mẫu cũng được
dùng trong Xử lý ảnh để nhận diện điểm mốc và đo khoảng cách giữa
chúng. Học máy cổ điển tận dụng các mơ hình tốn học xác suất như
Bayesian, hay SVM, RF,… SVM là một thuật tốn học máy có giám sát,
được sử dụng trong các bài tốn phân loại và hồi quy, đồng thời có thể xử
lý nhiều biến liên tục và biến phân lớp. RF là một tập hợp các cây quyết
định mà trong đó, mỗi cây là một bộ phân loại. Kỹ thuật RF này thu thập
cây phân loại và hồi quy CART dựa trên một số luật phát triển cây nhất
định, cách kết hợp cây, tự kiểm tra và hậu xử lý. Các phương pháp Học sâu
thì mang đến hiệu năng tính tốn lớn kèm với độ chính xác cao hơn từ
những mơ hình mạng nơ-ron sâu được huấn luyện cẩn thận.
Trong Sinh học, giải pháp ứng dụng Học máy, Học sâu vào nghiên
cứu vẫn còn khá mới mẻ, rất đáng được quan tâm và khai thác. Đồng thời,
nhận thấy được sự quan trọng của việc phân tích hình thái dựa trên điểm
mốc, chúng tôi đã tiến hành nghiên cứu phát hiện điểm mốc hình thái cánh

cơn trùng tự động bằng Học sâu, cụ thể là trên tập dữ liệu ảnh cánh của loài
ruồi giấm (tên khoa học: Drosophila).
1.2. Các nghiên cứu liên quan
Thực tế đã tồn tại một số nghiên cứu làm về tự động hóa phân tích
hình dạng sinh học như bài báo “Landmark detection in 2D bioimages for
geometric morphometric: a multi-resolution tree-based approach” của
Rémy Vandaele và cộng sự [7], hay “Automatic identification of landmarks
in digital images” của Sasirekha Palaniswamy và cộng sự [3], “Semiautomated quantitative Drosophila wings measurements” của Sheng Yang
Michael Loh và cộng sự [8]. Sonnenschein, Anne & Vanderzee, David &
Pitchers, William & Chari, Sudarshan & Dworkin, Ian. (2015). An image
database of Drosophila melanogaster wings for phenomic and biometric
analysis. GigaScience [9].
3


Trong bài báo đầu tiên, tác giả sử dụng tập dữ liệu gồm 100 ảnh hộp
sọ, 138 cánh của Drosophila và 113 ảnh cá ngựa. Phương pháp mà Rémy
và cộng sự đã thực hiện là lấy mẫu các điểm mốc (từ 1 đến 15) theo phân
phối ngẫu nhiên – với tâm những điểm mốc này được chọn theo giá trị thật,
sau đó huấn luyện một mơ hình phân lớp (SVM hoặc RF) với mỗi điểm
mốc này. Để đánh giá khả năng phân lớp của mơ hình, nhóm tác giả đặt ra
một ngưỡng R. Khi mơ hình đã đào tạo dự đoán một điểm mốc với khoảng
cách nhỏ hơn ngưỡng R thì được coi là đúng, ngược lại là sai. Với một
ROI, tác giả chọn ra n điểm mốc (dựa trên thống kê từ bộ dữ liệu) và chạy
phân lớp, thu được m điểm đúng. Trung bình giá trị tọa độ của các điểm
đúng đó sẽ là điểm dự đốn cuối cùng.
Cơng trình nghiên cứu của Sasirekha và cộng sự được thực hiện trên
856 ảnh cánh Drosophila do họ tự thu thập. Bài báo này sử dụng phương
pháp trích xuất các gân trên cánh, sau đó xấp xỉ những gân này bằng các
đoạn và tìm mối quan hệ giữa những đoạn này bằng PGH. Kế đến, họ dùng

PHT để ước tính vị trí và hướng của cánh, sau đó là vùng của mỗi điểm
mốc. Cuối cùng, họ đối chiếu với mẫu để xác định vị trí chính xác của các
điểm mốc này.
Nhóm của Sheng Yang Michael Loh phát triển hệ thống nhận diện
bán tự động điểm mốc trên 959 cá thể ruồi từ 16 lồi Drosophila thu thập ở
kí túc xá Minami-osawa, Tokyo, Nhật Bản. Tập dữ liệu ảnh của họ gồm
600 ảnh đen trắng, được đánh dấu đầy đủ các điểm mốc quan trọng. Tập
ảnh này được kí hiệu bằng Dm với m = 1, 2, 3,…, 600. Chọn đầu vào là một
ảnh cánh ruồi mới và chưa đánh dấu, hệ thống này yêu cầu người sử dụng
phải thao tác chọn ra ba điểm mốc cụ thể trên ảnh cánh mới. Sau khi ba
điểm này đã được xác định, thuật tốn Khớp mẫu kết hợp với mơ hình
đường viền chủ động (active contours) sẽ dò theo các vân trên cánh, tính
tốn độ dài dây cung và so sánh ảnh đầu với tập 600 sẵn có để tìm ra nốt
các điểm mốc còn lại trên ảnh mới này.

4


Ở bài báo thứ 4 [9] nhóm tác giả đã sử dụng 2270 ảnh đen trắng cánh
drosophilia trong đó có 1135 ảnh cánh trái và 1135 ảnh cánh phải được gán
nhãn các điểm mốc theo một quy luật riêng.
Những nghiên cứu trên cho ra kết quả rất khả quan, song độ chính
xác vẫn chưa thực sự đạt tới 90%. Hiện tại, sức mạnh và ứng dụng của các
mơ hình Học sâu đã phát triển vượt trội, cho kết quả cao ở các bài tốn. Do
đó, tơi đưa ra một phương pháp kĩ thuật là ứng dụng các mơ hình Học sâu
Nhận diện đối tượng để phát hiện các điểm mốc cánh cơn trùng tự động.
Luận văn này sẽ phân tích, so sánh hiệu năng giữa các mơ hình tiêu biểu và
chọn ra mơ hình tốt nhất.
1.3. Q trình nghiên cứu
Hình thái học (Morphology) nghiên cứu hình dạng và cấu trúc của

sinh vật. Điểm mốc giải phẫu (anatomical landmark) là các điểm có ý nghĩa
sinh học, giúp xác định tương ứng giữa các cá thể trong một quần thể, đặc
tả hình dạng và cấu trúc thông qua điểm mốc.
Nghiên cứu về nhận dạng điểm mốc: Điểm mốc áp dụng trong nhận
dạng khuôn mặt và biểu cảm khuôn mặt như điểm mốc trong ảnh y tế để
xác định bệnh, nhận dạng vân tay thông qua điểm mốc, nhận dạng điểm
mốc trên cánh cơn trùng cịn ít, chủ yếu trên cánh ruồi dấm (Drosophila)
Quy trình nhận dạng điểm mốc:

Hình 1. 1. Sơ đồ khối quy trình nhận dạng điểm mốc
Ảnh cần xác định điểm mốc được đưa qua khối tiền xử lý ảnh khối
này có nhiệm vụ lọc nhiễu, nối biên, tăng độ tương phản để đưa đến hệ
thống nhận dạng điểm mốc, hệ thống này sẽ phân lớp các khung hình chứa
5


đối tượng xác định điểm mốc cần tìm một cách chính xác nhất, ảnh được
xác đinh sau hệ thơng nhận dạng điểm mốc sẽ được đánh giá tỉ lệ độ chính
xác và độ tin tưởng của lần xác định đó.
Có hai phương pháp nhận dạng điểm mốc, điểm đặc trưng

Hình 1. 2: Hai phương pháp nhận dạng điểm mốc
Có hai phương pháp tổng quan cơ bản sử dụng đặc trưng ảnh trích
chọn bởi người dùng để chọn các điểm đặc trưng một cách thủ công,
phương pháp này tốn nhiều thời gian và công sức, khi số lượng điểm mốc
cao hoặc số lượng ảnh nhiều thì có nhiều nguy cơ dẫn đến sai sót. Phương
pháp thứ hai sử dụng mơ hình học sâu (deep learning) trích chọn đặc trưng
tự động, phương pháp này sẽ tăng được hiệu suất rút ngắn thời gian và gia
tăng độ chính xác cho q trình trích chọn các điểm đặc trưng. Và chưa áp
dụng cho bài tốn cánh cơn trùng do bộ dữ liệu chưa đủ lớn.

Vấn đề tồn tại, sự cần thiết:
Cịn ít nghiên cứu về nhận dạng điểm mốc hình thái tự động cho cánh
côn trùng. Mới sử dụng phương pháp Handcrated feature trên cánh ruồi dấm
(drosophila). Nghiên cứu cho kết quả tốt nhất hiện nay (Vandaela et al.,
2018) có tốc độ thấp. Mơ hình học sâu chưa áp dụng cho cánh cơn trùng do
thiếu dữ liệu, các phương pháp nhận dạng đều hướng dữ liệu.
Mục tiêu của luận văn: Là ‘nghiên cứu tự động phát hiện điểm mốc
trên ảnh cánh côn trùng’ mục đích
Nâng cao độ chính xác: Lựa chọn phương pháp dị điểm mốc ứng
viên, trích chọn đặc trưng và phân loại phù hợp, áp dụng mơ hình học sâu
6


Cải thiện tốc độ nhận dạng: Lựa chọn tập đặc trưng hiệu quả hơn,
giảm số lượng điểm mốc ứng viên cần nhận dạng
Mục đích, đối tượng, phạm vi nghiên cứu
Dựa vào những cơ sở trên, trong khuôn khổ luận văn này, em tập
trung trình bày và đưa ra một phương pháp kĩ thuật là ứng dụng các mơ
hình Học sâu Nhận diện đối tượng để phát hiện các điểm mốc cánh cơn
trùng tự động. Báo cáo này sẽ phân tích và so sánh hiệu năng giữa các mơ
hình tiêu biểu, từ đó chọn ra mơ hình tốt nhất
Tóm tắt các luận điểm và đóng góp của tác giả
Trong luận văn này, tôi đề cấp tới vấn đề nghiên cứu tự động phát
hiện điểm mốc trên ảnh cánh côn trùng. Do vậy một số luận điểm và đóng
góp cơ bản trong luận văn này bao gồm:
- Nghiên cứu tổng quan bài toán Nhận diện đối tượng và chi tiết các
mạng nhận dạng Học sâu.
- Nghiên cứu thực nghiệm, kết quả và đánh giá. Trong phần này, nói
tới tập dữ liệu và q trình huấn luyện, kiểm định các mơ hình. Đồng thời,
hiệu năng và độ chính xác của những mơ hình Học sâu cũng được làm rõ

thơng qua thí nghiệm.
- Nghiên cứu tổng kết công việc đã thực hiện, bàn luận về hạn chế
của đề tài và hướng nghiên cứu tương lai.
Phương pháp nghiên cứu
Trong luận văn này, phương pháp nghiên cứu sử dụng dựa trên:
- Nghiên cứu tổng quan về bài tốn nhận dạng điểm mốc cánh cơn
trùng;
- Nghiên cứu phương pháp đánh giá mơ hình Học sâu;
Nghiên cứu các mạng nhận dạng Học sâu, trong đó có một số khái
niệm và thuật toán thường dùng, cấu trúc các mạng backbone trong Học
sâu.

7


1.4 Cấu trúc của luận án
Luận án được tổ chức như sau: Chương 1 là giới thiệu đề tài. Chương
2 đề cập tới phương pháp nghiên cứu. Chương này bao gồm tổng quan bài
toán Nhận diện đối tượng và chi tiết các mạng nhận dạng Học sâu. Chương 3
thể hiện thực nghiệm, kết quả và đánh giá. Trong chương này, chúng tơi nói
tới tập dữ liệu và q trình huấn luyện, kiểm định các mơ hình. Đồng thời,
hiệu năng và độ chính xác của những mơ hình Học sâu cũng được làm rõ
thơng qua thí nghiệm. Cuối cùng, chương 4 sẽ tổng kết công việc chúng tôi
đã thực hiện, bàn luận về hạn chế của đề tài và hướng nghiên cứu tương lai.

8


CHƯƠNG 2: PHƯƠNG PHÁP NGHIÊN CỨU
2.1 Tổng quan bài toán và phương pháp Học Sâu

2.1.1 Tổng quan bài toán
Bài toán nhận dạng điểm mốc cánh cơn trùng có thể được phát biểu
như sau: Cho một ảnh kĩ thuật số dưới dạng ma trận Iwxh với w và h là giá trị
chiều rộng và chiều cao của bức ảnh đó. Thành phần của ma trận I có thể là
một giá trị nguyên thuộc [0, 255] cho ảnh đơn sắc, hoặc bộ ba giá trị nguyên
thuộc [0, 255] tương ứng các màu đỏ (R), xanh lá (G), xanh dương (B) đối
với ảnh màu. Hãy tìm tọa độ của n điểm mốc LMi (xi,yi) (0 ≤ i ≤ n) với xi
thuộc (0, w), yi thuộc (0, h).

Hình 2. 1: Khung chữ nhật bao quanh các điểm mốc được nhận diện
Như đã trình bày ở Chương 1, mục tiêu của nghiên cứu này là phát
triển một phương pháp sử dụng tiếp cận Học sâu để tự động hóa bài tốn
trên. Hiện nay các mạng học sâu đã đạt được kết quả rất tốt cho các bài toán
nhận dạng. Đầu ra của các mạng cho các bài toán nhận dạng là các khung
chữ nhật (bounding box). Ý tưởng chính trong nghiên cứu này là sử dụng
kết quả của các mạng nhận dạng đó bằng cách coi tâm của các khung chữ
nhật được phát hiện chính là tọa độ của các điểm mốc (xem Hình 2.1).

9


2.1.2 Giới thiệu về Học Sâu (Machine Learning)
Machine learning gây nên cơn sốt cơng nghệ trên tồn thế giới trong
vài năm nay. Trong giới học thuật, mỗi năm có hàng ngàn bài báo khoa học
về đề tài này. Trong giới công nghiệp, từ các công ty lớn như Google,
Facebook, Microsoft đến các công ty khởi nghiệp đều đầu tư vào machine
learning. Hàng loạt các ứng dụng sử dụng machine learning ra đời trên mọi
linh vực của cuộc sống, từ khoa học máy tính đến những ngành ít liên quan
hơn như vật lý, hóa học, y học, chính trị. AlphaGo, cỗ máy đánh cờ vây với
khả năng tính tốn trong một khơng gian có số lượng phần tử cịn nhiều

hơn số lượng hạt trong vũ trụ, tối ưu hơn bất kì đại kì thủ nào, là một trong
rất nhiều ví dụ hùng hồn cho sự vượt trội của machine learning so với các
phương pháp cổ điển.
AI thể hiện một mục tiêu của con người. Machine learning là một
phương tiện được kỳ vọng sẽ giúp con người đạt được mục tiêu đó. Và
thực tế thì machine learning đã mang nhân loại đi rất xa trên quãng đường
chinh phục AI. Nhưng vẫn còn một quãng đường xa hơn rất nhiều cần phải
đi. Machine learning và AI có mối quan hệ chặt chẽ với nhau nhưng khơng
hẳn là trùng khớp vì một bên là mục tiêu (AI), một bên là phương tiện
(machine learning). Chinh phục AI mặc dù vẫn là mục đích tối thượng của
machine learning, nhưng hiện tại machine learning tập trung vào những
mục tiêu ngắn hạn hơn như:
Làm cho máy tính có những khả năng nhận thức cơ bản của con
người như nghe, nhìn, hiểu được ngơn ngữ, giải tốn, lập trình, …
Hỗ trợ con người trong việc xử lý một khối lượng thông tin khổng lồ
mà chúng ta phải đối mặt hàng ngày, hay còn gọi là Big Data.
Big Data thực chất khơng phải là một ngành khoa học chính thống.
Đó là một cụm từ dân gian và được giới truyền thơng tung hơ để ám chỉ
thời kì bùng nổ của dữ liệu hiện nay. Nó cũng khơng khác gì với những
cụm từ như "cách mạng công nghiệp", "kỉ nguyên phần mềm". Big Data là
một hệ quả tất yếu của việc mạng Internet ngày càng có nhiều kết nối. Với
10


sự ra đời của các mạng xã hội nhưng Facebook, Instagram, Twitter, nhu
cầu chia sẻ thông của con người tăng trưởng một cách chóng mặt. Youtube
cũng có thể được xem là một mạng xã hội, nơi mọi người chia sẻ video và
comment về nội dung của video.
2.2 Phương pháp đánh giá mơ hình
Với mỗi một ảnh, các mơ hình Học sâu nhận diện đối tượng sẽ đưa ra

nhiều dự đoán tại các vị trí khác nhau và các độ chắc chắn (confidence)
khác nhau. Với mỗi loại điểm mốc, chúng tôi chỉ chọn dự đoán của model
với độ chắc chắn cao nhất. Trong các bài toán nhận dạng, IOU (Intersection
Over Union) (xem Error! Reference source not found.) là hàm đánh giá
độ chính xác của Mơ hình nhận diện vật thể trên tập dữ liệu cụ thể.
IOU được tính bằng:

Hình 2. 2: Cách tính IOU
Trong đó Area of Overlap là diện tích phần giao nhau giữa khung chữ
nhật dự đoán với khung chữ nhật thực sự, còn Area of Union là diện tích
phần hợp giữa khung chữ nhật dự đốn với khung chữ nhật thực sư. Những
khung chữ nhật được gán nhãn bằng tay trong tập huấn luyện và tập kiểm
định. Nếu IOU > 0.5 thì khả năng dự đốn được đánh giá là tốt.
Tuy nhiên, với bài toán nhận diện điểm mốc, vì điểm mốc khơng có
kích thước nên thực tế, chúng ta chỉ quan tâm đến tọa độ điểm mốc. Vì vậy
để đánh giá một lần dự đốn chúng tơi không dùng IOU mà chúng tôi quan
tâm đến khoảng cách từ tâm khung chữ nhật được nhận dạng tới vị trí điểm
11


mốc thực tế. Cụ thể gọi khoảng cách từ tâm khung chữ nhật dự đoán đến
điểm mốc trên thực tế là r. Nếu r nhỏ hơn một ngưỡng Rthres thì chúng tơi
nói mơ hình đã nhận diện chính xác. Rthres được chọn tùy vào kích thước ảnh
của bộ dữ liệu.
Chất lượng của mỗi mơ hình khi áp dụng cho mỗi điểm mốc được
đánh giá bằng tỷ lệ độ chính xác: số ảnh có điểm mốc được nhận diện chính
xác/tổng số ảnh được kiểm tra.
2.3 Các mạng nhận dạng Học sâu
2.3.1 Một số khái niệm và thuật ngữ thường dùng
2.3.1.1 Trích xuất đặc trưng

a) Khái niệm:
Trong học máy, nhận dạng mẫu và xử lý ảnh, trích xuất đặc trưng là
một khái niệm chọn lọc ra các giá trị có ý nghĩa, không rườm rà - thừa thãi
từ một tập dữ liệu đã đo đạc. Các thông tin sau khi được lựa chọn sẽ tạo
điêu kiện thuận lợi cho các bước học tập (của máy) và khái quát hóa. Một
số trường hợp, thơng qua trích xuất đặc trưng, máy tính có thể diễn giải về
đối tượng được quan tâm tốt hơn con người.
b) Sự quan trọng của Trích xuất đặc trưng:
Trích xuất đặc trưng từ dữ liệu đầu vào giúp tăng độ chính xác của
mơ hình đào tạo. Giai đoạn này làm giảm số chiều của dữ liệu thông qua
việc loại bỏ dữ liệu dư thừa. Điều này thực sự hữu hiệu cho trực quan hóa
dữ liệu, chẳng hạn đối với một tập dữ liệu phức tập có thể được hiển thị
một cách dễ dàng khi số chiều của nó được giảm xuống còn hai hoặc ba
chiều. Bởi vậy, tác vụ này tăng tốc độ huấn luyện và tốc độ suy luận của
mơ hình. Thơng qua việc kết hợp và biến đổi tập các đặc trưng ban đầu,
trích xuất đặc trưng tạo ra những đặc trưng mới có ích hơn. Các dạng đặc
trưng được giữ lại thường thấy trong dữ liệu ảnh là màu sắc, hình dạng, kết
cấu hoặc giá trị pixel.

12


c) Ứng dụng:
Một số ứng dụng của trích xuất đặc trưng có thể kể tới như phân tích
ngữ nghĩa tiềm ẩn, nén - giảm số chiều dữ liệu, phân tích và chiếu dữ liệu,
nhận diện mẫu. Như đã đề cập ở phần trên, trích xuất tính năng cũng được
dùng để tăng cường tốc độ và hiệu quả của việc học có giám sát.
2.3.1.2 Nhận diện đối tượng
Thị giác máy tính, như đã đề cập tới ở phần Đặt vấn đề, là một trong
những lĩnh vực quan trọng của Trí tuệ nhân tạo. Thị giác máy tính bao gồm

các phương pháp thu nhận, xử lý ảnh kỹ thuật số, phân tích và nhận dạng
các hình ảnh, phát hiện các đối tượng, tạo ảnh, tăng cường độ phân giải siêu phân giải,…
Nhận diện đối tượng là một tác vụ trong Thị giác máy tính, chỉ
phương pháp tự động xác định vị trí của các đối tượng được quan tâm trong
một ảnh đầu vào. Nhiệm vụ của nhận diện đối tượng, hiểu một cách đơn
giản là vẽ một khung chữ nhật bao quanh những vật thể cần xác định và
gán nhãn cho các khung này càng chính xác càng tốt (xem Hình 2.3).

Hình 2. 3: Ví dụ về nhận diện đối tượng
2.3.2 Cấu trúc các mạng backbone trong Học sâu
2.3.2.1

Faster R-CNN

a) R-CNN (Region with CNN feature)
Ý tưởng thuật toán R-CNN khá đơn giản.
13


Bước 1: Dùng thuật tốn tìm kiếm chọn lọc để lấy ra khoảng 2000
bounding box trong input mà có khả năng chứa đối tượng. Ảnh được phân
hình qua thuật tốn phân đoạn hình ảnh dựa trên đồ thị
Bước 2: Với mỗi bounding box ta xác định xem nó là đối tượng nào
(người, ơ tơ, xe đạp,…) Sau đó các khu vực đề xuất được thay đổi lại về
cùng kích thước và thực hiện huấn luyện với feature extractor
Đầu tiên ảnh được phân hình qua thuật tốn phân đoạn hình ảnh dựa
trên đồ thị.

Hình 2. 4: Mơ tả phân hình qua thuật tốn tìm kiếm chọn lọc
Đầu vào của thuật tốn là ảnh màu, Đầu ra là khoảng 2000 Vùng đề

xuất khu vực mà có khả năng chứa các đối tượng. Đầu tiên ảnh được phân
hình qua thuật tốn phân đoạn hình ảnh dựa trên đồ thị, vì thuật tốn dựa
vào lý thuyết đồ thị và không áp dụng deep learning. Không thể dùng mỗi
màu trong ảnh đầu ra để làm một vùng đề xuất khu vực được vì mỗi một
đối tượng có thể chứa nhiều màu, các đối tượng sẽ bị che mất một phần vì
thế cần phải nhóm các vùng màu với nhau để làm khu vực đề xuất. các
vùng màu được nhóm với nhau dựa trên độ tương đồng về màu sắc, hướng
gradient, kích thước,…Cuối cùng các region proposal được xác định dựa
trên các nhóm vùng màu.

14


Hình 2. 5: Phân loại khung hình đề xuất khu vực R-CNN
Do thuật tốn tìm kiếm có chọn lọc cho tới 2000 đề xuất khu vực nên
có rất nhiều khu vực đề xuất không chứa đối tượng nào. Vậy nên ta cần
thêm 1 lớp background (không chứa đối tượng nào) Ví dụ như hình 2.5 ta
có 4 region proposal, ta sẽ phân loại mỗi bounding box là người, ngựa hay
background. Sau đó các khu vực đề xuất được thay đổi lại về cùng kích
thước và thực hiện huấn luyện với feature extractor (trích xuất đặc trưng),
sau đó các extracted feature được cho vào thuật toán SVM để phân loại
ảnh. Bên cạnh đó thì extracted feature cũng được dùng để dự đốn 4 giá trị
bù đắp cho mỗi cạnh. Ví dụ như khi khu vực đề xuất chứa người nhưng chỉ
có phần thân và nửa mặt, nửa mặt cịn lại khơng có trong khu vực đề xuất
đó thì offset value có thể giúp mở rộng khu vực đề xuất để lấy được toàn
bộ người.
Vấn đề với R-CNN là hồi mới xuất hiện thì thuật tốn hoạt động khá
tốt, đối với các thuật tốn về computer vision trước đó nhờ vào CNN, tuy
nhiên nó vẫn có khá nhiều hạn chế: Vì với mỗi ảnh ta cần phân loại các lớp
cho 2000 khu vực đề xuất nên thời gian huấn luyện rất lâu. Khơng thể áp

dụng cho thời gian thực vì mỗi ảnh trong tập kiểm tra mất tới 47s để xử lý.
Khoảng 1.5 năm sau đó, Fast R-CNN được giới thiệu bởi cùng tác
giả của R-CNN, nó giải quyết được một số hạn chế R-CNN để cải thiện tốc
độ.
b) Fast R-CNN
Tương tự như R-CNN thì Fast R-CNN vẫn dùng thuật tốn tìm kiếm
chọn lọc để lấy ra các khu vực đề xuất. Tuy nhiên là nó khơng tách 2000
15


×