Nghiên cứu một số kỹ thuật xử lý ảnh trong phát hiện và theo vết đối tượng dựa vào camera

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.71 MB, 74 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUY NHƠN

NGUYỄN THỊ BÍCH HÀ

NGHIÊN CỨU MỘT SỐ KỸ THUẬT XỬ LÝ ẢNH
TRONG PHÁT HIỆN VÀ THEO VẾT ĐỐI TƯỢNG

DỰA VÀO CAMERA

Ngành: Khoa học máy tính
Mã số: 08480101

Người hướng dẫn: TS. LÊ THỊ KIM NGA

LỜI CAM ĐOAN

Tơi xin cam đoan tồn bộ nội dung của đề án với đề tài: “Nghiên cứu
một số kỹ thuật xử lý ảnh trong phát hiện và theo vết đối tượng dựa vào
camera” này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của TS. Lê Thị
Kim Nga – Trường Đại học Quy Nhơn. Phần thực nghiệm chương trình đều
do tơi tự xây dựng có sự hướng dẫn của giảng viên, trong đó có sử dụng một
số thư viện chuẩn và các thuật toán được các tác giả xuất bản công khai. Kết
quả thực nghiệm được minh họa trong đề án là trung thực.

Nội dung của đề án này chưa từng được cơng bố hay xuất bản dưới bất
kỳ hình thức nào. Các tài liệu tham khảo được sử dụng trong đề án có nguồn
gốc rõ ràng và trích dẫn chính xác, đầy đủ. Nếu sai tơi xin hồn tồn chịu
trách nhiệm.

Bình Định, ngày tháng 10 năm 2023

Người cam đoan

Nguyễn Thị Bích Hà

LỜI CẢM ƠN

Trong quá trình nghiên cứu đề án, mặc dù vẫn cịn gặp rất nhiều khó
khăn, nhưng tơi vẫn luôn nhận được sự quan tâm, giúp đỡ của quý thầy cô,
bạn bè và người thân. Đây là nguồn động lực lớn giúp tơi hồn thành đề tài
của đề án này.

Tôi xin gửi lời cảm ơn chân thành và lòng biết ơn sâu sắc nhất đến quý
Thầy (Cô), những người đã giảng dạy nhiệt tình và giúp đỡ cho bản thân tơi
đến với con đường nghiên cứu khoa học đầy đam mê, đặc biệt là TS. Lê Thị
Kim Nga -Trường Đại học Quy Nhơn. Với tâm huyết của mình, cơ chỉ bảo
tận tình chu đáo để bản thân hồn thành tốt cơng việc của mình.

Và cũng xin cảm ơn các cán bộ, nhân viên phòng Đào tạo Sau đại học,
trường Đại học Quy Nhơn đã tạo điều kiện tốt nhất cho tơi trong suốt q
trình học tập tại trường.

Cuối cùng, cho tôi được gửi lời biết ơn đến gia đình, bạn bè cùng tất cả
những người thân, ln bên cạnh động viên bản thân tôi trong suốt thời gian
học tập và nghiên cứu.

Kính chúc q Thầy (Cơ) và các anh chị em trong lớp cao học ngành
Khoa học Máy tính khóa 24B sức khỏe, hạnh phúc và thành đạt.

Xin chân thành cảm ơn!

Nguyễn Thị Bích Hà

MỤC LỤC

LỜI CAM ĐOAN
LỜI CẢM ƠN
DANH MỤC CÁC BẢNG
DANH MỤC CÁC HÌNH ẢNH
MỞ ĐẦU .......................................................................................................... 1
1.1. Lý do chọn đề tài ........................................................................................ 1
1.2. Mục đích và nhiệm vụ nghiên cứu ............................................................. 2

1.2.1. Mục đích nghiên cứu..................................................................................................2
1.2.2. Nhiệm vụ nghiên cứu .................................................................................................2
1.3. Đối tượng và phạm vi nghiên cứu.............................................................. 2
1.4. Phương pháp nghiên cứu............................................................................ 2
1.5. Đóng góp của đề tài.................................................................................... 2
Chương 1: TỔNG QUAN VỀ PHÁT HIỆN VÀ THEO VẾT ĐỐI
TƯỢNG TRONG CAMERA ......................................................................... 4
1.1. Cơ sở lý thuyết của xử lý ảnh và thị giác máy........................................... 4
1.2. Bài toán phát hiện và theo vết đối tượng ................................................... 5
1.3. Các cách tiếp cận trong phát hiện và theo vết đối tượng ........................... 6
1.3.1. Phát hiện đối tượng (Object Detection)...........................................................6
1.3.2. Theo vết đối tượng (Object Tracking) ...............................................................7
1.3.3. Kết hợp phát hiện và theo vết đối tượng ..........................................................7
1.4. Kết luận chương 1 .................................................................................... 10
Chương 2: MỘT SỐ KỸ THUẬT PHÁT HIỆN VÀ THEO VẾT ĐỐI
TƯỢNG .......................................................................................................... 12
2.1. Kỹ thuật dựa trên điểm đặc trưng ............................................................ 12
2.2. Kỹ thuật phát hiện chuyển động .............................................................. 13

2.2.1. So sánh hai khung hình liên tiếp ...............................................................14

2.2.2. So sánh nền trung bình .................................................................... 15
2.3. Kỹ thuật dựa trên phân đoạn đối tượng.................................................... 17
2.4. Kỹ thuật dựa trên học sâu......................................................................... 21

2.4.1 Cơ sở lý thuyết của học sâu ...................................................................................21
2.4.2. Mạng nơ-ron tích chập (CNN)............................................................................23
2.4.3. YOLO ( You Only Look Once).............................................................................30
2.4.4. Các phiên bản và cấu trúc cơ bản của YOLO.............................................41
2.5. Kết luận chương 2 .................................................................................... 48
Chương 3: THỬ NGHIỆM .......................................................................... 49
3.1. Phát biểu bài toán ..................................................................................... 49
3.2. Phân tích u cầu ..................................................................................... 50
3.3. Xây dựng chương trình và kết quả thử nghiệm ....................................... 53
3.3.1. Dữ liệu huấn luyện........................................................................... 53
3.3.2. Môi trường cài đặt và phát triển ..................................................... 54
3.3.3. Các bước huấn luyện mơ hình Google colad.......................................55
3.3.4. Xây dựng chương trình thử nghiệm........................................................58
3.3.5. Kết quả thử nghiệm..................................................................................59
3.4. Nhận xét, đánh giá.................................................................................... 61
3.5. Kết luận chương 3 .................................................................................... 61
KẾT LUẬN .................................................................................................... 63
DANH MỤC TÀI LIỆU THAM KHẢO..................................................... 64
QUYẾT ĐỊNH GIAO TÊN ĐỀ TÀI ĐỀ ÁN THẠC SĨ (BẢN SAO)

DANH MỤC CÁC BẢNG

Số bảng Tên bảng Trang
52

Bảng các thông số thử nghiệm của một số mô
3.1

hình YOLO trên tập dữ liệu COCO

DANH MỤC CÁC HÌNH ẢNH

Số hình Tên hình Trang

2.1 Khung hình hiện tại trừ cho khung hình tại thời điểm 14
trước

2.2 Các kết quả phân ngưỡng ảnh độ lệch 15

2.3 Khung hình nền tổng hợp với n=10 và ảnh mặt nạ kết 16
quả

2.4 Khung hình nền tổng hợp với các giá trị n khác nhau và 16
ảnh mặt nạ kết quả

2.5 Hình ảnh ví dụ của các cầu thủ đang chạy 17

2.6 Chọn một vùng ảnh mẫu để phân tích màu 18

2.7 Histogram kênh Red của vùng ảnh mẫu được chọn 18

2.8 Histogram kênh Green của vùng ảnh mẫu được chọn 18

2.9 Histogram kênh Blue của vùng ảnh mẫu được chọn 19

2.10 Chọn một vùng ảnh mẫu khác để phân tích màu 19

2.11 Histogram kênh Red của vùng ảnh mẫu được chọn 20

2.12 Histogram kênh Green của vùng ảnh mẫu được chọn 20

2.13 Histogram kênh Blue của vùng ảnh mẫu được chọn 20

2.14 Mơ hình mơ tả một mạng nơ-ron sâu nhiều tầng 22

2.15 Mảng ma trận RGB của ảnh 6x6x3 25

2.16 Mơ hình mạng CNN 25

2.17 Ma trận ảnh nhân ma trận bộ lọc 26

2.18 Ma trận đầu ra 26

2.19 Một số bộ lọc phổ biến 27

2.20 Hoạt động của lớp ReLU 28

2.21 Mơ hình làm việc của Max Pooling 28

2.22 Kiến trúc mạng CNN hoàn chỉnh 29

Số hình Tên hình Trang
2.23 30
Minh họa phương pháp cửa sổ trượt 31
2.24

Ví dụ minh họa khi trượt cửa sổ với đối tượng quan tâm 32
2.25 là khuôn mặt người: vùng cửa sổ màu xanh được xác 33
2.26 nhận là đối tượng quan tâm và được ghi nhận lại, vùng 33
2.27 đỏ bỏ qua 34
2.28
Tương quan vấn đề định vị đối tượng trong ảnh so với
nhận diện và phát hiện đối tượngtrong ảnh

Minh họa quá trình xử lý của OverFeat [9]

Minh họa quá trình phát hiện đối tượng dựa trên định vị
trong YOLO

Ảnh mẫu minh họa cho quá trình phân chia khơng gian
của YOLO

2.29 Kết quả của các đối tượng trong ảnh mẫu 34

2.30 Minh họa kết quả ước lượng mong muốn với một mắt 35
lưới

2.31 Minh họa độ đo IoU 36

2.32 Mơ hình ước lượng hai hình bao khoanh màu xanh da 37
trời dựa vào mắt lưới khoanh màu vàng

Minh họa bước nhận diện đối tượng tại mỗi mắt lưới để 38
2.33 tổng hợp vào kết quả phát hiện và truy vết đối tượng

trong YOLO

Kết quả ước lượng tại mỗi mắt lưới: các hình bao đối 38

2.34 tượng ứng với các lớp khác nhau sẽ được khoanh bằng

màu khác nhau

2.35 Kiến trúc mạng nơ ron tích chập của YOLO 39

2.36 WordTree - YOLO9000 42

2.37 Kiến trúc Darknet19 43

2.38 Kiến trúc mạng YOLOv3 44

Số hình Tên hình Trang

2.39 Kiến trúc DarkNet-53 45

2.40 So sánh hiệu suất của YOLOv4 với các mơ hình học sâu 46
state-of-art thời điểm đó (trong đó có YOLOv3)

2.41 Các phiên bản YOLOV5 47

2.42 Kết quả thử nghiệm và so sánh các phiê bản YOLOv5 47

3.1 Pha khởi tạo dữ liệu 50

3.2 Pha xử lý 51

3.3 Dữ liệu đối tượng tập dữ liệu COCO được huấn luyện 54
(20 lớp)

3.4 Tiến hành tải mơ hình về Google driver 55

3.5 Định nghĩa các lớp đối tượng cho bài toán 55

3.6 Tạo file coco.data chứa các tham số huấn luyện 56

3.7 Dữ liệu được đưa lên thư mục data bao gồm hình và 56
nhãn được lưu tại thư mục images và labels

3.8 Huấn luyện mơ hình 57

3.9 Câu lệnh chạy phát hiện ảnh person.jpg 57

3.10 Kết quả chạy thử nghiệm ảnh phát hiện chuyển động với 57
độ chính xác cao trên 90%

3.11 Phát hiện chuyển động 58

3.12 Phát hiện và theo vết đối tượng 59

3.13 Kết quả phát hiện và theo vết người đang di chuyển trên 60
đường phố

3.14 Kết quả phát hiện sinh viên đang thi đấu bóng chuyền 61

1

MỞ ĐẦU

1.1. Lý do chọn đề tài
Phát hiện và theo vết đối tượng (objects tracking) là bài toán nghiên

cứu quan trọng của xử lý ảnh và thị giác máy tính (computer vision). Kỹ thuật
phát hiện và theo vết đối tượng chủ yếu dựa trên hình ảnh của các đối tượng
thu được từ các camera giám sát. Việc phát hiện ra các đối tượng di chuyển
trong camera nhằm đoán nhận một số hành vi của đối tượng là có ý nghĩa
khoa học và thực tiễn.

Phát hiện và theo vết đối tượng được quan tâm nghiên cứu trong nhiều
năm qua do chúng có nhiều ứng dụng trong thực tế như giám sát tự động,
thực tế ảo tăng cường và phân tích hành vi, tương tác người máy v.v. Đến nay
bài toán này vẫn là một nhiệm vụ đầy thách thức do các yếu tố tác động như
biến dạng, thay đổi ánh sáng, xoay v.v.

Trong lĩnh vực giáo dục, có thể ứng dụng phát hiện và theo dõi cảm
xúc, hành vi của học sinh, sinh viên trong quá trình học tập nhằm xác định
mức độ đáp ứng bài học để nghiên cứu phương pháp giảng dạy phù hợp.
Ngồi ra, có thể xác định, kiểm tra học sinh, sinh viên có mặt trong các buổi
học một cách nhanh chóng và hiệu quả.

Trong lĩnh vực an ninh, có thể phát hiện và bám sát đối tượng di
chuyển trong các vùng cần giám sát.

Vì vậy, tơi quyết định lựa chọn đề tài nghiên cứu đề án: “Nghiên cứu
một số kỹ thuật xử lý ảnh trong phát hiện và theo vết đối tượng dựa vào
camera” để nghiên cứu.

2

1.2. Mục đích và nhiệm vụ nghiên cứu
1.2.1. Mục đích nghiên cứu

Nghiên cứu các kỹ thuật phát hiện và theo vết đối tượng nhằm ứng
dụng trong giám sát tự động cũng như trong bài toán tương tác người máy.
1.2.2. Nhiệm vụ nghiên cứu

- Nghiên cứu tổng quan về xử lý ảnh, thị giác máy và bài toán phát hiện
và theo vết đối tượng.

- Nghiên cứu một số kỹ thuật phát hiện và theo vết đối tượng.
- Xây dựng ứng dụng phát hiện và theo vết đối tượng cho điều khiển
tự động.
1.3. Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Đối tượng trên ảnh và video.
- Phạm vi nghiên cứu: Đối tượng chuyển động.
1.4. Phương pháp nghiên cứu
Phương pháp nghiên cứu của đề tài được lựa chọn là lý thuyết kết hợp
với thực nghiệm. Nghiên cứu các phương pháp kỹ thuật hiện có cho bài tốn
đặt ra, phân tích lựa chọn kỹ thuật áp dụng. Cài đặt thử nghiệm và đánh giá
kết quả đạt được.
1.5. Đóng góp của đề tài
Thực hiện đề tài “Nghiên cứu một số kỹ thuật xử lý ảnh trong phát hiện
và theo vết đối tượng dựa vào camera” sẽ góp phần hỗ trợ trong các hệ thống
giám sát thông minh và điều khiển tự động.

NỘI DUNG CHÍNH
Ngoài phần mở đầu, kết thúc, tài liệu tham khảo và phụ lục, nội dung

của đề án được triển khai làm 03 (ba) chương:

3

Chương 1: Tổng quan về phát hiện và theo vết đối tượng trong camera
Đề án trình bày tổng quan về bài toán và các cách tiếp cận cho bài toán

phát hiện và theo vết đối tượng trong camera trên cơ sở các kỹ thuật xử lý ảnh
và thị giác máy.
Chương 2: Kỹ thuật phát hiện và theo vết đối tượng

Phần này đề án trình bày một số kỹ thuật phát hiện và theo vết đối
tượng nhằm mục đích ứng dụng trong giám sát tự động và điều khiển thiết bị
tự động.
Chương 3: Thử nghiệm

Đề án sẽ cài đặt thử nghiệm kỹ thuật điển hình lựa chọn trong chương 2.
Phân tích và đánh giá kết quả thực nghiệm.

4

Chương 1: TỔNG QUAN VỀ PHÁT HIỆN VÀ THEO VẾT ĐỐI
TƯỢNG TRONG CAMERA

1.1. Cơ sở lý thuyết của xử lý ảnh và thị giác máy

Xử lý ảnh là đối tượng nghiên cứu của lĩnh vực thị giác máy tính, là q
trình biến đổi từ một ảnh ban đầu sang một ảnh mới với các đặc tính và tuân
theo ý muốn của người sử dụng. Xử lý ảnh có thể gồm q trình phân tích,
phân lớp các đối tượng, làm tăng chất lượng, phân đoạn và tách cạnh, gán

nhãn cho vùng hay quá trình biên dịch các thơng tin hình ảnh của ảnh.

Cũng như xử lý dữ liệu bằng đồ họa, xử lý ảnh số là một lĩnh vực của tin
học ứng dụng. Xử lý dữ liệu bằng đồ họa đề cập đến những ảnh nhân tạo, các
ảnh này được xem xét như là một cấu trúc dữ liệu và được tạo bởi các chương
trình. Xử lý ảnh số dựa trên các khái niệm và thuật toán trong lĩnh vực thị
giác máy tính và xử lý tín hiệu. Dưới đây là những khác niệm cơ bản và cơ sở
lý thuyết liên quan đến xử lý ảnh.

- Đại diện số hóa ảnh: Ảnh được biểu diễn bằng các giá trị số trên
một màn hình 2 chiều. Mỗi điểm ảnh trong ma trận được gọi là pixel và
có thể có các giá trị đại diện cho độ xám (ảnh đen trắng) hoặc các giá trị
màu (ảnh màu).

- Xử lý và biến đổi ảnh: Các biến cho phép thay đổi ảnh như xoay, phóng
to/thu nhỏ, cắt ghép, thay đổi màu sắc, làm mờ, làm nét và chỉnh sửa ảnh khác
được thực hiện bằng cách áp dụng các phép toán học toán và thuật toán trên
các pixel giá trị.

- Lọc và biến đổi tín hiệu: Xử lý ảnh thông thường sử dụng các phép lọc
để giảm nhiễu, tăng cường độ tương phản, hoặc tìm kiếm các đặc trưng đặc
biệt. Các bộ lọc thông thường bao gồm bộ lọc trung bình, bộ lọc Gauss, bộ lọc
trung vị và bộ lọc Laplace.

5

- Biểu diễn và biến đổi Fourier: Biến đổi Fourier được sử dụng để phân
tích tín hiệu trong tần số. Trong xử lý ảnh, biến đổi Fourier thường được áp
dụng để xử lý và loại bỏ các thành phần tần số không mong muốn, chẳng hạn
như nhiễu hoặc độ nét.

- Nhận dạng và phân loại: Xử lý ảnh cũng liên quan đến việc nhận dạng
và phân loại các đối tượng trong ảnh. Các phương pháp như phân đoạn ảnh,
phát hiện đối tượng, trích xuất đặc trưng và học máy được sử dụng để thực
hiện nhiệm vụ này.

- Mạng nơ-ron và học sâu: Trong những năm gần đây, các mơ hình mạng
nơ-ron như mạng nơ-ron tích chập (CNN) đã chứng tỏ hiệu quả tốt trong xử
lý ảnh. Học sâu (deep learning) là một lĩnh vực quan trọng trong xử lý ảnh,
cho phép mơ hình tự học các đặc trưng phức tạp từ dữ liệu và thực hiện nhiều
nhiệm vụ như phân loại, phát hiện và phân đoạn ảnh.

Thị giác máy tính là một lĩnh vực bao gồm các phương pháp thu nhận,
xử lý ảnh kỹ thuật số, phân tích và nhận dạng hình ảnh. Nói chung chúng là
dữ liệu đa chiều từ thế giới thực để cho ra các thông tin số hoặc biểu tượng.

Thị giác máy tính là một mơn học khoa học liên quan đến lý thuyết đằng
sau các hệ thống nhân tạo có trích xuất các thơng tin từ các hình ảnh. Dữ liệu
hình ảnh có thể nhiều dạng, chẳng hạn như chuỗi video, các cảnh từ đa
camera, hay dữ liệu đa chiều từ máy quét y học.

1.2. Bài toán phát hiện và theo vết đối tượng

Bài toán phát hiện và theo vết đối tượng (object detection and tracking)
trong thị giác máy tính là quá trình tìm ra và xác định vị trí, định dạng và đối
tượng của các đối tượng cụ thể trong một chuỗi hình ảnh hoặc video, sau đó
theo dõi và theo vết chúng qua các khung hình.

Bài toán phát hiện đối tượng liên quan đến việc tìm kiếm và xác định

6

vị trí các đối tượng cụ thể trong ảnh hoặc video. Các thuật toán phát hiện
đối tượng thường sử dụng các mơ hình học máy và học sâu để nhận biết và
phân loại các đối tượng dựa trên các đặc trưng của chúng. Các phương
pháp phổ biến bao gồm R-CNN, Fast R-CNN, Faster R-CNN, YOLO (You
Only Look Once), SSD (Single Shot MultiBox Detector), và RetinaNet.
Các thuật toán này xử lý từng vùng ảnh hoặc nhóm vùng ảnh để xác định
và phân loại đối tượng.

Sau khi phát hiện được đối tượng trong mỗi khung hình, bài tốn theo
vết đối tượng nhằm xác định và theo dõi vị trí của các đối tượng này qua các
khung hình tiếp theo. Phương pháp theo vết đối tượng có thể dựa trên việc
xác định các đặc trưng của đối tượng (như màu sắc, hình dạng, hoặc đặc trưng
di chuyển) và sử dụng các thuật tốn như Kalman Filter, Particle Filter, hoặc
các mơ hình Deep SORT (Deep Siamese Networks for Object Tracking) để
theo dõi và đánh dấu các đối tượng qua các khung hình.

Tổng quát, bài toán phát hiện và theo vết đối tượng là một sự kết hợp
của các thuật toán phát hiện đối tượng và thuật tốn theo vết. Nó có ứng dụng
rộng trong nhiều lĩnh vực như giám sát an ninh, xe tự hành, theo dõi đối
tượng trong video, nhận dạng gương mặt và nhiều ứng dụng khác.

1.3. Các cách tiếp cận trong phát hiện và theo vết đối tượng

1.3.1. Phát hiện đối tượng (Object Detection).
+ Chuẩn bị dữ liệu huấn luyện: Thu thập và chuẩn bị dữ liệu huấn

luyện gồm ảnh hoặc video có đối tượng cần phát hiện, đồng thời gán nhãn vị
trí và loại đối tượng cho từng hình ảnh.

+ Xây dựng mơ hình: Sử dụng các mơ hình học máy và học sâu để
huấn luyện mơ hình phát hiện đối tượng. Các mơ hình như R-CNN, Fast R-
CNN, Faster R-CNN, YOLO, SSD, RetinaNet được sử dụng phổ biến.

7

+ Phát hiện đối tượng: Áp dụng mơ hình đã huấn luyện lên ảnh hoặc
video để xác định vị trí và loại đối tượng. Các kết quả phát hiện thường được
đưa ra dưới dạng hình bounding boxes và các điểm đặc trưng của đối tượng.

1.3.2. Theo vết đối tượng (Object Tracking)
+ Xác định đặc trưng: Xác định các đặc trưng của đối tượng cần theo

vết như màu sắc, hình dạng, đặc trưng di chuyển, hoặc các đặc trưng học sâu
(như các vector đặc trưng).

Khởi tạo vết: Trong khung hình đầu tiên, xác định và đánh dấu các
vùng chứa đối tượng. Các thuật toán như Kalman Filter hoặc Particle Filter
thường được sử dụng để khởi tạo vết.

+ Cập nhật và theo dõi: Trong các khung hình tiếp theo, sử dụng các thuật
toán theo dõi để cập nhật và theo vết vị trí của đối tượng. Các thuật tốn như
Kalman Filter, Particle Filter, hoặc các mơ hình Deep SORT thực hiện cơng việc
này bằng cách dự đốn và điều chỉnh vị trí vật thể theo thời gian.

+ Xử lý các trường hợp đặc biệt: Xử lý các trường hợp như mất vết, đối
tượng chồng chéo, thay đổi môi trường ánh sáng hoặc hình dạng của đối
tượng để duy trì theo vết chính xác.

1.3.3. Kết hợp phát hiện và theo vết đối tượng
+ Kết hợp bước phát hiện và theo vết: Khi thực hiện phát hiện và theo

vết đối tượng trên video, thông thường sử dụng phát hiện đối tượng trong các
khung hình đầu tiên và sau đó sử dụng theo vết để liên tục cập nhật vị trí của
đối tượng trong các khung hình tiếp theo.

+ Tối ưu và đánh giá: Để cải thiện hiệu suất và chính xác, có thể áp
dụng các kỹ thuật tối ưu hóa như Non-maximum Suppression (NMS) để loại
bỏ các bounding boxes trùng lặp và đánh giá kết quả theo các độ đo như
Precision, Recall, F1-score.

8

Ngoài ra phát hiện và theo dõi đối tượng là những nhiệm vụ quan trọng
trong thị giác máy tính liên quan đến việc xác định và định vị các đối tượng
trong hình ảnh hoặc video và sau đó theo dõi chuyển động của chúng trên các
khung hình. Nhiều cách tiếp cận khác nhau đã được phát triển trong nhiều
năm để giải quyết các nhiệm vụ này, từ các kỹ thuật thị giác máy tính cổ điển
đến các phương pháp dựa trên học sâu. Dưới đây là một số cách tiếp cận
thường được sử dụng trong phát hiện và theo dõi đối tượng.

1.3.3.1. Kỹ thuật thị giác máy tính cổ điển
Haar cascades: Phương pháp này sử dụng các tính năng giống như Haar
và bộ phân loại theo tầng để phát hiện các đối tượng dựa trên các mẫu cường
độ pixel.
Histogram of Oriented Gradients (HOG): HOG phân tích sự phân bố
của các hướng chuyển màu trong một hình ảnh để phát hiện các đối tượng.
Scale-Invariant Feature Transform (SIFT): SIFT phát hiện và mơ tả các
tính năng cục bộ trong một hình ảnh, có thể được sử dụng để đối sánh và theo

dõi đối tượng.
1.3.3.2. Phương pháp tiếp cận dựa trên deep learning
Region-based Convolutional Neural Networks (R-CNN): R-CNN thực
hiện phát hiện đối tượng bằng cách tạo các đề xuất khu vực và phân loại
chúng bằng CNN.
You Only Look Once (YOLO): YOLO chia hình ảnh thành lưới và dự
đốn các hộp giới hạn và xác suất lớp trực tiếp từ các ô lưới.
Single Shot MultiBox Detector (SSD): Tương tự như YOLO, SSD
cũng dự đoán các hộp giới hạn đối tượng và xác suất lớp ở nhiều tỷ lệ.
1.3.3.3. Phương pháp theo dõi
Correlation Filters: Bộ lọc tương quan sử dụng khái niệm khớp mẫu để

9

theo dõi các đối tượng trên các khung, sử dụng các kỹ thuật như bộ lọc tương
quan nhân hóa (KCF) và bộ lọc tương quan phân biệt (DCF).

Kalman Filters: Bộ lọc Kalman được sử dụng để ước tính trạng thái của
một đối tượng và dự đốn vị trí tương lai của nó bằng cách kết hợp các mơ
hình chuyển động và phép đo từ các khung hình trước đó.

Siamese Networks: Mạng Siamese học cách liên kết các đối tượng mục
tiêu trên các khung bằng cách so sánh các nhúng tính năng được trích xuất từ
mẫu mục tiêu và vùng tìm kiếm.

1.3.3.4. Phương pháp lai
Deep SORT: Deep SORT kết hợp khả năng phát hiện đối tượng dựa
trên học sâu với thuật toán SORT (Theo dõi trực tuyến và thời gian thực
đơn giản) để đạt được cả khả năng phát hiện chính xác và khả năng theo
dõi mạnh mẽ.

Mask R-CNN: Mặt nạ R-CNN mở rộng R-CNN bằng cách thêm một
nhánh để dự đoán mặt nạ đối tượng bên cạnh các hộp giới hạn và nhãn lớp,
cho phép phân đoạn và theo dõi phiên bản.

1.3.3.5. Phương pháp tiếp cận dựa trên tính năng
Speeded-Up Robust Features (SURF): SURF phát hiện và mơ tả các
tính năng cục bộ bằng cách sử dụng kết hợp các thuật toán bất biến tỷ lệ
và xoay.
Oriented FAST and Rotated BRIEF (ORB): ORB là sự kết hợp của bộ
dị góc FAST và bộ mô tả BRIEF, được thiết kế để trở nên nhanh chóng và
hiệu quả.
1.3.3.6. Phương pháp tiếp cận dựa trên chuyển động
Optical Flow: Luồng quang học tính tốn trường chuyển động dày đặc
giữa các khung hình liên tiếp, có thể được sử dụng để ước tính chuyển động

10

của các đối tượng và theo dõi chúng.

Background Subtraction: Các phương pháp trừ nền phân đoạn các
đối tượng chuyển động bằng cách trừ một mơ hình nền tĩnh khỏi các
khung đầu vào.

1.3.3.7. Theo dõi đa đối tượng

Multiple Hypothesis Tracking (MHT): MHT duy trì nhiều giả thuyết về
các dấu vết đối tượng và tự động chọn những giả thuyết có thể xảy ra nhất
dựa trên liên kết dữ liệu.

Joint Detection and Tracking (JDT): JDT đồng thời thực hiện phát

hiện và theo dõi đối tượng bằng cách kết hợp cả hai tác vụ vào một khung
thống nhất.

Graph-based Methods: Phương pháp dựa trên đồ thị biểu diễn các đối
tượng và mối quan hệ của chúng dưới dạng đồ thị và giải quyết vấn đề theo
dõi bằng cách tối ưu hóa cấu trúc đồ thị.

1.4. Kết luận chương 1

Qua chương này chúng ta đã biết được tổng quát về xử lý ảnh và thị
giác máy tính, cũng như là các cơ sở lý thuyết dựa trên các khái niệm và thuật
toán trong lĩnh vực thị giác máy tính và xử lý tín hiệu. Đây là một trong
những bài toán rất phổ biến trong xã hội hiện nay. Bài toán phát hiện và theo
vết đối tượng đã được triển khai và phát triển từ lâu cộng thêm việc mơ hình
deep learning ra đời nhằm tăng hiệu suất và độ chính xác của các thuật tốn
trên lên rất cao đưa ra kết quả đúng trong việc xử lý bài tốn đó.

Có rất nhiều cách tiếp cận bài toán phát hiện và theo vết đối tượng
được nêu ở trên cũng như là cách các giải. Tuy nhiên khơng phải thuật tốn
nào áp dụng cũng cho ra kết quả cao mà còn là tùy thuộc vào yêu cầu của bài
toán, xem bài toán muốn phát hiện vật thể nào ví dụ như: người, xe, nhà, ….

11

Do đó việc chọn lựa cách giải cho bài toán rất quan trọng nhằm đa hóa được
thuật tốn đang sử dụng cũng như là cho ra một kết quả tốt nhất. Phần sau em
sẽ đi vào một số kỹ thuật để phát hiện và theo vết đối tượng.

Nghiên cứu một số kỹ thuật xử lý ảnh trong phát hiện và theo vết đối tượng dựa vào camera

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về