ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
LÊ VĂN TRANG – 1311064
NGUYỄN VĂN THANH – 1311060
HOÀNG VĂN TÀI – 1311056
ĐỒ ÁN MƠN HỌC
XỬ LÝ ẢNH VÀ THỊ GIÁC MÁY TÍNH
ĐỀ TÀI : KHẢO SÁT BỘ DÒ ĐIỂM TRỌNG YẾU VÀ ĐẶC TRƯNG
PHỤ THUỘC KHÔNG GIAN – THỜI GIAN
TP.HCM 5/2013
Đồ án môn xử lý ảnh và thị giác máy tinh
Mục lục
3
Đồ án môn xử lý ảnh và thị giác máy tinh
Bảng chữ viết tắt
STIP
SIFT
MoSIFT
BOF
HOG
HOF
Spatial – Temporal Interest Point
Điểm trọng yếu không gian – thời gian
Scale-Invariant Feature Transform
Biến đổi đặc trưng tỉ lệ bất biến
Motion Scale-Invariant Feature Transform
Biến đổi đặc trưng cử động bất biến tỉ lệ
Bag of Feature
Giỏ đặc trưng
Histogram of (Orientation) Gradient
Biểu đồ Gradient
Histogram of (Optical) Flow
Biểu đồ luồng sáng
4
Đồ án môn xử lý ảnh và thị giác máy tinh
PHẦN 1: MỞ ĐẦU
1. Sự cần thiết của đề tài
Đặc trưng phụ thuộc không gian thời gian đã cho thấy sự thành cơng
trong nhiều bài tốn nhận dạng như: Nhận dạng đối tượng trong cảnh trí, nhận
dạng hành động người trong các video giám sát. Nhiều phương pháp nhằm
phát hiện và mô tả các đặc trưng phụ thuộc không gian thời gian đã được đề
xuất trong nhiều cơng trình nghiên cứu và đã đạt được nhiều kết quả hứa hẹn
khả quan. Tuy nhiên, việc khảo sát các phương pháp một cách tổng quát vẫn
chưa được xem xét.
2. Mục tiêu của đề tài
Đề tài này nhằm khảo sát lại một cách khái quát các phương pháp phát
hiện và mô tả đặc trưng phụ thuộc khơng gian thời gian. Qua đó nêu bật được
ưu điểm và hạn chế của từng phương pháp.
Trong phạm vi của đề tài, chúng em chỉ khảo sát dựa trên 4 phương pháp
phát hiện điểm trọng yếu: Harris 3D, Hessian 3D, Harris – Affine 3D, Hessian
– Affine 3D và 4 đặc trưng quanh điểm trọng yếu là: 3D – SIFT, MoSIFT,
HOG3D, Trajectories.
3. Ý nghĩa của đề tài
Từ việc khảo sát các phương pháp phát hiện và mô tả đặc trưng phụ
thuộc không gian thời gian, sẽ đưa ra một cái nhìn tổng quát nhất về phương
pháp phát hiện và mơ tả đặc trưng để từ đó lựa chọn phương pháp thích hợp
vào từng bài tốn nhận dạng cụ thể.
5
Đồ án môn xử lý ảnh và thị giác máy tinh
PHẦN 2: NỘI DUNG NGHIÊN CỨU
1. Điểm trọng yếu và đặc trưng cục bộ không gian thời gian
Điểm trọng yếu khơng gian thời gian là những điểm có sự bất biến về tỉ
lệ cũng như các phép biến đổi cơ bản như: xoay, phóng to, thu nhỏ, thay đổi
cường độ sáng…Vì vậy có thể xem đây là các đặc trưng mang tính cục bộ của
ảnh hoặc video. Có thể xem tập các đặc trưng của một video là thể hiện cho
nội dung của video đó. Vì vậy kết quả của việc nhận dạng sẽ có độ chính xác
rất cao.
Trong các bài toán nhận dạng đối tượng trong ảnh hoặc video ngày nay
hướng nghiên cứu phổ biến trên thế giới là việc sử dụng các điểm bất biến
trong ảnh hoặc video làm đặc trưng để nhận dạng.
Đặc trưng cục bộ không gian thời gian là …
Phương pháp đặc trưng cục bộ lưu giữ đặc trưng dáng và chuyển động
cho một vùng cục bộ, ít nhạy cảm với nhiễu, che khuất một phần, không bị
ảnh hưởng bởi các bước tiền xử lý. Tuy nhiên phụ thuộc vào hiệu quả và độ
chính xác của việc phát hiện điểm đặc trưng.
2. Khảo sát bộ dị điểm trọng yếu khơng gian thời gian
2.1. Bộ dị Harris 3D
Phát hiện góc (corner detection) hoặc một thuật ngữ tổng quát hơn là
phát hiện điểm quan tâm (interest point detection) là m ột hƣớng
tiếp cận được sử dụng trong các hệ thống thị giác máy tính để trích
chọn các loại đặc trƣng và suy luận ra các nội dung của một ảnh. Việc
phát hiện góc được dùng thường xuyên trong phát hiện, theo dõi
chuyển động, mơ hình 3D và nhận dạng đối tượng.
Phương pháp phát hiện góc Harris là một phương pháp phát hiện điểm
quan tâm phổ biến vì nó bất biến đối với phép quay, thay đổi độ sáng
và tạp nhiễu ảnh. Phương pháp này dựa trên hàm tương quan tự động
cục bộ của một tín hiệu; ở đó hàm tương quan tự động cục bộ đo các
thay đổi cục bộ của tín hiệu với các mảnh ảnh được dịch chuyển một
lượng nhỏ theo các hướng khác nhau.
6
Đồ án môn xử lý ảnh và thị giác máy tinh
∆
Cho trước sự dịch chuyển ( x,
∆
y) và một điểm (x,y), hàm tương quan
tự động được định nghĩa như sau:
(1)
trong đó I(·,·) biểu thị hàm ảnh và (x i,yi) là các điểm trong cửa sổ W
đặt ở vị trí (x,y). Ảnh được dịch chuyển được xấp xỉ bởi phép khai triển
Taylor được lượt bớt thành các hạng thức bậc nhất
(2)
ở đây Ix(·,·) và Iy(·,·) biểu thị các đạo hàm từng phần tương ứng theo x
và y. Thế công thức (2) vào (1), ta được:
2.2. Bộ dị Hessian 3D
Cơ sở tốn học:
Trong miền không gian thời gian, mỗi ảnh được biểu diễn dưới dạng
hàm với 3 tham số là x, y, t. Trong đó, (x, y) là tọa độ của điểm ảnh và t l
Bộ dị Hessian 3D tìm kiếm các vị trí ảnh mà biểu hiện sự biến đổi mạnh
theo ba hướng trực giao. Nó dựa trên ma trận đạo hàm bậc hai Hessian:
Biểu diễn không gian tỉ lệ trong miền khơng gian - thời gian của tín hiệu
với
Xây dựng biểu diễn từ đạo hàm của tín hiệu trong khơng gian tỉ lệ không
gian - thời gian:
7
Đồ án môn xử lý ảnh và thị giác máy tinh
Chuẩn hóa:
Cường độ sáng của các điểm trọng yếu được tính bằng định thức của ma
trận Hessian:
Bộ dị tính các đạo hàm bậc hai cho mỗi điểm ảnh và sau đó tìm ra các
điểm có định thức của Hessian lớn nhất như là điểm trọng yếu không gian
thời gian.
Giải thuật phát hiện điểm trọng yếu bằng bộ dò Hessian 3D
2.3. Bộ dò Harris-Affine 3D
2.4. Bộ dò Hessian-Affine 3D
3. Khảo sát đặc trưng quanh điểm trọng yếu không gian thời gian
3.1. Đặc trưng 3D SIFT
3.2. Đặc trưng MoSIFT
Cơ sở toán học:
Giải thuật phát hiện và mô tả đặc trưng MoSIFT:
3.3. Đặc trưng HOG3D
3.4. Đặc trưng Trajectories
4. Mơ hình giỏ đặc trưng
5. Biểu diễn ảnh thông qua các đặc trưng dựa vào mơ hình giỏ đặc trưng
8
Đồ án môn xử lý ảnh và thị giác máy tinh
PHẦN 3: KẾT LUẬN
9
Đồ án môn xử lý ảnh và thị giác máy tinh
Tài liệu tham khảo
[1] Ming-Yu Chen, Alexander Hauptmann, MoSIFT: Recognizing Human
Actions in Surveillance Videos, 9-2009
[2]
[3]
[4]
10