Tải bản đầy đủ (.docx) (10 trang)

freak.docx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (296.83 KB, 10 trang )

FREAK: Fast Retina Keypoint
Tìm hiểu và trình bày về descriptor FREAK.
( />sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&ved=0CB8QFjAA&url=http%3A%2F
%2Finfoscience.epfl.ch%2Frecord%2F175537%2Ffiles%2F2069.pdf&ei=-
6aIUIzkMcuYiAft5oDoCg&usg=AFQjCNHAbgDDw5CNRcwujx1up9nPlCTd7Q)
1. Là gì ? Dùng để làm gì ?
2. So với các descriptor khác thì nó tốt/ xấu ( tham khảo ) />of-three-descriptors-surf-freak-and-brisk/
3. Chương trình demo />I. Giới thiệu :
Hiện nay có rất nhiều các ứng dụng nhận dạng qua các kết nối keypoint hình
ảnh có độ tin cậy cao. Thập kỷ vừa qua là một cuộc đua để tìm ra các keypoint nhanh
hơn ,mạnh mẽ hơn và điển hình là các thuật toán : Scale In-variant Feature Transform
(SIFT) , Speed-up Robust Feature (SURF) , Binary Robust Invariant Scalable Keypoints
(BRISK).
Ngày nay ,việc triển khai các thuật toán nhận dạng trên điện thoại thông minh và
được nhúng vào các thiết bị với bộ nhớ ít và độ phức tạp tính toán được nâng lên : mục
đích là nhận diện nhanh để tính toán và nhỏ gọn hơn.
Tác giả đề xuất một mô tả Keypoint lấy cảm hứng từ hệ thống thị giác của con
người và chính xác hơn là võng mạc, để tạo ra nhanh Keypoint (Freak). Một tác động
nối tiếp các chuỗi nhị phân được tính bằng hiệu quả so sánh cường độ hình ảnh trên
một mô hình lấy mẫu võng mạc. Qua thực nghiệm cho thấy thuật toán Freak tính toán
nhanh hơn với chiếm dung lượng bộ nhớ thấp hơn và mạnh hơn so với SURF hay
BRISK. Chúng là những lựa chọn thay thế để cạnh tranh keypoint có sẵn đặc biệt đối
với các ứng dụng nhúng.
1. Nhận diện Keypoint :
Keypoint : Là vị trí (điểm ảnh) được lấy ra trên ảnh. Nghĩa là điểm đó có thể có các
đặc trưng bất biến với việc quay ảnh, co giãn ảnh hay thay đổi cường độ chiếu sáng
của ảnh.
Một giải pháp đầu tiên là xem các góc như là keypoints. Harris và Stephen đã đề
xuất phương pháp dò góc Harris. Mikolajczyk và Schmid đã làm cho nó có tỉ lệ không
đổi. Một phương pháp khác là sử dụng vùng cực trị trong những phản ứng của các bộ
lọc nhất định như những keypoints tiềm năng. Lowe lọc hình ảnh với Difference of


Gaussians (DoG). Ebrahimi và Mayol - Cuevas trong quá trình tăng tốc tìm kiếm bằng
cách bỏ qua các tính toán của bộ lọc phản ứng nếu phản ứng cho các điểm ảnh trước
đó là rất thấp. Sau đó là một thuật toán khá nhanh để xác định vị trí keypoint ,đó là
thuật toán BRISK được đề xuất bởi Leutenegger, chúng tìm kiếm toàn bộ trong không
gian tỉ lệ bằng cách sử dụng số điểm FAST như một điểm nổi bật. Tác giả cũng dùng
một thuật toán giống như vậy để đánh giá thuật toán FREAK của họ.
2. Descriptors SIFT
Khi keypoint nằm trong vùng, tác giả đang quan tâm đến mô tả các đường nối hình
ảnh với một vector tính năng mạnh mẽ. Nổi tiếng nhất là descriptors SIFT. 128 chiều
vector được lấy từ một mạng lưới các biểu đồ theo định hướng độ dốc. Nó có khả năng
mô tả cao và mạnh mẽ để thay đổi phương chiếu sáng được dùng để mô tả Keypoint
trong thập kỷ qua. Một tập hợp của descriptor SIFT đã từng nổi bật trong những năm
qua. PCA-SIFT làm giảm kích thước mô tả vector từ 128 về 36 bằng cách sử dụng
chính thành phần phân tích. Thời gian nối được giảm , nhưng thời gian để xây dựng
các mô tả tăng lên dẫn đến tốc độ tăng lên nhỏ và có sự mất mát về tính khác biệt.
Descriptor GLOH là một phần mở rộng của descriptor SIFT có nhiều sự khác biệt,
nhưng cũng mất nhiều chi phí để tính toán. Ambai and Yoshida đề xuất Compact And
Real-time Descriptors (CARD) nhưng cũng không mang lại hiệu quả. Sau đó người ta
dùng SURF, nó nhanh hơn SIFT nhưng đặc điểm vector vẫn có quá nhiều tỉ lệ lớn.
3. Difference of Gaussians (DoG)
Theo các công bố của Koenderink (1984) và Lindeberg(1994) thì hàm Gaussian là
hàm tốt nhất để biễu diễn không gian đo của ảnh 2 chiều. Vì vậy, không gian đo của
một ảnh sẽ được định nghĩa như là một hàm L(x,y,σ) được tạo ra bằng cách nhân chập
ảnh gốc l(x,y) với môt hàm Gaussian G(x,y,σ) có tham số về số đo σ thay đổi.
L(x,y,σ) = G(x,y,σ) * I(x,y)
Trong đó toán hạng * là phép nhân chập các ma trận 2 chiều x,y. Và G(x,y, σ) hàm
Gaussian :
G(x,y,σ) =
Để tìm những điểm đặc trưng có tính bất biến cao, thuật toán được sử dụng là tìm
cực trị cục bộ của hàm sai khác DoG (Difference-of-Gaussian), kí hiệu là D(x,y,σ ). Hàm

này được tính toán từ sự sai khác giữa 2 không gian đo cạnh nhau của một ảnh với
tham số đo lệch nhau một hằng số k.
D(x,y,σ) = L(x,y,kσ) – L(x,y,σ) = (G(x,y,kσ) – G(x,y,σ)) * I(x,y)
Các lý do lựa chọn hàm Gaussian là vì nó là kỹ thuật rất hiệu quả để tính toán L
(cũng như làm tăng độ mịn của ảnh), mà L thì luôn phải được tính rất nhiều để mô tả
đặc trưng trong không gian đo, và sau đó, D sẽ được tính một cách đơn giản chỉ với
phép trừ ma trận điểm ảnh với chi phí thực hiện thấp.
Sau khi áp dụng hàm DoG ta thu được các lớp kết quả khác nhau (scale) từ ảnh
gốc, bước tiếp theo là tìm các cực trị trong các lớp kết quả theo từng miền cục bộ. Cụ
thể là tại mỗi điểm trên các lớp kết quả sẽ được so sánh với 8 điểm lân cận trên cùng
lớp và 9 điểm lân cận trên mỗi lớp khác (hình dưới).
Quá trình tìm điểm cực trị trong các hàm sai khác DoG
Trong hình trên: điểm đánh dẫu x sẽ được so sánh với 26 điểm lân cận (đánh dấu
vòng tròn xanh). Điểm này sẽ được lấy làm điểm tiềm năng (điểm có thể làm điểm đặc
biệt – candidate keypoint) nếu nó có giá trị lớn nhất hoặc nhỏ nhất so với 26 điểm lân
cận như trên.
II. Human retina
1. Sự phát triển.
Trong các tài liệu đã trình bày, tác giả đã thấy rằng thời gian qua đã cho thấy sự
tiến bộ trong hình ảnh đại diện đơn giản với cường độ so sánh các cặp của các điểm
ảnh có thể đủ tốt để mô tả và phù hợp với các đường nối hình ảnh.
Y học đã thực hiện rất nhiều tiến bộ trong việc hiểu hệ thống thị giác và làm thế nào
hình ảnh được truyền tới não. Người ta tin rằng võng mạc con người trích ra từ các chi
tiết từ các hình ảnh bằng cách sử dụng Difference of Gaussians (DoG) với kích thước
khác nhau và mã hóa khác biệt với hành động. Cấu trúc liên kết của võng mạc đóng
một vai trò rất quan trọng. Tác giả bắt chước cùng một chiến lược để thiết kế hình ảnh
mô tả của họ.
2. Sự tương đồng: từ võng mạc tế bào nhận ánh sáng đến các điểm ảnh.
Cấu trúc liên kết và mã hóa không gian của võng mạc rất thú vị. Đầu tiên, một số tế
bào nhận kích thích ánh sáng ảnh hưởng đến ô trung tâm. Khu vực nơi ánh sáng ảnh

hưởng đến các phản ứng của một ô trung tâm là trường tiếp nhận. Kích thước và dạng
hình cây của các trường tăng lên với khoảng cách bán kính từ hố nhỏ. Sự phân bố
không gian của các ô trung tâm giảm theo hàm mũ với khoảng cách đến các foveal.
Chúng được chia thành bốn vùng: foveal , fovea , parafoveal , và perifoveal. Mỗi khu
vực đóng một vai trò trong quá trình phát hiện và nhận diện đối tượng kể từ khi độ phân
giải cao hơn lấy được trong fovea khi mà một hình ảnh rõ nét được hình thành trong
perifoveal. Sự sụt giảm độ phân giải là để tối ưu hóa nguồn lực một vật thể.
III. FREAK
1. Lấy mẫu retinal
Nhiều mẫu lưới có thể so sánh cường độ của cặp điểm ảnh. BRIEF và ORB sử
dụng cặp ngẫu nhiên. BRISK sử dụng một mô hình vòng tròn có điểm là khoảng cách
đều nhau trên vòng tròn đồng tâm, tương tự như DAISY. Tác giả đề xuất sử dụng
khung lưới vòng quanh retinal với sự khác biệt của việc mật độ dày đặc ở gần những
điểm trung tâm.
Mỗi điểm lấy mẫu cần được làm trơn với độ nhiễu ít. BRIEF và ORB sử dụng
cùng một nhân cho tất cả đường nối các điểm. Để nối với mô hình retinal, tác giả sử
dụng nhiều nhân có kích thước khác nhau cho mỗi điểm mẫu, tương tự BRISK. Sự
khác biệt với BRISK là kích thước thay đổi theo cấp số nhân và sự chồng chéo về các
trường tiếp nhận. Mỗi vòng tròn đại diện cho độ lệch chuẩn của các nhân Gaussian áp
dụng cho các điểm lấy mẫu tương ứng.
Hình 1 - minh họa cấu trúc liên kết của các trường tiếp nhận
Tác giả đã thử nghiệm và thấy rằng sự thay đổi kích thước của các nhân
Gaussian đối với mô hình biểu đồ cực retinal dẫn đến hiệu suất tốt hơn. Ngoài ra,
chồng chéo lên các trường tiếp nhận cũng làm tăng hiệu suất. Một nguyên nhân có thể
xảy ra là với sự chồng chéo được trình bày trong hình trên là có thêm thông tin được
tạo ra. Tác giả cho biết sự dư thừa này mang lại nhiều hiệu năng rõ ràng. Ta xét cường
độ I
i
đo tại các trường tiếp nhận A, B, và C :
IA > IB, IB > IC, and IA > IC (1)

Nếu các trường không bị chồng chéo thì kết quả cuối cùng IA>IC ,không có thêm
nhiều thông tin rõ ràng. Tuy nhiên, nếu các trường chồng chéo với nhau, một phần
thông tin mới có thể được mã hóa. Nhìn chung, thêm phần dư thừa cho phép tác giả sử
dụng ít trường tiếp nhận là một chiến lược dùng để nén hoặc từ điển học tập. Theo
Olshausen và Field, phần dư thừa cũng tồn tại trong trường tiếp nhận của retinal.
2. Hoàn thiện descriptor
Tác giả xây dựng mô tả nhị phân F bởi các giới hạn của sự khác biệt giữa các
cặp của các trường tiếp nhận với nhân Gaussian tương ứng .Nói cách khác, F là một
chuỗi nhị phân hình thành bởi chuỗi 1-bit Difference of Gaussians ( DoG ):
P
a
là một cặp của các trường tiếp nhận, N là kích thước muốn mô tả , và
Với I(
P
a
T 1
) là cường độ đều đặn của trường tiếp nhận đầu tiên của cặp P
a
Với nhiều trường tiếp nhận, hàng nghìn cặp có thể dẫn đến một descriptor lớn.
Tuy nhiên, nhiều cặp không có hiệu quả hữu dụng để mô tả một hình ảnh. Một chiến
lược có thể chọn cặp khoảng cách cho không gian của chúng tương tự như BRISK.
Tuy nhiên, các cặp được lựa chọn có thể liên quan chặt chẽ và không phân biệt. Do đó,
tác giả chạy một thuật toán tương tự như ORB để tìm hiểu cặp tốt nhất từ dữ liệu huấn
luyện:

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×