Tải bản đầy đủ (.doc) (19 trang)

Đề tài: Nhận dạng tổng thể đối tượng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (873.81 KB, 19 trang )

Đề tài NCKH sinh viên 1 Nhận dạng đối tượng
THÔNG TIN CHUNG VỀ ĐỀ TÀI
1. Tên đề tài: Nhận dạng tổng thể đối tượng
2. Cấp dự thi: Cấp Bộ
3. Nhóm sinh viên thực hiện:
STT Họ tên sinh viên Lớp, khoa Vai trò
1 Lê Đình Trường ĐH Tin K10B, Khoa CNTT-TT Nhóm trưởng
2 Lê Văn Hào ĐH Tin K10B, Khoa CNTT-TT Nhóm viên
3 Lê Ngọc Thanh ĐH Tin K10B, Khoa CNTT-TT Nhóm viên
4. Giáo viên hướng dẫn:
- ThS. Trương Thế Chuyên, Trưởng bộ môn khoa học máy tính, khoa CNTT-TT.
- Đồng hướng dẫn: ThS. Phạm Thế Anh, ThS. Lê Đình Danh, khoa CNTT-TT.
5. Thời gian thực hiện: 6 tháng (từ tháng 11/2010 đến tháng 5/2011).
6. Cơ quan quản lý đề tài: Trường Đại học Hồng Đức.
7. Đơn vị chủ trì đề tài: Khoa công nghệ thông tin và truyền thông
BẢNG CÁC KÍ HIỆU, CHỮ VIẾT TẮT DÙNG TRONG BÁO CÁO
Kí hiệu, chữ viết tắt Được hiểu là
CSDL Cơ sở dữ liệu
SIFT Scale-invariant feature transform
DoG Diffirence of Gaussian
NC Nghiên cứu
Object Recoginition
Đề tài NCKH sinh viên 2 Nhận dạng đối tượng
MỤC LỤC
Mục Tên chương, mục và tiểu mục Trang
Thông tin chung về đề tài 01
Mục lục 02
Mở đầu 03
I Sự cần thiết của đề tài 04
II Mục tiêu của đề tài 04
III Ý nghĩa khoa học, tính thực tiễn và khả năng ứng dụng 04


IV Nội dung nghiên cứu 04
1 Tổng quan về SIFT 05
2 Nội dung Giải thuật 07
2.1 Dò tìm cực trị cục bộ 07
2.2 Trích xuất keypoint 10
2.3 Gắn hướng cho các keypoint 12
2.4 Tạo bộ mô tả cục bộ 13
3 Kĩ thuật đối sánh 14
4 Những đề xuất cải tiến, phát triển giải thuật SIFT 14
V Kết quả 15
VI Kết luận 18
VII Tài liệu tham khảo 18
Object Recoginition
Đề tài NCKH sinh viên 3 Nhận dạng đối tượng
MỞ ĐẦU
Xử lí ảnh số (DIP - Digital Image Processing) nói chung và nhận dạng đối
tượng (Object Recognition) nói riêng, đã và đang được ứng dụng rất nhiều. Nó trải
rộng trên mọi mặt trong cuộc sống từ xử lí các bản in ấn, báo, bìa tạp chí đến vấn đề
về năng lực nhìn trong máy học, đôi khi nó rất gần gũi trong cuộc sống hàng ngày mà
nhiều người không nhận ra như chức năng nhận dạng khuôn mặt, đối tượng chuyển
động trong các máy ảnh, máy quay phim hay đơn giản là chức năng camera của điện
thoại đi động cũng được tích hợp các công cụ xử lí ảnh và nhận dạng đối tượng. Đề
cập sâu hơn vào vấn đề nhận dạng đối tượng là các bài toán cụ thể như nhận dạng
dấu vân tay, nhận dạng khuôn mặt, nhận dạng chữ viết. Các bài toán này được ứng
dụng rất nhiều trong nhận dạng đối tượng hình sự, phục vụ điều tra, kiểm chứng.
Từ những ứng dụng rộng rãi như vậy mà tại các tổ chức, các trung tâm nghiên
cứu của các trường đại học trên thế giới, các đề tài về xử lí ảnh luôn được đầu tư
nhiều về vật chất lẫn thời gian. Tuy trong nước, ở các năm gần đây mặc dù các
nghiên cứu về xử lí ảnh và nhận dạng đối tượng phát triển mạnh nhưng thông qua các
cuộc hội thảo quốc gia thì vấn đề này chưa nhận được nhiều kết quả như mong đợi và

cần đầu tư nhiều hơn nữa.
Trong vấn đề cụ thể nhận dạng đối tượng thì ngày nay hướng nghiên cứu phổ
biến trên thế giới là việc sử dụng các điểm bất biến (Invarian Feature) trong ảnh làm
đặc trưng (Keypoint) để nhận dạng. Tiêu biểu nhất trong các thuật toán đối sánh sử
dụng keypoint dạng này là thuật toán SIFT (Scale-Invarian Feature Transform, David
Lowe 1999 và 2004), SIFT có thể coi là thuật toán tiền đề cho các ứng dụng cũng
như giải thuật khác về biến đổi đặc trưng bất biến trong ảnh. Các giải thuật đang ứng
dụng trong thực tế khác đều dựa trên hay phát triển theo các nhánh riêng của SIFT.
Các đặc trưng trong SIFT không phụ thuộc vào các phép biến đổi ảnh cơ bản
như xoay, thu phóng, thay đổi độ sáng... nên có thể xem tập các đặc trưng của một
ảnh là thể hiện cho nội dung của ảnh đó. Vì vậy kết quả của việc nhận dạng sẽ có độ
chính xác rất cao và thậm chí có thể khôi phục được đối tượng bị che khuất trong
Object Recoginition
Đề tài NCKH sinh viên 4 Nhận dạng đối tượng
ảnh. Tuy nhiên giải thuật SIFT rất phức tạp trong cài đặt, đòi hỏi thời gian nghiên
cứu và am hiểu nhiều thuật toán thành phần.
Trong phạm vi đề tài, em đã tìm hiểu sâu từng bước của giải thuật SIFT và
thực hiện cài đặt thành công giải thuật và ứng dụng vào nhận dạng đối tượng tùy biến
trong cơ sở dữ liệu đặc trưng được trích chọn từ ảnh.
I. Sự cần thiết của đề tài
Mặc dù được ứng dụng nhiều trên thế giới nhưng trong nước việc tìm hiểu và
cài đặt các thuật toán nhận dạng sử dụng keypoint đang còn hạn chế, hiện tại rất
hiếm các đề tài, công trình nghiên cứu, tài liệu tiếng Việt về vấn đề này. Vì vậy việc
tìm hiểu, hoàn thành cài đặt cơ bản thuật toán là cần thiết.
II. Mục tiêu nghiên cứu
Chúng em thực hiện đề tài với mục tiêu chính là tìm hiểu, nắm rõ thuật toán
SIFT và kĩ thuật dò tìm đặc trưng bất biến. Sau đó, dựa theo những điều tìm hiểu
được, chúng em sẽ cài đặt từng phần của thuật toán và viết tài liệu tiếng Việt cùng mã
nguồn nêu những hiểu biết đầy đủ về giải thuật SIFT.
III. ý nghĩa khoa học, tính thực tiễn và khả năng ứng dụng

Hiện nay trên thế giới đã và đang có những bước tiến nhanh trong lĩnh vực tra
cứu ảnh dựa trên nội dung, tuy nhiên việc nghiên cứu, ứng dụng các thành quả này ở
trong nước còn rất khiêm tốn. Về ý nghĩa khoa học thì đề tài tìm hiểu về những thuật
toán mạnh nhất hiện nay về trích chọn đặc trưng và từ những bước tìm hiểu đó để đề
xuất giải pháp cải thiện chi phí tính toán nhưng vẫn giữ được độ chính xác cần thiết.
Từ việc hiểu và cài đặt những thuật toán mạnh trên, sẽ thực hiện xây dựng một
chương trình hoàn chỉnh để có thể đối sánh tính tương đồng các đối tượng trong các
ảnh khác nhau hoặc tìm kiếm đối tượng trong CSDL lớn các ảnh.
IV. Nội dung nghiên cứu
Nội dung nghiên cứu của đề tài bao gồm:
Object Recoginition
Đề tài NCKH sinh viên 5 Nhận dạng đối tượng
- Tìm hiểu các thuật toán nhận dạng đối tượng sử dụng đặc trưng bất biến,
trong đó trọng tâm là thuật toán SIFT.
- Thực hiện cài đặt thuật toán SIFT và xây dựng chương trình nhận dạng đối
tượng sử dụng SIFT.
Sau đây chúng em xin trình bày cụ thể nội dung nghiên cứu của đề tài.
1. Tổng quan về SIFT
Một thuật toán tiêu biểu và có hiệu quả khá cao là dựa theo các đặc trưng cục
bộ bất biến trong ảnh: SIFT (Scale-invariant Feature Transform) do David Lowe đưa
ra từ năm 2004 và đến nay đã có nhiều cải tiến trong thuật toán. Đặc trưng được trích
chọn trong SIFT là các điểm đặc biệt (keypoint), các điểm này kèm theo các mô tả về
nó và một véc tơ có lấy keypoint làm điểm gốc.
Có bốn giai đoạn chính được thực hiện trong thuật toán để trích xuất các điểm
đặc biệt và các đặc trưng của nó bao gồm:
a. Dò tìm cực trị trong không gian đo (Scale-space Extrema Detection): Bước
đầu tiên này sẽ áp dụng hàm sai khác Gaussian (DoG - Deffirence of
Gaussisan) để tìm ra các điểm có khả năng làm điểm đặc trưng tiềm năng
(candidate keypoints), đó là những đểm rất ít phụ thuộc (bất biến) vào sự thu
phóng ảnh và xoay ảnh.

b. Lọc và trích xuất các điểm đặc biệt (Keypoint localization): Từ những điểm
tiềm năng ở trên sẽ lọc và lấy ra tập các điểm đặc trưng tốt nhất (keypoints).
c. Gán hướng cho các điểm đặc trưng (Oriented Assignment): Mỗi điểm đặc
trưng sẽ được gán cho một hoặc nhiều hướng dựa trên hướng gradient của
ảnh. Mọi phép toán xử lý ở các bước sau này sẽ được thực hiện trên những dữ
liệu ảnh mà đã được biến đổi tương đối so với hướng đã gán, kích cỡ và vị trí
của mỗi điểm đặc trưng. Nhờ đó, tạo ra một sự bất biến trong các phép xử lý
này.
d. Bộ mô tả điểm đặc trưng (Keypoint Description): Các hướng gradient cục bộ
được đo trong ảnh có kích cỡ cụ thể nào đó trong vùng lân cận với mỗi điểm
đặc trưng. Sau đó, chúng sẽ được biễu diễn thành một dạng mà cho phép mô
Object Recoginition
Đề tài NCKH sinh viên 6 Nhận dạng đối tượng
tả các tầng quan trọng của quá trình bóp méo hình dạng cục bộ và sự thay đổi
về độ sáng.
Tập các điểm đặc biệt thu được thường phụ thuộc rất ít vào các phép biến đổi
cơ bản như xoay, phóng to, thu nhỏ, tăng giảm cường độ sáng, vì vậy có thể xem đây
là các đặc trưng mang tính cục bộ của ảnh. Để đối sánh và nhận dạng hai ảnh thì ta
tìm tập keypoint giống nhau trong hai ảnh, dựa vào hướng và tỉ lệ để có thể biết đối
tượng trong ảnh gốc đã xoay, thu phóng bao nhiêu so với ảnh đem đối sánh. Cách
tiếp cận của thuật toán này dựa vào điểm bất biến cục bộ của ảnh, chúng được trích
xuất ra, được định hướng và mô tả sao cho hai keypoint ở hai vùng khác nhau thì
khác nhau. Tuy nhiên một yếu tố ảnh hưởng không nhỏ đến tốc độ thuật toán là số
lượng các keypoint được lấy ra là không nhỏ. Trung bình một ảnh kích thước 500 x
500 pixels thì sẽ trích xuất được khoảng 1000 điểm (số lượng điểm này phụ thuộc
vào tùy từng ảnh và tham số lọc khác nhau). Số lượng các điểm đặc trưng có một tầm
quan trọng trong vấn đề nhận dạng đối tượng, để nhận dạng một đối tượng nhỏ trong
một ảnh chứa tập hợp các đối tượng hỗn độn thì cần ít nhất 3 điểm đặc trưng giống
nhau để phát hiện và và bóc tách đối tượng.
Đối với vấn đề xây dựng một cơ sở dữ liệu ảnh và thực hiện nhận dạng đối

tượng bất kì thì ban đầu thường sử dụng SIFT để tạo một hệ dữ liệu các đặc trưng
(keypoints) được trích xuất từ dữ liệu ảnh gốc. Sau đó với mỗi ảnh đối tượng đem
nhận dạng ta dùng giải thuật SIFT trích xuất tập đặc trưng từ ảnh và đem đối sánh với
hệ dữ liệu đặc trưng để tìm ra tập keypoint giống nhau, từ đó nhận dạng đối tượng
trong cơ sở dữ liệu ảnh ban đầu. Tuy nhiên việc đối sánh này cần chi phí đối sánh rất
lớn đối với cơ sở dữ liệu ảnh có số lượng lớn do số lượng các đặc trưng ở mỗi ảnh là
lớn.
Object Recoginition
Đề tài NCKH sinh viên 7 Nhận dạng đối tượng
Hình 1: Minh họa các bước chính trong giải thuật SIFT
2. Nội dung giải thuật
2.1. Dò tìm cực trị cục bộ
Như đã nêu ở trên, bước đầu tiên sẽ tìm các điểm tiềm năng có thể trở thành
điểm đặc trưng bằng phương pháp lọc theo tầng dựa vào việc thay đổi tham số bộ lọc
Gaussisan. Trong bước này, ta cần dò tìm các vị trí và các số đo (kích cỡ) mà chúng
bất biến trong các khung nhìn khác nhau của cùng một đối tượng. Các vị trí đó bất
biến về số đo có thể được dò tìm bằng cách tìm kiềm các đặc trưng ổn định trên toàn
bộ các số đo có thể, sử dụng một hàm liên tục về số đo vốn rất nổi tiếng có tên là
hàm không gian đo (Witkin 1983).
Theo các công bố của Koenderink (1984) và Lindeberg(1994) thì hàm
Gaussian là hàm tốt nhất để biễu diễn không gian đo của ảnh 2 chiều. Vì vậy, không
gian đo của một ảnh sẽ được định nghĩa như là một làm L(x,y,ó) được tạo ra bằng
cách nhân chập ảnh gốc I(x,y) với môt hàm Gaussian G(x,y,ó) có tham số về số đo ó
thay đổi.
L(x,y,ó) = G(x,y, ó) * I(x,y) (2.1.1)
Trong đó toán hạng * là phép nhân chập các ma trận 2 chiều x,y. Và G(x,y, ó)
hàm Gaussian :
Object Recoginition

×