Tải bản đầy đủ (.pdf) (107 trang)

Thiết kế hệ thống nhúng nhận dạng vật thể với phương pháp kết hợp so khớp spatial pyramid và vec tơ hỗ trợ svm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.64 MB, 107 trang )

-

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-------------------------

LÝ NGUYÊN VƯƠNG

THIẾT KẾ HỆ THỐNG NHÚNG NHẬN DẠNG VẬT THỂ VỚI
PHƯƠNG PHÁP KẾT HỢP SO KHỚP SPATIAL PYRAMID VÀ
VEC-TƠ HỖ TRỢ SVM

Chuyên ngành: Kỹ thuật Điện Tử
Mã số:

60520203

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 01 năm 2017


-i-

CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học : PGS.TS Hoàng Trang.
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 1 : GS.TS. Lê Tiến Thường
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 2 : TS. Bùi Trọng Tú


(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCM ngày 05 tháng 01 năm 2017
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1. TS. Lê Chí Thơng
2. TS. Trương Quang Vinh
3. GS. TS. Lê Tiến Thường
4. TS. Bùi Trọng Tú
5. TS. Trương Công Dung Nghi
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA ĐIỆN-ĐIỆN TỬ


-iiĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH

CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Độc lập – Tự do – Hạnh phúc.

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: LÝ NGUYÊN VƯƠNG

MSHV: 7140023


Ngày, tháng, năm sinh: 02/09/1991

Nơi sinh: Quảng Ngãi

Chuyên ngành: Kỹ Thuật Điện Tử

Mã số: 60520203

I.

TÊN ĐỀ TÀI: THIẾT KẾ HỆ THỐNG NHẬN DẠNG VẬT THỂ VỚI
PHƯƠNG PHÁP KẾT HỢP SO KHỚP SPATIAL PYRAMID VÀ VEC-TƠ
HỖ TRỢ SVM

II.

NHIỆM VỤ VÀ NỘI DUNG:
1. Tìm hiểu mơ hình giải thuật Bag of Word và mơ hình máy học vec-tơ hỗ
trợ SVM với phương pháp so khớp phân cấp “Spatial Pyramid
Matching”.
2. Xây dựng hệ thống nhận dạng vật thể trên máy tính cá nhân.
3. Xây dựng hệ thống nhận dạng vật thể trên BeagleBone Black.

III.

NGÀY GIAO NHIỆM VỤ:

IV.

NGÀY HOÀN THÀNH NHIỆM VỤ: 05/01/2017


V.

11/01/2016

CÁN BỘ HƯỚNG DẪN: PGS.TS Hoàng Trang

Tp. HCM, ngày 05 tháng 01 năm 2017
CÁN BỘ HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

(Họ tên và chữ ký)

(Họ tên và chữ ký)

TRƯỞNG KHOA ĐIỆN ĐIỆN TỬ
(Họ tên và chữ ký)


-iii-

LỜI CẢM ƠN

Em xin gửi lời cảm ơn chân thành đến PGS.TS. Hoàng Trang. Thầy đã hướng
dẫn và hỗ trợ em trong quá trình thực hiện luận văn. Thầy đã cung cấp cho em
nhiều kinh nghiệm quý báo trong quá trình nghiên cứu cũng như thực hiện luận văn.
Em cũng gửi lời cám ơn đến quý thầy cô bộ môn Điện tử trường Đại học Bách
Khoa TP. Hồ Chí Minh đã tạo điều kiện để em có thể hồn thành luận văn.
Tôi cám ơn các tác giả của các bài viết mà tôi đã tham khảo đã cung cấp cho

tôi những thông tin rất khoa học và hữu ích giúp tôi thực hiện luận văn.
Tôi cũng xin cảm ơn các bạn nghiên cứu viên, học viên và các bạn sinh viên
đang thực hiện cơng việc nghiên cứu tại phịng 116/B1 (IC design LAB) các bạn đã
hỗ trợ và giúp đỡ tôi trong công việc.
Tôi gửi lời cám ơn đến gia đình, bạn bè, mọi người đã giúp đỡ, động viên tơi
trong suốt q trình thực hiện luận văn.

TP. Hồ Chí Minh, 19/12/2016
Học viên
Lý Nguyên Vương


-iv-

TÓM TẮT LUẬN VĂN THẠC SĨ

Luận văn nhận diện vật thể trong ảnh dựa trên mơ hình Bag of word kết hợp
so khớp Spatial Pyramid. Quá trình huấn luyện sử dụng đặc trưng Sift (Scaleinvariant feature transform) để xây dựng bộ từ điển theo mơ hình Bag of word. Q
trình nhận dạng ảnh sử dụng phương pháp Spartial Pyramid kết hợp SVM (Support
Vector Machine) để phân loại ảnh vào các lớp vật thể cần nhận dạng. Số lớp vật thể
trong luận văn là 6 lớp. Ngoài ra luận văn còn sử dụng phương pháp sliding window
để đọc thông tin từ các vùng trong ảnh nhằm tìm kiếm vị trí của vật thể trong ảnh.
Luận văn thực hiện thử nghiệm huấn luyện và nhận diện ảnh với các kích thước từ
điển khác nhau và các mức phân cấp nhận dạng khác nhau để đánh giá sự ảnh
hưởng của hai thông số này đến kết quả nhận dạng.
Luận văn thực hiện xây dựng chương trình nhận dạng vật thể trên máy tính cá
nhân với hệ điều hành Ubuntu cùng với công cụ lập trình QT Creator, sử dụng ngơn
ngữ C++ với sự hỗ trợ của thư viện OpenCV. Bên cạnh đó luận văn cũng tìm hiểu
và xây dựng chương trình trên hệ thống nhúng BeagleBone Black.



-v-

LỜI CAM ĐOAN

Tôi xin cam đoan:
Tôi là người thực hiện luận văn này dưới sự hướng dẫn của thầy Hoàng Trang.
Mọi tham khảo trong luận văn tôi đều trích dẫn rõ ràng tên tác giả, cơng trình,
và thời gian phát hành.
Mọi sao chép, gian dối vi phạm quy chế tôi xin chịu trách nhiệm.

Tp. Hồ Chí Minh, ngày 19 tháng 12 năm 2016
Học viên
Lý Nguyên Vương


-vi-

MỤC LỤC
LỜI CẢM ƠN................................................................................................... iii
Chương 1: TỔNG QUAN ................................................................................1
1.1

Tình hình nghiên cứu...........................................................................1

1.2

Tổng quan về hệ thống nhận dạng vật thể ...........................................2

1.3


Bố cục của luận văn.............................................................................4

Chương 2: CƠ SỞ LÝ THUYẾT.....................................................................5
2.1

Bài toán nhận dạng ảnh .......................................................................5

2.2

Các hướng tiếp cận trong bài toán nhận dạng .....................................5

2.3

Các phương pháp trích chọn đặc trưng ...............................................7

2.3.1 Đặc trưng màu sắc...........................................................................8
2.3.2 Đặc trưng kết cấu ............................................................................9
2.3.3 Đặc trưng hình dạng ......................................................................10
2.3.4 Đặc trưng cục bộ bất biến SIFT ....................................................11
2.4

Chia cụm K-mean ..............................................................................15

2.5

Bag of Words .....................................................................................18

2.6


Phương pháp nhận dạng SVM (Support Vector Machine) ...............21

2.6.1 SVM tuyến tính .............................................................................22
2.6.2 SVM khơng tuyến tính ..................................................................24
2.6.3 Lề mềm (soft margin) ...................................................................25
2.7

So khớp không gian phân cấp (SPM) ................................................26

2.7.1 So khớp phân cấp (Partial Matching) ...........................................26
2.7.2 So khớp không gian phân cấp (SPM) ...........................................28
2.8

Sliding Window: ................................................................................29

2.9

Sơ lược về OpenCV: .........................................................................30


-vii-

2.9.1 Đặc trưng Sift và chia cụm K mean: .............................................31
2.9.2 Phân loại vật thể (Object Categorization): ....................................32
2.9.3 Máy học vector (SVM): [8] ..........................................................33
2.10

Hệ thống nhúng .................................................................................35

2.10.1 Hệ điều hành nhúng Angstrong ..................................................35

2.10.2 Hệ thống phần cứng ....................................................................36
Chương 3: THỰC HIỆN HỆ THỐNG...........................................................38
3.1

Tổng quan: .........................................................................................38

3.2

Tập dữ liệu dùng để nhận dạng và huấn luyện ..................................40

3.3

Phương pháp Bag of word kết hợp sliding window ..........................40

3.3.1 Quá trình huấn luyện:....................................................................40
3.3.2 Nhận dạng .....................................................................................48
3.4

Phương pháp Bag of word kết hợp Spatial Pyramid Matching.........55

3.4.1 Quá trình huấn luyện .....................................................................55
3.4.2 Quá trình nhận dạng: .....................................................................60
Chương 4: XÂY DỰNG HỆ THỐNG TRÊN BEAGLEBONE BLACK .....62
4.1

Sơ đồ hệ thống ...................................................................................62

4.2

Xây dựng hệ điều hành nhúng ...........................................................63


4.2.1 Phân vùng ổ đĩa .............................................................................63
4.2.2 U-Boot Bootloader ........................................................................65
4.2.3 Boot Script ....................................................................................66
4.2.4 Linux Kernel .................................................................................67
4.2.5 Root file system sử dụng buildroot ...............................................68
4.2.6 Booting ..........................................................................................68


-viii-

4.2.7 Buildroot cho BBB .......................................................................69
4.2.8 Sử dụng Image file cho BBB ........................................................69
4.3

Biên dịch ứng dụng trên Board .........................................................70

4.3.1 Cài đặt trình biên dịch chéo ..........................................................70
4.3.2 Build Qt .........................................................................................71
4.3.3 Thiết lập Qt Creator để biên dịch với nền tảng Qt Everywhere ...73
Chương 5: KẾT QUẢ ....................................................................................77
5.1

Kết quả đạt được................................................................................77

5.1.1 Hoạt động của chương trình ..........................................................77
5.1.2 Kết quả của chương trình ..............................................................78
5.2

Kết quả thống kê................................................................................80


5.2.1 Kết quả nhận dạng với các kích thước từ điển M khác nhau ........81
5.2.2 Kết quả nhận dạng với các mức phân cấp ....................................82
5.2.3 Kết quả nhận dạng với các kích thước từ điển .............................84
5.2.4 So sánh kết quả của sliding window và SPM ...............................87
5.3

Bàn luận kết quả ................................................................................87

Chương 6: KẾT LUẬN VÀ KIẾN NGHỊ .....................................................89
6.1

Kết luận .............................................................................................89

6.2

Kiến nghị một số hướng nghiên cứu tiếp theo ..................................90

DANH MỤC TÀI LIỆU THAM KHẢO .........................................................91


-ix-

DANH SÁCH HÌNH MINH HỌA

Hình 1-1 Kết quả VOC 2012 ..............................................................................1
Hình 2-1 Quá trình huấn luyện và nhận dạng của hệ thống nhận dạng .............5
Hình 2-2 Góc ở bức ảnh lớn hơn có thể khơng cịn là góc nữa ........................12
Hình 2-3 Tính DoG ở các kích thước khác nhau của ảnh. ...............................12
Hình 2-4 Khảo sát các giá trị DoG để lọc tìm ra điểm đặc biệt. ......................13

Hình 2-5 Ảnh với các điểm Sift. ......................................................................13
Hình 2-6 Vùng có kích thước 16x16 xung quanh điểm đặc biệt. ....................14
Hình 2-7 Vùng lân cận của điểm đặc biệt được chia thành 16 ô nhỏ. .............15
Hình 2-8 Tính gradient hướng ở mỗi vùng con 4x4. .......................................15
Hình 2-9 Các tâm mỗi cụm được chọn ngẫu nhiên. ........................................16
Hình 2-10 Các cụm được hình thành bằng cách tìm tâm gần nhất ..................16
Hình 2-11 Các tâm của mỗi cụm được tính lại là các điểm trung bình của cụm
đó. .....................................................................................................................17
Hình 2-12 Bước 2 và bước 3 lặp lại đến khi bài tốn hội tụ, tức khơng còn sự
thay đổi tâm nữa ...............................................................................................17
Hình 2-13 Mơ hình Bag of Words....................................................................18
Hình 2-14 bộ từ điển hình ảnh hình thành bằng cách chia cụm các mơ tả ......19
Hình 2-15 Hình tượng mơ hình BoW...............................................................20
Hình 2-16 SVM tuyến tính ...............................................................................22
Hình 2-17 Siêu phẳng phân cách hai tập mẫu ..................................................23
Hình 2-18 Bên trái: So khớp cục bộ giữa tập các đặc trưng. Bên phải: So khớp
phân cấp với đầu vào là hai tập véc tơ đặc trưng. ............................................27
Hình 2-19 Lược đồ minh họa biểu diễn khơng gian phân cấp. ........................28
Hình 2-20 Ví dụ xây dựng phân cấp 3 mức .....................................................29
Hình 2-21 Ví dụ phát hiện xe đạp bằng sliding window ..................................29
Hình 2-22 Đặc trưng Sift kết hợp với phương pháp khớp mẫu Brute-Force ...31
Hình 2-23 BeagleBone Black ...........................................................................36
Hình 2-24 Các khối của BBB ...........................................................................37
Hình 3-1 Sơ đồ hệ thống nhận dạng .................................................................38
Hình 3-2 Các khối xử lý chính trong q trình huấn luyện..............................40
Hình 3-3 Các bước xây dựng từ điển Sift ........................................................41
Hình 3-4 Sơ đồ giải thuật tạo từ điển BoW. .....................................................44
Hình 3-5 Các bước huấn luyện SVM. ..............................................................45
Hình 3-6 Sơ đồ giải thuật tạo histogram có gán nhãn ......................................46
Hình 3-7 Các bước trong q trình nhận dạng ảnh từ cửa sổ trượt. .................48

Hình 3-8 Cửa sổ trượt theo phương ngang với bước dịch chuyển là 1ơ. .........49
Hình 3-9 Sơ đồ giải thuật khối sliding window ...............................................50


-x-

Hình 3-10 Sơ đồ giải thuật bước 1, ..................................................................53
Hình 3-11 Sơ đồ giải thuật bước 2 ...................................................................54
Hình 3-12 Các histogram của các mức phân cấp .............................................56
Hình 3-13 Histogram phân cấp mức 2 của ảnh ................................................57
Hình 3-14 Sơ đồ giải thuật tạo histogram phân cấp .........................................58
Hình 3-15 Sơ đồ giải thuật tạo histogram gán nhãn với histogram phân cấp ..59
Hình 3-16 Các bước trong quá trình nhận dạng ảnh bằng SPM ......................60
Hình 3-17 Sơ đồ giải thuật chương trình nhận dạng bằng SPM .....................61
Hình 4-1 Hệ thống phần cứng ..........................................................................62
Hình 4-2 Hệ thống phần mềm ..........................................................................62
Hình 4-3 Thêm trình biên dịch ARM trên Qt ...................................................74
Hình 4-4 Chọn lựa trình biên dịch cho Qt ........................................................75
Hình 5-1 Giao diện chính của chương trình .....................................................77
Hình 5-2 Một số hình ảnh kết quả nhận dạng của hệ thống .............................79
Hình 5-3 Nhận dạng với hình nền phức tạp .....................................................79
Hình 5-4 Nhận dạng với vật thể chính chiếm tỉ lệ thấp trong hình ..................80
Hình 5-5 Nhận dạng ảnh có nhiều đối tượng ...................................................80
Hình 5-6 Kết quả nhận dạng của các lớp với các kích thước ...........................82
Hình 5-7 Kết quả nhận dạng của các lớp với các mức phân cấp .....................83
Hình 5-8 Tỉ lệ các ảnh nhận dạng đúng với các mức phân cấp .......................84
Hình 5-9 Tỉ lệ ảnh nhận dạng đúng với kích thước từ điển và các mức phân
cấp khác nhau ...................................................................................................85



-xi-

DANH SÁCH BẢNG SỐ LIỆU

Bảng 2-1 Đặc tính của BBB .............................................................................37
Bảng 4-1: Kết quả nhận dạng các lớp với SVM thuần và kích thước từ điển .81
Bảng 4-2 Kết quả nhận dạng các lớp với SVM kết hợp SPM với các mức phân
cấp khác nhau ...................................................................................................83
Bảng 4-3 Tỉ lệ ảnh nhận dạng đúng với kích thước từ điển và các mức phân
cấp.....................................................................................................................85
Bảng 4-4 Bảng thống kê thời gian nhận dạng và huấn luyện (đơn vị: phút ) ..86
Bảng 4-5: Tỉ lệ ảnh nhận dạng đúng của phướng pháp SPM và Sliding
window .............................................................................................................87


-xii-

DANH SÁCH CHỮ VIẾT TẮT
Từ viết tắt

Từ viết đầy đủ

BoW

Bag of Words

CNN

Convolution Neural Network


DoG

Difference of Gaussian

SVM

Support Vector Machine

SPM

Spatial Pyramid Matching

PM

Pyramid Matching

SIFT

Scale Invariant Feature Transform

VOC

Visual Object Classes

BBB

BeagleBone Black


-1-


Chương 1: TỔNG QUAN
1.1 Tình hình nghiên cứu
Với sự bùng nổ của dữ liệu ảnh, việc nhận dạng vật thể trong ảnh là một trong
những nhu cầu cơ bản cho việc quản lý và truy vấn ảnh dựa trên nội dung. Thêm
nữa, nhận dạng ảnh là một trong những bài tốn cơ bản trong lĩnh vực thị giác máy
tính và ứng dụng máy học đã nhận được sự quan tâm của nhiều nhà khoa học trên
thế giới. Hiện nay có rất nhiều cuộc thi trong lĩnh vực nhận dạng và phân lớp vật
thể, nổi trội hơn cả là cuộc thi PASCAL Visual Object Classes (VOC) được tổ chức
từ năm 2005 đã qui tụ được rất nhiều nhóm nghiên cứu trên tồn thế giới tham gia.
Hình 1-1 thể hiện kết quả nhiệm vụ phân lớp ảnh của các nhóm ở cuộc thi PASCAL
Visual Object Classes vào năm 2012. Ở nhiệm vụ phân lớp ảnh có 17 nhóm tham
gia, đa phần các nhóm đều sử dụng phương pháp túi đặc trưng kết hợp với phương
pháp trích đặc trưng SIFT để huấn luyện và nhận dạng bằng mơ hình SVM.

Hình 1-1 Kết quả VOC 2012 [26]

Thiết kế hệ thống nhận dạng vật thể

GVHD: PGS.TS Hoàng Trang


-2-

1.2 Tổng quan về hệ thống nhận dạng vật thể
“Nhận dạng vật thể” tức là tìm và xác định vật thể trong bức ảnh hoặc video.
Đây là đề tài rộng và tham vọng trong thị giác máy tính. Tuy nhiên nó lại là vấn đề
cốt lõi và lâu đời của ngành này.
Bài tốn nhận dạng vật thể có rất nhiều thách thức từ việc ảnh được chụp dưới
nhiều góc độ khác nhau, điều kiện chiếu sáng khác nhau, sự đa dạng các thể hiện

của cùng một lớp vật thể cũng như sự phức tạp của thông tin nền trong ảnh. Để giải
quyết bài tốn nhận dạng vật thể có 4 hướng tiếp cận, đó là so khớp mẫu, nhận dạng
thống kê, nhận dạng dựa vào cấu trúc và nhận dạng theo mạng nơron.
Trong đó, hướng tiếp cận dựa trên so khớp mẫu được áp dụng rộng rãi và
mang lại kết quả cao trong bài tốn nhận dạng ảnh nói riêng và trong thị giác máy
tính nói chung.
Thơng thường để biểu diễn một đối tượng ta thường biểu diễn nó từ những đặc
trưng hoặc từ những bộ phận cấu thành. Trong thị giác máy tính, một hình ảnh có
thể được mơ tả bởi các đặc trưng cục bộ được trích chọn từ các điểm hấp dẫn “nhô
ra” (salient interest points) của ảnh. Tương tự như trong xử lý ngôn ngữ tự nhiên,
các tài liệu và chủ đề được đặc trưng bởi túi các từ (bag of words), trong thị giác
máy tính các ảnh được đặc trưng bởi túi các đặc trưng. Tuy nhiên, việc đánh giá độ
giống nhau giữa các mẫu theo phương pháp này là một thách thức khi tập các đặc
trưng gồm nhiều yếu tố, các yếu tố không có thứ tự. Để so sánh tập các đặc trưng
này, các nhà nghiên cứu thường cố gắng sử dụng những giải pháp phù hợp tốn ít chi
phí nhất, tuy nhiên đây lại là những tính tốn tốn kém và trở nênkhơng khả thi khi
tập này có kích thước lớn. Những phương pháptrước đây nhận đầu vào là các véctơ
với mỗi chiều tương ứng là một đặc trưng toàn cục riêng biệt. Nhược điểm của
những phương pháp này là không tính tới vị trí tương đối của các đặc trưng, giải
quyết với những đặc trưng tương ứng rõ ràng, điều này làm cho việc tính tốn tốn
kém, hạn chế việc sử dụng những đầu vào có phạm vi lớn; Do đó để cải thiện những
nhược điểm này Kristen Grauman và Trevor Darrell đã phát triển phương pháp so
khớp phân cấp (Pyramid Matching – viết tắt là PM) – một hàm so khớp thời gian

Thiết kế hệ thống nhận dạng vật thể

GVHD: PGS.TS Hoàng Trang


-3-


tuyến tính mới thơng qua tập các đặc trưng khơng có thứ tự. Mặc dù vậy phương
pháp này vẫn còn nhược điểm đó là bỏ qua thơng tin về khơng gian của bức ảnh;
một phương pháp mới ra đời nhằm giải quyết nhược điểm trên đó là phương pháp
so khớp không gian phân cấp (Spatial Pyramid Matching – SPM).
Với những lý do nêu trên tôi đã lựa chọn đề tài: “Thiết kế hệ thống nhận
dạng vât thể” dựa trên mô hình túi đặc trưng (Bag of Word) với phương pháp kết
hợp so khớp phân cấp (spatial pyramid matching) và máy véc-tơ hỗ trợ (SVM)
 Mục tiêu nghiên cứu:
o Nghiên cứu trích chọn đặc trưng cục bộ bất biến (Scale Invariant
Feature Transform – SIFT)
o Tìm hiểu phương pháp Spatial Pyramid Matching
o Nghiên cứu phương pháp học máy SVM
o Nghiên cứu phương pháp sliding window
o Xây dựng chương trình demo từ những nghiên cứu và tìm hiểu
nói trên.
 Giới hạn đề tài:
o Luận văn viết chương trình để phân loại ảnh đầu vào thuộc một
trong 6 nhóm vật thể đã được huấn luyện.
o Ảnh thử là loại ảnh kích thước vừa phải mỗi chiều từ 200 đến 500
pixel.
o Chương trình chỉ nhận dạng một vật thể chính trong ảnh, đòi hỏi
ảnh đầu vào phải chứa vật thể chính có kích thước lớn hơn nhiều so
với các đối tượng còn lại trong ảnh

Thiết kế hệ thống nhận dạng vật thể

GVHD: PGS.TS Hoàng Trang



-4-

1.3 Bố cục của luận văn
Nội dung chính của luận văn được tổ chức thành 6 chương.
Chương 1: Tổng quan. Trình bày tình hình nghiên cứu, lý do chọn đề tài, mục
đích, đối tượng và phạm vi nghiên cứu, ý nghĩa thực tiễn và khoa học của đề tài
nghiên cứu.
Chương 2: Cơ sở lý thuyết. Trình bày những lý thuyết cơ bản về bài toán nhận
dạng ảnh, các phương pháp trích chọn đặc trưng, mơ hình Bag of word, so khớp
phân cấp không gian SPM, phương pháp sliding window và phương pháp học máy
SVM được sử dụng trong luận văn. Bên cạnh đó còn trình bày lý thuyết hệ thống
nhúng.
Chương 3: Thực hiện hệ thống. Mô tả cách xây dựng hệ thống nhận dạng của
luận văn và các công việc đã thực hiện trên máy tính các nhân.
Chương 4: Xây dựng hệ thống trên BeagleBone Black. Mô tả cách xây dựng hệ
thống trên board nhúng BeagleBone Black
Chương 5: Kết quả. Trình bày các kết quả của luận văn. Bàn luận về kết quả thu
được.
Chương 6: Phần kết luận và kiến nghị. Tổng kết những kết quả đã đạt được của
luận văn và hướng phát triển nghiên cứu tiếp theo.

Thiết kế hệ thống nhận dạng vật thể

GVHD: PGS.TS Hoàng Trang


-5-

Chương 2: CƠ SỞ LÝ THUYẾT


2.1 Bài toán nhận dạng ảnh
Nhận dạng ảnh dựa trên lý thuyết về nhận dạng. Nhận dạng là quá trình phân
loại các đối tượng được biểu diễn theo một mơ hình nào đó vào một lớp dựa theo
quy luật và các mẫu chuẩn. Quá trình bao gồm việc xác định các lớp của đối tượng
sao cho có thể phân biệt.
Hệ thống nhận dạng sẽ thực hiện 2 việc: huấn luyện và nhận dạng. Trong quá
trình huấn luyện, các đặc trưng sẽ được trích chọn phù hợp cho việc biểu diễn và bộ
phân loại sẽ được huấn luyện để phân chia không gian đặc trưng. Quá trình nhận
dạng, bộ phân loại đã được huấn luyện gán một mẫu đầu vào vào một trong các lớp
dựa trên các đặc trưng đó.
Một mơ hình sẽ được xây dựng dựa trên các dữ liệu huấn luyện và mơ hình
này sẽ được sử dụng để phân loại một dữ liệu mới vào các lớp.

Hình 2-1 Quá trình huấn luyện và nhận dạng của hệ thống nhận dạng
2.2 Các hướng tiếp cận trong bài tốn nhận dạng
Có 4 hướng tiếp cận chính cho bài tốn nhận dạng :
o Nhận dạng dựa vào so khớp mẫu
o Nhận dạng thống kê

Thiết kế hệ thống nhận dạng vật thể

GVHD: PGS.TS Hoàng Trang


-6-

o Nhận dạng dựa vào cấu trúc
o Nhận dạng dựa vào mạng nơron
Trong các phương pháp trên thi phương pháp so khớp mẫu được sử dụng rộng
rãi bởi tính dễ thực thi của nó

So khớp là một thuật tốn chung trong nhận dạng, nó được sử dụng để xác
định những điểm giống nhau giữa hai thực thể (các điểm, các góc, hình dạng…).
Trong so khớp mẫu, các mẫu cần nhận dạng là biết trước và được so khớp với các
mẫu đã lưu trữ, có tính tới các trường hợp mẫu bị quay, thay đổi tỉ lệ và bị tịnh tiến.
Ngày nay với phương pháp so khớp mẫu, có rất nhiều cách để xây dựng bộ từ
điển nhưng nổi trội hơn cả là mơ hình Bag of word. Mơ hình này có ưu điểm là đơn
giản, dễ nắm bắt, nhưng lại không đánh giá yếu tố không gian trong nhận diện vật
thể, do đó kết quả khơng được chính xác.
Bag of Words được sử dụng trong thị giác máy tính, và xử lý ngôn ngữ tự
nhiên. Những ý tưởng đầu tiên về phương pháp này được đề xuất bởi Zellig Harris.
Năm 1999, David Lowe đã phát minh ra giải thuật Sift với khả năng mơ tả ảnh
mạnh mẽ. Từ đó Bag of Words có khuynh hướng sử dụng đặc trưng Sift để tạo các
“Words”. Có rất nhiều đề tài nghiên cứu theo hướng này đạt được kết quả khả quan.
Đầu tiên phải kế đến đề tài của tác giả Gabriella Csurka[3], đề tài này sử dụng mơ
hình BoW cơ bản kết hợp với việc khảo sát hiệu quả của phương pháp Bow khi đi
kèm với các phương pháp phân lớp SVM và Bayes. Một số tác giả tìm cách khắc
phục nhược điểm của BoW bằng cách kết hợp BoW với các yếu tố khơng gian, điển
hình là tác giả S. Lazebniksử dụng phương pháp khớp mẫu Spatial Pyramid [4]
trong phân loại cảnh quan ảnh và Leibe với phương pháp Implicit Shape Model[5].
Mơ hình BoW sử dụng nhiều thơng số thay đổi khác nhau, nghiên cứu của tác
giả Jun Yang đã đánh giá sự thay đổi của một số thông số trong mơ hình ảnh hưởng
đến kết quả nhận dạng [6].

Thiết kế hệ thống nhận dạng vật thể

GVHD: PGS.TS Hoàng Trang


-7-


Các nghiên cứu về BoW phần lớn đều cho kết quả nhận dạng tốt. Tuy nhiên đa
số vẫn có khuyết điểm chưa xác định được vị trí của vật thể trong bức ảnh.
Luận văn của tôi theohướng tiếp cận so khớp mẫu với mơ hình Bag of word,
trích chọn đặc trưng SIFT kết hợp kernel phân cấp không gian SPM. Ngoài ra luận
văn còn sử dụng phương pháp sliding window để xác định vị trí của vật thể trong
anh. Luân văn tiến hành khảo sát độ ảnh hưởng của mức phân cấp và kích thước từ
điển đến chất lượng nhận dạng.
2.3 Các phương pháp trích chọn đặc trưng
Trong nhận dạng ảnh, việc lựa chọn các đặc trưng thích hợp với từng loại truy
vấn và miền ứng dụng cùng với các độ đo tương đồng tưong ứng là thành phần
quan trọng và then chốt nhất. Việc lựa chọn các đặc trưng và độ đo thích hợp sẽ
giúp tăng cả tốc độ và mức độ chính xác của các hệ thống. J.V.Jawahe và cộng sự
[24] đã nêu ra các yêu cầu cơ bản đối với thành phần lựa chọn đặc trưng cho ảnh:
 Thành phần lựa chọn đặc trưng phải lựa chọn được một tập các đặc
trưng cung cấp đầu vào tốt nhất cho hệ thống tìm kiếm ảnh. Nếu số
lượng các đặc trưng quá nhiều sẽ làm “che khuất” các “tín hiệu”
(giảm các “tín hiệu” đối với tỉ lệ nhiễu), mặt khác, nếu số lượng các
đặc trưng quá ít sẽ khó phân biệt được ảnh trong tìm kiếm.
 Nó phải giảm bớt được độ phức tạp trong lúc tính tốn tổng thể bằng
giảm đa chiều của bài toán phân lớp.
 Khi người dùng muốn sử dụng các đặc trưng đó cho mọi truy vấn, thì
việc sử dụng các đặc trưng này phải hiệu quả. Vì số lượng các đặc
trưng có thể là hàng ngàn, dó đó thời gian xử lý của module phải
tuyến tính với số lượng đặc trưng.
 Vì thời gian xử lý của thành phần lựa chọn đặc trưng tuyến tính với số
lượng đặc trưng, do đó việc lựa chọn các đặc trưng cũng nên tuyến
tính dựa trên phân lớp.

Thiết kế hệ thống nhận dạng vật thể


GVHD: PGS.TS Hoàng Trang


-8-

 Thành phần lựa chọn đặc trưng có thể xử lý được với kích thước tập
mẫu nhỏ (khoảng 5 mẫu).
Trong phần này, chúng tơi sẽ trình bày sơ bộ về các vấn đề về đặc trưng của
ảnh(màu sắc, kết cấu, hình dạng, đặc trưng cục bộ SIFT), một số độ đo tương đồng
tương ứng với các đặc trưng và phương pháp lựa chọn đặc trưng ảnh để tăng chất
lượng tập đặc trưng.
2.3.1 Đặc trưng màu sắc
Nhận dạng ảnh theo lược đồ màu là phương pháp phổ biến và được sử dụng
nhiều nhất trong các hệ thống tìm kiếm ảnh theo nội dung. Đây là phương pháp đơn
giản, tốc độ tìm kiếm tương đối nhanh tuy nhiên kết quả tìm kiếm có độ chính xác
khơng cao. Đây có thể xem là bước lọc đầu tiên cho những bước xử lý sau. Một số
lược đồ màu được sử dụng như: lược đồ màu RGB, lược đồ màu HSI, lược đồ HSI
cải tiến. Trong đó, lược đồ màu RGB được sử dụng phổ biến nhất.
Lược đồ màu RGB: Đối với ảnh 256 màu, lược đồ màu của ảnh tương đương
với lược đồ màu của ảnh xám. Đối với ảnh 24 bit màu, lược đồ miêu tả khả năng kết
nối về cường độ của ba kênh màu R, G, B. Luợc đồ màu này được định nghĩa như
sau:
ℎ𝑅,𝐺,𝐵 [𝑟, 𝑔, 𝑏] = 𝑁 ∗ 𝑃𝑟𝑜𝑏(𝑅 = 𝑟, 𝐺 = 𝑔, 𝐵 = 𝑏)

(3.1)

Trong đó N là số lượng điểm có trong ảnh.
Lược đồ màu này được tính bằng cách rời rạc hóa từng màu trong ảnh, sau
đó đếm số điểm ảnh của mỗi màu. Khi mà số lượng màu là có hạng, để thuận
tiện hơn, người ta thường chuyển đổi ba kênh màu thành một biến giá trị duy

nhất. Một cách khác để tính lược đồ màu của ảnh RGB là ta phân ra làm 3 lượt
đồ riêng biệt 𝒉𝑹 [ ], 𝒉𝑮 [ ] , 𝒉𝑩 [ ] . Khi đó, mỗi lược đồ được tính bằng cách
đếm kênh màu tương ứng trong mỗi điểm ảnh.


Độ tương đồng vể màu sắc

Thiết kế hệ thống nhận dạng vật thể

GVHD: PGS.TS Hoàng Trang


-9-

Một số độ đo tương đồng được sử dụng như: khoảng cách Ơclit, Jensen-Shannon
divergence (JSD).
Gọi h(I) và h(M) tương ứng là 2 lượt đồ màu của hai ảnh I và ảnh M. Khi
đó các loại độ đo màu được định nghĩa là một số nguyên (hoặc số thực) theo các
loại độ đo tương ứng như sau:
o Khoảng cách Ơclit:
Đây là khoảng cách Ơclit thông thường giữa các K bin:
𝐼𝑛𝑡𝑒𝑟𝑠𝑒𝑐𝑡𝑖𝑜𝑛(ℎ(𝐼), ℎ(𝑀)) = ∑𝑘𝑗=1 √(ℎ(𝐼) − (ℎ(𝑀))2

(3.2)

o Độ đo Jensen-Shannon divergence (JSD):
Độ đo Jensen-Shannon divergence sử dụng lược độ màu RGB để tính tốn
độ tương đồng về màu sắc giữa 2 ảnh:
𝑑𝐽𝑆𝐷 (𝐻, 𝐻 ′ ) = ∑𝑀
𝑚=1 𝐻𝑀 𝑙𝑜𝑔


2𝐻𝑚

𝐻𝑚 +𝐻𝑚


+ 𝐻𝑚
𝑙𝑜𝑔


2𝐻𝑚

𝐻𝑚 +𝐻𝑚

(3.3)

Trong đó: H và H’ là 2 biểu đồ màu được so sánh, 𝐻𝑚 là bin thứ m của
biểu đồ H.
2.3.2 Đặc trưng kết cấu
Hiện tại, vẫn chưa có một định nghĩa chính thức cụ thể về kết cấu. Kết cấu là
một đối tượng dùng để phân hoạch ảnh ra thành những vùng quan tâm để phân lớp
những vùng đó. Kết cấu cung cấp thông tin về sự sắp xếp về mặt không gian của
màu sắc và cường độ một ảnh. Kết cấu được đặc trưng bởi sự phân bổ không gian
của những mức cường độ trong một khu vực láng giềng với nhau. Kết cấu gồm các
kết cấu gốc hay nhiều kết cấu gộp lại đôi khi gọi là texel.
o Một số phương pháp dùng để trích xuất các đặc trưng kết cấu như [25]:
-

Kim tự tháp "có thể lái được" (the steerable pyramid)


-

Biến đổi đường viền (the cotourlet transform)

-

Biến đổi sóng Gabor (The Gabor Wavelet transform)

-

Biểu diễn ma trận đồng hiện (co-occurrence matrix)

-

Hệ thống bộ lọc định hướng phức tạp (The complex directional fillter
bank)

Thiết kế hệ thống nhận dạng vật thể

GVHD: PGS.TS Hoàng Trang


-10-

Để đo độ tương đồng theo kết cấu giữa các ảnh, người ta thường sử dụng độ
đo Ơclit. Kết cấu được trích xuất từ các bức ảnh sẽ được biểu diễn thành các vector
nhiều chiều và khoảng cách Ơclit được dùng để đo độ tương đồng giữa các đặc
trưng của ảnh truy vấn với đặc trưng của ảnh trong cơ sở dữ liệu.
2.3.3 Đặc trưng hình dạng
Màu sắc và kết cấu là những thuộc tính có khái niệm tồn cục trong một ảnh.

Trong khi đó, hình dạng khơng phải là một thuộc tính của ảnh. Nói tới hình dạng
khơng phải là nhắc đến hình dạng của một ảnh. Thay vì vậy, hình dạng có khuynh
hướng chỉ đến một khu vực đặc biệt trong ảnh, hay hình dạng chỉ là biên của một
đối tượng nào đó trong ảnh
Trong nhận dạng ảnh, hình dạng là một cấp cao hơn so với màu sắc và kết
cấu. Nó đòi hỏi sự phân biệt giữa các vùng để tiến hành xử lý về độ đo của hình
dạng. Các hệ thống tìm kiếm ảnh theo nội dung thường khai thác hai nhóm biểu
diễn hình dạng sau :
-

Biểu diễn hình dạng theo đường biên (cotour-based descriptor) : Biểu
diễn các đường biên bao bên ngoài

-

Biểu diễn theo vùng (region-based descriptor): Biểu diễn một vùng
toàn vẹn

o Độ đo tương đồng cho hình dạng
Độ đo về hình dạng rất nhiều trong phạm vi lý thuyết của bộ môn xử lý ảnh.
Chúng trải rộng từ những độ đo toàn cục dạng thô với sự trợ giúp của việc
nhận dạng đối tượng, cho tới những độ đo chi tiết tự động tìm kiếm những hình
dạng đặc biệt. Lược đồ hình dạng là một ví dụ của độ đo đơn giản. Kỹ thuật dùng
đường biên hiệu quả hơn phương pháp trước, chúng tìm kiếm những hình dạng đối
tượng gần giống với đường biên nhất. Phương pháp vẽ phác họa là phương pháp có
nhiều đặc trưng rõ ràng hơn, khơng chỉ tìm kiếm những đường biên đối tượng đơn,
mà còn đối với tập những đối tượng đã được phân đoạn trong một ảnh mà người
dung vẽ hay cung cấp.

Thiết kế hệ thống nhận dạng vật thể


GVHD: PGS.TS Hoàng Trang


-11-

2.3.4 Đặc trưng cục bộ bất biến SIFT
Để so sánh hoặc phân loại ảnh, cách tiếp cận thông thường là biểu diễn ảnh
dưới dạng véc tơ đặc trưng bằng cách sử dụng các kỹ thuật tạo và trích chọn đặc
trưng. Véctơ đặc trưng sau đó được sử dụng làm đầu vào cho các phương pháp phân
loại hoặc để tính độ tương tự giữa các ảnh với nhau. Có rất nhiều dạng đặc trưng
được đề xuất và sử dụng trong phân loại ảnh. Trong phạm vi luận văn, tôi chọn sử
dụng đặc trưng cục bộ bất biến, viết tắt là SIFT làm đặc trưng biểu diễn ảnh.
SIFT là một giải thuật mạnh mẽ trong lĩnh vực nhận diện vật thể. Bởi vì mơ tả
của đặc trưng SIFT khơng bị biến đổi với các kích thước ảnh khác nhau, các hướng
xoay khác nhau và thậm chí có thể khơng biến đổi trong điều kiện ánh sáng khác
nhau và méo dạng.
Phương pháp trích chọn đặc trưng SIFT được tiếp cận theo phương pháp thác
lọc, theo đó phương pháp được thực hiện lần lượt theo các bước sau:

 Xác định vị trí điểm đặc biệt (Key localization):
Ảnh đầu vào được nhân tích chập với bộ lọc Gaussian với các giá trị 𝜎 khác
nhau để tạo ra ảnh mới với các độ mờ khác nhau.
𝐿(𝑥, 𝑦, 𝜎) = 𝐺 (𝑥, 𝑦, 𝜎) ∗ 𝐼(𝑥, 𝑦)

(3.4)

Với 𝐼(𝑥, 𝑦) là ảnh đầu vào và 𝐺(𝑥, 𝑦, 𝜎) là bộ lọc Gaussian với số 𝜎.
DoG (Difference of Gaussian) là phương pháp dùng để nổi rõ các chi tiết của
ảnh.

𝐷 (𝑥, 𝑦, 𝜎) = 𝐿(𝑥, 𝑦, 𝑘𝜎) − 𝐿(𝑥, 𝑦, 𝜎)

(3.5)

Trong phương pháp xác định góc Harris, ta thấy rằng vẫn có thể phát hiện ra
góc nếu ảnh bị xoay. Tuy nhiên khi ảnh bị thay đổi kích thước, một góc có thể
khơng cịn là một góc nữa. Như hình minh họa bên dưới đây:

Thiết kế hệ thống nhận dạng vật thể

GVHD: PGS.TS Hoàng Trang


-12-

Hình 2-1 Góc ở bức ảnh lớn hơn có thể khơng cịn là góc nữa [7]

Như ví dụ ở trên ta thấy khi ảnh thay đổi kích thước, một yếu tố nào đó có thể
khơng cịn là bất biến nữa. Do vậy để tìm được yếu tố bất biến qua nhiều kích thước
ảnh khác nhau, ta cần khảo sát DoG ở nhiều kích thước ảnh.

Hình 2-2 Tính DoG ở các kích thước khác nhau của ảnh. [7]
Khi DoG đã được xác định, mỗi pixel trong ma trận DoG sẽ được so sánh với
8 pixel ở xung quanh nó và 9 pixel ở Scale tiếp theo và Scale trước đó. Nếu một
điểm là điểm lớn nhất hoặc nhỏ nhất trong các lân cận mà nó so sánh thì nó là điểm
đặc biệt tiềm năng.

Thiết kế hệ thống nhận dạng vật thể

GVHD: PGS.TS Hoàng Trang



×