Tải bản đầy đủ (.pdf) (99 trang)

Phân loại xe sử dụng mã hóa tuyến tính cục bộ llc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.56 MB, 99 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------

NGUYỄN THANH MINH

PHÂN LOẠI XE SỬ DỤNG
MÃ HĨA TUYẾN TÍNH CỤC BỘ LLC
Chuyên ngành: Kỹ Thuật Điều Khiển Và Tự Động Hóa
Mã số: 60520216

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 12 năm 2015


Cơng trình được hồn thành tại:
TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM
Cán bộ hướng dẫn khoa học : PGS.TS. HUỲNH THÁI HOÀNG

Cán bộ chấm nhận xét 1 : TS. HOÀNG MINH TRÍ

Cán bộ chấm nhận xét 2 : PGS.TS NGUYỄN CHÍ NGƠN

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM,
ngày 04 tháng 01 năm 2016
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. PGS.TS. DƯƠNG HOÀI NGHĨA – Chủ tịch
2. TS. TRƯƠNG ĐÌNH CHÂU – Uỷ viên
3. TS. NGƠ MẠNH DŨNG – Thư ký
4. TS. HỒNG MINH TRÍ – Phản biện 1


5. PGS.TS NGUYỄN CHÍ NGƠN – Phản biện 2
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA ĐIỆN – ĐIỆN TỬ


ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYỄN THANH MINH

MSHV: 13153064

Ngày, tháng, năm sinh: 26/01/1990

Nơi sinh: Ninh Thuận

Chuyên ngành: Kỹ Thuật Điều Khiển Và Tự Động Hóa

Mã số: 60520216

I. TÊN ĐỀ TÀI:
PHÂN LOẠI XE SỬ DỤNG MÃ HÓA TUYẾN TÍNH CỤC BỘ LLC

II. NHIỆM VỤ VÀ NỘI DUNG:
-

Tìm hiểu phương pháp phân loại ảnh mô hình túi từ Bow (Bag of words).

-

Sử dụng mã hóa tuyến tính cục bộ LLC (Locality-constrained Linear Coding).
cải tiến mô hình túi từ Bow.

-

Hiện thực phần mềm ứng dụng phân loại xe có sử dụng LLC.

III. NGÀY GIAO NHIỆM VỤ: 19/01/2015
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 14/06/2015
V.

CÁN BỘ HƯỚNG DẪN: PGS.TS Huỳnh Thái Hoàng
Tp. HCM, ngày 6 tháng 12 năm 2015
CÁN BỘ HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

PGS.TS Huỳnh Thái Hoàng
TS. Trương Đình Châu
TRƯỞNG KHOA ĐIỆN-ĐIỆN TỬ

TS. Đỗ Hồng Tuấn



LỜI CẢM ƠN

Tôi xin gửi đến thầy PGS.TS Huỳnh Thái Hồng lời biết ơn sâu sắc vì
đã dành thời gian quý báu để hướng dẫn, tạo điều kiện thuận lợi và cho tôi
những lời khuyên kịp thời, bổ ích để hồn thành ḷn văn này.
Bên cạnh đó, tơi cũng gửi lời biết ơn chân thành đến các Thầy Cô khoa
Điện – Điện tử, và đặc biệt là các Thầy Cô bộ mơn Điều khiển tự động đã
giảng dạy tận tình, cho tôi nhiều kiến thức mới, hữu ích, trong quá trình học
tập tại trường đại học Bách Khoa – ĐHQG Tp. HCM. Ngồi ra tơi cũng xin
được cảm ơn các bạn bè cùng khóa, cùng lớp đã có nhiều đóng góp, ý kiến
cũng như các tài liệu liên quan có giá trị.
Cuối cùng, tôi xin cám ơn Cha Mẹ và các anh chị em trong gia đình đã
động viên và tạo điều kiện giúp tơi vượt qua những khó khăn trong suốt quá
trình học tập và nghiên cứu vừa qua.

Tp. Hồ Chí Minh, ngày 6 tháng 12 năm 2015

Nguyễn Thanh Minh

1


TÓM TẮT LUẬN VĂN

Những phương pháp phân loại ảnh truyền thống dựa trên mô hình Bow (Bag of
words) cần sử dụng bộ phân loại phi tuyến SVM (Non-linear Support Vector
Machines) để đạt được độ chính xác cao. Luận văn này sẽ trình bày một phương pháp
mã hóa đơn giản mà hiệu quả gọi là mã hóa tuyến tính cục bộ LLC (Localityconstrained Linear Coding) tương đương với phương pháp mã hóa lượng tử vec-tơ
được sử dụng trong phương pháp mã hóa truyền thống.

LLC sẽ gán các mơ tả đặc trưng vào hệ trục tọa độ cục bộ, và những hệ trục tọa độ
này sẽ được được tích hợp lại với nhau để có được biểu diễn đặc trưng cuối cùng. Và
chỉ cần dùng bộ phân loại SVM tuyến tính, phương pháp này cũng đạt được kết quả
tốt như là phương pháp truyền thống. Bên cạnh đó còn giảm độ phức tạp tính toán,
thời gian huấn luyện và nhận dạng. Nên phương pháp này rất phù hợp cho những ứng
dụng thời gian thực đòi hỏi xử lý kết quả nhanh.
Luận văn cũng áp dụng lý thuyết này để hiện thực ứng dụng phân loại ảnh xe, với
đầu vào là hình ảnh thu về từ camera giám sát.

2


ABSTRACT

The traditional image classification methods based on bag-of-words (Bow)
requires nonlinear classifiers to achieve good image classification performance. This
paper presents a simple but effective coding scheme called LLC (Localityconstrained Linear Coding) in place of the VQ (Vector Quantization) coding in
traditional method.
LLC utilizes the locality constraints to project each descriptor into its localcoordinate system, and the projected coordinates are integrated by max pooling to
generate the final representation. With linear classifier, the proposed approach
performs remarkably better than the traditional nonlinear method. In addition, this
method reduce computational complexity, training and testing time. Hence this
efficiency significantly adds to the practical values of LLC for real applications.
Put this theory to practice, this thesis also implements vehicle classification
application using images from surveillance camera.

3


LỜI CAM KẾT


Tôi xin cam kết các nội dung lý thút trình bày trong ḷn văn này là do tơi
tham khảo các tài liệu và biên soạn lại, các số liệu, kết quả trình bày trong luận văn
này là trung thực.
Những tư liệu được sử dụng trong luận văn có nguồn gốc và trích dẫn rõ ràng,
đầy đủ.
Nếu tơi khơng thực hiện đúng các cam kết nêu trên, tôi xin chịu hoàn toàn
trách nhiệm trước kỷ luật của nhà trường cũng như pháp luật Nhà nước.

Nguyễn Thanh Minh

4


MỤC LỤC
LỜI CẢM ƠN .............................................................................................................1
TÓM TẮT LUẬN VĂN ............................................................................................. 2
LỜI CAM KẾT ...........................................................................................................4
MỤC LỤC ...................................................................................................................5
DANH MỤC HÌNH ẢNH .......................................................................................... 8
DANH MỤC BẢNG BIỂU ...................................................................................... 11
DANH MỤC TỪ VIẾT TẮT.................................................................................... 11
CHƯƠNG 1 GIỚI THIỆU ........................................................................................ 12
1.1 Đặt vấn đề .......................................................................................................12
1.2 Ý nghĩa khoa học và thực tiễn của việc nghiên cứu đề tài .............................. 12
1.3 Tổng quan về các nghiên cứu liên quan .......................................................... 13
1.3.1 Ngoài nước ............................................................................................... 13
1.3.2 Trong nước ............................................................................................... 15
1.4 Mục tiêu luận văn và phương pháp thực hiện .................................................16
1.5 Sơ lược về nội dung luận văn ..........................................................................17

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT ..........................................................................19
2.1 Tổng quan về phân loại ảnh ............................................................................19
2.2 Mô hình túi từ Bow ......................................................................................... 19
2.2.1 Giới thiệu..................................................................................................19
2.2.2 Mô hình ....................................................................................................21
2.3 SIFT.................................................................................................................25
2.3.1 Dò tìm cực trị ........................................................................................... 27
2.3.2 Định vị chính xác điểm khóa ...................................................................31
5


2.3.3 Gán hướng cho các điểm khóa .................................................................34
2.3.4 Xây dựng bộ mô tả cục bộ .......................................................................35
2.4 Giải thuật K-means ......................................................................................... 38
2.5 Mã hóa tuyến tính cục bộ LLC .......................................................................43
2.5.1 Vấn đề khi lượng tử hóa vec-tơ................................................................ 43
2.5.2 Gán cứng và gán mềm..............................................................................44
2.5.3 Mã hóa sử dụng rời rạc Sparsity .............................................................. 46
2.5.4 Mã hóa sử dụng khoảng cách LLC .......................................................... 47
2.6 Bộ phân loại SVM ........................................................................................... 49
2.6.1 Giới thiệu bộ phân loại SVM ...................................................................49
2.6.2 SVM phân loại đa lớp ..............................................................................57
CHƯƠNG 3 THIẾT KẾ PHẦN MỀM ỨNG DỤNG PHÂN LOẠI XE ..................59
3.1 Giới thiệu.........................................................................................................59
3.2 Cấu trúc chương trình ..................................................................................... 59
3.2.1 Thư viện OpenCV .................................................................................... 59
3.2.2 Xử lý ảnh trên giao diện tương tác MFC .................................................64
3.3 Sơ đồ luồng dữ liệu ......................................................................................... 71
3.4 Thiết lập thông số và chuẩn bị dữ liệu huấn luyện .........................................73
CHƯƠNG 4 KẾT QUẢ ............................................................................................ 77

4.1 Kết quả chương trình ứng dụng phân loại xe ..................................................77
4.1.1 Kết quả huấn luyện tạo từ điển ................................................................ 77
4.1.2 Kết quả huấn luyện bộ SVM ....................................................................78
4.1.3 Kết quả phân loại của ứng dụng ............................................................... 79
4.2 Kết quả so sánh giữa phương pháp Bow và Bow sử dụng LLC ..................... 82
6


4.2.1 Tập dữ liệu để huấn luyện và phân loại để so sánh..................................82
4.2.2 Kết quả so sánh ........................................................................................ 87
CHƯƠNG 5 KẾT LUẬN.......................................................................................... 91
5.1 Kết quả đạt được ............................................................................................. 91
5.1.1 Về mặt lý thuyết ....................................................................................... 91
5.1.2 Về mặt thực nghiệm .................................................................................91
5.2 Hướng phát triển của đề tài .............................................................................91
TÀI LIỆU THAM KHẢO ......................................................................................... 92
PHẦN LÝ LỊCH TRÍCH NGANG ...........................................................................96
Q TRÌNH ĐÀO TẠO .......................................................................................... 96
Q TRÌNH CƠNG TÁC........................................................................................ 96

7


DANH MỤC HÌNH ẢNH
Hình 2-1 Tương quan giữa hình ảnh và văn bản ...................................................... 19
Hình 2-2 Sự khác nhau giữa hai loại văn bản .......................................................... 20
Hình 2-3 Biểu đồ tần số của các ảnh mơ hình Bow ..................................................20
Hình 2-4 Trích xuất đặc trưng của ảnh ....................................................................21
Hình 2-5 Tạo bộ từ điển từ những đặc trưng của các ảnh .......................................21
Hình 2-6 Biểu đồ tần số dùng để phân loại ảnh ....................................................... 21

Hình 2-7 Mô hình Bow .............................................................................................. 22
Hình 2-8 Bước trích xuất đặc trưng ..........................................................................22
Hình 2-9 Nhóm các đặc trưng lại thành cụm ............................................................ 23
Hình 2-10 Dùng một đặc trưng đại diện cho một cụm .............................................23
Hình 2-11 Vec-tơ lượng tử biểu diễn thông qua bộ từ điển ......................................24
Hình 2-12 Kết hợp các vec-tơ lượng tử.....................................................................24
Hình 2-13 Vec-tơ thể hiện tần số xuất hiện các từ trong từ điển .............................. 25
Hình 2-14 Phân loại dựa vào các vec-tơ tần số........................................................ 25
Hình 2-15 Mơ phỏng việc tính tốn các DoG ảnh từ các ảnh kề mờ ....................... 28
Hình 2-16 Mỗi điểm ảnh được so sánh với 26 láng giềng của nó ............................ 29
Hình 2-17 Các giai đoạn lựa chọn các điểm khóa. (a) Ảnh gốc với 233x189 điểm ảnh.
(b) 832 vị trí điểm khóa ban đầu ở các điểm cực đại và cực tiểu của hàm Differenceof-Gaussian. Các điểm khóa được thể hiện như các vec-tơ cho biết tỷ lệ, hướng và vị
trí. (c) Sau khi áp dụng một ngưỡng lên độ tương phản tối thiểu, cịn lại 729 điểm
khóa. (d) 536 điểm khóa cuối cùng được giữ lại sau khi áp dụng một ngưỡng cho tỷ
lệ của các độ cong chủ yếu. ...................................................................................... 32
Hình 2-18 Bợ mơ tả điểm khóa được tạo ra bằng cách: đầu tiên tính tốn đợ lớn và
hướng gradient ở mỗi điểm mẫu trong một vùng xung quanh vị trí điểm khóa, như
hình bên trái. Các hướng này được gán trọng số bởi một cửa sổ Gaussian, được biểu
thị bởi đường trịn phủ ngồi. Sau đó các mẫu này được gom lại thành các biểu đồ
hướng tóm tắt nội dung trên 4x4 vùng con, được thể hiện ở hình phải, với chiều dài
mỗi mũi tên tương đương với tổng các cường đợ gradient gần với hướng đó trong
phạm vi của vùng đó. ................................................................................................ 36
8


Hình 2-19 Sơ đồ khối thuật toán K-means ................................................................ 38
Hình 2-20 Khởi tạo tâm cho hai nhóm......................................................................40
Hình 2-21 Tâm các thay đổi sau khi tính tốn .......................................................... 41
Hình 2-22 Tâm các nhóm tiếp tục thay đổi ............................................................... 42
Hình 2-23 Vấn đề khi lượng tử hóa vec-tơ................................................................ 43

Hình 2-24 Hàm ánh xạ từ đặc trưng vào bộ từ điển dùng lượng tử vec-tơ ..............44
Hình 2-25 Sử dụng thêm thông tin khoảng cách để mã hóa đặc trưng .................... 45
Hình 2-26 Gán trọng số dựa trên khoảng cách trong không gian đặc trưng ...........45
Hình 2-27 Hàm ánh xạ từ đặc trưng vào bộ từ điển dùng gán mềm ........................ 46
Hình 2-28 Hàm ánh xạ từ đặc trưng vào bộ từ điển dùng LLC ................................ 48
Hình 2-29 So sánh giữa gán cứng, gán mềm và LLC ...............................................48
Hình 2-30 Bài toán phân loại tuyến tính...................................................................49
Hình 2-31 Lề và đường biên ..................................................................................... 50
Hình 2-32 Đường phân lớp tốt và khoảng cách lề .................................................... 50
Hình 2-33 Khoảng cách điểm dữ liệu đến mặt phân cách ........................................51
Hình 2-34 Một vài điểm bị phân lớp sai chống lại sự quá khớp .............................. 54
Hình 2-35 Cực đại khoảng cách lề vẫn bảo đảm tính mềm mỏng ............................ 55
Hình 2-36 Phân loại đa lớp sử dụng bợ SVM tún tính ..........................................57
Hình 3-1 Giao diện phần mềm ứng dụng phân loại xe .............................................59
Hình 3-2 Hình tạo mới mợt dự án trong Visual Studio .............................................61
Hình 3-3 Hộp thoại thông báo kết thúc q trình khởi tạo.......................................61
Hình 3-4 Thêm mới mợt file nguồn ...........................................................................62
Hình 3-5 Thêm thư viện OpenCV vào thẻ Property ..................................................63
Hình 3-6 Khởi tạo một dự án MFC ...........................................................................65
Hình 3-7 Hộp thoại thông báo sau khi nhấn next ..................................................... 66
Hình 3-8 Hợp thoại cuối cùng q trình khởi tạo dự án MFC .................................67
Hình 3-9 Thanh công cụ trong dự án MFC .............................................................. 68
Hình 3-10 Giao diện thiết kế ứng dụng phân loại xe ................................................69
Hình 3-11 Kết quả chạy ứng dụng phân loại xe ....................................................... 70
Hình 3-12 Sơ đồ khối huấn luyện của ứng dụng....................................................... 72
9


Hình 3-13 Sơ đồ khối nhận dạng ..............................................................................73
Hình 3-14 Ảnh xe hơi dùng để huấn luyện cho ứng dụng .........................................74

Hình 3-15 Ảnh xe buýt dùng để huấn luyện cho ứng dụng .......................................74
Hình 3-16 Ảnh xe container dùng để huấn luyện cho ứng dụng............................... 75
Hình 3-17 Ảnh xe tải dùng để huấn luyện cho ứng dụng ..........................................75
Hình 3-18 Ảnh xe khách dùng để huấn luyện cho ứng dụng ....................................76
Hình 4-1 Ảnh kết quả chạy ứng dụng nhận diện xe hơi ............................................79
Hình 4-2 Ảnh kết quả chạy ứng dụng nhận diện xe tải .............................................80
Hình 4-3 Ảnh kết quả chạy ứng dụng nhận diện xe container ..................................80
Hình 4-4 Ảnh kết quả chạy ứng dụng nhận diện xe khách .......................................81
Hình 4-5 Ảnh kết quả chạy ứng dụng nhận diện xe buýt ..........................................81
Hình 4-6 Ảnh xe hơi dùng để huấn luyện ..................................................................82
Hình 4-7 Ảnh xe hơi dùng để nhận dạng ..................................................................83
Hình 4-8 Ảnh xe buýt dùng để huấn luyện ................................................................ 83
Hình 4-9 Ảnh xe buýt dùng để nhận dạng .................................................................84
Hình 4-10 Ảnh xe container dùng để huấn luyện...................................................... 84
Hình 4-11 Ảnh xe container dùng để nhận dạng ...................................................... 85
Hình 4-12 Ảnh xe tải dùng để huấn luyện .................................................................85
Hình 4-13 Ảnh xe tải dùng để nhận dạng .................................................................86
Hình 4-14 Ảnh xe khách dùng để huấn luyện ........................................................... 86
Hình 4-15 Ảnh xe khách dùng để nhận dạng ............................................................ 87

10


DANH MỤC BẢNG BIỂU
Bảng 2-1 Đặc trưng mỗi loại xe ................................................................................39
Bảng 2-2 Kết quả sau khi tính tốn bằng giải thuật K-means ..................................43
Bảng 2-3 So sánh ưu và khuyết điểm của LLC so với các phương pháp khác .........48
Bảng 4-1 Thời gian huấn luyện (đơn vị: phút, N là số ảnh huấn luyện) ..................87
Bảng 4-2 Kết quả nhận dạng khi sử dụng Bow với bộ từ điển 500 từ ...................... 87
Bảng 4-3 Kết quả nhận dạng khi sử dụng Bow và LLC với bộ từ điển 500 từ .........88

Bảng 4-4 Kết quả nhận dạng khi sử dụng Bow với bộ từ điển 1000 từ .................... 88
Bảng 4-5 Kết quả nhận dạng khi sử dụng Bow và LLC với bộ từ điển 1000 từ .......88
Bảng 4-6 Kết quả nhận dạng khi sử dụng Bow với bộ từ điển 2000 từ .................... 88
Bảng 4-7 Kết quả nhận dạng khi sử dụng Bow và LLC với bộ từ điển 2000 từ .......89
Bảng 4-8 Độ chính xác với bộ từ điển 500 từ ........................................................... 89
Bảng 4-9 Độ chính xác với bộ từ điển 1000 từ ......................................................... 89
Bảng 4-10 Độ chính xác với bộ từ điển 2000 từ ....................................................... 89
Bảng 4-11 Thời gian nhận diện 1 ảnh (kích thước là 276x183):.............................. 90

DANH MỤC TỪ VIẾT TẮT
Từ viết tắt

Ý nghĩa

Bow

Bag of words

CLDA

Constrained Linear Discriminant Analysis

LDA

Linear Discriminant Analysis

LLC

Locality-constrained Linear Coding


MFC

Microsoft Foundation Classes

SIFT

Scale Invarian Feature Transform

SVM

Support Vector Machines

VQ

Vector-Quantization
11


CHƯƠNG 1 GIỚI THIỆU
1.1 Đặt vấn đề
Ngày nay với sự bùng nổ của khoa học kỹ thuật và công nghệ thơng tin, tốc độ đơ
thị hóa ngày càng phát triển nhu cầu đi lại của con người ngày càng cao. Tuy nhiên
cơ sở hạ tầng hệ thống giao thông vẫn chưa đáp ứng đủ nhu cầu đó, hiện tượng ùn tắc
xảy ra thường xuyên và số vụ tai nạn cũng tăng về số vụ và thiệt hại về người và của
cải. Trước tình trạng đó đòi hỏi phải có biện pháp giải quyết vấn đề trên. Hệ thống
giám sát giao thông đã được ra đời để đáp ứng nhu cầu đó.
Tại các nước như Mỹ, Nhật Bản, Pháp… khái niệm hệ thống giám sát giao thơng
khơng cịn xa lạ. Họ đã đưa công nghệ thông tin – truyền thông, khoa học kỹ thuật
ứng dụng vào cơ sở hạ tầng và trong phương tiện giao thông (chủ yếu là ô tô) để tối
ưu hóa quản lý, điều hành nhằm giảm thiểu ùn tắc, tai nạn giao thơng… Tất cả những

thứ đó đã giúp cải thiện rõ rệt tình hình giao thơng, làm cuộc sống con người trở nên
thoải mái hơn.
Với tình hình giao thơng hiện nay, việc sử dụng hệ thống giám sát giao thông là
một trong những đòi hỏi cấp thiết cần được quan tâm, tìm hiểu kỹ lưỡng. Hệ thống
giám sát giao thông là một trong những hệ thống an toàn và cần thiết cho chúng ta
hiện nay.
Tại Việt Nam hệ thống giám sát giao thông cũng đã được áp dụng nhưng còn nhỏ
lẻ chưa hiệu quả. Đề tài sẽ thực hiện một hệ thống giám sát giao thông thu nhỏ. Hệ
thống giám sát giao thông bao gồm nhiều hệ thống nhiều ứng dụng, ở mức độ đề tài
luận văn này được giới hạn lại, chỉ nghiên cứu vấn đề phân loại xe.
1.2 Ý nghĩa khoa học và thực tiễn của việc nghiên cứu đề tài
Tác giả quyết định chọn đề tài “Phân Loại Xe Sử Dụng Mã Hóa Tuyến Tính Cục
Bộ LLC” là một việc làm không chỉ có ý nghĩa khoa học, mà cịn mang tính thực tiễn.
Trong ḷn văn sẽ trình bày một số tḥt tốn phân lớp ảnh tiêu biểu và đưa ra
hướng cải tiến cho phù hợp với ứng dụng thực tế.
Ứng dụng phân loại xe hết sức cần thiết trong việc giám sát giao thông. Được áp
dụng trong nhiều lĩnh vực điều hành, quản lý giao thông tự động như: Hệ thống thu
12


phí xe tự động, hệ thống chỉ dẫn đậu, đỗ xe tự động ở các bãi xe, chỉ dẫn phân luồng
điều khiển giao thông…
Hệ thống phân loại phương tiện giao sẽ phân biệt được nhiều loại xe, trong những
điều kiện ánh sáng khác nhau. Hệ thống được huấn luyện bằng những hình ảnh mẫu
tương tự trước đó, để có thể nhận dạng và phân loại hình ảnh phương tiện giao thông
thu về từ camera thời gian thực. Hệ thống cần đảm bảo tính chính xác và thời gian xử
lý nhanh.
1.3 Tổng quan về các nghiên cứu liên quan
Xử lý ảnh, phân loại ảnh trong những năm gần đây là lĩnh vực đang được giới khoa
học quan tâm không những trong nước mà còn ngồi nước. Các cơng trình liên quan

đến vấn đề xử lý ảnh đặc biệt là phân loại ảnh đã được cơng bố như sau:
1.3.1 Ngồi nước
• Đề tài “Beyond Bags of Features: Spatial Pyramid Matching for Recognizing
Natural Scene Categories” của đồng tác giả Svetlana Lazebnik, Cordelia Schmid,
Jean Ponce [2].
Trong đề tài này tác giả đưa ra phương pháp xác định loại quang cảnh dựa vào độ
xấp xỉ hình học tồn cục. Trong những năm gần thì các cơng trình nghiên cứu đã đưa
ra các khái niệm về đặc trưng cục bộ và đặc trưng toàn cục nhưng việc tính tốn trên
các đặc trưng này còn gặp rất nhiều hạn chế vì lý do có rất nhiều đặc trưng trong một
bức ảnh khiến cho việc tính tốn trở nên phức tạp và hao tốn nhiều tài nguyên hệ
thống. Chính vì lẽ đó mà các tác giả trong để tài đã nghiên cứu và đưa ra khái niệm
Bag of Features hay Bag of Words (Bof hay Bow) nhằm mục đích giảm thiểu thời
gian tính tốn cho hệ thống.
• Bài báo “Boosting Image Classification with LDA-based Feature Combination for
Digital Photograph Management” của đồng tác giả Xuezheng Liu, Lei Zhang,
Mingjing Li, Hongjiang Zhang, DingxingWang [3].
Đã có sử dụng tḥt tốn LDA để gán tên lớp cho những thuộc tính mà đã rút ra
được. LDA – SVM thường được thấy trong các đề tài tính tốn hoặc làm việc trên
văn bản. LDA dùng để gán nhãn vào các đặc trưng sau đó các đặc trưng sẽ được tính
13


tốn và phân vào các nhóm theo một tiêu chí nào đó nhờ vào SVM. Trong đề tài các
tác giả đã dùng LDA cho việc gán nhãn các đặc trưng hình ảnh nhằm mục đích tránh
sử dụng thuật toán phân cụm, một trong những nguyên nhân gây hao tốn tài nguyên
hệ thống khi phải làm việc trên một số lượng lớn các đặc trưng.
• Bài báo “Unsupervised real-time constrained linear discriminant analysis to
hyperspectral image classification”, Qian Du, Department of Electrical and Computer
Engineering, Missisippi State University, MS 39762, USA. Accepted 14 August 2006
[15].

Khi số lượng các đặc trưng trở lên nhiều thì việc tính tốn sẽ gặp nhiều khó khăn
tác giả Qian Du đã cải thiện được thuật toán CLDA theo cách không giám sát nhằm
mục đích các đặc trưng được phân vào các nhóm trong khi các khái niệm nhóm đó là
chưa có. Vốn dĩ CLDA là một phương pháp có giám sát tức là các đặc trưng cần được
gán cho một trọng số, một nhãn nào đó mà đã có khái niệm trước đó. Trong thực tế
thì việc làm này gặp khó khăn vì phải phân định rõ ràng trọng số hay tên nhóm trước.
• Bài báo “Image Classification using Super-Vector Coding of Local Image
Descriptors” của tác giả XiZhou, Kai Yu, Tong Zhang, Thomas S.Huang [9].
Trong bài báo tác giả đã đề xuất một phương thức mới trong việc phân loại ảnh đó
là sử dụng vec-tor để miêu tả ảnh cục bộ. Công việc được thực hiện bằng cách tìm ra
các nhóm đặc trưng đại diện cho một bức ảnh. Phương pháp phân loại ảnh trải qua 3
bước: Mô tả mã hóa, tính tốn khơng gian tởng hợp, và phân loại ảnh. Trong việc mơ
tả mã hóa của một tấm ảnh được ánh xạ phi tuyến tính để tạo ra một vec-tor với số
chiều tối thiểu, trong bài báo có đề xuất một phương pháp tạm gọi là Super-vector
mã hóa, tḥt tốn là một mở rộng của VQ (Vector-Quantization). Ở bước tính tốn
khơng gian tởng hợp, đối với mỗi khu vực địa phương, các mã hóa của tất cả các mơ
tả trong đó được tởng hợp lại để tạo thành một vec-tơ duy nhất sau đó các vec-tơ này
được tởng hợp lại tạo thành cơ sở dùng để tính toán độ tương đồng giữa các miêu tả
cục bộ. SVM tuyến tính là cách thức được chọn trong bài báo này dùng để phân loại
ảnh.
• Bài báo “Object Recognition from Local Scale-Invariant Features” của tác giả
David G. Lowe, thuộc khoa khoa học máy tính, trường đại học British Columbia [6].
14


David G. Lowe cũng chính là tác giả đưa ra khái niệm về đặc trưng cục bộ bất biến
Local Scale-Invariant Features (SIFT), được ứng dụng nhiều trong các bài toán truy
tìm ảnh, phân loại ảnh và xác thực. Các đặc trưng hình ảnh bao gồm nhiều loại: màu
sắc, kết cấu, hình dạng…tuy nhiên các đặc trưng này ít nhiều lại phụ thuộc vào không
gian ảnh, biến đổi ảnh. Trong công việc xác định đối tượng trong ảnh, tác giả đã lưu

trữ các đặc trưng và đánh chỉ mục cho chúng khi các ảnh tham gia truy vấn sẽ được
rút ra các đặc trưng SIFT và đem ra so sánh với các đặc trưng đã có trong cơ sở dữ
liệu. Việc làm này sẽ làm hao tốn rất nhiều thời gian tính tốn của hệ thống.
• Bài báo “Texture classification of aerial image based on bayesian network
augmanted naïve bayes”, YU Xin, ZHENG Zhaobao, ZHANG Haitao, YE Zhiwei.
Bài báo đã có sự so sánh hai phương thức Bayesian Networks Augmented Naive
Bayes (BAN) và Naive Bayes Classifiers (NBC) and PCA-NBC trong phân loại ảnh
và nhận thấy BAN chạy tốt hơn NBC và PCA-NBC [14].
• Bài báo “Speeded-up Robust Features (SURF), Herbert Bay, Andreas Ess, Tinne
Tuytelaars, Luc Van Gool, 12/2007 [13].
Bài báo với mong muốn thay thế đặc trưng SIFT bằng SURF và sử dụng ma trận
Hessian để đo bộ phát hiện đặc trưng, nhằm ứng dụng trong các hệ thống camera.
• Bài báo “Recognizing Indoor Scenes”, Ariadna Quattoni, Antonio Torralba.
Trong khi các công cụ xác định quang cảnh chỉ tập trung ở không gian ngồi trời
thì bài báo đã chọn khơng gian trong nhà để xác định, vì những nhược điểm của các
cơng cụ xác định loại quang cảnh ngoài trời sẽ kém linh hoạt trong không gian trong
nhà, tác giả bài báo đã đưa ra một phương thức hiện đại đó là Regions Of Interest
(ROI), tạm gọi vùng đặc trưng bằng cách di chuyển khung đối chiếu độc lập với nhau.
1.3.2 Trong nước
Trong nước tuy còn ít đề tài nghiên cứu về lĩnh vực phân loại ảnh, mà chỉ tập trung
chủ yếu vào nghiên cứu các cơng cụ đối sánh ảnh, tìm ảnh nhưng có sử dụng các đặc
trưng bất biến cùng các kỹ thuật phân cụm và cây quyết định. Điển hình cho vấn đề
này có các bài báo sau:

15


• Đề tài “Phương pháp trích chọn đặc trưng ảnh trong tḥt tốn học máy tìm kiếm
ảnh áp dụng vào bài tốn tìm kiếm sản phẩm”, Ngũn Thị Hồn.
Đề tài có giới thiệu và ứng dụng đặc trưng SIFT cho bài tốn của mình.

• Đề tài “Nghiên cứu phương pháp kết hợp các đặc trưng màu sắc hình dạng và vị trí
để truy vấn ảnh”, luận văn thạc sĩ của tác giả Trần Sơn Hải, năm 2007.
Luận văn này đã đề xuất một phương pháp kết hợp các đặc trưng màu sắc, hình
dạng và vị trí bằng hệ thống liên mạng meta-Nơron. Hệ thống liên mạng meta-Nơron
không những áp dụng vào các đặc trưng màu sắc, hình dạng và vị trí của ảnh mà cịn
có thể áp dụng cho các đặc trưng lượng tử khác. Các đặc trưng lượng tử bất kỳ rút
trích từ ảnh sẽ qua các mạng Nơron con cho ra các đầu ra cục bộ. Các đầu ra của các
mạng con sẽ là ngõ vào của mạng meta-Nơron để cho ra các kết quả đầu ra cuối cùng
của toàn hệ thống liên mạng.
1.4 Mục tiêu luận văn và phương pháp thực hiện
Mục tiêu của luận văn:
+ Hiểu rõ và cải tiến các phương pháp biểu diễn ảnh bằng bộ từ điển để phù hợp với
ứng dụng đang hiện thực.
+ Hiểu các phương pháp phân loại ảnh có độ chính xác cao và thời gian và độ phức
tạp trong tính toán phù hợp với ứng dụng thời gian thực là phân loại xe.
+ Hiện thực phần mềm ứng dụng phân loại cho 5 lớp xe: xe hơi, xe tải, xe container,
xe khách (16 chỗ ngồi), xe buýt (24 chỗ ngồi).
+ Đánh giá và đưa ra hướng phát triển cho đề tài.
Đối tượng nghiên cứu:
+ Các tập tin hình ảnh.
Sau quá trình nghiên cứu và đọc nhiều tài liệu, tôi đã đề ra phương pháp thực hiện
cho luận văn của mình:
+ Với những ưu điểm vượt trội về độ chính xác, ít bị ảnh hưởng bởi điều kiện ánh
sáng, nhiễu, góc nhìn, hay góc quay,…Luận văn áp dụng phân tích thành phần đặc
trưng bất biến của tấm ảnh cụ thể là thuật toán SIFT phục vụ cho việc tiến hành rút
lấy những đặc trưng bất biến của ảnh.
16


+ Để thành lập bộ từ điển biểu diễn cho các đặc trưng trích xuất được từ các ảnh, luận

văn chọn phương pháp Bow, mô hình đã chứng minh được tính ổn định và chính xác
qua các nghiên cứu trong nhiều năm. Tuy nhiên phương pháp này cho kết quả độ
chính xác cao thông qua bộ phân loại SVM phi tuyến. Bộ SVM phi tuyến đòi hỏi độ
phức tạp tính toán cao, thời gian xử lý lâu, chỉ phù hợp với việc phân loại ảnh trong
các ứng dụng không đòi hỏi phải xử lý nhanh. Với ứng dụng phân loại xe được thực
hiện trong đề tài đòi hỏi thời gian xử lý nhanh. Do đó luận văn sẽ cải tiến mô hình
Bow truyền thống bằng cách sử dụng thêm phương pháp mã hóa tuyến tính cục bộ
LLC trong quá trình biểu diễn các đặc trưng thông qua bộ từ điển để có thể đưa vào
phân loại bởi bộ SVM tuyến tính không những cho ra kết quả phân loại độ chính xác
không hề thua kém SVM phi tuyến mà còn cải tiến thời gian huấn luyện và nhận
dạng.
+ Do đó bộ huấn luyện và phân loại ảnh sẽ sử dụng là SVM tuyến tính.
Phạm vi đề tài tập trung nghiên cứu, giải qút các vấn đề sau:
+ Tìm hiểu tởng quan về vấn đề cần nghiên cứu.
+ Tìm hiểu cách thức phương pháp SIFT tương tác với tập tin ảnh để rút ra đặc trưng.
+ Tìm hiểu mơ hình túi từ Bow.
+ Tìm hiểu giải thuật LLC.
+ Tìm hiểu bộ phân loại SVM.
+ Xây dựng bộ dữ liệu dùng để tạo bộ từ điển và huấn luyện bộ phân loại.
+ Xây dựng quy trình phân loại ảnh.
+ Hiện thực phần mềm ứng dụng phân loại xe.
+ Đánh giá kết quả so sánh với phương pháp truyền thống.
1.5 Sơ lược về nội dung luận văn
Luận văn gồm 5 chương:
Chương 1: Trình bày giới thiệu tởng quan về bài tốn phân loại ảnh. Ứng dụng
rộng rãi đa dạng của phân loại ảnh trong cuộc sống, từ đó nêu lên ý nghĩa khoa học
và ý nghĩa thực tiễn của đề tài luận văn. Thông qua những tài liệu nghiên cứu được

17



trong và ngoài nước, tác giả đặt ra mục tiêu và phương pháp thực hiện cho luận văn
của mình, và cuối cùng là tóm tắt sơ lược nội dung trình bày của luận văn.
Chương 2: Tóm lược lý thuyết được sử dụng trong luận văn: giải thuật SIFT dùng
để trích xuất đặc trưng trong ảnh, mô hình Bow và giải thuật K-means dùng để tạo từ
điển kết hợp giải thuật LLC để tạo bộ mô tả cho các đặc trưng của ảnh, cuối cùng là
bộ phân loại SVM tuyến tính dùng cho việc huấn luyện và phân loại ảnh.
Chương 3: Mô tả cách thiết kế phần mềm ứng dụng phân loại xe dựa trên lý thuyết
nghiên cứu ở chương 2. Trong đó sẽ giới thiệu sơ lược về tính năng của ứng dụng,
cách cấu hình và sử dụng thư viện mã nguồn mở OpenCV chuyên về xử lý ảnh tích
hợp với bộ thư viện giao diện tương tác MFC của Microsoft trên IDE Visual Studio.
Chương 4: Trình bày kết quả ứng dụng và so sánh giữa việc kết hợp giải thuật
LLC vào mô hình Bow với mô hình Bow truyền thống dựa trên thông tin về thời gian
huấn luyện, độ chính xác trung bình, và thời gian nhận dạng một ảnh đầu vào.
Chương 5: Kết luận dựa kết quả đạt được từ lý thuyết và thực nghiệm, cuối cùng
đưa ra định hướng phát triển.

18


CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
2.1 Tổng quan về phân loại ảnh
Lĩnh vực phân loại ảnh hiện nay đang được quan tâm nghiên cứu và ứng dụng rất
nhiều. Phân loại ảnh được sử dụng trong nhiều ứng dụng như: nhận dạng khuôn mặt,
vật thể, cảnh vật… Dùng trong phân tích nội dung video: nhận dạng hoạt động, sự
kiện, tổng hợp… Dùng trong quản lý thông tin thị giác: đánh dấu, tìm kiếm khôi phục
ảnh… và rất nhiều các ứng dụng như tự nhận diện khuôn mặt trong ảnh (Facebook,
Google+), nhận diện ảnh và truyền thông xã hội (Kooaba).
Ngày nay số lượng ảnh càng ngày càng lớn, việc phân loại ảnh bằng cách thủ cơng,
tức là nhìn vào nội dung tấm ảnh sau đó gán chúng vào một hay nhiều lớp cụ thể nào

đó khơng còn hiệu quả nữa. Hệ thống quản lý tập tin ảnh gồm nhiều ảnh cho nên việc
làm này sẽ tốn rất nhiều thời gian, công sức và do đó là khơng khả thi. Do vậy mà
phải có các phương pháp phân loại tự động. Một trong những mô hình phân loại ảnh
tự động phổ biến được sử dụng rộng rãi hiện này là Bow.
2.2 Mơ hình túi từ Bow
2.2.1 Giới thiệu
Mô hình túi từ Bow là mô hình rất phổ biến trong các ứng dụng nhận dạng. Mơ
hình Bow mượn từ bài tốn phân loại văn bản. Trong một văn bản có chứa rất nhiều
từ, tương tự trong một bức ảnh có nhiều đặc trưng và mỗi đặc trưng được xem như là
một từ. (Nguồn: internet)

Hình 2-1 Tương quan giữa hình ảnh và văn bản
19


Và trong mỗi loại văn bản khác nhau lại chứa những từ, cụm từ mang ngữ nghĩa
đặc trưng mà khi đọc lên con người ta có thể biết được nó là loại văn bản gì. Điều đó
cũng tương tự cho những đặc trưng trong một bức ảnh. (Nguồn: Recognizing and
Learning Object Categories: Year 2007, Li Fei Fei)

Hình 2-2 Sự khác nhau giữa hai loại văn bản
Dựa vào tần số xuất hiện của các từ chuyên biệt cho từng loại văn bản, người ta có
thể phân loại cho văn đó. Tương tự cho việc phân loại ảnh. Sự khác nhau giữa các
biểu đồ biểu diễn tần số xuất hiện của các đặc trưng được dùng làm đầu vào cho quá
trình phân loại. (Nguồn: Recognizing and Learning Object Categories: Year 2007, Li
Fei Fei)

Hình 2-3 Biểu đồ tần số của các ảnh mô hình Bow
20



Mô hình túi từ gồm các bước cơ bản sau:
+ Đầu tiên là trích xuất các đặc trưng trong tất cả các bức ảnh. (Nguồn: Recognizing
and Learning Object Categories: Year 2007, Li Fei Fei)

Hình 2-4 Trích xuất đặc trưng của ảnh
+ Sau đó gom tất cả các đặc trưng lại với nhau, tạo thành bộ từ điển chung: (Nguồn:
Recognizing and Learning Object Categories: Year 2007, Li Fei Fei)

Hình 2-5 Tạo bộ từ điển từ những đặc trưng của các ảnh
+ Biểu diễn mỗi ảnh bằng biểu đồ tần số xuất hiện của các đặc trưng trong ảnh:
(Nguồn: Recognizing and Learning Object Categories: Year 2007, Li Fei Fei)

Hình 2-6 Biểu đồ tần số dùng để phân loại ảnh
+ Cuối cùng là dùng biểu đồ này đưa qua bộ phân loại để huấn luyện và tiến hành
phân loại.
2.2.2 Mô hình
Hệ thống phân loại ảnh cơ bản Bow được mô tả bởi mô hình sau:
21


Hình 2-7 Mô hình Bow
Để phát hiện và trích xuất các đặc trưng người ta có rất nhiều lựa chọn: HarrisAffine, Hessian-Affine, MSER, IBR &EBR, Salient region detector, SIFT, HOG
(Histogram of Oriented Gradients), SUFT, CENTRIST, filter-based... Đề tài luận văn
đã chọn SIFT với độ ổn định, chính xác cao, ít bị ảnh hưởng bởi góc nhìn, ảnh bị
xoay...

Hình 2-8 Bước trích xuất đặc trưng
Từ những đặc trưng đó ta sẽ tạo thành bộ từ điển với số lượng từ được định nghĩa
trước, có rất nhiều giải thuật làm được điều này: K-means clustering, Vocabulary

tree, Gaussian Mixture model, Randomized clustering forest, Information loss
minization, Latent mixture model, Compact codebooks. Với những cụm dữ liệu lớn,
22


×