Tải bản đầy đủ (.pdf) (65 trang)

Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.39 MB, 65 trang )

ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

THÁI NGỌC DUNG

ĐỀ TÀI LUẬN VĂN THẠC SĨ

Xây dựng framework tổng quát cho hệ thống phát
hiện và phân loại phương tiện giao thông
A framework for vehicles detection and classification
Chuyên ngành: Khoa học máy tính

LUẬN VĂN THẠC SĨ

Tp. Hồ Chí Minh – Tháng 06 năm 2014


2
CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM

Cán bộ hướng dẫn khoa học: PGS. TS. Thoại Nam
TS. Lê Thành Sách
Cán bộ chấm nhận xét 1:
Cán bộ chấm nhận xét 2:

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCM ngày 14 tháng 07 năm 2014.

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. TS., Chủ tịch.


2. TS., Phản biện 1.
3. TS., Phản biện 2.
4. TS., Ủy viên.
5. TS., Thư kí.

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).

CHỦ TỊCH HỘI ĐỒNG

TS.

TRƯỞNG KHOA KH & KT MÁY TÍNH

PGS.TS. THOẠI NAM

Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao
thông


3
ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH
KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT
NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Thái Ngọc Dung
Ngày, tháng, năm sinh: 07/11/1989
Chuyên ngành: Khoa Học Máy Tính

MSHV : 12070500
Nơi sinh: Gia Lai
Mã số : 604801

I. TÊN ĐỀ TÀI : XÂY DỰNG FRAMEWORK TỔNG QUÁT CHO HỆ THỐNG
PHAT HIỆN VÀ PHÂN LOẠI PHƯƠNG TIỆN GIAO THÔNG (A framework
for vehicles detection and classification)
II.

NHIỆM VỤ VÀ NỘI DUNG:
-

Tìm hiểu các kiến thức về các phương pháp phân loại và phát hiện phương
tiện giao thơng.

-

Tìm hiểu vấn đề phân loại đối tượng có kích thước nhỏ và cấu trúc phức tạp
dựa trên rút trích đặc trưng và mơ hình Bag-of-Visual Words.

-

Nghiên cứu và đề xuất một giải pháp phân loại và phát hiện phương tiện
giao thơng, trong đó tập trung vào đối tượng xe máy.

III.

IV.
V.

NGÀY GIAO NHIỆM VỤ: 24/06/2013
NGÀY HOÀN THÀNH NHIỆM VỤ: 23/05/2014
CÁN BỘ HƯỚNG DẪN: PGS. TS. Thoại Nam và TS. Lê Thành Sách

Tp. HCM, ngày 14 tháng 07 năm 2014
CÁN BỘ HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

TRƯỞNG KHOA KHOA HỌC & KĨ THUẬT MÁY TÍNH

PGS.TS. THOẠI NAM
Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao
thông


4

LỜI CẢM ƠN
Trong suốt q trình học tập và hồn thành luận văn này, tôi đã nhận được sự
hướng dẫn, giúp đỡ quý báu của các thầy cô, các anh chị, các em và các bạn. Với lòng
kính trọng và biết ơn sâu sắc tôi xin được bày tỏ lới cảm ơn chân thành tới:
Ban giám hiệu, Phòng đào tạo sau đại học, Khoa Khoa Học Kĩ Thuật Máy Tính
trường Đại Học Bách Khoa – Đại Học Quốc Gia TPHCM đã tạo mọi điều kiện thuận
lợi giúp đỡ tôi trong q trình học tập và hồn thành luận văn.
Phó giáo sư- Tiến sĩ Thoại Nam và Tiến sĩ Lê Thành Sách, những người thầy
kính mến đã hết lòng giúp đỡ, dạy bảo, động viên và tạo mọi điều kiện thuận lợi cho

tơi trong suốt q trình học tập và hồn thành luận văn tốt nghiệp.
Xin chân thành cảm ơn các thầy cô trong hội đồng chấm luận văn đã cho tơi những
đóng góp quý báu để hồn chỉnh luận văn này.
Xin gửi lới cảm ơn tới bạn bè, các anh chị em trong Khoa Khoa Học Kĩ Thuật Máy
Tính đã động viên và giúp đỡ tôi trong những lúc tôi gặp khó khăn.

Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


5

TÓM TẮT LUẬN VĂN
Recent growth of traffic surveillance based on computer vision techniques has caught
more and more attentions from researchers. Since the detection of vehicles is the
primary step of such system, there is a large body of works has been made to develop
an efficient detection scheme on various operating conditions. However, they mainly
focus on car and pedestrian. In this paper, we shifted our attention to motorbike, which
is also a common road user and are is complex due to its small size, high variant and a
high degree of occlusion. Our proposed method takes advantages of the local features
to achieve robustness to changes in illuminations, affine transformations and
occlusions. Next, the local features are used to construct a Bag of Visual Words model
for representing objects via their parts. This representation is then learned using a
Support Vector Machine to classify motorbike and non-motorbike objects. We also
develop an algorithm for forming a detection hypothesis from this binary classifier.
Finally, we evaluate our method on a dataset of 3000 images of motorbike and nonmotorbike objects. The experimental results show that our proposed method can
achieve high accuracy in the context of real-life motorbike detection applications.
Trong những năm gần đây, những nghiên cứu về xây dựng hệ thống giám sát giao
thơng dựa trên thị giác máy tính ngày càng nhận được nhiều sự quan tâm từ giới
nghiên cứu. Mà trong đó, bài tốn phân loại và phát hiện phương tiện giao thông là
một trong những bước cơ sở đối với những hệ thống nêu trên. Do đó, nhiều nghiên cứu

đã được thực hiện nhằm đóng góp những phương pháp hiệu quả để phân loại và phát
hiện phương tiện trong những điều kiện hoạt động đa dạng của hệ thống. Tuy nhiên,
phần lớn các nghiên cứu đều tập trung vào đối tượng xe hơi và người đi đường. Trong
khi đó, đối tượng xe máy cũng là một thành phần giao thơng phổ biến lại chưa được
quan tâm đúng mức. Vì lí do đó, luận văn đề xuất một phương pháp tổng quát để phân
loại và phát hiện phương tiện giao thơng, trong đó tập trung chủ yếu vào phương tiện
xe máy. Do đối tượng xe máy có kích thước nhỏ, lại có cấu trúc phức tạp và đa dạng,
ngồi ra còn dễ bị che khuất cho nên phương pháp được đề xuất đã xem xét và đề ra
những phương án đề khắc phục những vấn đề này. Đầu tiên, phương pháp tận dụng
các giải thuật rút trích và biểu diễn đặc trưng để xây dựng nguyên liệu cho việc biểu
diễn đối tượng dựa trên các thành phần đặc trưng. Qua đó hạn chế ảnh hưởng của mơi
Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


6
trường, mức sáng, góc quay và che phủ giữa các đối tượng đối với kết quả phân loại
đối tượng. Những đặc trưng được rút trích từ tập ảnh đối tượng sau đó được dùng để
xây dựng mơ hình Bag-of-Visual Words, từ đó biểu diễn đối tượng dưới dạng thống kê
của các bộ phận đặc trưng cho đối tượng. Tiếp theo, những biểu diễn này được dùng
để học bộ phân loại nhị phân Support Vector Machine (SVM) để phân loại giữa xe
máy và các đối tượng khác. Luận văn cũng đề xuất một giải pháp xây dựng giả thiết
phát hiện đối tượng từ ảnh toàn cảnh dựa trên bộ phân loại nói trên. Cuối cùng, để
đánh giá phương pháp phân loại và phát hiện phương tiện giao thông được đề xuất,
luận văn xây dựng một tập dữ liệu trong đó có 3000 ảnh đối tượng trong điều kiện hoạt
động thực tế của hệ thống. Kết quả thực nghiệm cho thấy phương pháp đã đề xuất đạt
được kết quả với độ chính xác cao trong ngữ cảnh hoạt động thực tế của phương pháp.
Trước yêu cầu trên, luận văn này sẽ nghiên cứu và đề ra một giải pháp cho việc
phân loại và phát hiện phương tiện giao thơng, trong đó tập trung chủ yếu vào
phương tiện xe máy
Nội dung của cuốn luận văn được trình bày như sau:

 Chương 1: giới thiệu về đề tài, mục tiêu và ý nghĩa khoa học và ý nghĩa
thực tiễn của đề tài.
 Chương 2: trình bày các cơ sở lý thuyết liên quan đến đề tài như rút trích và
biểu diễn đặc trưng, mơ hình Bag-of-Visual Words, Support Vector
Machine.
 Chương 3: trình bày các nghiên cứu có liên quan đến đề tài, phân tích ưu
nhược điểm từ đó đưa ra hướng phát triển của đề tài.
 Chương 4: viết về hướng tiếp cận cũng như cách giải quyết vấn đề phân loại
và phát hiện phương tiện giao thông.
 Chương 5: các đánh giá nhằm chứng minh giải pháp mà luận văn này đề
nghị là hiệu quả.
 Chương 6: tổng kết những việc làm được, chưa làm cũng như hướng phát
triển của đề tài.
 Phụ lục: các bài báo kết quả của nghiên cứu này.

Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


7

LỜI CAM ĐOAN
Tôi xin cam đoan kết quả trong luận văn này là cơng trình nghiên cứu của tơi,
các số liệu, kết quả nêu trong luận văn là trung thực và chưa được cơng bố trong các
cơng trình khác.
Học Viên Cao Học

THÁI NGỌC DUNG

Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông



8
MỤC LỤC
LỜI CẢM ƠN ..................................................................................................................4
TÓM TẮT LUẬN VĂN ..................................................................................................5
LỜI CAM ĐOAN ............................................................................................................7
MỤC LỤC .......................................................................................................................8
Chương 1. Giới thiệu đề tài .........................................................................................12
1.1

Lý do chọn đề tài..............................................................................................12

1.2

Mục tiêu nghiên cứu ........................................................................................13

1.3

Ý nghĩa .............................................................................................................15

1.3.1

Ý nghĩa khoa học ......................................................................................15

1.3.2

Ý nghĩa thực tiễn .......................................................................................15

Chương 2. Cơ sở lý thuyết ..........................................................................................17
2.1


Rút trích và biểu diễn đặc trưng .......................................................................17

2.1.1

Khái niệm và cở sở lý thuyết.....................................................................18

2.1.2

Một số phương pháp rút trích và biểu diễn đặc trưng ...............................19

2.2

Mơ hình Bag-of-Visual Words ........................................................................22

2.3

Support Vector Machine ..................................................................................24

Chương 3. Các cơng trình nghiên cứu liên quan.........................................................27
3.1

Phân loại đối tượng dựa trên mơ hình Bag-of-Keypoints ................................28

3.1.1

Rút trích và biểu diễn đặc trưng ................................................................28

3.1.2


Xây dựng tập từ vựng ................................................................................29

3.1.3

Phân loại đối tượng ...................................................................................30

3.2

Phát hiện đối tượng dựa trên biểu diễn thành phần đối tượng .........................30

3.2.4

Xây dựng tập từ vựng ................................................................................31

3.2.5

Biểu diễn ảnh đối tượng ............................................................................32

3.2.6

Học bộ phân loại .......................................................................................33

Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


9
3.2.7
3.3

Xây dựng giả thiết phát hiện đối tượng.....................................................33


Kết luận ............................................................................................................34

Chương 4. Phát hiện xe máy dựa trên mơ hình Bag-of-Visual Words .......................35
4.1

Tổng quan hệ thống .........................................................................................35

4.2

Giải thuật rút trích và biểu diễn đặc trưng .......................................................36

4.2.1

Scale Invariant Feature Transform (SIFT) ................................................37

4.2.2

Dense Scale Invariant Feature Transform (DSIFT) ..................................42

4.2.3

Speeded-Up Robust Feature (SURF) ........................................................43

4.2.4

Spatial Pyramid Kernel .............................................................................45

4.3


Mơ hình Bag-of Visual Words .........................................................................46

4.4

Bộ phân loại dựa trên SVM .............................................................................48

4.5

Xây dựng giả thiết phát hiện phương tiện giao thơng .....................................49

Chương 5. Thí nghiệm và đánh giá .............................................................................52
5.1

Xây dựng tập dữ liệu ........................................................................................52

5.2

Đánh giá độ chính xác của bộ phân loại ..........................................................53

5.3

Đánh giá độ chính xác của giả thiết phát hiện .................................................54

Chương 6. Tổng kết và hướng phát triển ....................................................................58
6.1

Tổng kết ...........................................................................................................58

6.2


Hướng phát triển ..............................................................................................59

TÀI LIỆU THAM KHẢO .............................................................................................62
PHỤ LỤC ......................................................................................................................65

Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


10
1. THAI Ngoc Dung, LE Thanh Sach, THOAI Nam: A fast method for
background subtraction with Gaussian Mixture Model on GPU. Journal of
Science and Technology, Vietnam Academy of Science and Technology, ISSN
0866-708X, Vol. 51, No. 4B, 2013, pp. 61-69 (a Special Issue on ACOMP
2013)

Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


11
Hình 1. Biểu diễn đối tượng thơng qua đặc trưng của đối tượng ............................................. 18
Hình 2. Ví dụ khái niệm hình ảnh của đối tượng ..................................................................... 22
Hình 3. Tổng quan mơ hình Bag-of-Visual Words ................................................................. 23
Hình 4. Cơ sở lý thuyết của mơ hình Support Vector Machine ............................................... 24
Hình 5. Vùng đặc trưng được phát hiện bằng Harris affine detector ....................................... 29
Hình 6. Tập từ vựng của đối tượng xe hơi xây dựng dựa trên tốn tử Forstner. ...................... 31
Hình 7. Cụm bộ phận đối tượng tạo ra bằng cách gom cụm những bộ phận tương tự ............ 31
Hình 8. Biểu diễn tập ảnh mẫu của đối tượng trong quá trình học bộ phân loại. ..................... 33
Hình 9. Tổng quan phương pháp phân loại và phát hiện xe máy ............................................. 35
Hình 10. Xây dựng khơng gian tỉ lệ cho rút trích đặc trưng..................................................... 37
Hình 11. Áp dụng tốn tử Difference of Gaussian (DoG) trên khơng gian tỉ lệ ...................... 38

Hình 12. Xác định điểm cực trị từ tập ảnh DoG....................................................................... 39
Hình 13. Ví dụ histogram hướng tại một vị trí đặc trưng. ........................................................ 41
Hình 14. Biểu diễn đặc trưng SIFT đối với mỗi vị trí đặc trưng. ............................................. 42
Hình 15. Biểu diễn véc tơ đặc trưng SIFT cho bộ phận đối tượng. ......................................... 42
Hình 16. Rút trích đặc trưng dựa trên một cửa sổ trượt Gaussian. ........................................... 43
Hình 17. Tạo ảnh integral từ ảnh đối tượng gốc. ...................................................................... 44
Hình 18. Xấp xỉ ảnh tỉ lệ bằng Gaussian và Box Filter. ........................................................... 44
Hình 19. Xây dựng tập từ vựng và biểu diễn ảnh bằng mơ hình Bag-of-Visual Words .......... 46
Hình 20. So sánh kết quả phân loại giữa các kernel SVM đối với cùng tập huấn luyện. ........ 48
Hình 21. Kết quả phân loại các vị trí trong ảnh tồn cảnh ....................................................... 50
Hình 22. Quá trình xây dựng activation map sử dụng bi-harmonic fitting .............................. 51
Hình 23. Tập dữ liệu mẫu cho huấn luyện đánh giá độ chính xác của bộ phân loại. ............... 53
Hình 24. Những vị trí tương đối giữa vùng chân trị và vùng đối tượng được phát hiện .......... 55
Hình 25. Độ chính xác của giải thuật phát hiện cho mỗi khung ảnh ........................................ 56
Hình 26. Kết quả phương pháp phân loại và phát hiện phương tiện được đề xuất .................. 56

Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


12

Chương 1.

Giới thiệu đề tài

1.1 Lý do chọn đề tài
Trong những năm trở lại đây, việc xây dựng hệ thống giám sát giao thơng dựa trên
thị giác máy tính ngày càng nhận được nhiều sự quan tâm của giới nghiên cứu. Một
trong những nguyên nhân là sự phát triển nhanh chóng của khoa học kỹ thuật khiến
cho lượng tài nguyên và dữ liệu dùng cho tính tốn trở nên hết sức dồi dào. Hệ thống

camera giao thơng sẵn có mở ra khả năng ứng dụng cao như thống kê lượng phương
tiện giao thơng, phân tích hành vi của người đi đường, phát hiện vi phạm luật giao
thông v.v... Đồng thời, cũng đặt ra u cầu về hệ thống tính tốn tự động thay thế cho
con người. Một nguyên nhân khác là nhờ có sự đóng góp của các nhà nghiên cứu trong
việc xây dựng và phát triển các kỹ thuật thị giác máy tính dùng cho hệ thống giám sát
giao thơng. Sự sẵn có của các hệ thống tính tốn hiệu năng cao cho phép sử dụng các
kỹ thuật tính tốn với độ phức tạp lớn và độ chính xác cao. Nhiều hệ thống giám sát
giao thông đã được xây dựng và đưa vào thử nghiệm trên thế giới như SCOCA [1], hệ
thống theo vết phương tiện Motris [2], v.v... đạt được nhiều kết quả khả quan.
Là bước đầu tiên trong hệ thống giám sát giao thông, phương pháp phát hiện và
phân loại phương tiện giao thơng có ảnh hưởng lớn đến độ chính xác của tồn bộ hệ
thống. Vấn đề đặt ra là do tính chất đặc trưng của hệ thống yêu cầu tầm hoạt động
rộng, áp dụng được cho nhiều điều kiện môi trường như thay đổi mức sáng, thời tiết
v.v… Điều này làm ảnh hưởng không nhỏ tới kết quả phân loại và phát hiện. Vì vậy,
phần lớn các nghiên cứu hiện nay đều tập trung nâng cao độ chính xác của giải thuật
phát hiện và phân loại phương tiện giao thơng. Điển hình như trong [3] [4] và [5] áp
dụng các phương pháp từ frame differencing, wavelet, background subtraction GMM
đạt được độ chính xác ngày càng cao (94.7%, 97%, 95%) trong điều kiện môi trường
thay đổi. Một vấn đề khác trong giám sát giao thông ở mơi trường đơ thị, đó là sự che
khuất giữa các phương tiện giao thông. Trong điều kiện mật độ giao thông cao, hay
các phương tiện di chuyển gần nhau, dẫn tới hình chiếu của các phương tiện bị dính
liền, gây khó khăn cho việc phân loại và phát hiện từng đối tượng tham gia giao thông.
Một vài nghiên cứu đã đề xuất giải pháp cho vấn đề này như [6] và [7], tuy nhiên chưa
triệt để giải quyết cho môi trường đô thị mà chủ yếu áp dụng cho đường cao tốc.

Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


13
Với những ứng dụng thiết thực cũng như những tồn tại nêu trên, việc xây dựng

phương pháp phát hiện và phân loại phương tiện giao thông là bước đầu tiên quan
trọng trong xây dựng hệ thống giám sát giao thông. Bên cạnh đó, những nghiên cứu
trước đây đều tập trung vào phát hiện và phân loại phương tiện kích thước lớn như ô
tô, xe tải v.v... Trong khi xe máy cũng là một trong những phương tiện giao thông phổ
biến lại chưa được quan tâm đúng mức. Đặc điểm của xe máy so với các phương tiện
giao thông khác là có kích thước nhỏ hơn, tuy nhiên lại có cấu trúc phức tạp hơn. Kết
hợp với sự thay đổi của môi trường như mức sáng, thời tiết, màu sắc v.v... yêu cầu giải
thuật phân loại và phát hiện xe máy phải hiệu quả trên tập dữ liệu có mức độ hỗn loạn
lớn. Ngoài ra, do cấu tạo phức tạp nên với thay đổi góc nhìn nhỏ dẫn đến sự thay đổi
lớn đối với hình chiếu của xe máy. Cùng với kích thước nhỏ dẫn đến dễ bị che khuất
bởi các phương tiện cùng loại hay khác loại khiến cho việc phát hiện và tách rời từng
đối tượng xe máy trong khung hình hết sức phức tạp. Người điều khiển xe máy cũng là
một nhân tố gia tăng độ sai khác của ảnh xe máy, làm giảm tính hội tụ của tập dữ liệu
trong học máy.

1.2 Mục tiêu nghiên cứu
Dựa trên cơ sở lý thuyết các nghiên cứu về phát hiện và phân loại giao thông, luận
văn đề xuất giải pháp phân loại và phát hiện phương tiện giao thông. Trong đó tập
trung giải quyết các vấn đề sau
 Xây dựng phương pháp phân loại và phát hiện hiệu quả trong điều kiện thay
đổi của môi trường hoạt động như mức sáng, thời tiết v.v...
 Phân loại và phát hiện đối tượng độc lập trong trường hợp đối tượng bị biến
đổi bởi tỉ lệ kích thước, phép xoay và độc lập tương đối đối với thay đổi góc
quay.
 Phát triển giả thiết phát hiện và tách rời từng đối tượng trong trường hợp
xảy ra che khuất giữa các đối tượng cùng loại hoặc khác loại.
Thông qua tổng quan nghiên cứu, hiện nay có hai phương pháp phân loại và phát
hiện chính. Phương pháp cổ điển phát hiện hình chiếu của các đối tượng chuyển động
dựa trên khác biệt giữa các khung hình theo dịng thời gian, sau đó phân loại hình
chiếu của đối tượng thu được. Phương pháp này có khả năng hoạt động hiệu quả trong

điều kiện thay đổi của môi trường. Tuy nhiên, vấn đề che khuất giữa các đối tượng
Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


14
chưa thể giải quyết một cách triệt để. Do đó, đề tài nghiên cứu đi sâu và phương pháp
phân loại và phát hiện phương tiện dựa trên phân loại và phát hiện bộ phận đối tượng
được ứng dụng từ nhận dạng đối tượng động gần đây. Phương pháp này có khả năng
phát hiện đặc trưng của đối tượng trong khung ảnh tĩnh, thông qua phân loại bộ phận
đối tượng được tổng hợp thành đối tượng hoàn chỉnh. Ưu điểm của phương pháp này
là dựa trên đặc trưng cục bộ nên ít bị ảnh hưởng bởi các nhân tố như thay đổi mức
sáng, tỉ lệ, góc quay v.v... Hơn nữa, do việc phân loại và phát hiện dựa trên bộ phận
đối tượng nên trong trường hợp đối tượng bị che khuất mà vẫn giữ được một số lượng
đặc trưng nhất định thì vẫn có thể được phân loại và phát hiện đúng.
Như đã nêu ở phần 1.1, xe máy là một trong những phương tiện phổ biến nhưng lại
chưa được quan tâm đúng mức. Bên cạnh đó, bài tốn phân loại và phát hiện xe máy
trong khung hình là bài tốn khó do những đặc điểm của xe máy. Vì vậy, trong phạm
vi nghiên cứu của luận văn tập trung vào phân loại và phát hiện xe máy, phương pháp
hoàn toàn tương tự có thể được áp dụng cho các loại phương tiện khác. Ngồi ra,
phương pháp được đề xuất có khả năng phân loại và phát hiện trong khung hình tĩnh,
khơng cần kết hợp đặc tính thời gian. Nhờ đó, các khung hình có thể được xử lý độc
lập, song song với nhau. Khung ảnh được quay với góc nhìn từ trên xuống cho phép
giảm bớt độ biến đổi của vật thể nhưng vẫn đảm bảo thị trường quan sát đủ rộng cho
các ứng dụng về sau.
Để đánh giá độ chính xác của phương pháp phân loại và phát hiện phương tiện, cần
thiết phải có một tập dữ liệu có tính khái qt cao đối với các điều kiện có thể xảy ra
trong ngữ cảnh thực tế của hệ thống. Tuy nhiên, hiện nay chưa có một tập dữ liệu
chung để đánh giá mà trong đó chứa xe máy trong điều kiện mật độ giao thông cao.
Do vậy, đề tài luận văn đồng thời xây dựng một tập dữ liệu cho việc phân tích và đánh
giá độ chính xác của phương pháp phân loại và phát hiện phương tiện giao thơng. Tập

dữ liệu được quay tại giao lộ với góc quay từ trên xuống, trải dài trong những khoảng
thời gian khác nhau trong ngày để thu được sự thay đổi mức sáng, mơi trường cũng
như mật độ giao thơng.
Tóm lại, đề tài nghiên cứu cần xây dựng một giải pháp cho việc phân loại và phát
hiện phương tiện giao thông, trong đó tập trung vào đối tượng xe máy. Phương pháp
này được áp dụng cho khung ảnh tĩnh và với góc nhìn từ trên xuống. Đồng thời, đề tài

Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


15
luận văn cũng cần xây dựng một tập dữ liệu mẫu để phân tích và đánh giá hiệu quả của
phương pháp được đề xuất ở trên.

1.3 Ý nghĩa
Thông qua việc tìm hiểu và phát triển phương pháp phân loại và phát hiện phương
tiện giao thơng, đề tài luận văn có ý nghĩa đóng góp cho hệ thống giám sát giao thông,
và rộng hơn là nghiên cứu về nhận dạng đối tượng. Đồng thời mở ra khả năng ứng
dụng hiệu quả trong môi trường thực tế, mà đặc biệt là trong trường hợp xe máy là đối
tượng phổ biến.
1.3.1 Ý nghĩa khoa học
Đối với nghiên cứu khoa học nói chung, đề tài có ý nghĩa thực nghiệm, phân tích
và đánh giá các bước trong phương pháp phân loại và phát hiện phương tiện giao
thông dựa trên bộ phận đặc trưng cho đối tượng. Để biểu diễn bộ phận đặc trưng cho
đối tượng, có nhiều phương pháp từ đơn giản dùng trực tiếp ảnh bộ phận đối tượng [8]
đến phức tạp hơn như trích xuất đặc trưng tại các điểm cực trị trong ảnh đối tượng, ví
dụ như trong [9] [12] và [13]. Đề tài luận văn tổng hợp và đánh giá các cách biểu điễn
bộ phận đặc trưng cho đối tượng theo những yêu cầu mà bài toán đặt ra ở phần 1.2.
Ngồi ra, đề tài còn có ý nghĩa mở rộng từ phân loại bộ phận đối tượng thành một giả
thiết hoàn chỉnh để phát hiện nhiều đối tượng trong khung hình với độ che khuất cao

giữa các đối tượng.
Tuy đề tài nghiên cứu tập trung vào phân loại và phát hiện xe máy, nhưng có thể
mở rộng áp dụng cho các đối tượng có kích thước nhỏ và kết cấu phức tạp trong điều
kiện độ che phủ cao, thay đổi góc quay và ảnh nền nhiễu lớn. Việc phân loại và phát
hiện đối tượng dựa trên bộ phận đặc trưng còn cho phép phát hiện sớm khi phương
tiện mới vào khung hình. Bên cạnh đó, phương pháp này có thể hoạt động trên ảnh
tĩnh, có ý nghĩa lớn trong việc song song hóa hệ thống nhờ cho phép các khung ảnh
hồn tồn độc lập với nhau và với trình tự thời gian.
1.3.2 Ý nghĩa thực tiễn
Hệ thống giám sát giao thơng có tính ứng dụng và ý nghĩa to lớn đối với việc phát
triển chất lượng của hệ thống giao thông. Tuy nhiên, thách thức lớn đối với hệ thống
chính là tầm hoạt động rộng và mơi trường hoạt động thay đổi. Việc phát triển hệ
thống phân loại và phát hiện giao thông với vai trò là bước đầu của hệ thống có ý
Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


16
nghĩa nâng cao hiệu quả của hệ thống giám sát giao thơng. Từ đó giúp cho các ứng
dụng dựa trên hệ thống giám sát giao thơng hoạt động chính xác hơn, nâng cao chất
lượng của hệ thống giao thông.
Một yếu tố khác biệt của hệ thống giám sát giao thông giữa các quốc gia đó là vận
hành trên thành phần tham gia giao thông khác nhau. Đối với thực tế giao thông ở Việt
Nam, đối tượng tham gia giao thông chính là xe máy. Do đó, với việc tập trung vào
phân loại và phát hiện đối tượng xe máy, đề tài có tính ứng dụng cao phù hợp với điều
kiện thực tế ở nước ta.

Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


17


Chương 2.

Cơ sở lý thuyết

Trong hệ thống giám sát giao thông, bước phân loại và phát hiện phương tiện giao
thông cho phép xác định hai thông tin cơ bản, quan trọng nhất đó là loại phương tiện
giao thơng vị trí của phương tiện giao thơng đó trong khung ảnh. Phương pháp truyền
thống dựa trên cơ sở phát hiện đối tượng chuyển động (hay thay đổi) trong khung ảnh
so với ảnh nền. Theo đó, phương tiện giao thơng được xem là đối tượng động
(foreground object) và được phát hiện bằng cách tách ra khỏi ảnh nền dưới dạng hình
chiếu (silhouette) của đối tượng 3D trong khung ảnh. Sau đó hình chiếu này được đưa
sang bộ phân loại để xác định loại của phương tiện giao thông. Như vậy, dễ thấy rằng
trong trường hợp các đối tượng che khuất lẫn nhau, hình chiếu của những đối tượng đó
sẽ bị nhập nhằng, ảnh hưởng đến kết quả phân loại từ đó giảm độ chính xác của
phương pháp. Trong những nghiên cứu gần đây, những thành tựu của nhận dạng đối
tượng dựa trên đặc trưng đã gợi mở hướng tiếp cận mới cho phân loại và phát hiện
phương tiện giao thông. Dựa trên cơ sở lý luận về biểu diễn đối tượng dựa trên một tập
các bộ phận hay đặc trưng của đối tượng, đối tượng có thể được phân loại dựa trên bộ
phận hay đặc trưng của nó. Sau đó bộ phận đối tượng được tổng hợp thành đối tượng
và vị trí của nó trong khung ảnh. Do đối tượng được xác định dựa trên bộ phận nên có
thể tận dụng tính chất thống kê tập bộ phận hợp thành đối tượng. Từ đó ít bị ảnh
hưởng bởi sự che khuất giữa các đối tượng với nhau. Trên cơ sở lý thuyết đã nêu kết
hợp với những yêu cầu đặt ra của bài toán, dề tài luận văn lựa chọn phương pháp phân
loại và phát hiện phương tiện giao thông dựa trên bộ phận đối tượng. Trong chương
này xin trình bày cơ sở lý thuyết chi tiết cho từng bước của phương pháp nêu trên.

2.1 Rút trích và biểu diễn đặc trưng
Bước đầu để xây dựng phương pháp phân loại và phát hiện phương tiện giao thông
hiệu quả là việc biểu diễn ảnh phương tiện giao thông sao cho ảnh hưởng của mức

sáng, tỉ lệ, góc quay v.v... là nhỏ nhất. Từ ý tưởng ban đầu là biểu diễn ảnh phương
tiện thông qua ảnh bộ phận, đến nay việc biểu diễn ảnh phương tiện được thực hiện
thơng qua việc rút trích và biểu diễn đặc trưng của ảnh phương tiện. Trong mục này
xin được giới thiệu khái niệm và cơ sở lý thuyết của việc rút trích và biểu diễn đặc
trưng, đồng thời giới thiệu một vài phương pháp rút trích và biểu diễn đặc trưng được
dùng trong đề tài luận văn.
Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


18
2.1.1 Khái niệm và cở sở lý thuyết
Đặc trưng (features hay interest points) của một ảnh đối tượng là những vị trí trong
ảnh có tính chất đại diện cho ảnh, phân biệt với những điểm ảnh lân cận. Mỗi đặc
trương thường gắn liền với một hoặc một vài đặc điểm như mật độ, màu sắc, hay vật
liệu (texture) v.v... của ảnh đối tượng. Đặc trưng có thể được trích xuất từ ảnh như
những điểm, cạnh hoặc một phần nhỏ của ảnh (image patches) sau đó được biểu diễn
thành véc-tơ đặc trưng (descriptors) từ vùng ảnh có trung tâm tại đặc trưng được trích
xuất. Cụ thể, những đặc trưng của đối tượng có thể được hiểu đơn giản như trình bày ở
Hình 1 sau đây

Hình 1. Biểu diễn đối tượng thơng qua đặc trưng của đối tượng như điểm nối
(junctions), cạnh (edges) và ví dụ về đặc trưng của ảnh đối tượng được trích
xuất dựa trên phát hiện cạnh.

Luận điểm trung tâm của việc phân loại đối tượng thông qua tập đặc trưng là sự
tồn tại mang tính chất thống kê của những vị trí ảnh mà tại đó có một hoặc một vài đặc
điểm không thay đổi của đối tượng trong những điều kiện môi trường khác nhau hay
từ đối tượng này sang đối tượng khác của cùng một lớp đối tượng. Việc rút trích và
biểu điễn đặc trưng cho phép tạo ra một tập hợp những véc-tơ đặc trưng thỏa mãn tính
chất nêu trên. Tập đặc trưng này mang tính đại diện cho những tính chất chung nhất

của lớp đối tượng, tạo điều kiện cho việc phân loại đối tượng hiệu quả đối với sự thay
đổi của môi trường. Đồng thời, cũng cho phép đưa những đặc điểm mang ngữ nghĩa
chuyên biệt vào mỗi loại đặc trưng khác nhau phù hợp với từng ngữ cảnh ứng dụng ví
dụ như đặc trưng cạnh để nhận điện đường phố trong ảnh vệ tinh, đặc trưng Haar-like
để nhận dạng khuôn mặt v.v...
Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


19
2.1.2 Một số phương pháp rút trích và biểu diễn đặc trưng
Đặc trưng có thể được rút trích và biểu diễn bằng nhiều phương pháp, từ đơn giản
đến phức tạp. Ở đây có thể phân làm hai bước nhỏ, trước tiên vị trí đặc trưng được
trích xuất từ ảnh đối tượng, sau đó thơng qua bước biểu diễn đặc trưng để tạo thành tập
véc-tơ đặc trưng. Một phương pháp rút trích có thể được sử dụng với nhiều cách biểu
diễn khác nhau và ngược lại. Dưới đây xin giới thiệu sơ lược các phương pháp đã
được đề xuất đối với hai bước trên.
Phương pháp trích xuất đơn giản nhất là lấy mẫu phân phối đều (uniformly
sampling) từ không gian ảnh [8] [9] và [10]. Phương pháp này có ưu điểm là số lượng
đặc trưng luôn cố định cho từng ảnh và việc trích xuất đơn giản, u cầu tính tốn
thấp. Tuy nhiên, cũng do vị trí lấy mẫu được phân phối đều, như nhau cho mọi ảnh
nên tập đặc trưng có thể có độ hội tụ khơng cao và nhạy cảm đối với vị trí của đối
tượng trong ảnh. Từ đó, dẫn đến khoảng cách lấy mẫu cần đủ hẹp mới có thể đạt được
độ chính xác cao. Kết quả là tập đặc trưng có khả năng có kích thước rất lớn và u
cầu tính tốn cao ở bước xây dựng bộ phân loại về sau. Dựa trên những quan sát về
tầm quan trọng của góc (corners) và điểm nối (junctions) trong ảnh, nghiên cứu [11]
chỉ ra rằng ảnh của những cấu trúc nhân tạo thường chứa nhiều những điểm đặc trưng
trên. Theo đó, nhiều nghiên cứu đề xuất những biện pháp trích xuất dựa trên phát hiện
góc và điểm nối như [12] [13] và [14]. Những phương pháp trích xuất đặc trưng này
cho phép phát hiện những điểm bất biến trong ảnh đối với thay đổi về vị trí đối tượng,
tỉ lệ, góc quay v.v... Điểm yếu của phương pháp này là số lượng đặc trưng của tập đặc

trưng thu được không ổn định. Đối với các ảnh đối tượng q nhỏ có thể khơng thu
được đủ đặc trưng để đưa ra kết luận về loại đối tượng.
Phương pháp biểu diễn đặc trưng đơn giản nhất là basic patch based trong đó trực
tiếp sử dụng giá trị điểm ảnh của bộ phận đối tượng như [8]. Phương pháp này rất
nhạy cảm với thay đổi của môi trường cũng như góc quay của đối tượng. Để hạn chế
ảnh hưởng của mơi trường và góc quay, đặc trưng có thể được biểu diễn dưới dạng
véc-tơ gradient như trong [12] [13] hoặc histogram [9] [14] thay vì sử dụng giá trị
điểm ảnh. Bên cạnh đó, một số các thơng tin khác như hướng quay (rotations) của đối
tượng có thể được mã hóa trong véc-tơ đặc trưng, cho phép đặc trưng có độ bất biến
tương đối với các phép biến đổi như biến đổi tỉ lệ ảnh, phép xoay v.v...

Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


20
Dựa trên tổng quan nghiên cứu về rút trích và biểu diễn đặc trưng, đối chiếu với bài
toán với đối tượng cụ thể là phương tiện giao thông, đề tài luận văn xem xét một số
phương pháp rút trích và biểu diễn đặc trưng như sau:
 Scale Invariant Feature Transform (hay SIFT) được giới thiệu trong nghiên
cứu [12]. Ý tưởng của phương pháp này ngữ nghĩa của đặc trưng đối tượng
chỉ có thể được nhận biết ở một tỉ lệ nhất định. Nghĩa là khi ta phóng to hay
thu nhỏ ảnh đối tượng đến một mức nào đó, ta khơng còn có thể nhận biết
đối tượng trong ảnh. Tương tự như trường hợp ta sử dụng ảnh vệ tinh để
quan sát bề mặt trái đất, ở một mức tỉ lệ nhất định ta có thể nhận biết xe,
nhà cửa nhưng càng thu nhỏ lại, như ở mức quan sát cả thành phố hay quốc
gia, những chi tiết này bị mất đi kiến ta không thể nhận biết những đối
tượng trên nữa. Như vậy, trong một khoảng tỉ lệ ảnh nhất định, có sự tồn tại
của những điểm đặc trưng mà từ đó ta có thể nhận biết đối tượng. Dựa trên
cơ sở trên, tác giả của [12] đề xuất phương pháp rút trích đặc trưng trên tập
mẫu được tạo ra bằng cách sinh ảnh từ ảnh trong tập gốc với những tỉ lệ

khác nhau. Những điểm có sự thay đổi khơng đáng kể ở những tỉ lệ khác
nhau chính là những điểm đặc trưng cần tìm. Nghiên cứu cũng đề xuất biểu
diễn đặc trưng dưới dạng véc-tơ gradient và thông tin về hướng xoay của
đối tượng dưới dạng histogram. Để đánh giá hiệu quả của phương pháp,
[12] đưa ra một ví dụ nhận dạng đối tượng trong ảnh 600x480 pixels. Kết
quả thực nghiệm cho thấy phương pháp này có thể ứng dụng để nhận dạng
đối tượng trong điều kiện thay đổi mức sáng, tỉ lệ, hướng xoay của đối
tượng trên nền ảnh nhiễu hoặc trong điều kiện bị che phủ.
 Dense Scale Invariant Feature Transform (hay DSIFT) được đề xuất trong
nghiên cứu [10]. Đối với những ảnh đối tượng có kích thước nhỏ, số lượng
đặc trưng cho mỗi ảnh được trích xuất bằng SIFT khơng ổn định và có thể
khơng đủ để phân loại đối tượng. Vì vậy, phương pháp Dense SIFT đề nghị
việc lấy mẫu phân bố đều trên mắt lưới dày (dense grid) của khung ảnh thay
vì trích xuất đặc trưng tại điểm cực trị, sau đó chuyển đổi thành véc-tơ đặc
trưng tương tự như phương pháp SIFT.
 Speed-Up Robust Feature (hay SURF) được giới thiệu trong nghiên cứu
[13]. Phương pháp này cũng dựa trên trích xuất đặc trưng tại các điểm cực
Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


21
trị của ảnh tương tự như SIFT. Tuy nhiên, tại bước rút trích đặc trưng, tác
giả [13] cho rằng việc sử dụng xấp xỉ Gaussian trong thực tế là quá mức cần
thiết, có khả năng dẫn tới trường hợp false positive cao. Do đó, phương
pháp đề xuất gia tăng ràng buộc khơng gian bằng cách sử dụng Box Filter
thay vì xấp xỉ Gaussian. Đồng thời, việc tính tốn cho Box Filter có thể lợi
dụng tính chất của ảnh integral để giảm độ phức tạp tính tốn. Kết quả thực
nghiệm cho thấy phương pháp này có độ chính xác lớn hơn SIFT khoảng
10% trên tập dữ liệu của Mikolajczyk [15]. Bên cạnh đó, phương pháp này
cịn có tốc độ tính tốn nhanh và khả năng song song hóa dễ dàng.

Tựu chung, các phương pháp nói trên đều hướng tới xây dựng một tập đặc trưng
cho phân loại đối tượng hiệu quả trong trường hợp thay đổi mức sáng, góc quay, tỉ lệ
v.v... Tuy nhiên, các phương pháp trên chỉ cung cấp một tập các đặc trưng cục bộ, độc
lập với nhau mà chưa cho phép đưa dữ liệu không gian giữa các điểm đặc trưng. Trong
nghiên cứu [12], tác giả đề nghị đối với các ảnh đối tượng có kích thước nhỏ như xe
máy, đặc trưng khơng gian có thể được đưa vào bằng cách thay vì chỉ trích xuất đặc
trưng trên một ảnh, đặc trưng được trích xuất từ một tập hình chóp ảnh (pyramid
images) được cắt ra từ ảnh gốc. Hay nói cách khác, áp dụng một spatial pyramid
kernel [16] trong trích xuất đặc trưng. Từ đó cho phép các đặc trưng ở trung tâm có
trọng số cao hơn so với các đặc trưng ở vùng rìa của ảnh, qua đó nâng cao độ chính
xác của bộ phân loại. Kết quả thực nghiệm cho thấy phương pháp này có khả năng
tăng độ chính xác của bộ phân loại lên 10% trên tập dữ liệu của Caltech-10 [17] và
TRECVID 2006 [18].
Như vậy, dựa trên cở sở lý thuyết của các phương pháp rút trích và phát hiện đặc
trưng nói trên, thơng qua phân tích và đánh giá các số liệu dựa trên cơ sở lý thuyết của
những nghiên cứu trước, có thể thấy việc lựa chọn đặc trưng phù hợp cho bài tốn
đóng vai trò quan trọng đối với độ chính xác của hệ thống. Do đó, đề tài luận văn tiến
hành thực nghiệm, xem xét các phương pháp rút trích và biểu diễn đặc trưng nói trên
trong ngữ cảnh thực tế phân loại và phát hiện phương tiện giao thơng. Mà trong đó, tập
trung vào bài tốn với đối tượng xe máy đáp ứng những yêu cầu như kích thước nhỏ,
cấu trúc phức tạp, ảnh đối tượng đa dạng với góc quay thay đổi. Bên cạnh đó, luận văn
cũng kết hợp đánh giá ảnh hưởng của thông tin cấu trúc của các bộ phận đối tượng
trong không gian đối với việc biểu diễn ảnh đối tượng một cách chính xác.
Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


22

2.2 Mơ hình Bag-of-Visual Words
Mơ hình Bag-of-Visual Words (BoVW) là một mơ hình tổng qt hóa khái niệm

hình ảnh của lớp đối tượng thơng qua biểu diễn hình ảnh dưới dạng một "túi" (hay một
tập phức hợp) chứa các "từ" hay đặc trưng của ảnh đối tượng mà không quan tâm tới
vị trí hay thứ tự của những đặc trưng trên mà chỉ quan tâm tới tần số xuất hiện của
những "từ" này trong ảnh đối tượng. Mơ hình này đã được ứng dụng trong lĩnh vực
phân tích văn bản, nhưng được giới thiệu cho ứng dụng xử lý hình ảnh lần đầu tiên
trong [19] và được trình bày rõ hơn trong [20].
Ý tưởng của mơ hình này dựa trên khái niệm tương tự trong xử lý ngôn ngữ tự
nhiên ở mức phân tích văn bản. Trong đó, một văn bản có thể được đại diện bởi một
véc-tơ tần suất của những từ khóa đặc trưng. Ví dụ như những từ “cổ phần”, “cân đối
kế tốn”, “báo cáo tài chính” được sử dụng thường xuyên trong những văn bản về chủ
đề “kinh tế” hơn trong những loại văn bản khác. Do đó, tập từ vựng trên có thể được
dùng để phân biệt loại văn bản trên với những loại văn bản khác. Tương tự, những bộ
phận đặc trưng như bánh xe, đèn xe cũng có thể đại diện cho phương tiện giao thông.
Những nghiên cứu gần đây như [21] [22] và [23] đã khẳng định sự tương quan ngữ
nghĩa của đặc trưng đối với từng loại đối tượng hình ảnh khác nhau. Với lý do trên, mơ
hình tương tự cũng có thể được áp dụng đối với phân loại đối tượng hình ảnh.
Như đã nói ở trên, mục tiêu của mơ hình BoVW là xây dựng một biểu diễn đối
tượng ảnh, từ đó tổng qt hóa khái niệm hình ảnh (visual concept) của một lớp đối
tượng. Ở đây, khái niệm hình ảnh của một lớp đối tượng được hiểu như là một đại diện
tổng quát cho một tập các trường hợp hay biểu diễn khác nhau của một đối tượng. Ví
dụ như khái niệm hình ảnh của lớp đối tượng "cây" là đại diện tổng quát cho tập những
đối tượng cây khác nhau như trong Hình 2. Đối tượng mới được phân loại dựa trên
những khái niệm ảnh được tổng qt hóa từ khơng gian đối tượng.

Hình 2. Khái niệm hình ảnh (visual concept) của đối tượng “cây”
được tổng quát hóa trên một tập ảnh những đối tượng cây có trong
thực tế.
Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông



23
Với mục tiêu xây dựng khái niệm hình ảnh cho một lớp đối tượng, mơ hình BoVW
hoạt động theo ngun lý được trình bày sau đây. Trước tiên, từ mỗi ảnh đối tượng
trong tập ảnh mẫu một tập từ vựng được trích xuất biểu diễn cho ảnh đó. Tập từ vựng
(visual words) ở đây chính là tập hợp các véc-tơ đặc trưng được rút trích và biểu diễn
như đã trình bày ở phần 2.1. Từ tập từ vựng trên ta xây dựng được một không gian từ
vựng chứa tất cả các từ vựng từ những ảnh đối tượng khác nhau. Để tổng qt hóa tập
từ vựng trên, mơ hình BoVW áp dụng giải thuật phân cụm (clustering) trong không
gian từ vựng. Những mẫu từ vựng ở trung tâm mỗi cụm có thể được xem như từ khóa
đại diện cho tồn cụm từ vựng tương ứng. Tập hợp những mẫu từ vựng ở trung tâm
này được gọi là từ điển hình ảnh (visual dictionary). Sử dụng từ điển hình ảnh này, ảnh
đối tượng được biểu diễn dưới dạng một biểu đồ tần số (histogram) của số lượng từ
trong từ điển xuất hiện trong ảnh đối tượng tương ứng. Hình 3 mơ tả một cách tổng
qt q trình xây dựng mơ hình BoVW và biểu diễn một ảnh đối tượng của mô hình
này.

Hình 3. Tổng quan quá trình xây dựng và biểu diễn một ảnh đối tượng của mơ hình
Bag-of-Visual Words. Bao gồm quá trình học tập từ vựng và biểu diễn đối tượng thuộc các
lớp đối tượng khác nhau bằng tập từ vựng nói trên.
Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


24
Có được véc-tơ histogram của mỗi ảnh đối tượng, bước tiếp theo để tổng quát hóa
đối tượng là sử dụng cộng gộp những đặc trưng chung của những véc-tơ trên bằng các
phương pháp học máy. Từ đó thu được khái niệm hình ảnh của đối tượng dưới dạng
giả thiết của bộ học và có thể sử dụng để phân loại đối tượng.

2.3 Support Vector Machine
Support Vector Machine (SVM) là mô hình học máy có giám sát thường được áp

dụng để phân tích và học mẫu trong tập dữ liệu, từ đó đưa ra giả thiết phân loại đối
tượng (classification) hoặc phân tích hồi quy (regression). Trên lý thuyết, SVM là một
thuật toán phân loại nhị phân nhưng trong thực tế có thể được mở rộng để phân loại
nhiều lớp đối tượng bằng phương pháp one-against-all. Trong mục này, luận văn phân
tích cơ sở lý thuyết của mơ hình SVM trong trường hợp là bộ phân loại nhị phân.
Nguyên lý hoạt động của SVM dựa trên tối ưu hóa một mặt hyperplane phân chia
không gian đối tượng thành hai lớp sao cho khoảng cách từ các mẫu huấn luyện đến
hyperplane này là xa nhất có thể. Các mẫu mới được biểu diễn trong cùng khơng gian
trên và được dự đốn thuộc lớp nào tùy thuộc vào vị trí của mẫu nằm ở phía nào của
hyperplane. Như ta đã biết, mục tiêu của mơ hình học máy cho phân loại đối tượng là
tạo ra một giả thiết phân chia không gian đối tượng thành không gian lớp đối tượng.
Tuy nhiên, giả thiết phân loại nào mới là tốt nhất? Trong Hình 4, ta có thể thấy đối với
một khơng gian đối tượng, có thể tồn tại rất nhiều giả thiết phân loại.

Hình 4. (Từ trái sang phải) Cơ sở lý thuyết của mơ hình Support Vector Machine. (a) Những
giả thiết phân loại có thể tồn tại (b) Khi thêm mẫu mới vào khơng gian đối tượng (c) Giả thiết
tối ưu hóa khoảng lề của SVM.

Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


25
Để đánh giá các giả thiết phân loại này, ta thử đưa một mẫu mới vào không gian
trên và phân tích kết quả dự đốn của mẫu mới có trùng hợp với chân trị hay khơng.
Như trong hình minh họa, mẫu mới thêm vào tuy rất gần với những mẫu sẵn có của
lớp (A), nhưng do giả thiết phân loại quá gần với tập mẫu của lớp (A) nên mẫu mới
thêm vào bị dự đoán sai vào lớp (B). Như vậy, dễ dàng thấy rằng nếu giả thiết phân
loại quá gần với mẫu huấn luyện thì giả thiết sẽ rất nhạy cảm với nhiễu và không đúng
trong trường hợp tổng qt khi có mẫu mới thêm vào. Vì vậy, bên cạnh chia tách
không gian đối tượng thành hai lớp đối tượng, SVM đồng thời tìm một giả thiết sao

cho khoảng cách đến tất cả các mẫu là xa nhất có thể. Khoảng cách này được gọi là
khoảng lề (margin). Mục tiêu của mơ hình SVM là tối đa hóa khoảng lề trên.
Trước tiên, ta cần định nghĩa một giả thiết phân loại đối tượng hay một mặt
hyperplane phân chia không gian đối tượng thành hai lớp tương ứng như sau

𝑓(𝑥) = 𝛽0 + 𝛽 𝑇 𝑥
Trong đó β là véc-tơ trọng số (weight vector) và β0 là độ thiên vị (bias) tương ứng
với mỗi thành phần của giá trị đầu vào x. Mặt hyperplane tối ưu có thể được biểu diễn
bằng vô hạn cách khác nhau bằng cách thay đổi giá trị của βvà β0. Để chuẩn hóa ta
chọn họ hyperplane đảm bảo

|𝛽0 + 𝛽 𝑇 𝑥| = 1
Trong đó x đại diện cho mẫu trong tập huấn luyện mà gần nhất với mặt hyperplane.
Những mẫu này được gọi là support vectors. Biểu diễn mặt hyperplane như trên được
gọi là mặt hyperplane chuẩn hóa (canonical hyperplane). Như vậy, khoảng cách từ một
mẫu đến mặt hyperplane (β, β0) có thể được định nghĩa như sau

|𝛽0 + 𝛽 𝑇 𝑥|
𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒 =
||𝛽||
hay, trong trường hợp mặt hyperplane chuẩn hóa

𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑒𝑠𝑢𝑝𝑝𝑜𝑟𝑡 𝑣𝑒𝑐𝑡𝑜𝑟𝑠

|𝛽0 + 𝛽 𝑇 𝑥|
1
=
=
||𝛽||
||𝛽||


Gọi khoảng lề (margin) ở trên là M, ta có

𝑀=

2
||𝛽||

Xây dựng framework tổng quát cho hệ thống phát hiện và phân loại phương tiện giao thông


×