Tải bản đầy đủ (.docx) (69 trang)

Nghiên cứu ứng dụng mạng nơ ron tích chập phát hiện và phân loại phương tiện giao thông

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.54 MB, 69 trang )

1

MỤC LỤC


2

DANH MỤC HÌNH VẼ


3

DANH MỤC CÁC CHỮ VIẾT TẮT
TT
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.

Từ viết tắt


LBP
CNN
R-CNN
HoG
XML

Từ viết đầy đủ
Local Binary Pattern
Convolutional Neural Network
Region-based Convolutional Network
Histogram Of Oriented Gradient
eXtensible Markup Language (Ngôn ngữ

PTZ
FPS
JPG
GPS
GIS
LAN
XLA
CNTT
UBND
YOLO

đánh dấu mở rộng)
Pan–Tilt–Zoom
frame per second
Joint Photographic Experts Group
Global Positioning System
Geographic Information System

Local Area Network
Xử lý ảnh
Công nghệ thông tin
Ủy Ban Nhân Dân
You only look once


4

MỞ ĐẦU
1. Tính cấp thiết của đề tài
Ngày nay, với sự phổ biến của các thiết bị số như camera, máy ảnh và
điện thoại thơng minh thì lượng thơng tin mà con người thu được dưới dạng
hình ảnh là rất lớn. Các thơng tin hình ảnh này cần được tổng hợp, phân tích
và xử lý để ứng dụng trong các lĩnh vực khác nhau của đời sống, kinh tế, xã
hội. Thực tế từ đầu những năm 2000, công nghệ xử lý ảnh đã được nghiên
cứu và có những bước phát triển rực rỡ, tạo điều kiện để ứng dụng các mơ
hình học máy, học sâu trong lĩnh vực computer vision. Các ứng dụng công
nghệ xử lý ảnh hiện đang rất phổ biến như nhận dạng vân tay, nhận dạng
khuôn mặt, phát hiện đối tượng chuyển động. Bên cạnh đó, các hệ thống
camera giám sát ngày càng được ứng dụng rộng rãi trong đời sống xã hội với
nhiều mục đích khác nhau. Một trong những ứng dụng quan trọng của chúng
hiện nay là các hệ thống camera giao thơng đang góp phần giải bài toán bức
thiết trong quản lý và điều hành giao thông tại Việt Nam, nâng cao năng lực
vận tải của hệ thống giao thông, giảm ùn tắc và tai nạn giao thông, từng bước
xây dựng hệ thống giao thông thông minh và đưa hệ thống giao thông Việt
Nam tiến lên hiện đại, tiệm cận với các nước phát triển trên thế giới.
Trang bị các hệ thống camera độ phân giải cao mới chỉ là điều kiện cần,
trang bị phần vỏ. Việc nghiên cứu và ứng dụng các mô hình xử lý ảnh tiên
tiến để phát triển các phần mềm thu thập, xử lý dữ liệu hình ảnh từ camera để

đưa ra các thơng tin hữu ích trong quản lý và điều hành giao thông mới là
điều quan trọng nhất. Convolutional Neural Network (CNNs – Mạng nơ-ron
tích chập) là một trong những mơ hình Deep Learning tiên tiến giúp chúng
ta xây dựng được những hệ thống thông minh với độ chính xác cao hiện nay,
như hệ thống xử lý ảnh lớn mà Facebook, Google hay Amazon đã đưa vào sản
phẩm của mình những chức năng thơng minh như nhận diện khuôn mặt người
dùng, phát triển xe hơi tự lái hay drone giao hàng tự động...
Xuất phát từ thực tiễn đó, luận văn “Nghiên cứu ứng dụng mạng nơ
ron tích chập phát hiện và phân loại phương tiện giao thông” thực sự mang


5

tính cấp thiết, có ý nghĩa khoa học và ứng dụng trong thực tiễn.
2. Đối tượng và phạm vi nghiên cứu
-

Một số giải pháp ứng dụng machine learning, computer vision trong phát hiện
đối tượng trên ảnh.

-

Mạng nơ ron tích chập (Convolution neural network - CNN)

-

Các mơ hình mạng nơ ron tích chập cải tiến: RCNN, Fast CNN, Yolo...

-


Bài tốn phát hiện và phân loại đối tượng theo thời gian thực.

-

Ứng dụng mạng nơ ron tích chập theo vùng RCNN và các mơ hình cải tiến để
phát hiện và phân loại phương tiện giao thơng theo thời gian thực.

-

Dữ liệu hình ảnh từ camera giám sát giao thông được đưa vào mơ hình để thử
nghiệm mơ hình.
3. Hướng nghiên cứu của đề tài
Nghiên cứu mơ hình sử dụng mạng nơ ron phát hiện đối tượng trên ảnh,
áp dụng cho bài toán phát hiện và phân loại phương tiện giao thông. Nghiên cứu
mơ hình sử dụng mạng nơ ron tích chập cải tiến tốc độ và độ chính xác của các
mơ hình truyền thống khác. Nghiên cứu xây dựng được mơ hình thử nghiệm với
đầu vào là dữ liệu ảnh thu thập từ camera giám sát giao thông.
4. Những nội dung nghiên cứu chính
Chương 1: Tổng quan về ứng dụng xử lý ảnh trong quản lý và điều
hành giao thông thông minh
Chương 2: Mạng nơ ron tích chập và ứng dụng trong phát hiện và phân
loại đối tượng
Chương 3: Ứng dụng CNN phân loại phương tiện giao thông
Kết luận và hướng phát triển
Tài liệu tham khảo
Phụ lục (Các chương trình ứng dụng)
5. Phương pháp nghiên cứu

-


Tổng hợp các nghiên cứu thuộc phạm vi của đề tài ở trong và ngoài nước.

-

Kế thừa và phát triển các nghiên cứu về mạng nơ ron tích chập và các mơ


6

hình cải tiến để phát hiện và phân loại đối tượng.
-

Viết chương trình thử nghiệm mơ hình mạng nơ ron tích chập trong phát hiện
và phân loại phương tiện giao thông.
6. Ý nghĩa khoa học của đề tài
Nghiên cứu vấn đề ứng dụng mạng nơ ron tích chập phát hiện và phân
loại phương tiện giao thơng có ý nghĩa và vai trị to lớn trong việc giúp tăng
cường an tồn giao thông đường bộ. Luận văn đã sử dụng một số giải pháp
ứng dụng machine learning và mạng nơ ron tích chập (Convolution neural
network - CNN) để phát hiện và phân loại phương tiện giao thông theo thời
gian thực. Do vậy, luận văn có tính khoa học và ứng dụng thực tiễn.


7

CHƯƠNG 1
TỔNG QUAN VỀ ỨNG DỤNG XỬ LÝ ẢNH
TRONG GIAO THƠNG THƠNG MINH
1.1. Xu hướng cơng nghệ trên thế giới
Ứng dụng xử lý ảnh cùng các môn khoa học liên quan khác như thị

giác máy tính và thị giác máy… (Hình 1) là lĩnh vực đang được nhiều tổ chức
khoa học - công nghệ lớn trên thế giới đầu tư nghiên cứu, phát triển. Xử lý
ảnh và rộng hơn là thị giác máy được đánh giá là một trong những cơng nghệ
có tiềm năng ứng dụng cao trong các lĩnh vực của xã hội hiện đại. Trong phần
này, đề tài chỉ giới thiệu một số ứng dụng tiêu biểu có liên quan của XLA
trong lĩnh vực giao thông vận tải.

Hình 1.1: Xử lý ảnh và các lĩnh vực khoa học liên quan
1.1.1 Một số thuật ngữ phổ biến
Deep learning:
Deep learning là một kĩ thuật học máy (Machine Learning) tiên tiến, nó
cho phép học trực tiếp các đặc trưng từ tập mẫu (hình ảnh, âm thanh, văn


8

bản…) thay vì phải thực hiện trích rút đặc trưng như trong các phương pháp
học máy truyền thống.

Hình 1.2: Khác nhau giữa học máy truyền thống và Deep learning trong
phân lớp đối tượng
Deep learning trở nên phổ biến trong thập kỉ gần đây vì nhu cầu xử lý
tự động lượng lớn dữ liệu số mà loài người tạo ra. Sự phát triển nhanh của
Deep learning một phần còn nhờ vào sức mạnh xử lý của máy tính ngày càng
cao. Hiện tại, Deep learning đang được ứng dụng để giải quyết rất hiệu quả
các bài toán xử lý ảnh số và video, xử lý tiếng nói và ngơn ngữ tự nhiên, nhận
dạng chữ viết...
Mạng nơ–ron tích chập (Convolutional Neural Networks - CNN):
CNN là một trong những mơ hình Deep Learning phù hợp với các ứng
dụng xử lý ảnh yêu cầu độ chính xác cao. Cấu trúc CNN bao gồm nhiều tầng,

các tầng được liên kết với nhau thông qua cơ chế tích chập: tầng sau bằng
tầng trước nhân với một ma trận filter. Giá trị của ma trận filter được xác định
thơng qua q trình huấn luyện. Hiện tại CNN là cơng cụ mạnh để giải quyết
bài tốn phân lớp và nhận dạng đối tượng trong ảnh.
1.1.2. Mơ hình SegNet [20]
SegNet là mơ hình phân vùng ảnh sử dụng mạng nơ-ron tích chập được
nhóm Computer Vision and Robotics Group của đại học University of
Cambridge phát triển. Một trong những ứng dụng của nó là phân tích trạng


9

thái giao thông theo thời gian thực. Trong ứng dụng này, một camera được
gắn trên xe để thu nhận hình ảnh phía trước xe, kết quả xử lý ảnh sẽ cho biết
mật độ giao thơng trên đoạn đường phía trước thơng qua các số liệu như: Diện
tích đường trống, diện tích đường bị chiếm dụng, số lượng và loại đối tượng
phía trước (các loại xe, người đi bộ, vật cản…)

Hình 1.3: Mô hình SegNet (nguồn [20])
1.1.3. Hệ thống xe tự lái của Google [21]
Dự án phát triển xe tự lái của Google bắt đầu thực hiện từ năm 2009.
Hệ thống xe tự lái của Google có khả năng xác định được được vị trí hiện tại
của xe, nhận diện các đối tượng xung quanh xe, dự đốn các tình huống có thể
xảy ra để quyết định thực hiện các thao tác điều khiển phù hợp. Nhiều loại
công nghệ cảm biến khác nhau đã được sử dụng để thu thập thông tin về trạng
thái quanh xe (Hình 1.4): GPS và hệ thống GIS được dùng để định vị xe đang
ở tuyến phố nào trong thành phố, các cảm biến radar, lidar và siêu âm dùng để
thu thập thông tin về các đối tượng quanh xe trong phạm vi bán kính hàng
trăm mét (Hình 5). Camera và phần mềm xử lý ảnh đóng vai trị quan trọng
trong hệ thống điều khiển, nó giúp xe đi đúng làn đường, tuân thủ tín hiệu

điều khiển giao thơng (đèn tín hiệu, biển báo, vạch kẻ đường), phân tích, nhận
diện quang cảnh phía trước xe để đưa ra các quyết định điều khiển theo các
tình huống thực tế.
+


10

Hình 1.4: Các cảm biến trên xe tự lái của Google

Hình 1.5: Không gian quanh xe được tái tạo từ số liệu lấy từ GIS,
các cảm biến GPS, siêu âm, RADAR, LIDAR
1.1.4. Hệ thống xe tự lái của Nvidia
Nvidia cũng đang phát triển hệ thống xe tự lái tương tự Google. Để
khắc phục hạn chế xuất phát từ việc không có được cơ sở dữ liệu GIS phong
phú như Google, Nvidia tập trung vào việc tăng cường huấn luyện hệ thống
theo thời gian thực để thu được lượng thông tin nhiều nhất về trạng thái phía
trước xe thơng qua xử lý ảnh. Cấu trúc phần cứng hệ thống tự lái của Nvidia
minh họa trong Hình 6.


11

Hình 1.6: Phần cứng hệ thống xe tự lái của Nvidia

Hình 1.7: Nguyên lý huấn luyện hệ thống xe tự lái của Nvidia


12


Hình 1.8: Kiến trúc CNNT trong hệ thống xe tự lái của Nvidia
Hạt nhân hệ thống xe tự lái của Nidivia là mạng nơ-ron nhân chập
(CNN), quá trình huấn luyện mạng CNN được minh họa trong Hình 1.7. Theo
đó khung cảnh phía trước xe được ghi lại bằng 3 camera (trái, phải, giữa),
mạng CNN sẽ xử lý ảnh thu được để đưa ra các quyết định quay trái/phải,
tăng/giảm tốc độ. Quyết định của CNN sẽ được so sánh với quyết định tương
ứng của người lái, sai khác sẽ được sử dụng để hiệu chỉnh lại mạng CNTT
nhằm tăng mức độ linh hoạt của hệ thống điều khiển.
Kiến trúc CNN trong hệ thống xe tự lái của Nvidia được minh họa
trong Hình 1.8, trong đó bao gồm 27 triệu kết nối và 250 nghìn tham số.


13

1.2. Một số hệ thống thu thập dữ liệu giao thông bằng XLA được phát
triển trong nước
1.2.1. Hệ thống thu thập dữ liệu giao thông trên đường cao tốc
Sử dụng công nghệ xử lý ảnh để thu thập dữ liệu dịng giao thơng là
giải pháp được nghiên cứu khá sớm ở Việt Nam. Năm 2003, Trường Đại học
Giao thông Vận tải đã bắt đầu nghiên cứu xây dựng hệ thống thu thập dữ liệu
giao thông ứng dụng công nghệ xử lý ảnh [3]. Đến năm 2007 hệ thống này đã
được triển khai thử nghiệm để thu thập dữ liệu giao thông tại Km 192+422
trên đường cao tốc Pháp Vân [4], hệ thống có cấu trúc như được minh họa
trong Hình 1.9. Trong quá trình thử nghiệm, hệ thống đã thực hiện tốt các
chức năng: Đếm và phân loại xe; đo tốc độ của xe. Phát hiện các tình huống
vi phạm luật giao thông như chạy quá tốc độ, chuyển làn trái phép, đi khơng
đúng phần đường quy định. Tình huống giao thơng được hệ thống ghi lại ở
nhiều góc độ (toàn cảnh và cận cảnh biển số xe vi phạm) để phục vụ xử lý xe
vi phạm.
Các camera quan sát: có nhiệm vụ ghi lại hình ảnh q trình giao thơng

trên đoạn đường cần thu thập dữ liệu, hình ảnh sau đó được truyền theo thời
gian thực về trung tâm giám sát - điều hành giao thông. Camera giám sát cần
lắp đặt ở độ cao khoảng từ 7m trở lên, ống kính hướng xuống dưới ngược với
hướng chuyển động của xe, vùng quan sát tối thiểu khoảng 30m. Các thông số
lắp đặt trên nhằm đảm bảo trong điều kiện giao thơng bình thường (khơng tắc
đường) hình ảnh các xe khơng bị chồng lấp lên nhau. Với khoảng cách 30m
đường, dùng camera có tốc độ ghi 24hình/s, đảm bảo cho ta có thể ghi được
tối thiểu 48 khung hình của xe chạy tốc độ 50km/h (27m/s).
Mạng cáp quang: để truyền tín hiệu video chất lượng cao cần mạng
truyền thơng có băng thơng lớn, ngồi ra khoảng cách từ vị trí đặt camera về
trung tâm thường rất xa nên cáp quang là phương tiện truyền dẫn phù hợp
nhất để kết nối các camera và các hệ thống tại trung tâm.


14

Hệ thống lưu trữ, chuyển mạch và hiển thị tín hiệu video tại trung tâm:
Số lượng camera được kết nối với trung tâm thường rất nhiều nên cần một hệ
thống lưu trữ có dung lượng ổ đĩa cứng lớn, ngồi ra còn cần đến các thiết bị
lưu trữ dự phòng ra băng từ, đĩa quang... Hệ thống chuyển mạch hoạt động ở
tốc độ cao, thuận tiện cho người sử dụng. Các màn hình lớn có thể đồng thời
hiển thị hình ảnh từ nhiều camera.


15

Hình 1.9: Cấu trúc vật lý của hệ thống thu thập dữ liệu giao thông trên
đường cao tốc
Phần mềm xử lý ảnh: Xử lý tín hiệu video để thu thập thơng tin về dịng
phương tiện giao thơng.Về mặt lý thuyết, hệ thống xử lý ảnh có thể cung cấp

các thơng tin như số lượng, chủng loại xe, lưu lượng, mật độ và tốc độ của
dịng xe. Ta có thể mơ tả hoạt động của hệ thống một cách đơn giản như sau:
Camera được dùng để ghi hình dịng giao thơng trên đoạn đường cần giám
sát. Hình ảnh được truyền về máy tính qua mạng truyền thơng dưới dạng một
chuỗi liên tiếp các khung hình. Tại máy tính diễn ra q trình xử lý từng
khung hình, đối với mỗi khung hình, quá trình xử lý bắt đầu từ việc phát hiện
các xe đi vào vùng quan sát, khi phát hiện có xe mới chương trình kích hoạt
chức năng đếm và nhận dạng để phân loại xe, kết quả thực hiện chức năng
này cho ta số lượng và chủng loại các xe. Sau đó chương trình sẽ thực hiện
chức năng bám đối tượng để xác định quỹ đạo chuyển động của xe trong vùng
quan sát, từ đó xác định được quãng đường và tốc độ chuyển động của xe.
Ngoài ra bằng các phép tốn thống kê ta có thể xác định được các thơng tin
khác như mật độ trung bình, tốc độ trung bình của dịng xe và lưu lượng xe
trong vùng quan sát. Các chức năng chính của phần mềm XLA được minh
họa trong Hình 1.10.


16

Hình 1.10: Các chức năng chính của hệ thống
Cơ sở dữ liệu: Lưu các số liệu về hệ thống giao thơng trong đó có kết
quả của phần mềm xử lý ảnh. Các số liệu này sẽ được sử dụng cho các chức
năng điều khiển, điều hành và giám sát giao thơng.
Các chức năng chính của phần mềm XLA bao gồm:
- Thu nhận và tiền xử lý ảnh: Thu nhận hình ảnh từ camera quan sát,
chuyển đổi ảnh sang định dạng bitmap RGB, thay đổi kích thước ảnh theo yêu
cầu của các thuật toán xử lý. Thực hiện các phép lọc nhằm loại bỏ nhiễu, tăng
cường chất lượng ảnh.



17

- Phát hiện xe: Sử dụng các thuật toán phát hiện chuyển động để phát
hiện xe trong ảnh. Đi kèm chức năng phát hiện xe là các chức năng cập nhật
ảnh nền, xác định ngưỡng cường độ sáng của các điểm ảnh. Nội dung này
được trình bày chi tiết trong chương 3, 4, 5 báo cáo phân tích thiết kế hệ
thống tự động thu thập thông tin giao thông bằng camera.
- Nhận dạng xe: Phân loại xe thành 3 nhóm: xe máy, ôtô con và ôtô to.
Nội dung chi tiết trình bày trong chương 6 báo cáo phân tích thiết kế hệ thống
tự động thu thập thông tin giao thông bằng camera.
- Bám xe: Xác định quỹ đạo chuyển động của xe trong vùng quan sát.
Nội dung chi tiết trình bày trong chương 6 báo cáo phân tích thiết kế hệ thống
tự động thu thập thông tin giao thông bằng camera.
- Phát hiện xe chuyển làn trái phép: Trên cơ sở theo dõi được quỹ đạo
chuyển động của xe, phần mềm sẽ xác định được xe có chuyển làn trái phép
hay không.
- Phát hiện xe chạy quá tốc độ: Thông tin về quỹ đạo chuyển động cho
ta biết độ dài quãng đường xe đi được trong khoảng thời gian bị theo dõi, từ
đó tính được tốc độ di chuyển của xe để xác định xe có chạy quá tốc độ hay
không.
- Phát hiện xe vi phạm luật giao thông: Tổng hợp các thơng tin về tình
trạng vi phạm luật giao thông theo thời gian thực. Cung cấp thông tin về vị trí
xe vi phạm luật cho chức năng điều khiển camera ghi hình xe vi phạm.
- Điều khiển camera ghi hình xe vi phạm: Điều khiển camera quay,
quét, zoom ghi hình đúng vị trí, thời điểm đảm bảo chụp được biển số xe vi
phạm.
- Cảnh báo có xe vi phạm luật giao thơng: Phát tín hiệu thơng báo cho
người điều hành khi có tình huống xe vi phạm luật giao thơng.
- Lưu trữ, xử lý thơng tin về tình huống vi phạm: Lưu trữ hình ảnh xe
phạm luật, hình thức, thời gian vi phạm, đồng thời xác định các hình thức và

mức xử phạt.


18

- Thống kê số liệu: Module thống kê số liệu có chức năng tính tốn các
số liệu thống kê bao gồm: Số lượng xe, thành phần, mật độ, lưu lượng, tốc độ
dòng xe.
1.2.2. Hệ thống thu thập dữ liệu giao thơng trong vùng đơ thị
Khác với dịng giao thơng trên đường cao tốc, giao thơng trong khu đơ
thị có một số đặc điểm chính như: thành phần dịng xe đa dạng, mật độ xe
cao, xe máy chiếm tỷ lệ lớn, tốc độ xe không đồng đều, tại các nút giao thơng
có nhiều luồng chuyển động, vùng quan sát của camera bị hạn chế và chịu
nhiều ảnh hưởng bất lợi từ cây xanh và các cơng trình xây dựng trên đường.
Các đặc điểm nêu trên làm cho việc ứng dụng xử lý ảnh để giám sát giao
thông trong khu đô thị khó khăn hơn trên đường cao tốc.
Trong khn khổ đề tài theo Nghị định thư với Nhật Bản do Viện Ứng
dụng Cơng nghệ chủ trì năm 2014, bài tốn thu thập dữ liệu giao thông bằng
XLA trong vùng đô thị đã được giải quyết theo hướng không đếm số lượng xe
và đo tốc độ của từng xe, thay vào đó hệ thống chỉ tính các tham số thống kê
của dịng xe như diện tích đường bị xe chiếm dụng và tốc độ trung bình của
dịng xe. Hệ thống này được xây dựng theo cấu trúc phân tán như được minh
họa trong Hình 1.11.

Hình 1.11: Cấu trúc hệ thống theo mơ hình xử lý tại chỗ


19

Hệ thống bao gồm các thành phần:

Các camera: có nhiệm vụ ghi lại hình ảnh q trình giao thơng trên
đoạn đường cần thu thập dữ liệu.
Máy tính nhúng: kết nối với camera qua mạng LAN, dùng chạy phần
mềm xử lý ảnh ngay tại hiện trường.
Phần mềm xử lý ảnh: Có nhiệm vụ tính tốn các tham số thống kê của
dịng giao thông như: lưu lượng, mật độ, tốc độ trung bình.
Mạng truyền thơng khơng dây: để truyền kết quả xử lý về trung tâm.


20

CHƯƠNG 2
CÁC KỸ THUẬT XỬ LÝ ẢNH TRONG GIÁM SÁT GIAO THÔNG
2.1. Tổng quan
Để phát hiện và phân loại các phương tiện giao thông qua camera giám
sát, trước hết ta cần thực hiện q trình phân tích hình ảnh nhận được từ
camera để phát hiện và phân loại phương tiện. Thơng thường q trình này
bao gồm hai giai đoạn chính: (1) trích rút đặc trưng từ ảnh và (2) phát hiện và
phân lớp đối tượng trên cơ sở các đặc trưng thu được từ ảnh. Quá trình này
được minh họa trong hình dưới theo các cấp độ phức tạp khác nhau, trong tất
cả các cấp độ, bước cuối cùng là khâu phát hiện và phân lớp đối tượng
(classifier).

Hình 2.1: Độ phức tạp của bài toán phân lớp đối tượng truyền thống
Trích rút đặc trưng từ ảnh
Đặc trưng trên ảnh có thể đơn giản là tập hợp các điểm ảnh đặc biệt (có
màu, cường độ sáng khác biệt so với các điểm lân cận, điểm này thường là
góc hoặc cạnh của một đối tượng trên ảnh). Đặc trưng cần tìm cũng có thể là
các cấu trúc phức tạp hơn như: một vùng ảnh trong đó các điểm ảnh liên kết
với nhau theo một ngun tắc nào đó (phân bố vị trí theo nguyên tắc nhất định

hoặc có cùng quy luật thay đổi cường độ sáng theo một hướng nhất định…)


21

Phát hiện và phân lớp đối tượng
Bước tiếp theo, các đặc trưng tìm thấy trên ảnh sẽ được so sánh với một
bộ đặc trưng mẫu để phát hiện và phân loại các đối tượng. Bộ đặc trưng mẫu
này được xây dựng thông qua các kỹ thuật máy học trên các tập dữ liệu mẫu
cho trước. Trong các phần tiếp theo của chương này, đề tài sẽ trình bày chi tiết
về một số kỹ thuật trích rút đặc trưng và phân lớp đối tượng phù hợp với bài
toán thu thập dữ liệu giao thông.
2.2. Mẫu nhị phân cục bộ (LBP - Local Binary Pattern)
Mẫu nhị phân cục bộ (LBP - Local Binary Pattern) là một phương pháp
gắn nhãn cho các điểm ảnh (pixel), được Timo Ojala giới thiệu vào năm 1996
để giải quyết bài toán phân lớp kết cấu (texture classification [1]). Trong
phiên bản đầu tiên, giá trị LBP của một điểm ảnh được tính trên cơ sở tham
chiếu đến 8 điểm lân cận. Cụ thể là:
Giá trị của pixel trung tâm sẽ được so với với 8 điểm ảnh xung quanh
nó, nếu giá trị tại điểm lân cận nào lớn hơn giá trị tại tâm thì gán nhãn 1 cho
điểm đó, ngược lại gán nhãn 0 (Hình 2.2).

Hình 2.2: Tính giá trị LBP
Như vậy toán tử LBP được xác định như sau:
Trong đó:
- (xc,yc) là pixel trung tâm với cường độ sáng ic, ip là cường độ sáng của
điểm lân cận thứ p.
- P là số điểm lân cận của pixel (xc,yc)
- s là hàm dấu được xác định như sau:



22

Hình 2.3 minh họa các kết quả điển hình khi thực hiện toán tử LBP.

Hình 2.3: Các trường hợp điển hình trong kết quả của LBP
Chuỗi nhị phân tạo ra từ các nhãn, lấy theo chiều kim đồng hồ như
minh họa trong Hình 2.2 được gọi là pattern, như vậy với 8 điểm lân cận, một
điểm ảnh sẽ có 28 = 256 pattern.
Tiếp theo ta cần xây dựng vector histogram của các pattern cho ảnh đầu
vào. Số chiều của vector histogram của một pattern là 256, có thể giảm số
chiều cho vector này bằng cách sau:
Chia các pattern thành hai loại uniform và non-uniform:
Một pattern được gọi là uniform nếu nó chứa nhiều nhất 2 lần đảo bit
(transitions) từ 0 sang 1 hoặc từ 1 sang 0 (với thứ tự các bit trong pattern
duyệt theo vịng trịn)
Ví dụ:
- Các patterns 00000000 (0 transitions), 01110000 (2 transitions) và
11001111 (2 transitions) là uniform
- Các patterns 11001001 (4 transitions) and 01010010 (6 transitions) là
non-uniform
Sau đó, mỗi uniform pattern được gán một nhãn. Tất cả các nonuniform pattern được gán chung 1 nhãn. Như vậy nếu dùng mẫu 3x3 thì sẽ có
256 pattern, trong đó có 58 uniform, khi đó số chiều của LBP feature là 59.
Việc tính các đặc trưng LBP của ảnh được minh họa trong Hình 2.4.
Gồm các bước sau:


23

Hình 2.4: Tính đặc trưng LBP của ảnh

-

Ảnh ban đầu được chia thành các vùng (a),

-

Mỗi vùng lại được tách thành các ảnh đơn sắc (b gồm các thành phần màu X,
Y, T),

-

Tính vector histogram cho pattern của từng vùng ảnh đơn sắc (c),

-

Cuối cùng tổng hợp các vector histogram ta được bộ mô tả (description) của
đối tượng.
Mở rộng của phương pháp LBP
Trong kết quả nghiên cứu công bố năm 2002 của Ojala, vùng lân cận có
thể được mở rộng lớn hơn 8 điểm và được ký hiệu (P, R). Trong đó: P là điểm
cách đều nhau nằm trên đường trịn bán kính R (Hình 2.5).

Hình 2.5: Tập hợp các điểm lân cận.


24

Khi đó, với pixel cho trước (xc, yc), các điểm lân cận (xp, yp) được xác
định như sau:
Đối với các trường hợp điểm lân cận nằm ngoài ảnh, giá trị của chúng

thường được nội suy tuyến tính hai chiều như sau:
Ứng dụng của phương pháp LBP
LBP được sử dụng để giải quyết một số bài toán sau [3]:
- Phân lớp kết cấu (Texture classification)
- Phân tích chuyển động (Motion Analysis)/Bám đối tượng (Tracking)/
tách ảnh nền (Background subtraction).
- Phát hiện và nhận dạng đối tượng (Human detection/recognition,
Object detection/recognition)
- Sinh trắc học (Biometrics: eye localization, iris recognition, finger
recognition, palmprint recognition, gait recognition and facial age
classification).
2.3. Đặc trưng HoG (Histogram Of Oriented Gradient)
HoG được Navneet Dalal và Bill Triggs (INRIA-France) giới thiệu năm
2005 để giải quyết bài toán phát hiện người (human detection). HoG dựa trên kết
hợp và khắc phục điểm yếu của Shape Context và SIFT để tạo ra tập hợp các đặc
trưng mô tả cạnh (edge descriptor). HoG được thực hiện bằng cách chia ảnh
thành các vùng nhỏ (dense grid) sau đó tính histogram gradient của từng vùng.
HOG có hai loại: static HOG (cho ảnh tĩnh) và motion HOG (cho video).
Static HOG
Gồm 4 biến thể (Hình 2.6): R - HOG (rectangular HOG), C - HOG
(circular HOG), center - surround HOG, R2 - HOG. Các phiên bản static
HOG khác nhau ở cách lấy cell trong một block mô tả hai kiểu lấy HOG: RHOG (a) và C-HOG (có 2 kiểu cho C-HOG là chia thành những cell nhỏ đối
với cell trung tâm (b) và không chia (c))


25

Hình 2.6: Các dạng HOG
- R-HOG (Rectangular HOG): một block chia ô lưới bàn cờ giống như
SIFT. Trong mỗi cell, hướng mỗi pixel được đánh dựa vào trọng số Gaussian.

- C-HOG (Circular HOG): chia thành những cell theo bán kính và các
góc. Kích thước bin theo hướng angular là như nhau nhưng theo hướng bán
kính (radius) tăng dần theo bán kính. C-HOG khá giống Shape-Context
- Center-Surround HOG: cách này khơng đánh trọng số Gaussian nên
các cell chỉ được chuẩn hóa một lần, vì vậy đây là phiên bản tính tốn nhanh
của HOG.
- R2-HOG: bên cạnh gradient, tính tốn thêm đạo hàm bậc hai (second
order derivative), hai kết quả (histogram) này sẽ được nối lại với nhau.
Motion HOG:
Tương tự như static HOG, tuy nhiên motion HOG thay giai đoạn tính
tốn gradient bằng hai bước tính tốn optical flow cho hai frame liên tiếp rồi
tính tốn differential flow của hai ảnh flow đó.
Các bước thực hiện của phương pháp HoG như sau:
- Chuẩn hóa (normalization) gamma/color: ảnh đầu vào được chuẩn
hóa bằng phương pháp Square Root Gamma Correction cho cả 3 kênh màu.
- Tính vector gradient của các điểm ảnh:
Gradient tại điểm (x, y) là vector chỉ hướng cường độ sáng tăng dần,
vector này được xác định như sau:


×