Tải bản đầy đủ (.pdf) (69 trang)

Hệ thống quản lý bãi xe ô tô dựa vào video giám sát

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.74 MB, 69 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

---------------------------

BÙI THỊ THU THỦY

HỆ THỐNG QUẢN LÝ BÃI XE Ô TÔ
DỰA VÀO VIDEO GIÁM SÁT

LUẬN VĂN THẠC SĨ
Chuyên ngành : Công Nghệ Thông Tin
Mã số ngành: 60480201

TP. HỒ CHÍ MINH, tháng 10 năm 2015


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

---------------------------

BÙI THỊ THU THỦY

HỆ THỐNG QUẢN LÝ BÃI XE Ô TÔ
DỰA VÀO VIDEO GIÁM SÁT

LUẬN VĂN THẠC SĨ
Chuyên ngành : Công Nghệ Thông Tin
Mã số ngành: 60480201
CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS TÂN HẠNH



TP. HỒ CHÍ MINH, tháng 10 năm 2015


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM
Cán bộ hướng dẫn khoa học : TS. Tân Hạnh
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP. HCM
ngày 17 tháng 10 năm 2015
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ Luận văn Thạc sĩ)
Họ và tên

TT

Chức danh Hội đồng

1

GS. TSKH. Hoàng Văn Kiếm

Chủ tịch

2

PGS.TS. Lê Hoài Bắc

Phản biện 1


3

TS.Vũ Thanh Hiền

Phản biện 2

4

TS. Hồ Đắc Nghĩa

Ủy viên

5

TS. Cao Tùng Anh

Ủy viên, Thư ký

Xác nhận của Chủ tịch Hội đồng đánh giá Luận sau khi Luận văn đã được
sửa chữa (nếu có).
Chủ tịch Hội đồng đánh giá LV


TRƯỜNG ĐH CÔNG NGHỆ TP. HCM

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

PHÒNG QLKH – ĐTSĐH


Độc lập – Tự do – Hạnh phúc
TP. HCM, ngày 03 tháng 04 năm 2015

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Bùi Thị Thu Thủy

Giới tính: Nữ

Ngày, tháng, năm sinh: 27/11/1988

Nơi sinh: Bình Thuận

Chuyên ngành: Công Nghệ Thông Tin

MSHV: 1341860054

I- Tên đề tài:
HỆ THỐNG QUẢN LÝ BÃI XE Ô TÔ DỰA VÀO VIDEO GIÁM SÁT
II- Nhiệm vụ và nội dung:
 Nghiên cứu lĩnh vực thị giác máy tính (computer vision) trên cơ sở dữ liệu đa
phương tiện (database multimedia).
 Nghiên cứu kỹ thuật xử lý video: Tách shot, phát hiện key frame.
 Nghiên cứu thuật toán SIFT (SCALE-INVARIANT FEATURE TRANSFORM)
trích xuất các điểm đặc biệt và các đặc trưng của ảnh
 Nghiên cứu thuật toán SURF (SPEED UP ROBUST FEATURE) thuật toán cải tiến
về thời gian tính toán của SIFT.
 Nghiên cứu FLANN (Fast Library for Approximate Nearest Neighbors) phương
pháp hỗ trợ cho việc tìm kiếm nhanh các điểm lân cận trong không gian 3D.
 Tìm hiểu thư viện phát triển về thị giác máy tính mã nguồn mở OpenCV để xây
dựng ứng dụng xử lý ảnh.

 Xây dựng demo “Hệ Thống Quản Lý Bãi Xe Ô Tô Dựa Vào Video Giám Sát”.
III- Ngày giao nhiệm vụ: 03/04/2015
IV- Ngày hoàn thành nhiệm vụ: 17/09/2015
V- Cán bộ hướng dẫn: TS. Tân Hạnh
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

KHOA QUẢN LÝ CHUYÊN NGÀNH
(Họ tên và chữ ký)


i

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ
công trình nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn
gốc.
Học viên thực hiện Luận văn
(Ký và ghi rõ họ tên)


ii

LỜI CÁM ƠN
chân thành
đỡ tận tình của TS. Tân Hạnh. Cảm ơn Thầy đã sát cánh và cung cấp những kiến

thức quí báu trong suốt thời gian nghiên cứu thực hiện luận văn.
/Cô, các đồng nghiệp Khoa Công Nghệ Thông Tin,
Phòng QLKH-ĐTSĐH

thông tin

.

luôn quan tâm và giúp đỡ tôi trong suốt thời gian học tập và nghiên cứu hoàn thành
luận văn này.
Luận văn không thể tránh khỏi những sai sót, rất mong nhận được ý kiến
đóng góp của mọi người cho luận văn được hoàn thiện hơn.
Tôi xin chân thành cảm ơn.

TP. Hồ Chí Minh, 2015

BÙI THỊ THU THỦY


iii

TÓM TẮT
Ngày nay thị giác máy tính là lĩnh vực phát triển mạnh mẽ của hệ thống máy
tính, các thuật toán, công trình nghiên cứu, ứng dụng về xử lý ảnh được triển khai
trên một số lĩnh vực như lắp đặt hệ thống nhận dạng biển số xe ở các bãi đổ xe, hệ
thống nhận dạng vân tay chấm công ở các công sở... môn học xử lý ảnh ở các
trường đại học được xem là môn học bắt buộc ở một số nghành như công nghệ
thông tin, điện tử viễn thông...Tuy nhiên nhìn một cách khách quan thì số lượng các
ứng dụng được triển khai trên thực tế là quá ít ỏi, lĩnh vực này sẽ còn phát triển
mạnh mẽ trong tương lai nếu được quan tâm một cách nghiêm túc.

Xuất phát từ thực tế đó, đề tài nhằm mục đích tìm hiểu, nghiên cứu và ứng
dụng vào nhu cầu thực tế trong việc quản lý và giám sát.
“Hệ Thống Quản Lý Bãi Xe Ôtô Dựa Vào Video Giám Sát”, đáp ứng nhu cầu
truy vấn đối tượng bằng 1 hình ảnh cho sẵn so sánh tìm kiếm đối tượng tồn tại
trong Video, Cụ thể ở đây là đối tượng xe trong bãi. Quản lý an toàn bãi xe, tìm
kiếm đối tượng, truy xuất thông tin.
Luận văn ứng dụng kỹ thuật so trùng histogram để xử lý video. Kỹ thuật
SURF (Speed Up Robust Feature) tối ưu về tốc độ, thời gian tính toán từ kỹ thuật
SIFT (Scale-Invariant Feature Transform) trích xuất các điểm đặc biệt và các đặc
trưng của ảnh. Kỹ Thuật FLANN (Fast Library for Approximate Nearest
Neighbors) so khớp đối tượng cần tìm và đối tượng trong video.
Kết quả thực nghiệm của luận văn giảm thiểu việc tiêu tốn nhiều thời gian và
công sức trong việc tìm kiếm và giám sát đối tượng. Ứng dụng lĩnh vực thị giác
máy tính vào nhu cầu đời sống.


iv

ABSTRACT
Today,computer vision is a strong sector development of computer systems,
algorithms, research, application of image processing to bedeployed in some
majorssuch asinstalling automatic number plate recognition system in car parks,automated

fingerprint

identification

and

timekeepingsystem


in

the

workplace...At the university, image processing is considered to be a compulsory
subject in some sectors such as information technology, electronics and
telecommunications, etc. However, an objective look thatthe reality is very little
number of applications have been deployed, if this sector has a serious interest it
will continue developing strongly in the future.
Based on that fact, thistheme aims to explore, to study and to apply these
applications from real demand in the management and supervision.
“Car Park Management System Based On Monitoring Video”, it meets the
need that query image - object uses an available image and compares with object
exists in the video, specifically here is the object in the parking lot. Parking lot
security management, searching for object, information retrieval.
The theme technical applications “histogram matching to handle video”,
SURF Technology “Speed Up Robust Feature” because it is optimized for speed,
calculation time from SIFT Technology “Scale-Invariant Feature Transform”
extract features and image characteristics. Flann Technology (Fast Approximate
Nearest Neighbors Library for) matching objects with objects in video.
The experimental result of the theme minimize time-consuming and effort
into finding and monitoring objects. Application areas of computer vision in life
needs.


v

MỤC LỤC
CHƯƠNG 1: GIỚI THIỆU ......................................................................................... 1

1.1: GIỚI THIỆU ĐỀ TÀI....................................................................................... 1
1.2: TỔNG QUAN VỀ THỊ GIÁC MÁY TÍNH _ COMPUTER VISION ............ 2
CHƯƠNG 2: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU CỦA ĐỀ TÀI .......... 5
2.1: MỘT SỐ KHÁI NIỆM .................................................................................... 5
2.1.1 Cấu Trúc Video........................................................................................... 5
2.1.2 Key – Frame............................................................................................... 6
2.2: XÂY DỰNG CƠ SỞ DỮ LIỆU ....................................................................... 6
2.3: XỬ LÝ VIDEO ................................................................................................ 6
2.3.1 Tách shot .................................................................................................... 6
2.3.1.1 Phát hiện shot .......................................................................................... 6
2.3.1.2 Phân loại ................................................................................................. 6
2.3.2 Kỹ thuật tách shot .......................................................................................... 7
2.3.2.1 Sự khác biệt giữa các histogram ............................................................. 7
2.3.2.2 Phát hiện biên ......................................................................................... 9
2.3.2.3 Tách shot ............................................................................................... 10
2.3.3 Phát hiện frame chính (key frame) .............................................................. 10
2.4: TRÍCH XUẤT CÁC ĐIỂM ĐẶC BIỆT VÀ CÁC ĐẶC TRƯNG CỦA ẢNH
BẰNG THUẬT TOÁN SIFT (SCALE-INVARIANT FEATURE
TRANSFORM) ..................................................................................................... 11
2.4.1

Tổng quan về SIFT................................................................................... 11

2.4.2

Biểu diễn ảnh bằng đặc trưng SIFT ......................................................... 14

2.4.2.1

Phát hiện các điểm cực trị trong không gian đo ................................ 14



vi

2.4.2.2

Định vị các điểm đặc trưng ............................................................... 18

2.4.2.3

Xác định hướng cho các điểm đặc trưng ........................................... 21

2.4.2.4

Mô tả hướng cho các điểm đặc trưng ................................................ 22

2.5: KỸ THUẬT SURF (SPEED UP ROBUST FEATURE) .............................. 23
2.5.1 Phát hiện đặc trưng ....................................................................................... 23
2.5.2 Mô tả đặc trưng ............................................................................................ 25
2.5.3 So khớp đặc trưng......................................................................................... 27
2.6: THƯ VIỆN MÃ NGUỒN MỞ OPENCV TRÊN NỀN VISUAL C++ ........ 28
2.6.1 Giới Thiệu Về Thư Viện Mã Nguồn Mở OpenCV ...................................... 28
2.6.2 Phiên Bản OpenCV 1 và OpenCV 2 ............................................................ 32
2.6.3 FLANN (Fast Library For Approximate Nearest Neighbors) Hỗ Trợ cho
Việc Tìm Kiếm Nhanh Các Điểm Lân Cận Trong Không Gian 3D. .................... 33
CHƯƠNG 3: ỨNG DỤNG THỰC NGHIỆM – ĐÁNH GIÁ KẾT QUẢ ............... 34
3.1: NÊU LẠI BÀI TOÁN: .................................................................................. 34
3.2: PHÂN TÍCH VÀ THIẾT KẾ: ....................................................................... 35
3.2.1 Kiến Trúc Hệ Thống ................................................................................ 35
3.2.2 Tách KeyFrame Từ Video ....................................................................... 36

3.2.3 So Trùng Ảnh Với KeyFrame ................................................................. 37
3.2.4 Cơ Sở Dữ Liệu ......................................................................................... 38
3.2.5 Giao Diện Chương Trình ......................................................................... 40
3.3: Đánh Giá: ...................................................................................................... 43
CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .......................................... 52
4.1: KẾT LUẬN ................................................................................................... 52
4.2: HƯỚNG PHÁT TRIỂN ................................................................................ 52


vii

KÝ HIỆU VÀ VIẾT TẮT

Viết đầy đủ

Ký hiệu và viết tắt
SIFT

Scale-Invariant Feature Transform

SURF

Speed Up Robust Feature

FLANN

FastLibrary for Approximate Nearest
Neighbors

OpenCV


Open Computer Vision

FFMPEG

Fast and Furious Moving Pictures Expert Group

DoG

Difference of Gaussian


viii

DANH MỤC HÌNH

Hình 2.1: Mô hình cấu trúc của Video ........................................................................5
Hình 2.2: Sự khác biệt của histogram cho cut (nguồn: Tài liệu [5]) .........................7
Hình 2.3: Sự khác biệt của histogram cho fade/dissolve (nguồn: Tài liệu [5]) .........8
Hình 2.4: Tín hiệu khác biệt histogram (xanh) và tín hiệu trộn với cửa sổ W (đỏ)
(nguồn: Tài liệu [5]) ...................................................................................................9
Hình 2.5: Tín hiệu khác biệt histogram (xanh) và tín hiệu trộn với cửa sổ W (đỏ)
(nguồn: Tài liệu [5]) .................................................................................................10
Hình 2.6: Đặc trưng SIFT từ cửa sổ (window) được trích xuất 128 chiều...............11
Hình 2.7: Minh họa các bước chính trong giải thuật SIFT ......................................14
Hình 2.8: Quá trình tính không gian đo (L) và hàm sai khác DoG ..........................16
Hình 2.9: Quá trình tìm điểm cực trị trong các hàm sai khác DoG .........................17
Hình 2.10: Mô phỏng sử dụng công thức mở rộng của Taylor cho hàm DoG .........19
Hình 2.11: Quá trình tìm điểm cực trị trong các hàm sai khác DoG .......................21
Hình 2.12: Mô tả hướng và độ lớn các đặc trưng (nguồn: Tài liệu [17]) ................22

Hình 2.13: Xấp xỉ đạo hàm cấp 2 hàm Gaussian bằng hộp lọc (nguồn: Tài liệu
[12]) ..........................................................................................................................24
Hình 2.14: Vùng hình tròn xung quanh và hướng đại diện cho điểm đặc trưng
(nguồn: Tài liệu [12]) ...............................................................................................25
Hình 2.15: Lọc Haar wavelet để tính sự ảnh hưởng trên hai hướng x và y. Vùng tối
có trọng số là -1, vùng sáng là +1 (nguồn: Tài liệu [12]).......................................26
Hình 2.16: 4x4 hình vuông con xung quanh điểm đặc trưng (nguồn: Tài liệu [12])27
Hình 2.17: Ví dụ về đốm sáng trên nền tối hơn và đốm tối trên nền sáng hơn
(nguồn: Tài liệu [12]) ...............................................................................................27


ix

Hình 2.18 tổ chức thư viện OpenCV (nguồn: Intel) ..................................................29
Hình 2.19 Nhận dạng khuôn mặt với Haar classifer trong OpenCV (nguồn: Intel) 30
Hình 3.1 Kiến trúc hệ thống ......................................................................................35
Hình 3.2 Sơ đồ tuần tự tách keyframe từ video .........................................................36
Hình 3.3 Sơ đồ tuần tự so trùng ảnh với keyframe ...................................................37
Hình 3.4 Cơ sở dữ liệu ..............................................................................................38
Hình 3.5: SQLite lưu trữ các video của camera .......................................................39
Hình 3.6: SQLite lưu trữ các keyframe của video ....................................................39
Hình 3.7: Giao diện chính của chương trình ............................................................40
Hình 3.8: Kết quả xử lý video tách keyframe ............................................................41
Hình 3.9: Giá trị keypoints, khoảng cách giới hạn các keypoints ............................42
Hình 3.10: Matching phát hiện ra đối tượng ............................................................42
Hình 3.11 Tách keyframe video “carparking1.mp4” ...............................................43
Hình 3.12 Tách keyframe video “carparking2.mp4” ...............................................44
Hình 3.13 Tách keyframe video “carparking3.mp4” ...............................................44
Hình 3.14 Matching phát hiện ra đối tượng ôtô1 .....................................................45
Hình 3.15 Kết quả truy vấn tìm kiếm đối tượng ôtô1................................................45

Hình 3.16 Matching phát hiện ra đối tượng ôtô2 .....................................................46
Hình 3.17 Kết quả truy vấn tìm kiếm đối tượng ôtô2................................................46
Hình 3.18 Matching phát hiện ra đối tượng ôtô3 .....................................................47
Hình 3.19 Kết quả truy vấn tìm kiếm đối tượng ôtô3................................................47
Hình 3.20 Matching phát hiện ra đối tượng ôtô4 .....................................................48
Hình 3.21 Kết quả truy vấn tìm kiếm đối tượng ôtô4................................................48


1

CHƯƠNG 1: GIỚI THIỆU
1.1: GIỚI THIỆU ĐỀ TÀI
Ngày nay với sự phát triển vượt bậc của công nghệ thông tin. Xã hội và con
người áp dụng công nghệ thông tin vào tất cả các lĩnh vực đời sống – kinh tế - xã
hội. Các nghiên cứu khoa học ứng dụng công nghệ thông tin vào đời sống ngày
càng được chú trọng vì mang lại giá trị thực tiễn cao, chính xác và nhanh chóng.
Trong thời đại của thế kỷ 21, với sự phát triển nhảy vọt của trình độ Khoa học
kỹ thuật, con người đã tạo nên và phát triển nhiều công trình khoa học mang tính
tầm cỡ. Với sự thay thế dần của máy móc cho con người trong các nhiệm vụ mang
tính chính xác và tập trung cao thì kết quả đạt được đã hoàn toàn được tin cậy và
đánh giá cao. Điều này thực sự có ý nghĩa to lớn và góp phần tăng thêm giá trị và
chất lượng cuộc sống.
Thời kì công nghệ kỹ thuật số ngày càng phát triển, đời sống nâng cao. Nhu
cầu về hệ thống camera giám sát quản lý an ninh ngày càng cấp thiết trong từng
lĩnh vực. Ứng dụng giám sát trong tòa nhà, trung tâm thương mại, quản lý bãi
xe…trở nên cấp thiết. Hệ thống quản lý camera giám sát được xem là một công cụ
an ninh chủ đạo trong việc phòng chống tội phạm, giám sát dây truyền sản xuất,
giám sát nhà xưởng…nơi làm việc. Với những nhu cầu đó, hệ thống camera giám
sát được xem là một phương pháp giám sát thuận lợi nhất.
“Hệ Thống Quản Lý Bãi Xe Ôtô Dựa Vào Video Giám Sát” nhằm mục đích

quản lý bãi xe bằng video, để đếm số lượng xe, tìm kiếm, tính khoảng cách của các
xe trong bãi bằng Video đã lưu trữ từ camera. Bước cái tiến của đề tài so với những
hệ thống giám sát trước đó chính là khả năng truy vấn tìm kiếm đối tượng.
Mang lại hiệu quả kinh tế cao, giảm thời gian công sức trong việc tìm kiếm đối
tượng đối với video đã được lưu trữ.


2

Tính thực tiễn của đề tài là Hiện nay nhu cầu ứng dụng hệ thống quản lý
ngày càng cao, hệ thống giám sát đáp ứng nhu cầu cấp thiết trong việc tìm kiếm đối
tượng như người, xe cộ đảm bảo tính an ninh, quản lý trở thành một nhu cầu cấp
thiết trong đời sống xã hội.
Trong các hệ thống camera giám sát hiện tại chỉ lưu trữ dữ liệu dưới dạng file
video với dung lượng lớn, đòi hỏi khả năng lưu trữ dung lượng rất cao, vẫn chưa
đáp ứng được nhu cầu truy vấn tìm kiếm. Mọi hoạt động tìm kiếm đều do con
người tập trung xem lại đoạn video đã lưu trữ trước đó.
Câu hỏi được đặt ra cho vấn đề này là làm sao truy vấn tìm kiếm một đối
tượng bằng hình ảnh có sẵn với đối tượng trong video trước đó một cách nhanh
chóng nhất, tiết kiệm thời gian, chi phí, chính xác và mang lại hiệu quả cao nhất.
Để giải quyết vấn đề đó, “Hệ Thống Quản Lý Bãi Xe Ôtô Dựa Vào Video
Giám Sát”, đáp ứng nhu cầu truy vấn đối tượng bằng 1 hình ảnh cho sẵn được so
sánh với hình ảnh trong Video qua xử lý tách lọc video. Cụ thể ở đây là đối tượng
xe trong bãi. Để quản lý an toàn trong bãi xe, lượt xe ra vô, khoảng cách các xe.
Tìm kiếm một đối tượng xe.
Giảm thiểu việc tiêu tốn quá nhiều thời gian và công sức trong việc tìm kiếm
và giám sát đối tượng.
1.2: TỔNG QUAN VỀ THỊ GIÁC MÁY TÍNH _ COMPUTER VISION
Thị giác máy tính (tiếng Anh: computer vision) là một lĩnh vực bao gồm các
phương pháp thu nhận, xử lý ảnh kỹ thuật số, phân tích và nhận dạng các hình ảnh

và, nói chung là dữ liệu đa chiều từ thế giới thực để cho ra các thông tin số hoặc
biểu tượng, ví dụ trong các dạng quyết định. Việc phát triển lĩnh vực này có bối
cảnh từ việc sao chép các khả năng thị giác con người bởi sự nhận diện và hiểu biết
một hình ảnh mang tính điện tử. Sự nhận diện hình ảnh có thể xem là việc giải
quyết vấn đề của các biểu tượng thông tin từ dữ liệu hình ảnh qua cách dùng các
mô hình được xây dựng với sự giúp đỡ của các ngành lý thuyết học, thống kê, vật


3

lý và hình học. Thị giác máy tính cũng được mô tả là sự tổng thể của một dải rộng
các quá trình tự động và tích hợp và các thể hiện cho các nhận thức thị giác.
Thị giác máy tính là một môn học khoa học liên quan đến lý thuyết hệ thống
nhân tạo có trích xuất các thông tin từ các hình ảnh. Dữ liệu hình ảnh có thể nhiều
dạng, chẳng hạn như chuỗi video, các cảnh từ đa camera, hay dữ liệu đa chiều từ
máy quét y học. Thị giác máy tính còn là một môn học kỹ thuật, trong đó tìm kiếm
việc áp dụng các mô hình và các lý thuyết cho việc xây dựng các hệ thống thị giác
máy tính.
Các lĩnh vực con của thị giác máy tính bao gồm tái cấu trúc cảnh, dò tìm sự
kiện, theo dõi video, nhận diện bố cục đối tượng, học, chỉ mục, đánh giá chuyển
động và phục hồi ảnh.
Thị giác máy và xử lý ảnh là lĩnh vực ngày nay được phát triển và ứng dụng
rộng rãi trong nhiều lĩnh vực khác nhau nhờ vào sự phát triển ngày càng mạnh mẽ
của các hệ thống máy tính, các thuật toán và công trình nghiên cứu khác nhau của
nhiều nhà khoa học trên thế giới.
Ở Việt Nam, các ứng dụng về xử lý ảnh đã bước đầu được triển khai trên
một số lĩnh vực như lắp đặt hệ thống nhận dạng biển số xe ở các bãi đổ xe, hệ
thống nhận dạng vân tay chấm công ở các công sở... môn học xử lý ảnh ở các
trường đại học được xem là môn học bắt buộc ở một số nghành như công nghệ
thông tin, điện tử viễn thông...Tuy nhiên nhìn một cách khách quan thì số lượng các

ứng dụng được triển khai trên thực tế là quá ít ỏi, lĩnh vực này sẽ còn phát triển
mạnh mẽ trong tương lai nếu được quan tâm một cách nghiêm túc.
Xuất phát từ thực tế đó, đề tài nhằm mục đích tìm hiểu, nghiên cứu và ứng
dụng vào nhu cầu thực tế trong việc quản lý và giám sát.
Mục tiêu của đề tài “Hệ Thống quản lý bãi xe ô tô dựa vào video giám sát”
nhằm xây dựng một hệ thống (chương trình ứng dụng) có khả năng truy vấn tìm
kiếm đối tượng, đối tượng cụ thể được áp dụng là xe ôtô. Hệ thống cung cấp các
chức năng tìm kiếm truy vấn đối tượng xe ôtô theo hình ảnh cung cấp, truy xuất


4

thông tin vị trí xe hiện ở đâu trong bãi, thời gian, đếm số lượng xe trong bãi dựa
trên video giám sát.
Để thực hiện mục tiêu trên các đối tượng cần nghiên cứu là:
- Tìm hiểu kỹ thuật xử lý video: tách shot, tách frame chính từ một shot.
- Tìm hiểu các công cụ computer vision trong thư viện OpenCV.
- Phân tích thuật toán: giải thuật SIFT (Scale-invariant feature transform), SURF
(Speed Up Robust Feature) trích xuất tập đặc trưng (keypoints) từ ảnh.
- Tìm hiểu các thuật toán nhận dạng và so khớp tìm kiếm đối tượng.
- Xây dựng cơ sở dữ liệu video đối tượng là xe ôtô.
- Xây dựng chương trình nhận dạng xe trên cơ sở dữ liệu video.
Phạm vi đề tài áp dụng cho việc quản lý giám sát các tầng hầm bãi xe của
trung tâm thương mại, bệnh viện, trường học, siêu thị.


5

CHƯƠNG 2: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU CỦA ĐỀ
TÀI

2.1: MỘT SỐ KHÁI NIỆM
2.1.1 Cấu Trúc Video
Video được cấu thành từ một tập liên tiếp các khung hình – frame, còn được
gọi là ảnh, ghi nhận lại các hình ảnh quan sát được của các sự kiện xảy ra trong một
khoảng thời gian. Có hai dạng tín hiệu video thông dụng là: tín hiệu tuần tự
(analog) và tín hiệu video số (digital). Luận văn này sử dụng dữ liệu hình ảnh thu
nhận từ camera, nên chúng ta chỉ xem xét đến video được biểu diễn dưới dạng số
và bỏ qua phần tín hiệu âm thanh của video.
Mô hình cấu trúc một chuỗi video bao gồm các thành phần sau:
 Frame – khung hình là thành phần cơ bản trong chuỗi video. Mỗi khung
hình tương ứng với một ảnh trong thế giới thực tại một thời điểm xác định.
 Shot là một dãy các khung hình liên tiếp được camera ghi nhận không có
sự ngắt quãng nào xảy ra. Shot là một đơn vị cơ bản để xây dựng phân tích nội
dung video.
 Các shot liên tiếp nhau được kết hợp lại thành một cảnh (scene) dựa trên
nội dung.
 Tất cả các scene tạo thành một chuỗi video.
Video

Scenes

Shots

Frame
Hình 2.1: Mô hình cấu trúc của Video


6

2.1.2 Key – Frame

Key – frame là một đặc trưng tóm tắt được dùng để mô tả nội dung nổi bật,
chính yếu của một chuỗi Video, nó được xem như là một đại diện của một chuỗi
những khung hình liên tục trong một thời gian của Video. Các frame khác và key –
frame có sự khác nhau nhỏ hơn một ngưỡng cho trước. Việc truy xuất và chỉ mục
hóa Video thường rất hay sử dụng Key – frame vì nó có khả năng giảm được một
lượng dữ liệu lớn trùng lắp trong Video.
Có nhiều phương pháp xác định key – frame khác nhau, nhưng chúng tựu
chung dựa trên sự so sánh ảnh của từng cặp khung hình.
2.2: XÂY DỰNG CƠ SỞ DỮ LIỆU
Thu thập video quản lý bãi xe ôtô từ các nguồn giả lập. Tiến hành lấy mẫu
tạo cơ sở dữ liệu huấn luyện.
2.3: XỬ LÝ VIDEO
2.3.1 Tách shot
2.3.1.1 Phát hiện shot
Bài toán đặt ra là : một video V gồm n shot, tìm vị trí bắt đầu và vị trí kết
thúc của mỗi shot.
Phát hiện shot cũng được biết như là phát hiện biên của shot hay phát hiện
sự biến đổi. Phát hiện shot là nền tảng cho bất kỳ loại phân tích video và ứng dụng
video vì nó cho phép phân chia nhỏ video thành các thành phần cơ bản của nó: các
shot.
2.3.1.2 Phân loại
+ Hard cut: cut là một quát trình chuyển đổi tức thời từ cảnh này sang cảnh
khác. Không có các frame chuyển đổi giữa hai shot.
+ Fades: một fade là quá trình chuyển đổi dần dần giữa một cảnh và một
ảnh liên tục (fadeout) hoặc giữa một hình ảnh liên tục và một cảnh (fadein).


7

+ Dissolve: dissolve là một quá trình chuyển đổi dần từ một cảnh sang cảnh

khác, nó trôn lẫn fadeout của cảnh một và fadein cảnh hai.
2.3.2 Kỹ thuật tách shot
Có nhiều kỹ thuật để tách shot như phát hiện cạnh, đường biên, so trùng
histogram... Trong bài báo cáo này, chỉ tìm hiểu kỹ thuật so trùng histogram trên
ảnh xám.
2.3.2.1 Sự khác biệt giữa các histogram
Cách biểu diễn của phát hiện biên của shot dựa trên sự tính toán khác biệt
của các histogram giữa các frame là độ đo của sự gián đoạn. Sự khác biệt này có
thể được tính toán là tổng của giá trị tuyệt đối sự khác biệt giữa các giá trị của từng
bin

trong đó hx là histogram của bức ảnh X, M là số bin khác nhau.
Cách thức phát hiện shot là dựa trên sự khác biệt giữa các histogram của các
frame trong một video. Sự khác biệt này được tính toán như sau

trong đó, hi là histogram với M bin của frame thứ i trong video.

Hình 2.2: Sự khác biệt của histogram cho cut (nguồn: Tài liệu [5])


8

Hình 2.3: Sự khác biệt của histogram cho fade/dissolve (nguồn: Tài liệu [5])
Sự khác biệt về hình dạng có thể xuất hiện theo những hiệu ứng chuyển đổi
cảnh được áp dụng trong video. Thứ nhất, một đỉnh điểm xuất hiện khi một sự gián
đoạn lớn xảy ra. Đỉnh điểm này có thể được kết hợp với một cut hoặc quá trình
chuyển đổi đột ngột. Những cut này có thể dễ dàng nhận ra bởi vì biên độ của nó
lớn. Lý tưởng, sự chuyển đổi đột ngột có thể được biễu diễn bằng một hàm delta.

)


trong đó, ai đại diện cho biên độ của hàm delta và icut là số thứ tự frame xảy ra cut.
Thứ hai, sự chuyển đổi từ từ, fades và dissolve, xuất hiện với một cấp thấp hơn
theo sự biến đổi mượt nhất của histogram trong video, mặc dù biên độ không được
duy trì trong suốt hiệu ứng. Lý tưởng, xem sự khác biệt của histogram là cố định
bên trong sự chuyển đổi giữa hai shot chúng ta sẽ có hàm chữ nhật như sau


9

2.3.2.2 Phát hiện biên
Chúng ta đã có

của video, bước tiếp theo bao gồm trộn tín hiệu này

với một cửa sổ có độ rộng là W.

Với tín hiệu xử lý này, chúng ta đang làm mượt tín hiệu

vì thế sự tha

đổi nhỏ do khác biệt của tính toán được loại bỏ. Chúng ta duy trì một hình dạng đặc
tính tín hiệu của cut, fade và dissolve.
Sau quá trình trộn, đặc tính của tín hiệu cut, fade và dissolve đã đươc thay đổi.
Trường hợp cut, sau khi trộn chúng ta thay thế một tín hiệu có hình dạng chữ nhật
và điểm giữa hình chữ nhật được xem là nơi xảy ra sự chuyển đổi đột ngột.

Hình 2.4: Tín hiệu khác biệt histogram (xanh) và tín hiệu trộn với cửa sổ W (đỏ)
(nguồn: Tài liệu [5])



10

Tín hiệu fade và dissolve cũng bị thay đổi theo. Chúng xuất hiện như là các tín hiệu
có hình dạng chữ nhật.

Hình 2.5: Tín hiệu khác biệt histogram (xanh) và tín hiệu trộn với cửa sổ W (đỏ)
(nguồn: Tài liệu [5])
2.3.2.3 Tách shot
Sau khi đã phát hiện được biên của shot, chúng ta có thể tách shot dễ dàng. Một
shot bắt đầu từ cuối biên của shot trước đó và kết thúc khi phát hiện ra biên shot.
2.3.3 Phát hiện frame chính (key frame)
Không có khái niệm tổng quát cho key frame của shot cho tất cả video. Trong đề tài
này, công việc chủ yếu là xác định và nhận dạng các dạng xe, do đó key frame của
một shot có thể được định nghĩa như sau:
+ Một key frame là một frame thuộc một shot cụ thể trong video.
+ Một key frame phải có ít nhất một đối tượng xe trong frame đó.


11

+ Key frame là frame nằm trong chuỗi frame có cùng số lượng đối tượng xe có số
lượng frame lớn nhất.
2.4: TRÍCH XUẤT CÁC ĐIỂM ĐẶC BIỆT VÀ CÁC ĐẶC TRƯNG CỦA
ẢNH BẰNG THUẬT TOÁN SIFT (SCALE-INVARIANT FEATURE
TRANSFORM)
2.4.1 Tổng quan về SIFT
So khớp ảnh [19][20] là nền tảng giải quyết nhiều vấn đề trong lĩnh vực Thị
giác máy tính, bao gồm: nhận dạng đối tượng và hình ảnh, xây dựng cấu trúc 3D từ
nhiều ảnh, theo dõi chuyển động, ….

Rút trích các đặc trưng ảnh là một bước quan trọng trong so khớp cũng như
nhận dạng ảnh. Bước này giúp biểu diễn ảnh bằng các đặc trưng quan trọng mà giải
thuật có thể thực hiện nhận dạng ảnh từ các đặc trưng này.
Một thuật toán tiêu biểu và có hiệu quả khá cao là dựa theo các đặc trưng
cục bộ bất biến trong ảnh: SIFT (Scale-Invariant Feature Transform) do David G.
Lowe đưa ra từ năm 2004 [20] và đến nay đã có nhiều cải tiến trong thuật toán. Đặc
trưng này kèm theo các mô tả về nó và một véc-tơ lấy đặc trưng (keypoint) là điểm
gốc.

Hình 2.6: Đặc trưng SIFT từ cửa sổ (window) được trích xuất 128 chiều
(nguồn: Tài liệu [3])


12

Có bốn giai đoạn chính được thực hiện trong thuật toán để trích xuất các
điểm đặc biệt và các đặc trưng của nó bao gồm:
• Phát hiện các điểm cực trị trong không gian đo (Scale-Space Extrema
Detection): Bước đầu tiên này tiến hành tìm kiếm các điểm hấp dẫn trên tất cả các
tỷ lệ và vị trí của ảnh. Áp dụng hàm sai khác Gaussian (DoG – Different of
Gaussian) để tìm ra các điểm có khả năng làm điểm đặc trưng tiềm năng
(candidate keypoints), đó là những điểm phụ thuộc rất ít (bất biến) với quy mô và
hướng của ảnh;
• Định vị các điểm đặc trưng (Keypoint Location): Từ những điểm tiềm
năng ở trên sẽ lọc và lấy ra tập các điểm đặc trưng tốt nhất. Một hàm kiểm tra sẽ
được đưa ra để quyết định xem các điểm hấp dẫn tiềm năng có được lựa chọn hay
không? Các điểm đặc trưng được lựa chọn dựa trên thước đo độ ổn định (bất biến)
của chúng;
• Xác định hướng cho các điểm đặc trưng (Oriention Assignment): Mỗi
một đặc trưng sẽ được gán cho một hoặc nhiều hướng dựa trên hướng gradient của

ảnh. Mọi phép toán xử lý ở các bước sau này sẽ được thực hiện trên những dữ liệu
ảnh mà đã được biến đổi tương đối so với hướng đã gán, kích cỡ và vị trí của mỗi
điểm đặc trưng. Nhờ đó, tạo ra một sự bất biến trong các phép xử lý này;
• Mô tả các điểm đặc trưng (Keypoint Descriptor): Các hướng gradient cục
bộ được đo trong ảnh có kích cỡ cụ thể nào đó trong vùng lân cận với mỗi điểm đặc
trưng. Sau đó, chúng sẽ được chuyển đổi thành một dạng cho phép mô tả các tầng
quan trọng trong quá trình bóp méo hình dạng cục bộ và sự thay đổi về độ chiếu
sáng.
Tập các điểm đặc biệt thu được thường phụ thuộc rất ít vào các phép biến
đổi cơ bản như xoay, phóng to, thu nhỏ, tăng giảm cường độ chiếu sáng… vì vậy
có thể xem đây là các đặc trưng mang tính cục bộ của ảnh.
Để đối sánh và nhận dạng hai ảnh thì tìm tập đặc trưng (keypoint) giống
nhau trong hai ảnh, dựa vào hướng và tỷ lệ để có thể biết đối tượng trong ảnh gốc


×