Tải bản đầy đủ (.pdf) (78 trang)

Đề tài nghiên cứu một số kỹ thuật phát hiện, bám sát đối tượng và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.49 MB, 78 trang )

LỜI CẢM ƠN
Chúng tơi xin bày tỏ lịng biết ơn sâu sắc đến TS. Trần Hành đã hướng
dẫn nhiệt tình, tận tâm trong suốt q trình tơi thực hiện nghiên cứu này.
Chúng tôi xin chân thành cảm ơn các bạn đồng nghiệp trong Trung Tâm
Thông Tin Tư Liệu - Trường Đại học Lạc Hồng đã giúp đỡ cho tôi trong suốt
thời gian nghiên cứu tại trường.
Chúng tôi cũng xin chân thành cảm ơn q Thầy (Cơ) trong và ngồi
trường đã tận tâm giúp đỡ tơi trong q trình nghiên cứu.


MỤC LỤC

LỜI CẢM ƠN ........................................................................................................ i
MỤC LỤC............................................................................................................. ii
DANH MỤC CÁC TỪ VIẾT TẮT ..................................................................... iv
DANH MỤC HÌNH .............................................................................................. v
DANH MỤC CÁC BẢNG................................................................................... vi
DANH MỤC CÁC LƯỢC ĐỒ ...........................................................................vii
MỞ ĐẦU............................................................................................................... 1
Chương 1 ............................................................................................................... 4
KHÁI QUÁT VỀ XỬ LÝ VIDEO VÀ GIÁM SÁT ĐỐI TƯỢNG ..................... 4
1.1. Khái quát về xử lý Video ............................................................................... 4
1.1.1. Sơ lược về Video ..................................................................................... 4
1.1.2. Các dạng Video........................................................................................ 5
1.1.2.1 Video tương tự.................................................................................... 5
1.1.2.2 Video số.............................................................................................. 5
1.1.3. Các chuẩn Video...................................................................................... 6
1.2. Phát hiện và giám sát đối tượng:.................................................................. 13
1.2.1. Phát hiện đối tượng chuyển động trong Video...................................... 13
1.2.1.1. Phép trừ nền..................................................................................... 14
1.2.1.2. Các phương pháp tĩnh ..................................................................... 15


1.2.1.3. Sự khác biệt theo thời gian.............................................................. 16
1.2.1.4. Optical Flow .................................................................................... 17
1.2.2. Phân loại đối tượng trong Video............................................................ 21
1.2.2.1. Phân loại dựa theo hình dạng .......................................................... 21
1.2.2.2. Phân loại dựa theo chuyển động .................................................... 22
1.2.3. Phát hiện ánh sáng ................................................................................. 23
1.2.4. Đánh dấu đối tượng ............................................................................... 23
Chương 2 ............................................................................................................. 25


PHÁT HIỆN VÀ GIÁM SÁT ĐỐI TƯỢNG CHUYỂN ĐỘNG TRONG
VIDEO................................................................................................................. 25
2.1. Phát hiện đối tượng ...................................................................................... 25
2.1.1. Phát hiện nổi trội.................................................................................... 27
2.1.1.1 Mơ hình trừ nền có khả năng thích ứng ........................................... 28
2.1.1.2. Mơ hình hỗn hợp Gaussian tương thích.......................................... 31
2.1.1.3. Sự khác biệt theo thời gian.............................................................. 34
2.1.2. Bước hậu xử lý điểm ảnh....................................................................... 35
2.1.2.1. Phát hiện bóng và sự thay đổi ánh sáng đột ngột............................ 36
2.1.3. Phát hiện các vùng liên tục .................................................................... 42
2.1.4. Bước hậu xử lý vùng.............................................................................. 43
2.1.5. Trích rút các đặc trưng của đối tượng.................................................... 43
2.2. Giám sát đối tượng chuyển động ................................................................. 44
2.2.1. Tham chiếu tương tự với các đối tượng cơ bản..................................... 46
2.2.2. Điều khiển sự chồng chéo của các đối tượng ........................................ 51
2.2.2.1 Phát hiện các đối tượng bị che khuất ............................................... 52
2.2.2.2. Phát hiện các đối tượng tách ra ....................................................... 52
2.2.2.3. Lược đồ cơ sở tham chiếu tương ứng ............................................. 53
2.2.3. Phát hiện các đối tượng dời đi và các đối tượng bị loại bỏ ................... 55
Chương 3 ............................................................................................................. 58

ỨNG DỤNG........................................................................................................ 58
3.1. Giám sát tự động dưới sự trợ giúp của Camera ........................................... 58
3.2. Chương trình thử nghiệm phát hiện và bám sát đối tượng .......................... 59
3.2.1. Giao diện của chương trình: .................................................................. 63
3.2.2. Các chức năng của chương trình: .......................................................... 63
KẾT LUẬN ......................................................................................................... 67
TÀI LIỆU THAM KHẢO................................................................................... 69


DANH MỤC CÁC TỪ VIẾT TẮT
Cụm từ viết tắt

Mô tả viết tắt

BG

Background

FG

Foreground

MPEG

Moving Pictures Expert Group

RGB

Red Green Blue


H

Human

V

Vehicle

HG

Human Group


DANH MỤC HÌNH

Hình 1.1: Ví dụ về sự khác biệt theo thời gian ................................................... 16 
Hình 2.1 : Ảnh (a) là ước lượng nền cơ sở, ảnh (b) thu được ở bước tiếp theo.
Ảnh (c) thể hiện bản đồ điểm ảnh nổi trội phát hiện được bằng cách sử dụng
phép trừ nền......................................................................................................... 31 
Hình 2.2 : Hai cách nhìn khác nhau về một ví dụ xử lý điểm ............................ 33 
Khi đó các phân bố B đầu tiên được chọn như là mô hình nền, trong đó : ........ 33 
Hình 2.3 : Ví dụ về bước khử nhiễu pixel........................................................... 36 
Hình 2.4 : Các vector RGB của pixel ảnh hiện thời

ˆ
Ix

ˆ
và pixel nền tương ứng Bx ..... 39 


Hình 2.5 : Ví dụ về xóa bóng. ............................................................................. 39 
Hình 2.6 : Ví dụ về sự thay đổi ánh sáng đột ngột.............................................. 40 
Hình 2.7 : Phát hiện sự thay đổi ánh sáng thực sự. ............................................. 42 
Hình 2.8 : Ví dụ về đánh nhãn các thành phần liên tục. ..................................... 42 
Hình 2.9: Ví dụ về đồ thị tham chiếu đối tượng ................................................. 48 
Hình 2.10: Ví dụ về trường hợp phát hiện đối tượng bị che khuất ..................... 51 
Hình 2.11: Nhận dạng đối tượng sau khi che khuất............................................ 54 
Hình 2.12: Phân biệt các đối tượng dời đi và biến mất....................................... 57 
Hình 3.1: Sơ đồ mơ tả các tiến trình xử lý của hệ thống..................................... 59 
Hình 3.2: Trước và sau khi xử lý dựa trên ngưỡng............................................. 61 
Hình 3.3: Lưu đồ thuật tốn phát hiện sự chuyển động...................................... 62 
Hình 3.4: Giao diện chương trình demo ............................................................. 63 
Hình 3.5: Phát hiện và bám sát các đối tượng chuyển động ............................... 63 
Hình 3.6: Chức năng theo vết đối tượng được lựa chọn để theo vết .................. 64 
Hình 3.7: Chức năng theo vết đối tượng được lựa chọn để theo vết(tiếp theo).. 64 
Hình 3.8: Chức năng chọn màu dãy màu của đối tượng cần theo vết ................ 65 
Hình 3.9: Chức năng chọn dãy màu từ ảnh chụp từ webcam của đối tượng cần
theo vết ................................................................................................................ 65 
Hình 3.10: Chức năng dùng đối tượng đang theo vết để điều khiển “Mouse”... 66 


DANH MỤC CÁC BẢNG
Bảng1.1. Các tiêu chuẩn của Video số.................................................................. 5 
Bảng 1.2. Một số ràng buộc của MPEG-1 ............................................................ 8 
Bảng 1.3. Mô tả kiểu CIF và QCIF..................................................................... 11 


DANH MỤC CÁC LƯỢC ĐỒ

Lược đồ 1.1: Lược đồ chung cho các thuật toán xử lý Video............................. 14 

Lược đồ 2.1: Lược đồ khối hệ thống.................................................................. 25 
Lược đồ 2.2: Lược đồ hệ thống đánh dấu đối tượng........................................... 46 


1

MỞ ĐẦU

Trong kỷ nguyên công nghệ thông tin hiện nay, với sự phát triển nhanh
chóng của các cơng nghệ chế tạo thiết bị phần cứng ngày càng hiện đại, tinh
vi thì ngành cơng nghệ phần mềm cũng khơng ngừng mở rộng để phù hợp với
các yêu cầu của thực tế. Trong đó phải kể đến sự phát triển của các thiết bị thu
nhận hình ảnh từ thế giới thực, chẳng hạn như các hệ thống giám sát bằng
camera, song hành với nó là các vấn đề liên quan đến việc giám sát. Thách
thức chính cho cơng nghệ phần mềm trong lĩnh vực này chính là việc xử lý
các hình ảnh thu nhận được từ các hệ thống giám sát đó.
Giám sát là một vấn đề được rất nhiều nhà nghiên cứu quan tâm đặc biệt
bởi những ứng dụng thiết thực của nó cho đời sống xã hội. Chẳng hạn như các
hệ thống giám sát các hành vi khả nghi của tội phạm, khủng bố ở các địa điểm
nhạy cảm của các chính phủ. Hệ thống giám sát trong các viện bảo tàng, lưu
trữ để chống trộm cắp các di vật đang được trưng bày. Hệ thống giám sát các
hiện tượng bất bình thường, vi phạm pháp luật, tai nạn ở các điểm giao thơng.
Hệ thống giám sát phịng chống hỏa hoạn. Các hệ thống giám sát trong các
siêu thị, cửa hàng, cơng ty để chống trộm cắp,…
Thách thức chính cho ngành công nghệ phần mềm là đưa ra các giải
pháp nhằm xây dựng một hệ thống giám sát tối ưu nhất nhằm giúp con người
phát hiện chính xác và kịp thời các hiện tượng bất thường để có biện pháp xử
lý nhanh chóng nhằm tránh các thiệt hại đáng tiếc cho xã hội.
Dữ liệu thu được từ hệ thống camera giám sát thường được lưu trữ dưới
dạng Video. Như vậy công việc hiện nay của chúng ta là nghiên cứu các vấn

đề liên quan đến việc xử lý Video.


2

Hiện nay trên thế giới đã có nhiều cơng trình nghiên cứu về xử lý Video
và cũng đã có nhiều ứng dụng đáng kể trong lĩnh vực này. Tuy nhiên, so với
yêu cầu thực tế thì như thế vẫn là chưa đủ.
Ở Việt Nam, xử lý Video là một vấn đề còn khá mới mẻ. Thực tế cho
thấy rằng, khi xã hội phát triển càng mạnh, yêu cầu về các thiết bị công nghệ
càng cao. Như vậy, xử lý Video là một mảnh đất màu mỡ cho các trung tâm
nghiên cứu, các công ty đầu tư vào. Nhất là trong giai đoạn hệ thống nhúng
đang phát triển và mở ra một kỷ nguyên với cho ngành công nghệ phần mềm
như hiện nay.
Giám sát tự động là một hướng mới và có nhiều triển vọng trong sự phát
triển tiếp theo của lĩnh vực nhận dạng và xử lý ảnh 2 chiều. Đồng thời, đó
cũng là một hướng đi cho mảng phần mềm thiết kế chuyên dụng cho các thiết
bị giám sát tự động. Việc phát hiện ra các đối tượng chuyển động trong Video
nhờ các kỹ thuật xử lý ảnh, trên cơ sở đó đốn nhận một số hành vi của đối
tượng là một việc làm có ý nghĩa khoa học và thực tiễn, nhất là trong hoàn
cảnh Việt Nam chưa có nhiều những nghiên cứu và ứng dụng theo hướng này.
Xuất phát từ thực tế đó, việc nghiên cứu và đưa ra các phương pháp để
xử lý Video là vô cùng thiết thực. Được sự hướng dẫn của TS. Trần Hành tôi
đã tiến hành nghiên cứu đề tài “Nghiên cứu một số kỹ thuật phát hiện, bám
sát đối tượng và ứng dụng”
Trong khuôn khổ của nghiên cứu này, mục tiêu của tơi là tìm hiểu các
bước phát hiện, đánh dấu, phân loại các đối tượng chuyển động trong Video
và so sánh mẫu để đưa ra kết luận tương ứng. Sau khi nghiên cứu kỹ các
phương pháp đã được đưa ra, tôi tiến hành đánh giá ưu và nhược điểm của
mỗi phương pháp và mạnh dạn đưa ra một số biện pháp khắc phục nhằm làm

cho hệ thống hoạt động tối ưu nhất với hệ thời gian thực.


3

Các vấn đề cần giải quyết trong phạm vi nghiên cứu này bao gồm:
Nghiên cứu tổng quan về Video và phát hiện đối tượng chuyển động.
Nghiên cứu và đề xuất một hướng khắc phục các nhược điểm trong việc
phát hiện, đánh dấu, phân loại các đối tượng chuyển động.
Cài đặt một số phương pháp phát hiện, đánh dấu các đối tượng chuyển
động dựa theo các phương pháp đã nêu ở trên.
 
 


4

Chương 1
KHÁI QUÁT VỀ XỬ LÝ VIDEO VÀ GIÁM SÁT ĐỐI
TƯỢNG
1.1. Khái quát về xử lý Video
1.1.1. Sơ lược về Video
Ngày nay, khơng ai có thể phủ nhận các thành tựu mà ngành cơng nghệ
thơng tin mang lại. Trong đó, đa phương tiện là một khía cạnh quan trọng với
nhiều ứng dụng thiết thực nhằm làm cho xã hội ngày càng phát triển hơn, văn
minh hơn. Nhưng với sự phát triển không ngừng như hiện nay của công nghệ
thông tin, như thế vẫn là chưa đủ. Vẫn cần nhiều hơn nữa các nghiên cứu liên
quan đến khía cạnh này, trong đó phải kể đến một lĩnh vực rất quan trọng của
đa phương tiện, đó là xử lý Video.
Video là sự tái tạo ảnh tự nhiên theo không gian và thời gian hoặc cả hai,

thực chất là một dãy ảnh liên tục theo thời gian nhằm mô phỏng sự chuyển
động. Việc dùng ảnh liên tục để mô tả chuyển động theo thời gian đã xuất
hiện gần 2 thế kỉ nay. Năm 1834 nhà toán học William George Horner đã phát
minh ra cách mơ tả này. Sau đó, hàng loạt các nghiên cứu khác được triển
khai và đã có những ứng dụng đáng kể. Năm 1887, khi Hannubal Good phát
minh ra phim ảnh thì vấn đề ảnh chuyển động được quan tâm đặc biệt vì
những lợi ích kinh tế mà nó mang lại. Năm 1895, một hệ thống
camera/Projector với các chuẩn phim (35mm chiều rộng, 24 khung hình trên
giây) được phát triển bởi Louis Lumiére..
Sự chuẩn hóa của Video tương tự trong những năm đầu của thập niên
1950 (NTSC) và những năm cuối của 1960 (SECAM và PAL) làm cho ảnh
chuyển động xuất hiện hầu như khắp nơi, với các thiết bị vô tuyến được dùng


5

rộng rãi cho mục đích giải trí, các hệ thống ứng dụng công nghệ như phát hiện
chuyển động tiếp tục được phát triển.
Vào năm 1990, các tổ chức về chuẩn hóa như tổ chức ISO-IEC
(International Organization for Standard – International Electrotechnical
Commission) đã đưa ra chuẩn MJPEG cho Video kĩ thuật số, tổ chức chuẩn
ITU-T (International Telecommunication Union) đã đưa ra chuẩn H.261 và
một số các chuẩn liên quan khác. Đi kèm với nó là các thiết bị tin học giá rẻ
đã tạo nên sự phát triển bùng nổ cho các ứng dụng đa phương tiện.
1.1.2. Các dạng Video
1.1.2.1 Video tương tự
NTSC Video: Đây là dạng Video tương tự với 525 dịng trên một khung
hình, 30 khung hình trong một giây, quét cách dòng, chia làm hai trường (mỗi
trường 262.5 dòng), có 20 dịng dự trữ cho thơng tin điều khiển tại thời điểm
bắt đầu mỗi trường.

PAL Video: Dạng Video này có 625 dịng trên một khung hình, 25
khung hình trong một giây, quét cách dòng. Khung gồm hai trường chẵn lẻ,
mỗi trường bao gồm 312.5 dòng.
1.1.2.2 Video số
Một số tiêu chuẩn của Video số lấy theo tiêu chuẩn CCIR (Consultative
Committee for International Radio)
Bảng1.1. Các tiêu chuẩn của Video số
CCIR

CCIR

601525/60

601625/50

NTSC

PAL/SECAM

CIF

QCIF


6

Độ phân giải
độ chói
Độ phân giải
màu sắc

Lấy mẫu
màu
Số trường /s
Cách quét

720x480

360x576

352x288

176x144

360x480

360x576

176x144

88x72

4:2:2

4:2:2

4:2:0

4:2:0

60


50

30,15,10,7.5

30,15,10,7.5

Cách dòng

Cách dòng

Liên tục

Liên tục

1.1.3. Các chuẩn Video
Các chuẩn do tổ chức chuẩn ISO-IEC (International Organization for
Standard-International Electrotechnical Commission) đưa ra bao gồm:
Chuẩn MJPEG:
MJPEG (Motion JPEG) là tên gọi của một lớp các quy cách của Video,
trong đó mỗi frame của Video hoặc phạm vi được kết hợp lại của một dãy
Video số được nén lại một cách độc lập như là một ảnh JPEG
MJPEG sử dụng hình thái nén dựa trên phép biến đổi cosin rời rạc. Phép
toán này chuyển đổi mỗi frame của Video nguồn từ miền thời gian xác định
vào miền tần số. Một mơ hình tri giác dựa theo một cách không chặt chẽ vào
hệ thống trực quan của con người để loại bỏ thông tin có tần số cao, ví dụ như
sự chuyển đổi một cách chính xác theo cường độ và màu sắc. Trong miền
chuyển đổi, việc xử lý rút gọn các thông tin được gọi là lượng tử. Trong đó,
lượng tử là một phương pháp làm giảm được một nhóm tỷ lệ lớn (với sự xẩy
ra khác nhau của mỗi một nhóm) vào một nhóm nhỏ hơn, và miền chuyển đổi

này rất thuận tiện cho việc biểu diễn ảnh bởi các hệ số có tần số cao, nó góp


7

phần làm giảm các ảnh trên hơn là các hệ số khác, là những đặc tính có giá trị
nhỏ với hệ số nén cao. Các hệ số lượng tử này ngay sau đó được xếp dãy và
đóng gói vào đầu ra của các tuyến bit. Gần như việc thi hành của tất cả các
phần mềm của chuẩn MJPEG cho phép người dùng điểu khiển trên tỉ lệ nén
(như là các tham biến tùy ý khác), cho phép người sử dụng để trao đổi ngoại
tuyến đối với các tệp có kích thước nhỏ hơn. Trong các ứng dụng nhúng
(miniDV, nó được sự dụng tương tự như sự pha trộn nén DCT), các tham biến
này được lựa chọn trước và thiết lập cho ứng dụng.
Chuẩn Video MPEG-1
MPEG-1 là một chuẩn được phát triển và thừa nhận năm 1992 để lưu trữ
dạng nén thô các Video dạng CIF và kết hợp với audio khoảng 1.5 Mbps (các
tỉ lệ nén tách biệt là 26:1 và 6:1) trên nhiều môi trường lưu trữ số khác nhau
như VCD , DAT, Winchester, đĩa quang, cáp, vệ tinh số và truyền thanh số
với ứng dụng chính là các hệ thống đa phương tiện trực tuyến
Chuẩn MPEG-1 còn được gọi là ISO/IEC-11172 bao gồm các phần sau:
1. Các hệ thống (lưu trữ và đồng bộ hóa Video, audio và các dữ liệu
khác cùng nhau)
2. Video (nén Video)
3. Audio (nén audio)
4. Kiểm tra sự đúng đắn (kiểm tra sự chính xác của việc thực hiện
chuẩn)
5. Các phần mềm cơ sở (chẳng hạn như các phần mềm mã hóa và
giải mã)
Cụ thể chuẩn MPEG-1 cho Video như sau:
Không gian màu của MPEG-1:



8

Trước khi mã hóa Video thành MPEG-1, khơng gian màu được chuyển
đổi thành Y’CbCr (Y’=Luma, Cb = Thành phần màu Blue, Cr = thành phần
màu Red). Luma bao gồm độ sáng và độ phân giải được lưu trữ tách biệt nhau
theo thành phần (màu, màu sắc, giai đoạn) và được phân biệt giữa các thành
phần Red và Blue.

Các đặc tính của MPEG-1:
• Là tiêu chuẩn tổng quát cú pháp, hỗ trợ ước lượng chuyển động,
dự đoán bù chuyển động, dùng thuật tốn mã hóa rời rạc cosine
DCT.
• Khơng định nghĩa các thuật toán xác định cụ thể mà thiết kế bộ
mã hóa linh hoạt.
• Khả năng phục vụ các ảnh khác nhau, hoạt động trên các thiết bị,
tốc độ khác nhau.
• Truy cập ngẫu nhiên dựa trên các điểm truy cập độc lập (khung
I).
• Tìm nhanh xem như qt dịng bit mã hóa, chỉ hiển thị các khung
được chọn.
• Trễ mã hóa và giải mã hợp lí (1s), gây ấn tượng tốt cho truy cập
Video đơn công.
MPEG-1 chỉ xét các tín hiệu Video lũy tiến. Sử dụng khơng gian màu
(Y, Cr, Cb) đã được thừa nhận theo kiến nghị CCIR 601. Trong SIF (Standard
Input Format) MPEG kênh chí là 352 pixel x 240 dịng và 30 khung hình/s.
Sau đây là một số ràng buộc đối với MPEG-1:
Bảng 1.2. Một số ràng buộc của MPEG-1



9

Số pixel lớn nhất trên một dòng

720

Số dòng lớn nhất trên một ảnh

576

Số ảnh trong một giây

30

Số MB trên một ảnh

396

Số MB trên một giây

9900

Tốc độ bit tối đa
Kích thước bộ đệm giải nén tối đa

1.86 Mbps
376.832 bits

Chuẩn Video MPEG-2

MPEG-2 là một phiên bản mở rộng của MPEG-1 để cung cấp phạm vi
rộng các ứng dụng với tốc độ bit và các độ phân giải khác nhau (2-20Mbps).
Các đặc tính chính:
MPEG-2 được sử dụng rộng rãi như là định dạng của các tín hiệu vơ
tuyến kĩ thuật số, các tín hiệu này có thể là tín hiệu vệ tinh, tín hiệu hữu
tuyến, vơ tuyến. Nó cũng định dạng cho phim ảnh và một số chương trình
khác được lưu trên DVD hoặc một số đĩa từ tương tự. MPEG-2 là một chuẩn
quốc tế và cịn có tên gọi khác là ISO/IEC 13818.
Chuẩn MPEG-2 cho Video tương tự như chuẩn MPEG-1.
Chuẩn Video MPEG-4.
MPEG-4 phát triển cho tốc độ bit rất thấp: 4.8 đến 68 kbps, tuy nhiên sau
đó đã nâng tốc độ lên đáng kể.
- Video: 5kbps đến 10 Mbps.
- Audio: 2kbps đến 64 Kbps.


10

Dạng chuẩn này nhằm hỗ trợ phát triển riêng cho các đối tượng khác
nhau tạo khả năng thích nghi, linh động để cải thiện chất lượng của các dịch
vụ như: tivi số, đồ họa trình diễn, World Wide Web, Videophone và các mở
rộng của chúng.
MPEG-4 còn được gọi là chuẩn ISO/IEC 14496
Chuẩn Video MPEG-7
Được thừa nhận thành tiêu chuẩn quốc tế tháng 7/2001
MPEG-7 đề xuất cho việc tìm kiếm, chọn lựa, quản lý và phân tích thơng
tin đa phương tiện, không tập trung vào một ứng dụng cụ thể, không phải là
một tiêu chuẩn mã hóa thực sự cho Audio, Video hay multimedia.
MPEG-7 cũng là một dạng phát triển lên từ phiên bản của MPEG-1 và
nó đang được phát triển.

MPEG-7 cung cấp một tập hợp đầy đủ các công cụ chuẩn hóa để mơ tả
nội dung của đa phương tiện. Cả người dùng và hệ thống tự động xử lý hệ âm
thanh thực đều thuộc phạm vi của MPEG-7.
Ngoài ra, tổ chức chuẩn ITU-T (International Telecommunication
Union) cũng đưa ra một số chuẩn cho Video như sau:
Chuẩn H.120:
H.120 là chuẩn đầu tiên cho việc mã hóa Video kĩ thuật số, được đưa ra
vào những năm 1984.
H.120 chạy với tốc độ 1544kbit/s cho NTSC và 2048 cho PAL.
Chuẩn Video H.261
H.261 được phát triển cho dịch vụ truyền hình hội nghị và Video phone
qua ISDN ở tốc độ px64kbps/s (p=1, 2, …,30), H.261 làm cơ sở cho các
chuẩn nén sau này như MPEG 1, 2.


11

H.261 sử dụng dạng thức trung gian CIF (Common Intermediate Format)
với các tốc độ bit thấp hơn, nó sử dụng dạng có tốc độ nhỏ hơn ¼ là QCIF
(Quadrature). Với tốc độ 30 khung hình/s thì tốc độ dữ liệu của CIF là 37.3
Mbps, QCIF là 9.35 Mbps. Tốc độ càng thấp thì càng giảm số khung hình/s.
Tín hiệu Video được phân thành các lớp, mỗi lớp đều có các header để
định nghĩa các tham số được sử dụng bởi bộ mã hóa khi tạo dịng bit. Lớp ảnh
được phân thành các nhóm khối GOB (Group of Block), các GOB bao gồm
các MB (MacroBlock). MB là đơn vị nhỏ nhất bao gồm 4 khối 8x8 của tín
hiệu Y và hai khối 8x8 của tín hiệu sắc.
Lớp GOB ln được kết hợp của 33 MB hợp thành ma trận 3x11. Mỗi
MB có một header chứa địa chỉ MB và kiểu nén, tiếp theo là dữ liệu của khối
Bảng 1.3. Mô tả kiểu CIF và QCIF
Kiểu


Số GOB/khung

Số MB/GOB

Tổng MB/khung

CIF

12

33

396

QCIF

3

33

99

Cuối cùng, lớp ảnh bao gồm header ảnh theo sau bởi dữ liệu cho các
GOB. Mỗi header chứa dữ liệu là dạng ảnh và số khung. Cấu trúc của một
MB như sau:
MBA

MTYPE


MQUANT

MVD

CBP

MBA: Địa chỉ, MTYPE: Dạng Intra, Inter
MQUANT: Hệ số lượng tử, MVD: Vector chuyển động
CBP: Mẫu khối đã mã hóa, Block Data: Dữ liệu

Block
Data


12

IntraFrame: Trong khung, khung I cho khả năng truy cập ngẫu nhiên,
kiểu nén intra tương tự như JPEG dựa trên mã hóa DCT từng MB.
InterFrame: Liên khung, liên hệ với các khung I và P trước, MB đầu có
thể bù chuyển động (MC – Motion Compensation) hoặc không. Cung cấp các
tùy chọn cho từng MB như lượng tử với các hệ số lượng tử và sử dụng bộ lọc
bù chuyển động.
Chuẩn Video H.263
H.263 là chuẩn cải tiến của H.261 cho Video tốc độ thấp, có thể truyền
trên mạng điện thoại công cộng PSTN, được công nhận năm 1996. Giống như
H.261, mã hóa DCT cho các MB trong I Frame và DCT sai biệt dự đoán trong
P Frame, tốc độ tối thiu.
u im:
ã Chớnh xỏc sai bit d oỏn vi ẵ điểm ảnh
• Khơng hạn chế vector chuyển động

• Mã hóa số học theo cú pháp
• Dự đốn thuận lợi với các khung P,…


13

Chuẩn Video H.263:
H.263 là một chuẩn Video codec được thiết kế một cách sáng tạo như
định dạng nén tốc độ bit thấp cho các cuộc hội nghị thông qua Video. Nó là
một thành viên trong nhóm H.26x của các chuẩn mã hóa Video của ITU-T,
được cơng nhận năm 1996.
H.263 là một yêu cầu bắt buộc của Video codec trong công nghệ ETSI
3GPP cho hệ thống đa phương tiện nhỏ sử dụng giao thức IP (IMS), các dịch
vụ gửi nhận thông điệp đa phương tiện (MMS),…
Chuẩn Video H.264:
H.264 là một chuẩn để nén Video, được hoàn thành vào tháng 5 năm
2003. Nó tương tự như chuẩn ISO/IEC 14496 dành cho Video.

1.2. Phát hiện và giám sát đối tượng:
1.2.1. Phát hiện đối tượng chuyển động trong Video
Mỗi ứng dụng được thừa hưởng từ việc xử lý Video thơng minh những
thứ nó cần để giải quyết những yêu cầu khác nhau. Tuy nhiên, chúng có một
số điểm chung sau: các đối tượng chuyển động. Như vậy, việc phát hiện các
đối tượng chuyển động là bước đầu tiên của bất kỳ hệ thống xử lý Video nào.
Khi tìm kiếm thấy các đối tượng chuyển động mới bắt đầu chuyển sang bước
xử lý khác. Thực tế thì các Video thu được từ camera có rất nhiều nhiễu,
chẳng hạn như sự thay đổi của ánh sáng, sự thay đổi của thời tiết, lá
rung,…Việc phát hiện đối tượng chuyển động gặp vấn đề khó khăn để xử lý
một cách chính xác. Các cơng nghệ thường xun được sử dụng để phát hiện
đối tượng chuyển động là phép trừ nền, các phương pháp tĩnh, sự khác biệt về

thời gian và optical flow.


14

Phát hiện đối 
tượng 

Phân loại đối tượng

Đánh dấu đối 
tượng 

Thừa nhận hành 
vi 

Mô tả ngữ nghĩa

Lược đồ 1.1: Lược đồ chung cho các thuật toán xử lý Video
1.2.1.1. Phép trừ nền
Phép trừ nền là một phần trong công nghệ phân đoạn chuyển động trong
các cảnh tĩnh [13]. Nó cố gắng phát hiện các vùng chuyển động bằng cách trừ
điểm ảnh cho điểm ảnh từ ảnh hiện thời đến một ảnh nền cơ sở đã được tạo
bởi trung bình các ảnh nền trong một khoảng thời gian của một chu kỳ khởi
tạo. Những ảnh mà ở đó có sự khác biệt sau khi thực hiện trừ nền ở trên bước
đầu được phân loại bằng sự nổi trội. Sau khi tạo một bản đồ các điểm nổi trội,
một số phép toán hậu xử lý như: phép co, dãn, đóng khung được thực hiện để
đơn giản hóa các tác động của nhiễu và làm tăng vùng phát hiện. Nền cơ sở
được cập nhật với các ảnh mới theo thời gian để thích ứng với sự thay đổi
của các cảnh động.

Có nhiều hướng tiếp cận khác nhau về việc phối hợp dựa trên phép trừ
nền trong phạm vi của việc phát hiện vùng nổi trội, duy trì nền và hậu xử lý.
Heikkila và Silven [7] sử dụng một cách đơn giản phép phối hợp này, với
mỗi điểm ảnh được biểu diễn bởi một tọa độ (x,y) trong ảnh hiện thời It sẽ
được đánh dấu là điểm nổi bật nếu
|It(x,y) – Bt(x,y)|> τ

(1.1)


15

được thỏa mãn, trong đó, τ là ngưỡng xác định trước. Ảnh nền BT được
cập nhật bởi việc sử dụng phép lọc Infinite Impulse Respone (IIR) như sau :
Bt+1=αIt + (1- α)Bt

(1.2)

Việc tạo ra bản đồ điểm nổi trội được cho phép bởi các hình thái đóng và
kết thúc của các miền kích thước nhỏ.
Mặc dù các cơng nghệ trừ nền thực hiện tốt việc đưa ra các điểm có liên
quan của các vùng chuyển động trước khi kết thúc, chúng thường chịu ảnh
hưởng của các thay đổi động, chẳng hạn ánh sáng chợt thay đổi đột ngột,…
1.2.1.2. Các phương pháp tĩnh
Hầu hết các phương pháp cải tiến đã được sử dụng đều phát triển dựa
trên các phương pháp trừ nền.
Phương pháp W4 [6] sử dụng một mơ hình nền tĩnh, ở đó mỗi pixel được
biểu diễn lại với giá trị nhỏ nhất (M) và giá trị lớn nhất (N) của nó về cường
độ và sự sai khác cường độ lớn nhất (D) giữa các frame liên tiếp bất kỳ quan
sát được trong suốt chu kỳ khởi tạo huấn luyện mà ở đó cảnh khơng chứa các

đối tượng chuyển động. Một điểm trong ảnh hiện thời It được phân loại như là
điểm nổi trội nếu nó thỏa mãn:
|M(x,y)-It(x,y)|>D(x,y) hoặc |N(x,y)-Itx,y)|>D(x,y)

(1.3)

Sau khi thực hiện, phép toán co được áp dụng lặp lại cho các điểm nổi
bật đã được phát hiện để xóa bỏ một điểm nhiễu đậm đặc. Trong khi tạo ra
các vùng co để quản lý kích cỡ của chúng, một dãy các phép co và dãn được
thực hiện trên bản đồ điểm nổi bật. Cũng như thế, các vùng có kích thước nhỏ
được loại trừ sau khi áp dụng đánh nhãn các thành phần liên tục để tìm vùng.
Trạng thái tĩnh của các điểm ảnh nền thuộc về các vùng đứng yên của ảnh
hiện thời được cập nhật với các ảnh dữ liệu mới.


16

Một ví dụ khác của các phương pháp tĩnh, Stauffer và Grimson [17] đã
miêu tả một sự tương thích của mơ hình pha trộn nền để đánh dấu thời gian
thực. Mọi điểm ảnh thực sự được mơ hình hóa bởi sự pha trộn của phương
pháp Gaussians và được cập nhật trực tuyến bởi dữ liệu ảnh đầu vào. Các
phân bố Gaussian sẽ đánh giá xem một điểm sẽ thuộc về việc xử lý điểm nổi
trội hay là thuộc về xử lý nền.
1.2.1.3. Sự khác biệt theo thời gian
Sự khác biệt theo thời gian cố gắng phát hiện các vùng chuyển động
bằng cách sử dụng sự khác nhau giữa một điểm ảnh ở các frame liên tiếp nhau
(hai hoặc ba) trong một dãy Video. Phương pháp này có khả năng thích ứng
cao với các cảnh động, tuy nhiên, nó thường mắc một số lỗi trong việc phát
hiện đối tượng chuyển động.


(a)

(b)
Hình 1.1: Ví dụ về sự khác biệt theo thời gian

(a)Một cảnh với hai đối tượng chuyển động, (b) Phương pháp dựa trên sự
khác biệt theo thời gian bị lỗi khi phát hiện tất cả các điểm ảnh chuyển động
của đối tượng bên trái. Các vùng chuyển động được phát hiện đánh dấu bởi
màu đỏ


17

Vùng màu đơn của người bên ảnh trái làm cho thuật toán khác biệt về
thời gian bị lỗi trong việc trích ra tất cả các điểm ảnh của vùng chuyển động
của con người. Cũng vậy, phương pháp này lỗi khi phát hiện các đối tượng đã
dừng lại trong cảnh. Các phương pháp bổ sung cần kế thừa để phát hiện các
đối tượng đứng yên giúp cho việc thành công ở những bước xử lý cao hơn.
Lipton [9] đã trình bày cách phối hợp giữa hai frame khác nhau, ở đó,
các pixel thỏa mãn các biểu thức sau :
|It(x,y) –It-1(x,y)|>τ

(1.4)

Để khắc phục các thiếu sót của hai frame khác nhau, trong một số trường
hợp, ba frame khác nhau có thể được sử dụng.
1.2.1.4. Optical Flow
Phương pháp Optical flow thực hiện bằng cách sử dụng các vector có
hướng của các đối tượng chuyển động theo thời gian để phát hiện các vùng
chuyển động trong một ảnh. Chúng có thể phát hiện chuyển động trong các

dãy Video ngay cả các Video thu được từ camera di chuyển.
Optical flow là khái niệm chỉ sự chuyển động tương đối của các điểm
trên bề mặt một đối tượng, vật thể nào đó gây ra, dưới góc quan sát của một
điểm mốc (mắt, camera…). Sự chuyển động của các vật thể (mà thực tế có thể
coi là sự chuyển động của các điểm trên bề mặt của vật thể ấy) trong không
gian 3 chiều, khi được chiếu lên một mặt phẳng quan sát 2D được gọi là
motion field. Nói chung, mục đích của các phương pháp optical flow
estimation là để xác định (xấp xỉ) motion field từ một tập các frame ảnh thay
đổi theo thời gian, chúng được sử dụng rộng rãi trong các bài toán object
segmentation, motion detection, tracking…
Có nhiều kĩ thuật xác định optical flow khác nhau như correlation, matching,
feature-tracking, energy-based… nhưng bài này – dựa trên một chương sách
của David Fleet [19] – sẽ tập trung vào các phương pháp dựa trên gradient.
Các phương pháp khác cũng đã được Fleet khảo sát trong [2].


18

Ý tưởng quan trọng của phương pháp tính optical flow dựa trên gradient là
giả định sau:
Bề ngoài của đối tượng khơng có nhiều thay đổi (về cường độ sáng –
intensity) khi xét từ frame thứ n sang frame n+1.
Nghĩa là
Trong đó

r
r r
I ( x , t ) = I ( x + u , t + 1) (1).
r
r

I ( x , t ) là hàm trả về cường độ sáng của điểm ảnh x tại thời điểm t
r

(frame thứ t). x = ( x, y ) là tọa độ của điểm ảnh trên bề mặt (2D),
T

r
u = (u1 , u2 ) là vector vận tốc, thể hiện sự thay đổi vị trí của điểm ảnh từ

frame thứ t sang frame t+1. Mặc dù có vẻ khơng thực tế, nhưng nhiều cơng
trình cho thấy giả sử (1) làm việc khá tốt trong thực tế.
Sử dụng khai triển Taylor, ta xấp xỉ:

r r
r
r
r
r
I ( x + u , t + 1) ≈ I ( x , t ) + u ⋅ ∇I ( x , t ) + I t ( x , t )
với

(2).

r
∇I = ( I x , I y ) , và I t ( x , t ) là đạo hàm tức thời của I tại thời điểm t.

Bỏ qua các phần tử có bậc đạo hàm cao hơn trong (2), so sánh (1) và (2),
đồng thời xấp xỉ

r

r
r
r
I t ( x , t ) bằng δI t ( x , t ) ≡ I ( x , t + 1) − I ( x , t ) , ta nhận

được phương trình sau, gọi là phương trình ràng buộc gradient (gradient
constraint equation, cịn gọi là phương trình optical flow)

r
r
r
∇I t ( x , t ) ⋅ u + I t ( x , t ) = 0

(3).

Phương trình (3) cịn có thể đạt được bằng cách xuất phát ngay từ giả thiết
ban đầu của chúng ta là giá trị độ sáng của điểm ảnh
frame t sang t+1, như vậy:

r
x không thay đổi từ

r
r
δI dx δI dy δI dt
d
I t ( x (t ), t ) =
+
+
= ∇I ⋅ u + I t = 0

δx dt δy dt δt dt
dt


×