Tải bản đầy đủ (.pdf) (60 trang)

Nghiên cứu một số kỹ thuật giám sát đối tượng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.16 MB, 60 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG







VŨ ĐÌNH THANH






NGHIÊN CỨU MỘT SỐ KỸ THUẬT
GIÁM SÁT ĐỐI TƯỢNG









LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH











Thái Nguyên - 2012
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG





VŨ ĐÌNH THANH





NGHIÊN CỨU MỘT SỐ KỸ THUẬT
GIÁM SÁT ĐỐI TƯỢNG



Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01





LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH



NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS Đỗ Năng Toàn









Thái Nguyên - 2012
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

`
LỜI CAM ĐOAN
Em xin cam đoan toàn bộ nội dung bản luận văn này là do em tự sƣu
tầm, tra cứu và sắp xếp cho phù hợp với nội dung yêu cầu của đề tài.
Nội dung luận văn này chƣa từng đƣợc công bố hay xuất bản dƣới bất
kỳ hình thức nào và cũng không đƣợc sao chép từ bất kỳ một công trình
nghiên cứu nào.
Tất cả phần ứng dụng đều do em tự thiết kế và xây dựng, trong đó có
sử dụng một số thƣ viện chuẩn và các thuật toán đƣợc các tác giả xuất bản

công khai và miễn phí trên mạng Internet.
Nếu sai em xin hoàn toàn chịu trách nhiệm.

Thái Nguyên, ngày tháng năm 2012
Ngƣời cam đoan


Vũ Đình Thanh
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

`
LỜI CẢM ƠN
Trong quá trình làm luận văn vừa qua, dƣới sự giúp đỡ và chỉ bảo nhiệt
tình của PGS. TS Đỗ Năng Toàn – Viện Công nghệ thông tin – Viện khoa học
Việt Nam, luận văn của tôi đã đƣợc hoàn thành. Mặc dù đã cố gắng không
ngừng cùng với sự tận tâm của thầy hƣớng dẫn nhƣng do thời gian và khả
năng vẫn còn hạn chế nên luận văn khó tránh khỏi những thiếu sót.
Để hoàn thành luận văn này, em xin bày tỏ lòng biết ơn sâu sắc đến
PGS. TS Đỗ Năng Toàn – ngƣời thầy đã tận tình giúp đỡ em trong suốt quá
trình làm luận văn.
Em cũng xin bày tỏ lòng biết ơn đến ban lãnh đạo và các thầy giáo, cô
giáo trong Trƣờng Đại học Công Nghệ Thông Tin & Truyền Thông Đại Học
Thái Nguyên đã giúp đỡ, tạo điều kiện tốt nhất cho em học tập và thực hiện
luận văn này.
Thái Nguyên, ngày tháng năm 2012
Tác giả



Vũ Đình Thanh

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
i


`
MỤC LỤC
Trang
Mục lục i
Các ký hiệu viết tắt ii
Danh mục bảng biểu vi
Danh mục hình ảnh v
PHẦN MỞ ĐẦU 1
CHƢƠNG 1. KHÁI QUÁT VỀ XỬ LÝ VIDEO VÀ GIÁM SÁT
ĐỐI TƢỢNG 3
1.1. Khái quát về xử lý Video 3
1.1.1. Sơ lƣợc về Video 3
1.1.2. Các dạng Video 4
1.1.2.1. Video tƣơng tự 4
1.1.2.2. Video số 4
1.1.3. Các chuẩn video 5
1.2. Phát hiện và giám sát đối tƣợng 11
1.2.1. Phát hiện đối tƣợng chuyển động 11
1.2.1.1. Phép trừ nền 12
1.2.1.2. Các phƣơng pháp tĩnh 13
1.2.1.3. Sự khác biệt theo thời gian 14
1.2.1.4. Optical Flow 15
1.2.1.5. Phát hiện sự thay đổi ánh sáng và bóng 15
1.2.2. Giám sát đối tƣợng 16
1.2.3. Ứng dụng giám sát đối tƣợng trong thực tế 16
CHƢƠNG 2. MỘT SỐ KỸ THUẬT PHÁT HIỆN VÀ GIÁM SÁT

ĐỐI TƢỢNG 20
2.1. Phát hiện nổi trội 20
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ii


`
2.1.1. Mô hình trừ nền có khả năng thích ứng 20
2.1.2. Mô hình hỗn hợp Gaussian tƣơng thích 22
2.1.3. Sự khác biệt theo thời gian 25
2.2. Phát hiện và giám sát các đối tƣợng dời đi và các đối tƣợng bị loại bỏ 26
2.3. Phát hiện các vùng liên tục 29
2.4. Phƣơng pháp SURF 29
2.4.1. Ảnh tích hợp (integral image) 29
2.4.2. Phát hiện Fast-Hessian 30
2.4.3. Biểu diễn không gian tỷ lệ 32
2.4.4. Định vị điểm quan tâm 33
2.4.5. Bộ mô tả điểm quan tâm và so khớp 34
2.4.5.1. Gán hƣớng 35
2.4.5.2. Bộ mô tả dựa trên tổng các đặc trƣng Haar wavelet. 36
2.4.5.3. Lập chỉ mục và so khớp 39
CHƢƠNG 3. CHƢƠNG TRÌNH THỬ NGHIỆM 40
3.1. Bài toán 40
3.2. Phân tích và thiết kế 41
3.3. Chƣơng trình thử nghiệm giám sát đối tƣợng 45
3.3.1. Cài đặt chƣơng trình 46
3.3.2. Giao diện của chƣơng trình 46
TÀI LIỆU THAM KHẢO 49
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
iii



`
CÁC KÝ HIỆU VIẾT TẮT

Cụm từ
viết tắt
Mô tả viết tắt
Ý nghĩa
NTSC
National Television System
Committee
Hệ thống truyền hình quốc
tế
SURF
Speed Up Robust Feature
Đẩy mạnh tính tăng
BG
Background
Màu nền sau
FG
Foreground
Màu nền nguồn
MPEG
Moving Pictures Expert Group
Nhóm chuyên gia điện ảnh
RGB
Red Green Blue
Màu đỏ, màu xanh lá cây,
màu xanh da trời

ITU
International
Telecommunication Union
Tổ chức liên minh viễn
thông quốc tế
SIF
Standard Input Format
Định dạng chuẩn đầu ra
CIF
Common Intermediate Format
Định dạng trung gian
MC
Motion Compensation
Chuyển động bù
SIFT
Scale Invariant Feature
Tranforms
Tính năng tỷ lệ bất biến
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
iv


`
DANH MỤC CÁC BẢNG

Bảng
Mô tả
Bảng 1.1
Các tiêu chuẩn của Video số
Bảng 1.2

Một số ràng buộc của MPEG-1
Bảng 1.3
Mô tả kiểu CIF và QCIF
Lƣợc đồ 1.1
Lƣợc đồ chung cho các thuật toán xử lý video
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
v


`
DANH MỤC CÁC HÌNH ẢNH

Hình
Mô tả
Hình 1.1
Ví dụ về sự khác biệt theo thời gian
Hình 1.2
Một số thiết bị camera giám sát
Hình 1.3
Hệ thống giám sát giao thông
Hình 1.4
Sơ đồ và hệ thống giám sát của doanh nghiệp
Hình 2.1
Ảnh (a) là ƣớc lƣợng nền cơ sở, ảnh (b) thu
đƣợc ở bƣớc tiếp theo. Ảnh (c) thể hiện bản đồ
điểm ảnh nổi trội phát hiện đƣợc bằng cách sử
dụng phép trừ nền.
Hình 2.2
Hai cách nhìn khác nhau về một ví dụ xử lý
điểm

Hình 2.3
Phân biệt các đối tƣợng dời đi và biến mất
Hình 2.4
Các xấp xỉ đạo hàm bậc hai của hàm
Gaussian
Hình 2.5
Thể hiện dạng hình chóp của không
gian tỷ lệ
Hình 2.6
Biểu đồ tỷ lệ phát hiện
Hình 2.7
Những điểm quan tâm
đƣợc phát hiện
Hình 2.8
Phép lọc Haar wavelet để tính
toán đặc trƣng
Hình 2.9
Gán hƣớng cho các cho các
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
vi


`
điểm quan tâm
Hình 2.10
Chi tiết của ảnh Graffiti thể hiện
kích thƣớc của cửa sổ bộ mô tả
hƣớng ở các tỷ lệ khác nhau.
Hình 2.11
Để xây dựng bộ mô tả

Hình 2.12
Các mục mô tả của miền con
Hình 2.13
So khớp giứa hai điểm quan tâm có
độ tƣơng phản khác nhau
Hình 3.1
Sơ đồ mô tả các tiến trình xử lý của hệ thống
Hình 3.2
Trƣớc và sau khi xử lý dựa trên ngƣỡng
Hình 3.3
Lƣu đồ thuật toán phát hiện sự chuyển động
Hình 3.4
Giao diện của chƣơng trình
Hình 3.5
Ảnh gốc và Ảnh chuyển động đƣợc bám sát
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
1


`
PHẦN MỞ ĐẦU
Ngày nay ứng dụng công nghệ thông tin (CNTT) trong các lĩnh vực
khoa học, kinh tế, xã hội đã đem lại cho con ngƣời những thành tựu và lợi ích
to lớn. Máy tính trở thành công cụ phục vụ đắc lực cho con ngƣời. Vì vậy,
con ngƣời có thể nhờ sự trợ giúp của máy tính để làm các công việc của mình.
Giám sát đối tƣợng, theo dõi đối tƣợng là một trong những vấn đề quan
trọng của lĩnh vực xử lý ảnh, với mục tiêu giúp cho máy tính có thể nhận thức
đƣợc môi trƣờng xung quanh giống nhƣ con ngƣời thông qua các “thị giác”
của máy tính. Bài toán này có thể đƣợc áp dụng trong việc phát hiện, nhận
dạng, theo dõi hay tìm kiếm tự động các đối tƣợng trong thực tế, điển hình

nhƣ việc giám sát an ninh cho các khu vực quan trọng: ngân hàng, khu vực
chính trị, quân sự. Thay vì trƣớc đây, để bảo vệ hay theo dõi đối tƣợng nào đó
thì đều do chúng ta trực tiếp tiến hành. Khi muốn so sánh hai đối tƣợng khác
nhau thì chủ yếu dựa vào cảm nhận của từng ngƣời. Do vậy mà độ chính xác
không cao và mất rất nhiều thời gian. Mặt khác càng với sự phát triển cao của
khoa học kỹ thuật thì vấn đề giả mạo ngày càng gây nên hậu quả nghiêm
trọng, do vậy cần phải có cơ chế, phƣơng pháp để ngăn chặn hiện tƣợng này.
Chính vì lý do vậy học viên quyết định lựa chọn đề tài “nghiên cứu một số kỹ
thuật giám sát đối tượng”
Toàn bộ đề tài gồm bố cục nhƣ sau:
Chương 1: Khái quát về xử lý video và giám sát đối tượng
Trong chƣơng này trình bày về một số dạng chuẩn video hiện nay và
phát hiện, giám sát đối tƣợng chuyển động dựa vào các phƣơng pháp khác
nhau. Ứng dụng vấn đề giám sát đối tƣợng trong thực tế hiện nay.
Chương 2: Một số vấn kỹ thuật phát hiện và giám sát đối tượng.
Trong chƣơng này trình bày một số kỹ thuật phát hiện và giám sát đối
tƣợng. Từ đó trích rút ra các đặc trƣng của đối tƣợng ở các frame của video và
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2


`
so sánh khớp
Chương 3: Chương trình thử nghiệm
Xây dựng chƣơng trình mô phỏng quá trình giám sát đối tƣợng chuyển
động dựa trên các file video có sẵn hoặc camera thích hợp trên máy tính.


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
3



`
Chƣơng 1
KHÁI QUÁT VỀ XỬ LÝ VIDEO VÀ GIÁM SÁT ĐỐI TƢỢNG
1.1. Khái quát về xử lý Video
1.1.1. Sơ lƣợc về Video
Ngày nay, không ai có thể phủ nhận các thành tựu mà ngành công nghệ
thông tin mang lại. Trong đó, đa phƣơng tiện là một khía cạnh quan trọng với
nhiều ứng dụng thiết thực nhằm làm cho xã hội ngày càng phát triển hơn, văn
minh hơn. Nhƣng với sự phát triển không ngừng nhƣ hiện nay của công nghệ
thông tin, nhƣ thế vẫn là chƣa đủ. Vẫn cần nhiều hơn nữa các nghiên cứu liên
quan đến khía cạnh này. Trong đó phải kể đến một lĩnh vực rất quan trọng của
đa phƣơng tiện, đó là Video và xử lý video.
Video là sự tái tạo ảnh tự nhiên theo không gian và thời gian hoặc cả hai,
thực chất là một dãy ảnh liên tục theo thời gian nhằm mô phỏng sự chuyển
động. Việc dùng ảnh liên tục để mô tả chuyển động theo thời gian đã xuất
hiện gần 2 thế kỉ nay. Năm 1834 nhà toán học William George Horner đã phát
minh ra cách mô tả này. Sau đó, hàng loạt các nghiên cứu khác đƣợc triển
khai và đã có những ứng dụng đáng kể. Năm 1887, khi Hannubal Good phát
minh ra phim ảnh thì vấn đề ảnh chuyển động đƣợc quan tâm đặc biệt vì
những lợi ích kinh tế mà nó mang lại. Năm 1895, một hệ thống
camera/Projector với các chuẩn phim (35mm chiều rộng, 24 khung hình trên
giây) đƣợc phát triển bởi Louis Lumiére.
Sự chuẩn hóa của video tƣơng tự trong những năm đầu của thập niên
1950 (NTSC) và những năm cuối của 1960 (SECAM và PAL) làm cho ảnh
chuyển động xuất hiện hầu nhƣ khắp nơi, với các thiết bị vô tuyến đƣợc dùng
rộng rãi cho mục đích giải trí, các hệ thống ứng dụng công nghệ nhƣ phát hiện
chuyển động tiếp tục đƣợc phát triển.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

4


`
Vào năm 1990, các tổ chức về chuẩn hóa nhƣ tổ chức ISO-IEC
(International Organization for Standard - International Electrotechnical
Commission) đã đƣa ra chuẩn MJPEG cho video kĩ thuật số, tổ chức chuẩn
ITU-T (International Telecommunication Union) đã đƣa ra chuẩn H.261 và
một số các chuẩn liên quan khác. Đi kèm với nó là các thiết bị tin học giá rẻ
đã tạo nên sự phát triển bùng nổ cho các ứng dụng đa phƣơng tiện.
1.1.2. Các dạng Video
1.1.2.1. Video tƣơng tự
NTSC Video: Đây là dạng Video tƣơng tự với 525 dòng trên một khung
hình, 30 khung hình trong một giây, quét cách dòng, chia làm hai trƣờng (mỗi
trƣờng 262.5 dòng), có 20 dòng dự trữ cho thông tin điều khiển tại thời điểm
bắt đầu mỗi trƣờng.
PAL Video: Dạng Video này có 625 dòng trên một khung hình, 25
khung hình trong một giây, quét cách dòng. Khung gồm hai trƣờng chẵn lẽ,
mỗi trƣờng bao gồm 312.5 dòng.
1.1.2.2. Video số
Một số tiêu chuẩn của Video số lấy theo tiêu chuẩn CCIR (Consultative
Committee for International Radio)

CCIR
601525/60
NTSC
CCIR
601625/50
PAL/SECAM
CIF

QCIF
Độ phân giải
độ chói
720x480
360x576
352x288
176x144
Độ phân giải
màu sắc
360x480
360x576
176x144
88x72
Lấy mẫu màu
4:2:2
4:2:2
4:2:0
4:2:0
Số trƣờng /s
60
50
30,15,10,7.5
30,15,10,7.5
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
5


`
Cách quét
Cách dòng

Cách dòng
Liên tục
Liên tục

Bảng1.1. Các tiêu chuẩn của Video số
1.1.3. Các chuẩn video
Các chuẩn do tổ chức chuẩn ISO-IEC (International Organization for
Standard-International Electrotechnical Commission) đưa ra bao gồm:
Chuẩn MJPEG
MJPEG (Motion JPEG) là tên gọi của một lớp các quy cách của video,
trong đó mỗi frame của video hoặc phạm vi đƣợc kết hợp lại của một dãy
video số đƣợc nén lại một cách độc lập nhƣ là một ảnh JPEG
MJPEG sử dụng hình thái nén dựa trên phép biến đổi cosin rời rạc. Phép
toán này chuyển đổi mỗi frame của video nguồn từ miền thời gian xác định
vào miền tần số. Một mô hình tri giác dựa theo một cách không chặt chẽ vào
hệ thống trực quan của con ngƣời để loại bỏ thông tin có tần số cao, ví dụ nhƣ
sự chuyển đổi một cách chính xác theo cƣờng độ và màu sắc. Trong miền
chuyển đổi, việc xử lý rút gọn các thông tin đƣợc gọi là lƣợng tử. Trong đó,
lƣợng tử là một phƣơng pháp làm giảm đƣợc một nhóm tỷ lệ lớn (với sự xẩy
ra khác nhau của mỗi một nhóm) vào một nhóm nhỏ hơn, và miền chuyển đổi
này rất thuận tiện cho việc biểu diễn ảnh bởi các hệ số có tần số cao, nó góp
phần làm giảm các ảnh trên hơn là các hệ số khác, là những đặc tính có giá trị
nhỏ với hệ số nén cao. Các hệ số lƣợng tử này ngay sau đó đƣợc xếp dãy và
đóng gói vào đầu ra của các tuyến bit. Gần nhƣ việc thi hành của tất cả các
phần mềm của chuẩn MJPEG cho phép ngƣời dùng điểu khiển trên tỉ lệ nén
(nhƣ là các tham biến tùy ý khác), cho phép ngƣời sử dụng để trao đổi ngoại
tuyến đối với các tệp có kích thƣớc nhỏ hơn. Trong các ứng dụng nhúng
(miniDV, nó đƣợc sự dụng tƣơng tự nhƣ sự pha trộn nén DCT), Các tham
biến này đƣợc lựa chọn trƣớc và thiết lập cho ứng dụng.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

6


`
Chuẩn Video MPEG-1
MPEG-1 là một chuẩn đƣợc phát triển và thừa nhận năm 1992 để lƣu trữ
dạng nén thô các Video dạng CIF và kết hợp với audio khoảng 1.5 Mbps (các
tỉ lệ nén tách biệt là 26:1 và 6:1) trên nhiều môi trƣờng lƣu trữ số khác nhau
nhƣ VCD , DAT, Winchester, đĩa quang, cáp, vệ tinh số và truyền thanh số
với ứng dụng chính là các hệ thống đa phƣơng tiện trực tuyến
Chuẩn MPEG-1 còn đƣợc gọi là ISO/IEC-11172 bao gồm các phần sau:
1. Các hệ thống (lƣu trữ và đồng bộ hóa video, audio và các dữ liệu
khác cùng nhau)
2. Video (nén video)
3. Audio (nén audio)
4. Kiểm tra sự đúng đắn (kiểm tra sự chính xác của việc thực hiện
chuẩn)
5. Các phần mềm cơ sở (chẳng hạn nhƣ các phần mềm mã hóa và
giải mã)
Cụ thể chuẩn MPEG-1 cho Video nhƣ sau:
Không gian màu của MPEG-1:
Trƣớc khi mã hóa video thành MPEG-1, không gian màu đƣợc chuyển
đổi thành Y‟CbCr (Y‟=Luma, Cb = Thành phần màu Blue, Cr = thành phần
màu Red). Luma bao gồm độ sáng và độ phân giải đƣợc lƣu trữ tách biệt nhau
theo thành phần (màu, màu sắc, giai đoạn) và đƣợc phân biệt giữa các thành
phần Red và Blue
Các đặc tính của MPEG-1:
 Là tiêu chuẩn tổng quát cú pháp, hỗ trợ ƣớc lƣợng chuyển động,
dự đoán bù chuyển động, dùng thuật toán mã hóa rời rạc
cosine DCT

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
7


`
 Không định nghĩa các thuật toán xác định cụ thể mà thiết kế bộ
mã hóa linh hoạt
 Khả năng phục vụ các ảnh khác nhau, hoạt động trên các thiết bị,
tốc độ khác nhau
 Truy cập ngẫu nhiên dựa trên các điểm truy cập độc lập
(khung I)
 Tìm nhanh xem nhƣ quét dòng bit mã hóa, chỉ hiển thị các khung
đƣợc chọn
 Trễ mã hóa và giải mã hợp lí (1s), gây ấn tƣợng tốt cho truy cập
video đơn công
MPEG-1 chỉ xét các tín hiệu Video lũy tiến. Sử dụng không gian màu
(Y, C
r
, C
b
) đã đƣợc thừa nhận theo kiến nghị CCIR 601. Trong SIF (Standard
Input Format) MPEG kênh chí là 352 pixel x 240 dòng và 30 khung hình/s.
Sau đây là một số ràng buộc đối với MPEG-1:
Số pixel lớn nhất trên một dòng
720
Số dòng lớn nhất trên một ảnh
576
Số ảnh trong một giây
30
Số MB trên một ảnh

396
Số MB trên một giây
9900
Tốc độ bit tối đa
1.86 Mbps
Kích thƣớc bộ đệm giải nén tối đa
376.832 bits

Bảng 1.2. Một số ràng buộc của MPEG-1
Chuẩn Video MPEG-2
MPEG-2 là một phiên bản mở rộng của MPEG-1 để cung cấp phạm vi
rộng các ứng dụng với tốc độ bit và các độ phân giải khác nhau (2-20Mbps)
Các đặc tính chính:
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
8


`
MPEG-2 đƣợc sử dụng rộng rãi nhƣ là định dạng của các tín hiệu vô
tuyến kĩ thuật số, các tín hiệu này có thể là tín hiệu vệ tinh, tín hiệu hữu
tuyến, vô tuyến. Nó cũng định dạng cho phim ảnh và một số chƣơng trình
khác đƣợc lƣu trên DVD hoặc một số đĩa từ tƣơng tự. MPEG-2 là một chuẩn
quốc tế và còn có tên gọi khác là ISO/IEC 13818
Chuẩn MPEG-2 cho video tƣơng tự nhƣ chuẩn MPEG-1
Chuẩn Video MPEG-4
MPEG-4 phát triển cho tốc độ bit rất thấp: 4.8 đến 68 kbps, tuy nhiên sau
đó đã nâng tốc độ lên đáng kể.
- Video: 5kbps đến 10 Mbps
- Audio: 2kbps đến 64 kbps
Dạng chuẩn này nhằm hỗ trợ phát triển riêng cho các đối tƣợng khác

nhau tạo khả năng thích nghi, linh động để cải thiện chất lƣợng của các dịch
vụ nhƣ: tivi số, đồ họa trình diễn, World Wide Web, videophone và các mở
rộng của chúng.
MPEG-4 còn đƣợc gọi là chuẩn ISO/IEC 14496
Chuẩn Video MPEG-7
Đƣợc thừa nhận thành tiêu chuẩn quốc tế tháng 7/2001
MPEG-7 đề xuất cho việc tìm kiếm, chọn lựa, quản lý và phân tích thông
tin đa phƣơng tiện, không tập trung vào một ứng dụng cụ thể, không phải là
một tiêu chuẩn mã hóa thực sự cho Audio, Video hay multimedia.
MPEG-7 cũng là một dạng phát triển lên từ phiên bản của MPEG-1 và
nó đang đƣợc phát triển.
MPEG-7 cung cấp một tập hợp đầy đủ các công cụ chuẩn hóa để mô tả
nội dung của đa phƣơng tiện. Cả ngƣời dùng và hệ thống tự động xử lý hệ âm
thanh thực đều thuộc phạm vi của MPEG-7.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
9


`
Ngoài ra, tổ chức chuẩn ITU-T (International Telecommunication
Union) cũng đưa ra một số chuẩn cho Video như sau:
Chuẩn H.120
H.120 là chuẩn đầu tiên cho việc mã hóa video kĩ thuật số. đƣợc đƣa ra
vào những năm 1984.
H.120 chạy với tốc độ 1544kbit/s cho NTSC và 2048 cho PAL
Chuẩn Video H.261
H.261 đƣợc phát triển cho dịch vụ truyền hình hội nghị và Video phone
qua ISDN ở tốc độ px64kbps/s (p=1, 2, …,30), H.261 làm cơ sở cho các
chuẩn nén sau này nhƣ MPEG 1, 2.
H.261 sử dụng dạng thức trung gian CIF (Common Intermediate Format)

với các tốc độ bit thấp hơn, nó sử dụng dạng có tốc độ nhỏ hơn ¼ là QCIF
(Quadrature). Với tốc độ 30 khung hình/s thì tốc độ dữ liệu của CIF là 37.3
Mbps, QCIF là 9.35 Mbps. Tốc độ càng thấp thì càng giảm số khung hình/s.
Tín hiệu video đƣợc phân thành các lớp, mỗi lớp đều có các header để
định nghĩa các tham số đƣợc sử dụng bởi bộ mã hóa khi tạo dòng bit. Lớp ảnh
đƣợc phân thành các nhóm khối GOB (Group of Block), các GOB bao gồm
các MB (MacroBlock). MB là đơn vị nhỏ nhất bao gồm 4 khối 8x8 của tín
hiệu Y và hai khối 8x8 của tín hiệu sắc.
Lớp GOB luôn đƣợc kết hợp của 33 MB hợp thành ma trận 3x11. Mỗi
MB có một header chứa địa chỉ MB và kiểu nén, tiếp theo là dữ liệu của khối
Kiểu
Số GOB/khung
Số MB/GOB
Tổng MB/khung
CIF
12
33
396
QCIF
3
33
99

Bảng 1.3. Mô tả kiểu CIF và QCIF

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
10


`

Cuối cùng, lớp ảnh bao gồm header ảnh theo sau bởi dữ liệu cho các
GOB. Mỗi header chứa dữ liệu là dạng ảnh và số khung. Cấu trúc của một
MB nhƣ sau:
MBA
MTYPE
MQUANT
MVD
CBP
Block
Data
MBA: Địa chỉ, MTYPE: Dạng Intra, Inter
MQUANT: Hệ số lƣợng tử, MVD: Vector chuyển động
CBP: Mẫu khối đã mã hóa, Block Data: Dữ liệu
IntraFrame: Trong khung, Khung I cho khả năng truy cập ngẫu nhiên,
kiểu nén intra tƣơng tự nhƣ JPEG dựa trên mã hóa DCT từng MB.
InterFrame: Liên khung, liên hệ với các khung I và P trƣớc, MB đầu có
thể bù chuyển động (MC – Motion Compensation) hoặc không. Cung cấp các
tùy chọn cho từng MB nhƣ lƣợng tử với các hệ số lƣợng tử và sử dụng bộ lọc
bù chuyển động.
Chuẩn Video H.263
H.263 là chuẩn cải tiến của H.261 cho Video tốc độ thấp, có thể truyền
trên mạng điện thoại công cộng PSTN, đƣợc công nhận năm 1996. Giống nhƣ
H.261, mã hóa DCT cho các MB trong I Frame và DCT sai biệt dự đoán trong
P Frame, tốc độ tối thiểu.
Ƣu điểm:
 Chính xác sai biệt dự đoán với ½ điểm ảnh
 Không hạn chế vector chuyển động
 Mã hóa số học theo cú pháp
 Dự đoán thuận lợi với các khung P,…
H.263 là một chuẩn video codec đƣợc thiết kế một cách sáng tạo nhƣ

định dạng nén tốc độ bit thấp cho các cuộc hội nghị thông qua video. Nó là
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
11


`
một thành viên trong nhóm H.26x của các chuẩn mã hóa video của ITU-T,
đƣợc công nhận năm 1996.
H.263 là một yêu cầu bắt buộc của video codec trong công nghệ ETSI
3GPP cho hệ thống đa phƣơng tiện nhỏ sử dụng giao thức IP (IMS), các dịch
vụ gửi nhận thông điệp đa phƣơng tiện (MMS),…
Chuẩn Video H.264
H.264 là một chuẩn để nén video, đƣợc hoàn thành vào tháng 5 năm
2003. Nó tƣơng tự nhƣ chuẩn ISO/IEC 14496 dành cho video.
1.2. Phát hiện và giám sát đối tƣợng
1.2.1. Phát hiện đối tƣợng chuyển động
Mỗi ứng dụng đƣợc thừa hƣởng từ việc xử lý video thông minh những
thứ nó cần để giải quyết những yêu cầu khác nhau. Tuy nhiên, chúng có một
số điểm chung sau: các đối tƣợng chuyển động. Nhƣ vậy, việc phát hiện các
đối tƣợng chuyển động là bƣớc đầu tiên của bất kỳ hệ thống xử lý video nào.
Khi tìm kiếm thấy các đối tƣợng chuyển động mới bắt đầu chuyển sang bƣớc
xử lý khác. Thực tế thì các video thu đƣợc từ camera có rất nhiều nhiễu,
chẳng hạn nhƣ sự thay đổi của ánh sáng, sự thay đổi của thời tiết, lá
rung,…Việc phát hiện đối tƣợng chuyển động gặp vấn đề khó khăn để xử lý
một cách chính xác. Các công nghệ thƣờng xuyên đƣợc sử dụng để phát hiện
đối tƣợng chuyển động là phép trừ nền, các phƣơng pháp tĩnh, sự khác biệt về
thời gian và optical flow.







Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
12


`








Lược đồ 1.1. Lược đồ chung cho các thuật toán xử lý video
1.2.1.1. Phép trừ nền
Phép trừ nền là một phần trong công nghệ phân đoạn chuyển động trong
các cảnh tĩnh [5]. Nó cố gắng phát hiện các vùng chuyển động bằng cách trừ
điểm ảnh cho điểm ảnh từ ảnh hiện thời đến một ảnh nền cơ sở đã đƣợc tạo
bởi trung bình các ảnh nền trong một khoảng thời gian của một chu kỳ khởi
tạo. Những ảnh mà ở đó có sự khác biệt sau khi thực hiện trừ nền ở trên bƣớc
đầu đƣợc phân loại bằng sự nổi trội. Sau khi tạo một bản đồ các điểm nổi trội,
một số phép toán hậu xử lý nhƣ: phép co, dãn, đóng khung đƣợc thực hiện để
đơn giản hóa các tác động của nhiễu và làm tăng vùng phát hiện. Nền cơ sở
đƣợc cập nhật với các ảnh mới theo thời gian để thích ứng với sự thay đổi
của các cảnh động.
Có nhiều hƣớng tiếp cận khác nhau về việc phối hợp dựa trên phép trừ
nền trong phạm vi của việc phát hiện vùng nổi trội, duy trì nền và hậu xử lý.

Heikkila và Silven [9] sử dụng một cách đơn giản phép phối hợp này, với
mỗi điểm ảnh đƣợc biểu diễn bởi một tọa độ (x,y) trong ảnh hiện thời I
t
sẽ
đƣợc đánh dấu là điểm nổi bật nếu
|I
t
(x,y) – B
t
(x,y)>


(1.1)
Phát hiện đối
tƣợng
Phân loại đối
tƣợng
Đánh dấu đối
tƣợng
Thừa nhận hành
vi
Mô tả ngữ nghĩa
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
13


`
đƣợc thỏa mãn, trong đó,

là ngƣỡng xác định trƣớc. Ảnh nền B

T
đƣợc
cập nhật bởi việc sử dụng phép lọc Infinite Impulse Respone (IIR) nhƣ sau :
B
t+1
=αI
t
+ (1- α)B
t
(1.2)
Việc tạo ra bản đồ điểm nổi trội đƣợc cho phép bởi các hình thái đóng và
kết thúc của các miền kích thƣớc nhỏ.
Mặc dù các công nghệ trừ nền thực hiện tốt việc đƣa ra các điểm có liên
quan của các vùng chuyển động trƣớc khi kết thúc, chúng thƣờng chịu ảnh
hƣởng của các thay đổi động, chẳng hạn ánh sáng chợt thay đổi đột ngột
1.2.1.2. Các phƣơng pháp tĩnh
Hầu hết các phƣơng pháp cải tiến đã đƣợc sử dụng đều phát triển dựa
trên các phƣơng pháp trừ nền.
Phƣơng pháp W4 [8] sử dụng một mô hình nền tĩnh, ở đó mỗi pixel đƣợc
biểu diễn lại với giá trị nhỏ nhất (M) và giá trị lớn nhất (N) của nó về cƣờng
độ và sự sai khác cƣờng độ lớn nhất (D) giữa các frame liên tiếp bất kỳ quan
sát đƣợc trong suốt chu kỳ khởi tạo huấn luyện mà ở đó cảnh không chứa các
đối tƣợng chuyển động. Một điểm trong ảnh hiện thời I
t
đƣợc phân loại nhƣ là
điểm nổi trội nếu nó thỏa mãn:
|M(x,y)-I
t
(x,y)|>D(x,y) hoặc |N(x,y)-I
t

x,y)|>D(x,y) (1.3)
Sau khi thực hiện, phép toán co đƣợc áp dụng lặp lại cho các điểm nổi
bật đã đƣợc phát hiện để xóa bỏ một điểm nhiễu đậm đặc. Trong khi tạo ra
các vùng co để quản lý kích cỡ của chúng, một dãy các phép co và dãn đƣợc
thực hiện trên bản đồ điểm nổi bật. Cũng nhƣ thế, các vùng có kích thƣớc nhỏ
đƣợc loại trừ sau khi áp dụng đánh nhãn các thành phần liên tục để tìm vùng.
Trạng thái tĩnh của các điểm ảnh nền thuộc về các vùng đứng yên của ảnh
hiện thời đƣợc cập nhật với các ảnh dữ liệu mới.
Một ví dụ khác của các phƣơng pháp tĩnh, Stauffer và Grimson [8] đã
miêu tả một sự tƣơng thích của mô hình pha trộn nền để đánh dấu thời gian
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
14


`
thực. Mọi điểm ảnh thực sự đƣợc mô hình hóa bởi sự pha trộn của phƣơng
pháp Gaussians và đƣợc cập nhật trực tuyến bởi dữ liệu ảnh đầu vào. Các
phân bố Gaussian sẽ đánh giá xem một điểm sẽ thuộc về việc xử lý điểm nổi
trội hay là thuộc về xử lý nền.
1.2.1.3. Sự khác biệt theo thời gian
Sự khác biệt theo thời gian cố gắng phát hiện các vùng chuyển động
bằng cách sử dụng sự khác nhau giữa một điểm ảnh ở các frame liên tiếp nhau
(hai hoặc ba) trong một dãy video. Phƣơng pháp này có khả năng thích ứng
cao với các cảnh động, tuy nhiên, nó thƣờng mắc một số lỗi trong việc phát
hiện đối tƣợng chuyển động.








(a) (b)
Hình 1.1: Ví dụ về sự khác biệt theo thời gian, (a)Một cảnh với hai đối
tượng chuyển động, (b) Phương pháp dựa trên sự khác biệt theo thời gian
bị lỗi khi phát hiện tất cả các điểm ảnh chuyển động của đối tượng bên trái.
Các vùng chuyển động được phát hiện đánh dấu bởi màu đỏ
Vùng màu đơn của ngƣời bên ảnh trái làm cho thuật toán khác biệt về
thời gian bị lỗi trong việc trích ra tất cả các điểm ảnh của vùng chuyển động
của con ngƣời. Cũng vậy, phƣơng pháp này lỗi khi phát hiện các đối tƣợng đã
dừng lại trong cảnh. Các phƣơng pháp bổ sung cần kế thừa để phát hiện các
đối tƣợng đứng yên giúp cho việc thành công ở những bƣớc xử lý cao hơn.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
15


`
Lipton [6] đã trình bày cách phối hợp giữa hai frame khác nhau, ở đó,
các pixel thỏa mãn các biểu thức sau :
|I
t
(x,y) –I
t-1
(x,y)|>

(1.4)
Để khắc phục các thiếu sót của hai frame khác nhau, trong một số trƣờng
hợp, ba frame khác nhau có thể đƣợc sử dụng.
1.2.1.4. Optical Flow
Phƣơng pháp Optical flow thực hiện bằng cách sử dụng các vector có

hƣớng của các đối tƣợng chuyển động theo thời gian để phát hiện các vùng
chuyển động trong một ảnh. Chúng có thể phát hiện chuyển động trong các
dãy video ngay cả các video thu đƣợc từ camera di chuyển, nhƣ vậy, hầu hết
các phƣơng pháp optical flow đƣợc ƣớc tính độ phức tạp và không thể sử
dụng với thời gian thực mà không có các phần cứng chuyên biệt đi kèm [13].
1.2.1.5. Phát hiện sự thay đổi ánh sáng và bóng
Thuật toán này mô tả cho việc phát hiện chuyển động thực hiện tốt cho
các môi trƣờng bên trong và bên ngoài nhà và cũng đƣợc sử dụng cho giám
sát theo thời gian thực trƣớc đây.
Nhƣ vậy, không cần sự đảm bảo đặc biệt nào, hầu hết các thuật toán đó
dễ bị ảnh hƣởng đến cả sự thay đổi của phần cục bộ (chẳng hạn bóng và ánh
sáng) và của ánh sáng toàn cục (chẳng hạn nhƣ mây che khuất ánh sáng mặt
trời). Các bóng là nguyên nhân việc bị lỗi ở các phƣơng pháp phát hiện
chuyển động trong việc phân đoạn các đối tƣợng chuyển động và làm các
mức cao hơn nhƣ phân chia các đối tƣợng không chính xác.
Horprasert đƣa ra một cách giải quyết về phép trừ nền và phƣơng pháp
phát hiện bóng, với phƣơng pháp đó, mỗi pixel đƣợc diễn tả bởi một mô hình
màu phân biệt bởi độ sáng từ các tín hiệu chứa màu sắc thành phần. Mỗi điểm
ảnh đã định rõ đƣợc phân chia vào bốn loại khác nhau (nền, nền bóng hoặc
bóng, ánh sáng nền hoặc đối tƣợng chuyển động nổi trội) bằng cách tính toán
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

×