LỜI CẢM ƠN
Chúng tôi xin bày tỏ lòng biết ơn sâu sắc đến TS. Trần Hành đã hướng
dẫn nhiệt tình, tận tâm trong suốt quá trình tôi thực hiện nghiên cứu này.
Chúng tôi xin chân thành cảm ơn các bạn đồng nghiệp trong Trung Tâm
Thông Tin Tư Liệu - Trường Đại học Lạc Hồng đã giúp đỡ cho tôi trong suốt
thời gian nghiên cứu tại trường.
Chúng tôi cũng xin chân thành cảm ơn quí Thầy (Cô) trong và ngoài
trường đã tận tâm giúp đỡ tôi trong quá trình nghiên cứu.
MỤC LỤC
LỜI CẢM ƠN i
MỤC LỤC ii
DANH MỤC CÁC TỪ VIẾT TẮT iv
DANH MỤC HÌNH v
DANH MỤC CÁC BẢNG vi
DANH MỤC CÁC LƯỢC ĐỒ vii
MỞ ĐẦU 1
Chương 1 4
KHÁI QUÁT VỀ XỬ LÝ VIDEO VÀ GIÁM SÁT ĐỐI TƯỢNG 4
1.1. Khái quát về xử lý Video 4
1.1.1. Sơ lược về Video 4
1.1.2. Các dạng Video 5
1.1.2.1 Video tương tự 5
1.1.2.2 Video số 5
1.1.3. Các chuẩn Video 6
1.2. Phát hiện và giám sát đối tượng: 13
1.2.1. Phát hiện đối tượng chuyển động trong Video 13
1.2.1.1. Phép trừ n
ền 14
1.2.1.2. Các phương pháp tĩnh 15
1.2.1.3. Sự khác biệt theo thời gian 16
1.2.1.4. Optical Flow 17
1.2.2. Phân loại đối tượng trong Video 21
1.2.2.1. Phân loại dựa theo hình dạng 21
1.2.2.2. Phân loại dựa theo chuyển động 22
1.2.3. Phát hiện ánh sáng 23
1.2.4. Đánh dấu đối tượng 23
Chương 2 25
PHÁT HIỆN VÀ GIÁM SÁT ĐỐI TƯỢNG CHUYỂN ĐỘNG TRONG
VIDEO 25
2.1. Phát hiện đối tượng 25
2.1.1. Phát hiện nổi trội 27
2.1.1.1 Mô hình trừ nền có khả năng thích ứng 28
2.1.1.2. Mô hình hỗn hợp Gaussian tương thích 31
2.1.1.3. Sự khác biệt theo thời gian 34
2.1.2. Bước hậu xử lý điểm ảnh 35
2.1.2.1. Phát hiện bóng và sự thay đổi ánh sáng đột ngột 36
2.1.3. Phát hiện các vùng liên tục 42
2.1.4. Bước hậu xử lý vùng 43
2.1.5. Trích rút các đặc trưng của đối tượng 43
2.2. Giám sát đối tượng chuyển động 44
2.2.1. Tham chiếu tương tự với các đối tượng cơ bản 46
2.2.2. Điều khiển sự chồng chéo của các đối tượng 51
2.2.2.1 Phát hiện các đối tượng bị che khuất 52
2.2.2.2. Phát hiện các đối tượng tách ra 52
2.2.2.3. Lược đồ cơ sở tham chiếu tương ứng 53
2.2.3. Phát hiện các đối tượng dời đi và các đối tượng bị loại bỏ 55
Chương 3 58
ỨNG DỤNG 58
3.1. Giám sát tự động dưới sự trợ giúp của Camera 58
3.2. Chương trình thử nghiệm phát hiện và bám sát đối tượng 59
3.2.1. Giao diện của chương trình: 63
3.2.2. Các chức năng của chương trình: 63
KẾT LUẬN 67
TÀI LIỆU THAM KHẢO 69
DANH MỤC CÁC TỪ VIẾT TẮT
Cụm từ viết tắt Mô tả viết tắt
BG Background
FG Foreground
MPEG Moving Pictures Expert Group
RGB Red Green Blue
H Human
V Vehicle
HG Human Group
DANH MỤC HÌNH
Hình 1.1: Ví dụ về sự khác biệt theo thời gian 16
Hình 2.1 : Ảnh (a) là ước lượng nền cơ sở, ảnh (b) thu được ở bước tiếp theo.
Ảnh (c) thể hiện bản đồ điểm ảnh nổi trội phát hiện được bằng cách sử dụng
phép trừ nền 31
Hình 2.2 : Hai cách nhìn khác nhau về một ví dụ xử lý điểm 33
Khi đó các phân bố B đầu tiên được chọn như là mô hình nền, trong
đó : 33
Hình 2.3 : Ví dụ về bước khử nhiễu pixel 36
Hình 2.4 : Các vector RGB của pixel ảnh hiện thời
x
I
ˆ
và pixel nền tương ứng
x
B
ˆ
39
Hình 2.5 : Ví dụ về xóa bóng. 39
Hình 2.6 : Ví dụ về sự thay đổi ánh sáng đột ngột 40
Hình 2.7 : Phát hiện sự thay đổi ánh sáng thực sự 42
Hình 2.8 : Ví dụ về đánh nhãn các thành phần liên tục. 42
Hình 2.9: Ví dụ về đồ thị tham chiếu đối tượng 48
Hình 2.10: Ví dụ về trường hợp phát hiện đối tượng bị che khuất 51
Hình 2.11: Nhận dạng đối tượng sau khi che khuất 54
Hình 2.12: Phân biệt các đối tượng d
ời đi và biến mất 57
Hình 3.1: Sơ đồ mô tả các tiến trình xử lý của hệ thống 59
Hình 3.2: Trước và sau khi xử lý dựa trên ngưỡng 61
Hình 3.3: Lưu đồ thuật toán phát hiện sự chuyển động 62
Hình 3.4: Giao diện chương trình demo 63
Hình 3.5: Phát hiện và bám sát các đối tượng chuyển động 63
Hình 3.6: Chức năng theo vết đối tượng được lựa chọn để theo vết 64
Hình 3.7: Chức năng theo vết
đối tượng được lựa chọn để theo vết(tiếp theo) 64
Hình 3.8: Chức năng chọn màu dãy màu của đối tượng cần theo vết 65
Hình 3.9: Chức năng chọn dãy màu từ ảnh chụp từ webcam của đối tượng cần
theo vết 65
Hình 3.10: Chức năng dùng đối tượng đang theo vết để điều khiển “Mouse” 66
DANH MỤC CÁC BẢNG
Bảng1.1. Các tiêu chuẩn của Video số 5
Bảng 1.2. Một số ràng buộc của MPEG-1 8
Bảng 1.3. Mô tả kiểu CIF và QCIF 11
DANH MỤC CÁC LƯỢC ĐỒ
Lược đồ 1.1: Lược đồ chung cho các thuật toán xử lý Video 14
Lược đồ 2.1: Lược đồ khối hệ thống 25
Lược đồ 2.2: Lược đồ hệ thống đánh dấu đối tượng 46
1
MỞ ĐẦU
Trong kỷ nguyên công nghệ thông tin hiện nay, với sự phát triển nhanh
chóng của các công nghệ chế tạo thiết bị phần cứng ngày càng hiện đại, tinh
vi thì ngành công nghệ phần mềm cũng không ngừng mở rộng để phù hợp với
các yêu cầu của thực tế. Trong đó phải kể đến sự phát triển của các thiết bị thu
nhận hình ảnh từ thế giới thực, chẳng hạn như các h
ệ thống giám sát bằng
camera, song hành với nó là các vấn đề liên quan đến việc giám sát. Thách
thức chính cho công nghệ phần mềm trong lĩnh vực này chính là việc xử lý
các hình ảnh thu nhận được từ các hệ thống giám sát đó.
Giám sát là một vấn đề được rất nhiều nhà nghiên cứu quan tâm đặc biệt
bởi những ứng dụng thiết thực của nó cho đời sống xã hội. Chẳng hạn như các
hệ thống giám sát các hành vi khả
nghi của tội phạm, khủng bố ở các địa điểm
nhạy cảm của các chính phủ. Hệ thống giám sát trong các viện bảo tàng, lưu
trữ để chống trộm cắp các di vật đang được trưng bày. Hệ thống giám sát các
hiện tượng bất bình thường, vi phạm pháp luật, tai nạn ở các điểm giao thông.
Hệ thống giám sát phòng chống hỏa hoạn. Các hệ thống giám sát trong các
siêu thị, cử
a hàng, công ty để chống trộm cắp,…
Thách thức chính cho ngành công nghệ phần mềm là đưa ra các giải
pháp nhằm xây dựng một hệ thống giám sát tối ưu nhất nhằm giúp con người
phát hiện chính xác và kịp thời các hiện tượng bất thường để có biện pháp xử
lý nhanh chóng nhằm tránh các thiệt hại đáng tiếc cho xã hội.
Dữ liệu thu được từ hệ thống camera giám sát thường được lưu trữ dưới
d
ạng Video. Như vậy công việc hiện nay của chúng ta là nghiên cứu các vấn
đề liên quan đến việc xử lý Video.
2
Hiện nay trên thế giới đã có nhiều công trình nghiên cứu về xử lý Video
và cũng đã có nhiều ứng dụng đáng kể trong lĩnh vực này. Tuy nhiên, so với
yêu cầu thực tế thì như thế vẫn là chưa đủ.
Ở Việt Nam, xử lý Video là một vấn đề còn khá mới mẻ. Thực tế cho
thấy rằng, khi xã hội phát triển càng mạnh, yêu cầu về các thiết bị công nghệ
càng cao. Như vậy, x
ử lý Video là một mảnh đất màu mỡ cho các trung tâm
nghiên cứu, các công ty đầu tư vào. Nhất là trong giai đoạn hệ thống nhúng
đang phát triển và mở ra một kỷ nguyên với cho ngành công nghệ phần mềm
như hiện nay.
Giám sát tự động là một hướng mới và có nhiều triển vọng trong sự phát
triển tiếp theo của lĩnh vực nhận dạng và xử lý ảnh 2 chiều. Đồng thời, đó
cũng là một h
ướng đi cho mảng phần mềm thiết kế chuyên dụng cho các thiết
bị giám sát tự động. Việc phát hiện ra các đối tượng chuyển động trong Video
nhờ các kỹ thuật xử lý ảnh, trên cơ sở đó đoán nhận một số hành vi của đối
tượng là một việc làm có ý nghĩa khoa học và thực tiễn, nhất là trong hoàn
cảnh Việt Nam chưa có nhiều những nghiên cứu và ứng dụng theo hướ
ng này.
Xuất phát từ thực tế đó, việc nghiên cứu và đưa ra các phương pháp để
xử lý Video là vô cùng thiết thực. Được sự hướng dẫn của TS. Trần Hành tôi
đã tiến hành nghiên cứu đề tài “Nghiên cứu một số kỹ thuật phát hiện, bám
sát đối tượng và ứng dụng”
Trong khuôn khổ của nghiên cứu này, mục tiêu của tôi là tìm hiểu các
bước phát hiện, đánh dấu, phân loại các đối tượng chuyển độ
ng trong Video
và so sánh mẫu để đưa ra kết luận tương ứng. Sau khi nghiên cứu kỹ các
phương pháp đã được đưa ra, tôi tiến hành đánh giá ưu và nhược điểm của
mỗi phương pháp và mạnh dạn đưa ra một số biện pháp khắc phục nhằm làm
cho hệ thống hoạt động tối ưu nhất với hệ thời gian thực.
3
Các vấn đề cần giải quyết trong phạm vi nghiên cứu này bao gồm:
Nghiên cứu tổng quan về Video và phát hiện đối tượng chuyển động.
Nghiên cứu và đề xuất một hướng khắc phục các nhược điểm trong việc
phát hiện, đánh dấu, phân loại các đối tượng chuyển động.
Cài đặt một số phương pháp phát hiện, đánh dấu các đối tượng chuyển
động dựa theo các phương pháp
đã nêu ở trên.
4
Chương 1
KHÁI QUÁT VỀ XỬ LÝ VIDEO VÀ GIÁM SÁT ĐỐI
TƯỢNG
1.1. Khái quát về xử lý Video
1.1.1. Sơ lược về Video
Ngày nay, không ai có thể phủ nhận các thành tựu mà ngành công nghệ
thông tin mang lại. Trong đó, đa phương tiện là một khía cạnh quan trọng với
nhiều ứng dụng thiết thực nhằm làm cho xã hội ngày càng phát triển hơn, văn
minh hơn. Nhưng với sự phát triển không ngừng như hiện nay của công nghệ
thông tin, như thế vẫn là chưa đủ. Vẫn cần nhiều hơn nữa các nghiên cứ
u liên
quan đến khía cạnh này, trong đó phải kể đến một lĩnh vực rất quan trọng của
đa phương tiện, đó là xử lý Video.
Video là sự tái tạo ảnh tự nhiên theo không gian và thời gian hoặc cả hai,
thực chất là một dãy ảnh liên tục theo thời gian nhằm mô phỏng sự chuyển
động. Việc dùng ảnh liên tục để mô tả chuyển động theo thời gian đã xuất
hiện gần 2 thế k
ỉ nay. Năm 1834 nhà toán học William George Horner đã phát
minh ra cách mô tả này. Sau đó, hàng loạt các nghiên cứu khác được triển
khai và đã có những ứng dụng đáng kể. Năm 1887, khi Hannubal Good phát
minh ra phim ảnh thì vấn đề ảnh chuyển động được quan tâm đặc biệt vì
những lợi ích kinh tế mà nó mang lại. Năm 1895, một hệ thống
camera/Projector với các chuẩn phim (35mm chiều rộng, 24 khung hình trên
giây) được phát triển bởi Louis Lumiére
Sự chuẩn hóa của Video tương tự trong những n
ăm đầu của thập niên
1950 (NTSC) và những năm cuối của 1960 (SECAM và PAL) làm cho ảnh
chuyển động xuất hiện hầu như khắp nơi, với các thiết bị vô tuyến được dùng
5
rộng rãi cho mục đích giải trí, các hệ thống ứng dụng công nghệ như phát hiện
chuyển động tiếp tục được phát triển.
Vào năm 1990, các tổ chức về chuẩn hóa như tổ chức ISO-IEC
(International Organization for Standard – International Electrotechnical
Commission) đã đưa ra chuẩn MJPEG cho Video kĩ thuật số, tổ chức chuẩn
ITU-T (International Telecommunication Union) đã đưa ra chuẩn H.261 và
một số các chuẩn liên quan khác. Đi kèm với nó là các thiết bị tin học giá rẻ
đ
ã tạo nên sự phát triển bùng nổ cho các ứng dụng đa phương tiện.
1.1.2. Các dạng Video
1.1.2.1 Video tương tự
NTSC Video: Đây là dạng Video tương tự với 525 dòng trên một khung
hình, 30 khung hình trong một giây, quét cách dòng, chia làm hai trường (mỗi
trường 262.5 dòng), có 20 dòng dự trữ cho thông tin điều khiển tại thời điểm
bắt đầu mỗi trường.
PAL Video: Dạng Video này có 625 dòng trên một khung hình, 25
khung hình trong một giây, quét cách dòng. Khung gồm hai trường chẵn lẻ,
mỗi trường bao g
ồm 312.5 dòng.
1.1.2.2 Video số
Một số tiêu chuẩn của Video số lấy theo tiêu chuẩn CCIR (Consultative
Committee for International Radio)
Bảng1.1. Các tiêu chuẩn của Video số
CCIR
601525/60
NTSC
CCIR
601625/50
PAL/SECAM
CIF QCIF
6
Độ phân giải
độ chói
720x480 360x576 352x288 176x144
Độ phân giải
màu sắc
360x480 360x576 176x144 88x72
Lấy mẫu
màu
4:2:2 4:2:2 4:2:0 4:2:0
Số trường /s 60 50 30,15,10,7.5 30,15,10,7.5
Cách quét Cách dòng Cách dòng Liên tục Liên tục
1.1.3. Các chuẩn Video
Các chuẩn do tổ chức chuẩn ISO-IEC (International Organization for
Standard-International Electrotechnical Commission) đưa ra bao gồm:
Chuẩn MJPEG:
MJPEG (Motion JPEG) là tên gọi của một lớp các quy cách của Video,
trong đó mỗi frame của Video hoặc phạm vi được kết hợp lại của một dãy
Video số được nén lại một cách độc lập như là một ảnh JPEG
MJPEG sử dụng hình thái nén dựa trên phép biến đổi cosin rời rạc. Phép
toán này chuyển đổi mỗi frame của Video nguồn từ
miền thời gian xác định
vào miền tần số. Một mô hình tri giác dựa theo một cách không chặt chẽ vào
hệ thống trực quan của con người để loại bỏ thông tin có tần số cao, ví dụ như
sự chuyển đổi một cách chính xác theo cường độ và màu sắc. Trong miền
chuyển đổi, việc xử lý rút gọn các thông tin được gọi là lượng tử. Trong đó,
lượng tử là một phương pháp làm giảm được mộ
t nhóm tỷ lệ lớn (với sự xẩy
ra khác nhau của mỗi một nhóm) vào một nhóm nhỏ hơn, và miền chuyển đổi
này rất thuận tiện cho việc biểu diễn ảnh bởi các hệ số có tần số cao, nó góp
7
phần làm giảm các ảnh trên hơn là các hệ số khác, là những đặc tính có giá trị
nhỏ với hệ số nén cao. Các hệ số lượng tử này ngay sau đó được xếp dãy và
đóng gói vào đầu ra của các tuyến bit. Gần như việc thi hành của tất cả các
phần mềm của chuẩn MJPEG cho phép người dùng điểu khiển trên tỉ lệ nén
(như là các tham biến tùy ý khác), cho phép người sử dụng để trao đổi ngoại
tuy
ến đối với các tệp có kích thước nhỏ hơn. Trong các ứng dụng nhúng
(miniDV, nó được sự dụng tương tự như sự pha trộn nén DCT), các tham biến
này được lựa chọn trước và thiết lập cho ứng dụng.
Chuẩn Video MPEG-1
MPEG-1 là một chuẩn được phát triển và thừa nhận năm 1992 để lưu trữ
dạng nén thô các Video dạng CIF và kết hợp với audio khoảng 1.5 Mbps (các
tỉ lệ nén tách biệt là 26:1 và 6:1) trên nhiều môi trườ
ng lưu trữ số khác nhau
như VCD , DAT, Winchester, đĩa quang, cáp, vệ tinh số và truyền thanh số
với ứng dụng chính là các hệ thống đa phương tiện trực tuyến
Chuẩn MPEG-1 còn được gọi là ISO/IEC-11172 bao gồm các phần sau:
1. Các hệ thống (lưu trữ và đồng bộ hóa Video, audio và các dữ liệu
khác cùng nhau)
2. Video (nén Video)
3. Audio (nén audio)
4. Kiểm tra sự đúng đắn (kiểm tra sự chính xác của việc thực hiện
chuẩn)
5. Các phần mềm cơ sở (chẳng hạn như các phần mềm mã hóa và
giải mã)
Cụ thể chuẩn MPEG-1 cho Video như sau:
Không gian màu của MPEG-1:
8
Trước khi mã hóa Video thành MPEG-1, không gian màu được chuyển
đổi thành Y’CbCr (Y’=Luma, Cb = Thành phần màu Blue, Cr = thành phần
màu Red). Luma bao gồm độ sáng và độ phân giải được lưu trữ tách biệt nhau
theo thành phần (màu, màu sắc, giai đoạn) và được phân biệt giữa các thành
phần Red và Blue.
Các đặc tính của MPEG-1:
• Là tiêu chuẩn tổng quát cú pháp, hỗ trợ ước lượng chuyển động,
dự đoán bù chuyển động, dùng thuật toán mã hóa rời rạc cosine
DCT.
• Không định nghĩa các thuật toán xác đị
nh cụ thể mà thiết kế bộ
mã hóa linh hoạt.
• Khả năng phục vụ các ảnh khác nhau, hoạt động trên các thiết bị,
tốc độ khác nhau.
• Truy cập ngẫu nhiên dựa trên các điểm truy cập độc lập (khung
I).
• Tìm nhanh xem như quét dòng bit mã hóa, chỉ hiển thị các khung
được chọn.
• Trễ mã hóa và giải mã hợp lí (1s), gây ấn tượng tốt cho truy cập
Video đơn công.
MPEG-1 chỉ xét các tín hiệu Video lũ
y tiến. Sử dụng không gian màu
(Y, C
r
, C
b
) đã được thừa nhận theo kiến nghị CCIR 601. Trong SIF (Standard
Input Format) MPEG kênh chí là 352 pixel x 240 dòng và 30 khung hình/s.
Sau đây là một số ràng buộc đối với MPEG-1:
Bảng 1.2. Một số ràng buộc của MPEG-1
9
Số pixel lớn nhất trên một dòng 720
Số dòng lớn nhất trên một ảnh 576
Số ảnh trong một giây 30
Số MB trên một ảnh 396
Số MB trên một giây 9900
Tốc độ bit tối đa 1.86 Mbps
Kích thước bộ đệm giải nén tối đa 376.832 bits
Chuẩn Video MPEG-2
MPEG-2 là một phiên bản mở rộng của MPEG-1 để cung cấp phạm vi
rộng các ứng dụng với tốc độ bit và các độ phân giải khác nhau (2-20Mbps).
Các đặc tính chính:
MPEG-2 được sử dụng rộng rãi như là định dạng của các tín hiệu vô
tuyến kĩ thuật số, các tín hiệu này có thể là tín hiệu vệ tinh, tín hiệu hữu
tuyến, vô tuyến. Nó cũng định dạng cho phim ảnh và một số chương trình
khác
được lưu trên DVD hoặc một số đĩa từ tương tự. MPEG-2 là một chuẩn
quốc tế và còn có tên gọi khác là ISO/IEC 13818.
Chuẩn MPEG-2 cho Video tương tự như chuẩn MPEG-1.
Chuẩn Video MPEG-4.
MPEG-4 phát triển cho tốc độ bit rất thấp: 4.8 đến 68 kbps, tuy nhiên sau
đó đã nâng tốc độ lên đáng kể.
- Video: 5kbps đến 10 Mbps.
- Audio: 2kbps đến 64 Kbps.
10
Dạng chuẩn này nhằm hỗ trợ phát triển riêng cho các đối tượng khác
nhau tạo khả năng thích nghi, linh động để cải thiện chất lượng của các dịch
vụ như: tivi số, đồ họa trình diễn, World Wide Web, Videophone và các mở
rộng của chúng.
MPEG-4 còn được gọi là chuẩn ISO/IEC 14496
Chuẩn Video MPEG-7
Được thừa nhận thành tiêu chuẩn quốc tế tháng 7/2001
MPEG-7 đề xuất cho việc tìm kiếm, chọn lựa, quản lý và phân tích thông
tin đa ph
ương tiện, không tập trung vào một ứng dụng cụ thể, không phải là
một tiêu chuẩn mã hóa thực sự cho Audio, Video hay multimedia.
MPEG-7 cũng là một dạng phát triển lên từ phiên bản của MPEG-1 và
nó đang được phát triển.
MPEG-7 cung cấp một tập hợp đầy đủ các công cụ chuẩn hóa để mô tả
nội dung của đa phương tiện. Cả người dùng và hệ thống tự động xử lý hệ âm
thanh thực đề
u thuộc phạm vi của MPEG-7.
Ngoài ra, tổ chức chuẩn ITU-T (International Telecommunication
Union) cũng đưa ra một số chuẩn cho Video như sau:
Chuẩn H.120:
H.120 là chuẩn đầu tiên cho việc mã hóa Video kĩ thuật số, được đưa ra
vào những năm 1984.
H.120 chạy với tốc độ 1544kbit/s cho NTSC và 2048 cho PAL.
Chuẩn Video H.261
H.261 được phát triển cho dịch vụ truyền hình hội nghị và Video phone
qua ISDN ở tốc độ px64kbps/s (p=1, 2, …,30), H.261 làm cơ sở cho các
chuẩn nén sau này như MPEG 1, 2.
11
H.261 sử dụng dạng thức trung gian CIF (Common Intermediate Format)
với các tốc độ bit thấp hơn, nó sử dụng dạng có tốc độ nhỏ hơn ¼ là QCIF
(Quadrature). Với tốc độ 30 khung hình/s thì tốc độ dữ liệu của CIF là 37.3
Mbps, QCIF là 9.35 Mbps. Tốc độ càng thấp thì càng giảm số khung hình/s.
Tín hiệu Video được phân thành các lớp, mỗi lớp đều có các header để
định nghĩa các tham số được sử dụng bởi bộ mã hóa khi tạo dòng bit. Lớp ảnh
được phân thành các nhóm kh
ối GOB (Group of Block), các GOB bao gồm
các MB (MacroBlock). MB là đơn vị nhỏ nhất bao gồm 4 khối 8x8 của tín
hiệu Y và hai khối 8x8 của tín hiệu sắc.
Lớp GOB luôn được kết hợp của 33 MB hợp thành ma trận 3x11. Mỗi
MB có một header chứa địa chỉ MB và kiểu nén, tiếp theo là dữ liệu của khối
Bảng 1.3. Mô tả kiểu CIF và QCIF
Kiểu Số GOB/khung Số MB/GOB Tổng MB/khung
CIF 12 33 396
QCIF 3 33 99
Cuối cùng, lớp ảnh bao gồm header ảnh theo sau bởi dữ liệu cho các
GOB. Mỗi header chứa dữ liệu là dạng ảnh và số khung. Cấu trúc của một
MB như sau:
MBA MTYPE MQUANT MVD CBP
Block
Data
MBA: Địa chỉ, MTYPE: Dạng Intra, Inter
MQUANT: Hệ số lượng tử, MVD: Vector chuyển động
CBP: Mẫu khối đã mã hóa, Block Data: Dữ liệu
12
IntraFrame: Trong khung, khung I cho khả năng truy cập ngẫu nhiên,
kiểu nén intra tương tự như JPEG dựa trên mã hóa DCT từng MB.
InterFrame: Liên khung, liên hệ với các khung I và P trước, MB đầu có
thể bù chuyển động (MC – Motion Compensation) hoặc không. Cung cấp các
tùy chọn cho từng MB như lượng tử với các hệ số lượng tử và sử dụng bộ lọc
bù chuyển động.
Chuẩn Video H.263
H.263 là chuẩn cải tiến của H.261 cho Video tốc độ thấp, có thể truyền
trên mạ
ng điện thoại công cộng PSTN, được công nhận năm 1996. Giống như
H.261, mã hóa DCT cho các MB trong I Frame và DCT sai biệt dự đoán trong
P Frame, tốc độ tối thiểu.
Ưu điểm:
• Chính xác sai biệt dự đoán với ½ điểm ảnh
• Không hạn chế vector chuyển động
• Mã hóa số học theo cú pháp
• Dự đoán thuận lợi với các khung P,…
13
Chuẩn Video H.263:
H.263 là một chuẩn Video codec được thiết kế một cách sáng tạo như
định dạng nén tốc độ bit thấp cho các cuộc hội nghị thông qua Video. Nó là
một thành viên trong nhóm H.26x của các chuẩn mã hóa Video của ITU-T,
được công nhận năm 1996.
H.263 là một yêu cầu bắt buộc của Video codec trong công nghệ ETSI
3GPP cho hệ thống đa phương tiện nhỏ sử dụng giao thức IP (IMS), các dịch
vụ gửi nhận thông điệp đa phương tiệ
n (MMS),…
Chuẩn Video H.264:
H.264 là một chuẩn để nén Video, được hoàn thành vào tháng 5 năm
2003. Nó tương tự như chuẩn ISO/IEC 14496 dành cho Video.
1.2. Phát hiện và giám sát đối tượng:
1.2.1. Phát hiện đối tượng chuyển động trong Video
Mỗi ứng dụng được thừa hưởng từ việc xử lý Video thông minh những
thứ nó cần để giải quyết những yêu cầu khác nhau. Tuy nhiên, chúng có một
số điểm chung sau: các đối tượng chuyển động. Như vậy, việc phát hiện các
đối tượng chuyển động là bước đầu tiên của bất kỳ hệ thống xử lý Video nào.
Khi tìm kiếm thấy các
đối tượng chuyển động mới bắt đầu chuyển sang bước
xử lý khác. Thực tế thì các Video thu được từ camera có rất nhiều nhiễu,
chẳng hạn như sự thay đổi của ánh sáng, sự thay đổi của thời tiết, lá
rung,…Việc phát hiện đối tượng chuyển động gặp vấn đề khó khăn để xử lý
một cách chính xác. Các công nghệ thường xuyên được sử dụng để phát hiện
đố
i tượng chuyển động là phép trừ nền, các phương pháp tĩnh, sự khác biệt về
thời gian và optical flow.
14
Lược đồ 1.1: Lược đồ chung cho các thuật toán xử lý Video
1.2.1.1. Phép trừ nền
Phép trừ nền là một phần trong công nghệ phân đoạn chuyển động trong
các cảnh tĩnh [13]. Nó cố gắng phát hiện các vùng chuyển động bằng cách trừ
điểm ảnh cho điểm ảnh từ ảnh hiện thời đến một ảnh nền cơ sở đã được tạo
bởi trung bình các ảnh nền trong m
ột khoảng thời gian của một chu kỳ khởi
tạo. Những ảnh mà ở đó có sự khác biệt sau khi thực hiện trừ nền ở trên bước
đầu được phân loại bằng sự nổi trội. Sau khi tạo một bản đồ các điểm nổi trội,
một số phép toán hậu xử lý như: phép co, dãn, đóng khung được thực hiện để
đơn giản hóa các tác động của nhiễ
u và làm tăng vùng phát hiện. Nền cơ sở
được cập nhật với các ảnh mới theo thời gian để thích ứng với sự thay đổi
của các cảnh động.
Có nhiều hướng tiếp cận khác nhau về việc phối hợp dựa trên phép trừ
nền trong phạm vi của việc phát hiện vùng nổi trội, duy trì nền và hậu xử lý.
Heikkila và Silven [7] sử dụng một cách đơn giản phép phối hợp này, với
mỗi điểm ảnh được biểu diễn bởi một tọa độ (x,y) trong ảnh hiện thời I
t
sẽ
được đánh dấu là điểm nổi bật nếu
|I
t
(x,y) – B
t
(x,y)|>
τ
(1.1)
Pháthiệnđối
tượng
Phânloạiđ
ố
itượng Đánhdấuđối
tượng
Thừanhậnhành
vi
Môtảngữ ngh
ĩ
a
15
được thỏa mãn, trong đó,
τ
là ngưỡng xác định trước. Ảnh nền B
T
được
cập nhật bởi việc sử dụng phép lọc Infinite Impulse Respone (IIR) như sau :
B
t+1
=αI
t
+ (1- α)B
t
(1.2)
Việc tạo ra bản đồ điểm nổi trội được cho phép bởi các hình thái đóng và
kết thúc của các miền kích thước nhỏ.
Mặc dù các công nghệ trừ nền thực hiện tốt việc đưa ra các điểm có liên
quan của các vùng chuyển động trước khi kết thúc, chúng thường chịu ảnh
hưởng của các thay đổi động, chẳng hạn ánh sáng chợt thay đổi đột ngột,…
1.2.1.2. Các phương pháp tĩ
nh
Hầu hết các phương pháp cải tiến đã được sử dụng đều phát triển dựa
trên các phương pháp trừ nền.
Phương pháp W4 [6] sử dụng một mô hình nền tĩnh, ở đó mỗi pixel được
biểu diễn lại với giá trị nhỏ nhất (M) và giá trị lớn nhất (N) của nó về cường
độ và sự sai khác cường độ lớn nhất (D) giữa các frame liên ti
ếp bất kỳ quan
sát được trong suốt chu kỳ khởi tạo huấn luyện mà ở đó cảnh không chứa các
đối tượng chuyển động. Một điểm trong ảnh hiện thời I
t
được phân loại như là
điểm nổi trội nếu nó thỏa mãn:
|M(x,y)-I
t
(x,y)|>D(x,y) hoặc |N(x,y)-I
t
x,y)|>D(x,y) (1.3)
Sau khi thực hiện, phép toán co được áp dụng lặp lại cho các điểm nổi
bật đã được phát hiện để xóa bỏ một điểm nhiễu đậm đặc. Trong khi tạo ra
các vùng co để quản lý kích cỡ của chúng, một dãy các phép co và dãn được
thực hiện trên bản đồ điểm nổi bật. Cũng như thế, các vùng có kích thước nhỏ
được loại trừ sau khi áp dụng đánh nhãn các thành phần liên t
ục để tìm vùng.
Trạng thái tĩnh của các điểm ảnh nền thuộc về các vùng đứng yên của ảnh
hiện thời được cập nhật với các ảnh dữ liệu mới.
16
Một ví dụ khác của các phương pháp tĩnh, Stauffer và Grimson [17] đã
miêu tả một sự tương thích của mô hình pha trộn nền để đánh dấu thời gian
thực. Mọi điểm ảnh thực sự được mô hình hóa bởi sự pha trộn của phương
pháp Gaussians và được cập nhật trực tuyến bởi dữ liệu ảnh đầu vào. Các
phân bố Gaussian sẽ đánh giá xem một điểm sẽ thuộc v
ề việc xử lý điểm nổi
trội hay là thuộc về xử lý nền.
1.2.1.3. Sự khác biệt theo thời gian
Sự khác biệt theo thời gian cố gắng phát hiện các vùng chuyển động
bằng cách sử dụng sự khác nhau giữa một điểm ảnh ở các frame liên tiếp nhau
(hai hoặc ba) trong một dãy Video. Phương pháp này có khả năng thích ứng
cao với các cảnh động, tuy nhiên, nó thường mắc một số lỗi trong việ
c phát
hiện đối tượng chuyển động.
(a) (b)
Hình 1.1: Ví dụ về sự khác biệt theo thời gian
(a)Một cảnh với hai đối tượng chuyển động, (b) Phương pháp dựa trên sự
khác biệt theo thời gian bị lỗi khi phát hiện tất cả các điểm ảnh chuyển động
của đối tượng bên trái. Các vùng chuyển động được phát hiện đánh dấu bởi
màu đỏ
17
Vùng màu đơn của người bên ảnh trái làm cho thuật toán khác biệt về
thời gian bị lỗi trong việc trích ra tất cả các điểm ảnh của vùng chuyển động
của con người. Cũng vậy, phương pháp này lỗi khi phát hiện các đối tượng đã
dừng lại trong cảnh. Các phương pháp bổ sung cần kế thừa để phát hiện các
đối tượng đứng yên giúp cho việc thành công ở những bước xử lý cao hơn.
Lipton [9]
đã trình bày cách phối hợp giữa hai frame khác nhau, ở đó,
các pixel thỏa mãn các biểu thức sau :
|I
t
(x,y) –I
t-1
(x,y)|>
τ
(1.4)
Để khắc phục các thiếu sót của hai frame khác nhau, trong một số trường
hợp, ba frame khác nhau có thể được sử dụng.
1.2.1.4. Optical Flow
Phương pháp Optical flow thực hiện bằng cách sử dụng các vector có
hướng của các đối tượng chuyển động theo thời gian để phát hiện các vùng
chuyển động trong một ảnh. Chúng có thể phát hiện chuyển động trong các
dãy Video ngay cả các Video thu được từ camera di chuyển.
Optical flow là khái niệm chỉ sự chuyển động tương
đối của các điểm
trên bề mặt một đối tượng, vật thể nào đó gây ra, dưới góc quan sát của một
điểm mốc (mắt, camera…). Sự chuyển động của các vật thể (mà thực tế có thể
coi là sự chuyển động của các điểm trên bề mặt của vật thể ấy) trong không
gian 3 chiều, khi được chiếu lên một mặt phẳng quan sát 2D được gọi là
motion field. Nói chung, mụ
c đích của các phương pháp optical flow
estimation là để xác định (xấp xỉ) motion field từ một tập các frame ảnh thay
đổi theo thời gian, chúng được sử dụng rộng rãi trong các bài toán object
segmentation, motion detection, tracking…
Có nhiều kĩ thuật xác định optical flow khác nhau như correlation, matching,
feature-tracking, energy-based… nhưng bài này – dựa trên một chương sách
của David Fleet [19] – sẽ tập trung vào các phương pháp dựa trên gradient.
Các phương pháp khác cũng đã được Fleet khảo sát trong [2].
18
Ý tưởng quan trọng của phương pháp tính optical flow dựa trên gradient là
giả định sau:
Bề ngoài của đối tượng không có nhiều thay đổi (về cường độ sáng –
intensity) khi xét từ frame thứ n sang frame n+1.
Nghĩa là
)1,(),(
+
+
= tuxItxI
r
r
r
(1).
Trong đó
),( txI
r
là hàm trả về cường độ sáng của điểm ảnh
x
r
tại thời điểm t
(frame thứ t).
T
yxx ),(=
r
là tọa độ của điểm ảnh trên bề mặt (2D),
),(
21
uuu =
r
là vector vận tốc, thể hiện sự thay đổi vị trí của điểm ảnh từ
frame thứ t sang frame t+1. Mặc dù có vẻ không thực tế, nhưng nhiều công
trình cho thấy giả sử (1) làm việc khá tốt trong thực tế.
Sử dụng khai triển Taylor, ta xấp xỉ:
),(),(),()1,( txItxIutxItuxI
t
r
r
r
r
r
r
+
∇
⋅
+
≈
+
+
(2).
với
),(
yx
III =∇
, và
),( txI
t
r
là đạo hàm tức thời của I tại thời điểm t.
Bỏ qua các phần tử có bậc đạo hàm cao hơn trong (2), so sánh (1) và (2),
đồng thời xấp xỉ
),( txI
t
r
bằng
),()1,(),( txItxItxI
t
r
r
r
−
+
≡
δ
, ta nhận
được phương trình sau, gọi là phương trình ràng buộc gradient (gradient
constraint equation, còn gọi là phương trình optical flow)
0),(),(
=
+⋅∇ txIutxI
tt
r
r
r
(3).
Phương trình (3) còn có thể đạt được bằng cách xuất phát ngay từ giả thiết
ban đầu của chúng ta là giá trị độ sáng của điểm ảnh
x
r
không thay đổi từ
frame t sang t+1, như vậy:
0)),(( =+⋅∇=++=
tt
IuI
dt
dt
t
I
dt
dy
y
I
dt
dx
x
I
ttxI
dt
d
rr
δ
δ
δ
δ
δ
δ