Tải bản đầy đủ (.pdf) (69 trang)

Nghiên cứu một số phương pháp phát hiện chuyển động trong video và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.71 MB, 69 trang )



ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ





TRẦN THỊ HOÀN





NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÁT HIỆN
CHUYỂN ĐỘNG TRONG VIDEO VÀ ỨNG DỤNG






LUẬN VĂN THẠC SĨ












Hà Nội - 2009



MỤC LỤC

MỞ ĐẦU 1
Chương 1-TỔNG QUAN VỀ XỬ LÝ VIDEO VÀ PHÁT HIỆN ĐỐI TƯỢNG
CHUYỂN ĐỘNG 3
1.1. Tổng quan về xử lý Video 3
1.1.1. Sơ lược về Video 3
1.1.2. Các dạng Video 4
1.1.2.1 Video tương tự 4
1.1.2.2 Video số 4
1.1.3. Các chuẩn video 4
1.2. Một số vấn đề cơ bản trong xử lý Video 9
1.2.1. Phát hiện đối tượng chuyển động trong Video 9
1.2.1.1. Phép trừ nền 10
1.2.1.2. Các phương pháp tĩnh 10
1.2.1.3. Sự khác biệt theo thời gian 11
1.2.1.4. Optical Flow 12
1.2.2. Phân loại đối tượng trong video 12
1.2.2.1. Phân loại dựa theo hình dạng 13
1.2.2.2. Phân loại dựa theo chuyển động 13
1.2.3. Phát hiện ánh sáng 14
1.2.4. Đánh dấu đối tượng 14

Chương 2-PHÁT HIỆN, ĐÁNH DẤU VÀ PHÂN LOẠI ĐỐI TƯỢNG CHUYỂN
ĐỘNG TRONG VIDEO 16
2.1. Phát hiện đối tượng 16
2.1.1. Phát hiện nổi trội 18
2.1.1.1 Mô hình trừ nền có khả năng thích ứng 18
2.1.1.2. Mô hình hỗn hợp Gaussian tương thích 20
2.1.1.3. Sự khác biệt theo thời gian 22
2.1.2. Bước hậu xử lý điểm ảnh 23
2.1.2.1. Phát hiện bóng và sự thay đổi ánh sáng đột ngột 24
2.1.3. Phát hiện các vùng liên tục 29


2.1.4. Bước hậu xử lý vùng 29
2.1.5. Trích rút các đặc trưng của đối tượng 30
2.2. Đánh dấu đối tượng 30
2.2.1. Tham chiếu tương tự với các đối tượng cơ bản 32
2.2.2. Điều khiển sự chồng chéo của các đối tượng 36
2.2.2.1 Phát hiện các đối tượng bị che khuất 37
2.2.2.2. Phát hiện các đối tượng tách ra 37
2.2.2.3. Lược đồ cơ sở tham chiếu tương ứng 37
2.2.3. Phát hiện các đối tượng dời đi và các đối tượng biến mất 39
2.3. Phân loại đối tượng 41
2.3.1. Phân loại dựa trên mẫu hình chiếu 41
2.3.2. Cơ sở dữ liệu mẫu hình chiếu 42
2.3.3. Ma trận phân loại 45
2.3.4. Sự bảo toàn theo thời gian 46
Chương 3- ỨNG DỤNG 48
3.1. Một số ứng dụng trong công nghệ phần mềm 49
3.1.1. Ứng dụng trong phần mềm nhúng (Embedded Software) 49
3.1.1.1. Khái niệm phần mềm nhúng 49

3.1.1.2. Mục đích của phần mềm nhúng 49
3.1.1.3. Tính chất của phần mềm nhúng 49
3.1.1.4. Lợi ích của phần mềm nhúng 49
3.1.1.5. Ứng dụng trong xử lý video 49
3.1.2. Xây dựng các phần mềm điều khiển 50
3.2. Cài đặt một số phương pháp phát hiện và đánh dấu đối tượng 50
3.2.1. Giao diện của chương trình 50
3.2.2. Các menu 51
3.2.3. Một số hình ảnh về phát hiện và đánh dấu đối tượng chuyển động 52
KẾT LUẬN 54
TÀI LIỆU THAM KHẢO 55
PHỤ LỤC 60

1
MỞ ĐẦU

Trong kỷ nguyên công nghệ thông tin hiện nay, với sự phát triển nhanh chóng
của các công nghệ chế tạo thiết bị phần cứng ngày càng hiện đại, tinh vi thì ngành
công nghệ phần mềm cũng không ngừng mở rộng để phù hợp với các yêu cầu của thực
tế. Trong đó phải kể đến sự phát triển của các thiết bị thu nhận hình ảnh từ thế giới
thực, chẳng hạn như các hệ thống giám sát bằng camera, song hành với nó là các vấn
đề liên quan đến việc giám sát. Thách thức chính cho công nghệ phần mềm trong lĩnh
vực này chính là việc xử lý các hình ảnh thu nhận được từ các hệ thống giám sát đó
Giám sát là một vấn đề được rất nhiều nhà nghiên cứu quan tâm đặc biệt bởi
những ứng dụng thiết thực của nó cho đời sống xã hội. Chẳng hạn như các hệ thống
giám sát các hành vi khả nghi của tội phạm, khủng bố ở các địa điểm nhạy cảm của
các chính phủ. Hệ thống giám sát trong các viện bảo tàng, lưu trữ để chống trộm cắp
các di vật đang được trưng bày. Hệ thống giám sát các hiện tượng bất bình thường, vi
phạm pháp luật, tai nạn ở các điểm giao thông. Hệ thống giám sát phòng chống hỏa
hoạn. Các hệ thống giám sát trong các siêu thị, cửa hàng, công ty để chống

trộm cắp,…
Thách thức chính cho ngành công nghệ phần mềm là đưa ra các giải pháp nhằm
xây dựng một hệ thống giám sát tối ưu nhất nhằm giúp con người phát hiện chính xác
và kịp thời các hiện tượng bất thường để có biện pháp xử lý nhanh chóng nhằm tránh
các thiệt hại đáng tiếc cho xã hội.
Dữ liệu thu được từ hệ thống camera giám sát thường được lưu trữ dưới dạng
video. Như vậy công việc hiện nay của chúng ta là nghiên cứu các vấn đề liên quan
đến việc xử lý video.
Hiện nay trên thế giới đã có nhiều công trình nghiên cứu về xử lý video và cũng
đã có nhiều ứng dụng đáng kể trong lĩnh vực này. Tuy nhiên, so với yêu cầu thực tế thì
như thế vẫn là chưa đủ.
Ở Việt Nam, xử lý Video là một vấn đề còn khá mới mẻ. Thực tế cho thấy rằng,
khi xã hội phát triển càng mạnh, yêu cầu về các thiết bị công nghệ càng cao. Như vậy,
xử lý video là một mảnh đất màu mỡ cho các trung tâm nghiên cứu, các công ty đầu tư
vào. Nhất là trong giai đoạn hệ thống nhúng đang phát triển và mở ra một kỷ nguyên
mới cho ngành công nghệ phần mềm như hiện nay.
Giám sát tự động là một hướng mới và có nhiều triển vọng trong sự phát triển
tiếp theo của lĩnh vực nhận dạng và xử lý ảnh 2 chiều. Đồng thời, đó cũng là một
hướng đi cho mảng phần mềm thiết kế chuyên dụng cho các thiết bị giám sát tự động.
Việc phát hiện ra các đối tượng chuyển động trong video nhờ các kỹ thuật xử lý ảnh,
trên cơ sở đó đoán nhận một số hành vi của đối tượng là một việc làm có ý nghĩa khoa

2
học và thực tiễn. Nhất là trong hoàn cảnh Việt Nam chưa có nhiều những nghiên cứu
và ứng dụng theo hướng này.
Xuất phát từ thực tế đó, việc nghiên cứu và đưa ra các phương pháp để xử lý
video là vô cùng thiết thực. Được sự hướng dẫn của PGS.TS. Đỗ Năng Toàn tôi đã
tiến hành nghiên cứu đề tài “Nghiên cứu một số phương pháp phát hiện đối tượng
chuyển động trong video và ứng dụng”
Trong khuôn khổ của luận văn này, mục tiêu của tôi là tìm hiểu các bước phát

hiện, đánh dấu, phân loại các đối tượng chuyển động trong video và so sánh mẫu để
đưa ra kết luận tương ứng. Sau khi nghiên cứu kỹ các phương pháp đã được đưa ra, tôi
tiến hành đánh giá ưu và nhược của mỗi phương pháp và mạnh dạn đưa ra một số biện
pháp khắc phục nhằm làm cho hệ thống hoạt động tối ưu nhất với hệ thời gian thực.
Các vấn đề cần giải quyết trong phạm vi luận văn này bao gồm:
- Nghiên cứu tổng quan về video và phát hiện đối tượng chuyển động.
- Nghiên cứu và đề xuất một số hướng khắc phục các nhược điểm trong
việc phát hiện, đánh dấu, phân loại các đối tượng chuyển động và tạo kho
cơ sở dữ liệu mẫu.
- Cài đặt một số phương pháp phát hiện, đánh dấu các đối tượng chuyển
động dựa theo các phương pháp đã nêu ở trên.



3
Chương 1 - TỔNG QUAN VỀ XỬ LÝ VIDEO VÀ PHÁT HIỆN
ĐỐI TƯỢNG CHUYỂN ĐỘNG

1.1. Tổng quan về xử lý Video
1.1.1. Sơ lược về Video
Ngày nay, không ai có thể phủ nhận các thành tựu mà ngành công nghệ thông tin
mang lại. Trong đó, đa phương tiện là một khía cạnh quan trọng với nhiều ứng dụng
thiết thực nhằm làm cho xã hội ngày càng phát triển hơn, văn minh hơn. Nhưng với sự
phát triển không ngừng như hiện nay của công nghệ thông tin, như thế vẫn là chưa đủ.
Vẫn cần nhiều hơn nữa các nghiên cứu liên quan đến khía cạnh này. Trong đó phải kể
đến một lĩnh vực rất quan trọng của đa phương tiện, đó là Video và xử lý video.
Video là sự tái tạo ảnh tự nhiên theo không gian và thời gian hoặc cả hai, thực
chất là một dãy ảnh liên tục theo thời gian nhằm mô phỏng sự chuyển động. Việc dùng
ảnh liên tục để mô tả chuyển động theo thời gian đã xuất hiện gần 2 thế kỉ nay. Năm
1834 nhà toán học William George Horner đã phát minh ra cách mô tả này. Sau đó,

hàng loạt các nghiên cứu khác được triển khai và đã có những ứng dụng đáng kể. Năm
1887, khi Hannubal Good phát minh ra phim ảnh thì vấn đề ảnh chuyển động được
quan tâm đặc biệt vì những lợi ích kinh tế mà nó mang lại. Năm 1895, một hệ thống
camera/Projector với các chuẩn phim (35mm chiều rộng, 24 khung hình trên giây)
được phát triển bởi Louis Lumiére
Sự chuẩn hóa của video tương tự trong những năm đầu của thập niên 1950
(NTSC) và những năm cuối của 1960 (SECAM và PAL) làm cho ảnh chuyển động
xuất hiện hầu như khắp nơi, với các thiết bị vô tuyến được dùng rộng rãi cho mục đích
giải trí, các hệ thống ứng dụng công nghệ như phát hiện chuyển động tiếp tục được
phát triển.
Vào năm 1990, các tổ chức về chuẩn hóa như tổ chức ISO-IEC (International
Organization for Standard – International Electrotechnical Commission) đã đưa ra
chuẩn MJPEG cho video kĩ thuật số, tổ chức chuẩn ITU-T (International
Telecommunication Union) đã đưa ra chuẩn H.261 và một số các chuẩn liên quan
khác. Đi kèm với nó là các thiết bị tin học giá rẻ đã tạo nên sự phát triển bùng nổ cho
các ứng dụng đa phương tiện.




4
1.1.2. Các dạng Video
1.1.2.1 Video tương tự
NTSC Video: Đây là dạng Video tương tự với 525 dòng trên một khung hình, 30
khung hình trong một giây, quét cách dòng, chia làm hai trường (mỗi trường 262.5
dòng), có 20 dòng dự trữ cho thông tin điều khiển tại thời điểm bắt đầu mỗi trường.
PAL Video: Dạng Video này có 625 dòng trên một khung hình, 25 khung hình
trong một giây, quét cách dòng. Khung gồm hai trường chẵn lẽ, mỗi trường bao gồm
312.5 dòng.
1.1.2.2 Video số

Một số tiêu chuẩn của Video số lấy theo tiêu chuẩn CCIR (Consultative
Committee for International Radio)
Bảng1.1. Các tiêu chuẩn của Video số

CCIR
601525/60
NTSC
CCIR 601625/50
PAL/SECAM
CIF
QCIF
Độ phân giải
độ chói
720x480
360x576
352x288
176x144
Độ phân giải
màu sắc
360x480
360x576
176x144
88x72
Lấy mẫu màu
4:2:2
4:2:2
4:2:0
4:2:0
Số trường /s
60

50
30,15,10,7.5
30,15,10,7.5
Cách quét
Cách dòng
Cách dòng
Liên tục
Liên tục
1.1.3. Các chuẩn video
Các chuẩn do tổ chức chuẩn ISO-IEC (International Organization for Standard-
International Electrotechnical Commission) đưa ra bao gồm:
Chuẩn MJPEG
MJPEG (Motion JPEG) là tên gọi của một lớp các quy cách của video, trong đó
mỗi frame của video hoặc phạm vi được kết hợp lại của một dãy video số được nén lại
một cách độc lập như là một ảnh JPEG
MJPEG sử dụng hình thái nén dựa trên phép biến đổi cosin rời rạc. Phép toán này
chuyển đổi mỗi frame của video nguồn từ miền thời gian xác định vào miền tần số.
Một mô hình tri giác dựa theo một cách không chặt chẽ vào hệ thống trực quan của

5
con người để loại bỏ thông tin có tần số cao, ví dụ như sự chuyển đổi một cách chính
xác theo cường độ và màu sắc. Trong miền chuyển đổi, việc xử lý rút gọn các thông
tin được gọi là lượng tử. Trong đó, lượng tử là một phương pháp làm giảm được một
nhóm tỷ lệ lớn (với sự xẩy ra khác nhau của mỗi một nhóm) vào một nhóm nhỏ hơn,
và miền chuyển đổi này rất thuận tiện cho việc biểu diễn ảnh bởi các hệ số có tần số
cao, nó góp phần làm giảm các ảnh trên hơn là các hệ số khác với những đặc tính có
giá trị nhỏ với hệ số nén cao. Các hệ số lượng tử này ngay sau đó được xếp dãy và
đóng gói vào đầu ra của các tuyến bit. Gần như việc thi hành của tất cả các phần mềm
của chuẩn MJPEG cho phép người dùng điểu khiển trên tỉ lệ nén (như là các tham biến
tùy ý khác), cho phép người sử dụng để trao đổi ngoại tuyến đối với các tệp có kích

thước nhỏ hơn. Trong các ứng dụng nhúng (miniDV, nó được sử dụng tương tự như sự
pha trộn nén biến đổi cosine rời rạc), Các tham biến này được lựa chọn trước và thiết
lập cho ứng dụng.
Chuẩn Video MPEG-1
MPEG-1 là một chuẩn được phát triển và thừa nhận năm 1992 để lưu trữ dạng
nén thô các Video dạng CIF và kết hợp với audio khoảng 1.5 Mbps (các tỉ lệ nén tách
biệt là 26:1 và 6:1) trên nhiều môi trường lưu trữ số khác nhau như VCD , DAT,
Winchester, đĩa quang, cáp, vệ tinh số và truyền thanh số với ứng dụng chính là các hệ
thống đa phương tiện trực tuyến
Chuẩn MPEG-1 còn được gọi là ISO/IEC-11172 bao gồm các phần sau:
1. Các hệ thống (lưu trữ và đồng bộ hóa video, audio và các dữ liệu khác
cùng nhau)
2. Video (nén video)
3. Audio (nén audio)
4. Kiểm tra sự đúng đắn (kiểm tra sự chính xác của việc thực hiện chuẩn)
5. Các phần mềm cơ sở (chẳng hạn như các phần mềm mã hóa và giải mã)
Cụ thể chuẩn MPEG-1 cho Video như sau
Không gian màu của MPEG-1
Trước khi mã hóa video thành MPEG-1, không gian màu được chuyển đổi thành
Y‟CbCr (Y‟=Luma, Cb = Thành phần màu Blue, Cr = thành phần màu Red). Luma
bao gồm độ sáng và độ phân giải được lưu trữ tách biệt nhau theo thành phần (màu,
màu sắc, giai đoạn) và được phân biệt giữa các thành phần Red và Blue
Các đặc tính của MPEG-1
 Là tiêu chuẩn tổng quát cú pháp, hỗ trợ ước lượng chuyển động, dự đoán
bù chuyển động, dùng thuật toán mã hóa rời rạc cosine

6
 Không định nghĩa các thuật toán xác định cụ thể mà thiết kế bộ mã hóa
linh hoạt
 Khả năng phục vụ các ảnh khác nhau, hoạt động trên các thiết bị, tốc độ

khác nhau.
 Truy cập ngẫu nhiên dựa trên các điểm truy cập độc lập.
 Tìm nhanh xem như quét dòng bit mã hóa, chỉ hiển thị các khung
được chọn.
 Trễ mã hóa và giải mã hợp lý (1s), gây ấn tượng tốt cho truy cập video
đơn công.
MPEG-1 chỉ xét các tín hiệu Video lũy tiến. Sử dụng không gian màu (Y, C
r
, C
b
)
đã được thừa nhận theo kiến nghị CCIR 601. Trong SIF (Standard Input Format)
MPEG kênh chính là 352 pixel x 240 dòng và 30 khung hình/s.
Sau đây là một số ràng buộc đối với MPEG-1:
Bảng 1.2. Một số ràng buộc của MPEG-1
Số pixel lớn nhất trên một dòng
720
Số dòng lớn nhất trên một ảnh
576
Số ảnh trong một giây
30
Số MB trên một ảnh
396
Số MB trên một giây
9900
Tốc độ bit tối đa
1.86 Mbps
Kích thước bộ đệm giải nén tối đa
376.832 bits


Chuẩn Video MPEG-2
MPEG-2 là một phiên bản mở rộng của MPEG-1 để cung cấp phạm vi rộng các
ứng dụng với tốc độ bit và các độ phân giải khác nhau (2-20Mbps)
Các đặc tính chính
MPEG-2 được sử dụng rộng rãi như là định dạng của các tín hiệu vô tuyến kỹ
thuật số, các tín hiệu này có thể là tín hiệu vệ tinh, tín hiệu hữu tuyến, vô tuyến. Nó
cũng định dạng cho phim ảnh và một số chương trình khác được lưu trên DVD hoặc
một số đĩa từ tương tự.
MPEG-2 là một chuẩn quốc tế và còn có tên gọi khác là ISO/IEC 13818
Chuẩn MPEG-2 cho video tương tự như chuẩn MPEG-1
Chuẩn Video MPEG-4

7
MPEG-4 phát triển cho tốc độ bit rất thấp từ 4.8 đến 68 kbps, tuy nhiên sau đó đã
nâng tốc độ lên đáng kể.
- Video: 5kbps đến 10 Mbps
- Audio: 2kbps đến 64 kbps
Dạng chuẩn này nhằm hỗ trợ phát triển riêng cho các đối tượng khác nhau tạo
khả năng thích nghi, linh động để cải thiện chất lượng của các dịch vụ như: tivi số, đồ
họa trình diễn, World Wide Web, videophone và các mở rộng của chúng.
MPEG-4 còn được gọi là chuẩn ISO/IEC 14496
Chuẩn Video MPEG-7
Được thừa nhận thành tiêu chuẩn quốc tế tháng 7/2001
MPEG-7 đề xuất cho việc tìm kiếm, chọn lựa, quản lý và phân tích thông tin đa
phương tiện, không tập trung vào một ứng dụng cụ thể, không phải là một tiêu chuẩn
mã hóa thực sự cho Audio, Video hay multimedia.
MPEG-7 cũng là một dạng phát triển lên từ phiên bản của MPEG-1 và nó đang
được phát triển.
MPEG-7 cung cấp một tập hợp đầy đủ các công cụ chuẩn hóa để mô tả nội dung
của đa phương tiện. Cả người dùng và hệ thống tự động xử lý hệ âm thanh thực đều

thuộc phạm vi của MPEG-7.
Ngoài ra, tổ chức chuẩn ITU-T (International Telecommunication Union) cũng
đưa ra một số chuẩn cho Video như sau:
Chuẩn H.120
H.120 là chuẩn đầu tiên cho việc mã hóa video kĩ thuật số. được đưa ra vào
những năm 1984.
H.120 chạy với tốc độ 1544kbit/s cho NTSC và 2048 cho PAL
Chuẩn Video H.261
H.261 được phát triển cho dịch vụ truyền hình hội nghị và Video phone qua
ISDN ở tốc độ px64kbps/s (p=1, 2, …,30), H.261 làm cơ sở cho các chuẩn nén sau này
như MPEG 1, 2.
H.261 sử dụng dạng thức trung gian CIF (Common Intermediate Format) với các
tốc độ bit thấp hơn, nó sử dụng dạng có tốc độ nhỏ hơn ¼ là QCIF (Quadrature). Với
tốc độ 30 khung hình/s thì tốc độ dữ liệu của CIF là 37.3 Mbps, QCIF là 9.35 Mbps.
Tốc độ càng thấp thì càng giảm số khung hình/s.
Tín hiệu video được phân thành các lớp, mỗi lớp đều có các header để định nghĩa
các tham số được sử dụng bởi bộ mã hóa khi tạo dòng bit. Lớp ảnh được phân thành

8
các nhóm khối GOB (Group of Block), các GOB bao gồm các MB (MacroBlock). MB
là đơn vị nhỏ nhất bao gồm 4 khối 8x8 của tín hiệu Y và hai khối 8x8 của tín hiệu sắc.
Lớp GOB luôn được kết hợp của 33 MB hợp thành ma trận 3x11. Mỗi MB có
một header chứa địa chỉ MB và kiểu nén, tiếp theo là dữ liệu của khối.

Bảng 1.3. Mô tả kiểu CIF và QCIF
Kiểu
Số GOB/khung
Số MB/GOB
Tổng MB/khung
CIF

12
33
396
QCIF
3
33
99

Cuối cùng, lớp ảnh bao gồm header ảnh theo sau bởi dữ liệu cho các GOB. Mỗi
header chứa dữ liệu là dạng ảnh và số khung. Cấu trúc của một MB như sau:
MBA
MTYPE
MQUANT
MVD
CBP
Block Data
MBA: Địa chỉ, MTYPE: Dạng Intra, Inter
MQUANT: Hệ số lượng tử, MVD: Vector chuyển động
CBP: Mẫu khối đã mã hóa, Block Data: Dữ liệu
IntraFrame: Trong khung, Khung I cho khả năng truy cập ngẫu nhiên, kiểu nén
intra tương tự như JPEG dựa trên mã hóa biến đổi cosine rời rạc cho từng MB.
InterFrame: Liên khung, liên hệ với các khung I và P trước, MB đầu có thể bù
chuyển động (MC – Motion Compensation) hoặc không. Cung cấp các tùy chọn cho
từng MB như lượng tử với các hệ số lượng tử và sử dụng bộ lọc bù chuyển động.
Chuẩn Video H.263
H.263 là chuẩn cải tiến của H.261 cho Video tốc độ thấp, có thể truyền trên mạng
điện thoại công cộng PSTN, được công nhận năm 1996. Giống như H.261, mã hóa
biến đổi cosine rời rạc cho các MB trong I Frame và biến đổi cosine rời rạc sai biệt dự
đoán trong P Frame, tốc độ tối thiểu.
Ưu điểm:

 Chính xác sai biệt dự đoán với ½ điểm ảnh
 Không hạn chế vector chuyển động
 Mã hóa số học theo cú pháp
 Dự đoán thuận lợi với các khung P,…

9
Chuẩn Video H.263
H.263 là một chuẩn video codec được thiết kế một cách sáng tạo như định dạng
nén tốc độ bit thấp cho các cuộc hội nghị thông qua video. Nó là một thành viên trong
nhóm H.26x của các chuẩn mã hóa video của ITU-T, được công nhận năm 1996.
H.263 là một yêu cầu bắt buộc của video codec trong công nghệ ETSI 3GPP cho
hệ thống đa phương tiện nhỏ sử dụng giao thức IP (IMS), các dịch vụ gửi nhận thông
điệp đa phương tiện (MMS),…
Chuẩn Video H.264
H.264 là một chuẩn để nén video, được hoàn thành vào tháng 5 năm 2003. Nó
tương tự như chuẩn ISO/IEC 14496 (MPEG-4) dành cho video.
1.2. Một số vấn đề cơ bản trong xử lý Video
1.2.1. Phát hiện đối tượng chuyển động trong Video
Mỗi ứng dụng được thừa hưởng từ việc xử lý video thông minh những thứ nó cần
để giải quyết những yêu cầu khác nhau. Tuy nhiên, chúng có một số điểm chung sau:
các đối tượng chuyển động. Như vậy, việc phát hiện các đối tượng chuyển động là
bước đầu tiên của bất kỳ hệ thống xử lý video nào. Khi tìm kiếm thấy các đối tượng
chuyển động mới bắt đầu chuyển sang bước xử lý khác. Thực tế thì các video thu được
từ camera có rất nhiều nhiễu, chẳng hạn như sự thay đổi của ánh sáng, sự thay đổi của
thời tiết, lá rung,…Việc phát hiện đối tượng chuyển động gặp vấn đề khó khăn để xử
lý một cách chính xác. Các công nghệ thường xuyên được sử dụng để phát hiện đối
tượng chuyển động là phép trừ nền, các phương pháp tĩnh, sự khác biệt theo thời gian
và optical flow.












Sơ đồ 1.1: Sơ đồ chung cho các thuật toán xử lý video
Phát hiện đối
tượng
Phân loại đối
tượng
Đánh dấu đối
tượng
Thừa nhận
hành vi
Mô tả ngữ
nghĩa

10
1.2.1.1. Phép trừ nền
Phép trừ nền là một phần trong công nghệ phân đoạn chuyển động trong các cảnh
tĩnh [34]. Nó cố gắng phát hiện các vùng chuyển động bằng cách trừ điểm ảnh cho
điểm ảnh từ ảnh hiện thời đến một ảnh nền cơ sở đã được tạo bởi trung bình các ảnh
nền trong một khoảng thời gian của một chu kỳ khởi tạo. Những ảnh mà ở đó có sự
khác biệt sau khi thực hiện trừ nền ở trên bước đầu được phân loại bằng sự nổi trội.
Sau khi tạo một bản đồ các điểm nổi trội, một số phép toán hậu xử lý như: phép co,
dãn, đóng khung được thực hiện để đơn giản hóa các tác động của nhiễu và làm tăng

vùng phát hiện. Nền cơ sở được cập nhật với các ảnh mới theo thời gian để thích ứng
với sự thay đổi của các cảnh động.
Có nhiều hướng tiếp cận khác nhau về việc phối hợp dựa trên phép trừ nền trong
phạm vi của việc phát hiện vùng nổi trội, duy trì nền và hậu xử lý.
Heikkila và Silven [20] sử dụng một cách đơn giản phép phối hợp này, với mỗi
điểm ảnh được biểu diễn bởi một tọa độ (x,y) trong ảnh hiện thời I
t
sẽ được đánh dấu là
điểm nổi bật nếu
|I
t
(x,y) – B
t
(x,y)|>

(1.1)
được thỏa mãn, trong đó,

là ngưỡng xác định trước. Ảnh nền B
T
được cập nhật bởi
việc sử dụng phép lọc Infinite Impulse Respone (IIR) như sau :
B
t+1
=αI
t
+ (1- α)B
t
(1.2)
Việc tạo ra bản đồ điểm nổi trội được cho phép bởi các hình thái đóng và kết thúc

của các miền kích thước nhỏ.
Mặc dù các công nghệ trừ nền thực hiện tốt việc đưa ra các điểm có liên quan của
các vùng chuyển động trước khi kết thúc, chúng thường chịu ảnh hưởng của các thay
đổi động, chẳng hạn ánh sáng chợt thay đổi đột ngột,…
1.2.1.2. Các phương pháp tĩnh
Hầu hết các phương pháp cải tiến đã được sử dụng đều phát triển dựa trên các
phương pháp trừ nền.
Phương pháp W4 [17] sử dụng một mô hình nền tĩnh, ở đó mỗi pixel được biểu
diễn lại với giá trị nhỏ nhất (M) và giá trị lớn nhất (N) của nó về cường độ và sự sai
khác cường độ lớn nhất (D) giữa các frame liên tiếp bất kỳ quan sát được trong suốt
chu kỳ khởi tạo huấn luyện mà ở đó cảnh không chứa các đối tượng chuyển động. Một
điểm trong ảnh hiện thời I
t
được phân loại như là điểm nổi trội nếu nó thỏa mãn:
|M(x,y)-I
t
(x,y)|>D(x,y) hoặc |N(x,y)-I
t
x,y)|>D(x,y) (1.3)
Sau khi thực hiện, phép toán co được áp dụng lặp lại cho các điểm nổi trội đã
được phát hiện để xóa bỏ một điểm nhiễu đậm đặc. Trong khi tạo ra các vùng co để

11
quản lý kích cỡ của chúng, một dãy các phép co và dãn được thực hiện trên bản đồ
điểm nổi trội. Cũng như thế, các vùng có kích thước nhỏ được loại trừ sau khi áp dụng
đánh nhãn các thành phần liên tục để tìm vùng. Trạng thái tĩnh của các điểm ảnh nền
thuộc về các vùng đứng yên của ảnh hiện thời được cập nhật với các ảnh dữ liệu mới.
Một ví dụ khác của các phương pháp tĩnh, Stauffer và Grimson [44] đã miêu tả
một sự tương thích của mô hình pha trộn nền để đánh dấu thời gian thực. Mọi điểm
ảnh thực sự được mô hình hóa bởi sự pha trộn của phương pháp Gaussians và được

cập nhật trực tuyến bởi dữ liệu ảnh đầu vào. Các phân bố Gaussian sẽ đánh giá xem
một điểm sẽ thuộc về việc xử lý điểm nổi trội hay là thuộc về xử lý nền.
1.2.1.3. Sự khác biệt theo thời gian
Sự khác biệt theo thời gian cố gắng phát hiện các vùng chuyển động bằng cách sử
dụng sự khác nhau giữa một điểm ảnh ở các frame liên tiếp nhau (hai hoặc ba) trong
một dãy video. Phương pháp này có khả năng thích ứng cao với các cảnh động, tuy
nhiên, nó thường mắc một số lỗi trong việc phát hiện đối tượng chuyển động.








(a) (b)
Hình 1.1: Ví dụ về lỗi trong phương pháp khác biệt theo thời gian
(a)Một cảnh với hai đối tượng chuyển động, (b) Phương pháp dựa trên sự khác
biệt theo thời gian bị lỗi khi phát hiện tất cả các điểm ảnh chuyển động của đối tượng
bên trái. Các vùng chuyển động được phát hiện đánh dấu bởi màu đỏ
Vùng màu đơn của người bên ảnh trái làm cho thuật toán khác biệt về thời gian bị
lỗi trong việc trích ra tất cả các điểm ảnh của vùng chuyển động của con người. Cũng
vậy, phương pháp này lỗi khi phát hiện các đối tượng đã dừng lại trong cảnh. Các
phương pháp bổ sung cần kế thừa để phát hiện các đối tượng đứng yên giúp cho việc
thành công ở những bước xử lý cao hơn.
Lipton [29] đã trình bày cách phối hợp giữa hai frame khác nhau, ở đó, các pixel
thỏa mãn các biểu thức sau :
|I
t
(x,y) –I

t-1
(x,y)|>

(1.4)

12
Để khắc phục các thiếu sót của hai frame khác nhau, trong một số trường hợp, ba
frame khác nhau có thể được sử dụng.
1.2.1.4. Optical Flow
Phương pháp Optical flow thực hiện bằng cách sử dụng các vector có hướng của
các đối tượng chuyển động theo thời gian để phát hiện các vùng chuyển động trong
một ảnh. Chúng có thể phát hiện chuyển động trong các dãy video ngay cả các video
thu được từ camera di chuyển, như vậy, hầu hết các phương pháp optical flow được
ước tính độ phức tạp và không thể sử dụng với thời gian thực mà không có các phần
cứng chuyên biệt đi kèm [49].
1.2.1.5. Phát hiện sự thay đổi ánh sáng và bóng
Thuật toán này mô tả cho việc phát hiện chuyển động thực hiện tốt cho các môi
trường bên trong và bên ngoài nhà và cũng được sử dụng cho giám sát theo thời gian
thực trước đây.
Như vậy, không cần sự đảm bảo đặc biệt nào, hầu hết các thuật toán đó dễ bị ảnh
hưởng đến cả sự thay đổi của phần cục bộ (chẳng hạn bóng và ánh sáng) và của ánh
sáng toàn cục (chẳng hạn như mây che khuất ánh sáng mặt trời). Các bóng là nguyên
nhân việc bị lỗi ở các phương pháp phát hiện chuyển động trong việc phân đoạn các
đối tượng chuyển động và làm các mức cao hơn như phân chia các đối tượng không
chính xác.
Horprasert đưa ra một cách giải quyết về phép trừ nền và phương pháp phát hiện
bóng, với phương pháp đó, mỗi pixel được diễn tả bởi một mô hình màu phân biệt bởi
độ sáng từ các tín hiệu chứa màu sắc thành phần. Mỗi điểm ảnh đã định rõ được phân
chia vào bốn loại khác nhau (nền, nền bóng hoặc bóng, ánh sáng nền hoặc đối tượng
chuyển động nổi trội) bằng cách tính toán sự chênh lệch của màu sắc và các tín hiệu

chứa màu sắc giữa các điểm ảnh nền và ảnh hiện thời.
1.2.2. Phân loại đối tượng trong video
Vùng chuyển động được phát hiện trong video có thể tương ứng với các đối
tượng khác nhau trong thế giới thực như người, nhóm người, xe cộ, sự hỗn loạn,…
Việc thừa nhận kiểu của đối tượng là rất quan trọng để xác nhận kiểu của đối tượng
được phát hiện để đánh dấu nó một cách chính xác và phân tích các hoạt động một
cách đúng đắn. Hiện nay, có hai hướng tiếp cận trong việc phân loại các đối tượng, đó
là các phương pháp shape-base và motion - base [49] (dựa theo hình dạng và dựa theo
chuyển động). Phương pháp Shape – base thường dùng cho các đối tượng trong không
gian hai chiều 2D còn phương pháp motion – base dùng để lần theo các dấu vết đặc
trưng theo thời gian của các đối tượng cho giải pháp phân loại.

13
1.2.2.1. Phân loại dựa theo hình dạng
Các đặc trưng chung chung sử dụng trong phân chia các đối tượng theo hình dạng
là tạo các hình chữ nhật bao quanh, tạo các vùng, hình chiếu và độ nghiêng của các
vùng chứa đối tượng được phát hiện.
Hướng tiếp cận này sử dụng độ dài các đường nét của hình chiếu và vùng thông
tin để phân loại các đối tượng đã được phát hiện và đưa nó vào thành 3 nhóm: Người,
xe cộ và các đối tượng khác [29]. Phương pháp này phụ thuộc vào các giả định, chẳng
hạn như, nếu là con người thì sẽ nhỏ hơn xe cộ và có bóng phức tạp. Mức độ rải rác
được dùng như là một ma trận phân loại và nó được định nghĩa trong các giới hạn của
các vùng của đối tượng và độ dài đường viền (chu vi) như sau:
Mức độ rải rác =
vùng
vichu
2
(1.5)
Việc phân loại được thực hiện ở mỗi frame và kết quả lưu lại thường được tận
dụng để đảm bảo việc phân loại theo thời gian.

Phương pháp phân loại này phát triển bởi Collins [10] sử dụng cách nhìn dựa
theo các đặc trưng của thị giác để huấn luyện một mạng nơ ron các đối tượng phân loại
thừa nhận các lớp: con người, nhóm người, xe cộ và sự hỗn loạn. Đầu vào của mạng
nơ ron là mức độ rải rác, các miền, tỉ lệ tương quan của các vùng đối tượng và độ
phóng đại của camera. Cũng như phương pháp trước, việc phân loại được thực hiện
trên mỗi frame và các kết quả được đưa vào biểu đồ để duy trì sự phân loại theo
thời gian.
Saptharishi đề xuất một sự phối hợp phân loại sử dụng chiều dài của việc huấn
luyện của mạng nơ ron với việc “học” khác nhau để thừa nhận hai lớp: Xe cộ và con
người [41]. Papageorgion đưa ra một phương pháp sử dụng sự phân loại của máy hỗ
trợ véc tơ huấn luyện nhờ các đặc trưng biến đối sóng nhỏ của đối tượng trong các ảnh
của video từ một cơ sở dữ liệu mẫu đơn giản [38]. Phương pháp này được sử dụng để
thừa nhận các vùng chuyển động tương tự như con người.
Một phương pháp khác được đưa ra bởi Brodsky [11] sử dụng phép phân loại
Radial Basis Function (RBF), phương pháp này như sau: có một kiến trúc tương tự
như 3 tầng mạng nhân giống lại. Đầu vào của phương pháp này là gradient ảnh của
các vùng đối tượng đã được phát hiện.
1.2.2.2. Phân loại dựa theo chuyển động
Một số phương pháp trong một số bài viết chỉ sử dụng các đặc trưng chuyển động
theo thời gian của các đối tượng để thừa nhận các lớp của chúng [8, 51, 28]. Một cách
tổng quát, chúng được dùng để phân biệt các đối tượng cứng (như xe cộ) và không
cứng (như người). Phương pháp này dựa trên cơ sở tính chất đặc biệt theo thời gian

14
của các đối tượng chuyển động. Với đối tượng được đưa ra ở chu kỳ chuyển động, đặc
tính của nó đo được cũng như hiển thị một chu kỳ chuyển động. Phương pháp này khai
thác đầu mối này để phân loại các đối tượng chuyển động sử dụng
chu kỳ.
Phân tích optical flow cũng là hữu ích để phân biệt các đối tượng “cứng” và đối
tượng “mềm”. A.J. Lipton trình bày một phương pháp được sử dụng phân tích optical

flow cục bộ của các vùng đối tượng đã được phát hiện [28]. Nó được mong đợi cho
các đối tượng mềm như là con người và sẽ đưa ra giá trị flow trung bình, còn các đối
tượng cứng như là xe cộ sẽ được đưa ra giá trị flow nhỏ. Cũng vậy, phần còn lại trong
chuyển động phát sinh của con người sẽ có chu kỳ. Bằng cách sử dụng gợi ý này,
chuyển động của con người và cả con người có thể được phân biệt với các đối tượng
khác như là xe cộ.
1.2.3. Phát hiện ánh sáng
Hầu hết các phương pháp đã trình bày đều dựa trên màu sắc và các điểm đặc
trưng chuyển động của ánh sáng.
Liu và Ahuja [30] đưa ra một phương pháp định nghĩa về các mô hình quang phổ,
không gian và thời gian của các điểm ánh sáng để phát hiện ra sự có mặt của nó trong
video. Mô hình quang phổ được biểu diễn trong giới hạn độ đậm đặc màu của các
điểm sáng. Mô hình không gian mô tả cấu trúc không gian của các vùng ánh sáng và
mô hình thời gian nắm bắt sự thay đổi của các cấu trúc theo thời gian.
1.2.4. Đánh dấu đối tượng
Đánh dấu là vấn đề có ý nghĩa và khó nên được các nhà nghiên cứu về máy tính
rất quan tâm. Mục đích của đánh dấu là để thiết lập sự phù hợp của các đối tượng và
các phần của đối tượng giữa các frame liên tiếp trong video. Nó là một công việc có ý
nghĩa trong hầu hết các ứng dụng giám sát từ việc nó cung cấp dữ liệu gắn kết theo
thời gian về các đối tượng chuyển động để dùng cho cả việc làm tăng khả năng của các
bước xử lý thấp như phân đoạn chuyển động và khả năng mở rộng dữ liệu ở mức cao
hơn như phân tích hoạt động và thừa nhận cách hành động. Đánh dấu là một công việc
khó khăn để ứng dụng trong các vị trí chồng chéo do các đối tượng phân đoạn không
đúng. Các vấn đề chung của việc phân đoạn không đúng là các bóng dài, các phần
riêng lẻ và tình trạng bị chồng chéo của các đối tượng với mỗi đối tượng khác và với
phần tử đứng yên trong cảnh đó. Như vậy, việc đối phó với bóng ở bước phát hiện
chuyển động và việc bắt được các phần bị che khuất ở cả bước phân đoạn và bước
đánh dấu là rất quan trọng cho sự đánh dấu đúng đắn.

15

Đánh dấu trong video có thể được phân biệt theo sự cần thiết của các ứng dụng
sử dụng nó hoặc theo các phương pháp sử dụng giải pháp của nó.

16
Chương 2 - PHÁT HIỆN, ĐÁNH DẤU VÀ PHÂN LOẠI ĐỐI
TƯỢNG CHUYỂN ĐỘNG TRONG VIDEO
2.1. Phát hiện đối tượng
Tổng quan về phát hiện, phân loại và đánh dấu đối tượng chuyển động trong
video với thời gian thực được mô tả như sau


Sơ đồ 2.1: Sơ đồ khối hệ thống

Hệ thống này có thể phân biệt được các đối tượng thoáng qua hoặc đứng yên từ
các đối tượng nền tĩnh trong các cảnh động; phát hiện và phân biệt các đối tượng di

17
chuyển và biến mất; phân loại các đối tượng đã được phát hiện vào trong các nhóm
khác nhau, như người, nhóm người, xe cộ,…; đánh dấu các đối tượng và tạo ra thông
tin về đường đi ngay cả các trường hợp bị che khuất và phát hiện ánh sáng trong hình
ảnh của video. Trong phần này và phần sau, sẽ mô tả các mô hình tính toán trong
hướng tiếp cận này để tiến gần tới các kết quả thực sự ở trên.
Hệ thống này được thừa nhận để làm việc với thời gian thực như là một phần
trong hệ thống giám sát video cơ sở. Độ phức tạp tính toán và cả các nhân tố bất biến
của thuật toán mà chúng ta dùng ở đây là rất quan trọng cho việc thực hiện trong thời
gian thực. Do đó, cách giải quyết ở đây là chọn ra thuật toán với thời gian chạy tối ưu
nhất. Hơn nữa, việc sử dụng hệ thống này bị hạn chế chỉ với các camera tĩnh và video
đầu vào từ các camera Pan/Tilt/Zoom.
Hệ thống được khởi tạo bởi hình ảnh video từ camera tĩnh giám sát một vị trí.
Hầu hết các phương thức có thể làm việc với cả hai loại ảnh video màu và ảnh video

đen trắng. Bước đầu tiên trong hướng tiếp cận này là phân biệt các đối tượng nổi trội
từ các nền tĩnh. Để đạt được điều này, ta sử dụng một kết hợp giữa phương pháp trừ
nền và phương pháp hậu xử lý ảnh ở mức thấp để tạo ra một bản đồ điểm đặc trưng
cho mọi frame. Ta nhóm các vùng liên tục trong bản đồ đó để mở rộng các đặc trưng
cho đối tượng riêng biệt như là tạo các đường bao, các miền, điểm trung tâm của khối
hoặc biểu đồ màu (color histogram).
Điểm mới trong thuật toán phân loại đối tượng này là làm cho việc sử dụng bản
đồ các điểm đặc trưng thuộc về mỗi vùng đặc trưng để tạo ra một hình chiếu cho đối
tượng đó. Hình chiếu và điểm trung tâm của một khối của một đối tượng được sử dụng
để tạo ra một tín hiệu khoảng cách. Tín hiệu này được co dãn, được làm trở lại bình
thường và được so sánh với các nhãn tín hiệu trước đó trong cơ sở dữ liệu mẫu để
phân biệt kiểu của đối tượng. Đầu ra của bước đánh dấu được dùng để đạt được sự
thống nhất theo thời gian trong bước phân loại.
Thuật toán đánh dấu đối tượng này tận dụng các đặc trưng của đối tượng đã được
trích rút cùng với sự phối hợp phù hợp được xây dựng trong bước trước để làm cho
phù hợp với các đối tượng sau khi xảy ra trường hợp bị che khuất. Đầu ra của bước
đánh dấu là thông tin về đường đi của đối tượng được dùng để tính toán hướng và tốc
độ của các đối tượng trong cảnh.
Sau khi chắt lọc thông tin của các đặc điểm trên các đối tượng như loại, đường đi,
kích cỡ và tốc độ với mức độ riêng biệt của các mức xử lý cao, có thể được áp dụng
trên các dữ liệu đó. Một khả năng sử dụng thời gian thực là đặt cảnh báo bằng tiền
điều kiện với các vị từ như: "Một người di chuyển theo phương d với tốc độ lớn hơn s
sinh ra cảnh báo a
1
.” hoặc “một cái xe dừng lại ở một vị trí l trong khoảng thời gian
hơn t phút sinh ra cảnh báo a
2
.”. Một cách khác là ta có thể tạo ra một tham chiếu trên
dữ liệu video đã được lưu trữ cho việc tìm kiếm thông minh và độc lập. Cả hai cách


18
trên đều là các điều kiện cần thiết của hệ thống giám sát để tăng thêm thời gian cần
thiết để giám định các sự kiện.
2.1.1. Phát hiện nổi trội
Ta sử dụng phối hợp các mô hình nền và các phương pháp hậu xử lý ảnh mức
thấp để tạo ra bản đồ điểm nổi bật và trích rút các đặc trưng của đối tượng ở mỗi frame
của video. Các mô hình nền nói chung có 2 giai đoạn phân biệt trong xử lý: Khởi tạo
và cập nhật.
2.1.1.1 Mô hình trừ nền có khả năng thích ứng
Sự thực thi của thuật toán trừ nền này làm việc trên mức xám của ảnh video từ
một camera tĩnh [10]. Phương pháp trừ nền này khởi tạo một nền tham khảo với một
số frame đầu tiên của video đầu vào. Sau đó, nó trừ giá trị cường độ của mỗi điểm ảnh
trong ảnh hiện thời cho giá trị tương ứng trong ảnh nền tham khảo. Sự khác nhau này
được lọc với một ngưỡng thích hợp cho từng điểm ảnh để giải thích nguyên nhân sự
thay đổi của các điểm ảnh nhiễu.
Gọi I
n
(x) là biểu diễn của giá trị cường độ mức xám ở điểm ảnh có vị trí (x) và ở
trường hợp thứ n của dãy video I thuộc trong đoạn [0,255]. Gọi B
n
(x) là giá trị cường
độ nền tương ứng cho điểm ảnh ở vị trí (x) ước lượng theo thời gian từ ảnh video I
0

đến I
n-1
. Một điểm ảnh ở vị trí (x) trong ảnh hiện thời thuộc thành phần nổi trội nếu nó
thỏa mãn
|I
n

(x) – B
n
(x)|>T
n
(x) (2.1)
Trong đó T
n
(x) là giá trị ngưỡng có khả năng thích hợp được khởi tạo cùng với
ảnh video đầu tiên I
0
, B
0
= I
0
, và ảnh ngưỡng được khởi tạo bởi giá trị đã được xác
định trước.
Vì hệ thống này sẽ được dùng cho cả trong và ngoài nhà nên mô hình nền cần tự
thích ứng với các thay đổi động như sự thay đổi toàn bộ ánh sáng (chuyển giữa ngày
và đêm) và cập nhật nền một thời gian dài (một cái xe đỗ trước một tòa nhà). Vì thế
nền cơ sở và các ảnh ngưỡng phải được cập nhật liên tục từ các ảnh đầu vào. Sự phối
hợp cập nhật này là khác nhau đối với các vị trí điểm, chẳng hạn như một điểm x

FG
thì sẽ khác với x

BG :









FGxxIxB
BGxxIxB
xB
nn
nn
n
),()1()(
),()1()(
)(
1


(2.2)









FGxxT
BGxxBxIxT
xT
n

nnn
n
),(
),)()()(1()(
)(
1

(2.3)

19
Trong đó
 
 
0.1,0.0, 

là các hằng số chỉ ra rằng có bao nhiêu thông tin từ các
ảnh đầu vào được đẩy vào nền và các ảnh ngưỡng. Nói cách khác, nếu mỗi điểm ảnh
nền được coi như là chuỗi các lần, các ảnh nền là một giá trị trung bình của trọng số
vùng theo thời gian của chuỗi các ảnh đầu vào và ảnh ngưỡng là giá trị trung bình của
trọng số vùng của

lần khác nhau của các ảnh đầu vào và nền đó. Các giá trị α,




được định rõ qua thực nghiệm bởi các video clip ở cả bên trong và bên ngoài nhà.
Ta cập nhật nền cho tất cả các kiểu của các điểm ảnh (x

FG, x


BG). Trong
các phương pháp trừ nền, ảnh nền nguồn chỉ được cập nhật cho các điểm ảnh thuộc
nền (x

BG).
Điểm tinh vi trong việc cập nhật này là chọn ra giá trị cho

. Nếu nó quá nhỏ, các
đối tượng nổi bật sẽ dẫn đến sự phân đoạn sai lệch trong các frame sau. Cũng từ đó mà
sẽ ít có khả năng phát hiện các đối tượng đã dừng lại. Nếu nó quá lớn, các đối tượng
có thể không bao giờ được phổ biến đến ảnh nền, mô hình nền như thế sẽ không thích
hợp cho sự thay đổi thời hạn lâu dài của cảnh vật.
(a)








(b)

20
(c)
Hình 2.1 : Ví dụ về mô hình trừ nền có khả năng thích ứng
Ảnh (a) là ước lượng nền cơ sở, ảnh (b) thu được ở bước tiếp theo, ảnh (c) thể hiện
bản đồ điểm ảnh nổi trội phát hiện được bằng cách sử dụng phép trừ nền.
2.1.1.2. Mô hình hỗn hợp Gaussian tương thích

Stauffer và Grimson [44] đã trình bày mô hình hỗn hợp nền trực tuyến tương
thích có thể giải quyết đơn giản sự thay đổi của ánh sáng, các chuyển động lặp đi lặp
lại, sự hỗn loạn, các đối tượng dời đi từ các cảnh và các đối tượng chuyển động chậm.
Chuyển động của chúng ở mô hình nền đơn không thể điều khiển nhiễu, sự thay đổi
ánh sáng và sự đa dạng mặt ngoài nhận được từ ảnh đối với mỗi phần của điểm ảnh ở
cùng một thời điểm.
Trong mô hình này, các giá trị của một điểm ảnh riêng lẻ theo thời gian được coi
như là một „„xử lý điểm‟‟ và sự kiện gần đây của các điểm ảnh, {X
1
,…,X
t
}, được mô
hình bởi hỗn hợp của phân phối Gaussian K. Khả năng của việc quan sát giá trị của
điểm ảnh hiện thời trở thành:


 
 


K
i
titittit
XXP
1
,,,
,,*

(2.4)
Trong đó,


i,t
là một ước lượng trọng số thứ i của Gaussian (G
i,t
) trong hỗn hợp ở
thời điểm t,

i,t
là giá trị trung bình của G
i,t


i,t
là ma trận hợp của G
i,t


là một
hàm mật độ khả năng Gaussian:







)()(
2
1
2

1
2
1
)2(
1
),,(
tt
T
tt
XX
n
t
eX



(2.5)
Việc giải quyết trên K được quyết định bởi sự sẵn sàng của bộ nhớ và sức mạnh
của tính toán. Ngoài ra, ma trận hợp nhất được thừa nhận là mẫu sau với hiệu quả tính
toán

21

2
, ktk



I (2.6)
Nó thừa nhận ba màu thành phần red, green, blue là độc lập và có cùng biến. Thủ

tục cho việc phát hiện các điểm ảnh nổi trội cụ thể như sau. Bước đầu của hệ thống,
các phân bố Gaussian K cho một điểm ảnh được khởi tạo với giá trị trung bình được
định nghĩa trước, sự khác biệt cao và trọng số ban đầu thấp. Khi một điểm ảnh mới
được phát hiện trong dãy ảnh, xác định rõ kiểu của nó, vector RGB của nó được đánh
dấu tương phản với các Gaussian K, cho đến khi một điểm tương ứng được tìm thấy.
Một điểm tương ứng được định nghĩa như là một giá trị điểm ảnh không vượt quá
chuẩn

(=2.5) của một phân bố. tiếp theo, các trọng số chu kỳ của các phân bố K ở
thời điểm t,

k,t
được cập nhật như sau

)()1(
,1,, tktktk
M



(2.7)
Trong đó α là tỷ lệ và M
k,t
bằng 1 tương ứng với phân bố Gaussian và bằng 0
tương ứng với các phân bố còn lại. Sau bước này, các trọng số ban đầu của các phân
bố được bình thường hóa và các tham biến của Gaussian phù hợp được cập nhật với sự
theo dõi mới như sau :

)()1(
1 ttt

X



(2.8)


)()()1(
2
1
2
tt
T
tttt
XX



(2.9)
Trong đó :

),|(
kkt
X


(2.10)
Nếu không tìm thấy điểm ảnh tương tự cho điểm ảnh theo dõi mới, phân bố
Gaussian với khả năng thấp nhất được thay đổi với một phân bố mới với giá trị điểm
ảnh hiện thời như là giá trị trung bình của nó, khởi tạo với sự khác biệt cao và trọng số

ban đầu thấp.
Để phát hiện ra kiểu của điểm ảnh mới, các phân bố Gaussian K được sắp xếp
theo giá trị của

/

. Danh sách đã sắp xếp của các phân bố này tương ứng với hầu
hết các nền có khả năng từ đỉnh tới đáy trong công thức (2.7), các xử lý điểm ảnh nền
thực hiện phân bố Gaussian tương ứng khi khởi tạo với giá trị trọng số ban đầu lớn và
sự cách biệt nhỏ






22












(a) (b)

Hình 2.2 : Hai cách nhìn khác nhau về một ví dụ xử lý điểm
Khi đó các phân bố B đầu tiên được chọn như là mô hình nền, trong đó :
B=argmin
b









b
k
k
T
1

(2.11)
Và T là phần nhỏ nhất của dữ liệu điểm ảnh được cho là của nền. Nếu một giá trị
nhỏ được chọn cho T, nền thường được mô hình thống nhất.
2.1.1.3. Sự khác biệt theo thời gian
Sự khác biệt theo thời gian làm cho việc sử dụng các mức độ khác nhau của điểm
ảnh giữa hai hoặc ba frame liên tiếp trong video để trích rút các vùng chuyển động. Nó
là một hướng tiếp cận phù hợp cho sự thay đổi các cảnh động. Như vậy, nó sai khi
trích rút tất cả các điểm ảnh liên quan của một đối tượng nổi trội, nhất là khi đối tượng
đó có kết cấu thống nhất hoặc chuyển động chậm. Khi một đối tượng dừng chuyển
động, phương pháp khác biệt theo thời gian sai khi phát hiện sự thay đổi giữa các
frame liên tiếp và để mất đối tượng. Các thuật toán hỗ trợ đặc biệt được yêu cầu để

phát hiện các đối tượng dừng lại.
Ta bổ sung thêm phương pháp sự khác biệt theo thời gian thêm 2 frame trong hệ
thống này. Đặt I
n
(x) là giá trị cường độ của mức xám của pixel ở vị trí (x) và ở thời
điểm n của dãy ảnh video I thuộc vào đoạn [0, 255]. Sự phối hợp khác biệt theo thời
gian của 2 frame này đề nghị thừa nhận là một điểm ảnh đang chuyển động nếu nó
thỏa mãn như sau

)()()(
1
xTxIxI
nnn


(2.12)

×