Tải bản đầy đủ (.pdf) (56 trang)

Nghiên cứu phát hiện hành vi bạo lực từ dữ liệu video (LV thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.64 MB, 56 trang )

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------

HÀ MAI HUYỀN TRANG

NGHIÊN CỨU PHÁT HIỆN HÀNH VI BẠO LỰC
TỪ DỮ LIỆU VIDEO

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI - 2017


HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------

Hà Mai Huyền Trang

NGHIÊN CỨU PHÁT HIỆN HÀNH VI BẠO LỰC
TỪ DỮ LIỆU VIDEO

Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS. TS Phạm Văn Cường

HÀ NỘI - 2017




i

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bất kỳ công trình nào khác.

Hà Mai Huyền Trang


ii

MỤC LỤC
Chƣơng 1 - TỔNG QUAN VỀ PHÁT HIỆN BẠO LỰC ......................................... 3
1.1 Tại sao cần tự động phát hiện cảnh bạo lực ............................................................ 3
1.2 Các nghiên cứu trước đây ....................................................................................... 8
1.3 Kết chương ............................................................................................................ 12
Chƣơng 2 - PHƢƠNG PHÁP PHÁT HIỆN HÀNH VI BẠO LỰC ....................... 13
2.1 Tiền xử lý video .................................................................................................... 13
2.1.1 Tổng quan về video ........................................................................................ 13
2.1.2 Nhị phân ảnh................................................................................................... 14
2.1.3 Phương pháp trừ nền ...................................................................................... 16
2.1.4 Khử nhiễu ....................................................................................................... 17
2.2 Trích chọn các đặc trưng ...................................................................................... 18
2.2.1 Lược đồ màu (Histogram) .............................................................................. 18
2.2.2 Đặc trưng HOG .............................................................................................. 20
2.2.3 MeanShift ....................................................................................................... 25

2.3 Thuật toán phát hiện hành vi bạo lực .................................................................... 27
2.3.1 Xác định khung hình bóng của người ............................................................ 29
2.3.2 Theo dõi hộp di chuyển của đầu ..................................................................... 31
2.3.3 Tính vector gia tốc và độ phản xạ .................................................................. 31
2.3.4 Tính toán hướng tay chân ............................................................................... 33
2.3.5 Nhận dạng hành vi không phải là bạo lực ...................................................... 33
2.4 Kết chương ............................................................................................................ 34
Chƣơng 3 - THỬ NGHIỆM VÀ ĐÁNH GIÁ ........................................................... 35
3.1 Tập dữ liệu thử nghiệm ......................................................................................... 35
3.2 Phân tích và đánh giá ............................................................................................ 40
3.3 Thảo luận và kết chương....................................................................................... 44
DANH MỤC TÀI LIỆU THAM KHẢO.................................................................... 47


iii

DANH MỤC HÌNH ẢNH
Hình 1.1. Bạo lực xảy ra trên đường phố ........................................................................ 3
Hình 1.2. Khủng bố trên đường phố ............................................................................... 4
Hình 1.3. Bạo lực xảy ra tại nơi công cộng..................................................................... 4
Hình 1.4. Bạo lực xảy ra nơi công cộng.......................................................................... 5
Hình 1.5. Bạo lực trong nhà tù ........................................................................................ 6
Hình 1.6. Hành vi bạo lực học đường ............................................................................. 7
Hình 1.7. Chương trình truyền hình có yếu tố bạo lực ................................................... 7
Hình 1.8. Cảnh bạo lực trong phim ................................................................................. 8
Hình 1.9. Bạo lực học đường .......................................................................................... 9
Hình 1.10. Đánh nhau tại ga tàu điện ngầm .................................................................. 10
Hình 1.11. Đám đông bạo loạn sau trận đấu ................................................................. 11
Hình 2.1. Các khung hình ............................................................................................. 13
Hình 2.2. Đoạn cơ sở..................................................................................................... 13

Hình 2.3. Nhị phân ảnh ................................................................................................. 15
Hình 2.4. Histogram của một bức ảnh .......................................................................... 19
Hình 2.5. R-HOG và C-HOG ........................................................................................ 21
Hình 2.6. Mỗi khối (block) gồm nhiều ô (cell). Ví dụ trong hình trên ta thấy một
khối gồm 9 ô.................................................................................................................. 22
Hình 2.7. Các khối được xếp chồng lên nhau ............................................................... 22
Hình 2.8. Quá trình hoạt động của thuật toán Mean-shift............................................ 26
Hình 2.9. Theo vết bằng phương pháp Mean-shift ....................................................... 27
Hình 2.10. Sơ đồ thuật toán........................................................................................... 28
Hình 2.11. Hình ảnh bóng của đối tượng ...................................................................... 29
Hình 2.12. Bóng của đối tượng được chia làm 3 phần ................................................. 30
Hình 2.13. Chiếu H1 ..................................................................................................... 30
Hình 2.14. Theo dõi đường di chuyển của phần đầu .................................................... 31
Hình 2.15. Xác định hướng tay chân của đối tượng ..................................................... 33
Hình 3.1. Dữ liệu thử nghiệm có hành vi bạo lực ......................................................... 35


iv

Hình 3.2. Dữ liệu thử nghiệm có hành vi bạo lực ......................................................... 35
Hình 3.3. Dữ liệu thử nghiệm có hành vi bạo lực ......................................................... 36
Hình 3.4. Dữ liệu thử nghiệm có hành vi bạo lực ......................................................... 36
Hình 3.5. Dữ liệu thử nghiệm có hành vi bạo lực ......................................................... 37
Hình 3.6. Dữ liệu thử nghiệm có hành vi bạo lực ......................................................... 37
Hình 3.7. Dữ liệu thử nghiệm có hành vi bạo lực ......................................................... 38
Hình 3.8. Dữ liệu thử nghiệm không có hành vi bạo lực .............................................. 38
Hình 3.9. Dữ liệu thử nghiệm không có hành vi bạo lực .............................................. 39
Hình 3.10. Tập dữ liệu thử nghiệm của chương trình ................................................... 40
Hình 3.11. Giao diện chương trình ............................................................................... 42
Hình 3.12. Thông báo kết quả của chương trình ........................................................... 43

Hình 3.13. Quá trình xử lý video của chương trình ...................................................... 44


v

DANH MỤC BẢNG
Bảng 3.1. Ma trận nhầm lẫn……………………………………….…………….40


vi

DANH MỤC CHỮ VIẾT TẮT
Từ viết tắt

Nội dung

HoG

Histogram of gradient

SVM

Support Vector Machines

AVM

Acceleration Measure Vector

CCTV


Closed-circuit television


1

MỞ ĐẦU
1. Lý do chọn đề tài:
Bạo lực là sức mạnh được dùng với mục đích cưỡng ép, hay trấn áp. Vì vậy
cho nên dù được sử dụng dưới bất kỳ hình thức nào, bạo lực đều có tính tiêu cực.
Khi bất cứ ai bị cưỡng ép hay trấn áp, người ta đều phản đối hay kháng cự lại bằng
cách này hay cách khác.
Việc phát hiện hành vi bạo lực của con người đối với con người trong dữ liệu
video có nhiều lợi ích kể cả trên hệ thống camera trực tuyến lẫn trong phân tích dữ
liệu phim ảnh. Với hệ thống camera trực tuyến, việc phát hiện hành vi bạo lực cần
triển khai ở những khu vực cần sự ôn hòa như: trường học, sân bay... Trong phân
tích dữ liệu phim ảnh, việc phát hiện hành vi bạo lực giúp bảo vệ trẻ em khỏi những
cảnh bạo lực.
Với mục đích đưa những tiến bộ công nghệ vào phục vụ cho cuộc sống, tôi
xin chọn đề tài nghiên cứu “Nghiên cứu phát hiện hành vi bạo lực từ dữ liệu video”.

2. Tổng quan về vấn đề nghiên cứu:
Để phát hiện hành vi bạo lực trong video, mô hình do N. Vasconcelos,
Lippman đề xuất trong bài báo “Towards Semantically Meaningful Feature Spaces
for the Characterization of Video Content”. ICIP 1997, Vol. 1, trang 25-28 để bắt
được những hình ảnh bạo lực, thô tục. Tuy nhiên mô hình này chỉ bắt được các hoạt
động chứ không thể phân biệt được các hoạt động thể thao với hành vi bạo lực.
Nghiên cứu của Nam, J., Alghoniemy, M., “Audio-visual content- based
violent scene characterization”, ICIP 98, trang 353-357 cố gắng bắt được mức độ
của chuyển động bằng cách nhìn vào các hoạt động và chiều dành các frame ảnh
cùng với tín hiệu âm thanh. Hệ thống này cần có những mẫu âm thanh liên quan đến

bạo lực đến nhận biết.


2

3. Mục đích nghiên cứu:
Nghiên cứu đề xuất một phương pháp phát hiện hành vi bạo lực giữa người
với người từ dữ liệu video.

4. Đối tượng và phạm vi nghiên cứu:
Đối tượng nghiên cứu: Luận văn tập trung vào nghiên cứu giải quyết bài toán
nhận dạng hành vi bạo lực của con người với nhau trong dữ liệu video.
Phạm vi nghiên cứu của đề tài chỉ tập trung vào việc phát hiện hành vi bạo
lực trong dữ liệu video đầu vào chỉ có hai người.

5. Phương pháp nghiên cứu:
Phƣơng pháp nghiên cứu lý thuyết:
- Phương pháp phân tích và tổng hợp lý thuyết: Nghiên cứu các tài liệu, lý
luận khác nhau liên quan đề phát hiện hành vi bạo lực từ video đầu vào bằng cách
phân tích chúng thành từng bộ phận để tìm hiểu sâu sắc về đối tượng; Liên kết từng
mặt, từng bộ phận thông tin đã được phân tích tạo ra một hệ thông lý thuyết mới
đầy đủ và sâu sắc về đối tượng.
- Phương pháp mô hình hóa: nghiên cứu các đối tượng bằng xây dựng gần
giống với đối tợng, tái hiện lại đối tượng theo các cơ cấu, chức năng của đối tượng.

Phƣơng pháp nghiên cứu thực tiễn
- Phân tích tổng kết kinh nghiệm: xem xét lại những thành quả thực tiễn
trong quá khứ để rút ra kết luận bổ ích cho thực tiễn và khoa học.
- Phương pháp chuyên gia: tham khảo ý kiến của đội ngũ chuyên gia để xem
xét nhận định bản chất của đối tượng, tìm ra một giải pháp tối ưu.



3

Chƣơng 1 - TỔNG QUAN VỀ PHÁT HIỆN BẠO LỰC
1.1 Tại sao cần tự động phát hiện cảnh bạo lực
Hành vi bạo lực trong cộng đồng luôn bị lên án, không chỉ bởi sự ảnh hưởng
của nó đến tinh thần người bị hại như: luôn ám ảnh bởi bạo lực; chán nản, buồn rầu,
lo lắng, sợ hãi, mất tự tin, hoang mang, trầm cảm; cảm thấy cuộc sống nặng nề,
căng thẳng và tuyệt vọng; mà còn bởi những gì nó để lại về mặt thể chất sau đó như:
sức khỏe bị hủy hoại, thương tích dẫn đến khuyết tật suốt đời, thậm chí tử vong. Ở
khía cạnh xã hội, hành vi bạo lực của con người là nguyên nhân phá hỏng các mối
quan hệ xã hội, làm mất đi các tế bào xã hội – gia đình, hơn thế chính bạo lực sẽ
làm giảm sự đóng góp của nạn nhân và người gây bạo lực đối với xã hội, tạo ra lực
lượng lao động tương lai có thể chất và tinh thần yếu, thiếu sáng tạo. Nếu không xử
lý triệt để, xã hội sẽ vô hình chung chấp nhận và dung túng cho bạo lực tồn tại.
Đáng lo hơn cả đó là sự tồn tại của bạo lực trong xã hội chính là mầm mống của
khủng bố, có một ranh giới rất mong manh giữa bạo lực thuần tuý và khủng bố.
Trong thời gian hiện nay, có thể nói vấn nạn khủng bố đang là mối đe dọa hàng đầu
của các quốc gia trên thế giới, trong đó có Việt Nam.

Hình 1.1. Bạo lực xảy ra trên đường phố


4

Hình 1.2. Khủng bố trên đường phố

Hiện tượng bạo lực có thể diễn ra ở khắp nơi, song nhiều nhất vẫn là ở những
nơi công cộng như cơ quan, trường học, sân bay, bến xe, trên đường phố …

Việc phát hiện hành vi bạo lực hiện này chỉ được thực hiện thông qua việc tố
giác của người dân hoặc dựa trên thông tin của cơ quan có thẩm quyền, hoàn toàn
không có sự chủ động phát hiện kịp thời. Vì vậy, phần lớn các vụ đều để lại ít nhiều
hậu quả, tùy thuộc vào việc can thiệp nhanh hay chậm của cơ quan có thẩm quyền.
Thậm chí, có những vụ xảy ra từ lâu sau đó mới được phát hiện do người dân trình
báo.

Hình 1.3. Bạo lực xảy ra tại nơi công cộng


5

Hình 1.4. Bạo lực xảy ra nơi công cộng

Đối với hành vi đánh nhau, gây thương tích, gây rối trật tự công cộng… Nhà
nước đã có các quy định về xử lý hành chính và hình sự. Những quy định, chế tài đã
được đưa ra và thực hiện. Tuy nhiên, mức độ giáo dục, răn đe của chúng trong xã
hội Việt Nam hiện nay chưa cao nên hành vi bạo lực vẫn xảy ra. Song song đó, việc
phát hiện hành vi bạo lực thường quá muộn nên các biện pháp ngăn chặn thường vô
hiệu, dẫn đến việc vẫn để lại những hậu quả đáng tiếc cho xã hội. Bên cạnh giải
pháp về giáo dục, một trong những biện pháp hiệu quả để giảm thiểu sự tác động
của bạo lực đến xã hội chính là việc phát hiện hành vi bạo lực ngay khi nó mới
chớm, không để nó kéo dài đủ lâu gây ra hậu quả đáng tiếc. Việc phát hiện sớm
nhất hành vi bạo lực ở nơi công cộng chính là căn cứ để cơ quan an ninh thực hiện
các biện pháp ngăn chặn kịp thời, thu hẹp phạm vi bạo lực xảy ra cũng như hạn chế
tối đa hậu quả.


6


Hình 1.5. Bạo lực trong nhà tù

Bạo lực là sức mạnh được dùng với mục đích cưỡng ép, hay trấn áp. Vì vậy
cho nên dù được sử dụng dưới bất kỳ hình thức nào, bạo lực đều có tính tiêu cực.
Khi bất cứ ai bị cưỡng ép hay trấn áp, người ta đều phản đối hay kháng cự lại bằng
cách này hay cách khác.
Mặc dù các camera giám sát hiện đang được sử dụng rộng rãi nhằm hạn chế
các hành vi bạo lực cũng như đảm bảo an toàn, nhưng hiệu quả chưa cao do còn sử
dụng sức người. Con người phải trực tiếp quan sát camera, phát hiện và cảnh báo
24/24 mới đảm bảo yêu cầu đề ra. Điều này chính là trở ngại lớn. Ở đây, việc phát
hiện bạo lực về bản chất là giám sát các sự kiện thường có bạo động và cảnh báo
nếu có dấu hiệu xảy ra. Những cảnh như vậy đòi hỏi một giám sát viên phải giám
sát nhiều màn hình video, cảnh báo sớm nhất có thể. Điều này gây ra nhiều bất cập
về nhân lực cũng như chất lượng công việc khi chỉ dựa vào cảm quan của con người
trong quan sát là chủ yếu.


7

Hình 1.6. Hành vi bạo lực học đường

Việc phát hiện hành vi bạo lực của con người đối với con người trong dữ liệu
video có nhiều lợi ích kể cả trên hệ thống camera trực tuyến lẫn trong phân tích dữ
liệu phim ảnh. Với hệ thống camera trực tuyến, việc phát hiện hành vi bạo lực cần
triển khai ở những khu vực cần sự ôn hòa như: trường học, sân bay... Trong phân
tích dữ liệu phim ảnh, việc phát hiện hành vi bạo lực giúp bảo vệ trẻ em khỏi những
cảnh bạo lực khi mà hiện nay việc kiểm soát chúng với các thiết bị nghe nhìn là rất
khó.

Hình 1.7. Chương trình truyền hình có yếu tố bạo lực



8

1.2 Các nghiên cứu trƣớc đây
Phát hiện hành vi bạo lực trong video đã được quan tâm nghiên cứu từ vài
năm trước đây. Chẳng hạn, Nam và cộng sự [11] đã đề xuất phương pháp phát hiện
cảnh bạo lực trong các video dựa trên phát hiện lửa và máu, xác định tốc độ di
chuyển cũng như những âm thanh đặc trưng do hành vi bạo lực tạo ra. Họ trình bày
kỹ thuật để mô tả và chỉ ra các cảnh bạo lực trong các bộ phim. Mục tiêu của họ là
xác định các dấu hiệu bạo lực và cục bộ hoá các sự kiện bạo lực trong một bộ phim
để hỗ trợ lập chỉ mục video. Cụ thể, họ khai thác nhiều dấu hiệu do “nghe nhìn” một
cách cảm quan đối với các cảnh bạo lực. Mục đích chính của nghiên cứu là tự động
ngăn chặn bạo lực trong phim dành cho trẻ em, che giấu bạo lực bằng cách sử dụng
dữ liệu ẩn hoặc lọc thông tin và phân loại cơ sở dữ liệu video kỹ thuật số.

Hình 1.8. Cảnh bạo lực trong phim

Giannakopoulos và cộng sự [1] cũng đã đề xuất phương pháp phát hiện bạo
lực dựa trên âm thanh để phân loại đoạn video là “bạo lực” hoặc “không bạo lực”.
Nghiên cứu này thực nghiệm và đánh giá thực nghiệm dựa trên một bộ dữ liệu thực
gồm 10 bộ phim.


9

Zajdel và cộng sự [7] đã giới thiệu hệ thống CASSANDRA, trong đó sử
dụng các thuộc tính chuyển động liên quan đến tạo âm thanh trong video, ví dụ như
âm thanh la hét để phát hiện hành vi bạo lực trong video giám sát. Bài báo này trình
bày một hệ thống giám sát thông minh mang tên CASSANDRA, nhằm phát hiện

các hành vi hung hăng của con người trong môi trường công cộng. Một khía cạnh
khác CASSANDRA khai thác cảm nhận âm thanh và video để phân loại hoạt động
trong môi trường thực tế. Hệ thống mẫu thử nghiệm của họ được xây dựng dựa trên
một loạt các kịch bản được thực hiện bởi các diễn viên chuyên nghiệp tại một ga tàu
thực tế để đảm bảo cài đặt tiếng ồn và âm thanh trong thực tế.

Hình 1.9. Bạo lực học đường

Vì lo ngại về vấn đề an toàn, công nghệ giám sát ngày càng được sử dụng để
giúp bảo vệ các không gian công cộng như nhà ga, trung tâm mua sắm, góc phố…
Các hệ thống giám sát truyền thống yêu cầu con người phải theo dõi dựa trên màn
hình CCTV để xác định các sự kiện cụ thể xảy ra. Các công trình nghiên cứu xây
dựng các hệ thống cảnh báo tự động trên cần có các tín hiệu âm thanh do hành vi
bạo lực gây ra hoặc dựa vào màu sắc để phát hiện như máu. Tuy nhiên việc phát
hiện là bất khả thi ở những nơi mà âm thanh không có sẵn và nơi video là màu xám.
Ngoài ra, trong các vụ nổ, xuất hiện máu và tính toán tốc độ di chuyển của đối


10

tượng chỉ hữu dụng để xác định hành vi bạo lực trong phim hành động, rất hiếm
trong video giám sát thực tế.

Hình 1.10. Đánh nhau tại ga tàu điện ngầm

Ngoài ra, để phát hiện hành vi bạo lực trong video, mô hình do N.
Vasconcelos và Lippman [3] đề xuất sử dụng những hình ảnh có thuộc tính bạo lực,
thô tục. Tuy nhiên mô hình này chỉ bắt được các hoạt động lạ của con người, vẫn
còn nhầm lẫn giữa hoạt động thể thao và hành vi bạo lực.
Nghiên cứu [5] cho rằng việc nhận dạng hành động tập trung chủ yếu vào

việc phát hiện các hành động đơn giản như vỗ tay, đi bộ hoặc chạy bộ, việc phát
hiện các cuộc chiến hoặc các hành vi hung hăng đã được nghiên cứu tương đối ít
hơn. Tuy nhiên, việc phát hiện này lại hữu ích trong giám sát tại một số khu vực
như ở nhà tù, trung tâm tâm thần hoặc người cao tuổi hoặc ngay cả trong điện thoại
camera. Nghiên cứu của họ dựa trên hai bộ mô tả hành động hiện có: STIP và
MoSIFT. Để đánh giá và thúc đẩy nghiên cứu về phát hiện bạo lực trong video, họ
còn giới thiệu một cơ sở dữ liệu video mới có chứa 1000 video được chia thành hai


11

nhóm: chiến đấu và không đấu. Các thí nghiệm trên cơ sở dữ liệu này và một cuộc
chiến khác từ những bộ phim hành động cho thấy các cuộc chiến có thể được phát
hiện gần 90% độ chính xác. Phương pháp này gặp phải vấn đề đó là: phân tích dựa
trên thống kê số lượng hành vi hơn là mức độ của hành vi. Do đó, chỉ dừng lại ở
việc xác định dữ liệu này có liên quan đến bạo lực hay không, mà không thể xác
định được ai đánh ai, có sử dụng vũ khí hay không, mức độ hành vi bạo lực như thế
nào? Những câu hỏi này chỉ trả lời được bằng cách xác định mức độ của hành vi.
Ngoài ra, [7] mô tả một cách tiếp cận mới để phát bạo lực trong những cảnh
đông đúc. Phương pháp này dựa trên số liệu thống kê về độ lớn của vector thay đổi
theo thời gian như thế nào. Các số liệu thống kê này, được thu thập cho các chuỗi
ngắn, được trình bày trong bộ mô tả VIolent Flows (ViF).

Hình 1.11. Đám đông bạo loạn sau trận đấu

Bộ mô tả ViF sau đó được phân loại: bạo lực hoặc không bạo lực bằng cách
sử dụng SVM tuyến tính. Ngoài ra, nhóm tác giả này còn trình bày một bộ dữ liệu
độc đáo của các video giám sát trên thế giới, cùng với các chuẩn được thiết kế để
kiểm tra phân loại bạo lực / không bạo lực, cũng như độ chính xác trên thời gian
thực. Cuối cùng, họ cung cấp các kiểm nghiệm thực nghiệm, so sánh phương pháp

với các kỹ thuật hiện đại, và chứng minh hiệu quả của nó.


12

1.3 Kết chƣơng
Hành vi bạo lực gây ra nhiều tổn hại đến đời sống con người. Việc phát hiện
và cảnh báo hành vi bạo lực hiện nay chưa đáp ứng được đòi hỏi thực tế. Do đó, khi
bạo lực xảy ra thường để lại hậu quả đáng tiếc. Bài toán phát hiện bạo lực từ dữ liệu
video đang được quan tâm hiện nay vì tính thực tiễn của nó. Tự động phát hiện bạo
lực giúp tiết kiệm nhân lực, hiệu quả trong việc hạn chế tối đa thiệt hại do bạo lực
gây ra. Đã có nhiều công bố liên quan đến phát hiện bạo lực từ dữ liệu video, tuy
nhiên ở mỗi công bố đều có những vấn đề còn tồn tại. Phần lớn các nghiên cứu
thường dựa trên âm thanh và màu sắc để xác định hành vi bạo lực. Tuy nhiên, trong
điều kiện thực tế với ảnh xám hoặc không có âm thanh thì không thể áp dụng được.
Ngoài ra, có một số nghiên cứu phát hiện bạo lực trong đám đông nhưng những
nghiên cứu như thế rất hiếm hoi.


13

Chƣơng 2 - PHƢƠNG PHÁP PHÁT HIỆN HÀNH VI BẠO
LỰC
2.1 Tiền xử lý video
2.1.1 Tổng quan về video
Video số hay video là tập hợp các khung hình được đặt lien tiếp nhau, mỗi
khung hình là một ảnh số. Video được tạo nên bởi chuỗi các ảnh tĩnh. Một chuỗi
các khung tĩnh đặt cạnh nhau tạo nên các cảnh phim chuyển động, Một khung đơn
là một ảnh tĩnh.


Hình 2.1. Các khung hình

Khung hình là đơn vị cơ bản nhất của dữ liệu video.
Shot (lia): là đơn vị cơ sở của video. Một lia là một đơn vị vật lý của dòng
video, gồm các chuỗi một hay nhiều khung hình lien tiếp, không thể chia nhỏ hơn,
ứng với một thao tác camera đơn. Nhưng khung hình này lien tiếp theo thời gian mô
tả một hành động lien tục,và được giới hạn bởi 2 chuyển cảnh.

Hình 2.2. Đoạn cơ sở


14

Một đoạn video có thể có nhiều đoạn cơ sở, mà cũng có thể chỉ là một đoạn
cơ sở. Những đoạn cơ sở đại diện cho toàn bộ đoạn video, và truy xuất đến chúng
cũng coi như truy xuất đến chính đoạn video.
Scene (cảnh): là các đơn vị logic của dòng video, một cảnh gồm một hay
nhiều shot lien quan đến nhau về không gian và liền kề về thời gian, cùng mô tả một
nội dung ngữ nghĩa hoặc một tình tiết.

2.1.2 Nhị phân ảnh
Ảnh nhận được từ các thiết bị thu nhận hình ảnh như máy ảnh hay camera
thường là ảnh màu hay ảnh đa cấp xám, các thành phần trong ảnh rất là phức tạp
(màu sắc, kết cấu…). Do đó, muốn làm nổi bật các đặc trưng trong ảnh thì phải
chuyển về dạng ảnh nhị phân, ảnh chỉ có hai màu (đen và trắng)- tương ứng với nền
và tiền cảnh (đối tượng “quan tâm”). Nhị phân ảnh (hay còn gọi là nhị phân
ngưỡng) là thao tác chuyển từ ảnh đa cấp xám (hoặc ảnh màu) về ảnh nhị phân
Thuật toán nhị phân ảnh
Input: ảnh màu hoặc ảnh đa cấp xám
Output: ảnh nhị phân

1. Xác định ngưỡng T
2. Chuyển ảnh về dạng nhi phân
Như vậy, cơ bản của thuật toán nhị phân ảnh là xác định ngưỡng T để phân
tách giữa nền và đối tượng trong ảnh.
Giả sử với ảnh đầu vào I(x,y) có giá trị tại điểm (x,y) là g(x,y) (đối với ảnh
đa cấp xám: g(x,y)

[0,255]). Khi đó giá trị của điểm ảnh (x,y) trong ảnh nhị phân

I‟(x,y) sẽ xác định như sau:
Công thức để nhị phân ảnh là đặt tất cả các giá trị của ảnh xám về 0 nếu
chúng bé hơn một ngưỡng T cho trước và về 255 nếu chúng lớn hơn ngưỡng T đó:


15

g'(x,y)

=

{

(2.1)

Việc xác định một ngưỡng T thích hợp luôn là một quá trình khó khăn và dễ
gây ra lỗi. Điều này sẽ đặc biệt khó khăn khi độ tương phản giữa các đối tượng và
nền thấp hay khi ảnh có độ chiếu sang không đồng đều khi thu nhận. Nếu ngưỡng T
quá thấp thì các đối tượng thu được có thể bị xóa mất các chi tiết của ảnh, ngược lại
nếu ngưỡng T quá cao thì có thể chứa các điểm ảnh nhiễu.


Hình 2.3. Nhị phân ảnh

Có rất nhiều phương pháp để xác định ngưỡng T. Ngưỡng T có thể được xác
định cho toàn bộ ảnh (ngưỡng tổng quát) hay được xác định cho mỗi điểm ảnh cụ
thể (ngưỡng cục bộ).


16

2.1.3 Phương pháp trừ nền
Thuật toán trừ nền xác định mức xám của ảnh Video từ một camera tĩnh.
Phương pháp trừ nền này khởi tạo một nền tham khảo với một số frame đầu tiên của
Video đầu vào. Sau đó, nó trừ giá trị cường độ của mỗi điểm ảnh trong ảnh hiện
thời cho giá trị tương ứng trong ảnh nền tham khảo.
Gọi In(x) là biểu diễn của giá trị cường độ mức xám ở điểm ảnh có vị trí (x)
và ở trường hợp thứ n của dãy Video I thuộc trong đoạn [0, 255]. Gọi Bn(x) là giá trị
cường độ nền tương ứng cho điểm ảnh ở vị trí (x) ước lượng theo thời gian từ ảnh
Video I0 đến In-1. Một điểm ảnh ở vị trí (x) trong ảnh hiện thời thuộc thành phần nổi
trội nếu nó thỏa mãn: |In(x) – Bn(x)| > Tn(x)
Trong đó Tn(x) là giá trị ngưỡng có khả năng thích hợp được khởi tạo cùng
với ảnh Video đầu tiên I0, B0 = I0, và ngưỡng được khởi tạo bởi giá trị đã được xác
định trước. Nền cơ sở và các ảnh ngưỡng phải được cập nhật liên tục từ các ảnh đầu
vào. Sự phối hợp cập nhật này là khác nhau đối với các vị trí điểm, chẳng hạn như
một điểm x ∈ FG thì sẽ khác với x ∈ BG :



Bn+1(x)= {

Tn+1(x)=


{

|

|





(2.2)

Trong đó α,β(∈[0.0,1.0]) là các hằng số chỉ ra rằng có bao nhiêu thông tin từ
các ảnh vào được đẩy vào nền và các ảnh ngưỡng. Nói cách khác, nếu mỗi điểm ảnh
nền được coi như là chuỗi các lần, các ảnh nền là một giá trị trung bình của trọng số
vùng theo thời gian của chuỗi các ảnh đầu vào và ảnh ngưỡng là giá trị trung bình
của trọng số vùng của γ lần khác nhau của các ảnh đầu vào và nền đó.
Thuật toán trừ nền:


17

Input: ảnh nền B, ảnh hiện tại I và ma trận ngưỡng T
Output: ảnh M là mặt nạ chuyển động
m:=getHeight(M);
n:=getWidth(M);
for x:=1 to m do
for y:=1 to n do if | B[x,y]-I[x,y] | > T[x,y]
then M[x,y]:=255;

else M[x,y]:=0;
Thuật toán cập nhật nền:
Input: nền B, ảnh hiện tại I và mặt nạ chuyển động M
Output: nền B được cập nhật lại
m:=getHeight(B);
n:=getWidth(B);
for x:=1 to m do
for y:=1 to n do if M[x,y]=0
then B[x,y]:=α*B[x,y]+(1-α)*B[x,y];

2.1.4 Khử nhiễu
Khử nhiễu là việc loai bỏ các thành phần làm biến dạng hình ảnh. Tùy thuộc
việc thu nhận hay xử lý ảnh mà tính chất của nhiễu trên ảnh có thể khác nhau.
Nhiễu là một tập các điểm sáng thừa trên ảnh. Khử nhiễu là một vấn đề
thường gặp trong nhận dạng, nhiễu có nhiều loại (nhiễu đốm, nhiễu vệt, nhiễu đứt
nét...).
Để khử các nhiễu đốm (các nhiễu với kích thước nhỏ), có thể sử dụng các


×