Nghiên cứu phát hiện hành vi bạo lực từ dữ liệu video (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (564.49 KB, 16 trang )

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
---------------------------------------

HÀ MAI HUYỀN TRANG

NGHIÊN CỨU PHÁT HIỆN HÀNH VI BẠO LỰC
TỪ DỮ LIỆU VIDEO

CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN
MÃ SỐ

: 60.48.01.04

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2017

Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: PGS. TS Phạm Văn Cƣờng

Phản biện 1: ……………………………………………...
Phản biện 2: ……………………………………………...

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc
sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ........
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

1
MỞ ĐẦU
Bạo lực là sức mạnh được dùng với mục đích cưỡng ép, hay
trấn áp. Vì vậy cho nên dù được sử dụng dưới bất kỳ hình thức nào,
bạo lực đều có tính tiêu cực. Khi bất cứ ai bị cưỡng ép hay trấn áp,
người ta đều phản đối hay kháng cự lại bằng cách này hay cách khác.
Việc phát hiện hành vi bạo lực của con người đối với con
người trong dữ liệu video có nhiều lợi ích kể cả trên hệ thống camera
trực tuyến lẫn trong phân tích dữ liệu phim ảnh. Với hệ thống camera
trực tuyến, việc phát hiện hành vi bạo lực cần triển khai ở những khu
vực cần sự ôn hòa như: trường học, sân bay... Trong phân tích dữ
liệu phim ảnh, việc phát hiện hành vi bạo lực giúp bảo vệ trẻ em khỏi
những cảnh bạo lực.
Với mục đích đưa những tiến bộ công nghệ vào phục vụ cho
cuộc sống, tôi xin chọn đề tài nghiên cứu “Nghiên cứu phát hiện
hành vi bạo lực từ dữ liệu video”.

2
CHƢƠNG 1 – TỔNG QUAN VỀ PHÁT HIỆN BẠO LỰC
1.1 Tại sao cần tự động phát hiện cảnh bạo lực
Mặc dù các camera giám sát hiện đang được sử dụng rộng
rãi nhằm hạn chế các hành vi bạo lực cũng như đảm bảo an toàn,
nhưng hiệu quả chưa cao do còn sử dụng sức người. Con người phải
trực tiếp quan sát camera, phát hiện và cảnh báo 24/24 mới đảm bảo
yêu cầu đề ra. Điều này chính là trở ngại lớn. Ở đây, việc phát hiện
bạo lực về bản chất là giám sát các sự kiện thường có bạo động và
cảnh báo nếu có dấu hiệu xảy ra. Những cảnh như vậy đòi hỏi một

giám sát viên phải giám sát nhiều màn hình video, cảnh báo sớm
nhất có thể. Điều này gây ra nhiều bất cập về nhân lực cũng như chất
lượng công việc khi chỉ dựa vào cảm quan của con người trong quan
sát là chủ yếu.
1.2 Các nghiên cứu trƣớc đây
Phần lớn các nghiên cứu thường dựa trên âm thanh và màu
sắc để xác định hành vi bạo lực. Tuy nhiên, trong điều kiện thực tế
với ảnh xám hoặc không có âm thanh thì không thể áp dụng được.
Ngoài ra, có một số nghiên cứu phát hiện bạo lực trong đám đông
nhưng những nghiên cứu như thế rất hiếm hoi.
1.3 Kết chƣơng

3
CHƢƠNG 2 – PHƢƠNG PHÁP PHÁT HIỆN HÀNH VI BẠO
LỰC
2.1 Tiền xử lý video
2.1.1 Tổng quan về video
2.1.2 Nhị phân ảnh
2.1.3 Phƣơng pháp trừ nền
Thuật toán trừ nền xác định mức xám của ảnh Video từ một
camera tĩnh. Phương pháp trừ nền này khởi tạo một nền tham khảo
với một số frame đầu tiên của Video đầu vào. Sau đó, nó trừ giá trị
cường độ của mỗi điểm ảnh trong ảnh hiện thời cho giá trị tương ứng
trong ảnh nền.
2.1.4 Khử nhiễu
2.2 Trích chọn các đặc trƣng
2.2.1 Lƣợc đồ màu (Histogram)
Histogram là một biểu đồ thể hiện tần số, thông thường
Histogram có các thanh đại diện cho tần số xuất hiện của dữ liệu hay

nói cách khác là Histogram hiển thị sự phân bố tần số của một tập dữ
liệu.
2.2.2 Đặc trung HoG
Ý tưởng chính trong đặt trưng HoG là hình dạng và trạng thái
của vật có thể được đặc trưng bằng sự phân bố về gradient và hướng
của cạnh. Do sự biến thiên màu sắc trong các vùng là khác nhau, kết
quả là mỗi vùng sẽ cho ta một vector đặc trưng của nó. Vì vậy để có
được đặc trưng của toàn bộ vùng ta phải kết hợp nhiều vùng liên tiếp
lại với nhau.

4
Các bước trích đặc trưng HOG trên ảnh:
Bước 1: Tính cường độ và hướng biến thiên tại mỗi pixel
Bước 2: Chia ảnh đầu ra ở bước 1 thành nhiều khối (block), mỗi
khối có số ô bằng nhau, mỗi ô có số pixel bằng nhau. Các khối này
được đặt chồng lên nhau, khoảng cách giữa hai khối con liên tiếp
nhau phải là một hằng số.
Bước 3: Tính vector đặc trưng cho từng khối
Bước 4: Tính vector đặc trưng cho ảnh
2.2.2.1 HoG kết hợp SVM trong bài toán phát hiện ngƣời
Bài toán phát hiện người đi bộ được xử lý dựa vào phương pháp
huấn luyện HoG kết hợp với mô hình tuyến tính SVM được thực
hiện dựa trên các bước sau:
Bước 1:
Mẫu đúng P được lấy từ tập dữ liệu huấn luyện về đối tượng
muốn nhận biết. Trích xuất mô tả đặc trưng HoG từ mẫu này
Bước 2:
Mẫu sai N từ tập dữ liệu sai, trích xuất đặc trưng HoG từ mẫu
này. N>P

Bước 3:
Huấn luyện tuyến tính SVM trên tập mẫu đúng và mẫu sai
Bước 4:
Với mỗi ảnh và tỉ lệ của ảnh trong tập dữ liệu sai, thực hiện
trượt khung cửa sổ lên ảnh cần phát hiện đối tượng. Mỗi khung, tính
lại đặc trưng HoG và tiến hành phân lớp.
Bước 5:

5
Nếu phân lớp phát hiện một đối tượng với xác suất đủ lớn, ghi
lại đường bao của cửa sổ. Sau khi đã trượt lên toàn bộ ảnh việc quét
hình ảnh, tiến hành loại bỏ các khung giới hạn dư thừa và chồng
chéo.
2.2.3 MeanShift
Meanshift là một thuật toán dịch chuyển đệ quy một điểm dữ
liệu đến trung bình của các điểm dữ liệu tại vùng lân cận của nó,
tương tự như việc gom các điểm dữ liệu lại tạo thành một nhóm.
Theo đó, quá trình hoạt động của thuật toán Mean-shift:
Bước 1: Chọn một cửa sổ tìm kiếm.
Bước 2: Tính toán (có thể trọng) trung tâm của cửa sổ trượt.
Bước 3: Trung tâm cửa sổ ở trung tâm khối.
Bước 4: Quay trở lại bước 2 cho đến khi cửa sổ ngừng chuyển
động.
2.3 Thuật toán phát hiện hành vi bạo lực

6

7
2.3.1 Xác định khung hình bóng của ngƣời
Sau khi xác định được các đối tượng người dựa trên đặc
trưng HoG, dựa thuật toán trừ nền (mục 2.1.3), chúng ta thu được
bóng của các vật chuyển động.

Tiếp đến chia hình chữ nhật bao quanh của hình bóng theo
chiều ngang thành ba phần (H1, H2, H3). Tiếp theo, để trích xuất các
thuộc tính của mỗi phần, ta có được biểu đồ Histogram của mỗi phần
thu được bằng cách đếm số pixel đen trong mỗi cột của hình bóng.
Từ biểu đồ Histogram, ta nhận thấy rằng số lượng điểm ảnh trung
bình ở mỗi hộp là một chỉ số về cấu trúc người. Ngoài ra, tỉ lệ khung
của hình chữ nhật viền bóng được xem là thuộc tính được sử dụng để
phân biệt người với các đối tượng khác.

8

Bóng của đối tượng được chia làm 3 phần
Tất cả các thuộc tính trên đều được chuẩn hóa bởi khu vực hình
chữ nhật. Thủ tục này giúp cho ta không theo vết của các đối tượng
khác như oto hoặc động vật.
Từ bóng của đối tượng, ta xác định cổ và vai. Để xác định cổ và
vai, ta có biểu đồ chiếu từ các bước trên (H1, H2, H3).
Sau đó, lấy phép chiếu lên trục y của H1.

9

Hình chiếu H1

2.3.2 Theo dõi hộp di chuyển của đầu
Trong quá trình hoạt động hoặc xảy ra bạo lực, ta thấy rằng
để theo vết mỗi đối tượng thường thể hiện rõ nhất thông qua theo vết
dõi di chuyển đầu của đối tượng. Việc xác định hành vi bạo lực cần
xác định đường di chuyển của đối tượng. Do đó, thông qua việc bám
theo di chuyển phần đầu của đối tượng, ta đã thực hiện theo dõi di
chuyển của đối tượng. Sau đó, ta sử dụng Meanshift để tính toán
đường chuyển động của phần đầu đối tượng.
2.3.3 Tính vector gia tốc và độ phản xạ
Tiến hành theo vết di chuyển của đối tượng. Tiếp theo, ta tính

10
toán đạo hàm bậc 3 của tốc độ theo thời gian để ra được độ phản xạ
(jerk)[13]. Trong thời gian hành vi bạo lực xảy ra, quỹ đạo chuyển
động của một người trải qua một sự thay đổi mạnh mẽ sau khi bị
người khác đánh ngã. Do đó, phản xạ bật mạnh trở lại là gần như
luôn xuất hiện.
Tính toán vector gia tốc để rút ra được nếu người đó di
chuyển theo hướng cho khung „i‟ cuối cùng và sau đó đột nhiên thay
đổi hướng và cường độ chuyển động, thì người đó là bị đánh. Nếu
người khác ở gần và chân tay của họ được mở rộng hướng tới người
còn lại thì kết luận đây là người thực hiện hành động bạo lực.
2.3.4 Tính toán hƣớng tay chân
Ta di chuyển ra ngoài từ điểm vai và đi qua ranh giới hình
bóng để có được hướng của cánh tay trên.
Sử dụng hộp H2, chúng ta đi qua ranh giới ngoài của hình
bóng để có được hướng của chân.
Trong thời điểm bạo lực, người ta nâng cánh tay hoặc chân,
và do đó bàn tay hoặc chân của họ bắt đầu thay đổi theo hướng song

song hoặc tạo một góc khác 90 độ với mặt đất.

11

Xác định hướng tay chân của đối tượng
2.3.5 Nhận dạng hành vi không phải là bạo lực
Đối với hành động đi bộ (phát hiện dễ nhất): ta phân loại dựa
trên đặc điểm bóng liên tục di chuyển, không có độ phản xạ hay
hướng tay chân
Đối với hành động vẫy tay: vì không có hành vi bạo lực nên sẽ
không có phản xạ nhưng có thay đổi về hướng tay.
Đối với hành động chuyển đồ: Sẽ khó khăn trong nhận biết nếu
đối tượng được chuyển nhỏ), nếu vật lớn, thì sẽ phát hiện được khi
so sánh sự thay đổi diện tích gần bàn tay sau khi chuyển
Đối với hành động chỉ trỏ ngón tay: việc chỉ trỏ này thường
không tạo ra phản lực, nhưng có hướng chuyển động của tay, theo
hướng song song hoặc vuông góc với mặt đất.
2.4 Kết chƣơng

12
CHƢƠNG 3 - THỬ NGHIỆM VÀ ĐÁNH GIÁ
3.1 Tập dữ liệu thử nghiệm
Với mục đích kiểm thử về hiệu năng cũng như tính chính xác
của chương trình, tôi đã sử dụng một số video tình huống thật được
lấy trên website Youtube và tự thực hiện một số video mô phỏng
hành vi bạo lực. Những video mô phỏng các hoạt động bạo lực như:
đấm, đá, quật ngã, …
3.2 Phân tích và đánh giá

Bảng 1. Ma trận nhầm lẫn
Phân lớp bởi thuật toán
Tập dữ liệu

Có hành vi bạo
lực

Phân lớp
thực sự

Không có hành vi
bạo lực

Có hành vi bạo

Không có hành

lực

vi bạo lực

12

3

2

5

Trong quá trình tiến hành thử nghiệm với số lượng dữ liệu

đưa ra, tác giả thấy rằng độ chính xác (Precision) và độ bao phủ
(Recall) đối với phân loại video có hành vi bạo lực như sau:
Precision =
Recall =

0.857
= 0.923

13
Tương tự, ta cũng có độ độ chính xác (Precision) và độ bao
phủ (Recall) đối với video không có hành vi bạo lực như sau:
Precision =
Recall =

0.714
= 0.625

3.3 Thảo luận và kết chƣơng

14
KẾT LUẬN VÀ KIẾN NGHỊ
Qua thử nghiệm có thể thấy tốc độ xử lý còn chậm, nguyên
nhân do độ dài của video, thuật toán vẫn chưa tối ưu. Ngoài ra, vẫn
còn những trường hợp phát hiện sai.
Mặc dù kết quả thử nghiệm khả quan, tuy nhiên đó là kết quả
trên tập thử còn ít, chỉ khoảng hơn 20 video. Trong thời gian tới, tác
giả cần thu thập nhiều video mô tả hành vi bao lực/không bạo lực đa
dạng hơn nữa để đưa ra được chính xác hơn kết quả thử nghiệm.

Việc xác định có hay không có hành vi bạo lực trong video
chỉ có 2 người chưa thể đáp ứng yêu cầu thực tế. Những nơi có bạo
lực xảy ra thường tập trung đông người, rất hiếm trường hợp chỉ duy
nhất có 2 người. Do đó, trong thời gian sắp tới, nối tiếp nghiên cứu
xác định trên video chỉ có 2 người, cần nghiên cứu trên video có
nhiều người, đám đông.

Nghiên cứu phát hiện hành vi bạo lực từ dữ liệu video (tt)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về