TIỂU LUẬN MÔN HỆ THỐNG GIAO THÔNG THÔNG MINH Đề tài: An Intelligent Video Analysis Method for Abnormal Event Detection in Intelligent Transportation Systems

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.67 MB, 41 trang )

TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI TP.HCM

TIỂU LUẬN MÔN HỆ THỐNG GIAO THÔNG
THÔNG MINH
Đề tài: An Intelligent Video Analysis Method for
Abnormal Event Detection in Intelligent
Transportation Systems
Người thực hiện: Nguyễn Duy Quốc Thái
Tên lớp: TD2201
Giảng viên hướng dẫn: TS. LÊ VĂN QUỐC ANH

TP. Hồ Chí Minh, Năm 2022

LỜI CẢM ƠN
Lời đầu tiên, em xin gửi lời cảm ơn chân thành nhất đến TS. Lê Văn Quốc Anh.
Trong q trình học tập và tìm hiểu bộ mơn Hệ thống giao thông thông minh (ITS), em
đã nhận được sự quan tâm giúp đỡ, hướng dẫn rất tận tình, tâm huyết của Thầy. Thầy
đã giúp em tích lũy thêm nhiều kiến thức để có cái nhìn sâu sắc và hồn thiện hơn về
hệ thống giao thông thông minh (ITS). Từ những kiến thức mà Thầy truyền tải, em đã
dần hiểu hơn về các hệ thống giao thông thông minh. Trong bài tiểu luận này, em xin
trình bày lại những gì mà mình đã tìm hiểu về cơng nghệ “ An Intelligent Video
Analysis Method for Abnormal Event Detection in Intelligent Transportation Systems”
gửi đến Thầy.
Có lẽ kiến thức là vơ hạn mà sự tiếp nhận kiến thức cả bản thân mỗi người ln
tồn tại những hạn chế nhất định. Do đó, trong q trình hồn thành bài tiểu luận, chắc
chắn khơng tránh khỏi những thiếu sót. Bản thân em rất mong nhận được những góp ý
đến từ thầy để bài tiệu luận của em được hồn thiện hơn.
Kính chúc Thầy sức khỏe, hạnh phúc thành công trên con đường sự nghiệp giảng dạy.

NGUYỄN DUY QUỐC THÁI

MÔN: ITS

MỤC LỤC
LỜI MỞ ĐẦU.................................................................................................................2
CHƯƠNG 1: TỔNG QUAN VỀ PHƯƠNG PHÁP PHÂN TÍCH VIDEO THƠNG
MINH CHO PHÁT HIỆN SỰ KIỆN BẤT THƯỜNG TRONG HỆ THỐNG GIAO
THƠNG...........................................................................................................................5
1.1 Hệ thống giao thơng thơng minh (ITS):................................................................5
1.2 Giới thiệu về phương pháp phân tích video thông minh để phát hiện sự kiện bất
thường trong hệ thống giao thông:..............................................................................7
1.3 Kiến thức nền tảng:.............................................................................................11
CHƯƠNG 2: XÂY DỰNG PHƯƠNG PHÁP PHÂN TÍCH VIDEO THƠNG MINH
CHO PHÁT HIỆN SỰ KIỆN BẤT THƯỜNG TRONG HỆ THỐNG GIAO THÔNG
.......................................................................................................................................14
2.1. Phát hiện các khung hình dư thừa trong một đoạn video dài (Detection of
Redundant Frames in a Long Video):.......................................................................14
2.2. Trích suất SOS dựa trên phân đoạn siêu khung (Extraction of SOI Based on
Superframe Segmentation):.......................................................................................15
2.3. Trích xuất các đặc điểm hình ảnh (Extraction of Visual Features):...................17
2.4. Biến đổi véc tơ từ của văn bản câu hỏi (Word Vector Transformation of
Question Text):..........................................................................................................19
2.5. Kết hợp các tính năng trực quan và véc tơ căn bản (Combination of Visual
Features and Text Vectors):.......................................................................................20
CHƯƠNG 3: NHẬN ĐỊNH VÀ LIÊN HỆ THỰC TIỄN CÔNG NGHỆ....................22
“An Intelligent Video Analysis Method for Abnormal Event Detection in Intelligent
Transportation Systems”...............................................................................................22
3.1. Tại sao phải áp dụng Giải pháp phân tích video để phát hiện sự kiện bất thường
trong giao thơng :.......................................................................................................22

3.2. Những vị trí cần lắp camera để giám sát giao thông và ứng dụng phương pháp
phân tích video thơng minh để phát hiện sự cố :.......................................................23

3.3. Cải thiện hiệu quả hoạt động phân tích đối tượng khả nghi dựa trên phương
pháp phân tích video thơng minh :............................................................................24
KẾT LUẬN...................................................................................................................33
TÀI LIỆU THAM KHẢO.............................................................................................34

NGUYỄN DUY QUỐC THÁI

MÔN: ITS

4

DANH SÁCH HÌNH ẢNH
Hình 1.1: Hệ thống kết nối các phương tiện tham gia giao thơng
Hình 1.2: Phân đoạn video dài và truy suất sự kiện cụ thể
Hình 2.1: Phân đoạn video dài thành các phân đoạn bằng thuật toán phân đoạn siêu
khung
Hình 2.2: Hệ thống mơ hình trả lời câu hỏi trực quan
Hình 3.1: Hình ảnh tình hình kẹt xe tại TP. Hồ Chí Minh
Hình 3.2: Nhận dạng và ghi nhớ biển số xe
Hình 3.3: Đo tốc độ xe hỗ trợ xử phạt các vi phạm
Hình 3.4: Phát hiện lấn làn, sai làn
Hình 3.5: Phát hiện dừng đỗ trái phép
Hình 3.6: Phát hiện tai nạn giao thơng
Hình 3.7: Phát hiện ùn tắt giao thơng
Hình 3.8: Phân loại phương tiện

Hình 3.9: Cảnh báo nhanh chóng để xử lý kịp thời
Hình 3.10: Thông tin về bối cảnh xảy ra vụ tai nạn giao thông

5

LỜI MỞ ĐẦU
1. Tính cấp thiết của đề tài
Xã hội phát triển, kéo theo đó là lưu lượng giao thơng ngày càng cao. Nhằm đảm
bảo việc quản lý dễ dàng hơn và theo dõi sát sao tình hình giao thơng ở một địa điểm,
các nhà quản lý nhà nước đã không ngừng xây dựng nhiều hạng mục lắp đặt camera
giao thông.
Giải pháp Camera giám sát giao thông sẽ đảm nhiệm vụ quan sát, theo dõi toàn
thành phố. Hoạt động này đóng góp một phần khơng nhỏ vào an ninh, trật tự thành
phố đồng thời giúp các nhà chức trách giảm đi chi phí cho nhân sự. Ngay tại một địa
điểm bạn có thể theo dõi và quản lý từng giờ từng phút, dù ngày hay đêm và đặc biệt
là bất kể các loại điều kiện thời tiết khắc nghiệt hay một số sự kiện bất thường. Khi có
thể nhanh chóng theo dõi các hoạt động trên thì bạn có thể giảm thiểu tối đa các hoạt
động xấu, bất ngờ ảnh hưởng đến an ninh giao thông hoặc trật tự thành phố.
Với số lượng ngày càng tăng của các camera được triển khai ở các thành phố, các
nhà khai thác ngày nay có q nhiều thơng tin để xử lý. Cơng nghệ “An Intelligent
Video Analysis Method

for

Abnormal Event Detection in Intelligent

Transportation Systems” giúp phát hiện và phân loại nhiều loại đối tượng khác nhau.
Bao gồm người, phương tiện, khuôn mặt và biển số xe. Người vận hành có thể nhanh
chóng tìm kiếm đối tượng khả nghi dựa trên các thuộc tính của đồ vật hoặc con người.

Chẳng hạn như nhóm tuổi, giới tính hoặc màu quần áo mà camera có thể ghi lại được.
Ngồi ra hệ thống cịn cung cấp khả năng giám sát, tự động thu thập và xử lý thông
tin của các phương tiện chạy qua. Hệ thống được sử dụng rộng rãi trên đường và cao
tốc để giám sát, ghi hình, dị tìm biển số,… Đặt biệt áp dụng cơng nghệ AI để phân
tích dữ liệu video nhằm phát hiện các vi phạm giao thơng. Ví dụ như: chạy quá tốt độ,
lấn làn, vượt xe trái phép, đỗ xe sai qui định,…. hoặc tai nạn giao thông xảy ra. Hệ
thống có thể được chuyển giao cho cảnh sát và bộ giao thông, cung cấp video, thông
tin thiết bị cho ứng dụng quản lý.
Các hệ thống giao thông thông minh triển khai hàng nghìn máy quay video một
cách phổ biến. Việc phân tích các luồng video trực tiếp từ các camera này có tầm quan
trọng đáng kể đối với an tồn cơng cộng. Hệ thống giao thơng thơng minh, truy xuất
sự kiện video dài, phân đoạn quan tâm, phân đoạn siêu khung, trả lời câu hỏi. Sau đó,
NGUYỄN DUY QUỐC THÁI

MÔN: ITS

6

bằng cách sử dụng thuật toán phân đoạn siêu khung dựa trên kết hợp tính năng, video
dài cịn lại được chia thành nhiều Phân đoạn quan tâm (SOI) bao gồm các sự kiện
video. Cuối cùng, mơ hình ngữ nghĩa được đào tạo được sử dụng để khớp câu trả lời
do câu hỏi văn bản tạo ra và kết quả có giá trị khớp cao nhất được coi là phân đoạn
video tương ứng với câu hỏi. Phương pháp mô tả và truy xuất sự kiện video dài giúp
cải thiện đáng kể hiệu quả và độ chính xác của mơ tả ngữ nghĩa, đồng thời giảm đáng
kể thời gian truy xuất. Khi truyền phát video ngày càng nhiều, việc người điều khiển
ngồi trước hàng trăm màn hình để nắm bắt các hoạt động đáng ngờ hoặc phát hiện các
đối tượng quan tâm trong thời gian thực trở nên bất khả thi. Trên thực tế, với hàng
triệu camera giám sát giao thông được lắp đặt, việc truy xuất video trở nên quan trọng
hơn bao giờ hết. Cuối cùng, Công nghệ “An Intelligent Video Analysis Method for

Abnormal Event Detection in Intelligent Transportation Systems” này đề xuất
một thuật toán truy xuất sự kiện video dài dựa trên phân đoạn siêu khung. Bằng cách
phát hiện biên độ chuyển động của video dài, một số lượng lớn khung hình dư thừa có
thể được loại bỏ một cách hiệu quả khỏi video dài, do đó giảm số lượng khung hình
cần tính tốn sau đó.
2. Các phương pháp nghiên cứu

Đề tài đã sử dụng các phương pháp như phương pháp phân tích, phương
pháp mơ hình hóa, phương pháp chun gia và phương pháp thực nghiệm để
kiểm chứng kết quả.
3. Cấu trúc

Với đề tài “An Intelligent Video Analysis Method for Abnormal Event Detection
in Intelligent Transportation Systems” do TS. Lê Văn Quốc Anh đưa ra, em đã

thực hiện như sau:
Nội dung đề tài:
Lời mở đầu.
Chương 1. Tổng quan về Phương pháp phân tích video thơng minh cho
phát hiện sự kiện bất thường trong hệ thống giao thông.

7

Chương 2. Xây dựng Phương pháp phân tích video thơng minh cho phát hiện sự
kiện bất thường trong hệ thống giao thông.
Chương 3. Nhận định và liên hệ thực tiễn.
Kết luận.
Tài liệu tham khảo.

NGUYỄN DUY QUỐC THÁI

MÔN: ITS

8

CHƯƠNG 1: TỔNG QUAN VỀ PHƯƠNG PHÁP PHÂN TÍCH VIDEO THÔNG
MINH CHO PHÁT HIỆN SỰ KIỆN BẤT THƯỜNG TRONG HỆ THỐNG
GIAO THƠNG
1.1 Hệ thống giao thơng thơng minh (ITS):
Hệ thống Giao thông thông minh (lntelligent Transport System - ITS) là việc ứng
dụng kỹ thuật công nghệ, bao gồm các thiết bị cảm biến, điều khiển, điện tử, công
nghệ thông tin và viễn thông trong lĩnh vực giao thông để điều hành và quản lý hệ
thống giao thơng vận tải.

Hình 1.1: Hệ thống kết nối các phương tiện tham gia giao thông

ITS là công nghệ mới phát triển trên thế giới, được sử dụng để giải quyết
các vấn đề của giao thông, bao gồm tai nạn, ùn tắc giao thông, thông tin giao
thông... ITS sử dụng các tiến bộ của công nghệ thông tin và viễn thông để liên
kết giữa con người, hệ thống đường giao thông và phương tiện giao thông lưu

9

thông trên đường thành một mạng lưới thông tin và viễn thông phục vụ cho việc lưu
thông tối ưu trên đường.
Các cảm biến sẽ được lắp đặt trên mặt đường để thu thập các thông tin về luồng
giao thơng, khí hậu, thời tiết,… Các thơng tin này được hệ thống máy tính phân tích và

xử lý, sau đó cung cấp trở lại cho tài xế về tình hình giao thông trên đường (tai nạn, ùn
tắc giao thông, thời tiết…) để tài xế chọn giải pháp giao thông tối ưu, giúp hạn chế tối
đa tai nạn và ùn tắc giao thông, đảm bảo thời gian đi lại ngắn nhất và an tồn nhất cho
các phương tiện đang lưu thơng trên đường.
Các thành phần chính của ITS bao gồm con người, phương tiện tham gia giao
thông, cơ sở hạ tầng giao thông. Các thành phần được liên kết chặt chẽ với nhau nhằm
bảo đảm cho hệ thống giao thơng đạt các mục tiêu sau:


Giúp hồn thiện kết cấu hạ tầng đường bộ và xử lý khẩn cấp các sự cố giao
thơng.



Hiện đại hố các trạm thu phí tự động và trạm cân điện tử…



Giảm tai nạn, ùn tắc giao thông và giảm ô nhiễm môi trường…



Tiết kiệm thời gian, tiền bạc và nhiên liệu, tạo điều kiện thuận lợi tối đa cho
việc đi lại và vận chuyển hàng hóa.



Quản lý các đường trục giao thơng chính, điều tiết việc đi lại của phương tiện
trên đường bằng biển báo điện tử.



Tạo ra hệ thống thông tin cho người đi đường, phổ cập văn hố giao thơng và
hỗ trợ q trình khai thác, điều hành hệ thống giao thơng cơng cộng, chống kẹt
xe.



Góp phần trong việc sản xuất các phương tiện thông minh, nâng cao hiệu quả
của thiết bị an tồn giao thơng.

NGUYỄN DUY QUỐC THÁI

MƠN: ITS

10

1.2 Giới thiệu về phương pháp phân tích video thơng minh để phát hiện sự kiện
bất thường trong hệ thống giao thơng:
- Hệ thống giao thơng thơng minh (ITS) có thể cải thiện hiệu quả giao thông và đảm
bảo hiệu quả an toàn phương tiện và người đi bộ trên đoạn đường được giám sát. Do
đó, nó đã thu hút sự chú ý rộng rãi của các nhà nghiên cứu. Tình hình trật tự an tồn
giao thơng đường bộ trong thời gian qua đang đứng trước những thách thức ngày càng
gay gắt, tai nạn giao thông vẫn thường xuyên xảy ra.
- Việc phát hiện các vụ tai nạn giao thông một cách nhanh chóng, chính xác và tránh
những rắc rối về an tồn giao thơng do tai nạn giao thơng gây ra là một thách thức rất
lớn. Là một trong những nguồn dữ liệu video quan trọng, camera quay video có thể
được nhìn thấy ở bất cứ đâu trong tất cả các góc của ngã tư đường. Khơng chỉ vậy, số
lượng camera cũng được mở rộng với tốc độ tăng trưởng hàng năm là 20%, đi kèm với

phân tích video bắt nguồn từ dữ liệu lớn video. Với sự tăng trưởng nhanh chóng về số
lượng ứng dụng, phân tích video trong bối cảnh an tồn cơng cộng giao thơng thơng
minh cũng đã thu hút sự chú ý của giới học thuật và ngành công nghiệp. Trong bối
cảnh xử lý dữ liệu phát triển nhanh chóng, làm thế nào để có được dữ liệu hữu ích
trong video đã trở thành mục tiêu chính trong việc phát triển ITS để giảm thiểu tai nạn
giao thông và xác nhận trách nhiệm pháp lý của các vụ tai nạn giao thông. Một
phương pháp phân tích video thơng minh để phát hiện sự kiện bất thường “An
Intelligent Video Analysis Method for Abnormal Event Detection in Intelligent
Transportation Systems” là một phương tiện hiệu quả để đạt được mục tiêu này và sẽ
xác định mức độ thông minh của toàn bộ ITS.
- Con người dễ dàng xem một đoạn video dài và mơ tả những gì đã xảy ra tại mỗi thời
điểm bằng văn bản. Tuy nhiên, việc làm cho một chiếc máy ghi lại và trích xuất các sự
kiện cụ thể từ các video dài rồi đưa ra văn bản mô tả là một nhiệm vụ rất khó khăn.
Cơng nghệ hồn thành nhiệm vụ như vậy đã nhận được sự chú ý rộng rãi trong lĩnh
vực thị giác máy tính do triển vọng đầy hứa hẹn của nó trong giám sát video và hỗ trợ
người mù. Các sở giao thơng phân tích các luồng video từ camera tại các giao lộ để
kiểm sốt luồng giao thơng, nhận dạng phương tiện, trích xuất thuộc tính phương tiện,
vi phạm luật giao thông và phát hiện tai nạn. Khác với nhiệm vụ đơn giản là mô tả ngữ
nghĩa của hình ảnh tĩnh, mơ tả nội dung video khó hơn, vì nó cần hiểu một loạt cảnh

11

liên tiếp để tạo ra nhiều phân đoạn mô tả. Hiện tại, hầu hết các nghiên cứu hiện có đều
tập trung vào mô tả các đoạn video hoặc đoạn video ngắn. Tuy nhiên, các video ghi lại
tình huống thực tế rất dài, có thể lên tới hàng trăm phút. Vì vậy, phải mất rất nhiều thời
gian và chi phí để đạt được việc truy xuất video và chọn lọc thông tin.
Truy xuất sự kiện và mô tả các video dài thường được thúc đẩy bởi những tiến bộ
trong nhận dạng phân đoạn quan tâm (SOI), lựa chọn khung hình chính, mơ tả và tạo
ngữ nghĩa hình ảnh. S. Sah [1] , trích xuất SOI dựa trên chất lượng của các khung

hình video, sau đó sử dụng các thuật tốn học sâu để mã hóa và giải mã các phân đoạn
video, từ đó chuyển đổi các khung hình chính của các phân đoạn video hợp lệ thành
chú thích văn bản và cuối cùng con người được yêu cầu thực hiện lựa chọn thông tin
và đánh giá ngữ nghĩa trên các chú thích văn bản. Lu và Grau man [2] đã đề xuất thuật
tốn tạo tóm tắt video sử dụng các yếu tố chất lượng hình ảnh để chọn các video phụ
đại diện từ một video dài nhất định để mô tả các sự kiện cơ bản. Wolf [3] đã sử dụng
chuỗi khung hình chính trong phân đoạn video để biểu thị sự thay đổi nội dung video
để thay thế video tương ứng, điều này không chỉ làm giảm dữ liệu cần xử lý mà còn
cải thiện đáng kể hiệu quả truy xuất video.

NGUYỄN DUY QUỐC THÁI

MÔN: ITS

12

Hình 1.2: Phân đoạn video dài và truy suất sự kiện cụ thể
Tất cả các phương pháp trên đều chọn khung chính trong video dài và sử dụng các
khung này thay vì video dài để mơ tả nội dung video. Nhưng tất cả các phương pháp
trên đều dựa vào một phương thức duy nhất (video) làm tham chiếu để truy xuất nội
dung video. Trên thực tế, video thường được liên kết với các dạng khác như âm thanh
hoặc văn bản, chẳng hạn như phụ đề của phim/chương trình truyền hình hoặc lời của
khán giả đi kèm với video trực tiếp. Các chế độ liên quan này có thể là một nguồn
quan trọng không kém để truy xuất các khoảnh khắc liên quan đến người dùng.
Như thể hiện trong Hình 1.2, trong một video liên tục về cảnh đường phố, một số
tình nguyện viên đã chuẩn bị một số thức ăn để phân phát cho người vô gia cư. Video
giới thiệu, chuẩn bị thức ăn và phân phát thức ăn cho những người vô gia cư trên
đường phố. Nếu chúng ta muốn trích dẫn một cảnh cụ thể hoặc một khoảnh khắc nhất
định trong video, chẳng hạn như một ông già ngồi trên đường, chỉ cần tham chiếu

khoảnh khắc đó bằng các từ khóa như hành động, đối tượng hoặc thuộc tính có thể

13

khơng xác định duy nhất khoảnh khắc đó. Ví dụ, các đối tượng quan trọng trong cảnh,
chẳng hạn như người già, xuất hiện trong nhiều khung hình.
Dựa trên ví dụ này, chúng ta cân nhắc sử dụng ngôn ngữ tự nhiên để xác định vị trí
các khoảnh khắc trong video. Cụ thể, đối với mô tả video và văn bản, chúng ta xác
định phần đầu và phần cuối trong video tương ứng với mô tả văn bản đã cho, đây là
một nhiệm vụ đầy thách thức đòi hỏi phải hiểu cả ngơn ngữ và video. Nó có các ứng
dụng quan trọng trong truy xuất video, chẳng hạn như tìm các khoảnh khắc cụ thể từ
một video dài hoặc tìm phân đoạn video stock B-roll mong muốn từ các thư viện video
lớn (chẳng hạn như Adobe Stock1, Getty2, Shutterstock3). Nhằm giải quyết các vấn
đề tính tốn quy mơ lớn và tiêu tốn nhiều thời gian trong phân tích nội dung và truy
xuất chủ đề của các video dài, công nghệ “An Intelligent Video Analysis Method for
Abnormal Event Detection in Intelligent Transportation Systems” này đề xuất một
phương pháp mô tả và truy xuất sự kiện video dài mới giúp cải thiện đáng kể hiệu quả
và độ chính xác của mơ tả ngữ nghĩa, đồng thời cải thiện đáng kể hiệu suất và độ chính
xác của mơ tả ngữ nghĩa, làm giảm thời gian truy xuất.
-Phương pháp này có thể được tóm tắt như sau:
 Một phương pháp phân tích video thơng minh để phát hiện sự kiện bất thường
trong các hệ thống giao thông thông minh được đề xuất dựa trên VQA. Bằng cách
phát hiện biên độ chuyển động của video dài, một số lượng lớn khung hình dư
thừa có thể được loại bỏ một cách hiệu quả khỏi video dài, do đó giảm số lượng
khung hình cần tính tốn sau đó.
 Bằng cách sử dụng thuật toán phân đoạn siêu khung dựa trên tính năng hợp nhất,
video dài cịn lại được chia thành một số SOI bao gồm các sự kiện video.
 Mơ hình ngơn ngữ được đào tạo được trình bày để khớp với câu trả lời do câu hỏi
văn bản tạo ra và kết quả có giá trị khớp cao nhất được coi là phân đoạn video

tương ứng với câu hỏi.
 Một nghiên cứu kiểm chứng thử nghiệm mở rộng đã được tiến hành trên một số bộ
dữ liệu điểm chuẩn như bộ dữ liệu SumMe và bộ dữ liệu Hollywood2, những bộ
dữ liệu này có hiệu suất tuyệt vời.

NGUYỄN DUY QUỐC THÁI

MÔN: ITS

14

1.3 Kiến thức nền tảng:

 Truy xuất sự kiện video dài (Long Video Event Retrieval):
Với sự phát triển nhanh chóng của công nghệ Internet và sự phổ biến của các
thiết bị đa phương tiện, tài nguyên video cũng bùng nổ rất nhiều. Ví dụ: khoảng
100 giờ tài nguyên video được tải lên YouTube mỗi phút. Những video này
thường thiếu chú thích và mơ tả nội dung chun nghiệp, điều này khơng có lợi
cho việc truy xuất nhanh chóng của mọi người đối với các tài nguyên video cần
thiết và không thể đạt được sự giám sát theo thời gian thực trong video giao
thơng. Do đó, việc sử dụng các mơ tả ngôn ngữ tự nhiên đã được đề xuất để mơ
tả các sự kiện trong video, sau đó mọi người đề xuất các câu hỏi văn bản tương
ứng theo nhu cầu của họ, cuối cùng truy xuất và xác định vị trí các sự kiện video
thơng qua khớp câu trả lời. Hiện tại, phương pháp được sử dụng rộng rãi [4] để
đạt được truy xuất sự kiện là sử dụng phương pháp nhúng ngôn ngữ video sâu
được đề xuất bởi tài liệu tham khảo [5]–[8].
Ngoài ra, các phương pháp như vậy cũng dựa trên việc nhúng chung các
tính năng video và ngơn ngữ tự nhiên. Ví dụ: tài liệu tham khảo [9] đã sử dụng
video giám sát tại nhà để truy xuất các sự kiện hàng ngày, bao gồm một tập hợp

giới từ không gian cố định (“ngang qua” và “thông qua”). Tương tự, tài liệu
tham khảo [10] đã cân nhắc việc căn chỉnh các hướng dẫn bằng văn bản với các
sự kiện video. Tuy nhiên, phương pháp căn chỉnh hướng dẫn bằng video chỉ áp
dụng cho các video có cấu trúc vì chúng hạn chế việc căn chỉnh thơng qua thứ tự
hướng dẫn. Ngược lại, video giám sát thực tế thường chứa các cảnh mở không
giới hạn.
 Mô tả ngữ nghĩa của video (Video Semantic Description):
Bản chất của mô tả ngữ nghĩa video là phân tách các sự kiện quan trọng
trong video theo nhãn thời gian và đưa ra các câu mô tả tương ứng. Nghiên cứu
trước đây về video tóm tắt khơng bao gồm đầu vào ngơn ngữ tự nhiên [11]–[14],
nhưng một số thuật toán đã sử dụng văn bản giống như video [15] hoặc thẻ danh
mục để truy vấn sự kiện và lựa chọn nội dung [16]. Tài liệu tham khảo [17] đã

15

thu thập các mô tả văn bản của các khối video dưới dạng tóm tắt tồn bộ video.
Bộ dữ liệu sử dụng trong phương pháp trên không chứa các biểu thức quan hệ
và có phạm vi ứng dụng hạn chế nên không phù hợp cho việc truy xuất sự kiện
trong các kịch bản giám sát thực tế.
 Chú thích video có trả lời câu hỏi của hệ thống (Video Captioning With
Question Answering):
Trả lời câu hỏi là một hệ thống tác vụ lấy hình ảnh và câu hỏi ngơn ngữ tự
nhiên mở, miễn phí về hình ảnh làm đầu vào và tạo ra câu trả lời bằng ngôn ngữ
tự nhiên làm đầu ra. Vì hệ thống trả lời câu hỏi liên quan đến thị giác máy và xử
lý ngôn ngữ tự nhiên, nên việc kết hợp thuật toán thị giác máy với thuật tốn xử
lý ngơn ngữ tự nhiên để xây dựng một mơ hình kết hợp đã trở thành phương
pháp phổ biến nhất để giải quyết vấn đề của hệ thống trả lời câu hỏi. Cấu trúc
kết hợp này trước tiên sử dụng kiến trúc học sâu để trích xuất các đặc điểm trực
quan, sau đó sử dụng mạng thần kinh hồi quy có khả năng xử lý thơng tin chuỗi

để tạo mơ tả văn bản của hình ảnh. Ma và cộng sự. [18] đã sử dụng 3 mạng thần
kinh tích chập (CNN) để hồn thành nhiệm vụ hỏi đáp bằng hình ảnh. Gao et al.
[19] đã sử dụng cấu trúc mơ hình phức tạp hơn. Malinowski và Fritz [20] đã kết
hợp các công nghệ mới nhất trong xử lý ngơn ngữ tự nhiên và thị giác máy tính
để đề xuất một phương pháp tự động trả lời các câu hỏi về hình ảnh. Ren và
cộng sự. [21], [22] đã đề xuất kết hợp mạng nơ-ron và ngữ nghĩa trực quan thay
vì các quy trình tiền xử lý như phát hiện đối tượng và phân đoạn hình ảnh để
thực hiện dự đoán câu trả lời và thu được kết quả tốt trên bộ dữ liệu điểm chuẩn
công khai. Tú và cộng sự. [23] đã cùng nhau phân tích cú pháp video và nội
dung văn bản tương ứng và thử nghiệm nó trên hai bộ dữ liệu chứa 15 mẫu
video. Do đó, một hệ thống VQA thành cơng thường địi hỏi sự hiểu biết chi tiết
hơn về hình ảnh và lý luận phức tạp hơn một hệ thống tạo phụ đề hình ảnh
chung chung. Agrawal và cộng sự. [24] đã đề xuất một mơ hình VQA trực quan
dạng mở tự do. Mơ hình có thể cung cấp câu trả lời ngơn ngữ tự nhiên chính xác

NGUYỄN DUY QUỐC THÁI

MƠN: ITS

16

bằng cách nhập hình ảnh vào mơ hình và các câu hỏi ngơn ngữ tự nhiên có liên
quan.

17

CHƯƠNG 2: XÂY DỰNG PHƯƠNG PHÁP PHÂN TÍCH VIDEO THƠNG
MINH CHO PHÁT HIỆN SỰ KIỆN BẤT THƯỜNG TRONG HỆ THỐNG

GIAO THƠNG
2.1. Phát hiện các khung hình dư thừa trong một đoạn video dài (Detection of
Redundant Frames in a Long Video):
- Các camera giám sát giao thông thường thu thập dữ liệu video trong khu vực giám
sát với tốc độ lấy mẫu là 25 khung hình mỗi giây. Điều này là để đảm bảo rằng video
có thể duy trì độ mượt mà tốt. Vì những camera này cần thu thập lưu lượng truy cập
cảnh 24 giờ một cách không bị gián đoạn, tổng số khung hình được tạo có thể lên tới
hàng trăm nghìn thậm chí hàng triệu. Việc xử lý số lượng khung lớn như vậy sẽ tiêu
tốn nhiều thời gian tính tốn, khó đáp ứng u cầu giám sát lưu lượng theo thời gian
thực. Bằng cách quan sát các sự kiện hành vi trong các video giám sát, người ta thấy
rằng các video dài thường chứa một số lượng lớn các khung hình tĩnh vơ ích (khung
hình dự phịng) và việc xử lý các khung hình dư thừa này tiêu tốn nhiều thời gian.
Để cải thiện tốc độ xử lý các video lớn, cần phải phát hiện và loại bỏ một lượng lớn
các khung hình thừa và vơ nghĩa có trong các video dài.
Trong nghiên cứu này, phương pháp phát hiện biên độ chuyển động dựa trên các điểm
quan tâm không gian thời gian cục bộ để đạt được hiệu quả phát hiện các khung dư
thừa. Thứ nhất, thuật tốn phát hiện điểm quan tâm theo khơng gian thời gian cải tiến
được sử dụng để tính tốn các điểm quan tâm theo khơng gian thời gian của từng
khung hình trong video. Sau đó, ức chế bao quanh được kết hợp với các ràng buộc cục
bộ và thời gian để phát hiện các điểm quan tâm tĩnh trong khung. Theo đặc điểm của
điểm quan tâm không gian, khi số lượng và vị trí của điểm quan tâm trong một video
khơng thay đổi, thì theo quan sát thực nghiệm, nội dung của video này được coi là
khơng thay đổi. Do đó, đặc điểm này có thể được sử dụng để loại bỏ một số lượng lớn
các khung dư thừa không thay đổi tồn tại trong một video dài. Khi số lượng điểm quan
tâm không gian hợp lệ được phát hiện thấp hơn giá trị ngưỡng, điều đó có nghĩa là
video hiện tại có biên độ chuyển động thấp hoặc khơng có chuyển động nào xảy ra, do
đó có thể xác định rằng nội dung của video này không thay đổi và khung dư thừa có
NGUYỄN DUY QUỐC THÁI

MƠN: ITS

18

thể được gỡ bỏ. Ngồi ra, do tính chất lặp đi lặp lại của các khung hình nên việc xóa
các khung hình thừa khơng ảnh hưởng đến việc thể hiện nội dung video.
2.2. Trích suất SOS dựa trên phân đoạn siêu khung (Extraction of SOI Based on
Superframe Segmentation):
Trong phần trước, có thể loại bỏ một lượng lớn khung hình dư thừa trong một
video dài bằng cách so sánh các thay đổi về số lượng hộp phát hiện chuyển động. Do
việc trích xuất tính năng và so khớp tính năng của các khung hình trong một video dài
cần được thực hiện sau, nên việc giảm số lượng khung hình phụ có thể cải thiện đáng
kể tốc độ xử lý. Phần này sẽ thực hiện phân đoạn video trên video dài đã loại bỏ các
khung dư thừa, sau đó trích xuất SOI để truy xuất sự kiện video.
Phân đoạn siêu khung video chia chuỗi video thành các phần hoặc tập hợp con cụ
thể, duy nhất theo các quy tắc nhất định và trích xuất SOI. Tài liệu tham khảo [25] đã
đề xuất một phương pháp đánh giá chất lượng hình ảnh và áp dụng nó để phân loại
nhanh các hình ảnh chun nghiệp chất lượng cao và ảnh chụp nhanh chất lượng thấp.
Lấy cảm hứng từ điều này, phần này chọn kết hợp các tính năng cấp thấp như độ
tương phản, độ sắc nét và màu sắc với các tính năng ngữ nghĩa nâng cao như thông tin
về sự chú ý và khn mặt. Sự kết hợp tuyến tính của các tính năng này được sử dụng
để tính tốn mức độ thú vị của phân đoạn video và sau đó video dài được phân đoạn
dựa trên mức độ thú vị.
Bài viết này đề cập đến phương pháp trong [25] để tính điểm tương phản C. Mỗi
khung hình trong video được chuyển đổi thành hình ảnh thang độ xám và hình ảnh
được chuyển đổi được xử lý bằng cách sử dụng bộ lọc thơng thấp. Hình ảnh đã chuyển
đổi được lấy mẫu lại và chiều cao được điều chỉnh thành 64, sau đó là điều chỉnh chiều
rộng theo tỷ lệ khung hình. Vì độ sắc nét là một chỉ số quan trọng để mơ tả chất lượng
của khung hình nên nó rất có thể tương ứng với cảm nhận chủ quan của con người.
Điểm sắc nét E có được bằng cách chuyển đổi một khung hình thành một hình ảnh

thang độ xám, sau đó tính bình phương hiệu của các giá trị thang độ xám của hai pixel
liền kề. Ngoài độ tương phản và độ sắc nét, màu sắc cũng là một đặc điểm quan trọng
để phân đoạn video. Nghiên cứu về độ mặn sinh học cho rằng màu sắc về mặt khách

19

quan là một tác nhân kích thích và biểu tượng đối với con người, cịn về mặt chủ quan,
nó là một phản ứng và hành vi. Hệ thống thị giác của con người rất nhạy cảm với sự
thay đổi màu sắc bên ngồi.
Ngồi ra, mối quan hệ về khơng gian cũng ảnh hưởng đến độ nổi bật của thị giác, ví
dụ, độ tương phản cao của các khu vực lân cận có nhiều khả năng thu hút sự chú ý của
thị giác hơn. Tương tự như phương pháp tính điểm tương phản C, mỗi khung hình
trong video trước tiên được chuyển đổi sang khơng gian màu HSV, sau đó được xử lý
bằng cách sử dụng bộ lọc thơng thấp. Hình ảnh được lấy mẫu lại và chiều cao được
điều chỉnh thành 64, sau đó là điều chỉnh chiều rộng theo tỷ lệ khung hình. Tiếp theo,
điểm bão hịa màu trung bình S của khung hình được tính tốn.(2)Trong phân đoạn
video, ngồi thơng tin tính năng cơ bản, thơng tin ngữ nghĩa cấp cao cũng cần được
xem xét. Ở đây, phương pháp trong tài liệu tham khảo [26] được sử dụng để tính điểm
chú ý A. Bằng cách sử dụng mơ hình phát hiện độ nổi bật trực quan động dựa trên độ
dốc thời gian, các khung có thể gây chú ý trực quan được thu thập và điểm chú ý A
tương ứng được tính tốn. Thơng tin khn mặt có thể được sử dụng làm tài liệu tham
khảo quan trọng để truy xuất sự kiện video. Tương tự như phương pháp trong tài liệu
tham khảo [27], bằng cách phát hiện thông tin khuôn mặt trong khung, mỗi điểm số
được gán cho từng khn mặt được phát hiện và sau đó tất cả điểm số của các khuôn
mặt được phát hiện được thêm vào dưới dạng điểm số khuôn mặt F. Cuối cùng, đề cập
đến sự đóng góp trọng số của các tính năng khác nhau, sự kết hợp tuyến tính của các
tính năng đa phương thức được sử dụng để tính điểm SOI trong video:
Điểm = η(A) + C · E · S + γ (F) (1)
trong đó Iscore là điểm số cuối cùng của phép đo mức độ thú vị, γ = 0,5, η = 0,25.

Chúng tơi tính tốn điểm thú vị bằng cách sử dụng tổ hợp phi tuyến tính của các phân
số bao gồm Chú ý (A), Độ tương phản (C), Độ sắc nét (E), Độ sặc sỡ (S) và Tác động
trên khuôn mặt (F). Cuối cùng, ranh giới của video dài được xác định bởi điểm thú vị.
Các màu khác nhau thể hiện sự đóng góp của các tính năng — Chú ý, Độ tương phản,
Độ sắc nét, Màu sắc đẹp và Điểm trên khuôn mặt. Thử nghiệm thực nghiệm đã chỉ ra

NGUYỄN DUY QUỐC THÁI

MÔN: ITS

TIỂU LUẬN MÔN HỆ THỐNG GIAO THÔNG THÔNG MINH Đề tài: An Intelligent Video Analysis Method for Abnormal Event Detection in Intelligent Transportation Systems

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về