Tải bản đầy đủ (.docx) (34 trang)

Tổng quan về bài toán đo tốc độ phương tiện giao thông

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.16 MB, 34 trang )

BÁO CÁO:

TỔNG QUAN VỀ BÀI TOÁN ĐO TỐC ĐỘ PHƯƠNG TIỆN
GIAO THÔNG.
I, Giới thiệu
Hiện nay, trên thế giới các hệ thống giám sát bằng hình ảnh đã được phát
triển và đã chứng minh được hiệu quả nhất định trên một số lĩnh vực như giám sát
hoạt động con người , giám sát giao thông, ... Song các hệ thống vẫn gặp phải một
số tồn tại như hiệu quả của việc quan sát luôn phụ thuộc vào điệu kiện môi trường
quan sát, kiểu chuyển động của đối tượng hay các lý do khách quan khác. Chính vì
thế mà việc nghiên cứu và phát triển các giải pháp, công nghệ mới vẫn đang được
tiến hành nhằm đáp ứng được yêu cầu về một hệ thống giám sát thông minh hoàn
thiện nhất.

Các bài toán cần giải quyết
Một hệ thống đo tốc độ phương tiện giao thông là một tập hợp các bài toán
nhỏ. Nhìn một cách tổng quan:
-

Đầu vào của hệ thống sẽ là hình ảnh thu được tại các điểm quan sát

-

Đầu ra của hệ thống sẽ là các thông tin về chuyển động, hành vi, lớp…
của các phương tiện được giám sát.

Việc xử lý của hệ thống giám sát bằng hình ảnh tóm lại có thể hiểu là việc
phân tích và xử lý hình ảnh video qua việc giải quyết các bài toán sau:
Bài toán 1: Phát hiện các phương tiện chuyển động là bước cơ bản đầu tiên
trong bài toán phân tích hình ảnh video, công việc này khái quát lại đó là việc tách các
các phương tiện chuyển động trong từ các hình ảnh nền của các đối tượng đó. Phương


pháp thường được sử dụng trong bài toán này đó là: phương pháp trừ ảnh nền, các
phương pháp dựa trên thống kê, phương pháp chênh lệch tạm thời, và các phương
pháp dựa trên luồng thị giác.
Bài toán 2: Phân lớp đối tượng là công việc phân loại ra các lớp đối tượng đã
được tìm ra theo các lớp đã được định nghĩa trước ở đây là lớp phương tiện,,… Đây là

1


bước cần thiết để có thể tiếp tục phân tích các hoạt động của chúng. Hiện tại có hai
hướng chính tiếp cận để giải quyết bài toán này đó là: Hướng tiếp cận dựa trên hình
dáng của các vết và hướng tiếp cận dựa trên chuyển động của các đối tượng. Hướng
tiếp cận dựa trên hình dáng của đối tượng hoàn toàn dựa vào các tính chất 2D của các
vết tìm được, trong khi đó hương tiếp cận dựa trên chuyển động của đối tượng dựa
trên các tính chất chuyển động của đối tượng theo thời gian.
Bài toán 3: Theo dõi phương tiện đó là công việc đưa ra một chuỗi các hành
vi của phương tiện chuyển động trong một thời gian từ các khung hình thu được. Thủ
tục này đưa ra các thông tin về phương tiện được theo dõi như đường đi của phương
tiện, hướng chuyển động của phương tiện để thực hiện tính tốc độ. Đầu vào của quá
trình này đó là các đầu ra các quá trình tìm và phân lớp phương tiện chuyển động.

Mô hình khái quát chung

2


PHÁT HIỆN PHƯƠNG TIỆN

THÔNG TIN PHƯƠNG TIỆN CHUYỂN ĐỘNG


PHÂN LỚP ĐỐI TƯỢNG

THEO DÕI PHƯƠNG TIỆN

Đầu vào của bài toán là các khung hình video thu được. Qua quá trình xử lý
phát hiện đối tượng chuyển động (Object Detection ) sẽ đưa ra các đối tượng chuyển
động trong các khung hình video. Các đối tượng được phát hiện (cụ thể là các vết
chuyển động) sẽ qua quá trình phân lớp đối tượng (Object Classification ) để phân lớp
các đối tượng đó thuộc lớp nào, sự vật nào. Và cuối cùng là quá trình xử lý để theo dõi
đối tượng (Object Tracking) đó là việc tìm ra đường chuyển động của đối tượng, dự
đoán chuyển động, và việc xử lý các nhập nhằng trong chuyển động của nhiều đối
tượng khác nhau trong một đoạn video.
Từ các khung hình thu được ở các nơi quan sát, qua khối xử lý phát hiện đối
tượng chuyển động sẽ xác định được đâu là đối tượng chuyển động. Cụ thể hơn, có thể
chỉ ra được các đối tượng chuyển động trong đoạn video thu được một cách trực quan.
3


Đầu ra của quá trình này sẽ là các vết, hình dạng của đối tượng chuyển động để làm
đầu vào của khối phân loại đối tượng chuyển động.
Khối xử lý phát hiện đối tượng chuyển động có thể coi là khối xử lý đâu tiên
trong hệ thống giám sát bằng hình ảnh. Vì hiệu quả, tính chính xác của khối xử lý này
sẽ ảnh hưởng đến đầu vào và đầu ra của các khối xử lý tiếp theo. Chính vì thế nó ảnh
hưởng lớn đến hiệu quả và tính tin cậy của toàn hệ thống giám sát.
Phân loại là khâu trung gian và đóng vai trò quan trọng trong toàn hệ thống, vì
đây là đầu vào của khối theo vết đối tượng và cũng là đầu ra của toàn bộ hệ thống. Bởi
vậy đây cũng là một phần không thể thiếu trong toàn bộ hệ thống.
Khối xử lý theo vết là khối xử lý không thể thiếu trong hệ thống giám sát
thông minh vì hiệu quả của khối xử lý này ảnh hưởng trực tiếp đến đầu ra của toàn bộ
hệ thống. Do đó giải quyết tốt vấn đề theo vết đối tượng sẽ đưa lại tính chính xác và độ

tin cậy cho hệ thống giám sát.
Vấn đề này đã được nghiên cứu và phát triển trong nhiều năm, song hướng
phát triển hoàn thiện các khối xử lý phát hiện, phân loại và theo dõi đối tượng chuyển
động vẫn đang được quan tâm. Các hướng tiếp cận mới nhằm phát hiện, phân loại và
theo dõi các đối tượng một cách hiệu quả, tính chính xác cao nhất với điều kiện môi
trường, hoàn cảnh giám sát khác nhau.
Tổng quan bài toán phát hiện, phân loại, theo dõi đối tượng
chuyển động
Bài toán xử lý video là việc xử lý tuần tự các bài toán độc lập. Các bài toán đó là:

I, Bài toán phát hiện đối tượng chuyển động
Đầu vào của bài toán phát hiện đối tượng chuyển động như đã trình bày ở trên
đó là các khung hình video [1] thu được từ các điểm quan sát, theo dõi. Như vậy để có
thể giải quyết bài toán phát hiện đối tượng chuyển động ta cần nghiên cứu một số đặc
điểm của video (đầu vào của bài toán).
1. Các khái niệm cơ bản về video
Video là tập hợp các khung hình, mỗi khung hình là một ảnh. Shot (lia) là đơn
vị cơ sở của video. Một lia là một đơn vị vật lý của dòng video, gồm các chuỗi các
khung hình liên tiếp, không thể chia nhỏ hơn, ứng với một thao tác camera đơn.

4


Scene (cảnh) là các đơn vị logic của dòng video, một cảnh gồm các lia liên
quan về không gian và liền kề về thời gian, cùng mô tả một nội dung ngữ nghĩa hoặc
một tình tiết.

Hình 1: Cấu trúc phân đoạn video

Khi phim được chiếu, các khung hình lần lượt được hiển thị ở tốc độ nhất

định. Tốc độ thường thấy ở các định dạng video khác nhau là 30 và 25 hình/s. Như vậy
một giờ video sẽ có số khung hình tương ứng là 108000 hoặc là 90000. Dù là video ở
định dạng nào thì nó cũng có dung lượng rất lớn và nếu xử lý với tất cả các khung hình
thì thật không hiệu quả.
Phân đoạn là quá trình phân tích và chia nội dung hình ảnh video thành các
đơn vị cơ sở gọi là các lia (shot). Việc lấy mẫu chính là chọn gần đúng một khung
video đại diện cho mỗi lia (hoặc nhiều hơn tùy theo mức độ phức tạp của nội dung
hình ảnh của lia) và được gọi là các khung-khóa [1].
Khung – khóa là khung hình đại diện mô tả nội dung chính của shot.
Quá trình phân đoạn dữ liệu video tiến hành phân tích, phát hiện sự chuyển
đổi từ lia này sang lia khác hay chính là sự phát hiện ranh giới giữa các lia (đó chính là
đo sự khác nhau giữa các khung hình liền kề). Trong hình dưới đây là ví dụ về sự
chuyển đổi giữa các lia:

5


Hình 2: Chuyển đổi Lia giữa khung hình thứ 3 và thứ 4

Một số thuộc tính đặc trưng của video:
Video có 4 đặc trưng chính đó là: Color (màu), Texture (kết cấu), Shape(hình
dạng), Motion (chuyển động).

1.1 Màu ( Color)
Màu là một thuộc tính quan trọng của ảnh. Biểu đồ màu, biểu diến sự phân bố
màu, là một đặc trưng màu phổ biến nhất hiện nay. Biểu đồ màu không phụ thuộc vào
sự quay, dịch chuyển ảnh cũng như chiều nhìn ảnh. Tính hiệu quả của nó lại phụ thuộc
vào hệ màu và phương pháp định lượng được dùng. Có một vấn đề với biểu đồ màu là
nó không biểu diễn thông tin về không gian phân bố các điểm ảnh, do đó hai ảnh có
cùng biểu đồ màu có thể có nội dung rất khác nhau.


1.2 Texture
Đây là một đặc trưng quan trọng của bề mặt, nơi xảy ra việc lặp lại mẫu cơ
bản. Có hai dạng biểu diễn texture phổ biến: biểu diễn dạng ma trận đồng thời và biểu
diễn Tamura. Ma trận đồng thời mô tả hướng và khoảng cách giữa các điểm ảnh, nhờ
đó các thống kê có nghĩa có thể được trích chọn. Ngược lại, người ta thấy rằng entropi
và mô men chênh lệch nghịch đảo lại có khả năng phân biệt tốt nhất. Biểu diễn
Tamura được thúc đẩy nhờ các nghiên cứu về tâm lý trong việc thu nhận trực giác của
con người và nó bao gồm các đại lượng đo tính thô, độ tương phản, hướng, tính trơn,
tính cân đối và độ ráp. Các đặc trưng Tamura rất hấp dẫn trong việc hiểu nội dung ảnh
vì nó biểu đạt trực quan. Ngoài ra còn có một số các dạng biểu diễn khác như trường
ngẫu nhiên Markov, biến đổi Gabor, biến đổi gợn sóng,..

1.3. Shape
Các đặc trưng hình dáng có thể được biểu diễn sử dụng phân tích hình dáng
truyền thống như bất biến mô men, mô tả Fourier, mô hình học tự động quay lui và các
thuộc tính hình học. Các đặc trưng này có thể được phân chia thành đặc trưng toàn cục
và đặc trưng cục bộ. Đặc trưng toàn cục là đặc trưng thuộc tính thu được từ toàn bộ
hình dáng ảnh, chẳng hạn như chu vi, tính tròn, mô men trung tâm, hướng trục chính...
6


Đặc trưng cục bộ là đặc trưng thu được từ việc thao tác với một phần của ảnh, không
phụ thuộc vào toàn bộ ảnh.

1.4. Motion
Motion là thuộc tính quan trọng của video. Thông tin về chuyển động có thể
được sinh ra bằng các kỹ thuật ghép khối hoặc luồng ánh sáng. Các đặc trưng chuyển
động như mô men của trường chuyển động, biểu đồ chuyển động hoặc là các tham số
chuyển động toàn cục có thể được trích chọn từ vectơ chuyển động. Các đặc trưng

mức cao phản ánh di chuyển camera như quét camera (pan), nghiêng (tilt), phóng to
(zoom out), thu nhỏ (zoom in) cũng có thể được trích chọn.
2. Phát hiện đối tương chuyển động là gì?
Đó là quá trình đưa ra vết các đối tượng chuyển động từ các khung hình video
[4.2]. Quá trình này thực chất là quá trình xử lý chuỗi ảnh liên tiếp trong một đoạn
video để phát hiện ra các đối tượng chuyển động trong một đoạn hình ảnh theo mô
hình dưới đây:

7


Các khung hình video

Các đối tượng chuyển động, các tính chất của chúng

PHÁT HIỆN CÁC VÙNG ẢNH NỔI
(FOREGROUND DETECTION)

XỬ LÝ CÁC VÙNG Ả
(FOREGROUND PRO

8


Hình 3: Tổng quan các khối xử lý trong bài toán phát hiện đối tượng

2.1. Phát hiện các vùng ảnh nổi
Phát hiện các vùng ảnh nổi là một module thiết yếu trong bài toán phát hiện
đối tượng chuyển động qua các khung hình video. Module này đóng vai trò xử lý các
khung hình video để đưa ra các vùng ảnh nổi lên trên các khung hình nền. Để minh

họa cho chức năng module này ta có thể nhìn hình dưới đây:

Hình 4: Phát hiện các vùng ảnh nổi

Các khung hình bên trái thu được sẽ được xử lý để đưa ra các vùng ảnh nổi lên
trên (Vết các đối tượng chuyển động trên một ảnh nền ) được minh họa hình phía bên
phải. Vùng ảnh nổi thu được như quan sát, vẫn còn nhiều nhiễu, các đối tượng chuyển
động chưa có hình dạng rõ ràng do đó phải được xử lý ở module sau để có thể đưa ra
các đối tượng chuyển đông với các tính chất của chúng.
2.2. Xử lý các vùng ảnh nổi
Các vùng ảnh nổi lên thực tế vẫn còn nhiều nhiễu, do đó để lọc nhiễu, xử lý
ghép mảnh, loại bỏ các vết không liên quan thì cần phải sử dụng module xử lý các
vùng ảnh nổi để đưa ra được các đối tượng chuyển động rõ ràng để từ đó xác đinh các
tính chất của chúng. Chức năng của module này được minh hoạ bằng hình vẽ dưới
đây.

9


Hình 5: Xử lý các vùng ảnh nổi (Foreground Processing)

Hình bên trái là kết quả thu được sau module phát hiện các vùng ảnh nổi lên từ
các khung hình video. Như quan sát các kết quả này thực sự còn rất nhiều nhiễu, các
vết không liên quan đến đối tượng cần phát hiện. Ảnh bên phải chính là kết quả đầu ra
của quá trình xử lý các vùng ảnh nổi. Từ các kết quả đầu ra này ta có thể đưa ra được
chính xác đối tượng chuyển động trong các khung hình đó và các tính chất của nó như
hình dạng, vị trí, …là đầu vào của quá trình phân loại đối tượng trong hệ thống theo
dõi giám sát.
3. Các vấn đề phải giải quyết
3.1. Phát hiện các vùng ảnh nổi

Hình ảnh video là một chuỗi các khung hình liên tiếp được thể hiện trong một
thời gian. Phát hiện vùng ảnh nổi bản chất là việc so sánh các khung hình liên tiếp
trong một đoạn video để từ đó có thể đưa ra các vùng ảnh khác nhau giữa các khung
hình liên tiếp đó. Đây chính là nguyên lý cơ bản để bắt được vết các đối tượng chuyển
động, vì chỉ khi có đối tượng chuyển động trong khung hình thì mới có sự khác nhau
giữa các khung hình liên tiếp từ đó sẽ thu được các vết chuyển động của vật thể. Đã có
nhiều phương pháp được đưa ra để giải quyết vấn đề này, các phương pháp giải quyết
có những ưu nhược điểm riêng phù hợp với các điều kiện và hoàn cảnh giám sát khác
nhau. Song khái quát lại có thể phân thành các loại phương pháp sau [2][3]:
-

Các phương pháp trừ ảnh nền (Background Subtraction)

-

Các phương pháp dựa trên thông kê (Statistical Methods)

-

Các phương pháp dựa trên sự chênh lệnh tạm thời giữa các khung
hình (Temporal Differencing)

Dưới đây là một số khái quát về các phương pháp được trình bày ở trên.
3.1.1. Các phương pháp trừ ảnh nền (Background subtraction)
Phương pháp trừ ảnh nền là phương pháp rất phổ biến và hiệu quả trong việc
giải quyết phân đoạn với những đoạn hình ảnh có khung cảnh tĩnh. Có nhiều kỹ thuật
trừ ảnh [1][4], bằng việc sử dụng phép trừ ảnh ở mức điểm ảnh, một khung hình sẽ
được so sánh với một hình nền để từ đó đưa ra vùng các điểm ảnh khác nhau giữa
khung hình đó và ảnh nền. Các điểm ảnh khác nhau sẽ được hiểu như là các điểm ảnh


10


nổi lên trên ảnh nền. Sau khi tìm ra các vùng ảnh nổi, các vùng này sẽ được xử lý để
lọc đi các nhiễu, các vết không phù hợp bằng một số thuật toán lọc nhiễu khác nhau.
Cụ thể xét một điểm ảnh I(x,y) trong một khung hình mới và B(x,y) là điểm
ảnh trên ảnh nền đều có tọa độ (x, y). Điểm ảnh I được coi là điểm ảnh nổi
(foreground) nếu :
|I(x,y) – B(x,y| >
Trong đó

τ

τ

(2.1)

là một ngưỡng được định nghĩa từ trước

Ảnh nền B được cập nhật bằng cách sử dụng phương pháp lọc Infinite Impulse
Response (IIR) theo công thức sau:
Bt +1 = αI t + (1 − α ) Bt

(2.2)

It

Trong đó
là điểm ảnh nổi tại thời điểm t,
α

thời điểm t, là tham số được định nghĩa trước

Bt

là diểm anh nền tại

Phương pháp trừ ảnh nền được sử dụng khá phổ biến song nó không là lựa
chọn tốt đối với những đoạn video có khung cảnh không ổn định ví dụ như khung cảnh
ánh sáng luôn bị thay đổi liên tục hay những khung cảnh có độ nhiễu lớn (ví dụ như
những cây luôn dao động liên tục khi có gió).
3.1.2. Các phương pháp thông kê (Statistical Methods)
Phương pháp thống kê sử dụng việc thông kê các đặc điểm riêng của các điểm
ảnh để phát triển một thuật toán có thể vượt qua được những khó khăn mà phương
pháp trừ ảnh nền gặp phải đó là những khó khăn gặp phải khi khung cảnh luôn thay
đổi bởi nhiều yếu tố môi trường. Có nhiều phương pháp thống kê [5][6], song phương
pháp thống kê cơ bản vẫn dựa trên kỹ thuật trừ ảnh nền song thêm vào đó nó thực hiện
ăn khớp, và cập nhật động thông tin các điểm ảnh thuộc ảnh nền đang được xử lý. Các
điểm ảnh nổi sẽ được xác định bởi việc so sánh các thông tin của điểm ảnh với các mô
hình ảnh nền. Phương pháp này được sử dụng khá phổ biến trong những khung cảnh
có nhiều nhiễu, ánh sáng thay đổi liên tục.
Xét một hệ thống sử dụng phương pháp thông kê. Trong phương pháp này mỗi
điểm ảnh sẽ được biếu diễn bởi cường độ lớn nhất M và nhỏ nhất N và độ khác nhau D
giữa các khung hình liên tiếp được chỉ ra trong một khoảng thời gian mà ở đó chưa có

11


chuyển động của đối tượng. Một điểm ảnh
ảnh nổi lên khi :
| M ( x, y ) − I t ( x, y ) |> D( x, y |


hoặc

It

tại thời điểm t được xác định là điểm

| N ( x, y ) | − I t ( x, y ) > D ( x , y )

(2.3)

Sau bước này các điểm ảnh nổi lên sẽ được xử lý để xóa đi các điểm có độ
nhiễu cao. Một ví dụ của phương pháp thống kê, Stauffer và Grismon mô tả một
phương pháp tương hợp các ảnh nền cho bài toán theo vết đối tượng. Phương pháp của
họ đó là mọi điểm ảnh sẽ được mô hình hóa riêng rẽ bởi phép kết hợp Gauss. Trong
quá trình phát hiện liệu điểm ảnh này thuộc ảnh nền hay là điểm ảnh nổi lên, phương
pháp phân tán Gauss các mô hình hỗn độn này sẽ đưa ra đánh giá về điểm ảnh và có
thể kết luận được điểm ảnh đó thuộc ảnh nền hay thuộc phần ảnh nổi lên được phát
hiện ra. Việc thực thi thuật toán này sẽ được trình bày trong phần sau
3.1.3. Phương pháp chênh lệch tạm thời (Temporal Differencing)
Phương pháp chênh lệch tạm thời [2] thực hiện việc phát hiện vùng chuyển
động bằng cách sử dụng sự khác nhau ở mức điểm ảnh giữa hai hoặc ba khung hình
liên tiếp trong một chuỗi các khung hình video. Phương pháp này khá tốt đối với
khung cảnh động nhiều thay đổi song nó lại thất bại trong việc phát hiện ra các điểm
ảnh có liên quan đến một số kiểu chuyển động. Ví dụ đối tượng chuyển động trong
hình dưới đây. Vùng ảnh màu đỏ là vùng đưa ra các điểm ảnh khác nhau dựa trên
phương pháp chênh lệch tạm thời song nó không thể đưa được ra tất các các vùng
chuyển động của người đó.

Phương pháp chênh lệch tạm thời được thực hiện qua công thức


| I t ( x, y ) − I t −1 ( x, y ) |> τ

Trong đó

I t ( x, y )

(2.4)

là điểm ảnh có tọa độ (x,y) của khung hình tại thời điểm t

I t −1

còn
là điểm ảnh có tọa độ (x,y) của khung hình tại thời điểm t-1. Còn
được định nghĩa trước đó.

12

τ

là ngưỡng


3.2. Xử lý các vùng ảnh nổi
Như ta đã biết, sau kết quả xử lý của module phát hiện vùng ảnh nổi còn rất
nhiều nhiễu do đó cần phải lọc bỏ đi các nhiễu này và thực hiện xác định rõ đối tượng
chuyển động cùng với các tính chất của chúng.
Module Xử lý các vùng ảnh nổi được thiết kế để xử lý ở mức điểm ảnh để loại
bỏ đi các nhiễu hoàn thành bài toán phát hiện đối tượng chuyển động.Yếu tố điều kiện

môi trường, hoàn cảnh quan sát và các yếu tố khách quan là các nguyên nhân chính
gây lên nhiễu trong khi giám sát. Có nhiều nguyên nhân gây nhiễu [2], một trong số
nguyên nhân gây nhiễu đó là:
Nhiễu do Camera quan sát: Các nhiễu này do Camera quan sát gây
lên, là các yếu tố khách quan phụ thuộc vào chất lượng loại bỏ nhiễu của Camera được
sử dụng quan sát.
Nhiễu do phản xạ: Do sự phản xạ ánh sáng khung cảnh được quan
sát, cụ thể là một số phần của khung hình nền sẽ phản xạ ánh sáng mặt trời do đó sẽ
gây nên nhiễu.
Nhiễu do sự đồng màu: Đối tượng chuyển động có cùng màu với
màu khung hình nền sau nó do đó sẽ gây ra nhiễu (không thể phát hiện được toàn phần
đối tượng chuyển động)
Nhiễu do bóng của đối tượng chuyển động và điều kiện ánh sáng
thay đổi: Trong điều kiện ánh sáng vật thể sẽ tạo bóng lên khung hình, khi đối tượng
chuyển động thì bóng cũng thay đổi do đó gây ra nhiễu.
Các nhiễu trong điều kiện quan sát ngoài trời: Điều kiện quan sát
ngoài trời là điều kiện quan sát phức tạp nhiều nhiễu nhất ví dụ như nhiễu do tán lá cây
lay động, nhiễu do sự thay đổi liên tục của ánh sáng ngoài trời,…
Module xử lý vùng ảnh nổi có thể được khái quát qua một số khối xử lý sau
đây:
-

Tiền xử lý mức điểm ảnh nổi: Loại bỏ nhiễu, phát hiện bóng, …

-

Phân tích liên kết các khối: Liên kết các vùng điểm ảnh thành các

khối
Tiền xử lý các vùng ảnh nổi: Kết hợp các khổi ảnh nổi đã được phân

tích bước trên đưa ra các đối tượng đã được làm sạch.

13


Xác định tính chất đối tượng: Từ các khối đại diện cho đối tượng tiến
hành xác định tính chất của đối tượng như: Hình bao, diện tích, vị trí, …
Biểu đồ điểm ảnh nổi và khung ảnh hiện tại

1. TIỀN XỬ LÝ MỨC ĐIỂM ẢNH

Vùng điểm ảnh nổi đã làm sạch
2. PHÂN TÍCH SỰ LIÊN KẾT CÁC KHỐI

Các khối đã được đánh dấu
3. TIỀN XỬ LÝ VÙNG ẢNH NỔI

Các khối đã được lọc, làm sạch
4. ĐƯA RA TÍNH CHẤT CỦA ĐỐI TƯỢNG
Vết của đối tượng và các tính chất của chúng

Hình 6: Xử lý các vùng ảnh nổi

II. Bài toán phân loại đối tượng
Đầu vào của bài toán phân loại đối tượng chuyển động là các vết đối tượng,
các đặc trưng của đối tượng đã được phát hiện thông qua khối xử lý phát hiện đối
tượng. Cụ thể là hình bao, diện tích, trọng tâm, biểu đồ màu của vùng đối tượng
chuyển động được phát hiện.

14



Đầu ra của bài toán phân loại đối tượng chuyển động là thông tin về lớp đối
tượng chuyển động được phát hiện. Cụ thể: đối tượng thuộc lớp nào và thông tin về
các thuộc tính của đối tượng trong lớp đó.
1. Phân loại đối tượng là gì?
Phân loại đối tượng là quá trình phân lớp đối tượng chuyển động thuộc lớp sự
vật nào . Các vùng chuyển động phát hiện được ( trong bước phát hiện đối tượng
chuyển động) trong video tương ứng với các đối tượng khác nhau như người bộ
hành, xe cộ, … Nhận biết kiểu(loại) của một đối tượng phát hiện được để theo dõi
tin cậy và phân tích hành động của nó một cách chính xác là rất quan trọng. Module
này là phần thứ hai trong mô hình xử lý hình ảnh. Hiện tại, có hai cách tiếp cận chủ
yếu:
- Phương pháp dựa trên hình dạng( shape)
- Phương pháp dựa trên sự chuyển động( motion) .
Các phương pháp dựa trên hình dạng sử dụng thông tin không gian hai chiều
của đối tượng trong khi đó các phương pháp dựa trên sự chuyển động sử dụng các
đặc trưng thuộc thời gian đã được theo dõi của các đối tượng cho giải pháp phân
loại.
1.1. Phân loại dựa trên hình dạng( Shape- based Classification)
Các đặc trưng thông thường được sử dụng trong việc phân loại dựa trên hình
dạng là hình bao, diện tích, hình chiếu, và gradient của các vùng đối tượng phát hiện
được.
Cách tiếp cận trong [7] sử dụng độ dài đường viền hình chiếu của đối tượng
và thông tin về diện tích để phân loại các đối tượng phát hiện được vào ba nhóm:
người, xe cộ, và các loại khác. Phương pháp xuất phát từ giả thuyết người nhỏ hơn
các phương tiện( xe cộ) và có các hình dạng phức tạp. Độ phân tán( dispersedness)
được sử dụng như độ đo phân loại và nó được định nghĩa dưới dạng diện tích và độ
dài( chu vi) đường viền như sau:
Dispersedn ess =


Perimeter
Area

2

(2.5)

Việc phân loại được thực hiện tại mỗi khung hình và các kết quả theo dõi
đuợc sử dụng để cải thiện sự nhất quán thời gian của việc phân loại.

15


Phương pháp phân loại phát triển bởi Collins [8] sử dụng các đặc trưng trực
quan phụ thuộc của các đối tượng để huấn luyện một bộ lọc mạng nơron nhận biết
bốn lớp đối tượng: người, nhóm người, xe cộ và các loại khác. Đầu vào của mạng
nơron là độ phân tán, diện tích và tỉ lệ bề ngoài của vùng đối tượng và độ phóng đại
của camera. Giống như phương pháp trước, việc phân loại được thực hiện tại mỗi
khung hình. Các kết quả được giữ trong một lưu đồ( histogram) để cải thiện sự nhất
quán thời gian của việc phân loại.
1.2. Phân loại dựa trên chuyển động( Motion- based Classification)
Một vài phương pháp chỉ sử dụng các đặc trưng chuyển động thuộc thời gian
của đối tượng nhằm nhận biết lớp của chúng [9], [10], [11]. Thông thường, chúng
được dùng để phân biệt các đối tượng linh động ( non-rigid) với các đối tượng không
linh động. Phương pháp đề cập trong [9] dựa trên sự tự tương đồng mang tính thời
gian của một đối tượng chuyển động. Bởi vì một đối tượng thể hiện sự tiến triển
mang tính chu kỳ của chuyển động, các độ đo sự tự tương đồng của nó cũng chỉ ra
một chuyển động mang tính chu kỳ. Phương pháp khai thác đầu mối này để phân loại
đối tượng chuyển động sử dụng tính chu kỳ.

Sự phân tích luồng quang học cũng có ích để phân biệt các đối tượng linh
động và không linh động( rigid và non-rigid). A.J.Lipton đề xuất một phương pháp
sử dụng luồng quang học cục bộ phân tích các vùng đối tượng [11]. Các đối tượng
linh động được trông đợi sẽ có luồng thặng dư ( residual) trung bình cao trong khi đó
các đối tượng không linh động sẽ có luồng thặng dư thấp. Theo đó, luồng thặng dư
sinh ra bởi chuyển động của người sẽ có một tính chu kỳ. Bằng cách sử dụng phương
pháp này, chuyển động của xe cộ có thể được phân biệt với các đối tượng khác.
Hai cách tiếp cận thông thường được đề cập ở trên, gọi tên là phân loại dựa
trên hình dạng và phân loại dựa trên chuyển động có thể được kết hợp một cách có
hiệu quả cho việc phân loại đối tượng chuyển động. Hơn nữa, Stauffer đề xuất một
phương phương pháp dựa trên ma trận thời gian đồng sự kiện( co-occurrence matrix)
để phân loại một cách phân cấp cả các đối tượng và hành vi. Bằng cách sử dụng
thêm các đặc trưng như màu và vận tốc phương pháp này được mong đợi sẽ cho kết
quả phân loại chính xác hơn.
Tóm lại, phân loại đối tượng trong các hình ảnh video là một vấn đề đối tượng
tương đối khó. Mỗi phương pháp có ưu và nhược điểm riêng phù hợp với từng hoàn
cảnh, bài toán khác nhau. Để đạt được hiệu quả tốt, ta cần phân tích bài toán, hoàn

16


cảnh cụ thể và lựa chọn phương pháp thích hợp. Trong bài toán theo dõi giám sát
giao thông chúng tôi lựa chọn phương pháp phân loại dựa trên hình chiếu.
2. Một số phương pháp phân loại phổ biến.
2.1. Phương pháp dựa trên hình dạng( Shape- based)
Phần này trình bày một phương pháp đơn giản hơn dựa trên sự tổng hợp của
sự chênh lệch thời gian ( temporal differencing) và đối sánh ảnh mẫu( image
template matching) cho phép đạt hiệu quả cao trong việc theo dõi trong môi trường
nhiễu và cho phép phân loại tốt. Do đó sử dụng bộ lọc Kalman hoặc các cách tiếp
cận xác suất khác để giải quyết nhược điểm này.

Hai phương pháp cơ bản cho theo dõi mục tiêu trong các ứng dụng theo dõi
đối tượng là chênh lệch thời gian( temporal differencing)- DT và đối sánh sự tương
quan mẫu. Trong cách tiếp cận đầu, các khung hình video phân tách bởi một hằng số
δt
thời gian
được so sánh để tìm các vùng đã thay đổi. Trong cách tiếp cận sau, mỗi
ảnh video được quét cho vùng mà có sự tương quan tốt nhất với một ảnh mẫu. Một
cách độc lập, các phương pháp này có những thiếu sót quan trọng.

Theo dõi DT sẽ không thể nếu có sự chuyển động đáng kể của camera, trừ khi
áp dụng một thuật toán làm ổn định ảnh. Nó cũng sai nếu mục tiêu bị chồng chéo
hoặc ngừng chuyển động. Đối sánh sự tương đồng mẫu thường đòi hỏi sự xuất hiện
của đối tượng mục tiêu còn lại hằng số. Phương pháp này không hiệu quả trong việc
thay đổi kích cỡ đối tượng, định hướng hoặc thậm chí thay đổi điều kiện chiếu sáng.
Tuy nhiên, các thuộc tính theo dõi của hai phương pháp này bổ sung cho
nhau. Khi mục tiêu là cố định, thì đối sánh mẫu thí hiệu quả nhất trong khi DT thì
sai. Và khi mục tiêu di chuyển, DT sẽ thành công nhưng đối sánh mẫu có xu hướng
bị “trôi đi”.
Đó chính là mục đích cho việc kết hợp hai phương pháp. Ý tưởng là sử dụng
DT để dò tìm các mục tiêu di động và đào tạo( training) thuật toán đối sánh mẫu.
Những mục tiêu này sau đó được theo dõi sử dụng đối sánh mẫu được hướng dẫn bởi
giai đoạn DT. Sự kết hợp này, ngăn ngừa sự đòi hỏi bất cứ sự lọc mang tính dự đoán
nào trong tiến trình theo dõi bởi vì việc theo dõi đã được chỉ dẫn bởi việc dò tìm
chuyển động. Mô hình đơn giản này đưa ra một kết quả đáng ghi nhận.
Phần này mô tả một hệ thống cho việc theo dõi các mục tiêu một cách hiệu
quả vào hai loại: “người” và “xe cộ” cho một ứng dụng theo dõi video ngoài trời.
17


Việc theo dõi mục tiêu dựa trên hai nguyên lý: (a) Tính nhất quán thời

gian( temporal consistency) cái mà cung cấp một cách hiệu quả cho việc phân loại
các mục tiêu di động đồng thời loại bỏ sự nhiễu( hỗn loạn) nền, và (b) sự kết hợp của
việc dò tìm chuyển động với đối sánh mẫu dựa trên ảnh( image- based) cung cấp một
giản đồ theo dõi đối tượng khá hiệu quả. Phân loại mục tiêu dựa trên một ứng dụng
đơn giản của việc đánh giá khả năng lớn nhất sau khi tính toán một hình đơn giản
dựa trên độ đo cho mỗi mục tiêu.
2.1.1. Cấu trúc tổng quát của phương pháp
Hệ thống này gồm ba thành phần chính thể hiện trong hình 2-9. Trong phần
đầu tiên, tất cả các đối tượng chuyển động được dò tìm sử dụng một thuật toán chênh
lệch thời gian( temporal differencing). Chúng được mô tả như những vùng chuyển
động( motion region). Mỗi vùng được phân loại tại mỗi khung hình thời gian sử
dụng một độ đo phân loại dựa trên ảnh( image- based). Các phân loại cho mỗi vùng
chuyển động đơn lẻ được ghi lại qua một khoảng thời gian, và một tiêu chuẩn đánh
giá có khả năng lớn nhất MLE( Maximum Likelihood Estimation) được dùng để
phân loại đúng mỗi đối tượng. Khi đối tượng đã được phân loại nó có thể được dùng
như các mẫu training cho tiến trình theo dõi.

18


Hình 2-9: Tổng quan của một hệ thống xác định và theo dõi. Đối tượng chuyển động
được dò tìm trong một luồng video sự dụng phương pháp chênh lệch thời gian. Các
mục tiêu sau đó được phân loại bằng một độ đo phân loại. Sau đó các mục tiêu này
được theo dõi bằng một thuật toán theo dõi( trình bày ở phần theo dõi)

2.1.2. Phân loại đối tượng
Có hai thành phần chính cho việc phân loại các mục tiêu: toán tử xác định độ
đo ID(x) được sử dụng cho việc phân biệt các loại mục tiêu( trong trường hợp này,
một độ đo dựa trên ảnh( image- based) rất đơn giản được sử dụng), và khái niệm của
nhất quán thời gian. Nếu một mục tiêu tồn tại vượt quá một khoảng thời gian, nó sẽ

là một ứng viên tốt cho việc phân loại. Nếu không, nó sẽ được coi là hỗn loạn
nền( background clutter). Vào mỗi thời điểm, nó được phân loại dựa trên ID(x).
Những sự phân loại này được thu thập cho tới khi có một quyết định thống kê cho
việc phân loại của mục tiêu. Một phiên bản của MLE được sử dụng để tạo một quyết
định phân loại.
2.1.3. Nhất quán thời gian( Temporal Consistency).
Khó khăn chính đối việc phân loại là trong bất cứ khung đơn nào, thể hiện của
một vùng chuyển động nào đó có thể không biểu hiện được đặc điểm đúng của nó.
Ví dụ, một phương tiện bị chồng chéo một phần có thể trong giống người, hoặc một
vài nền hỗn loạn có thể trong giống một phương tiện. Để khắc phục vấn đề này, một
cách tiếp cận đa giả thuyết( multiple hypothesis) được sử dụng.
Bước đầu tiên trong tiến trình này là ghi lại tất cả
năng( potential taget)

Pn (i ) = Rn (i )

Nn

mục tiêu có tiềm

từ các khung hình khởi đầu. Những vùng này

19


được phân lại dựa trên toán tử độ đo phân loại
giả thuyết phân loại

X (i )


ID (x)

và kết quả được ghi lại như một

cho mỗi vùng:

X (i ) = {ID ( Pn (i ))}

(2.6)

Mỗi vùng của các mục tiêu tiềm năng này phải được quan sát trong các khung
hình đến sau để quyết định nó tồn tại hay không, và để tiếp tục phân loại chúng. Vì
vậy cho các khung hình mới, mỗi vùng chuyển động trước

Pn−1 (i )

được đối sánh với

Rn ( j )

vùng không gian chuyển động hiện tại gần nhất
dựa trên một quy tắc trạng
thái ở gần qua lại( mutual proximity). Sau tiến trình này, bất cứ mục tiêu tiềm năng
trước

Pn−1 (i )

mà không phù hợp( đối sánh) với các vùng hiện tại sẽ được coi là
Rn


khoảng đệm và bị loại bỏ khỏi danh sách, và bất cứ vùng chuyển động hiện tại
nào mà không được đối sánh sẽ được coi là các mục tiêu tiềm năng mới. Tại mỗi
khung hình, các phân loại mới của chúng( dựa trên toán tử độ đo) được dùng để cập
nhật giả thuyết phân loại:
X (i ) = { X (i )} ∪ {ID ( Pn (i ))}

(2.7)

Theo cách này, thống kê của một mục tiêu tiềm năng có thể được tạo trong
một khoảng thời gian cho tới khi quyết định phân loại chính xác.
2.1.4. Độ đo phân loại.
Để phân loại các mục tiêu trong các ứng dụng theo dõi đối tượng sẽ rất cần
thiết tìm một độ đo phân loại mà không đòi hỏi tính toán nhiều, nó có hiệu quả đáng
kể cho số lượng nhỏ điểm ảnh trên mục tiêu, và bất biến với điều kiện ánh sáng hoặc
điểm nhìn. Bởi vì các mục tiêu cần chú ý nhất là người và phương tiện, nên bộ phân
loại cần dò tìm hai nhóm đối tượng này. Độ đo được dựa trên tri thức là: người
thường nhỏ hơn phương tiện, và có hình dạng phức tạp hơn.
Một cách tiếp cận bi-variate được dùng, với diện tích tổng của mục tiêu( đối
tượng) trên 1 trục, và độ phân tán của nó trên trục khác. Độ phân tán( dispersedness)
dựa trên các tham số hình dạng của mục tiêu đơn giản và được cho bởi:

20


Perimeter
Dispersedn ess =
Area

2


(2.8)

Trong đó Dispersedness là độ phân tán, Perimeter là độ dài, Area là diện tích
tổng của đối tượng.
Một cách rõ ràng, một người, với hình dạng phức tạp hơn của nó, sẽ có độ
phân tán lớn hơn một phương tiện( xem hình 2-10). Hình 2-11 chỉ sự phân bố của
một mẫu học( training sample) của hơn 400 mục tiêu. Ngoài ra, nó cũng chỉ ra một
phân đoạn tuyến tính( linear segmentation) và một phân đoạn dựa trên khoảng cách
Mahalanobis( Mahalanobis distance- based segmentation)- cái mà cung cấp một
phương pháp phân đoạn tốt hơn cho mục đích phân loại.

Hình2-10: Các giá trị thông thường của độ phân tán cho người và xe cộ

Hình 2-11: Dữ liệu phân loại bi- viriate mẫu training qua 400 ảnh. Cả phân cụm tuyến
tính và Mahalanobis đều được biểu diễn

2.1.5. Phân loại mục tiêu
Trong thực thi này, một ứng dụng đơn giản của MLE được áp dụng để phân
loại mục tiêu. Một lưu đồ phân loại( classification histogram) được tính toán cho mỗi
21


vùng chuyển động tại mỗi thời điểm và nếu mục tiêu vẫn còn tồn tại cho thời gian
, đỉnh của lưu đồ được dùng để phân loại mục tiêu. Hơn nữa, tại mỗi thời điểm
thời gian sau

t class

, đối tượng có thể được phân loại lại.


Một lợi ích của phương pháp này là nếu một đối tượng bị chồng chéo tạm
thời, nó sẽ không ảnh hưởng bất lợi tới kết quả phân loại cuối cùng. Hình 2-12 chỉ ra
một tình huống trong đối một đối tượng bị phân loại sai bởi vì bị chồng chéo một
phần, nhưng sau khi qua một khoảng thời gian, những số liệu thống kê phân loại sẽ
phân loại lại nó một cách chính xác.
Một lợi ích xa hơn của phương pháp này là nó hiệu quả với nền hỗn
loạn( background clutter) như lá cây đang thổi trong gió. Những tác động này xuất
hiện như những chuyển động rất ngắn ngủi và không bền vững. Dường như những
chuyển động này sẽ không thể hiện đủ lâu đề được phân loại. Nếu nó tiếp tục tồn tại,
nó cũng không chắc sẽ bị phân loại sai một cách nhất quán cho một khoảng thời gian
dài.

22


Hình 2-12: Quá trình phân loại, phải sau một vài khung hình đối tượng mới được xác
định đúng.

2.2. Phương pháp phân loại dựa trên chuyển động.

Hình 2-13: Các đường viền của mục tiêu được sự dụng cho việc trích rút các đặc trưng
chuyển động

Hệ thống trích rút các đặc trưng chuyển động từ các đường viền đích( Hình 213). Có hai phương pháp cho việc thu được các đường viền từ các ảnh đen trắng.
Phương pháp đầu tiên là đo đạc đường viền hoạt động, trong đó một đường viền của
một mục tiêu được tìm kiếm như một đường cong C, cái mà làm giảm tối thiểu hàm
số:
S [δ ] =

L (δ )


∫ g (δ )ds + α ∫δ da
0

(2.9)

Trong đó số hạng đầu tiên là một hàm số hình học, số hạng thứ hai là một số
hạng làm tối thiểu hoá diện tích, được biết như lực baloon . Hàm g() là một hàm chỉ
thị cạnh dương phụ thuộc vào ảnh, nó lấy các giá trị nhỏ dọc các cạnh và các giá trị
lớn hơn ở nơi nào khác.
Trong phương pháp thứ hai áp dụng bộ dò tìm cạnh Canny. Các cạnh thừa thu
được từ bộ dò tìm cạnh Canny sau đó được loại trừ bởi bộ lọc hình thái
học( morphological filter). Các thực nghiệm cho thấy các đường viền thu được từ
thuật toán đầu tiên thì sạch hơn những thứ thu được từ phương pháp thứ hai, nhưng
sự trích rút chúng đòi hỏi thời gian xử lý lớn hơn. Khi sử dụng phương pháp thứ hai
trong một số hệ thống, kết quả thực nghiệm cho thấy việc phân loại mục tiêu không
được hiệu quả.

23


Các đặc trưng phục thuộc thời gian tác động đáng kể tới lượng thông tin cho
sự toàn vẹn của một đối tượng. Ví dụ tính chu kỳ của dáng đi của người rất hữu ích
cho việc phân biệt một người đang đi với một chiếc ô tô đang chuyển động. Tuy
nhiên, các ràng buộc thời gian thực cho phép chúng ta làm việc ít hơn, đơn giản hơn,
các đặc trưng phụ thuộc thời gian. Sử dụng một tìm kiếm toàn diện chúng ta sẽ tìm
được một tập con tối ưu tám đặc trưng được dựa trên các thuộc tính hình học của
hình elip đều( Hình 2-14 (a)) và khung hình sao ( Hình 2-14 (b)) được tạo bằng cách
kết nối trung điểm của khối của đối tượng chuyển động với các điểm đường viền
tương ứng với các cực đại cục bộ của hàm đo khoảng cách giữa đường viền với tâm

khối. Các chức năng sử dụng cho mô tả của các đặc tính thời gian của chuyển động
bao gồm, ví dụ: độ nghiêng của trục nằm ngang của elip( ví dụ: góc hình (a)) và góc giữa “các chân” của khung hình sao (góc thống tính các số đo trong suốt 24 khung hình liên tiếp và sử dụng thông tin này cho
việc khởi tạo vector phân loại.

Dữ liệu từ bộ dò tìm
Tầng phân loại đầu tiên

Các đặc trưng chuyển động

Tầng phân loại thứ 2

Kết quả phân loại
Bộ lọc chung

Bộ lọc tương đồng Các đặc trưng hình dạng và bề ngoài

24


(c)
Hình 2-14: (a) Elip vừa khớp( fitted elipse) (b) Khung hình sao (c) Biều đồ luồng phân
loại

2.2.3. Phương pháp phân loại kết hợp các đặc trưng dựa trên bề
ngoài và chuyển động.
Chúng ta biết rằng sự kết hợp một vài phương pháp phân loại sẽ cải thiện độ
chính xác và hiệu quả của kết quả phân loại. Hiệu quả của hai bộ phân loại dựa trên
các đặc trưng bề ngoài mô tả trong phần 2.1, và bộ lọc dựa trên các đặc trưng phục

thuộc thời gian mô tả trong phần 2.2, đề xuất một bộ lọc kết hợp sẽ cho hiệu quả cao
hơn.
Hình 2-14 (c) mô tả kiển trúc hệ thống. Dữ liệu dựa trên bề ngoài được xử lý
bởi bộ phân loại SVM trong tầng đầu tiên của hệ thống phân loại. Các vector đặc
trưng sử dụng bởi bộ lọc lai ghép( hybrid classifier) bao gồm các kết quả đã được xử
lý của tầng bộ lọc đầu tiên, cái mà được gọi các đặc trưng bề ngoài và sự tương
đồng, và các đặc trưng chuyển động. Mỗi chu kỳ của của tầng phân loại thứ hai đòi
hỏi 24 khung hình là số lượng các khung hình cần thiết cho việc tính toán thông tin
chuyển động. Tầng phân loại đầu tiên có thể thực hiện theo nguyên tắc cho mỗi
khung hình, nhưng bởi vì thực thi trong thời gian thực nên nó được hoạt động mỗi
lần 8 khung hình. Điều này có nghĩa là cho mỗi phân loại thực hiện trong tầng thứ
hai có ba kết quả phân loại ở tầng thứ nhất. Cho mỗi lớp chúng ta tính phân số liên
quan p của các ứng viên V thu được cho lớp này ở cấp phân loại đầu tiên, đặt p(k) =
V(k)/T, k= 1….N, trong đó T là tổng số các phân loại ở cấp độ thứ nhất của mục tiêu
này. Có thể suy ra thành phần k-th của vector đặc trưng chỉ ra rằng mục tiêu thuộc về
Nc +1

Nc + 8

lớp k-th. Các thành phần từ
tới
của vectơ đặc trưng được gán cho các
đặc trưng chuyển động. Vectơ đặc trưng xây dựng theo cách này được sử dụng như
một đầu vào của bộ lọc SVM tầng thứ hai. Như kết quả thực nghiệm thu được, kết
quả phân loại đạt được bởi bộ phân loại lai ghép tốt hơn đáng kể kết quả đạt được
bởi mỗi bộ lọc cơ sở riêng rẽ.
Bộ lọc tổng hợp cũng chứng tỏ hiệu quả hơn trong các điều kiện phân đoạn
mục tiêu bị nhiễu. Để giúp cho việc phân loại hiệu quả cho sự chồng chéo và các
nguồn gốc của việc phân loại sai chúng tôi sử dụng một cách tiếp cận đa giả thuyết.
Tất cả các mục tiêu tiềm năng được phân loại theo giản đồ được mô tả trong hình 214(c) và kết quả được ghi lại như một giả thuyết phân loại X(k) cho mỗi mục tiêu.

25


×