Khảo sát bài toán nhận diện phương tiện và đo tốc độ phương tiện tham gia giao thông

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (637.8 KB, 9 trang )

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020
DOI: 10.15625/vap.2020.00171

KHẢO SÁT BÀI TOÁN NHẬN DIỆN PHƯƠNG TIỆN VÀ
ĐO TỐC ĐỘ PHƯƠNG TIỆN THAM GIA GIAO THƠNG
Trần Hồng Lộc, Nguyễn Khắc Ngọc Khơi, Phan Đình Duy, Vũ Đức Lung
Trƣờng Đại học Cơng nghệ thông tin
Đại học Quốc gia Thành phố Hồ Chi Minh
, , ,
TĨM TẮT: Giám sát giao thơng là bài toán được quan tâm trong những năm vừa qua. Với tín hiệu báo động từ các vụ tai
nạn giao thơng và những hành vi phạm tội liên quan đến giao thông, phát triển hệ thống giám sát giao thông thông minh là một
trong những nhu cầu cấp thiết hiện nay, trong đó 2 bài tốn căn bản của hệ thống này là nhận diện phương tiện tham gia giao thông
và đo tốc độ phương tiện tham gia giao thông. Bài báo này được thực hiện nhằm khảo sát và phân loại những phương pháp và
hướng tiếp cận phổ biến hiện nay đối với 2 bài toán nhận diện và đo tốc độ phương tiện tham gia giao thông, hướng đến việc xây
dựng mơ hình giám sát giao thơng thơng minh trong tương lai. Các bộ dữ liệu thường được sử dụng để huấn luyện và đánh giá hệ
thống cũng được tổng hợp để làm cơ sở cho các nhóm nghiên cứu có thể đánh giá cơng trình nghiên cứu của mình.
Từ khóa: Học sâu, nhận diện vật thể, hiệu chuẩn camera, đo tốc độ phương tiện giao thông.

I. GIỚI THIỆU
Trong những năm vừa qua, một trong những vấn đề xã hội nhức nhối ở Việt Nam chính là tình trạng tai nạn
giao thông vẫn đang ở mức cao và gây ra nhiều thiệt hại cả về mặt xã hội và kinh tế. Theo tổng cục thống kê, số lƣợng
tai nạn giao thơng năm 2019 là 12.626 vụ, trong đó có 22.152 ngƣời bị thƣơng và 7624 ngƣời chết, con số này trong 7
tháng đầu năm năm 2020 lần lƣợt là 7996 vụ tai nạn, 5850 ngƣời bị thƣơng và 3791 ngƣời chết 1. Nguyên nhân chính
của những vụ tai nạn giao thông này thƣờng là chạy vƣợt quá tốc độ, chạy sai làn đƣờng quy định hoặc vi phạm các
quy tắc lƣu thơng đƣờng bộ khác. Để khắc phục tình trạng này, nhà nƣớc đã thực hiện nhiều biện pháp khác nhau,
trong đó có tăng cƣờng lắp đặt các camera giám sát giao thơng với mục đích theo dõi tình trạng giao thông cũng nhƣ
xử phạt nguội các trƣờng hợp vi phạm. Bản chất của việc theo dõi tình trạng tham gia giao thông là tận dụng những
video thu đƣợc từ các camera và trích xuất các thơng tin mà nhận diện các phƣơng tiện tham gia giao thông là yếu tố
cốt lõi. Bài toán xác định phƣơng tiện tham gia giao thơng khơng phải là bài tốn mới, tuy nhiên vẫn cịn đó những
thách thức, đặc biệt là đối với tình trạng giao thơng phức tạp của Việt Nam nhƣ thành phần tham gia giao thông là xe
máy, lƣu lƣợng tham gia giao thông tăng nhanh tại một số thời điểm, điều kiện thời tiết xấu, góc đặt máy quay đa

dạng,… Bên cạnh đó, để có thể phát hiện những trƣờng hợp chạy vƣợt quá tốc độ quy định, nhiều tuyến đƣờng đã
trang bị các máy bắn tốc độ sử dụng laser. Thiết bị này có chi phí rất đắt đỏ và việc trang bị số lƣợng lớn trên nhiều
tuyến đƣờng là khơng khả thi, thay vào đó, tận dụng hình ảnh thu đƣợc từ các video giám sát giao thơng từ đó sử dụng
các phƣơng pháp xử lý ảnh để phân tích tốc độ xe đang là giải pháp đƣợc nhiều nhà nghiên cứu quan tâm. Tóm lại, để
tăng cƣờng khả năng giám sát giao thông qua các camera giám sát đang đƣợc trang bị với số lƣợng lớn trên khắp cả
nƣớc, hƣớng tiếp cận sử dụng các kỹ thuật xử lý ảnh để nhận diện và đo tốc độ các phƣơng tiện tham gia giao thông là
cần thiết và khả thi với mức chi phí hợp lý.
Vấn đề mà bài báo này hƣớng đến đƣợc chia thành hai bài toán nhỏ là: (1) nhận diện phƣơng tiện và (2) đo tốc
độ di chuyển của phƣơng tiện. Đầu vào của cả 2 bài toán trên đều là video thu đƣợc từ các camera giám sát. Đầu ra của
bài toán (1) là bounding box của phƣơng tiện kèm theo nhãn hay nói cách khác là phƣơng tiện đó thuộc loại gì: xe máy,
xe đạp, xe bus, xe tải, xe ô tô con,… Nhƣ vậy, bài toán nhận diện phƣơng tiện bao gồm 2 bài tốn con đó là bài tốn
xác định vị trí - localization và bài tốn phân loại - classification. Đầu ra của bài tốn (2) chính là tốc độ của từng
phƣơng tiện trong video.

(a)

(b)

(c)

Hình 1. Đầu vào (a) của bài toán nhận diện phƣơng tiện tham gia giao thông là video giám sát giao thông, đầu ra (b) của bài tốn là
ảnh có các bounding box xác định vị trí, nhãn và độ tin cậy của các phƣơng tiện và đầu ra (c) của bài toán đo tốc độ phƣơng
tiện tham gia giao thông là tốc độ của từng phƣơng tiện

Trong những năm vừa qua, hƣớng tiếp cận xử lý và phân tích video giám sát giao thơng dựa trên các đặc trƣng
hình ảnh, video đã thu hút nhiều nhà nghiên cứu cả trong và ngoài nƣớc [1], [2]. Đối với bài toàn nhận diện phƣơng
1

/>

216

KHẢO SÁT BÀI TOÁN NHẬN DIỆN PHƢƠNG TIỆN VÀ ĐO TỐC ĐỘ PHƢƠNG TIỆN THAM GIA GIAO THÔNG

tiện tham gia giao thông, Seenouvong và các đồng nghiệp [3] đã đề xuất mơ hình nhận diện phƣơng tiện giới hạn trong
một khu vực ảo đƣợc xác định trên không gian ảnh. Phƣơng pháp này bao gồm trích xuất tiền cảnh (foreground), nhận
diện, trích xuất đặc trƣng và phân loại phƣơng tiện. Để nhận diện phƣơng tiện, nhóm tác giả [3] đã sử dụng mơ hình
Gaussian Mixture (GMM), sau đó thực hiện thêm một vài phép tính khác để lấy đƣợc các vật thể chính trong ảnh. Sau
cùng, bƣớc phân loại đƣợc thực hiện bằng cách sử dụng bộ phân loại k-nearest neighbor. Audebert và các đồng nghiệp
[4] đã đề xuất hƣớng tiếp cận thực hiện phân đoạn trƣớc khi nhận diện phƣơng tiện giao thông sử dụng kỹ thuật học
sâu. Các bƣớc xử lý trong hƣớng tiếp cận trên lần lƣợt là phân đoạn, nhận diện và phân loại phƣơng tiện và đƣợc thử
nghiệm trên các ảnh viễn thám có độ phân giải cao. Velazquez-Pupo và các đồng nghiệp [5] đã đề xuất mơ hình phân
tích hình ảnh với một camera giám sát đƣợc gắn cố định với khả năng nhận diện phƣơng tiện tham gia giao thông bao
gồm các chức năng xử lý che lấp, đếm phƣơng tiện, theo dõi và phân loại phƣơng tiện. Năm 2019, Fukai Zhang và các
đồng nghiệp [6] đã đề xuất mơ hình phát hiện phƣơng tiện tham giao thơng dựa trên mơ hình Single-Shot Multibox
Detector (SSD) có khả năng phát hiện nhiều loại phƣơng tiện khác nhau trong thời gian thực. Nhóm tác giả sử dụng
nhiều bộ trích xuất đặc trƣng khác nhau cho việc xác định vị trí và phân loại trong cùng một mạng CNN. Để cải thiện
chất lƣợng, các đặc trƣng này đƣợc kết hợp với nhau thông qua thao tác deconvolution và pooling. Nhóm tác giả cũng
tiến hành điều chỉnh các bounding box theo các tỷ lệ khác nhau để có thể phát hiện các phƣơng tiện có kích thƣớc nhỏ
đƣợc chính xác hơn. Nhìn chung, bài tốn nhận diện phƣơng tiện giao thơng có thể đƣợc chia thành 3 phƣơng pháp tiếp
cận chính bao gồm: phƣơng pháp dựa trên các đặc trƣng chuyển động, phƣơng pháp dựa trên các đặc trƣng cấp thấp và
phƣơng pháp dựa trên mạng neural.
Đối với bài toán đo tốc độ phƣơng tiện tham gia giao thông, phƣơng pháp thƣờng đƣợc sử dụng là hiệu chuẩn
camera từ đó tính tốn tốc độ dựa trên tỉ lệ giữa hình ảnh trong video và trong thực tế [7]. Trong cơng bố [8], nhóm tác giả
He và Yung đã đề xuất phƣơng pháp để tính xấp xỉ tốc độ của phƣơng tiện giao bằng cách biến đổi ảnh 2D sang tọa độ 3D
trong thế giới thực dựa trên việc hiệu chuẩn các tham số của camera. Sau khi đã có đƣợc ảnh trong tọa độ 3D, nhóm tác
giả thực hiện tính tốn độ lệch giữa 2 khung hình liên tiếp để loại bỏ cảnh nền và ghép các phƣơng tiện trong 2 khung
hình và một khung hình duy nhất. Sau cùng, các đặc trƣng khối gần mặt đất nhất đƣợc so khớp để tính xấp xỉ đoạn đƣờng
di chuyển và tốc độ của phƣơng tiện. Cũng cùng nhóm tác giả này trong công bố [9] đã đề xuất hƣớng tiếp cận để giải
quyết thử thách hiệu chuẩn camera trong thời tiết xấu bằng các sử dụng các vạch kẻ đƣờng. Schoepflin và các đồng

nghiệp [10] đã tạo nên một sơ đồ hoạt động bằng cách nhận diện phƣơng tiện dựa trên chuyển động của tiền cảnh. Sử
dụng sơ đồ hoạt động này, nhóm tác giả xác định đƣợc đƣờng biên của làn xe từ đó xác định điểm ảo (vanishing point)
đầu tiên bằng cách lấy giao điểm của các đƣờng biên này trong ảnh. Điểm ảo thứ hai đƣợc xác định bằng cách lấy giao
điểm của các đƣờng thẳng tạo bởi các cạnh dƣới của phƣơng tiện. Sử dụng 2 điểm ảo, nhóm tác giả có thể hiệu chuẩn
camera, từ đó với một đoạn độ dài đƣợc đo từ trƣớc, hệ thống này có thể tính tỉ lệ giữa thế giới thực và hình ảnh ghi đƣợc
từ camera và tính khoảng cách cũng nhƣ tốc độ của phƣơng tiện giao thông. Năm 2019, Hyung Jun Kim [11] đề xuất một
hệ thống giám sát giao thơng có khả năng nhận diện, theo dõi và phân loại các loại phƣơng tiện giao thông sử dụng nhiều
kỹ thuật xử lý ảnh khác nhau cùng với máy học dựa trên mạng tích chập. Với video đầu vào từ camera giám sát, tác giả sử
dụng kỹ thuật tách nền để phát hiện các phƣơng tiện giao thông. Với ảnh nền vừa đƣợc tách ra, mơ hình sử dụng bộ nhận
diện các cạnh và biến đổi Hough để phát hiện các làn đƣờng, các cột trụ trên đƣờng, từ đó tính giao điểm của chúng để lấy
đƣợc các điểm ảo. Bên cạnh đó, để giảm thiểu mức độ tính tốn, tác giả cũng tạo ra một vùng giới giới hạn nhất định và
chỉ tính tốn trong phạm vi đó. Sau cùng, tác giả sử dụng mơ hình hình chiếu phối cảnh để tính tốn khoảng cảnh thực từ
góc quay của camera, từ đó tính đƣợc khoảng cảnh và tốc độ di chuyển của phƣơng tiện. Phƣơng pháp hiệu chuẩn camera
có thể đƣợc chia thành 5 hƣớng tiếp cận chính bao gồm: (1) hƣớng tiếp cận từ việc xác định các vạch kẻ đƣờng, (2) hƣớng
tiếp cận dựa trên chuyển động của phƣơng tiện, (3) hƣớng tiếp cận đo đạc thủ công, (4) hƣớng tiếp cận tự động hiệu chuẩn
dựa trên thống kê các chiều và (5) các hƣớng tiếp cận khác.
Bài báo này nhằm khảo sát các phƣơng pháp tiếp cận đối với hai bài toán là nhận diện phƣơng tiện và đo tốc độ
phƣơng tiện tham gia giao thơng dựa trên hình ảnh thu đƣợc từ camera giám sát. Đóng góp chính của bài báo này bao
gồm: (1) Phân loại các hƣớng tiếp cận và khảo sát các cơng trình nghiên cứu đối với bài tốn nhận diện phƣơng tiện
tham gia giao thơng, (2) Phân loại các hƣớng tiếp cận và khảo sát các cơng trình nghiên cứu đối với bài tốn đo tốc độ
phƣơng tiện tham gia giao thông, (3) Tổng hợp một số tập dữ liệu thƣờng đƣợc sử dụng trong hai bài tốn nêu trên.
Mục tiêu tƣơng lai của nhóm nghiên cứu là dựa trên những khảo sát này, nhóm sẽ tiếp tục nghiên cứu và đề xuất mơ
hình nhận diện và đo tốc độ phƣơng tiện tham gia giao thông hiệu quả tại Việt Nam.
Cấu trúc của bài báo đƣợc tổ chức nhƣ sau. Phần II trình bày khảo sát về bài toán nhận diện phƣơng tiện tham
gia giao thơng. Các khảo sát về bài tốn đo tốc độ phƣơng tiện tham gia giao thơng đƣợc trình bày trong phần III. Phần
IV sẽ tổng hợp những tập dữ liệu đƣợc sử dụng để huấn luyện và đánh giá trong hai bài toán nêu trên. Cuối cùng, Phần
V sẽ đƣa ra kết luận.
II. KHẢO SÁT BÀI TOÁN NHẬN DIỆN PHƯƠNG TIỆN GIAO THƠNG
Nhƣ đã trình bày ở trên, bài tốn nhận diện phƣơng tiện tham gia giao thông bao gồm 2 bài tốn con là xác định
vị trí của phƣơng tiện - localization và phân loại phƣơng tiện - classification. Nhận diện phƣơng tiện là bƣớc cơ bản để

có thể thực hiện những chức năng giám sát nhƣ theo dõi hay phân tích hành vi. Có 2 hƣớng tiếp cận chính trong bài
tốn này đó là nhận diện dựa trên hình dáng bên ngồi của phƣơng tiện và nhận diện dựa trên chuyển động của tiền
cảnh [12]. Hƣớng tiếp cận dựa trên việc trích xuất các đặc trƣng từ kết cấu, màu sắc hay hình dạng của phƣơng tiện là

Trần Hồng Lộc, Nguyễn Khắc Ngọc Khơi, Phan Đình Duy, Vũ Đức Lung

217

hƣớng tiếp cận từ hình dáng bên ngồi. Ngƣợc lại, việc sử dụng các đặc tính chuyển động của video từ đó tính tốn độ
lệch giữa các khung hình tiền cảnh (foreground) trên hậu cảnh (background) tĩnh để xác định các phƣơng tiện là hƣớng
tiếp cận dựa trên chuyển động. Phƣơng pháp A đƣợc trình bày sau đây là hƣớng tiếp cận dựa trên chuyển động, còn
phƣơng pháp B và C sử dụng hƣớng tiếp cận dựa trên hình dáng bên ngồi của phƣơng tiện.
A. Phương pháp dựa trên các đặc trưng chuyển động
Đặc trƣng của video giám sát giao thơng đó là cảnh nền trong video ln cố định, hay nói cách khác ta có thể
xem cảnh nền là một ảnh tĩnh, và đối tƣợng mà bài tốn quan tâm chính là các phƣơng tiện chuyển động trên cảnh nền
tĩnh đó. Mục tiêu của phƣơng pháp này chính là tách đƣợc các phƣơng tiện đang di chuyển ra khỏi cảnh nền tĩnh, để
thực hiện đƣợc điều này, phƣơng pháp này có thể đƣợc tiếp cận theo 3 hƣớng chính sau: (1) hƣớng tiếp cận từ sự khác
biệt giữa các khung hình [13] bằng cách tính tốn trên 2 hoặc 3 khung hình liên tiếp nhau, (2) hƣớng tiếp cận từ việc
tách bỏ ảnh nền [14] bằng cách xây dựng cảnh nền từ các khung hình trƣớc đó và (3) hƣớng tiếp cận từ luồng sáng
(optical flow) [15] thông qua tốc độ của các điểm ảnh xuất hiện tức thời.
1. Hƣớng tiếp cận từ sự khác biệt giữa các khung hình
Với hƣớng tiếp cận này, sự khác biệt giữa các điểm ảnh sẽ đƣợc tính tốn trên 2 khung hình liên tiếp. Các độ sai
lệch này sau đó đƣợc so sánh với một mức ngƣỡng để phân biệt tiền cảnh và hậu cảnh. Độ chính xác của phƣơng pháp
này có thể đƣợc cải thiện bằng cách so sánh 3 khung hình liên tiếp. Trong [13], tác giả sử dụng tính tƣơng quan giữa
khơng gian và thời gian của phƣơng tiện chuyển động, từ đó đề xuất kết hợp phƣơng pháp tính độ lệch giữa 3 khung
hình và ngƣỡng cross-entropy 2 chiều để xác định đối tƣợng chuyển động.
2. Hƣớng tiếp cận từ tách bỏ ảnh nền
Đây là hƣớng tiếp cận thƣờng đƣợc sử dụng trong bài toán nhận diện phƣơng tiện giao thông. Hƣớng tiếp cận
này sử dụng sự khác nhau của các điểm ảnh giữa ảnh hiện tại và ảnh nền từ đó trích xuất ra các vật thể trong tiền cảnh

[14]. Trong [16], ảnh nền đƣợc xây dựng thơng qua việc sử dụng một mơ hình tính trung bình cảnh nền bằng cách lấy
trung bình một chuỗi các ảnh trong video. Tuy nhiên, cảnh nền thƣờng sẽ có sự khác nhau trong các cảnh giao thơng
thực tế, do đó hƣớng tiếp cận này khơng phù hợp trong các cảnh giao thông trực tiếp.
3. Hƣớng tiếp cận từ luồng sáng (optical flow)
Trong hƣớng tiếp cận này, sự thay đổi nhanh chóng của các điểm ảnh tức thời trên ảnh cũng giống nhƣ sự
chuyển động của các vật thể trong không gian 3 chiều. Ý tƣởng cốt lõi của hƣớng tiếp cận này là sử dụng dữ liệu về
thời gian và độ dốc để cân bằng các điểm ảnh giữa những khung hình. Trong [15], để thực hiện phân đoạn phƣơng tiện
giao thông, các luồng sáng qua khung hình từ mơi trƣờng 3 chiều đƣợc sử dụng. Với chi phí tính tốn nhiều hơn, mơ
hình thu đƣợc các vector chuyển động điểm ảnh phụ chính xác từ đặc tính lặp đi lặp lại của việc tính tốn các luồng
sáng. Kỹ thuật luồng sáng cũng thƣờng đƣợc lựa chọn sử dụng trong bài toán nhận diện phƣơng tiện giao thơng bởi kỹ
thuật này có thể xử lý vấn đề chồng lấp ở một mức độ nhất định.
Nhìn chung, các hƣớng tiếp cận trên đều tận dụng đƣợc thông tin chuyển động của phƣơng tiện giao thông trong
video. Ƣu và nhƣợc điểm của các phƣơng pháp trên đƣợc trình bày trong Bảng 1.
Bảng 1. Ƣu và nhƣợc điểm các hƣớng tiếp cận dựa trên các đặc trƣng chuyển động
Hƣớng tiếp cận
Ƣu điểm
Nhƣợc điểm

Sự khác biệt giữa khung hình

Tách bỏ ảnh nền

Optical flow
- Tốt trong việc theo dõi đối tƣợng.
- Dễ triển khai.
- Có thể xử lý đƣợc trƣờng hợp đối tƣợng
- Khơng tốn nhiều tài ngun tính tốn.
bị che khuất.
- Khơng xử lý tốt khi đối tƣợng bị chồng hình.
- Đặc trƣng theo dõi có thể khác nhau trên

- Khả năng sai sót cao khi hậu cảnh phức tạp.
nhiều phƣơng tiện khác nhau.
- Khả năng sai sót xảy ra khi đối tƣợng đứng yên hoặc di chuyển chậm (nhƣ kẹt xe).

B. Phương pháp dựa trên đặc điểm hình dáng
Trong thực tế, con ngƣời có thể nhận biết các vật thể khác nhau một cách chính xác bằng cách nhìn vào những
đặc điểm về hình dáng bên ngồi của chúng. Những đặc điểm này có thể bao gồm màu sắc, kết cấu, hình dạng. Trích
xuất những đặc điểm này, các bộ nhận dạng thơng qua thị giác máy tính cũng có thể phân biệt và nhận diện đƣợc các
vật thể mà ngƣời xây dựng mơ hình mong muốn, cụ thể ở đây là phƣơng tiện giao thơng. Các mơ hình sử dụng phƣơng
pháp này thƣờng cần phải chuẩn bị trƣớc một bộ dữ liệu để huấn luyện và đánh giá trƣớc khi đƣa vào sử dụng. Về cơ
bản, phƣơng pháp dựa trên đặc điểm hình dáng sẽ so sánh những đặc trƣng trong ảnh 2 chiều với các đặc trƣng trong
không gian thực 3 chiều bằng cách sử dụng các bộ trích xuất đặc trƣng.
1. Hƣớng tiếp cận từ đặc điểm từng phần
Trong hƣớng tiếp cận này, các phƣơng tiện đƣợc chia thành những phần nhỏ hơn và mơ hình nhận diện sẽ đƣợc
xây dựa trên các thành phần này. Các phƣơng tiện có thể đƣợc nhận diện dựa trên những khác biệt về mặt không gian
giữa các thành phần. Trong [2], để cải thiện đƣợc khả năng nhận diện và xử lý vấn đề chồng lấp, các phƣơng tiện trong

218

KHẢO SÁT BÀI TOÁN NHẬN DIỆN PHƢƠNG TIỆN VÀ ĐO TỐC ĐỘ PHƢƠNG TIỆN THAM GIA GIAO THÔNG

ảnh đƣợc tách thành các phần nhỏ gồm phía trƣớc, phía sau và bên cạnh. Trong [17], để đạt đƣợc khả năng nhận diện
tốt, nhóm tác giả đề xuất mơ hình tách các đối tƣợng thành những phần cấu tạo nhỏ hơn, sự biến đối về cấu tạo cũng
nhƣ mối quan hệ giữa những thành phần này đƣợc mơ hình hóa bằng ngữ pháp biểu đồ thuộc tính ngẫu nhiên
(stochastic attribute graph grammar).
2. Hƣớng tiếp cận từ đặc trƣng cấp thấp
Đặc trƣng cấp thấp là những đặc trƣng chỉ về hình dáng bên ngồi của đối tƣợng nhƣ các cạnh, góc, màu sắc,…
Hƣớng tiếp cận từ đặc trƣng cấp thấp sẽ sử dụng các bộ trích xuất đặc trƣng khác nhau để mã hóa và biểu diễn các đối
tƣợng quan tâm, mà cụ thể ở đây là các phƣơng tiện giao thông nhƣ xe ô tô, xe tải, xe máy, xe đạp,… Sajib và các đồng

nghiệp [18] đã đề xuất mơ hình sử dụng mơ hình Bag of Visual Words (BoVW) để xây dựng một bộ từ điển thị giác để
biểu diễn phƣơng tiện giao thơng sử dụng đặc trƣng SURF. Sau đó, nhóm tác giả sử dụng bộ phân loại đa lớp SVM để
phân lớp cho các đối tƣợng. Bên cạnh đặc trƣng SURF cịn có các loại đặc trƣng khác cũng có thể đƣợc sử dụng để
biểu diễn đối tƣợng trong ảnh nhƣ: Scale Invariant Feature Transformation (SIFT) để nhận diện biển số xe [19],
Histogram of Oriented Gradients (HOG) [20], [21] hay Harr-like Feature [22] để nhận diện phƣơng tiện giao thông.
Bảng 2 thực hiện so sánh điểm mạnh và điểm yếu của 2 hƣớng tiếp cận trên. Qua đó, ta thấy đƣợc dựa trên việc trích
xuất những thơng tin trong ảnh, các phƣơng tiện giao thơng có thể đƣợc biểu diễn chính xác, từ đó mơ hình có thể xác
định đƣợc vị trí của phƣơng tiện. Tuy nhiên, với phƣơng pháp này, việc lựa chọn đặc trƣng ảnh hoặc lựa chọn bộ phận
của phƣơng tiện để biểu diễn còn khá là khó khăn và rủi ro cao khi thay đổi môi trƣờng thực nghiệm.
Bảng 2. Ƣu và nhƣợc điểm của các hƣớng tiếp cận dựa trên đặc điểm về hình dáng
Hƣớng tiếp cận
Ƣu điểm

Nhƣợc điểm

Đặc điểm từng phần
- Có khả năng xử lý đƣợc các tình huống
phƣơng tiện bị che khuất.
- Việc lựa chọn các phần của phƣơng tiện phức
tạp và phụ thuộc vào vị trí đặt máy quay.

Đặc trƣng cấp thấp
- Khả năng nhận dạng tƣơng đối tốt.
- Việc biểu diễn thông qua codebook thƣờng
đánh mất thông tin về không gian.
- Hiệu suất phục thuộc vào việc lựa chọn
features descriptots.

C. Phương pháp dựa trên mạng neural
Với sự phát triển trong lĩnh vực trí tuệ nhân tạo nói chung và thị giác máy tính nói riêng, các mơ hình mạng

neural ngày càng đƣợc sử dụng rộng rãi trong nhiều lĩnh vực khác nhau trong đó có xử lý video giám sát giao thông.
Giống với phƣơng pháp nhận diện dựa trên đặc trƣng về hình dáng, các phƣơng pháp dựa trên mạng neural cũng yêu
cầu phải có một bộ dữ liệu để huấn luyện và đánh giá trƣớc khi đƣợc sử dụng. Các mơ hình mạng đƣợc sử dụng trong
phƣơng pháp này có thể đƣợc xây dựng từ đầu hoặc có thể đƣợc huấn luyện chuyển tiếp hoặc đƣợc tinh chỉnh từ những
mạng đã có sẵn với một vài thay đổi nhất định trong kiến trúc mạng. Hai hƣớng tiếp cận tiêu biểu trong phƣơng pháp
nhận diện phƣơng tiện giao thông dựa trên mạng neural có thể kể đến là hƣớng tiếp cận dựa trên mơ hình R-CNN với
kỹ thuật xử lý 2 bƣớc và các hƣớng tiếp cận dựa trên kỹ thuật nhìn một lần (single shot) nhƣ SSD hay YOLO [23].
1. Hƣớng tiếp cận dựa trên mơ hình 2-stage
Về cơ bản, bài tốn nhận diện phƣơng tiện giao thơng bao gồm 2 bài tốn con đó là xác định vị trí phƣơng tiện và
phân lớp cho phƣơng tiện đó. Mơ hình R-CNN là kết quả của sự kết hợp 2 thành phần gồm mạng Region Proposal để đề
xuất vị trí của vật thể, và một mạng CNN để phân lớp cho các vật thể. Trong [24], Yilmaz và nhóm tác giả đề xuất 6 bƣớc
thực hiện nhƣ sau: nạp bộ dữ liệu huấn luyện, thiết kế mơ hình mạng neural tích chập, điều chỉnh các thơng số huấn luyện,
huấn luyện mơ hình sử dụng bộ nhận diện vật thể Faster R-CNN và cuối cùng là đánh giá mơ hình. Mơ hình mạng RCNN bao gồm nhiều lớp, và biểu diễn hình ảnh dƣới dạng các feature map ở các mức độ khác nhau. Các lớp mạng bên
dƣới sẽ dùng để nhận dạng những đặc trƣng đơn giản nhƣ các cạnh, các góc, trong khi đó các lớp mạng ở bên trên sẽ có
khả năng nhận dạng các đặc trƣng phức tạp hơn từ việc kết hợp các đặc trƣng ở lớp dƣới [25].
2. Hƣớng tiếp cận dựa trên kỹ thuật nhìn một lần (single-shot)
Các phƣơng pháp dựa trên mơ hình R-CNN có một khuyết điểm đó là việc kết hợp 2 mơ hình Region Proposal
và CNN làm tăng chi phí tính tốn từ đó phần nào giảm hiệu suất giám sát. Một hƣớng tiếp cận khác nhằm khắc phục
nhƣợc điểm này chính là kỹ thuật nhìn một lần đƣợc áp dụng trên các mơ hình SSD [6] và YOLO [26]. Đặc điểm của
kỹ thuật nhìn một lần đó mơ hình mạng chỉ cần trích xuất ảnh đầu vào qua các lớp mạng một lần duy nhất mà không
cần sử dụng thêm một mạng Region Proposal đề xuất vùng quan tâm (Region of Interest - ROI). Để thay thế cho việc
dùng Region Proposal Network, SSD và YOLO sử dụng tập các hộp đƣợc định nghĩa trƣớc dựa trên hình dáng của đối
tƣợng quan tâm trong groundtruth. Các hộp đƣợc định nghĩa trƣớc này đƣợc gọi là các priors trong mô hình SSD và
anchors trong mơ hình YOLO. Về cơ bản, các mơ hình theo hƣớng tiếp cận này sẽ duyệt qua từng phần tử trên feature
map, với mỗi điểm nhƣ vậy, mơ hình sẽ thực hiện hồi quy trên các priors - theo mơ hình SSD - để xác định vị trí chính
xác của đối tƣợng, song song đó là thực hiện phân lớp cho từng prior. Kết quả cuối cùng là các bounding box cho từng
đối tƣợng quan tâm mà ở đây là các phƣơng tiện giao thông trong ảnh.

Trần Hồng Lộc, Nguyễn Khắc Ngọc Khơi, Phan Đình Duy, Vũ Đức Lung

219

Phƣơng pháp dựa trên mạng neural thể hiện khả năng tính tốn tốt với độ chính xác cao. Tuy nhiên nhƣợc điểm
của phƣơng pháp này nằm ở việc cần lƣợng tài ngun tính tốn lớn và u cầu một tập huấn luyện đủ đa dạng để có
thể phát huy tốt khả năng tự học của mơ hình. Bảng 3 thể hiện điểm mạnh và điểm yếu của 2 hƣớng tiếp cận dựa trên
mơ hình 2-stage và kỹ thuật nhìn một lần.
Bảng 3. Ƣu và nhƣợc điểm của các hƣớng tiếp cận dựa trên mạng CNN
Hƣớng tiếp cận
Ƣu điểm

Nhƣợc điểm

Dựa trên mơ hình 2-stage
- Độ chính xác cao.
- Tốc độ thực thi chậm do phải thực hiện 2 mơ
hình con.
- Hao phí tài ngun tính tốn lớn hơn nhiều so
với 2 phƣơng pháp trƣớc đó.

Dựa trên kỹ thuật nhìn một lần (single-shot)
- Độ chính xác cao.
- Tốc độ thực thi nhanh hơn đáng kể khi so sánh
với mơ hình 2-stage.
- Độ chính xác phục thuộc vào việc định nghĩa
các priors/anchors.
- Hao phí tài ngun tính tốn lớn hơn nhiều so
với 2 phƣơng pháp trƣớc đó.

III. KHẢO SÁT BÀI TỐN ĐO TỐC ĐỘ PHƯƠNG TIỆN THAM GIA GIAO THƠNG

Bài tốn đo tốc độ phƣơng tiện tham gia giao thông là bài tốn quan trọng để cơng tác giám sát giao thông đạt
đƣợc hiệu quả. Hiện nay ở Việt Nam, để thực hiện việc đo tốc độ phƣơng tiện tham gia giao thơng vẫn cịn đang dựa
vào các cơng cụ chun dụng sử dụng công nghệ RADAR (Radio Detection and Ranging) và LIDAR (Light Detection
and Ranging). Ƣu điểm của các công nghệ này là cho kết quả chính xác tuy nhiên giá thành thiết bị và lắp đặt rất cao
dẫn đến việc khó có thể triển khai số lƣợng lớn trên diện rộng. Trong khi đó, việc đo tốc độ giao thông dựa trên một
camera giám sát đƣợc lắp đặt vẫn là bài tốn cịn trong giai đoạn nghiên cứu mà chƣa đƣợc triển khai. Với mục đích là
lắp đặt các hệ thống đo tốc độ phƣơng tiện giao thông trên diện rộng với số lƣợng lớn, bài toán đo tốc độ phƣơng tiện
tham gia giao thơng có 2 thách thức lớn: (1) khả năng hoạt động tự động, nói cách khác là chỉ cần lắp đặt, hệ thống sẽ
tự động căn chỉnh camera sao cho tính tốn đƣợc tốc độ phƣơng tiện một cách chính xác bởi nếu với mỗi camera đều
phải cung cấp hoặc đo đạc các tham số thủ cơng thì sẽ rất tốn chi phí cả về nhân lực và vật lực; và (2) khả năng hoạt
động ở các góc nhìn khác nhau để tận dụng đƣợc tối đa các máy quay giám sát đã đƣợc lắp đặt.
Về các bƣớc xử lý, bài toán đo tốc độ phƣơng tiện tham gia giao thơng nhìn chung sẽ có các bƣớc xử lý gồm
đầu tiên là xác định phƣơng tiện - bài tốn đã đƣợc khảo sát và trình bày trong phần II, sau đó sử dụng các kỹ thuật để
tìm kiếm đoạn đƣờng di chuyển của phƣơng tiện, cuối cùng tốc độ sẽ đƣợc tính bằng khoảng cách di chuyển chia cho
thời gian. Vấn đề thời gian có thể dễ dàng tính tốn đƣợc khi đầu vào của bài tốn là các video, tuy nhiên để tính tốn
khoảng cách di chuyển lại là một vấn đề khó khăn do khoảng cách trong video 2 chiều và khoảng cách trong khơng
gian thực 3 chiều là khác nhau do đó cần phải có một bƣớc căn chỉnh để khớp tọa độ của camera giám sát, tọa độ thực
và tọa độ trên ảnh.

Hình 2. Mơ hình camera đề xuất trong [27]

Hình 2 mơ tả mơ hình camera đƣợc sử dụng trong bài tốn đo tốc độ phƣơng tiện, trong đó bao gồm 3 hệ tọa độ
là: hệ tọa độ ảnh U-V, hệ toa độ camera Xc, Yc, Zc, và hệ tọa độ không gian thực X-Y-Z. Xử lý ảnh trên camera bao
gồm 2 bƣớc: đầu tiên là biến đổi hệ tọa độ không gian thực thành hệ tọa độ camera, và sau đó là biến đổi hệ tọa độ
camera thành hệ tọa độ ảnh. Để thực hiện đƣợc 2 phép biển đổi trên, ta phải thực hiện tính tốn các nội tham số (độ dài
tiêu cự, tâm điểm, độ lệch ống kính) và ngoại tham số của camera (các thơng số chuyển động phần cứng gồm ma trận
quay và vector tịnh tiến), quá trình này gọi là hiệu chuẩn camera.

Hình 3. Bài báo [7] đề xuất mục đích của việc hiệu chuẩn camera chính là để tính tốn khoảng cách thực d giữa 2 điểm (P _1,P _2)
trên mặt đƣờng thông qua phép chiếu (p1, p2) trên không gian ảnh. Các trục X, Y, Z mô tả không gian thực, đại diện các nội

tham số, và là các ngoại tham số

220

KHẢO SÁT BÀI TOÁN NHẬN DIỆN PHƢƠNG TIỆN VÀ ĐO TỐC ĐỘ PHƢƠNG TIỆN THAM GIA GIAO THƠNG

Nhóm tác giả [7] đề xuất mơ hình tổng quan để cho việc hiệu chuẩn camera có thể đƣợc biểu diễn dƣới dạng
một ma trận hình chiếu
, trong đó là ma trận các nội tham số của camera, là ma trận quay và là
vector tịnh tiến. Khi tiếp cận với bài toán này, một số giả định sau thƣờng đƣợc các nhóm tác giả chấp nhận: các
phƣơng tiện tham gia giao thông di chuyển theo đƣờng thẳng, ít nhất là trong một phạm vi xác định, tâm điểm của
camera nằm ở chính giữa của khung hình và độ lệch ống kính bằng 0. Phƣơng pháp đo tốc độ phƣơng tiện dựa trên
hiệu chuẩn camera có thể đƣợc chia thành 4 hƣớng tiếp cận chính sau: (1) hƣớng tiếp cận từ các vạch kẻ đƣờng, (2)
hƣớng tiếp cận từ chuyển động của phƣơng tiện, (3) hƣớng tiếp cận từ đo lƣờng thủ công và (4) hƣớng tiếp cận tự động
điều chỉnh dựa trên thống kê các chiều.
A. Hướng tiếp cận từ các vạch kẻ đường
Để hiệu chuẩn đƣợc camera, You và các đồng nghiệp [27] đã đề xuất phƣơng pháp xác định 2 điểm ảo. Khi nhìn
vào một tấm ảnh, do góc nhìn từ camera, các đƣờng thẳng song song trong ảnh khi kéo dài đến vô cực sẽ cắt nhau tại
một điểm, điểm này chính là điểm ảo [27]. Xác định điểm ảo đầu tiên bằng cách lấy giao điểm các làn đƣờng (vốn dĩ là
những đƣờng thẳng song song trong thực tế), và điểm ảo thứ hai tính tốn đƣợc bằng cách lấy giao điểm của các cột
đèn hoặc các đƣờng thẳng đứng trong ảnh. 2 điểm ảo này sẽ giúp hiệu chuẩn tự động các tham số trong camera sử dụng
ƣớc tính bình phƣơng tối thiểu thay vì tính tốn dạng đóng (closed-form computation). Trong [28], nhóm tác giả giả
định rằng camera chỉ nghiêng theo trục Y trong Hình 3 từ đó họ giả định là điểm ảo thứ hai (theo phƣơng ngang và
vng góc với điểm ảo thứ nhất) nằm ở vơ cực. Điểm ảo thứ nhất đƣợc tính tốn dựa trên lấy giao điểm của các vạch
kẻ đƣờng với điều chỉnh bình phƣơng tối thiểu. Các phƣơng tiện giao thông đƣợc nhận diện bằng cách tách bỏ ảnh nền
và đƣợc theo dõi bằng kỹ thuật tƣơng quan chéo chuẩn hóa (normalized cross-corelation). Hƣớng tiếp cận này có thể
đƣợc sử dụng trên những con đƣờng lớn, tuy nhiên với những con đƣờng nhỏ ở các vùng quê, hay khu vực đƣờng nội
bộ khơng có vạch kẻ đƣờng thì hƣớng tiếp này trở nên bất khả thi.
B. Hướng tiếp cận từ chuyển động của phương tiện

Filipiak và các đồng nghiệp [29] đề xuất sử dụng chuyển động của các biển số xe phát hiện đƣợc từ các khung
hình để tính tốn nội tham số và ngoại tham số của camera thông qua giải thuật tiến hóa. Cơng bố [30] đề xuất phƣơng
pháp hiệu chuẩn camera tự động dựa trên việc theo dõi các đặc trƣng cục bộ và phân tích quỹ đạo di chuyển dựa trên
phƣơng pháp biến đổi Hough xếp tầng và tọa độ song song. Hƣớng tiếp cận dựa trên chuyển động của phƣơng tiện
khơng cịn phụ thuộc vào việc phát hiện các làn đƣờng, tuy nhiên khi áp dụng trên các đoạn đƣờng nhỏ, q trình hiệu
chuẩn có thể sẽ phải mất một ít thời gian vì độ chính xác thƣờng phụ thuộc vào số lƣợng phƣơng tiện di chuyển trong
video.
C. Hướng tiếp cận từ đo lường thủ công
Các hƣớng tiếp cận từ đo lƣờng thủ công thƣờng yêu cầu biết trƣớc một vài thông số trong thế giới thực để thực
hiện việc hiệu chuẩn. [31] Yêu cầu cần phải biết trƣớc 2 góc tùy ý trên mặt đất để điều chỉnh camera. Bên cạnh đó,
phƣơng pháp cũng yêu cầu biết trƣớc độ dài của các vạch kẻ đƣờng trong thực tế để tính tỉ lệ ảnh trong camera cho một
bối cảnh nhất định. Nhóm tác giả sau đó sử dụng phƣơng pháp xóa cảnh nền để nhận diện các phƣơng tiện và theo dõi
chúng bằng cách sử dụng bộ lọc Kalman. Khác biệt với các phƣơng pháp đề xuất trƣớc đó, Sina và các đồng nghiệp
[32] tập trung vào việc đo tốc độ phƣơng tiện giao thông vào buổi tối. Nhóm tác giả nhận diện phƣơng tiện bằng cách
phát hiện cặp đèn xe vào buổi tối, sau đó theo dõi chuyển động và tính tốn tốc độ của phƣơng tiện. Việc hiệu chuẩn
camera đƣợc thực hiện bằng cách đo thủ cơng góc quay của camera và khoảng cách từ camera tới mặt đất.
D. Hướng tiếp cận tự động điều chỉnh dựa trên thống kê các chiều
Nhƣ đã đề cập ở trên, để tiết kiệm chi phí triển khai, việc tự động hóa q trình hiệu chuẩn là một trong những
yếu tố đáng cân nhắc. Hƣớng tiếp cận này khơng u cầu biết trƣớc thơng tin gì và hiệu chuẩn hoàn toàn tự động.
Dubska và các đồng nghiệp [33] đề xuất việc hiệu chuẩn camera thông qua 2 điểm ảo. Nhóm tác giả sử dụng một
phƣơng pháp đơn giản để tách lấy tiền cảnh để phát hiện những khu vực chuyển động. Điểm ảo đầu tiên - là hƣớng di
chuyển của phƣơng tiện - đƣợc tính tốn bằng cách theo dõi các điểm đặc trƣng trên phƣơng tiện sử dụng bộ phát hiện
điểm cực tiểu và bộ theo dõi KLT. Chuyển động của điểm bị theo dõi đƣợc biến đổi bằng biến đổi Hough line-to-line
và đƣợc tham số hóa bằng cách tọa độ song song, giá trị cực đại toàn cục tƣng ứng với điểm ảo đầu tiên trên ảnh. Điểm
ảo thứ hai đƣợc trích xuất từ các cạnh mạnh trên phƣơng tiện đang di chuyển và phải đáp ứng một vài điều kiện từ
điểm ảo đầu tiên. Các cạnh tƣơng tự cũng sẽ đƣợc biến đổi Hough với giá trị cực đại mạnh nhất ứng với điểm ảo thứ
hai. Từ 2 điểm ảo đƣợc xác định nhƣ trên, mơ hình có thể tính tốn đƣợc các nội và ngoại tham số của camera. Tốc độ
của phƣơng tiện đƣợc tính tốn dựa trên việc theo dõi 3D bounding box xung quanh đối tƣợng bằng cách sử dụng bộ
lọc Kalman và tính tốn khoảng cách trong khơng gian thực.
Bốn hƣớng tiếp cận trên đều thể hiện đƣợc độ hiệu quả đo tốc độ xe khi đƣợc áp dụng vào đúng môi trƣờng.

Tuy nhiên, khi xét đến những điều kiện đã đặt ra gồm việc tận dụng số lƣợng camera lớn và hạn chế việc đo lƣờng thủ
công, hƣớng tiếp cận tự động hiệu chuẩn dựa trên thống kê các chiều thể hiện tính khả thi cao khi áp dụng vào trong
thực tế. Bảng 4 bên dƣới so sánh điểm mạnh và điểm yếu của các hƣớng tiếp cận để hiệu chuẩn camera đƣợc trình bày
ở trên.

Trần Hồng Lộc, Nguyễn Khắc Ngọc Khơi, Phan Đình Duy, Vũ Đức Lung

221

Bảng 4. Ƣu và nhƣợc điểm của các hƣớng tiếp cận hiệu chuẩn camera
Hƣớng tiếp cận

Ƣu điểm

Nhƣợc điểm

Dựa trên vạch kẻ đƣờng
- Đơn giản, dễ thực hiện.
- Phù hợp với những đoạn
đƣờng rộng, nhiều làn
đƣờng nhƣ cao tốc.
- Khơng có hiệu quả với
những đoạn đƣờng khơng
có vạch kẻ đƣờng.

Chuyển động của phƣơng
tiện

Tự động hiệu chuẩn dựa

trên thống kê các chiều

Đo lƣờng thủ công

- Các thông số đƣợc tự
động hiệu chuẩn.

- Đơn giản, dễ hiện thực.

- Đạt hiệu quả.
- Có khả năng triển khai
quy mơ lớn.

- Cần thời gian quan sát
phƣơng tiện để hồn
thành việc hiệu chuẩn.

- Khơng có tính thực hiện
cao khi triển khai với quy
mơ lớn.

- Tính toán phức tạp.

IV. CÁC TẬP DỮ LIỆU
Trong bài toán classification và object detection, việc thu thập tập dữ liệu là điều hết sức quan trọng, công việc
này ảnh hƣởng trực tiếp đến q trình huấn luyện và kiểm thử mơ hình. Trong bài báo này nhóm đã tổng hợp các tập
dữ liệu đƣợc công bố và sử dụng trong các nghiên cứu trƣớc đó.
A. Bài tốn nhận diện phương tiện giao thông
Bảng 5. Các tập dữ liệu thƣờng đƣợc sử dụng trong bài tốn nhận diện phƣơng tiện giao thơng

The 2019 AI City Challenge
[34]
Vehicle Tracking by
Simultaneous Detection and
Viewpoint Estimation2
A Large-Scale Car Dataset for
Fine-Grained Categorization
and Verification3

10

Thời
lƣợng
3 giờ

Số
video
-

Số
frame
-

800×410

30

50 giờ

100

-

-

640×480
1280×730
480×320

30
30
25

-

-

7520
9390
23435

-

-

-

-

-

-

214344

Bộ dữ liệu

Kích thƣớc

FPS

The CityFlow Dataset
Iowa DOT Traffic
Dataset
GRAM Road-Traffic
Monitoring (GRAMRTM) dataset
The Comprehensive
Cars (CompCars)
dataset

960p

Bài báo

Số ảnh
-

B. Bài toán đo tốc độ xe
Bảng 6. Các tập dữ liệu thƣờng đƣợc sử dụng trong bài toán đo tốc độ phƣơng tiện tham gia giao thông
Bài báo

Comprehensive Dataset for Automatic
Single Camera Visual Speed
Measurement [7]
A Video-Based System for Vehicle
Speed Measurement in Urban
Roadways4

Bộ dữ
liệu

Kích thƣớc

FPS

Thời
lƣợng

Số
video

Số
frame

Số ảnh

1920×1080

50

6 giờ

18

-

-

1920×1080

30.15

-

20

-

-

V. KẾT LUẬN
Giám sát giao thơng là một trong những bài tốn đƣợc quan tâm hàng đầu hiện nay với nhiều thách thức còn
đang chờ đƣợc giải quyết nhƣ phát hiện và theo dõi phƣơng tiện trong các điều kiện thời tiết khác nhau, đặc biệt là thời
tiết xấu. Môi trƣờng là yếu tố ảnh hƣởng rất nhiều đến các camera, từ đó ảnh hƣởng trực tiếp đến hiệu suất giám sát.
Đơn giản nhƣ việc thay đổi từ ngày sang đêm cũng là một thách thức cần phải giải quyết để hệ thống có thể đảm bảo
hoạt động xuyên suốt. Với các nhu cầu còn lớn nhƣ vậy, bài báo khảo sát này đã khảo sát một cách bao quát những
hƣớng tiếp cận chính trong 2 bài toán là nhận diện phƣơng tiện vốn là tiền đề cho nhiều xử lý phía sau nhƣ theo dõi,
phân tích hành vi; và bài tốn đo tốc độ phƣơng tiện giao thơng là bài tốn cần đƣợc đầu tƣ để có thể triển khai trong
thực tế. Bên cạnh đó, bài báo cũng tổng hợp và đề xuất một số bộ dữ liệu thƣờng đƣợc sử dụng để các nhóm nghiên
cứu trong tƣơng lai có thể triển khai hệ thống và có cơ sở đánh giá kết quả khoa học của mình.
TÀI LIỆU THAM KHẢO

[1] V. H. Do, L. H. Nghiem, N. P. Thi, and N. P. Ngoc, “A simple camera calibration method for vehicle velocity
estimation”, in ECTI-CON 2015 - 2015 12th International Conference on Electrical Engineering/Electronics,
2

/> />4
/>3

222

KHẢO SÁT BÀI TOÁN NHẬN DIỆN PHƢƠNG TIỆN VÀ ĐO TỐC ĐỘ PHƢƠNG TIỆN THAM GIA GIAO THÔNG

Computer, Telecommunications and Information Technology, pp. 1-5, 2015.
[2] S. Sivaraman and M. M. Trivedi, “Looking at vehicles on the road: A survey of vision-based vehicle detection,
tracking, and behavior analysis”, IEEE Trans. Intell. Transp. Syst., Vol. 14, No. 4, pp. 1773-1795, 2013.
[3] N. Seenouvong, U. Watchareeruetai, C. Nuthong, K. Khongsomboon, and N. Ohnishi, “Vehicle detection and
classification system based on virtual detection zone”, in 2016 13th International Joint Conference on Computer
Science and Software Engineering (JCSSE), pp. 1-5, 2016.
[4] N. Audebert, B. Le Saux, and S. Lefèvre, “Segment-before-detect: Vehicle detection and classification through
semantic segmentation of aerial images”, Remote Sens., Vol. 9, No. 4, p. 368, 2017.
[5] R. Velazquez-Pupo et al., “Vehicle detection with occlusion handling, tracking, and OC-SVM classification: A
high performance vision-based system”, Sensors, Vol. 18, No. 2, p. 374, 2018.
[6] F. Zhang, C. Li, and F. Yang, “Vehicle detection in urban traffic surveillance images based on convolutional
neural networks with feature concatenation”, Sensors, Vol. 19, No. 3, p. 594, 2019.
[7] J. Sochor et al., “Comprehensive Data Set for Automatic Single Camera Visual Speed Measurement”, IEEE
Trans. Intell. Transp. Syst., Vol. 20, No. 5, pp. 1633-1643, 2019.
[8] X. C. He and N. H. C. Yung, “A Novel Algorithm for Estimating Vehicle Speed from Two Consecutive Images”,
in 2007 IEEE Workshop on Applications of Computer Vision (WACV ’07), pp. 12, 2007.
[9] X. He and N. H. C. Yung, “New method for overcoming ill-conditioning in vanishing-point-based camera
calibration”, Opt. Eng., Vol. 46, No. 3, pp. 37202, 2007.

[10] T. N. Schoepflin and D. J. Dailey, “Dynamic camera calibration of roadside traffic management cameras for
vehicle speed estimation”, IEEE Trans. Intell. Transp. Syst., Vol. 4, No. 2, pp. 90-98, 2003.
[11] H. J. Kim, “Multiple vehicle tracking and classification system with a convolutional neural network”, J. Ambient
Intell. Humaniz. Comput., pp. 1-12, 2019.
[12] B. Tian et al., “Hierarchical and networked vehicle surveillance in ITS: a survey”, IEEE Trans. Intell. Transp.
Syst., Vol. 16, No. 2, pp. 557-580, 2014.
[13] Q.-L. Li and J.-F. He, “Vehicles detection based on three-frame-difference method and cross-entropy threshold
method”, Comput. Eng., Vol. 37, No. 4, pp. 172-174, 2011.
[14] S. Gupte, O. Masoud, R. F. K. Martin, and N. P. Papanikolopoulos, “Detection and classification of vehicles”,
IEEE Trans. Intell. Transp. Syst., vol. 3, no. 1, pp. 37-47, 2002.
[15] A. Ottlik and H.-H. Nagel, “Initialization of model-based vehicle tracking in video sequences of inner-city
intersections,” Int. J. Comput. Vis., Vol. 80, No. 2, pp. 211-225, 2008.
[16] R. Cucchiara, C. Grana, M. Piccardi, and A. Prati, “Detecting moving objects, ghosts, and shadows in video
streams”, IEEE Trans. Pattern Anal. Mach. Intell., Vol. 25, No. 10, pp. 1337-1342, 2003.
[17] L. Lin, T. Wu, J. Porway, and Z. Xu, “A stochastic graph grammar for compositional object representation and
recognition” Pattern Recognit., Vol. 42, No. 7, pp. 1297-1307, 2009.
[18] M. S. R. Sajib and S. M. Tareeq, “A feature based method for real time vehicle detection and classification from
on-road videos”, in 2017 20th International Conference of Computer and Information Technology (ICCIT), pp. 111, 2017.
[19] K. M. A. Yousef, M. Al-Tabanjah, E. Hudaib, and M. Ikrai, “SIFT based automatic number plate recognition”, in
2015 6th International Conference on Information and Communication Systems (ICICS), pp. 124-129, 2015.
[20] X. Li and X. Guo, “A HOG feature and SVM based method for forward vehicle detection with single camera”, in
2013 5th International Conference on Intelligent Human-Machine Systems and Cybernetics, Vol. 1, pp. 263-266,
2013.
[21] A. S. Banu and P. Vasuki, “Video based vehicle detection using morphological operation and hog feature
extraction”, ARPN J. Eng. Appl. Sci., Vol. 10, No. 4, pp. 1866-1871, 2015.
[22] S. M. Elkerdawi, R. Sayed, and M. ElHelw, “Real-time vehicle detection and tracking using Haar-like features
and compressive tracking”, in ROBOT2013: First Iberian Robotics Conference, pp. 381-390, 2014.
[23] M. Manana, C. Tu, and P. A. Owolawi, “A survey on vehicle detection based on convolution neural networks”, in
2017 3rd IEEE International Conference on Computer and Communications (ICCC), pp. 1751-1755, 2017.
[24] A. A. Yilmaz, M. S. Guzel, I. Askerbeyli, and E. Bostanci, “A vehicle detection approach using deep learning

methodologies”, arXiv Prepr. arXiv1804.00429, 2018.
[25] A. Arinaldi, J. A. Pradana, and A. A. Gurusinga, “Detection and classification of vehicles for traffic video
analytics”, Procedia Comput. Sci., Vol. 144, pp. 259-268, 2018.
[26] J. Lu et al., “A vehicle detection method for aerial image based on YOLO”, J. Comput. Commun., Vol. 6, No. 11,
pp. 98-107, 2018.
[27] X. You and Y. Zheng, “An accurate and practical calibration method for roadside camera using two vanishing
points”, Neurocomputing, Vol. 204, pp. 222-230, 2016.

Trần Hồng Lộc, Nguyễn Khắc Ngọc Khơi, Phan Đình Duy, Vũ Đức Lung

223

[28] L. Grammatikopoulos, G. Karras, and E. Petsa, “Automatic estimation of vehicle speed from uncalibrated video
sequences”, in Proceedings of International Symposium on Modern Technologies, Education and Profeesional
Practice in Geodesy and Related Fields, pp. 332-338, 2005.
[29] P. Filipiak, B. Golenko, and C. Dolega, “NSGA-II based auto-calibration of automatic number plate recognition
camera for vehicle speed measurement”, in European Conference on the Applications of Evolutionary
Computation, pp. 803-818, 2016.
[30] M. Dubská, A. Herout, R. Juránek, and J. Sochor, “Fully automatic roadside camera calibration for traffic
surveillance”, IEEE Trans. Intell. Transp. Syst., Vol. 16, No. 3, pp. 1162-1171, 2014.
[31] C. Maduro, K. Batista, P. Peixoto, and J. Batista, “Estimation of vehicle velocity and traffic intensity using
rectified images”, in 2008 15th IEEE International Conference on Image Processing, pp. 777-780, 2008.
[32] I. Sina, A. Wibisono, A. Nurhadiyatna, B. Hardjono, W. Jatmiko, and P. Mursanto, “Vehicle counting and speed
measurement using headlight detection”, in 2013 International Conference on Advanced Computer Science and
Information Systems (ICACSIS), pp. 149-154, 2013.
[33] M. Dubská, A. Herout, and J. Sochor, “Automatic Camera Calibration for Traffic Understanding.”, in BMVC,
Vol. 4, No. 6, p. 8, 2014.
[34] M. Naphade et al., “The 2019 AI City Challenge.”, in CVPR Workshops, pp. 452-460, 2019.

VEHICLE DETECTION AND SPEED ESTIMATION: A REVIEW
Tran Hoang Loc, Nguyen Khac Ngoc Khoi, Phan Dinh Duy, Vu Duc Lung
ABSTRACT: Traffic surveillance is one of the most considerable problems in recent years. The serious issue of traffic
accidents and traffic-related crimes is the motivation for developing an intelligent traffic system, which contains 2 basic problems
namely vehicle detection and vehicle speed estimation. This paper reviewed and classified some of popular approaches for vehicle
detection and vehicle speed estimation. This work aims to build a smart traffic monitoring system in the future. In addition, some of
commonly used datasets in these two problems for training and evaluating are also aggregated as a basis for other researchers to
evaluate their works.

Khảo sát bài toán nhận diện phương tiện và đo tốc độ phương tiện tham gia giao thông

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về