Tải bản đầy đủ (.docx) (65 trang)

Nghiên cứu kỹ thuật phân tích đám đông trong giám sát tự động dựa vào thị giác máy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.16 MB, 65 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC QUY NHƠN

TRẦN VĂN THÀNH

NGHIÊN CỨU KỸ THUẬT PHÂN TÍCH
ĐÁM ĐƠNG TRONG GIÁM SÁT TỰ ĐỘNG
DỰA VÀO THỊ GIÁC MÁY

Chuyên ngành: Khoa học máy tính
Mã số: 08.48.01.01

Ngƣời hƣớng dẫn: TS. Lê Thị Kim Nga


LỜI CẢM ƠN

Em xin gửi lời cảm ơn chân thành và sâu sắc nhất đến:
-

Cô TS.Lê Thị Kim Nga - Viện trưởng Viện nghiên cứu ứng dụng

KH&CN, Giảng viên Khoa Công nghệ thông tin (Trường Đại học Quy Nhơn)
đã dành nhiều thời gian, công sức, hỗ trợ và hướng dẫn tận tình em trong quá
trình thực hiện đề tài, giúp em hoàn thành luận văn này một cách thuận lợi
nhất;
-

Quý thầy cô Khoa Công nghệ thông tin (Trường Đại học Quy Nhơn) đã

tích cực giảng dạy, cung cấp những kiến thức chun mơn và thiết thực trong


q trình học tập, giúp em hiểu sâu hơn những nội dung liên quan phục vụ
cho việc nghiên cứu đề tài này;
-

Quý lãnh đạo cơ quan đã tạo điều kiện thuận lợi nhất về thời gian, sắp

sếp công việc để em theo đuổi và hồn thành khóa học.
Một lần nữa, em thành thật cảm ơn và trân trọng gửi đến quý thầy cô,
quý lãnh đạo cơ quan lời chúc tốt đẹp nhất trong sự nghiệp cũng như trong
cuộc sống.
Bình Định, ngày tháng năm 2020

Học viên

Trần Văn Thành


LỜI CAM ĐOAN

Tơi xin cam đoan, tồn văn đề tài nghiên cứu trên là do tôi tự vận dụng
kiến thức đã học, tìm hiểu qua nhiều kênh thơng tin và biên tập, có tham khảo
tài liệu liên quan, có chọn lọc và khơng sao y tồn văn của những đề tài đã
cơng bố chính thức, khơng quy phạm quyền tác giả. Các số liệu, kết quả nêu
trong luận văn là trung thực và có tham chiếu nguồn gốc rõ ràng.

Bình Định, ngày tháng năm 2020

Học viên

Trần Văn Thành



1

MỞ ĐẦU
1.

Lý do chọn đề tài

Ngày nay, khoa học máy tính (Computer Science) xuất hiện thay đổi
hồn tồn thế giới của chúng ta, thị giác máy (Computer Vision) là một trong
lĩnh vực trí tuệ nhân tạo (Artificial Intelligence) nhằm giúp máy tính có được
khả năng nhìn và hiểu giống như con người. Thị giác máy được định nghĩa là
một lĩnh vực bao gồm các phương pháp thu nhận, xử lý ảnh kỹ thuật số, phân
tích và nhận dạng các hình ảnh, nói chung là dữ liệu đa chiều từ thế giới thực
để cho ra các thông tin số.
Với sự gia tăng dân số và sự đa dạng của các hoạt động con người, hoạt
động của đám đông diễn ra ở những nơi công cộng thường xuyên hơn bao giờ
hết. Từ đó mang đến các thách thức lớn trong việc quản lý an ninh, an toàn,
giám sát hoạt động đang diễn ra ở những nơi này. Khi theo dõi một đám đơng
địi hỏi phải theo dõi một số lượng lớn các cá nhân và các hoạt động của họ,
đó là một thách thức đáng kể đối với sự giám sát của con người.
Để giám sát quản lý các nơi này, đồng thời hỗ trợ việc giám sát thủ công
truyền thống. Trong hơn thập kỷ qua, các hệ thống giám sát tự động đã được
nghiên cứu và đưa vào thực tế. Mặc dù, đã có nhiều giải thuật được phát triển
để theo vết, nhận biết và hiểu các hành vi của các đối tượng khác nhau trong
video, nhưng hầu như các giải thuật này được thiết kế cho những cảnh với
mật độ dân số thấp. Khi áp dụng lên những cảnh đám đơng thì việc xử lý gặp
khó khăn khi số lượng cá thể lớn, không chỉ bị sai lệch trong việc phát hiện và
theo vết, mà cịn làm cho q trình tính tốn trở nên phức tạp hơn. Với nhu

cầu thực tế như vậy, chủ đề nghiên cứu phân tích đám đơng trở thành một
hướng nghiên cứu quan trọng. Bài tốn phân tích đám đơng được mơ phỏng
qua q trình 3 giai đoạn nối tiếp tương tự cách con người nhìn: mô phỏng


2

mắt (thu nhận), mô phỏng vỏ não thị giác (xử lý) và mơ phỏng phần cịn lại
của bộ não (phân tích). Các thơng tin về đám đơng rất đa dạng và có cấu trúc
phức tạp, các nghiên cứu gần đây tập trung vào việc lựa chọn và sử dụng các
đặc trưng để biểu diễn khái niệm đám đông trong video. Tuy nhiên, các đặc
trưng được sử dụng vẫn chưa thể hiện được độ phức tạp và tính ngữ nghĩa của
cảnh đám đông do hầu hết các đặc trưng này đều nghiên cứu trên những cảnh
đám đông nhất định.
Từ những lý do ở trên, tôi chọn đề tài Nghiên cứu kỹ thuật phân tích
đám đơng trong giám sát tự động dựa vào thị giác máy là nội dung nghiên
cứu luận văn Thạc sĩ.
2.

Mục tiêu nghiên cứu

Trích xuất một số loại thơng tin từ các chuỗi video đông đúc, những
thông tin này là cơ sở để có thể phát triển một số ứng dụng sau này như phát
hiện chuyển động, ước tính mật độ đám đông, phát hiện hành vi.
Nghiên cứu các kỹ thuật cho bài tốn phân tính đám đơng. Xây dựng
chương trình thử nghiệm và đánh giá các phương pháp ứng dụng trong giám
sát tự động dựa vào thị giác máy.
3.

Đối tƣợng và phạm vi nghiên cứu


3.1. Đối tượng nghiên cứu
-

Các video hoặc hình ảnh camara trực tiếp.

-

Một số kỹ thuật xác định những thông tin liên quan đến đám đông trên

camera giám sát.
3.2. Phạm vi nghiên cứu
Các kỹ thuật được áp dụng trong phạm vi dữ liệu khung hình camera, có
thể là luồng video trực tiếp hoặc từ file video lưu trữ trên ổ cứng. Dữ liệu thể


3

hiện một góc nhìn của vùng khơng gian địa lý được thu nhận dưới ống kính
camera. Dữ liệu có thể từ một hoặc nhiều camera riêng lẻ quan sát nhiều góc
khác nhau của một khu vực địa lý.
4.

Phƣơng pháp nghiên cứu

Phương pháp nghiên cứu của đề tài được lựa chọn là lý thuyết kết hợp
với thực nghiệm. Các vấn đề cần giải quyết liên quan đến các thuật toán và lý
thuyết truyền thông mạng, xử lý ảnh, thị giác máy và đồ họa máy tính được
thực hiện trên phần mềm máy tính với đầu vào là các thơng tin thu nhận được
từ thực tế. Quá trình được tiến hành dựa trên việc tìm hiểu tài liệu, cài đặt thử

nghiệm sau đó đánh giá kết quả thực nghiệm và cải tiến nhằm nâng cao chất
lượng hệ thống.
Như vậy, cần tiến hành tìm hiểu lý thuyết về hệ thống camera giám sát,
các kỹ thuật phát hiện chuyển động, phát hiện đối tượng cũng như bám sát đối
tượng trên khung hình camera. Tìm hiểu kỹ thuật về mặt lý thuyết sẽ được kết
hợp với việc cài đặt thực nghiệm trên dữ liệu luồng hình ảnh từ camera để
kiểm chứng và đánh giá những nội dung lý tìm hiểu lý thuyết và từ đó cải tiến
và hồn thiện chương trình.
5. Ý nghĩa của đề tài
5.1. Ý nghĩa khoa học:
Nghiên cứu về các đối tượng trên dữ liệu camera là một vấn đề quan
trọng trong xử lý ảnh. Đề tài hướng đến việc ứng dụng các kỹ thuật xử lý ảnh
để phân tích về đám đơng xuất hiện ở những khu vực cơng cộng có thể quan
sát từ camera. Đây là một vấn đề khoa học quan trọng kết nối những vấn đề lý
thuyết toán học về xử lý ảnh đến bài toán thực tiễn trong cuộc sống.


4

5.2. Ý nghĩa thực tiễn:
Việc xuất hiện những bất thường ở những khu vực công cộng, đặc biệt là
sự xuất hiện cũng như diễn biến của những đám đông là một vấn đề thời sự
đối với xã hội. Việc có thể phát hiện và có những đánh giá kịp thời là vấn đề
có ý nghĩa quan trọng đối với những người làm công tác an ninh và kể cả với
những người dân bình thường.
6. Cấu trúc luận văn
Các nội dung sẽ được được trình bày có cấu trúc như sau:
-

Phần Mở đầu: Khái quát lý do; Mục tiêu, đối tượng và phạm vi nghiên


cứu; Phương pháp nghiên cứu.
-

Phần Nội dung: Nội dung nghiên cứu được cụ thể hóa trong 3 Chương:

+

Chương 1: Tổng quan về đề tài nghiên cứu.

+

Chương 2: Một số kỹ thuật phân tích đám đơng trong giám sát tự động.

+

Chương 3: Chương trình thử nghiệm.

-

Phần Kết luận: Kết quả đạt được về mặt lý thuyết và thực nghiệm,

những hạn chế trong quá trình thực hiện, đề xuất hướng phát triển trong thời
gian tới.


5

Chƣơng 1. TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU
1.1. Tình hình nghiên cứu của đề tài

Nghiên cứu về hành vi của con người là một chủ đề rất được quan tâm
của khoa học và có lẽ là một nguồn nghiên cứu vô tận. Với sự cải tiến của các
kỹ thuật thị giác máy, một số ứng dụng trong lĩnh vực này, như giám sát
video, hiểu hành vi của con người hoặc đo lường hiệu suất thể thao, đã được
xử lý bằng các kỹ thuật tự động hoặc bán tự động. Tuy nhiên, vẫn còn một số
thách thức phức tạp, khiến đề tài này có liên quan về mặt nghiên cứu.
Đám đông được tạo thành từ các bộ phận của cá nhân độc lập, theo đó
mỗi người trong số họ có mục tiêu riêng và mơ hình hành vi khác với dự kiến
cá nhân từ những người tham gia [1]. Hiện tại các hệ thống thương mại được
phát triển để theo dõi, công nhận và hiểu hành vi của rất nhiều đối tượng sử
dụng một hoặc nhiều máy quay video, xử lý thơng tin trong một hoặc nhiều
máy tính. Phân tích đám đơng liên quan đến việc giải thích dữ liệu thu được
bằng cách nghiên cứu chuyển động tự nhiên của các nhóm hoặc đối tượng.
Áp dụng một vài thuật tốn theo dõi những người tập trung trong cảnh
đám đông để khám phá hành vi dự kiến của đám đông. Khám phá các khía
cạnh tâm lý xã hội của đám đơng, như phát hiện nhóm và phân loại dựa trên
khơng gian cá nhân hoặc mơ hình lực lượng xã hội được là một xu hướng để
phát hiện bất thường trong cảnh đám đơng [4].
Ứng dụng đồ họa máy tính có thể giúp thị giác máy giám sát trong các
ứng dụng của đám đông và ngược lại. Một thách thức lớn trong phân tích đám
đơng là việc tạo ra các hình ảnh hoặc chuỗi video chân thực có thể được sử
dụng cho mục đích huấn luyện hoặc nhận dạng. Hình ảnh hoặc các chuỗi
video được tạo bởi các thuật toán đồ họa máy tính có thể được sử dụng để xác
nhận các thuật toán thị giác máy [2].


6

Các thuật tốn tổng hợp đám đơng cũng có thể được hưởng lợi từ thông
tin thu được từ cuộc sống đọc bằng thuật toán thị giác máy. Trong thực tế, hầu

hết các kỹ thuật mơ phỏng đám đơng hiện có yêu cầu một số loại kích thích
chuyển động để hướng dẫn các tác nhân ảo, có thể có được thơng qua các
thuật tốn theo dõi. Kích thích như vậy có thể được thu được trong các cảnh
không và được sử dụng để ước tính các kịch bản trong một kịch bản đơng đúc
hơn hoặc được trích xuất trực tiếp từ trình tự dày đặc hơn [13].
Tóm lại, phân tích đám đông trong giám sát tự động dựa vào thị giác
máy có lẽ về lâu dài là một vấn đề trọng tâm của các nhà nghiên cứu. Vấn đề
này đưa ra những thách thức về sự phức tạp lớn có thể liên quan đến các nhà
nghiên cứu một số lĩnh vực và bối cảnh. Đặc biệt, việc tích hợp thị giác máy
và đồ họa máy tính trở nên phổ biến hơn trong cả phân tích và tổng hợp đám
đơng.
1.2. Khái qt về đám đông
1.2.1. Giới thiệu chung
Đám đông (Crowd) là do các nhóm hoặc đối tượng tập trung. Việc phân
tích đám đơng (Crowd analysis) liên quan đến việc giải thích dữ liệu thu được
khi nghiên cứu sự chuyển động tự nhiên của các nhóm hoặc đối tượng [1].
Phân tích đám đơng được xem như một cuộc khảo sát sử dụng các kỹ thuật thị
giác máy bao gồm các khía cạnh khác nhau như theo dõi con người, ước tính
mật độ đám đông, phát hiện sự kiện, xác nhận và mô phỏng. Phân tích đám
đơng cũng có một loạt các ứng dụng như quản lý đám đông, thiết kế không
gian công cộng, môi trường ảo, giám sát trực quan và môi trường thơng
minh . Thách thức lớn trong phân tích đám đơng là tạo ra các hình ảnh hoặc
chuỗi video mặt đất, có thể được sử dụng cho mục đích huấn luyện hoặc nhận
dạng [9].


7

Hình 1.1. Đám đơng.


1.2.2. Một số tiếp cận về đám đông
1.2.2.1. Vấn đề phát hiện đám đông:
Vấn đề phát hiện đám đông là một phương pháp nghiên cứu dựa trên sự
kết hợp giữa lý thuyết và thực nghiệm. Các vấn đề cần giải quyết liên quan
đến các thuật toán và lý thuyết truyền thông mạng, xử lý ảnh, thị giác máy và
đồ họa máy tính được thực hiện trên phần mềm máy tính với đầu vào là các
thơng tin thu nhận được từ thực tế. Quá trình được tiến hành dựa trên việc tìm
hiểu tài liệu, cài đặt thử nghiệm sau đó đánh giá kết quả thực nghiệm và cải
tiến nhằm nâng cao chất lượng hệ thống.
Như vậy, cần tiến hành tìm hiểu lý thuyết về hệ thống camera giám sát,
các kỹ thuật phát hiện chuyển động, phát hiện đối tượng cũng như bám sát đối
tượng trên khung hình camera. Tìm hiểu kỹ thuật về mặt lý thuyết sẽ được kết
hợp với việc cài đặt thực nghiệm trên dữ liệu luồng hình ảnh từ camera để
kiểm chứng và đánh giá những nội dung lý tìm hiểu lý thuyết và từ đó cải tiến
và hồn thiện chương trình.


8

1.2.2.2. Một số thách thức phân tích thuộc tính đám đơng:
Dữ liệu phân tích là video, nên khối lượng lưu trữ và xử lý lớn. Ngoài ra,
chất lượng của video cũng ảnh hưởng nhiều đến kết quả nghiên cứu.
Các bài tốn phân tích video và hiểu cảnh thường liên quan tới phát hiện
đối tượng, theo dõi và ghi nhận hành vi nhưng đối với đám đơng, do có rất
nhiều sự hỗn loạn, sự mơ hồ, nên các phương pháp thông thường sẽ không
phù hợp. Các cơ chế của một đám đông con người rất phức tạp, đám đông này
biểu lộ sự chuyển động và cả các đặc tính tâm lý học, cả hai đều có thể định
hướng mục tiêu. Điều này gây ra khó khăn trong việc tìm ra một mức độ thích
hợp cho sự năng động của đám đơng [6].
Trước đây, tập dữ liệu nghiên cứu còn khá nhỏ, với ít đặc trưng được xây

dựng. Trong q trình phân tích đám đơng, những hành vi cụ thể của đám
đơng cần phải được phát hiện và phân loại, ngay cả các hành vi hiếm gặp và
khó mơ tả.
Chất lượng video huấn luyện thấp, nhiều video có độ dài rất ngắn do q
trình tập hợp, nén, lưu trữ khơng tốt. Do đó dễ có một tập dữ liệu chuẩn cho
lĩnh vực phân tích đám đơng thật sự là một thách thức lớn.
1.2.2.3. Phân loại phân tích đám đơng:
Phân tích những thơng tin của đối tượng trong đám đông là đầu vào cần
thiết cho việc dự đốn kết quả về thơng tin của đối tượng như đối tượng
chuyển động, hành vi đối tượng, kết cấu của đám đơng từ đó xây dựng được
các mơ hình theo dõi bám sát được các hành vi của đối tượng trong đám đơng.
Việc phân tích đám đơng được phân loại qua 3 q trình phân tích là tiền xử
lý, theo dõi và phát hiện hành vi [10].


9

Hình1.2. Mơ hình phân loại phân tích đám đơng


Phân tích dựa trên Pixel: Phân tích dựa trên pixel phụ thuộc vào các

tính năng rất cục bộ để ước tính số lượng người trong một cảnh đám đơng.
Bởi vì phương pháp này sử dụng các tính năng cấp thấp, hầu hết các phương
pháp dựa trên pixel tập trung vào ước tính mật độ đám đơng thay vì xác định
các cá nhân. Hầu hết các kỹ thuật sử dụng một kỹ thuật nền loại bỏ như là
bước đầu tiên, ví dụ, phép trừ nền được sử dụng chỉ trên hình ảnh tham chiếu
hoặc nền tự động máy phát điện để có được hình ảnh mặt đất nhân tạo.



10


Phân tích dựa trên cấp độ kết cấu: Phân tích cấp độ kết cấu khám phá

các tính năng cấp cao khi so với các cách tiếp cận dựa trên pixel, chủ yếu là
được sử dụng để ước tính số lượng người trong cảnh hơn là xác định cá nhân.
Những hình ảnh dày đặc đám đơng có xu hướng trình bày kết cấu tốt, trong
khi hình ảnh của đám đơng mật độ thấp có xu hướng trình bày kết cấu thơ.

 Phân tích dựa trên cấp độ đối tượng: Các phương pháp dựa vào phân
tích mức đối tượng cố gắng xác định đối tượng cá nhân trong cảnh. Họ có xu

hướng sản xuất nhiều hơn thơng tin chính xác khi so sánh với mức pixel phân
tích hoặc phân tích mức độ kết cấu, nhưng xác định các cá nhân trong một
hình ảnh hoặc một chuỗi video là chủ yếu là khả thi trong đám đông mật độ
thấp hơn. Trong dày đặc hơn đám đông, sự lộn xộn và sự xuất hiện nghiêm
trọng làm cho cá nhân vấn đề đếm gần như khơng thể giải quyết.
 Phân tích dựa trên cấp độ khung: Hành vi mơ hình phân tích mức
khung hình của toàn cảnh trong phạm vi quan sát của một máy ảnh.

Tiếp cận (theo dõi) đối tượng: Tiếp cận đối tượng trong một đám
đông nhằm để giảm thiểu các rủi ro như tắc, cường độ màu, chiếu sáng điều
kiện, ngoại hình,... các phương pháp tiếp cận như sau:


-

Phương pháp tiếp cận dựa trên khu vực: Là một tầm nhìn máy tính


mạnh mẽ trong cảnh đám đơng khơng bị giới hạn đó là thông tin như vậy như
mật độ, hướng và vận tốc được trích xuất bằng cách sử dụng kỹ thuật dịng
quang. Luồng quang là để tính tốn pixel tức thời chuyển động giữa khung
liên tiếp. Lưu lượng quang mạnh đến nhiều và chuyển động đồng thời của
máy ảnh và đối tượng, và được sử dụng rộng rãi trong phát hiện và phân chia
chuyển động đám đông.
-

Phương pháp tiếp cận dựa trên đường viền hoạt động: Được sử dụng


11

để mơ hình hóa nhắm mục tiêu một phần và để một số tiếng ồn. Thông thường
đã được sử dụng một biểu đồ màu, tuy nhiên Điểm yếu bằng cách sử dụng kỹ
thuật này hầu như không thay đổi biểu đồ màu khi suy yếu với đối tượng
tương tự như đứng đầu trong một đám đông.
- Cách tiếp cận dựa trên đặc trưng: được trình bày trong hình ảnh tính
năng bởi mơ tả các tính năng cấp blob. Các ví dụ là kích thước, hình dạng, độ
giãn dài, biểu đồ độ chói và biểu đồ chuyển vị.
-

Phương pháp tiếp cận dựa trên mơ hình: có thể giải quyết hợp nhất

blob và chia hạn chế. Cách tiếp cận này được sử dụng để phân khúc và theo
dõi nhiều người tắc. Phân tích hình ảnh từ dưới lên là được sử dụng để cải
thiện hiệu quả trong tầm nhìn máy tính.


Nhận diện sự kiện/hành vi: Một quy trình quan trọng khác trong phân


tích đám đơng là nhận diện sự kiện/ hành vi. Nhận diện sự kiện/hành vi có thể
đặc trưng bởi các mẫu chuyển động thường xuyên như hướng, tốc độ,… Giám
sát và mơ hình hóa đám đơng khơng q nhiều để phân tích hành vi đám đơng
bình thường, nhưng để phát hiện một cái gì đó hành vi khác nhau, đó được gọi
là bất thường hoặc khơng bình thường, các phương pháp nhận diện như sau:

-

Nhận diện theo phương pháp tiếp cận dựa trên đối tượng: Một đám

đơng được phân tích bằng cách điều trị bộ sưu tập cá nhân ước tính vận tốc,
hướng và bất thường chuyển động. Sự phức tạp xảy ra khi sự tắc nghẽn tồn tại
có thể ảnh hưởng đến q trình phân tích như phát hiện của đối tượng, theo
dõi quỹ đạo và nhận ra Hoạt động trong một đám đông dày đặc. Hai cách tiếp
cận được gọi là tính tương quan và hàm nhị phân. Đặc tính tương quan được
sử dụng để vị trí trung tâm của đầu trong khi đầu nhị phân được định nghĩa để
thể hiện khoảng cách giữa Các tác nhân.


12
-

Nhận diện theo phương pháp tiếp cận toàn diện: Một đám đơng được

phân tích bằng cách ứng với một thực thể duy nhất để ước tính vận tốc, hướng
và chuyển động bất thường. Các phân tích bao gồm cảnh mật độ trung bình
đến cao trong khung hình. Tuy nhiên, sử dụng phương pháp tổng thể ứng
dụng vẫn còn một điểm yếu bởi vì trong hình ảnh đám đơng dày đặc của đối
tượng có độ phân giải thấp và bao gồm các phần tĩnh và động. Như vậy lấy

tham số ước lượng chính xác hơn, dựa trên cách tiếp cận đối tượng tốt hơn.
1.3. Hệ thống camera giám sát tập trung
1.3.1. Giới thiệu về hệ thống camara giám sát tập trung
Hiện nay, trên thế giới các hệ thống giám sát tập trung bằng hình ảnh đã
được phát triển và đã chứng minh được hiệu quả nhất định trên một số lĩnh
vực như giám sát hoạt động con người, giám sát giao thơng,... Từ các hình
ảnh thu được từ những nơi được quan sát, ta có thể phát hiện được chuyển
động của các đối tượng trong các khung hình, xác định được đối tượng đó là
người, phương tiện hay vật thể gì. Nhiều hệ thống đã được nghiên cứu và phát
triển. Chẳng hạn, với bài tốn giám sát giao thơng có thể cho chúng ta biết
được số lượng phương tiện lưu thông qua đoạn đường được theo dõi, đưa ra
thông tin về tốc độ chuyển động, đường đi của đối tượng được theo dõi... Tuy
nhiên, các hệ thống vẫn gặp phải một số tồn tại như hiệu quả của việc quan sát
luôn phụ thuộc vào điệu kiện môi trường quan sát, kiểu chuyển động của đối
tượng hay các lý do khách quan khác. Vì vậy, các hệ thống này vẫn cịn đang
được nhiều nhà khoa học, trung tâm nghiên cứu trên thế giới và Việt nam
quan tâm phát triển.
Hệ thống camara giám sát tập trung là hệ thống thiết bị camera được đặt
tại trung tâm giám sát từ xa, có khả năng giám sát và lưu trữ các số liệu về
hoạt động của hệ thống.


13

Hệ thống camara giám sát tập trung quản lý tất cả camera từ xa, xem trực
tiếp trên tivi, có thể nâng cấp thời gian lưu trữ tùy theo nhu cầu. Quản lý được
nhiều loại camera, tự động thông báo qua tin nhắn, email ngay khi có sự cố
trên hệ thống.

Hình 1.3. Mơ hình hệ thống camara giám sát tập trung.


1.3.2. Vấn đề phát hiện đối tượng trên camera giám sát tập trung
Đầu vào của bài toán theo dõi và giám sát đối tượng chuyển động là các
khung hình video. Qua quá trình xử lý phát hiện đối tượng chuyển động
(Object Detection ) sẽ đưa ra các đối tượng chuyển động. Các đối tượng được
phát hiện sẽ qua quá trình phân lớp đối tượng (Object Classification) để xem
thuộc lớp nào, sự vật nào. Và cuối cùng là quá trình xử lý để theo dõi đối
tượng (Object Tracking) đó là việc tìm ra đường chuyển động của đối tượng,
dự đoán chuyển động, xử lý nhập nhằng trong chuyển động [8]
Khối phát hiện đối tượng chuyển động có thể coi là khối xử lý đầu tiên


14

trong hệ thống giám sát thơng minh bằng hình ảnh. Vì hiệu quả, tính chính
xác của khối xử lý này sẽ ảnh hưởng đến đầu vào và đầu ra của các khối xử lý
tiếp theo. Chính vì thế khối này ảnh hưởng lớn đến hiệu quả và tính tin cậy
của tồn hệ thống giám sát thơng minh.
Phân loại đối tượng là khâu trung gian và đóng vai trị quan trọng trong
tồn hệ thống, vì đây là đầu vào của khối theo vết đối tượng và cũng là đầu ra
của toàn bộ hệ thống. Bởi vậy đây cũng là một phần khơng thể thiếu trong
tồn bộ hệ thống.
Khối xử lý theo vết đối tượng là khối xử lý không thể thiếu trong hệ
thống giám sát thơng minh vì hiệu quả của khối xử lý này ảnh hưởng trực tiếp
đến đầu ra của tồn bộ hệ thống. Do đó giải quyết tốt vấn đề theo vết đối
tượng sẽ đưa lại tính chính xác và độ tin cậy cho hệ thống giám sát.

Hình 1.4. Hệ thống camera kết nối về trung tâm xử lý hình ảnh

Việc xử lý của hệ thống giám sát thơng minh bằng hình ảnh là việc phân

tích và xử lý hình ảnh video qua việc giải quyết các bài toán: Phát hiện các
đối tượng chuyển động, phân lớp đối tượng, theo dõi đối tượng,...


15

1.4. Mơ hình phân tích đám đơng trong giám sát tự động dựa vào thị
giác máy
1.4.1. Tổng quan về Thị giác máy
Công nghiệp 4.0 ngày càng phát triển, các phương tiện tự động hóa, các
thiế bị cảm biến tiến tiến ngày càng gia tăng. Các công nghệ tiên tiến đem đến
một cách thức thực hiện mới cho các nhiệm vụ ngày càng phức tạp hơn [2].
Trong số các ngành khác nhau của trí tuệ nhân tạo, thị giác máy đang có
được những động lực thúc đẩy đáng kể. Thị giác máy được định nghĩa là một
lĩnh vực bao gồm các phương pháp thu nhận, xử lý ảnh kỹ thuật số, phân tích
và nhận dạng các hình ảnh, video, nói chung là dữ liệu đa chiều từ thế giới
thực để cho ra các thông tin số hoặc biểu tượng. Thị giác máy cũng được mô
tả là sự tổng thể của một dải rộng các q trình tự động và tích hợp và các thể
hiện cho các nhận thức thị giác.

Hình 1.5. Tầm quan trọng của thị giác máy đối với trí tuệ nhân tạo.


16

Thị giác máy tính là thuật ngữ mơ tả một tập hợp các công nghệ cho
phép các thiết bị máy tính, phần mềm, robot hoặc bất kỳ thiết bị nào; thu
nhận, phân tích và xử lý hình ảnh [3].
Các nguồn hình ảnh khác nhau có thể vơ cùng đa dạng, có thể là hình
ảnh, video, dữ liệu 3D, dữ liệu từ máy qt y tế hoặc cơng nghiệp,... Mục đích

là để cung cấp cho các thiết bị này khả năng “nhìn” và phản ứng tùy thuộc
vào thơng tin nhận được.
Thị giác máy thường được so sánh với nhận dạng giọng nói. Thị giác
máy có điểm khác với xử lý ảnh, xử lý ảnh là phân tích hình ảnh kỹ thuật số
hoặc thực hiện các thuật toán, bao gồm việc phân loại, trích xuất, chỉnh sửa
hoặc lọc,… Xử lý hình ảnh liên quan đến các công nghệ và phương pháp
được sử dụng để gia tăng hình ảnh về khía cạnh thơng tin, trong khi đó thị
giác máy tính hướng đến các hành động thực tế, mặc dù ứng dụng đầu tiên
của thị giác máy là quản lý hình ảnh nhưng thị giác máy cũng có thể được sử
dụng để thực hiện các hoạt động khác nhau bao gồm nhận dạng đối tượng
hoặc phát hiện sự kiện [5].

Hình 1.6. Vai trị của thị giác máy trong nhận dạng và phát hiện đối tƣợng.


17

Cấu tạo của hệ thống thị giác máy thông thường được biểu diễn như
Hình 1.7. Máy quay phim CCD (Charge-Coupled Device) có thể ghi lại các
đối tượng cần nhận biết và phân tích dưới dạng hình ảnh. Về bản chất, máy
quay phim CCD là một cảm biến quang điện, thu nhận các tín hiệu quang học
phản ánh đối tượng, bối cảnh rồi chuyển thành tín hiệu điện để gi lại. Bộ phận
thu nhận hình ảnh có thể hoạt động độc lập hoặc được gắn trực tiếp trong máy
tính ở dạng card thu nhận hình ảnh có thể chuyển tín hiệu của máy quay phim
thu nhận được thành tín hiệu số, số hóa hình ảnh, để máy tính tiến hành xử lý
các loại yêu cầu. Hệ thống chiếu sáng cho phép nâng cao độ chiếu sáng phù
hợp hình ảnh thu nhận được, làm lợi cho xử lý và phân tích hình ảnh [6].

Hình 1.7. Cấu tạo hệ thống thị giác máy.


Quá trình mơ phỏng thị giác máy qua q trình 03 giai đoạn nối tiếp: mô
phỏng mắt (thu nhận), mô phỏng vỏ não thị giác (xử lý) và mơ phỏng phần
cịn lại của bộ não (phân tích):
Thu nhận: Vài chục năm qua, con người đã tạo ra các cảm biến, vi xử lý
hình ảnh giống (và ở mức độ nào đó cịn tốt hơn) khả năng nhìn của mắt
người. Những thấu kính lớn hơn, hồn hảo về mặt quang học cùng các điểm


18

ảnh phụ bán dẫn nhỏ tới mức nano mét giúp các camera ngày nay có độ chính
xác và nhạy đáng kinh ngạc. Camera có thể chụp hàng ngàn ảnh mỗi giây và
nhận diện từ xa với độ chính xác cao. Nói cách khác, phần cứng bị giới hạn
khi khơng có phần mềm - đến giờ vẫn là khó khăn lớn nhất. Tuy vậy, camera
ngày nay cũng khá linh hoạt và làm nền tảng tốt để nghiên cứu.

Hình 1.8. Thị giác máy có khả năng nhìn và hiểu giống nhƣ con ngƣời.

Mô tả: Bộ não được xây dựng từ con số 0 với các hình ảnh dần dần lấp
đầy, Bộ não làm nhiệm vụ liên quan tới thị giác nhiều hơn bất kì cơng việc
nào khác và việc này đều xuống tới cấp độ tế bào. Hàng tỉ tế bào phối hợp để
lấy ra các hình mẫu, bắt được tín hiệu. Một nhóm nơ-ron sẽ báo cho nhóm
khác khi có sự khác biệt dọc theo một đường thẳng (theo một góc, chuyển
động nhanh hơn hay theo một hướng khác). Các thông tin khác sẽ dần được
bổ sung như: đường tròn màu trắng, đường thẳng màu đỏ, kích thước tăng
dần,… hình ảnh sẽ dẫn hiện ra khi các thông tin được thêm mới.


19


Thấu hiểu: Chúng ta có thể xây dựng một hệ thống nhận diện được một
vật gì đó, từ bất kỳ góc nào, trong bất kỳ tình huống nào, dù đứng yên hay
chuyển động, dù bị hỏng hay còn nguyên nhưng vẫn khơng thể nhận diện
được vật đó. Đó chính là phần còn lại của bộ não, bộ nhớ ngắn/dài hạn, dữ
liệu từ các giác quan, sự chú ý, nhận thức, bài học khi tương tác với thế giới,
… được viết lên mạng lưới nơ-ron kết nối phức tạp hơn bất cứ thứ gì chúng ta
từng thấy, theo cách mà chúng ta khơng thể hiểu.

Hình 1.9. Nhận thức về một vật trong ảnh của thị giác máy.

1.4.2. Một số lĩnh vực ứng dụng của thị giác máy
Thị giác máy đang được sử dụng trong nhiều lĩnh vực như: An ninh, y tế,
bán lẽ, ngân hàng, học máy, học sâu, thiết bị thông minh, phát hiện cháy, phát
hiện động đất [2]. Đặc biệt, Thị giác máy là một kỹ thuật tiên tiến nhất trong
việc phát hiện chuyển động trên video, ứng dụng phân tích hành vi đám đơng
hiện nay như: Dự đốn sự di chuyển khẩn cấp của đám đông, nhận diện các
hành vi, nhận diện khn mặt, nhận dạng giọng nói của con người,… để đưa


20

ra những kết quả, thơng tin, dự đốn về hành vi của con người trong đám
đông hiệu quả nhấ [7].

Thiết bị
thơng
minh (điện Y tế thoại)

Học máy
(Machine

Learning)

Hình 1.10. Mơ hình một số lĩnh vực ứng dụng của thị giác máy

1.5. Kết luận Chƣơng 1
Chương này đã trình bày tổng quan về bài tốn phân tích đám đơng,
cùng với các cách tiếp cận trong bài tốn phân tích đám đơng trên cơ sở ứng
dụng của thị giác máy, từ mơ hình camera, các kỹ thuật trong phân tích đám
đơng. Ngồi ra, trong chương này cũng đã phân tích một số vấn đề thách thức
của bài tốn phân tích đám đơng cũng như các lĩnh vực ứng dụng của chúng.


21

Chƣơng 2. MỘT SỐ KỸ THUẬT PHÂN TÍCH ĐÁM ĐƠNG
TRONG GIÁM SÁT TỰ ĐỘNG
2.1. Kỹ thuật phát hiện chuyển động
2.1.1. Giới thiệu
Phát hiện chuyển động là nhiệm vụ đầy thách thức, một kỹ thuật quan
trọng trong phân tích đám đơng chuyển động là xác định đặc trưng bởi các
mẫu chuyển động thường xuyên như hướng, mật độ, tốc độ, và bất thường
chuyển động,… Giám sát và mơ hình hóa đám đơng để phân tích hành vi của
đối tượng đó trong đám đơng là bình thường hay bất bình thường.

Hình 2.1. Phát hiện đối tƣợng có hành động đi tốc độ nhanh đƣợc khoanh vùng.

Phát hiện đối tượng chuyển động là bước cơ bản để tiếp tục phân tích
video. Mọi phương pháp theo dõi đều yêu cầu một đối tượng cơ chế phát hiện
trong mọi khung hình hoặc khi đối tượng lần đầu tiên xuất hiện trong video.
Nó xử lý phân đoạn di chuyển vật thể từ vật thể nền tĩnh. Điều này tập trung

trên xử lý cấp cao hơn. Nó cũng làm giảm tính tốn thời gian. Do điều kiện


22

môi trường như ánh sáng thay đổi, phân đoạn đối tượng bóng trở nên khó
khăn và vấn đề đáng kể. Một cách tiếp cận phổ biến để phát hiện đối tượng là
sử dụng thông tin trong một khung duy nhất. Tuy nhiên, một số đối tượng
phương pháp phát hiện tận dụng thơng tin tạm thời được tính tốn từ một
chuỗi các khung để giảm số lượng phát hiện sai. Thông tin tạm thời này
thường ở hình thức phân biệt khung hình, làm nổi bật các vùng thay đổi động
trong các khung liên tiếp.

KHUNG
VIDEO

Hình 2.2. Mơ hình phát hiện đối tƣợng chuyển động


Phát hiện tiền cảnh:

Mục đích chính của phát hiện tiền cảnh là phân biệt các đối tượng ở tiền
cảnh với đối tượng đứng sau. Hầu hết, mỗi hệ thống giám sát video sử dụng
bước đầu tiên là phát hiện các đối tượng tiền cảnh. Điều này tạo ratrọng tâm
của sự chú ý cho các cấp độ xử lý cao hơn, chẳng hạn như theo dõi, phân loại
và hiểu hành vi và giảm thời gian tính tốn đáng kể vì chỉ có pixel thuộc đối
tượng tiền cảnh cần được xử lý.



×