xây dựng hệ thống giám sát dựa trên phát hiện chuyển động và đối tượng trong ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.53 MB, 54 trang )

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết quả
nêu trong luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công
trình nào khác.
Tôi xin cam đoan rằng các thông tin trích dẫn trong luận văn đều đã đƣợc
chỉ rõ nguồn gốc.
Hải Phòng, ngày 10 tháng 9 năm 2015

i

LỜI CÁM ƠN
Để hoàn thành tiểu luận này, tôi xin chân thành cảm ơn các thầy cô giáo đã
tận tình hƣớng dẫn, giảng dạy trong suốt quá trình học tập, nghiên cứu và rèn luyện
ở Trƣờng Đại học Hàng Hải Việt Nam. Xin chân thành cảm ơn Thầy giáo hƣớng
dẫn TS. Nguyễn Hữu Tuân đã tận tình, chu đáo hƣớng dẫn tôi thực luận văn này.
Mặc dù đã có nhiều cố gắng để thực hiện đề tài một cách hoàn chỉnh nhất,
song do hạn chế tiếp cận với thực tế cũng nhƣ hạn chế về kiến thức và kinh nghiệm
nên không thể tránh khỏi những thiếu sót nhất định mà bản thân chƣa thấy đƣợc.
Tôi rất mong đƣợc sự góp ý của quý thầy, cô giáo và các bạn đồng nghiệp để luận
văn đƣợc hoàn chỉnh hơn. Tôi xin chân thành cảm ơn.

ii

MỤC LỤC
Trang
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CÁM ƠN............................................................................................................ ii
MỤC LỤC ................................................................................................................ iii
DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU .................................................. v

DANH MỤC CÁC HÌNH ........................................................................................ vi
MỞ ĐẦU ................................................................................................................... 1
CHƢƠNG 1. GIỚI THIỆU ....................................................................................... 3
1.1.

Mục đích của đề tài. ................................................................................... 3

1.2.

Yêu cầu của đề tài. ..................................................................................... 3

1.3.

Cách tiếp cận đề tài. ................................................................................... 4

Cuối cùng, cần xây dựng hệ thống phần mềm kết hợp với các thiết bị phần cứng để
tạo thành một hệ thống hoàn thiện vận hành hiệu quả. ............................................. 5
CHƢƠNG 2. PHÁT HIỆN CHUYỂN ĐỘNG VÀ ĐỐI TƢỢNG TRONG VIDEO
................................................................................................................................... 6
2.1.

Phƣơng pháp phát hiện chuyển động. ....................................................... 6

2.2.

Phƣơng pháp phát hiện ngƣời. ................................................................. 14

2.3.

Phƣơng pháp phát hiện mặt ngƣời........................................................... 21

CHƢƠNG 3. XÂY DỰNG CHƢƠNG TRÌNH ..................................................... 27
3.1.

Thƣ viện OPENCV và EMGU. ............................................................... 27

3.2.

Hệ thống video giám sát. ......................................................................... 31

3.3.

Hệ thống giám sát dựa trên chuyển động và ngƣời. ................................ 34

3.4.

Dữ liệu kiểm thử và đánh giá hiệu năng.................................................. 40

KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................. 44
iii

TÀI LIỆU THAM KHẢO ....................................................................................... 47

iv

DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU
Chữ viết tắt

Giải thích

CNTT

Công nghệ thông tin

HOG

Histogram of oriented gradient

KHCN

Khoa học công nghệ

TGMT

Thị giác máy tính

v

DANH MỤC CÁC HÌNH
Số hình
2. 1

Tên hình

Trang

Sự phát triển của các ảnh MHI cho 2 hành động khác 7

nhau. Ảnh MHI đƣợc tạo ra thể hiện bên dƣới các
hành động tuần tự.

2. 2

Ví dụ cho MHI và MEI.

9

2. 3

Minh họa sự phụ thuộc vào T để phát triển các ảnh 9
MHI.

2. 4

Minh họa sự phụ thuộc vào δ trong tính toán mẫu 10
MHI.

2. 5

Lƣợc đồ luồng hệ thống điển hình của phƣơng thức 13
MHI cho việc nhận dạng hành động.

2. 6

Minh họa cách cách tính toán vector gradient

15

2. 7

Minh họa các mẫu cửa sổ tìm kiếm kích thƣớc 16
64x128

2. 8

Minh họa ô kích thƣớc 8x8 trong cửa sổ tìm kiếm

17

2. 9

Minh họa cho HOG.

18

2. 10

Minh họa cho việc cộng thêm và nhân thêm vào giá 19
trị của từng điểm ảnh.

2. 11

Minh họa cho sự thay đổi giá trị các vector gradient 20
khi có sự thay đổi về ánh sáng.

2. 12

Hình ảnh minh họa cho sự gộp các ô để tạo nên các 21

khối có sự chồng lấp.

2. 13

Minh họa cách tính giá trị của ảnh tích phân.

vi

22

2. 14

Đặc trƣng thứ nhất và thứ hai đƣợc lựa chọn bởi 24
AdaBoost.

2. 15

Minh họa tầng phân loại.

25

3.1

Minh họa tổng quan về OpenCV

28

3. 2

Minh họa mô hình hệ thống giám sát.

31

3. 3

Hình ảnh minh họa cho camera giám sát.

32

3. 4

Hình ảnh minh họa đầu xử lý tín hiệu.

33

3. 5

Hình minh họa thiết bị cảnh báo.

34

3. 6

Minh họa mô hình giám sát cục bộ

34

3. 7

Minh họa mô hình giám sát trực tuyến.

35

3. 8

Minh họa phát hiện chuyển động

41

3. 9

Minh họa phát hiện ngƣời

42

3. 10

Minh họa phát hiện khuôn mặt

43

vii

MỞ ĐẦU
Ngày nay, song song với sự phát triển của nền kinh tế cũng nhƣ xã hội là sự
phát triển không mong muốn của các tệ nạn xã hội. Khi tình hình an ninh đang
ngày càng trở nên đáng báo động thì mỗi ngƣời chúng ta đều cần có sự chuẩn bị
riêng cho mình nhằm phòng tránh các rủi ro. Có rất nhiều các biện pháp an ninh

ngày nay đƣợc đƣa ra nhƣ thuê nhân viên an ninh, sử dụng các hệ thống khóa cao
cập tuy nhiên chƣa có một hệ thống nào cho đƣợc kết quả an toàn tuyệt đối. Cùng
với các biện pháp đã nêu trên hệ thống camera giám sát ngày nay đang là một
phƣơng tiện hữu ích giúp cho mọi ngƣời có thể bảo vệ tính mạng, tài sản và thêm
vào đó hệ thống này cũng là một công cụ giúp cho việc quản lý công việc một cách
hiệu quả hơn. Hầu hết các cửa hàng kinh doanh vừa và nhỏ cho đến các gia đình
hiện nay gần nhƣ đều có nhu cầu trang bị cho mình một hệ thống giám sát nhằm
tăng cƣờng an ninh nơi sinh sống làm việc cũng nhƣ hỗ trợ cho việc quản lý nhân
viên, kiểm soát hàng hóa ra vào ở các cửa hàng, công ty, kho bãi...
Cùng với sự phát triển của công nghệ và khoa học, các hệ thống phần cứng
ngày nay cho phép chúng ta có thể có đƣợc hình ảnh từ camera giám sát với chất
lƣợng ngày càng cao hơn cùng với sự tăng cƣờng khả năng giám sát khi việc giám
sát đã có thể tiến hành từ xa thông qua mạng internet, giúp chúng ta hoàn toàn có
thể theo dõi tình hình ở một nơi ở xa chúng ta, thì sự cần thiết của một hệ thống
phần mềm thông minh là cần thiết hơn bao giờ hết để góp phần tạo nên một hệ
thống giám sát hoàn thiện cho ngƣời sử dụng.
Các hệ thống giám sát phổ thông trên thị trƣờng hiện giờ chỉ tập trung vào
việc quan sát và ghi hình tại nơi cần giám sát, điều này đôi khi không giúp cho
chúng ta trong các trƣờng hợp khẩn cấp cần xử lý ngay. Trong thực tế, điều này có
thể thấy qua việc một số cửa hàng mặc dù đã lắp hệ thống giám sát nhƣng khi bị
đột nhập vào buổi đêm thì sáng hôm sau những gì chủ cửa hàng thu lại chỉ duy
nhất là đoạn video những kẻ trộm mang khăn bịt mặt lấy đi những tài sản của mình.
Điều này là chƣa đủ so với những gì chúng ta cần trong thực tế, thực tế này đã đặt

1

ra sự cần thiết cho một hệ thống thông minh hơn có thể phát hiện ra đƣợc những
chuyển động và ngƣời trong khi giám sát.
Từ thực tế đã nêu trên, tôi đã định hƣớng sẽ chọn đề tài xây dựng hệ thống

giám sát dựa trên phát hiện chuyển động và đối tƣợng trong ảnh làm đề tài nghiên
cứu cho khóa luận của mình. Bài tiểu luận này sẽ trình bày làm rõ một số vấn đề
của đề tài nhƣ cơ sở khoa học, ý nghĩa thực tiễn, mục đích và phƣơng pháp nghiên
cứu của đề tài này.

2

CHƢƠNG 1. GIỚI THIỆU
1.1.

Mục đích của đề tài.
Đề tài đƣợc đặt ra với mục đích chính nhằm giải quyết đƣợc yêu cầu thực

tiễn mà xã hội đang đề ra về một hệ thống giám sát hiệu quả cũng nhƣ ứng dụng
đƣợc các kỹ thuật tiên tiến của ngành công nghệ thông tin nói chung và lĩnh vực thị
giác máy tính nói riêng vào việc giải quyết các vấn đề liên quan đến giám sát và an
ninh.
Thêm vào đó, việc nghiên cứu đề tài này sẽ giúp cho tôi nghiên cứu sâu hơn
vào lĩnh vực thị giác máy tính, nắm rõ các kỹ thuật phát hiện đối tƣợng và quan
trọng hơn cả là kết hợp những kĩ thuật này để có đƣợc một giải pháp hiệu quả hơn
cho các bài toán lý thuyết và cho cả bài toán thực tế. Từ đây sẽ là tiền đề giúp cá
nhân tôi cũng nhƣ xã hội có thêm những cách tiếp cận để có thể giải quyết đƣợc
các bài toán lớn hơn. Cụ thể đề tài tập trung nghiên cứu vào ba vấn đề lý thuyết
chính là phƣơng pháp phát hiện chuyển động, phƣơng pháp phát hiện ngƣời và
phát hiện khuôn mặt ngƣời trong video.
Ngoài ra, đề tài đƣợc đặt ra cũng nhằm tới mục đích nghiên cứu, tìm hiểu về
hệ thống thƣ viện OpenCV nói chung cũng nhƣ EMGU nói riêng và từ đó có thể áp
dụng các kỹ thuật mới vào trong hệ thống. Theo đó, có thể nâng cao tính thực tiễn,
hiệu quả cho hệ thống.

Cuối cùng, đề tài cũng mong muốn đạt đƣợc mục tiêu cân bằng giữa chi phí
và hiệu năng của hệ thống giám sát, cố gắng đạt đƣợc hệ giám sát hiệu quả với chi
phí chấp nhận đƣợc (thực tế hiện giờ đa số các hệ thống giám sát hiện tại ở Việt
Nam nếu có hiệu năng cao thì thƣờng rất đắt, còn những hệ thống với mức chi phí
chấp nhận đƣợc lại thƣờng có tính năng đơn giản và hiệu suất không cao).
1.2.

Yêu cầu của đề tài.
Với mong muốn có thể áp dụng vào thực tế, đề tài cần phải đáp ứng đƣợc

các yêu cầu thực tế nhƣ sau:

3

- Hệ thống vận hành ổn định trong các điều kiện khác nhau và có độ tin
cậy cao với ngƣời sử dụng.
- Các tính năng của hệ thống cần phải hoạt động nhanh nhƣng song song
với đó là tính chính xác.
- Giao diện của hệ thống thân thiện dễ hiểu, dễ học và dễ sử dụng đối với
ngƣời sử dụng.
- Hệ thống cần có sự tùy chỉnh các cấu hình, thông số dễ dàng để phù hợp
với các hoàn cảnh vận hành khác nhau cũng nhƣ yêu cầu khác nhau của
ngƣời sử dụng.
- Hệ thống cần đƣợc áp dụng những kỹ thuật, công nghệ tân thời để có thể
nâng cấp, phát triển dễ dàng sau này.
- Hệ thống cần có sự đảm bảo mức kinh phí cân bằng với hiệu năng, có thể
vận hành đƣợc trên nền tảng phần cứng với mức kinh phí chấp nhận đƣợc.
- Hệ thống cần đƣợc kiểm thử và đánh giá một cách kỹ càng trƣớc khi đƣa
vào vận hành thực tế.

1.3.

Cách tiếp cận đề tài.
Để có thể giải quyết đƣợc mục đích đề ra ở phía trên tôi xác định mình cần

phải thực hiện đƣợc một số cách tiếp cận cụ thể sau:
- Thứ nhất, khảo sát nắm rõ hiện trạng về nhu cầu của xã hội với các hệ
thống camera giám sát, tìm hiểu rõ về những ƣu nhƣợc điểm của các hệ
thống đã có, từ đó rút ra đƣợc những điều tốt cần kế thừa và những điểm
chƣa tốt cần phải khắc phục cũng nhƣ đƣa ra đƣợc bản phác thảo ý tƣởng
cho hệ thống cần xây dựng.
- Thứ hai, tìm hiểu nghiên cứu kết cấu của một hệ thống camera giám sát,
nghiên cứu kĩ từng thành phần cũng nhƣ cách tổ hợp chúng thành một hệ
thống và vấn đề làm thế nào để có thể phát triển đƣợc một hệ thống giám
sát trực tuyến thông qua mạng internet để từ đây có thể lên đƣợc bản thiết
kế thành phần cho hệ thống camera giám sát mà tôi cần phải xây dựng.

4

- Thứ ba, tìm hiểu về lý thuyết của các phƣơng pháp Motion Detection,
Human Detction và Face Detection để từ những lý thuyết nghiên cứu
đƣợc tiến hành xây dựng hệ thống phần mềm trong hệ thống giám sát cần
thực hiện.
- Tìm hiểu về thƣ viện OpenCV cũng nhƣ các ứng dụng của bộ thƣ viện
này để có thể áp dụng vào bài toán thực tế.
Cuối cùng, cần xây dựng hệ thống phần mềm kết hợp với các thiết bị phần
cứng để tạo thành một hệ thống hoàn thiện vận hành hiệu quả.

5

CHƢƠNG 2. PHÁT HIỆN CHUYỂN ĐỘNG VÀ ĐỐI TƢỢNG TRONG
VIDEO
2.1.

Phƣơng pháp phát hiện chuyển động.
Cách tiếp cận dựa trên lịch sử chuyển động ảnh là một cách nhìn dựa trên

phƣơng pháp phát hiện mẫu theo thời gian. Đây là một phƣơng pháp đơn giản
nhƣng lại hiệu quả trong việc biển diễn cho các chuyển động và đƣợc sử dụng
trong rất nhiều các nghiên cứu liên quan đến việc nhận dạng hành động, phân tích
chuyển động và các ứng dụng liên quan khác.
a. Các mẫu ảnh lịch sử chuyển động (Motion History Image - MHI) và ảnh
năng lƣợng chuyển động (Motion Energy Image - MEI).
Lý thuyết về sự nhận dạng và biểu diễn ảnh đƣợc đề xuất bởi Bobick và
Davis[5] phân tích sự nhận dạng dựa trên chuyển động cùng với việc mô tả về yếu
tố không gian và mô tả cách thức mà đối tƣợng chuyển động. Theo đó, những điều
này biểu diễn sự hình thành của MEI hoặc vùng chuyển động nhị phân (Binary
Motion Regiion - BMR), và chúng ta có thể thấy rằng đây là những đại diện cho vị
trí các chuyển động có đƣợc trong một dãy ảnh. MEI biểu diễn hình dạng chuyển
động và sự phân chia không gian của chuyển động. Sau đó thì MHI đƣợc sinh ra.
Cƣờng độ của mỗi điểm ảnh trong MHI đại diện cho một khoảng của số lần có thể
đƣợc mã hóa của mỗi khung hình, và phƣơng pháp MHI này sẽ móc nối tỷ lệ thời
gian của các cử chỉ của con ngƣời.
Đặt MEI và MHI cùng nhau, chúng ta sẽ thấy đƣợc MHI và MEI có thể
đƣợc xem nhƣ hai phiên bản thành phần của mẫu theo thời gian. Trong một ảnh
vector, mỗi thành phần của từng điểm ảnh là một số hàm chuyển động tại vị trí
điểm ảnh đó. Những mẫu quan sát cụ thể đƣợc ghép sẽ có sự cạnh tranh với các
mẫu lƣu trữ của khung nhìn các chuyển động đã biết. Hợp nhất các mẫu MEI và

MHI ta đƣợc cấu tạo phƣơng thức MHI HT(x, y, t) có thể đƣợc tính toán từ hàm
φ(x, y, t)

6

HT(x, y, t) =

𝑇 𝑣ớ𝑖 φ x, y, t = 1
max 0, 𝐻𝑇 𝑥, 𝑦, 𝑡 − 1 − 𝛿 𝑣ớ𝑖 𝑐á𝑐 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑘ℎá𝑐

(2.1)

Ở đây (x, y) và t thể hiện vị trí và thời gian còn φ(x, y, t) là tín hiệu sự hiện
diện hoặc chuyển động trong ảnh video hiện tại. Thời gian T quyết định sự kéo dài
thời gian của chuyển động và 𝛿 là tham số phân rã. Hàm cập nhật φ(x, y, t) này
đƣợc gọi cho mỗi khung hình mới đƣợc phân tích tuần tự. Việc tính toán sẽ giúp
tạo ra ảnh vô hƣớng (trong đó sẽ có nhiều hơn các điểm ảnh di chuyển sáng hơn và
ngƣợc lại).

Hình 2.1: Minh họa cho sự phát triển của các ảnh MHI cho 2 hành động khác nhau.
Ảnh MHI đƣợc tạo ra thể hiện bên dƣới các hành động tuần tự. 1
Một số kĩ thuật xử lý ảnh định nghĩa hàm cập nhật φ(x, y, t) là phép trừ nền,
sự khác biệt ảnh và dòng quang học. Thông thƣờng, chúng ta có thể nói rằng MHI
đƣợc sinh ra từ hình ảnh nhị phân, cụ thể là nó có đƣợc từ phép trừ khung sử dụng
ngƣỡng ξ

1

Nguồn http://www. academia. edu/360567/Motion_history_image_its_variants_and_applications

7

φ(x, y, t) =

1 𝑣ớ𝑖 D x, y, t ≥ ξ
0 𝑣ớ𝑖 𝑐á𝑐 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑘ℎá𝑐

(2.2)

D(x, y, t) đƣợc định nghĩa với sự khác biệt khoảng cách Δ nhƣ sau:
D(x, y, t) = |I(x, y, t) – I(x, y, t ∓ Δ)|

(2.3)

Ở đây I(x, y, t) là giá trị cƣờng độ tại điểm (x, y) ở khung thứ t của ảnh tuần
tƣ. Từ đó, chúng ta có thể có đƣợc mẫu MHI cuối cùng là HT(x, y, t). Bây giờ
chúng ta sẽ định nghĩa về MEI. MEI là ảnh chuyển động nhị phân tích lũy. Chúng
có thể đƣợc mô tả nhƣ một vùng mà trong đó chuyển động trong khuôn hình đƣợc
tính toán từ khung đầu tiên đến khung cuối cùng. Sự tuần tự của đối tƣợng di
chuyển quét một vùng riêng biệt của ảnh và hình dạng của vùng đó có thể đƣợc
dùng để gợi ý cho vùng chuyển động thu đƣợc. Do hàm cập nhập φ(x, y, t) đại diện
dãy ảnh nhị phân chỉ ra vùng chuyển động, MEI ET(x, y, t) có thể đƣợc định nghĩa
nhƣ sau:
ET(x, y, t) =

𝑇−1
𝑖=0 𝐷(𝑥, 𝑦, 𝑡

− 𝑖)

(2.4)

MEI có thể đƣợc suy luận từ MHI (bởi ngƣỡng MHI phía trên)
ET(x, y, t) =

1 𝑣ớ𝑖 𝐻𝑇 𝑥, 𝑦, 𝑡 ≥ 1
0 𝑐á𝑐 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑐ò𝑛 𝑙ạ𝑖

(2.5)

Lợi ích của việc sử dụng MHI là sử dụng ảnh đa mức xám nhờ đó mà chúng
rất nhạy với hƣớng của chuyển động, không giống nhƣ MEI, vì vậy MHI phù hợp
hơn cho việc phân biệt giữa các hành động với hƣớng ngƣợc nhau (ví dụ đứng lên
và ngồi xuống). Tuy nhiên các ảnh MHI và MEI đều quan trọng cho biểu diễn
thông tin chuyển động. Hai hình ảnh kết hợp cùng nhau cung cấp sự phân biệt tốt
hơn khi chúng ta sử dụng tách biệt chúng.

8

Hình 2.2: Ví dụ cho MHI và MEI. 2
Tròng hình 2.2 phía trên chúng ta có thể thấy bốn cột đầu tiên là các khung
liên tiếp và các ảnh trong cột thứ năm là MHI tƣơng ứng. Các ảnh ở cột ngoài cung
bên phải là MEI tƣơng ứng cho hai hành động tƣơng ứng.
b. Sự phụ thuộc vào T và δ

Hình 2.3: Minh họa sự phụ thuộc vào T để phát triển các ảnh MHI. 3
Trong hành động vẫy tay này, chúng ta tạo ra các MHI khác nhau và các

MEI khác nhau và với các giá trị T khác nhau. Nếu giá trị T nhỏ hơn số lƣợng các
khung, điều này sẽ dẫn đến việc chúng ta sẽ có thể mất các thông tin trƣớc đó của
2
3

Nguồn http://www. academia. edu/360567/Motion_history_image_its_variants_and_applications
Nguồn http://www. academia. edu/360567/Motion_history_image_its_variants_and_applications

9

hành động trong MHI của nó. Ví dụ với T = 15 và cho hành động có 26 khung,
chúng ta sẽ mất thông tin chuyển động của khung đầu tiên sau 15 khung nếu giá trị
của tham số phân rã (δ) là 1. Trong trƣờng hợp ngƣợc lại, nếu giá trị thời gian T
đƣợc thiết lập rất cao so với số lƣợng khung, sự thay đổi của các giá trị điểm ảnh
của mẫu MHI là không đáng kể. Do đó giá trị này cần đƣợc xem xét kĩ trong quá
trình tạo ra MHI.

Hình 2.4: Minh họasự phụ thuộc vào δ trong tính toán mẫu MHI. 4
Hình 2.4 thể hiện sự phụ thuộc vào tham số phân rã trong quá trình tính toán
ảnh MHI. Chúng ta có thể thấy rằng trong phƣơng pháp MHI cơ bản, δ đƣợc thay
thế bởi 1. Nếu nó không có gì thay đổi trong chuyển động của một điểm cụ thể
trong khi khung trƣớc đó có chuyển động, giá trị của điểm ảnh có thể đƣợc thay thế
bởi δ. Tuy nhiên, có các giá trị δ khác nhau có thể cung cấp các thông tin khác
nhau một chút. Vì vậy, giá trị có thể đƣợc chọn dựa trên thực nghiệm. Các nhà
nghiên cứu có sự xem xét với các tham số trong khi làm việc với MHI. Dòng đầu
tiên của hình trên thể hiện các ảnh MHI cuối cùng cho cùng một hành động. Chúng
ta thấy rằng các giá trị cao hơn cho δ loại bỏ các dấu vết của chuyển động tuần tự.
Dòng thứ hai thể hiện hành động chạy, trong đó hai ảnh đầu tiên có δ = 1và 2 cái
cuối có δ = 3. Trong khi ảnh thứ nhất và thứ ba đƣa ra ảnh trung bình trong khi ảnh

4

Nguồn http://www. academia. edu/360567/Motion_history_image_its_variants_and_applications

10

thứ hai và thứ tƣ đƣa ra hình ảnh hành động tại điểm kết thúc của trình tự. Lƣu ý
thêm rằng với δ = 3, các phần của thông tin chuyển động sớm hơn se bị mất.
Tƣơng tự nhƣ vậy dòng thứ 3 thể hiện các MHI cho hành động đi bộ. Dòng cuối
cùng thể hiện MHI (ảnh thứ nhất và ảnh thứ ba) và MEI (ảnh thứ hai và ảnh thứ tƣ)
cho hành động đi bộ khi T đƣợc thiết lặp là 250 với số khung hình là 100. 2 ảnh
đầu tiên đƣợc xem xét với δ = 3 trong khi 2 ảnh cuối cùng đƣợc xem xét với δ = 5.
Các thông tin này quan trong dựa trên các yêu cầu của tập hành động.
c. Lựa chọn hàm cập nhật φ(x, y, t) cho phân khúc chuyển động.
Rất nhiều các hệ thống phân tích chuyển động con ngƣời dựa trên thị giác
bắt đầu bằng việc phát hiện ngƣời. Phát hiện ngƣời nhằm mục đích phân khúc
vùng nổi bật tƣơng đồng của ngƣời từ phần còn lại của một ảnh. Có thể coi đây là
một vấn đề quan trọng đáng kể trong các hệ thống phân tích chuyển động ngƣời vì
các tiến trình tiếp đó nhƣ theo dõi và nhận diện hành động phụ thuộc vào hiệu năng
và tính đúng của sự phân chia các vùng nổi bật. Trừ nền, khác biệt khung, dòng
quang học hay các phƣơng pháp thống kê cho phép trừ là các cách tiếp cận nổi
tiếng cho phân khúc chuyển động. Dựa trên nền tĩnh (nền không có chuyển động)
hoặc nền động, hiệu suất và phƣơng thức cho phép trừ nền rất đa dạng. Với nền
tĩnh khi các yếu tố khác nhƣ ngoài trời hay cảnh lộn xộn không có, thì việc trừ nền
là không đáng kể.
Phƣơng thức sự khác biệt các khung cũng đƣợc sử dụng rộng rãi để phân
khúc chuyển động. Các phƣơng thức khác biệt thời gian đƣợc sử dụng giữa hai
hoặc ba khung liên tiếp đƣợc làm phù hợp với môi trƣờng động. Để sinh ra MHI và
MEI, các phƣơng thức khác biệt thời gian có kết quả rất tốt.

Các phƣơng thức dòng quang học có thể đƣợc sử dụng trong thế hệ của
MHI và các phân khúc chuyển động cho các mục đích đa dạng. Ahad [6] đã sử
dụng dòng quang học trong các biến thể của MHI để phân khúc chuyển động để từ
đó trích xuất ra đối tƣợng chuyển động. Tính toán chất lƣợng của dòng quang học
từ các khung hình liên tiếp là một công việc khó khăn. Để tạo ra đƣợc các kết quả

11

tốt hơn trong sự đại diện của chuyển động và hƣớng của chúng từ dòng quang học,
phƣơng thức đồng thuận mẫu ngẫu nhiên (Random Sample Consensus - RANSAC)
có thể đƣợc sử dụng để hạn chế các yếu tố ở xa. MHI có thể đƣợc xây dựng dựa
trên đó để cải thiện vector dòng quang học. Do đó cần phải cung cấp hƣớng tốt hơn
và ảnh rõ ràng hơn cho một đại diện của chuyển động. Ahad sử dụng bốn kênh của
dòng quang học để tính toán MHI. Trong trƣờng hợp này thay vì trừ nền hay
khung ảnh, một vector dòng quang học dựa trên gradient đƣợc tính toán φ(x, y, t)
giữa hai khung liên tiếp và phân chia nó vào bốn kênh. Nó dựa trên định nghĩa của
mô tả chuyển động trong phƣơng thức dòng quang học tổng hợp và phẳng.
Sự thay đổi thời tiết, điều kiện ánh sáng khác biệt, hành động lặp lại và sự
hiển thị của chuyển động camera hoặc môi trƣờng lộn xộn cản trở hiệu suất của
cách tiếp cận phân vùng chuyển động. Theo đó, một cách tiếp cận phù hợp là quan
trọng dựa trên tập dữ liệu hoặc môi trƣờng đặc biệt là môi trƣờng ngoài trời. Sự
trích xuất vùng tối và gỡ bỏ nó từ phần chuyển động là một điều qua tâm khác
trong lĩnh vực thị giác máy tính và là điều rất quan trọng trong việc sinh ra mẫu
MHI.

12

d. Sự phân tích và phân loại vector đặc trƣng.

Image

Update

Acquisition

Function

Classification

Feature Vector

MHI

MEI

Recognition
Hình 2.5: Lƣợc đồ luồng hệ thống điển hình của phƣơng thức MHI cho việc nhận
dạng hành động. 5
Hình 2.5 thể hiện các pha của cách tiếp cận MHI cơ bản cho phân loại và
nhận dạng chuyển động. Theo nhƣ phƣơng thức MHI căn bản, các vector đặc trƣng
đƣợc tính toán từ các ảnh MHI và MEI.
Sau khi các vector đặc trƣng đƣợc phát triển, sự phân loại đƣợc thực hiện và
các chuyển động đƣợc nhận diện. Các bƣớc này đƣợc chỉ ra rất rõ trong sơ đồ
luồng hệ thống của phƣơng thức MHI. Với việc phân loại, máy vector hỗ trợ
(Support Vector Machine - SVM), K láng giềng gần nhất (K Nearest Neighbor),
láng giềng gần nhất nhiều lớp(Multi Class Nearest Neighbor), khoảng cách
Mahalanobis (Mahalanobis Distance) và khả năng lớn nhất (Maximum Likelihood
- ML) đƣợc sử dụng.

5

Nguồn http://www. academia. edu/360567/Motion_history_image_its_variants_and_applications

13

2.2.

Phƣơng pháp phát hiện ngƣời.

a. Vector gradient.
Có thể nói rằng một trong các khái niệm cơ bản rất quan trọng của thị giác
máy tính là vector gradient, khái niệm này đƣợc sử dụng rất nhiều trong các thuật
của toán thị giác máy tính, các thuật toán này thƣờng liên quan đến tính toán các
vector gradient cho từng điểm ảnh của 1 bức ảnh.
Chúng ta có thể đƣợc tính toán vector gradient cho từng điểm ảnh của bức
ảnh. Nó đơn giản là đo đạcsự thay đổi các giá trị theo chiều ngang và dọc xung
quanh mỗi điểm ảnh.
Nếu xét với 1 bức ảnh xám, giá trị của các điểm ảnh từ 0 – 255, với 1 điểm
ảnh các giá trị lân cận bên trái giả sử là 56 và bên phải là 94 thì chúng ta có sự thay
đổi là 94 – 56 = 38. Tƣơng tự nhƣ vậy giả sự giá trị lân cận trên và dƣới của điểm
ảnh lần lƣợt là 93 và 55 thì sự thay đổi theo chiều dọc là 93 – 55 = 38. Đặt 2 giá trị
vừa tính đƣợc ở phía trên cùng nhau chúng ta sẽ thu đƣợc vector gradient tại điểm
đang xét

38
.
38

14

Hình 2.6: Minh họa cách cách tính toán vector gradient. 6
Ngoài ra chúng ta cũng có thể sử dụng các công thức để tính ra đƣợc góc
cũng nhƣ độ lớn của vector
Độ lớn = 382 + 382 = 53. 74
38

Góc = arctan ( ) = 45 độ
38

b. Phƣơng pháp phát hiện ngƣởi sử dụng HOG.
Phƣơng pháp phát hiện ngƣời sử dụng HOG và cách tiếp cận SVM hiện là
một trong các phƣơng pháp phát hiện ngƣời phổ biến và thành công nhất hiện nay.
HOG (viết tắt của Histograms of Oriented Gradients –Lƣợc đồ gradient định
6

Nguồn https://chrisjmccormick. wordpress. com

15

hƣớng) là 1 dạng của mô tả đặc trƣng. Mô tả đặc trƣng có ý nghĩa trong việc tổng
quát hóa đối tƣợng theo một cách khác diễn tả khác để đối tƣợng tƣơng đồng
(trong trƣờng hợp này là 1 ngƣời) để có thể có các mô tả đặc trƣng gần nhất với nó
nhất dù ở trong các điều kiện khác nhau. Với các mô tả đặc trƣng công việc phân
loại trở nên dễ dàng hơn vì khi đó việc xem xét sự tƣơng đồng của các đối tƣợng
đƣợc dựa trên việc tính toán khoảng cách giữa các mô tả đặc trƣng, thƣờng đƣợc
biểu diễn dƣới dạng các vector đa chiều.

Phƣơng pháp phát hiện ngƣời HOG có thể coi là 1 phƣơng pháp tƣơng đối
đơn giản so với các phƣơng pháp khác. Một trong những nguyên nhân chính của sự
đơn giản này là phƣơng pháp đã sử dụng đặc trƣng toàn cục để mô tả 1 ngƣời chứ
không thu thập các đặc trƣng cục bộ. Nói một cách đơn giản hơn, mỗi một ngƣời
trong ảnh sẽ đƣợc đại diện bởi một vector đặc trƣng.
Phƣơng pháp này sử dụng một cửa sổ phát hiện dạng trƣợt với kích thƣớc
64x128 di chuyển qua toàn bộ bức ảnh.

Hình 2.7: Minh họa các mẫu cửa sổ tìm kiếm kích thƣớc 64x1287
Tại mỗi cửa sổ này, Một mô tả HOG sẽ đƣợc tính toán cho cửa sổ tƣơng ứng
bằng cách tạo ra các ô kích thƣớc 8x8 trong cửa sổ tìm kiếm. Trong mỗi ô, các
vector gradient cho từng điểm ảnh sẽ đƣợc tính toán, vậy nên chúng ta sẽ có 64
vector cho 1 ô kích thƣớc 8x8.

7

Nguồn https://chrisjmccormick. wordpress. com

16

Hình 2.8: Minh họa ô kích thƣớc 8x8 trong cửa sổ tìm kiếm8
64 vector này sẽ đƣợc đặt vào 9 bin histogram (Khoảng của histogram chạy
từ 0-180 và mỗi bin sẽ ứng với 1 vùng giá trị 20 độ). Với mỗi vector gradient, sự
đóng góp vào histogram chính là độ lớn của vector. Độ lớn này sẽ đƣợc phân chia
vào 2 bin gần nhất. Ví dụ 1 vector có góc là 85 độ thì ¼ độ lớn của nó sẽ đƣợc
thêm vào bin 70 và ¾ độ lớn sẽ đƣợc thêm vào bin 90.

8

Nguồn https://chrisjmccormick. wordpress. com

17

Hình 2.9: Minh họa cho HOG. 9
Bƣớc tiếp theo để tính toán vector đặc trƣng là chuẩn hóa biểu đồ. Chúng ta
có thể nhân 1 lƣợng bất biến vào các giá trị của điểm ảnh. Điều này có thể dẫn tới
việc gia tăng độ tƣơng phản do các điểm ảnh sáng sẽ sáng hơn nhiều trong khi
điểm ảnh tối chỉ sáng lên 1 chút.

9

Nguồn https://chrisjmccormick. wordpress. com

18

xây dựng hệ thống giám sát dựa trên phát hiện chuyển động và đối tượng trong ảnh

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về