Tải bản đầy đủ (.pdf) (16 trang)

ĐỀ tài xử lý ẢNH đề tài NGHIÊN cứu bài TOÁN dò tìm đối TƯỢNG BẰNG PHƯƠNG PHÁP LOẠI bỏ nền

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (811.62 KB, 16 trang )

TRƯỜNG ĐẠI HỌC HỒNG ĐỨC
KHOA CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG

XỬ LÝ ẢNH

ĐỀ TÀI: NGHIÊN CỨU BÀI TỐN DỊ TÌM ĐỐI TƯỢNG BẰNG
PHƯƠNG PHÁP LOẠI BỎ NỀN

Thanh Hố, tháng 1 năm 2022


MỤC LỤC

LỜI NÓI ĐẦU .................................................................................................................3
I.

GIỚI THIỆU .............................................................................................................4
1.1.

Giới thiệu chung.................................................................................................4

1.2.

Mục tiêu nghiên cứu ..........................................................................................5

II. THUẬT TOÁN CƠ BẢN .........................................................................................5
2.1.

Giải thuật trừ nền ...............................................................................................5

2.2.



Phân ngưỡng ảnh................................................................................................6

2.3.

Thuật toán Otsu ..................................................................................................6

III.

CÁC KỸ THUẬT TRONG Q TRÌNH MƠ PHỎNG NỀN ............................8

3.1.

Sử dụng phân biệt khung ...................................................................................8

3.2.

Lọc trung bình ....................................................................................................9

3.3.

Chạy trung bình Gaussian ..................................................................................9

3.4.

Các mơ hình hỗn hợp nền ................................................................................10

IV.

THỬ NGHIỆM....................................................................................................11


4.1.

Đầu vào thử nghiệm .........................................................................................11

4.1.1.

Đối với ảnh ................................................................................................11

4.1.2.

Đối với video .............................................................................................12

4.2.

Kết quả thử nghiệm ..........................................................................................12

4.2.1.

Đối với ảnh ................................................................................................12

4.2.2.

Đối với video .............................................................................................13

4.3.

Đánh giá ...........................................................................................................14

KẾT LUẬN ...................................................................................................................15

TÀI LIỆU THAM KHẢO .............................................................................................16


LỜI NÓI ĐẦU
Xử lý ảnh là một phân ngành trong xử lý số tín hiệu với tín hiệu xử lý là ảnh. Đây
là một phân ngành khoa học mới rất phát triển trong những năm gần đây. Xử lý ảnh gồm
4 lĩnh vực chính: xử lý nâng cao chất lượng ảnh, nhận dạng ảnh, nén ảnh và truy vấn
ảnh. Sự phát triển của xử lý ảnh đem lại rất nhiều lợi ích cho cuộc sống của con người.
Ngày nay xử lý ảnh đã được áp dụng rất rộng rãi trong đời sống như: photoshop,
nén ảnh, nén video, nhận dạng biển số xe, nhận dạng khuôn mặt, nhận dạng chữ viết, xử
lý ảnh thiên văn, ảnh y tế, ...
Background Subtraction hay Foreground Detection là một kỹ thuật trong Xử Lý
Ảnh và Thị Giác Máy Tính. Đây là phương pháp phát hiện tiền cảnh, hiểu đơn giản là
ta sẽ tách 1 đối tượng trong ảnh ra khỏi hậu cảnh phía sau, nhằm mục đích hậu xử lý
như nhận diện đối tượng, cử chỉ, chuyển động, tracking, … Trong khuôn khổ bài báo
cáo này là giới thiệu một số kỹ thuật lọc đối tượng hiện nay mà chúng em đã tìm hiểu
được. Chúng em sẽ giới thiệu chung về một số kỹ thuật lọc đối tượng sau đó có một số
thử nghiệm nhỏ chạy trên công cụ Matlab.
Chúng em cũng xin chân thành cảm ơn thầy Nguyễn Đình Cơng đã hướng dẫn
chúng em hoàn thành đề tài này.
Chúng em xin chân thành cảm ơn !


I.
GIỚI THIỆU
1.1. Giới thiệu chung
Trước khi tìm hiểu một số thuật tốn, chúng ta sẽ tìm hiểu một số khái niệm cơ
bản.
Ảnh số (Digital Image) có thể được xem là một tập hợp các điểm ảnh thành phần
(còn gọi là pixel) được cấu trúc thành một lưới toạ độ về mặt không gian để mô tả hay

biểu diễn các nội dung liên quan đến sự cảm nhận trực quan của thị giác. Lưới toạ độ
không gian của các điểm ảnh thường tổ chức thành dạng trục toạ độ hai chiều, biểu diễn
vị trí vật lý của điểm ảnh. Giá trị của mỗi điểm ảnh dùng để mô tả thông tin về độ sáng
chói, cường độ mức xám (gray-level), hay giá trị màu (color) của điểm ảnh đó. Giá trị
của mỗi điểm ảnh có thể là một giá trị đơn (ví dụ mơ tả cường dộ xám của ảnh) hoặc có
thể là một bộ gồm nhiều thành phần (ví dụ để mô tả các thành tố khác nhau của một
màu). [1]
Một số loại ảnh như:
+ Ảnh nhị phân: 1 bit/pixel
+ Ảnh xám: 8 bits/pixel
+ Ảnh màu: 16-24 bit/pixel
+ RGB, YUV, HSL, YcbCr

Ảnh màu RGB và ảnh xám
Trong một bức ảnh được chia làm 3 phần là background, middle ground và
foreground. Trong đó background hay hậu cảnh là phần nền sau, ở xa bức ảnh nhất,
chúng thường có kích thước nhỏ, màu sắc ít hơn và chứa ít chi tiết hơn. Foreground hay
tiền cảnh còn gọi là phần nền trước, chứa các đối tượng chủ thể của bức ảnh, nó gần với
người xem nhất. Middle ground hay trung cảnh, là phần ở giữa tiền cảnh và hậu cảnh.
Video là một chuỗi các ảnh (khung hình hay frame), quan hệ thời gian giữa các
khung hình biểu diễn ảnh động, được đồng bộ với nhau, được tạo ra bởi 1 chuẩn nén
nào đó, như MPEG, XviD, H264,… Các định dạng phổ biến nhất là MP4, AVI, WMV,..
và mới nhất hiện nay là WEBM. Để xử lý hình ảnh từ video thì phải decode ra thành
những frame hình rồi mới xử lý.


Video là một chuỗi các ảnh.
Background Subtraction hay Foreground Detection là một kỹ thuật trong Xử Lý
Ảnh và Thị Giác Máy Tính. Đây là phương pháp phát hiện tiền cảnh, hiểu đơn giản là
ta sẽ tách 1 đối tượng trong ảnh ra khỏi hậu cảnh phía sau, nhằm mục đích hậu xử lý

như nhận diện đối tượng, cử chỉ, chuyển động, tracking…
Phương pháp này dựa trên việc giả định hậu cảnh tĩnh (static background) và
thường không áp dụng trong môi trường thực (ánh sáng tự nhiên, ngoài trời…) hoặc các
thay đổi trên ảnh nền trong nhà (như màn hình TV) hoặc ngồi trời có mưa gió, thay đổi
ánh sáng.
1.2.

Mục tiêu nghiên cứu

-

Nghiên cứu bài tốn dị tìm đối tượng bằng phương pháp loại bỏ nền

-

Sử dụng công cụ Matlab để thử nghiệm một số thuật tốn

II. THUẬT TỐN CƠ BẢN
2.1. Giải thuật trừ nền
Trừ nền là một cách tiếp cận được sử dụng rộng rãi để phát hiện các đối tượng
chuyển động trong video từ camera tĩnh. Cơ sở lý luận của phương pháp này là phát
hiện các đối tượng chuyển động từ sự khác biệt giữa hệ quy chiếu hiện tại và hệ quy
chiếu, thường được gọi là "ảnh nền", hoặc "mơ hình nền". Việc trừ nền hầu hết được
thực hiện nếu hình ảnh được đề cập là một phần của luồng video. Phép trừ nền cung cấp
các dấu hiệu quan trọng cho nhiều ứng dụng trong thị giác máy tính, ví dụ theo dõi giám
sát hoặc ước tính tư thế con người.
Phép trừ nền thường dựa trên giả thuyết nền tĩnh thường không áp dụng được trong
môi trường thực. Với các cảnh trong nhà, phản chiếu hoặc hình ảnh động trên màn hình
dẫn đến thay đổi nền. Tương tự, do gió, mưa hoặc sự thay đổi ánh sáng do thời tiết mang
lại, các phương pháp nền tĩnh gặp khó khăn với các cảnh ngồi trời.



2.2. Phân ngưỡng ảnh
Phân ngưỡng là kỹ thuật biến đổi ảnh đa cấp xám thành ảnh nhị phân. Trong nhiều
ứng dụng, ảnh nhị phân đóng vai trị quan trọng trong xử lý và nhận dạng đối tượng
(nhận dạng ký tự, chữ viết tay, dấu vân tay, bài toán gán nhãn, các phép tốn hình
thái,…). Mục đích của kỹ thuật phân ngưỡng ảnh là tút gọn thông tin trong ảnh về dạng
nhị phân (chỉ có 2 giá trị: đen và trắng) mà không làm mất mát nhiều thông tin của ảnh
gốc. Thơng thường, kỹ thuật phân ngưỡng hình ảnh cần một tham số đầu vào là giá trị
ngưỡng T. Khi đó, thuật toán phân ngưỡng được thực hiện như sau:

255 𝑛ế𝑢 𝐿(𝑖, 𝑗) > 𝑇
𝐿(𝑖, 𝑗) = {
0 𝑛ế𝑢 𝐿(𝑖, 𝑗) ≤ 𝑇
Trong đó: L(i,j) là giá trị pixel tại toạ độ i, j.
T là ngưỡng để phân (T có giá trị từ 0 – 255).
2.3. Thuật toán Otsu
Việc xác định tự động tham số ngưỡng cho các ảnh khác nhau là rất cần thiết và
có ý nghĩa quan trọng trong phân ngưỡng ảnh. Thuật toán Otsu ra đời theo tên một nhà
nghiên cứu người Nhật đã nghĩ ra ý tưởng cho việc tính ngưỡng một cách tự động dựa
vào giá trị điểm ảnh của ảnh đầu vào nhằm thay thế cho việc sử dụng ngưỡng cố định.
Kỹ thuật Otsu là một trong những thuật toán hiệu quả nhất để xác định tự động giá
trí ngưỡng thích nghi cho các ảnh được thu nhận trong các ngữ cảnh khác nhau. Mặc dù
vậy, thuật toán này yêu cầu ảnh đầu vào chỉ chứa hai thành phần chính (bi-class): đối
tượng (foreground) và nền (background). Ý tưởng cơ bản thuật tốn Otsu đó là tìm giá
trị ngưỡng tối ưu mà sau khi phân ngưỡng thì các điểm ảnh bên trong mỗi lớp sẽ gần
nhau nhất có thể (mật độ các điểm ảnh trong mỗi lớp khá dày đặc), nói cách khác phương
sai trung bình của các điểm ảnh bên trong mỗi lớp sẽ đạt giá trị cực tiểu (weighted
within-class variance).[1]
Đầu tiên sử dụng lược đồ Histogram biểu diễn tần suất xuất hiện mức xám:

𝐿−1

𝑃𝑖 = ∑
𝑖=0

𝑛𝑖
(𝑀. 𝑁)

Trong đó: ni là số lượng điểm ảnh của giá trị i.
L: 1, 2, 3, …256.
po + p1 + p2 +…+ pL-1 = 1
Chọn một ngưỡng Tk = k, (0các điểm ảnh có giá trị ≤k) và C2 (tập hợp các điểm ảnh có giá trị lớn hơn k). Tỉ lệ lớp


C1 với số lượng điểm ảnh k với tổng số lượng điểm ảnh được ký hiệu P1(k), tương tự
C2 ký hiệu là P2(k).

𝑘

𝑃𝑖 (𝑘 ) = ∑ 𝑃𝑖
𝑖=0
𝐿−1

𝑃2 (𝑘 ) = ∑ 𝑃𝑖 = 1 − 𝑃𝑖 (𝑘)
𝑖=𝑘+1

Sau đó ta tính giá trị trung bình m1 của lớp C1:
𝑘


𝑘

𝑖=0

𝑖=0

𝑖
1
∑ 𝑖𝑃𝑖
𝑚1 (𝑘 ) = ∑ 𝑖𝑃 ( ) =
𝐶1
𝑃1 (𝑘)
Tương tự tính m2:
𝐿−1

𝐿−1

𝑖=𝑘+1

𝑖=𝑘+1

𝑖
1
∑ 𝑖𝑃𝑖
𝑚2 (𝑘 ) = ∑ 𝑖𝑃 ( ) =
𝐶2
𝑃2 (𝑘)
Theo Otsu, ta sẽ tính ngưỡng 𝑘 ∗ mà giá trị tại đó sự chênh lệch giữa hai đoạn (màu
nền và màu ký tự) đạt giá trị cực đại, ký hiệu 𝜎𝐵2 (𝑘 ∗ ), được tính:


𝜎𝐵2 (𝑘 ∗ ) = Max 𝜎𝐵2 (𝑘)
0≤𝑘≤𝐿−1

Trong đó 𝜎𝐵 là phương sai hai lớp C1 và C2. Ta có:
2

𝜎 𝐵 = 𝑃1 (𝑚1 − 𝑚𝑔 ) + 𝑃2 (𝑚2 − 𝑚𝐺 )2
= 𝑃1 𝑃2 (𝑚1 − 𝑚2 )2
=

(𝑚 𝐺 𝑃 − 𝑚 )2
𝑃1 (1 − 𝑃1 )

Từ công thức trên ta suy ra:
𝜎𝐵2 (𝑘 )

[𝑚𝐺 𝑃1 (𝑘 ) − 𝑚(𝑘)]2
=
𝑃1 (𝑘)[1 − 𝑃1 (𝑘)]

Trong đó: - mG là giá trị trung bình của ảnh.
𝑚𝐺 = ∑𝐿−1
𝑖=0 𝑖𝑃𝑖 hoặc 𝑚𝐺 = 𝑃1 𝑚1 + 𝑃2 𝑚2
- mk là giá trị trung bình đến ngưỡng k.


𝑘

𝑚𝑘 = ∑ 𝑖𝑃𝑖
𝑖=0


Nếu có nhiều giá trị 𝜎𝐵2 lớn nhất bằng nhau, ta sẽ chọn k có giá trị lớn nhất làm
ngưỡng k*, sau đó ta thực hiện nhị phân biển số theo ngưỡng.
g(x,y) = 1 if f(x,y) < k*
và g(x,y) = 0 if f(x,y) > k*
Trong đó: g(x,y) là đầu ra, f(x,y) là đầu vào.
x, y là toạ độ của điểm ảnh.
III. CÁC KỸ THUẬT TRONG QUÁ TRÌNH MÔ PHỎNG NỀN
Giải thuật trừ nền là dùng ảnh chứa đối tượng để trừ đi ảnh chỉ có nền, từ đó ta sẽ
thu được đối tượng. Vì vậy, chúng ta cần phải xác định được nền của ảnh hoặc video.
Như đã giới thiệu, video là một chuỗi các khung hình nối tiếp nhau, nên ta sẽ sử dụng
các khung hình này để tìm ra nền. Dưới đây là một số kỹ thuật dùng trong việc mô phỏng
nền của một video bằng cách sử dụng các frame hình của video.
3.1. Sử dụng phân biệt khung
Một thuật toán phát hiện chuyển động bắt đầu bằng các phân đoạn nơi mà tiền
cảnh hoặc đối tượng chuyển động đã được phân đoạn ra khỏi hậu cảnh. Cách đơn giản
nhất để thực hiện là lấy một ảnh như là nền và các khung ảnh thu được tại thời điểm t,
ký hiệu là I(t) để do sánh với hậu cảnh, ký hiệu là B. Ở đây ta sử dụng các phương pháp
tính đơn giản, ta có thể tách đối tượng một cách tương đối dễ dàng bằng cách sử dụng
kỹ thuật trừ ảnh (image subtraction) của Computer Vision cho mỗi điểm ảnh tại thời
điểm t – I(t), lấy điểm giá trị điểm ảnh – ký hiệu P[I(t)] và trừ cho điểm ảnh tương ứng
cùng vị trí trên hậu cảnh, ký hiệu là P[B].
Ta có phương trình:
P[F(t)] = P[I(t) – P[B]
Hậu cảnh (nền) được giả định là một khung hình tại thời điểm t. Hình ảnh khác
biệt này – P[F(t)] sẽ chỉ hiển thị cường độ cho các điểm ảnh đã thay đổi trong 2 khung
hình. Vì vậy, ta thấy gần như hậu cảnh đã bị xoá đi. Cách thực hiện này sẽ chỉ làm việc
trong trường hợp các tiền cảnh, đối tượng là di chuyển và hậu cảnh là tĩnh (static
background). Việc tạo ngưỡng ảnh sẽ được đưa vào hình ảnh khác biệt – P[F(t)] để tăng
hiệu quả của việc trừ nền.

| P[F(t)] – P[F(t+1)] | > Threshold


Có nghĩa rằng cường độ trong các điểm ảnh của hình ảnh khác biệt đã bị nhị phân
hố (bằng việc tạo ngưỡng) hay được lọc bằng giá trị của Nhị phân hố (Ngưỡng nhị
phân, giá trị T). Sự chính xác của phương pháp này phụ thuộc vào tốc độ di chuyển
trong khung cảnh (scene). Các chuyển động nhanh hơn thì cần tạo ngưỡng cao hơn.[3]
3.2. Lọc trung bình
Để tính tốn ảnh chỉ chứa nền, một loạt các ảnh trước đó sẽ được tính trung bình.
Để tính tốn nền ở thời điểm t, ta có cơng thức.
𝑁

1
𝐵(𝑥, 𝑦, 𝑡 ) = ∑ 𝑉(𝑥, 𝑦, 𝑡 − 𝑖)
𝑁
𝑖=1

Trong đó N là số lượng ảnh trước đó dùng để tính trung bình. Giá trị trung bình
này là trung bình giá trị của các điểm ảnh trong ảnh được cho. N phụ thuộc vào tốc độ
Video – số lượng ảnh mỗi giây và lượng di chuyển của đối tượng trong ảnh. Sau khi tính
tốn nền B(x, y, t) ta có thể trừ nó từ ảnh V(x, y, t) tại thời điểm t và tạo ngưỡng nhị
phân cho nó. Sau đó, tiền cảnh sẽ như sau:
| V(x, y, t) – B(x, y, t) | > Th
Trong đó Th là ngưỡng nhị phân, tương tự ta có thể sử dụng Median (trung tuyến)
hay cho Mean (trung bình) để tính giá trị B(x, y, t). Nếu sử dụng cùng một ngưỡng cho
tất cả các điểm ảnh với thời gian độc lập có thể giảm độ chính xác của 2 phương pháp
trên.[3]
3.3. Chạy trung bình Gaussian
Chạy trung bình Gaussian (Running Gaussian Average) - đây là một phương pháp
mà Wren et Al đề xuất phù hợp với một hàm mật độ xác suất Gaussian - Gaussian

probabilistic density function (pdf) trên n khung. Để tránh chỉnh sửa pdf từ đầu mỗi
khung giờ mới t, trung bình đang chạy được tính.
Các pdf của mỗi điểm ảnh được đặc trừng bởi trung bình 𝑈𝑡 và phương sai 𝜎𝐵2 . Một
số điều kiện ban đầu có thể có:
𝑈0 = 𝐼0
𝜎02 = (một số giá trị mặc định)
𝐼𝑡 là giá trị cường độ của pixel tại thời điểm t. Ví dụ, để khởi tạo phương sai, chúng
ta có thể sử dụng phương sai theo x và y từ một cửa sổ nhỏ xung quanh mỗi pixel.
Nền có thể thay đổi theo thời gian (ví dụ: do thay đổi ảnh sáng, hoặc không phải
nền tĩnh). Để đáp ứng sự thay đổi đó, ở mọi khung hình t, giá trị trung bình và phương
sai của mọi pixel phải được cập nhật, như sau:


𝑈𝑡 = 𝑝𝐼𝑡 + (1 − 𝑝)𝑈𝑡 − 1
𝜎𝑡2 = 𝑑 2 𝑝 + (1 − 𝑝)𝜎𝑡2 − 1
𝑑 = |(𝐼𝑡 − 𝑈𝑡 |
Trong đó It là giá trị cường độ của pixel tại thời điểm t
p là xác định định kích thức của cửa sổ tạm thời, thường p = 0.01
d là khoảng cách Euclide giữa giá trị trung bình và giá trị pixel
Bây giờ ta có thể phân loại một pixel làm nền nếu cường độ dòng điện của nó nằm
trong khoảng tin cậy nào đó của giái trị trung binh của phân phối:

𝑖𝑓
𝑖𝑓

|(𝐼𝑡 −𝑈𝑡 |
𝜎𝑡
|(𝐼𝑡 −𝑈𝑡 |
𝜎𝑡


> k -> (foreground)
≤ k -> (background)

k là giá trị ngưỡng (thường k = 2.5). Giá trị lớn hơn của k cho phép nền động hơn.
Trong khi k tăng xác suất chuyển đổi từ hậu cảnh sang tiền cảnh do những thay đổi tinh
vi hơn.
Trong một biến thể của phương pháp này, phân phối của pixel chỉ được cập nhật
nếu nó được phân loại là nền. Điều này là để ngăn các đối tượng tiền cảnh mới được
đưa vào mờ dần vào hậu cảnh. Công thức cập nhật cho giá trị trung bình cũng được thay
đổi tương ứng:
𝑈𝑡 = 𝑀𝑈𝑡−1 + (1 − 𝑀)(𝐼𝑡 𝑝 + (1 − 𝑝)𝑈𝑡−1 )
M = 1 khi 𝐼𝑡 được coi là tiền cảnh và M = 0 khi 𝐼𝑡 được xem là hậu cảnh. Khi M=1,
nghĩa là pixel được phát hiện là tiền cảnh, giá trị trung bình sẽ giữ ngun. Do đó, một
pixel, một khi nó đã trở thành nền trước, chỉ có thể trở thành nền trở lại khi giá trị ccường
độ gần với giái trị trước khi chuyển sang nền trước.[3]
Tuy nhiên, phương pháp này có một số vấn đề là nó chỉ hoạt động nếu tất cả các
pixel ban đầu là pixel nền. Ngồi ra, nó khơng thể đối phó với những thay đổi nền dần
dần: nếu một pixel được phân loại là nền trước trong một khoảng thời gian quá dài,
cường độ nền ở vị trí đó có thể đã thay đổi (vì độ sáng đã thay đổi, …). Do đó, khi đối
tượng nền trước biến mất, cường độ nền mới có thể khơng được nhận dạng như vậy
nữa.[3]
3.4. Các mơ hình hỗn hợp nền
Phương pháp hỗn hợp Gaussian tiếp cận bằng cách mơ hình hố mỗi pixel như một
hỗn hợp của Gausian và sử dụng một phép gần đúng để cập nhật mơ hình. Trong kỹ


thuật này giả định rằng mọi giá trị cường độ của pixel trong video có thể được mơ hình
hố bằng mơ hình hỗn hợp Gaussian. Một heuristic đơn giản xác định cường độ nào có
thể là của nền. Sau đó, các pixel không khớp với chúng được gọi là pixel tiền cảnh. Các
pixel tiền cảnh được nhóm lại bằng cách xử dụng phân tích thành phần được kết nối 2D.

Phép gần đúng K-mean được sử dụng để cập nhật Gaussian. Nhiều cải tiến của
phương pháp ban đầu này là do Stauffer và Grimson phát triền đã được đề xuất và có
thể tìm thấy một cuộc khảo sát đầy đủ trong Bouwmans et al. Một phương pháp tiêu
chuẩn của nền thích ứng là tính trung bình các ảnh theo thời gian, tạo ra giá trị xấp xỉ
nền tương tự như cảnh tĩnh hiện tại ngoại trừ trường hợp này xảy ra chuyển động.[3]
IV. THỬ NGHIỆM
Với chương trình thử nghiệm trên Matlab, do một số hạn chế nên chúng em chỉ
sử dụng một số thuật toán để tách đối tượng như thuật tốn phân ngưỡng thủ cơng,
thuật tốn phân ngưỡng tự động Otsu và giải thuật trừ nền.
4.1. Đầu vào thử nghiệm
4.1.1.

Đối với ảnh


Đầu vào là ảnh xám hoặc ảnh RGB. Ảnh màu sẽ được chuyển về ảnh xám.
4.1.2.

Đối với video

Đầu vào là một video với camera tĩnh.
4.2. Kết quả thử nghiệm
4.2.1. Đối với ảnh


Sau khi sử dụng phân ngưỡng ảnh thủ công, với T = 90, ta được một hình ảnh với
các đối tượng là đồng xu.

Đây là kết quả sử dụng thuật toán Otsu để lấy ngưỡng tự động trong Matlab. Ta
cũng thu được các đối tượng là những đồng xu, hoặc đối tượng người.

4.2.2. Đối với video


Sau khi qua xử lý, thuật toán cơ bản đã khoanh vùng được các đối tượng dựa trên
giải thuật trừ nền. Tuy nhiên vẫn còn khoanh vùng đối tượng chưa đúng do một số hạn
chế của thuật tốn như khơng xác định được đối tượng khi nó khơng di chuyển, xác định
nhầm nền là đối tượng hoặc chỉ xác định được một phần của đối tượng do những điểm
ảnh tại đó có sự thay đổi về độ sáng, ...
4.3. Đánh giá
Phân ngưỡng thủ công hoặc phân ngưỡng tự động bằng thuật toán Otsu đều cho
kết quả tốt nếu màu nền là đồng nhất và các đối tượng có sự khác biệt rõ ràng với nền.
Trong trường hợp màu nền có sự tương quan với màu của các đối tượng, hoặc nền khơng
đồng màu hoặc chính đối tượng cũng khơng đầu màu thì thuật tốn khơng thực sự hiệu
quả hoặc sai sót.
Với giải thuật trừ nền, video đưa vào phải là cam tĩnh. Với các cảnh trong nhà,
phản chiếu hoặc hình ảnh động trên màn hình dẫn đến thay đổi nền thì thuật tốn có thể
dẫn đến sai lệch. Tương tự, do gió, mưa hoặc sự thay đổi ánh sáng do thời tiết mang lại,
các phương pháp nền tĩnh gặp khó khăn với các cảnh ngoài trời.


KẾT LUẬN
Xử lý ảnh là một khoa học còn tương đối mới mẻ so với nhiều ngành khoa học
khác, nhất là trên quy mô công nghiệp. Việc xử lý loại bỏ nền để tìm đối tượng giúp tìm
ra các dấu hiệu quan trọng cho nhiều ứng dụng trong thị giác máy tính, từ đó ứng dụng
vào cuộc sống. Ví dụ theo dõi giám sát giao thông, bảo đảm an ninh, ...
Với một số kỹ thuật loại bỏ nền đã được giới thiệu, chúng ta có thể lọc đối tượng
khỏi nền một cách hiệu quả với đầu vào tiêu chuẩn. Tuy nhiên, vẫn còn rất nhiều hạn
chế ở những kỹ thuật trên. Chẳng hạn phương pháp trừ nên dựa trên việc giả định hậu
cảnh tĩnh (static background) và thường không áp dụng trong mơi trường thực (ánh sáng
tự nhiên, ngồi trời…) hoặc các thay đổi trên ảnh nền trong nhà (như màn hình TV)

hoặc ngồi trời có mưa gió, thay đổi ánh sáng.


TÀI LIỆU THAM KHẢO
[1]. PGS. TS. Phạm Thế Anh (chủ biên), PGS. TS. Nguyễn Mạnh An, PGS. TS. Đỗ
Năng Toàn (2017), Giáo trình xử lý ảnh, Nhà xuất bản Giáo dục Việt Nam, Hà Nội.
[2]. GV. Nguyễn Đình Cơng, Slide xử lý ảnh, Khoa Công nghệ thông tin & Truyền
thông, Đại học Hồng Đức
[3]. Foreground Detection: />[4]. Một số nguồn tài liệu online khác.



×