Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video tt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (868.86 KB, 26 trang )

1
PHẦN MỞ ĐẦU
Tính cấp thiết của luận án
Ngày nay với sự phát triển mạnh mẽ của các thiết bị thu
nhận hình ảnh kỹ thuật số đã dẫn đến sự bùng nổ về dữ liệu đa
phương tiện. Tận dụng nguồn dữ liệu đa phương tiện sẵn có với nội
dung hấp dẫn thu hút được khối lượng lớn người xem như phim ảnh,
video truyền hình, thể thao, … các đối tượng quảng cáo được tích
hợp, chèn trực tiếp vào nội dung của các video này. Đây là phương
pháp phổ biến và nhanh nhất đưa thông tin quảng bá về sản phẩm,
nhãn hiệu, thương hiệu, ... (gọi tắt là đối tượng quảng cáo) đến đông
đảo khách hàng, người tiêu dùng.
Quá trình chèn đối tượng quảng cáo mới hay thay thế đối
tượng quảng cáo đã có trong video bằng đối tượng quảng cáo khác
nhằm tận dụng những video sẵn có hiện nay phần lớn được thực hiện
theo phương pháp thủ công. Tuy nhiên với sự bùng nổ về số lượng
video có sẵn cả về trực tuyến và ngoại tuyến làm cho việc phân tích,
xử lý tất cả nội dung video theo cách thủ công rất tốn kém và không
khả thi. Điều này đã thúc đẩy luận án nghiên cứu các kỹ thuật hỗ trợ
quá trình hậu xử lý video tự động áp dụng trong lĩnh vực thương mại
như phân tích nội dung quảng cáo trong video hay tích hợp, thay thế
đối tượng quảng cáo vào video đã sẵn có nội dung.
Mục tiêu của luận án
Mục tiêu của luận án là tập trung nghiên cứu, cải tiến các kỹ
thuật xử lý các vấn đề quan trọng trong bài toán hậu xử lý, hiểu
video ứng dụng cho bài toán phát hiện và thay thế đối tượng quảng
cáo trong video nhằm đạt được hiệu năng cao trên hai phương diện

2
tốc độ và độ chính xác. Các vấn đề xử lý gồm: phát hiện đối tượng

quảng cáo trong video gồm dò tìm và nhận dạng hình dáng của đối
tượng trong video; thay thế đối tượng trong video gồm phân vùng,
trích chọn phần hiển thị của đối tượng; hoàn thiện video sau khi thay
thế đối tượng tìm thấy trong video bằng đối tượng được lựa chọn.
Đối tượng, phạm vi nghiên cứu của luận án
Đối tượng nghiên cứu của luận án là các mô hình dò tìm đối
tượng trong video. Các kỹ thuật lập chỉ mục tập vector đặc trưng
khổng lồ với số chiều lớn, các kỹ thuật tìm kiếm lân cận xấp xỉ gần
nhất (ANN) ứng dụng trong nhận dạng hình dạng đối tượng. Các mô
hình phân vùng đối tượng, hoàn thiện, tái tạo video sau khi loại bỏ
hoặc thay thế đối tượng.
Phạm vi nghiên cứu của luận án tập trung vào các đoạn
video thể thao, quảng cáo, phim ảnh đã được phân thành một chuỗi
các frame liên tiếp nhau. Đối tượng quảng cáo là các đối tượng hình
ảnh tĩnh, hai chiều. Các thể hiện của đối tượng có kích thước không
quá nhỏ, giới hạn trong khoảng từ 20px đến 400px mỗi chiều.
Phương pháp và nội dung nghiên cứu
Phương pháp luận trong nghiên cứu của luận án là kết hợp
giữa nghiên cứu lý thuyết và thực nghiệm, gồm có: phân tích, so
sánh, tổng hợp và đánh giá kết quả dựa trên thực nghiệm.
Nội dung nghiên cứu của luận án tập trung cải tiến mô hình
dò tìm đối tượng trong video dựa trên mạng tích chập học sâu
(DCNN). Cải tiến kỹ thuật lập chỉ mục dựa trên phép lượng tử hóa
tích đề các (PQ), kỹ thuật tìm kiếm, đối sánh mẫu áp dụng cho bài
toán nhận dạng hình dạng của đối tượng. Cải tiến kỹ thuật phân vùng

3
thực thể đối tượng, hoàn thiện vùng trống/vùng bị phá hủy trong
video dựa trên DCNN.

Các đóng góp của luận án
(i) Cải tiến hiệu năng thực thi mô hình dò tìm đối tượng
trong video theo hướng tiếp cận dựa trên DCNN.
(ii) Cải tiến kỹ thuật lập chỉ mục vector đặc trưng lượng tử
hoá tích đề các theo cụm vector (PSVQ), nâng cao chất lượng mã
hóa tập dữ liệu vector có số chiều lớn.
(iii) Cải tiến mô hình inpainting ảnh RBPconv áp dụng cho
bài toán hoàn thiện và tái tạo vùng trống được sinh ra trong video sau
khi thay thế đối tượng.
CHƯƠNG 1. TỔNG QUAN VỀ THAY THẾ ĐỐI TƯỢNG
TRONG VIDEO
1.1. Dò tìm đối tượng
Với phương pháp truyền thống, giải thuật dò tìm đối tượng
được chia thành hai giai đoạn độc lập: trích chọn đặc trưng thô và mô
tả, biểu diễn các đặc trưng này. Trong đó, trích trọn đặc trưng thô là
tiến trình dò tìm các điểm có tính bất biến cao với một số phép biến
đổi hình học. Do chỉ chú trọng đến các phép hình thái nên nhược
điểm của mô hình này là các đặc trưng được xác định theo chủ quan
cho tất cả các lớp đối tượng, vì vậy không có tính phổ quát cao. Bên
cạnh đó các giải thuật này có độ phức tạp, chi phí tính toán rất lớn.
Với phương pháp dò tìm đối tượng dựa trên DCNN. Tất cả
các bước rời rạc trước đây được chuyển qua các lớp của một mạng
nơron duy nhất. Dựa trên DCNN, mô hình dò tìm đối tượng được
phân thành hai loại: mô hình dò tìm đối tượng hai trạng thái và một

4
trạng thái. Trong mô hình hai trạng thái, đầu tiên đề xuất vùng đối
tượng được xác định. Tiếp theo mạng DCNN được sử dụng để trích
xuất đặc trưng từ các đề xuất vùng, cuối cùng tiến hành phân lớp/hồi

quy để xác định lớp và bao đóng chứa đối tượng. Ưu điểm của
phương pháp này là độ chính xác tương đối cao, tuy nhiên tốc độ xử
lý tương đối chậm với ngay cả cho một ảnh. Khắc phục nhược điểm
của mô hình hai trạng thái, mô hình một trạng thái không sử dụng đề
xuất vùng đối tượng mà chỉ dựa trên một mạng DCNN duy nhất ánh
xạ trực tiếp các điểm ảnh tới tọa độ vùng bao đóng và xác suất phân
lớp được nghiên cứu. Các mô hình tiêu biểu trong nhóm này là
YOLO, SSD đã đạt được thành công về mặt thời gian thực thi trong
việc phát hiện đối tượng, tuy nhiên nhược điểm chỉ dựa vào các đặc
trưng mức cao nên độ chính xác chưa cao.
1.2. Nhận dạng hình dạng của đối tượng
Để nhận dạng hình dạng của đối tượng dựa trên vector đặc
trưng trích chọn trong quá trình dò tìm đối tượng nhiều kỹ thuật lập
chỉ mục cho tập dữ liệu với số chiều lớn đã được nhiên cứu. Các kỹ
thuật hiệu quả gồm: kỹ thuật trên hàm băm, dựa trên phân cụm, dựa
trên phân hoạch không gian, và dựa trên lượng tử hóa tích đề các.
Trong số các kỹ thuật này, phương pháp tìm kiếm dựa trên lượng tử
hóa tích đề các trên tập dữ liệu vector số chiều lớn cho kết quả tối ưu
hơn cả. Vì vậy, kỹ thuật này được luận án nghiên cứu chi tiết, cải
tiến, phát triển cho bài toán đối sánh tìm ra hình dạng đối tượng từ
tập hình dạng cho trước dựa trên vector đặc trưng.
Với kích thước tập dữ liệu đối sánh có thể lên đến hàng triệu
bản ghi và mỗi vector có số chiều lớn (hàng nghìn chiều), thời gian
đối sánh là một vấn đề quan trọng cần phải giải quyết cho các ứng

5
dụng xử lý video cần theo thời gian thực. Để tối ưu hóa thời gian đối
sánh mẫu, tập vector đặc trưng được lập chỉ mục, mã hoá bằng kỹ
thuật PQ nhằm giảm kích thước không gian lưu trữ. Sau đó, các

phương pháp tìm kiếm ANN nhanh trên không gian mã hóa để tìm ra
đối tượng xấp xỉ gần nhất.
1.3. Thay thế, hoàn thiện video
Sau khi đối tượng trong video được phát hiện, vùng hiển thị
của đối tượng cần được trích chọn và loại bỏ khỏi video. Tương tự,
vùng đối tượng được thay thế cũng được trích trọn từ ảnh đích để
chèn vào vùng nguồn vừa bị loại bỏ trong video. Tiến trình hiệu
chỉnh video này sẽ làm xuất hiện các vùng bị phá hủy do sự chồng
lấp không đầy đủ và cần được hoàn thiện trong quá trình hậu xử lý.
Video inpainting là kỹ thuật thích hợp để tái tạo và hoàn thiện các
vùng này. Để đạt được mục tiêu khôi phục ảnh bị phá hủy xấp xỉ ảnh
nguyên bản đã có nhiều nghiên cứu về video inpainting, nhưng chủ
yếu phát triển theo hai hướng tiếp cận: dựa trên lấy mẫu, hoặc dựa
trên CNN.
Với các tiếp cận dựa trên lấy mẫu, phần ảnh bị mất được
khôi phục theo cách gia tăng vùng hoàn thiện từ mép ngoài vào trong
tâm vùng bằng cách tìm kiếm các bản mẫu thích hợp và ghép chúng
với nhau. Nhược điểm lớn nhất là chúng không thể giải quyết trường
hợp các phần bị mất mát không thể được tìm thấy từ dữ liệu.
Các nghiên cứu sử dụng CNN để hoàn thiện vùng trống
thường sử dụng một kiến trúc cơ bản là mạng encoder-decoder có thể
học các đặc trưng ngữ cảnh của ảnh từ đó hoàn thiện ảnh. Ảnh thu
được thường có tính chân thực cao hơn cách tiếp cận lấy mẫu.

6
Kết luận chương 1
Trong chương này, các mô hình dò tìm đối tượng, kỹ thuật
nhận dạng hình thể của đối tượng trong video dựa trên tập dữ liệu
vector đặc trưng, mô hình hoàn thiện vùng bị phá hủy trong video đã

được trình bày tổng quan. Thông qua đánh giá ưu điểm, hạn chế của
các nghiên cứu trước đó, luận án đã xác định được hướng nghiên cứu
phù hợp cho bài toán phát hiện và thay thế đối tượng trong video.
CHƯƠNG 2. PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO
Nội dung của chương tập trung giới thiệu mô hình dò tìm đối
đượng cải tiến theo thời gian thực với độ chính xác cao. Tốc độ dò
tìm (>30 frame mỗi giây) là yếu tố then chốt trong việc lựa chọn mô
hình. Vì vậy, luận án tập trung nghiên cứu cải tiến mô hình YOLO
cho phù hợp với đối tượng quảng cáo nhằm gia tăng độ chính xác
trong khi vẫn duy trì tốc độ theo thời gian thực. Sau đó kỹ thuật
PSVQ cải tiến kết hợp với cây phân cụm thứ bậc để tìm ra đối tượng
có hình dạng tương đồng nhất từ tập đối tượng có sẵn dựa trên tập
vector đặc trưng đã được trích chọn.
2.1. Dò tìm đối tượng trong video
2.1.1. Một số cải tiến trong mô hình YOLO-Adv
2.1.1.1. Cải tiến hàm loss
Để giảm sự ảnh hưởng về kích thước, độ nghiêng của đối
tượng lên mô hình, phương pháp tính toán hàm mất mát thông tin
theo chiều rộng và chiều dài của bounding box được cải tiến. Các độ
đo kích thước tương đối được sử dụng thay thế cho độ đo tuyệt đối
trong hàm loss này của mạng YOLO nguyên bản (thành phần đánh
dấu *). Hàm loss cải tiến được định nghĩa theo công thức sau:

7
∑

=
∑

+
+∑
+
+∑

∑
∑

(

∑

) +(

−

) + (

∑

)

)
(*)

∈

−
( ( ) − ̂ ( ))

Cụ thể, trong hàm loss mới, độ đo
dụng thay thế cho

−

−

∑
∑

(

−

và

, và

được sử

ℎ − ℎ . Tác dụng của cải tiến

này đã làm gia tăng độ chính xác trong dò tìm các bounding box, làm
giảm sự ảnh hưởng khi kích thước, độ nghiêng của đối tượng trong
các frame khi chúng bị thay đổi. Đồng thời cũng làm gia tăng tốc độ
hội tụ trong pha huấn luyện.
2.1.1.2. Cải tiến trong kiến trúc mạng
Với mạng DCNN, các đặc trưng cục bộ xuất hiện trong các
tầng thấp. Để sử dụng các đặc trưng cục bộ này, một chiến lược hợp
nhất đặc trưng đa tầng được sử dụng bên trong kiến trúc mạng

Darknet-53. Với chiến lược này, kết quả bản đồ đặc trưng ảnh qua
khối Residual 8x256 tiếp tục nhân chập với mặt nạ 3x3x256 và
1x1x64, sau đó toán tử ReShape/2 được sử dụng để tái cấu trúc lại
bản đồ đặc trưng với mục đích làm làm cho bản đồ đặc trưng của
tầng này giống với cấu trúc bản đồ đặc trưng các tầng sau. Cuối
cùng, các đặc trưng ở các mức khác nhau được hợp nhất với mục
đích làm giàu các đặc trưng cục bộ.

8
2.1.2. Ước lượng, đánh giá mô hình dò tìm đối tượng cải tiến
2.1.2.1. Dữ liệu kiểm thử và môi trường cài đặt
Để huấn luyện và kiểm thử mô hình YOLO-Adv, bộ dữ liệu
flickrlogos-47 được sử dụng.
Quá trình phát hiện đối tượng trong video được thực nghiệm
trên máy chủ GPU. GPU được sử dụng là Nvidia Tesla K80, bộ nhớ
video 24GB, và điều hành Ubuntu 14 với bộ nhớ trong 64GB.

Hình 2.1. Giá trị hàm loss trung bình huấn luyện
2.1.2.2. Kết quả thực nghiệm
Ước lượng pha huấn luyện
Biểu đồ hình 2.1 biễu diễn đồ thị giá trị hàm loss trung bình
của 3 mô hình YOLO-Adv, YOLO-Loss và YOLOv3 nguyên bản.
Trong đó YOLO-Loss là mô hình chỉ cải tiến hàm loss, YOLO-Adv
là mô hình cải tiến đồng thời hàm loss và kiến trúc mạng. Cả ba mô
hình được huấn luyện trên tập dữ liệu flickrlogos-47. Kết quả cho ta
thấy giá trị hàm loss trung bình của cả 3 mô hình có khuynh hướng

9

giảm nhanh trong 5000 vòng lặp đầu tiên, cuối cùng hướng về sự ổn
định tại giá trị rất nhỏ sau khoảng 15000 vòng lặp. Tuy nhiên, mô
hình YOLO-Adv có độ lỗi trung bình giảm nhanh nhất tại thời điểm
bắt đầu và đạt giá trị nhỏ nhất đầu tiên trong ba mô hình theo sau bởi
hai mô hình YOLO-Loss và YOLOv3. Điều này chứng tỏ hàm loss
và kiến trúc mạng cải tiến làm cho mô hình có tính ổn định cao, ít bị
tác động bởi các kích thước và độ nghiêng của đối tượng quảng cáo,
thích hợp cho tập dữ liệu huấn luyện được chọn.

(a) YOLOv3

(b) YOLO-Loss

(c) YOLO-Adv

Hình 2.2. Biểu đồ giá trị IoU huấn luyện
Kết quả so sánh hệ số IoU thể hiện độ chính xác trong việc
định vị các bounding box được minh họa trong hình 2.2. Hệ số IoU
trung bình của cả ba mô hình có khuynh hướng tăng đều và giữ ổn
định trong khoảng [0.7 - 1.0]. Điều này chứng tỏ cả 3 mô hình cho
độ chính xác cao khi xác định vị trí bounding box. Tuy nhiên giá trị
IoU của mô hình YOLO-Adv có khuynh hướng tăng nhanh nhất, tức
là tốc độ huấn luyện nhanh nhất trong ba mô hình trên. Bên cạnh đó
giá trị IoU của YOLO-Adv cũng giữ giá trị ổn định ở mức cao nhất,
đồng nghĩa với độ chính xác trong phát hiện đối tượng là cao nhất.

10
Ước lượng pha kiểm thử
Độ chính xác trong phân lớp của mô hình YOLO-Adv tiếp

theo lần lượt được so sánh với các mô hình YOLOv3 và YOLO-Loss
trên tập dữ liệu huấn luyện Flickrlogos-47 với ngưỡng  = 0.5, sử
dụng độ đo ước lượng mAP.
So sánh kết quả dò tìm đối tượng trên độ đo mAP cho thấy
YOLO-Adv cho độ chính xác cao nhất trong phát hiện, với mAP đạt
80.2 (bảng 2.1) so với các mô hình YOLO-Loss, YOLOv3 chỉ đạt
tương ứng là 77.4 và 74.0. Ngoài ra với tốc độ xử lý trung bình đạt
0.028s cho mỗi frame, mô hình YOLO-Logo có thể đạt tốc độ xử lý
theo thời gian thực với khoảng 35 frame xử lý được trong 1 giây.
Bảng 2.1. Hiệu năng thực thi trên tập dữ liệu Flickrlogos-47
Mô hình
YOLOv3
YOLO-Loss
YOLO-Adv

mAP
74.0
77.4
80.2

s/Img
0.038
0.032
0.028

2.2. Nhận dạng hình dạng đối tượng
Nhiệm vụ chính của pha nhận dạng hình dạng đối tượng là
xác định chính xác hình dạng của đối tượng đã tìm thấy trong pha
trước đó. Để thực hiện tác vụ này, luận án đã sử tập dữ liệu rất lớn
vector đặc trưng về hình dạng của đối tượng được trích chọn bằng

mô hình YOLO-Adv. Tập dữ liệu này được lập chỉ mục, mã hoá và
quá trình nhận dạng được thực hiện bằng cách đối sánh vector đặc
trưng của đối tượng truy vấn với các vector trong tập dữ liệu.

11
2.2.1. Mô hình lập chỉ mục PSVQ
Gọi X là tập các vector đặc trưng đã trích chọn được. Ký
hiệu

∈

hiệu

( )

là một vector hay điểm dữ liệu trong tập dữ liệu X. Ký
∈

( )

là vector con thứ j của x với j=1,2, … m.

Không gian dữ liệu gốc X trước hết được chia thành m không
gian con phân biệt tách rời nhau, mỗi vector con này có số chiều là
D/m. Để giải quyết vấn đề còn hạn chế về mối tương quan dữ liệu
giữa các không gian con không được xem xét dẫn tới sự dư thừa các
codeword, PSVQ được phát triển dựa trên ý tưởng gộp h không gian
liền kề nhau trong m không gian này. Sau đó áp dụng phép lượng tử
hóa vector cho các không gian gộp này. Cụ thể kết hợp h (1 ≤ ℎ ≤

) không gian liền kề nhau tạo thành _
thực hiện lượng tử hóa riêng biệt trên _
với _

=

/ℎ không gian con và

tập con vừa hình thành này

bộ lượng tử thấp. Như vậy, mỗi không gian con lúc này có

_ =ℎ×

tâm cụm. Do đó, sẽ có một vài không gian con chia sẻ

cùng một bộ lượng tử. Vì vậy tạo ra các phân rã mịn hơn trên dữ liệu
ban đầu trong khi không làm gia tăng số lượng các codeword (có tất
cả _

×_

=

×

codeword).

Như vậy với một tập dữ liệu vector đặc trưng X gồm n điểm
trong không gian R(d), bằng cách áp dụng tiến trình lượng tử hóa trên

cho tất cả các điểm dữ liệu trong X dựa trên các codebook {

∗

} thu

được trong quá trình huấn luyện ta thu được tập mã lượng tử Q gồm
n lượng tử cho từng phần tử trong X. Mỗi phần tử trong Q là một
vectơ của kích thước m và có giá trị trong khoảng [0, _K-1]. Tập Q
lúc này có kích thước n x m phần tử nguyên, do vậy không gian nhớ
hơn giảm nhiều lần so với tập dữ liệu số thực X.

12
2.2.2. Tìm kiếm ANN dựa trên cây phân cụm thứ bậc
Quá trình tìm kiếm ANN được thực hiện dựa trên cây phân
cụm thứ bậc hoàn chỉnh kết hợp trên tập dữ liệu mã hoá bằng
phương pháp lượng tử PSVQ bao gồm 2 pha: offline – pha chuẩn bị
dữ liệu, tạo cây tìm kiếm và tìm kiếm online – pha duyệt cây.
Trong pha offline, tập ℒ (kích thước m x _K) là tập codebook
của X được xây dựng theo phương pháp PSVQ. Mỗi mã lượng tử
trong ℒ hình thành từ quá trình lượng tử một điểm dữ liệu
trên cookbook {

∗

∈

dựa

}. Tập codebook ℒ được lưu trữ phục vụ cho việc

tra cứu để tính khoảng cách giữa vector truy vấn r và các điểm dữ
liệu trong X. Với

(∗)

( )=

ủ

.

Song song với quá trình hình thành tập dữ liệu tra cứu ℒ, tập
dữ liệu vector đặc trưng ban đầu cũng được dùng để tạo ra một cây
phân cụm thứ bậc hoàn chỉnh nhằm biểu diễn tất cả các điểm dữ liệu
trong không gian ban đầu. Tiến trình tạo cây bắt đầu tạo ra nút gốc
tương ứng với toàn bộ tập dữ liệu. Tiếp theo, giải thuật phân cụm
(Kmeans) được áp dụng để phân cụm dữ liệu trên nút này thành K
cụm con, mỗi một cụm được gọi là một nút trong biểu diễn và được
đại diện bởi tâm cụm (codeword). Tiến trình này được lặp lại đệ quy
cho đến khi lực lượng tại cụm con là đủ nhỏ, được coi là nút lá.
Pha online là quá trình tìm kiếm một vector xấp xỉ trong tập
dữ liệu vector đặc trưng so với vector truy vấn r trong không gian
R(D). Bản chất của quá trình tìm kiếm này là quá trình duyệt cây phân
cụm thứ bậc đã được tạo ra trước. Xuất phát từ nút gốc, nút con mà
có khoảng cách từ r đến là bé nhất được chọn duyệt tiếp theo. Quá
trình duyệt cây được lặp đệ quy đến khi tìm ra nút lá thích hợp nhất.

13
2.2.3. Ước lượng đánh giá
2.2.3.1. Ước lượng, đánh giá kỹ thuật PSVQ
Tập dữ liệu và cấu hình phần cứng
Dữ liệu được sử dụng trong quá trình thực nghiệm gồm các
tập dữ liệu có số chiều lớn là ANN_GIST1M, VGG. Giải thuật được
cài đặt trên môi trường C/C++ và thực nghiệm được tiến hành một
máy tính cấu hình phần cứng chuẩn gồm: RAM 16GB, chip Intel
Core (Dual-Core) i7 2.1 GHz, được cài hệ điều hành Windows 7.

(a) 1M 960D ANN_GIST
(b) 500K 4096D VGG
Hình 2.3. Chất lượng mã hóa PSVQ
Ước lượng, đánh giá chất lượng mã hóa
Chất lượng mã hóa của PSVQ với các tham số h=2,4,8 được
so sánh với các phương pháp dựa trên cách tiếp cận PQ sử dụng cơ
chế tối ưu hóa các bộ lượng tử là PQ chuẩn và ck-means. Kết quả so
sánh minh họa trong biểu đồ hình 2.3 cho thấy mô hình đề xuất với
h=8 thực thi tốt hơn so với các phương pháp còn lại trên cả hai tập
dữ liệu kiểm thử GIST và VGG. Kết quả này chứng tỏ sự tương quan
của dữ liệu được xem xét tối đa trên tất cả các không gian con.

14
2.2.3.2 Ước lượng, đánh giá tốc độ tìm kiếm ANN
Để chứng minh tính hiệu quả của thuật toán trong pha tìm
kiếm hình dạng của đối tượng, luận án đã tiến hành một số thực
nghiệm trên các tập dữ liệu chuẩn khác nhau để tìm ra tham số tối ưu
nhất dùng để xây dựng bộ lượng tử. Kết quả nhận được là d=48,
k=256 trên tập ANN_GIST với các vector 960 chiều và d=64, k=128

trên tập VGG gồm các vector 4096 chiều.

(a) 1M 960D ANN_GIST
(b) 500K 4096D VGG
Hình 2.4. Tốc độ tìm kiếm ANN trên các tập đặc trưng
Ước lượng giải thuật tìm kiếm
Hiệu năng tìm kiếm của phương pháp đề xuất được so sánh
với nhiều phương pháp khác nhau trong lớp bài toán tìm kiếm ANN
gồm: Randomized KD-trees, Randomized K-medoids, K-means tree,
POC-trees và EPQ. Khi xem xét tốc độ tìm kiếm với độ chính xác
đạt trên 80% trên tập dữ liệu GIST (hình 2.4.a) kết quả hiển thị trên
biểu đồ cho thấy tốc độ tìm kiếm của phương pháp đề xuất trội hơn
so các phương pháp còn lại. Trung bình, phương pháp đề xuất nhanh
hơn khoảng 2 lần so với phương pháp EPQ có tốc độ nhanh thứ 2 và

15
nhanh hơn khoảng 7 lần so với phương pháp tìm kiếm trong thư viện
FLANN (FLANN-RC-8trees). Đặc biệt, với độ chính xác tìm kiếm
trên 90%, phương pháp đề xuất vẫn cho tốc độ tìm kiếm trội hơn so
với các phương pháp khác.
Kết quả tương tự khi thực nghiệm trên tập dữ liệu có số chiều
dữ liệu cực lớn VGG gồm các vector đặc trưng 4096 chiều (hình
2.4.b), tốc độ tìm kiếm của phương pháp đề xuất cho kết quả vượt
trội, nhanh hơn khoảng 1.3 đến 2.0 lần so với kỹ thuật EPQ là kỹ
thuật tốt nhất so trong các kỹ thuật còn lại và gấp nhiều lần so với kỹ
thuật trong thư viện FLANN như flann-kmeans-1tree.
Kết luận chương 2
Trong chương này, vấn đề phát hiện đối tượng trong video
được giải quyết bằng mô hình YOLO-Adv cải tiến và kỹ thuật PSVQ

cải tiến.
Ưu điểm của mô hình YOLO-Adv là duy trì được tốc độ tính
toán đáp ứng theo thời gian thực và độ chính xác cũng được gia tăng,
phù hợp với tập dữ liệu đối tượng quảng cáo.
Kỹ thuật PSVQ cải tiến dùng để lập chỉ mục tập dữ liệu đặc
trưng. Tiến trình nhận dạng hình dạng đối tượng truy vấn được thực
hiện dựa trên cây phân cụm thứ bậc trên tập dữ liệu lập chỉ mục, mã
hoá bằng kỹ thuật PSVQ. Các kết quả thực nghiệm cho thấy sự vượt
trội về hiệu năng thực thi của mô hình đề xuất so với các mô hình
khác trong lĩnh vực tìm kiếm ANN.

16
CHƯƠNG 3. THAY THẾ ĐỐI TƯỢNG VÀ HOÀN THIỆN VIDEO

3.1. Phân vùng theo thực thể đối tượng
Phân vùng đối tượng là tiến trình xác định chính xác vùng
hiển thị của đối tượng trong ảnh. Phân vùng đối tượng thông thường
được chia thành hai loại: phân vùng ngữ nghĩa và phân vùng thực
thể. Phương pháp phân vùng ngữ nghĩa có nhược điểm là khi các thể
hiện của cùng một lớp đối tượng cạnh nhau thì chúng được gộp vào
cùng một vùng. Vì vậy, luận án sử dụng các kỹ thuật phân vùng thực
thể để xác định vùng đối tượng.
3.1.1. Các kỹ thuật phân vùng thực thể
Trước khi mạng CNN ra đời, đã có rất nhiều kỹ thuật phân
vùng ảnh được phát triển và sử dụng rộng rãi. Các giải thuật truyền
thống này có thể kể đến như: phân ngưỡng, phân cụm, histogram, dò
tìm biên. Tuy nhiên do sử dụng các giải thuật cứng nhắc và yêu cầu
có sự can thiệp của người dùng nên rất kém hiệu quả.
Các kỹ thuật phân vùng dựa trên CNN bao gồm hai giai

đoạn: xác định các vùng tiềm năng (RoI) chứa đối tượng, sau đó tiến
hành phân vùng trên các RoI này. Một số kỹ thuật điển hình là FRM,
Mask-RCNN cho độ chính xác cao nhưng tốc độ chưa đạt như mong
muốn. Trong khi đó mô hình YOLACT có tốc độ đáp ứng thời gian
thực nhưng độ chính xác thấp. Tuy nhiên với chỉ 1 hoặc 2 đối tượng
cần được phân vùng thì Mask R-CNN đạt tốc độ chấp nhận được.
Chính vì vậy, nghiên cứu Mask R-CNN sử dụng phân vùng đối
tượng được luận án kế thừa để tìm vùng hiển thị của đối tượng.

17
3.1.2. Mô hình phân vùng thực thể
Luận án kế thừa mô hình phân vùng thực thể được đề xuất
bởi Laradji để đánh dấu, trích chọn vùng hiển thị đối tượng trong
ảnh. Chi tiết mô hình được thể hiện trong hình 3.1. Mô hình này bao
gồm hai phân nhánh: Nhánh phát sinh các mặt nạ đánh dấu vùng đối
tượng (gọi tắt là mặt nạ vùng) và nhánh phân vùng thực thể. Mỗi
phân nhánh này sử dụng một kiến trúc mạng tích chập học sâu khác
nhau cho mỗi nhánh.
PSL

FCN

Cực trị cục bộ

Bản đồ kích hoạt

Mask
R-CNN

Loss

Kết qủa dự đoán

Mạt nạ vùng

Hình 3.1. Mô hình huấn luyện mạng phân vùng ảnh
Nhánh phát sinh mặt nạ vùng
Quá trình phát sinh mặt nạ vùng được thực hiện qua một số
bước, trước hết mô hình PRM được áp dụng để phát sinh các điểm
trọng tâm vùng là các phần nổi bật của các thực thể. Với phương
pháp PRM, FCN đưa ra một bản đồ kích hoạt lớp (CAM) xác định
định hệ số tin cậy phân lớp tại mỗi vị trí trong ảnh, sau đó được phân
lớp dựa trên CAM, kết quả thu được chuyển qua lớp kích hoạt cực
đại (PSL) cho kết quả là tọa độ các vị trí trọng tâm của đối tượng.
Dựa vào vị trí này, các mặt nạ vùng được tạo ra.

18
Nhánh phân vùng thực thể
Trong nhánh phân vùng thực thể, mạng Mask R-CNN được
sử dụng. Quá trình huấn luyện là tiến trình huấn luyện tham số dựa
trên tập ảnh huấn luyện và mặt nạ vùng sinh ra từ nhánh tạo mặt nạ
vùng để tối thiểu hàm lỗi:
ℒ( , , ) = ℒ

+ℒ

3.1.3. Kết quả thực nghiệm bằng mô hình phân vùng thực thể
Phương pháp luận án sử dụng được so sánh với một số

phương pháp phân vùng phổ biến khác dựa trên mạng huấn luyện
đầy đủ sử dụng độ đo chính xác trung bình mAP. So với Mask RCNN phương pháp đề xuất có hiệu năng thực thi tốt hơn theo hai
cách tạo mặt nạ dùng trong huấn luyện, một là sử dụng ở mức
bounding box và một là ở mức ảnh để tạo ra các nhãn trong ảnh huấn
luyện (bảng 3.1).
Bảng 3.1. So sánh kết quả của mô hình sử dụng với các phương pháp
khác theo các phương pháp sinh mặt nạ huấn luyện
Mask R-CNN
DeepMask
PRM
DeepMask
Mô hình sử dụng

Mặt nạ huấn luyện
Mức điểm ảnh
Mức điểm ảnh
Mức ảnh
Mức hộp bao
Mức ảnh

mAP
51.4
41.7
26.8
8.1
41.7

Hình 3.4 thể hiện hiệu năng thực thi của mô hình được luận
án lựa chọn dùng để phân đoạn với kích thước các đối tượng khác
nhau và với số lượng đối tượng khác nhau. Kết quả cho thấy độ

chính xác của mô hình Mask R-CNN huấn luyện trên mặt nạ sinh ra
dựa trên mức điểm ảnh cao hơn một chút so với mô hình kế thừa.

19
Với bài toán mà đối tượng cần khoanh vùng chỉ là một thì độ chính
xác đạt được cũng tương đối cao, mAP đạt trên 65.

Hình 3.4. Phân tích hiệu năng thực thi phân lớp trên tập dữ liệu
PASCAL VOC 2012
3.2. Mô hình hoàn thiện video
3.2.1. Kiến trúc mô hình V-RBPconv
Mô hình cải tiến V-RBPconv (Hình 3.5) được sử dụng để
hoàn thiện, tái tạo vùng bị mất mát thông tin bao gồm bộ sinh ảnh và
bộ phân biệt ảnh. Bộ sinh ảnh sử dụng kiến trúc RBPconv tận dụng
tối đa các thông tin từ các frame lân cận để xử lý các các vùng bị phá
huỷ với hình dạng bất kỳ và kích thước không quá lớn. Bộ phân biệt
ảnh tái tạo và ảnh gốc theo thời gian Temporal PatchGAN tập trung
vào việc phát hiện các đặc trưng khác biệt về mặt không gian, thời
gian để hiệu chỉnh và nâng cao chất lượng video đầu ra.
Input

(a)

Output
video

Mặt nạ
Ground truth

(b)

Loss

Hình 3.5. Kiến trúc mô hình video inpainting V-RBPconv

20
3.2.2. Mô hình kiến trúc mạng RBPconv
Mô hình đề xuất cho bộ sinh ảnh G để tạo ra video
inpainting thô dựa trên kiến trúc mạng RBPconv với nền tảng là mô
hình kiến trúc U-net cải tiến chi tiết được minh họa trong hình 3.6.
Trong mô hình này mỗi tầng nhân chập nguyên bản trong U-net
được thay thế là một khối residual cải tiến. Trong cải tiến này mỗi
tầng nhân chập con được theo sau bởi chuẩn hóa batch và hàm kích
hoạt. Hàm kích hoạt ReLU được sử dụng cho các tầng encoder và
LeakyReLU với alpha=0.2 được sử dụng trong các tầng decoder.
Bên cạnh đó, tất cả các tầng nhân chập được thay thế bằng nhân chập
từng phần. Zero padding với kích thước 1 được sử dụng để làm cho
tất cả các bản đồ đặc trưng có cùng kích thước.

Hình 3.6. Kiến trúc mô hình RBPconv
3.2.3. Hàm loss
Hàm loss dùng để huấn luyện mô hình được định nghĩa:
=
Trong đó ℒ
quan, ℒ

ℒ

+

ℒ

+

ℒ

là hàm loss cấu trúc, ℒ

+

ℒ

là hàm loss trực

là hàm loss hình dáng, ℒ là hàm loss đo sự khác biệt

giữa ảnh thực và ảnh tái tạo.

21
3.2.4. Ước lượng, đánh giá mô hình hoàn thiện video
Thiết lập môi trường thực nghiệm
Tập mặt nạ huấn luyện. Các mặt nạ huấn luyện được chia
vào 3 nhóm gồm: mặt nạ hình điểm, mặt nạ dạng hình chữ nhật, mặt
nạ hình đường vẽ. Tuy nhiên do phạm vi, đặc trưng của bài toán
nghiên cứu nhóm mặt nạ hình chữ nhật không được dùng để kiểm
thử mà tập trung vào nhóm hình điểm và hình đường vẽ, đặc biệt là
nhóm mặt nạ hình đường vẽ bất kỳ được kiểm nghiệm nhiều nhất do

phù hợp nhất với bài toán thay thế logo trong video.
Tập dữ liệu kiểm thử. Luận án sử dụng 2 bộ dữ liệu thực
nghiệm. Bộ dữ liệu Places2 dùng để so sánh kết quả thực nghiệm của
mô hình RBPConv với các kết quả thực nghiệm của các nghiên cứu
gần nhất. Để so sánh kết quả thực nghiệm của mô hình V-RBPconv,
tập dữ liệu FVI (Free-form video inpainting) được lựa chọn.
Môi trường thực nghiệm. Tiến trình huấn luyện được thực
hiện trên máy chủ Nvidia Tesla V100 GPU (16GB). Mô hình đề xuất
được tối ưu hóa sử dụng giải thuật Adam với tỷ lệ học là 0.0002,
kích thước mỗi batch là 16.
Các kết quả so sánh định lượng
Chất lượng hình ảnh thu được sau khi inpainting có thể được
đánh giá định lượng thông qua các chỉ số đo. Để so sánh định lượng
mô hình inpainting ảnh đề xuất RBPConv với các mô hình khác cho
lớp bài toán inpainting ảnh, luận án sử dụng các độ đo chất lượng
ảnh SSIM và PSNR.
Mô hình RBPConv được so sánh định lượng dựa trên các chỉ
số đo PSNR và SSIM với các mô hình inpainting ảnh được phát triển

22
trước đó gồm CA(Contextual Attention), PConv (Partial Convolution
Unet) và EC (EdgeConnect). Các giá trị cụ thể được thể hiện trong
bảng 3.2 với PSNR của mô hình đề xuất đạt ở ngưỡng 25.29 cho
thấy ảnh được tái tạo có tính chân thực cao. Cả hai chỉ số đo cho thấy
mô hình RBPcov cho chất lượng cao hơn các phương pháp khác.
Bảng 3.2. Kết quả định tính trên tập dữ liệu Places2 của các mô hình:
CA, PConv and EC, và RBPConv
CA

PConv*

EC

RBPConv

PSNR

21.34

24.54

24.65

25.29

SSIM

0.806

0.775

0.857

0.868

Để ước lượng chất lượng video tái tạo trên phương diện nhất
quán về thời gian, độ đo và Frechet Inception Distance (FID) được
sử dụng. Các mô hình thử nghiệm trên tập kiểm thử FVI với mặt nạ
có kích thước không quá lớn tối đa 50% so với đối tượng. Kết quả

thể hiện trên bảng 3.3 cho thấy chỉ số FID cho cả hai loại mặt nạ
hình đường kẻ và hình điểm đều thấp nhất so với các mô hình còn
lại, thậm chí chỉ bằng một nữa so với kỹ thuật EC. Chứng tỏ mô hình
đề xuất duy trì tốt tính kết cấu về thời gian, video tái tạo có tính chân
thực cao gần với video gốc.
Bảng 3.3. Kết quả định tính trên tập dữ liệu FVI với các mô hình:
EC, CombCN, 3Dgated và V- RBPConv
Dạng mặt

EC

CombCN

3DGated

V-RBPConv

Đường vẽ

1.033

0.766

0.609

0.598

Điểm

1.083

1.091

0.905

0.886

nạ
FID

23
Tóm tắt chương 3
Trong chương này, mô hình phân vùng thực thể đối tượng
dùng cho bước trích chọn và đánh dấu đối tượng dựa trên mạng
Mask R-CNN đã được trình bày. Mặc dù độ chính xác và thời gian
phân vùng đã đáp ứng được kỳ vọng nhưng vẫn còn thấp hơn so với
mạng phân vùng Mask R-CNN. Tuy nhiên, với ưu điểm tiết kiệm về
chi phí và thời gian rất nhiều để tạo ra tập dữ liệu mặt nạ vùng huấn
luyện nên giải thuật vẫn được luận án kế thừa sử dụng. Tiếp theo mô
hình V-RBPconv dựa trên mô hình inpainting ảnh cải tiến RBPconv
đã được sử dụng cho bài toán hoàn thiện vùng trống sinh ra sau khi
loại bỏ hay thay thế đối tượng trong video. Các thực nghiệm đã
chứng minh mức độ hiệu quả của mô hình cải tiến so với các mô
hình khác trong lĩnh vực inpainting.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Luận án đã trình bày các mô hình cải tiến áp dụng cho bài
toán thay thế đối tượng trong video. Luận án đã đạt được một số kết
quả nhất định, cụ thể như sau:
- Cải tiến hiệu năng thực thi mô hình dò tìm đối tượng trong

video dựa trên mạng YOLO. Mô hình đề xuất có tính tổng quát, độ
chính xác cao, ảnh đầu vào không cần qua bước tiền xử lý, đáp ứng
thời gian thực khi áp dụng cho video.
- Cải tiến độ chính xác, gia tăng tốc độ thực thi cho kỹ thuật
nhận dạng hình dạng của đối tượng dựa trên phương pháp lập chỉ
mục vector đặc trưng. Tập dữ liệu các hình dạng của đối tượng được
trích trọn đặc trưng, lập chỉ mục bằng kỹ thuật PSVQ cải tiến. Quá
trình tìm kiếm ANN dựa trên cây phân cụm thứ bậc được sử dụng

24
trên tập dữ liệu chỉ mục, mã hoá bằng PSVQ để tìm ra hình dạng
tương đồng nhất với đối tượng truy vấn.
- Mô hình video inpainting cải tiến cho tốc độ và độ chính
cao, bảo toàn tính kết cấu về không gian và thời gian khi hoàn thiện,
tái tạo video sau hiệu chỉnh với vùng tái tạo có hình dạng bất kỳ và
kích thước không quá lớn.
Tuy nhiên, luận án còn một số hạn chế:
- Chưa xây dựng được bộ dữ liệu đặc trưng xuyên xuốt cho
bài toán phát hiện và hoàn thiện video
- Vấn đề ảnh hưởng của các yếu tố liên quan đến cấu thành
video để phân đoạn video, trích chọn frame và tính nhất quán về thời
gian trong nhận dạng hình dạng của đối tượng chưa được xem xét;
- Chưa đề xuất được mô hình đầu cuối cho bài toán phát hiện
và thay thế đối tượng trong video.
Từ những hạn chế trên, hướng nghiên cứu tiếp theo của luận án là:
(1) Phát triển bộ dữ liệu ảnh, video huấn luyện cho các pha
dò tìm, nhận dạng, và phân vùng đối tượng.
(2) Nghiên cứu sự tác động của các yếu tố cấu thành video,
định dạng video đến quá trình thay thế và hoàn thiện video.

(3) Nghiên cứu mô hình DCNN đầu cuối để có thể đồng thời
phát hiện, nhận dạng và phân vùng các đối tượng trong video.

25

Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video tt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về