Truy vấn video dựa vào nội dung bằng phương pháp Deep Neural Networks

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.04 MB, 9 trang )

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021
DOI: 10.15625/vap.2021.0040

TRUY VẤN VIDEO DỰA VÀO NỘI DUNG
BẰNG PHƯƠNG PHÁP DEEP NEURAL NETWORKS
Phan Anh Cang1, Lê Phương Thảo1, Phan Thượng Cang2
Khoa Công nghệ thông tin, Trường Đại học Sư phạm Kỹ thuật Vĩnh Long
2
Khoa Công nghệ Thông tin và Truyền Thông, Trường Đại học Cần Thơ
, ,

1

TÓM TẮT: Deep Neural Networks (DNN) - Một thuật toán học máy sử dụng mạng neural nhân tạo nhiều tầng vào các lĩnh
vực xử lý ảnh, xử lý âm thanh, xử lý ngôn ngữ tự nhiên… đang nhận được sự quan tâm của các nhà khoa học trên thế giới. Trong
bài báo này, chúng tôi đề xuất sử dụng DNN biểu diễn các thuộc tính thuộc về nội dung cho các hình ảnh trong video. Những thuộc
tính rút trích được sẽ làm tiền đề cho việc lập chỉ mục và tìm kiếm cho các hệ thống truy vấn video. Để thực hiện công việc này,
chúng tôi xây dựng một số mơ hình DNN phổ biến hiện nay như Faster R-CNN Inception Resnet v2, SSD Mobile v2, Faster R-CNN
Resnet để đánh giá độ chính xác trên tập dữ liệu thu thập được từ kho nội dung của Đài Phát thanh và Truyền hình Vĩnh Long. Kết
quả thực nghiệm cho thấy phương pháp có sử dụng DNN đạt độ chính xác cao từ 86% đến 95%. Đây cũng là cơ sở cho những
nghiên cứu có liên quan trong việc lựa chọn mơ hình phù hợp cho việc trích xuất nội dung từ video nhằm phục vụ cho việc truy vấn
video dựa vào nội dung theo hướng tiếp cận dữ liệu lớn.
Từ khóa: Truy vấn video, Deep Neural Networks, Faster R-CNN Resnet, SSD Mobilenet.

I. GIỚI THIỆU
Hiện nay, video đang là một trong những phương thức truyền tải thông tin dễ dàng tiếp cận được nhiều người
dùng trên thế giới. Với ưu điểm trực quan, sinh động, hình ảnh của video bao hàm nhiều nội dung mà không cần thể
hiện cụ thể bằng ngôn ngữ. Tận dụng những nội dung này phục vụ cho việc lưu trữ và tìm kiếm chính là thách thức đặt
ra cho các nhà quản trị kênh truyền thơng đa phương tiện. Từ thực tế đó, bài tốn đề xuất được đặt ra và mơ tả như sau:
Đầu vào là nội dung mà người dùng muốn tìm kiếm, đầu ra là danh sách các video có chứa nội dung đó. Khái niệm nội
dung ở đây chính là những thơng tin được thể hiện bằng hình ảnh mà khơng cần từ ngữ cụ thể. Bài tốn này có tính ứng

dụng cao trong các hệ thống phục vụ truy vấn video bởi các cơng cụ tìm kiếm thơng thường chỉ dựa trên tên và một số
ít thơng tin của video, dễ bỏ qua những tìm kiếm chuyên sâu vào nội dung. Những năm gần đây, nhiều phương pháp
truy vấn video dựa vào nội dung đã được đưa ra. Năm 2016, Đỗ Văn Tiến, Lâm Quang Vũ, Phan Lê Sang, Ngơ Đức
Thành, Lê Đình Duy, Dương Anh Đức đã đề xuất một hệ thống phát hiện cảnh bạo lực trong video dựa vào thuộc tính
biểu diễn qua ba mơ hình DNN phổ biến như Alex Net, UavNet, VGG để đánh giá độ chính xác trên tập dữ liệu chuẩn
VSD 2014 [1]. Kết quả thực nghiệm cho thấy, độ chính xác khi sử dụng DNN là 48,12 % cao hơn so với phương pháp
tốt nhất không sử dụng DNN là 13 %. Năm 2018 Mr. Braveen M. đề xuất một phương pháp truy xuất video dựa trên
nội dung với các đa thức trực giao [2]. Hệ thống này đề xuất nhận dạng các khung hình chính từ các hình ảnh đầu vào
và sử dụng màu sắc, kết cấu, góc cạnh và hình dạng của nội dung trực quan. Sau đó các đặc trưng này sẽ được lập chỉ
mục, đối sánh và phục vụ truy xuất. Phương pháp này chỉ được thực nghiệm trên 20 video và chỉ sử dụng đặc trưng từ
hình ảnh. Tháng 7/2018 Mrs S. Renukadevi cũng đề xuất một mơ hình tìm kiếm video dựa vào kỹ thuật phân cụm trích
xuất đặc trưng và mơ hình cây quyết định [3]. Hệ thống thực nghiệm trên tập dữ liệu gồm 100 video bằng 3 kỹ thuật
phân cụm trích xuất đặc trưng và đạt độ chính xác cao nhất là 37%. Cũng trong năm 2018, Le Wang, Jinliang Zang,
Qilin Zhang, Zhenxing Niu, Gang Hua và Nanning Zheng đề xuất CNN có trọng số thời gian theo thời gian (ATW
CNN) để nhận dạng hành động trong video [4]. Kết quả thử nghiệm trên bộ dữ liệu UCF-101 và HMDB-51 cho thấy
hiệu suất nhận dạng các phân đoạn video có liên quan khi sử dụng mơ hình này tăng đáng kể. Và đóng góp của chúng
tơi trong nghiên cứu này chính là các tập dữ liệu đã được lập chỉ mục sau khi thực nghiệm; phương pháp rút trích nội
dung video dựa vào đặc trưng đối tượng trên hình ảnh; cải tiến các mạng Deep Neural Network trong quá trình nghiên
cứu; so sánh, đánh giá về độ chính xác và thời gian của các phương pháp đề xuất để cung cấp thêm cơ sở khoa học cho
các nghiên cứu về sau. Trong nội dung bài báo, chúng tôi tập trung chủ yếu vào việc áp dụng ba kiến trúc mơ hình
Deep Neural Network hiện đại trong phát hiện đối tượng, cụ thể là Faster R-CNN Resnet, Faster R-CNN Inception
Resnet v2, Single Shot Detector Mobilenet v2.
II. CÔNG VIỆC LIÊN QUAN
A. Deep Neural Network
Deep Neural Network [5] là hệ thống cấu trúc thần kinh phức tạp gồm nhiều đơn vị neural network mà trong đó,
ngồi các lớp nguồn vào (input), nguồn ra (output) thì có nhiều lớp ẩn (hidden layer). Mỗi lớp này sẽ thực hiện một
kiểu phân loại và sắp xếp riêng trong một q trình gọi là “phân cấp tính năng” và mỗi lớp đảm nhiệm một trọng trách
riêng, output của lớp này sẽ là input của lớp sau. Deep Neural Network được xây dựng với mục đích mơ phỏng hoạt
động não bộ phức tạp của con người và được áp dụng vào nhiều lĩnh vực khác nhau, mang lại thành công và những
hiệu quả đáng kinh ngạc.

Phan Anh Cang, Lê Phương Thảo, Phan Thượng Cang

35

Hình 1. Mơ hình Deep Neural Network [5]

B. Faster R-CNN
Đây là kiến trúc mơ hình cải thiện về cả tốc độ huấn luyện và phát hiện được đề xuất bởi Shaoqing Ren và các
cộng sự tại Microsoft Research trong bài báo năm 2016 có tiêu đề Faster R-CNN: Towards Real-Time Object
Detection with Region Proposal Networks (RPN) [6]. Kiến trúc Faster R-CNN này là đỉnh cao của họ model R-CNN
và tiếp tục đạt được kết quả gần như tốt nhất trong các nhiệm vụ nhận diện đối tượng.

Hình 2. Kiến trúc mạng Faster R-CNN Resnet [6]

Hàm tính tốn độ đo Loss (L) được xác định bởi công thức (1), (2).
1
1
∑𝑖𝑖 𝐿𝐿𝑐𝑐𝑐𝑐𝑐𝑐 (𝑝𝑝𝑖𝑖 , 𝑝𝑝𝑖𝑖∗ ) + λ
∑𝑖𝑖 𝑝𝑝𝑖𝑖∗ 𝐿𝐿𝑟𝑟𝑟𝑟𝑟𝑟 (𝑡𝑡𝑖𝑖 , 𝑡𝑡𝑖𝑖∗ )
𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿({𝑝𝑝𝑖𝑖 }, {𝑡𝑡𝑖𝑖 }) =
𝑁𝑁𝑐𝑐𝑐𝑐𝑐𝑐

𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆ℎ𝐿𝐿1𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿(𝑥𝑥, 𝑦𝑦) = �

2

𝑁𝑁𝑟𝑟𝑟𝑟𝑟𝑟

0.5(𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 ) 𝑛𝑛ế𝑢𝑢 |𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 | < 1
|𝑥𝑥𝑖𝑖 − 𝑦𝑦𝑖𝑖 | − 0.5 𝑛𝑛𝑛𝑛ượ𝑐𝑐 𝑙𝑙ạ𝑖𝑖

(1)
(2)

Với i là index của anchor trong mini-batch và pi là xác suất dự đoán của anchor i là một đối tượng. Giá trị nhãn
ground-truth pi∗ là 1 nếu anchor là positive và là 0 khi anchor là negative.
+ ti là một vector 4 chiều biểu diễn giá trị tọa độ của bounding box đã được dự đoán.
+ ti∗ là vector 4 chiều biểu diễn giá trị tọa độ của ground-truth box tương ứng với positive anchor.
+ 𝐿𝐿𝑐𝑐𝑐𝑐𝑐𝑐 là log loss của 2 lớp (object và non-object).
+ 𝐿𝐿𝑟𝑟𝑟𝑟𝑟𝑟 dùng SmoothL1Loss.

C. MobileNet v2

Các mơ hình DNN vừa được giới thiệu, tuy có độ chính xác cao, nhưng đều có một điểm hạn chế chung đó là
khơng phù hợp với các ứng dụng trên mobile hay các hệ thống nhúng có khả năng tính tốn thấp. Nếu muốn phát triển
các mơ hình trên cho các ứng dụng thời gian thực thì cần phải có cấu hình cực kì mạnh mẽ (GPU/TPU) còn đối với các
hệ thống nhúng (Raspberry Pi, Nano pc…) hay các ứng dụng chạy trên smart phone, cần có một mơ hình "nhẹ" hơn.
Trên cùng tập dữ liệu ImageNet, MobileNet v2 có độ chính xác khơng hề thua kém các mơ hình khác như VGG16,
VGG19 trong khi lượng parameters chỉ khoảng 3.5 M (khoảng 1/40 số tham số của VGG16) [7].
Bảng 1. Phác thảo kiến trúc mạng MobileNet v2

Type/Stride
Conv /s2
Conv dw/s1
Conv /s1
Conv dw /s2
Conv /s1
Conv dw/s1

Conv /s1
Conv dw /s2

Filter Shape
3 × 3 × 3 × 32
3 × 3 × 32 dw
1 × 1 × 32 × 64
3 × 3 × 64 dw
1 × 1 × 64 × 128
3 × 3 × 256 dw
1 × 1 × 128 × 256
3 × 3 × 256 dw

Input size
224 × 224 × 3
112 × 112 × 32
112 × 112 × 32
112 × 112 × 64
56 × 56 × 128
56 × 56 × 128
56 × 56 × 128
56 × 56 × 128

36

TRUY VẤN VIDEO DỰA VÀO NỘI DUNG BẰNG PHƯƠNG PHÁP DEEP NEURAL NETWORKS

Type/Stride
Conv /s1

Conv dw/s1
Conv /s1
Conv dw /s2
Conv /s1
Conv dw/s1

5xConv/s1

Conv dw/s2
Conv/s1
Conv dw/s2
Conv /s1
Avg Pool /s1
FC /s1
Softmax/s1

Filter Shape
1 × 1 × 128 × 256
3 × 3 × 256 dw
1 × 1 × 256 × 256
3 × 3256 dw
1 × 1 × 256 × 512
3 × 3 × 512 dw
1 × 1 × 512 × 512
3 × 3 × 512 dw
1 × 1 × 512 × 1024
3× 3 × 1024 dw
1 × 1 × 1024 × 1024
Pool 7 × 7
1024 × 1000

Classifier

Input size
28 × 28 × 256
28 × 28 × 256
28 × 28 × 256
28 ×28× 256
14 × 14 × 256
14 × 14 × 512
14 × 14 × 512
14 × 14 × 512
7× 7 × 512
7 × 7 × 1024
7 × 7 × 1024
7 × 7 × 1024
1 × 1 × 1024
1 × 1 × 1000

III. MƠ HÌNH ĐỀ XUẤT

Hệ thống tìm kiếm video dựa vào nội dung mà chúng tôi đề xuất có quy trình thực hiện như sau: Từ file video
đầu vào thực hiện cắt ra thành các frame hình, tiếp theo chúng tôi sẽ phát hiện đối tượng (nội dung) trên hình ảnh đó.
Kết thúc q trình xử lý video nguồn, kết quả thu được là một tệp văn bản tương ứng đối với nội dung của video đã
được trích xuất. Các văn bản ở dạng thơ cần được chuyển sang một dạng biểu diễn nào đó để xử lý. Q trình đó là lập
chỉ mục cho tệp văn bản để hỗ trợ việc tìm kiếm thơng tin của người dùng. Các thơng tin rút trích được sẽ được lập chỉ
mục và lưu vào cơ sở dữ liệu của cơng cụ tìm kiếm dưới dạng văn bản (text) để phục vụ cho quá trình tiếp theo là truy
vấn. Hệ thống chỉ mục thu được là danh sách các từ khóa, chỉ rõ các từ khóa nào xuất hiện ở video nào, địa chỉ nào.
Bài toán phát hiện đối tượng được chia thành 3 thành phần chính: Tiền xử lý, rút trích đặc trưng và phân loại. Kết quả
phân loại sẽ dựa vào quá trình huấn luyện, cho biết dữ liệu ảnh thuộc loại nào và có độ chính xác là bao nhiêu. Chi tiết
các giai đoạn thực hiện của hệ thống tìm kiếm video dựa vào nội dung mà chúng tơi đề xuất lần lượt như sau:

Hình 3. Mơ hình tổng qt phương pháp đề xuất

• Phase 1- Huấn luyện mơ hình: Giai đoạn huấn luyện được chia thành 3 bước chính: Bước tiền xử lý ảnh, bước
trích chọn đặc trưng và bước huấn luyện.
a) Tiền xử lý: Đầu vào của hệ thống là các video. Các video này sẽ được trích xuất thành các frame ảnh, để tránh
bỏ sót khung hình, chúng tơi thực hiện lấy 1 hình trên 1 giây [8] làm dữ liệu đầu vào cho q trình trích xuất
đặc trưng tiếp theo. Sau đó sẽ chọn lọc những hình ảnh có chứa đối tượng cần nhận dạng để thực hiện việc
gán nhãn dữ liệu. Toàn bộ quá trình này sẽ thực hiện với sự tư vấn và giám sát của các chuyên gia về nội
dung. Trải qua giai đoạn tiền xử lý dữ liệu, chúng tơi sẽ nhận được một tập ảnh có chứa các đối tượng được
gán nhãn có độ tin cậy cao. Trong bước này thực hiện xác định khối ROI của từng hành động dựa trên việc

Phan Anh Cang, Lê Phương Thảo, Phan Thượng Cang

37

gán nhãn bằng tay. Trong bài báo này chúng tôi sử dụng một tool có sẵn là labeling. Q trình này về cơ bản
là vẽ các hộp xung quanh đối tượng trong ảnh. Sau khi gán nhãn dữ liệu chia dữ liệu thành các tệp train/test.
Chuyển đổi các tệp XML thành các tệp CSV và sau đó tạo TFRecords từ các tệp này. Tệp train TFRecords
này được đưa để đào tạo mô hình. Cuối cùng các giá trị được đưa vào mơ hình để đánh giá.
b) Trích chọn đặc trưng: Để có thể phát hiện và phân loại được đối tượng, chúng tơi tiến hành rút trích đặc
trưng trên tập dữ liệu đã được tiền xử lý ở bước 1. Chúng tôi đề xuất phương pháp rút trích đặc trưng với 3 mơ
hình mạng: Resnet, Inception Resnet và MobileNet v2. Chúng tơi cũng thực hiện thay đổi kích thước của max
pooling nhằm đưa ra những đánh giá khách quan và đa dạng hơn.
c)

Huấn luyện mơ hình: Tập dữ liệu sau khi rút trích đặc trưng sẽ được huấn luyện trên ba mơ hình mạng SSD
Mobilenet v2, Faster R-CNN Inception ResNet và Faster R-CNN Resnet. Mỗi mơ hình mạng như vậy được
huấn luyện trên cùng một môi trường giống nhau, chúng tôi giám sát trong quá trình huấn luyện dựa vào chỉ

số Loss của từng kiến trúc mạng đã được trình bày trong phần 2.2 để đưa ra quyết định điểm dừng huấn luyện.
Cả ba mơ hình được huấn luyện cho đến khi chỉ số Loss không được cải thiện (không giảm) sau số lần học
nhất định chúng tôi sẽ dừng huấn luyện mơ hình và chuyển sang giai đoạn kiểm thử để so sánh, đánh giá mơ
hình.

• Phase 2- Giai đoạn nhận dạng được chia thành 3 bước chính: Bước tiền xử lý ảnh, bước trích chọn đặc trưng và
bước nhận dạng.
a) Tiền xử lý: Chúng tơi cũng tiến hành trích xuất frame ảnh từ video đầu vào như đã trình bày ở Phần III mục
1a. Theo tiêu chuẩn của video, mỗi giây chúng ta sẽ trích xuất được 25-30 frame. Những frame ảnh này sẽ
được đưa vào bước 2 để trích chọn đặc trưng.
b) Trích chọn đặc trưng: Cũng giống như bước trích chọn đặc trưng ở Phần III Mục 1b, chúng tơi cũng thực
hiện phương pháp rút trích đặc trưng với 3 mơ hình mạng: Resnet, Inception Resnet và MobileNet v2.
c)

Nhận dạng đối tượng: Từ bước 1 và bước 2, dựa vào các thuật tốn phân loại như đã trình bày ở Phần II và
CSDL huấn luyện, ta tiến hành đưa ảnh đầu vào để xác nhận đối tượng và đưa ra kết quả. Đặt một ngưỡng 0.5
để quy định độ chính xác khi nhận dạng, nếu lớn hơn ngưỡng này tức là đối tượng này tồn tại trong CSDL
huấn luyện kết quả trả về sẽ là một id của đối tượng đó.
IV. KẾT QUẢ THỰC NGHIỆM

A. Mơi trường cài đặt và tập dữ liệu
Để đánh giá phương pháp đề xuất chúng tơi sử dụng dữ liệu là tập hình ảnh được trích xuất từ các video được
phát sóng của Đài Phát thanh và Truyền hình Vĩnh Long bao gồm thời sự, chuyên mục, giải trí. Để so sánh và đánh giá
các mơ hình, chúng tơi thực hiện phương pháp đề xuất trên ba mơ hình SSD Mobilenet v2, Faster R-CNN Inception
ResNet v2 và Faster R-CNN Resnet trong cùng một mơi trường Google Colab với Ubuntu 18.04, cấu hình RAM 12GB
và dùng GPU Nvidia Tesla P100. Thư viện hỗ trợ huấn luyện mơ hình mạng sử dụng là Tensorflow GPU phiên bản
2.3.0. Tập dữ liệu gồm 1,539 ảnh với 38 bộ phân lớp được chia theo tỉ lệ 80 % (1231 ảnh) cho tập Training và 20 %
(308 ảnh) cho tập Test. Chất lượng tập dữ liệu ảnh hưởng trực tiếp đến kết quả về độ chính xác khi huấn luyện mơ hình
mạng. Trong nghiên cứu này, chúng tơi gán 38 nhãn bằng công cụ gán nhãn dữ liệu LabelImg. Tập dữ liệu huấn luyện
được sử dụng trong giai đoạn huấn luyện và tập dữ liệu kiểm thử được sử dụng cho kiểm thử độ chính xác.

Bảng 2. Mơ tả chi tiết tập dữ liệu huấn luyện

STT Video
1
Tin1
2
Tin2
3
Tin3
4
Tin4
5
Tin5
6
Tin6
7
Tin7
8
Tin8
9
Tin9
Tổng cộng

Độ dài (phút)
2:29
2:13
2:36
2:29
2:11
4:47

2:31
3:27
2:39
25:22

Dung lượng (MB)
475
424
599
478
419
916
482
792
508
5,093

Số ảnh trích xuất
150
135
158
151
133
289
153
209
161
1,539

Dung lượng ảnh trích xuất (MB)

11.2
9.89
10.6
12.2
9.95
25.5
16.3
14.5
10.9
121.04

B. Kết quả thực nghiệm
Đối với mơ hình mạng nơron trong q trình huấn luyện đều có các tham số riêng và rất đặc trưng trong mơ
hình như tốc độ học (Learning rate), số lần lặp (Iteration), kích thước ảnh đầu vào (Image size). Bên cạnh đó việc lựa
chọn mơ hình cho q trình trích xuất đặc trưng (backbone) cũng đóng vai trị quan trọng trong q trình huấn luyện.
Tất cả các những thiết đặt này đều ảnh hưởng tới các yếu tố như độ chính xác, tốc độ, thời gian xử lý và tài nguyên của
hệ thống. Chúng tôi tiến hành thực nghiệm theo 2 kịch bản.

TRUY VẤN VIDEO DỰA VÀO NỘI DUNG BẰNG PHƯƠNG PHÁP DEEP NEURAL NETWORKS

38

•

Kịch bản 1: Chúng tơi huấn luyện ba mơ hình mạng nơron này bằng phương pháp transfer learning tức là sử
dụng bộ trọng số đã được huấn luyện trước đó trên các tập dữ liệu lớn như ImageNet, COCO,… Sau đó bằng
cách sử dụng trọng số đã được học và tiếp tục huấn luyện trên tập dữ liệu thực của bài toán. Việc huấn luyện
theo phương pháp này giúp chúng tôi giải quyết được vấn đề thiếu dữ liệu trong việc huấn luyện các mạng
nơron. Bảng 2 và bảng 3 dưới đây thể hiện những tham số huấn luyện mà chúng tơi sử dụng cho ba mơ hình

Faster R-CNN Resnet, Faster R-CNN Inception Resnet v2 và SSD MobileNet v2.
Mơ hình mạng

Bảng 3. Các tham số huấn luyện của các mơ hình mạng nơron
Learning Batch
Num
Score
Num
Scales
rate
size
classes
converter
step

IoU

Image size

SSD MobileNet v2

0.0003

24

38

[0.3, 0.95]

Sigmoid

50.000

0.5

512 x 512

Faster R-CNN Inception Reset

0.0003

1

38

[0.25, 0.5,
1.0, 2.0]

Softmax

50.000

0.5

512 x 512

Faster R-CNN Reset

0.0003

1

38

[0.25, 0.5,
1.0, 2.0]

Softmax

50.000

0.5

512 x 512

•

Kịch bản 2: Chúng tơi sử dụng cho ba mơ hình Faster R-CNN Resnet, Faster R-CNN Inception Resnet v2 và
SSD MobileNet v2 nhưng thay đổi max pooling từ kích thước mặc định 3×3 sang kích thước 2×2 với số bước
học là 100.000 bước.

1. Kết quả kịch bản 1
a) Classification Loss Faster R-CNN Resnet

b) Localization Loss Faster R-CNN Resnet

d) Classification Loss Faster R-CNN Inception
Resnet v2

e) Localization Loss Faster R-CNN Inception

Resnet v2

g) Classification Loss SSD MobileNet v2

h) Localization Loss SSD MobileNet v2

c) Total Loss Faster R-CNN Resnet

f)

Total Loss Faster R-CNN Inception
Resnet v2

i) Total Loss SSD MobileNet v2

Hình 4. Biểu đồ so sánh chỉ số Loss của 3 mô hình trong kịch bản 1

Từ hình 4c cho thấy, giá trị Loss_value của mơ hình Faster R-CNN Resnet là rất thấp dưới 10 % (Loss_value <
0.01) so với các mô hình cịn lại (Hình 4a đến hình 4i) sau khi trải qua khoảng 50.000 lần huấn luyện. Cụ thể mô hình
SSD Mobilenet v2 có Classification Loss là 0.8, localization Loss là 0.1; mơ hình Faster R-CNN Inception Resnet v2
có Classification Loss là 0.09 và localization Loss là 0.07; mơ hình Faster R-CNN Resnet có Classification Loss là
0.01 và localization Loss là 0.05. Điều này có nghĩa là mức độ sai sót khi dự đốn phân loại đối tượng và số lần huấn
luyện của mơ hình Faster R-CNN Resnet là thấp nhất so với các mơ hình cịn lại.
Với bài tốn phân lớp, các mơ hình cần được đánh giá về độ chính xác phân lớp đối tượng. Hình 5 và bảng 4 mơ
tả độ chính xác phân lớp của ba mơ hình qua hai độ đo AP và mAP.

Phan Anh Cang, Lê Phương Thảo, Phan Thượng Cang

39

Hình 5. Biểu đồ biểu diễn độ chính xác từng lớp

Kết quả thực nghiệm khi huấn luyện trên 3 mơ hình lần lượt như sau:
Bảng 4. Mô tả chi tiết kết quả thực nghiệm

Mơ hình
Faster R-CNN Resnet
Faster R-CNN Inceptiopn Resnet
SSD Mobilenet v2

Thời gian huấn luyện
7h12p
6h41p
5h27p

mAP
0.95
0.93
0.86

Dựa vào kết quả thực nghiệm ở bảng 4, khi đánh giá các mơ hình với độ đo mAP, phương pháp Faster R-CNN
Resnet cho kết quả đạt cao nhất với mAP = 0,95 cho cả 38 đối tượng (hình 6). Hai mơ hình SSD Mobilenet v2 và
Faster-R-CNN Inception Resnet v2 cho thấy kết quả mAP thấp hơn lần lượt là 0.93 và 0.86. Cả ba mơ hình chúng tơi
huấn luyện trên cùng một mơi trường, trong đó thời gian huấn luyện không bằng nhau: 7 giờ 12 phút cho mơ hình
mạng Faster R-CNN Resnet; 6 giờ 41 phút cho mơ hình mạng Faster R-CNN Inception Resnet v2; 5 giờ 27 phút với
mơ hình SSD MobileNet v2.

Hình 6. Biểu đồ so sánh độ chính xác

Hình 7. Biểu đồ so sánh thời gian huấn luyện

Tương tự, Chúng ta có thể thấy rằng mơ hình mạng Faster R-CNN Resnet có thời gian huấn luyện và nhận dạng
lâu nhất so với các mơ hình khác nhưng độ đo mAP là cao nhất (hình 6 và hình 7). Mơ hình SSD Mobilenet có thời
gian huấn luyện nhanh, đạt tốc độ nhanh đáng kể so với thời gian huấn luyện của mơ hình Faster R-CNN Resnet và
Faster R-CNN Inception-Resnet v2 nhưng độ đo mAP là thấp nhất. Điều này phù hợp với mục đích xây dựng mạng
SSD Mobilenet có kiến trúc đơn giản, phù hợp cho mơ hình xử lý thời gian thực với độ chính xác chấp nhận được.
2. Kết quả kịch bản 2
Để đánh giá chỉ số Loss của ba mơ hình, chúng tôi dựa vào Classification Loss, Localization Loss và Total Loss
của mỗi mơ hình. Kết quả được trình bày trong hình 8.
a) Classification Loss Faster R-CNN Resnet

b) Localization Loss Faster R-CNN Resnet

c) Total Loss Faster R-CNN Resnet

40

TRUY VẤN VIDEO DỰA VÀO NỘI DUNG BẰNG PHƯƠNG PHÁP DEEP NEURAL NETWORKS
d) Classification Loss Faster R-CNN
Inception Resnet v2

e) Localization Loss Faster R-CNN Inception
Resnet v2

f)

Total Loss Faster R-CNN Inception Resnet

v2
g) Classification Loss SSD MobileNet v2

h) Localization Loss SSD MobileNet v2

i) Total Loss SSD MobileNet v2

Hình 8. Biểu đồ so sánh chỉ số Loss của 3 mơ hình trong kịch bản 2

Dựa vào hình 8c, 8f và 8i ta có thể thấy total loss là tối thiểu khi số bước tăng đến 100.000 bước. Từ Hình 8d
cho thấy, giá trị Loss_value của mơ hình Faster R-CNN Inception Resnet v2 là rất thấp dưới 10 % (Loss_value < 0.01)
so với các mô hình cịn lại (hình 8a đến hình 8i) sau khi trải qua khoảng 100.000 lần huấn luyện. Cụ thể mô hình Faster
R-CNN Resnet có Classification Loss là 0.03, localization Loss là 0.02; mơ hình Faster R-CNN InceptionResnet v2 có
Classification Loss là 0.01 và localization Loss là 0.02; mơ hình SSD MobileNet v2 có Classification Loss là 0.8 và
localization Loss là 0.07. Điều này có nghĩa là mức độ sai sót khi dự đoán phân loại đối tượng và số lần huấn luyện của
mơ hình Faster R-CNN Inception Resnet v2 là thấp nhất so với các mơ hình cịn lại trong kịch bản này. Hình 9 và bảng
5 mơ tả độ chính xác phân lớp của ba mơ hình qua hai độ đo AP và mAP. Về độ chính xác trung bình (AP), mơ hình
Faster R-CNN Inception Resnet v2 có kết quả phân lớp ổn định nhất so với hai mô hình cịn lại.

Hình 9. Biểu đồ biểu diễn độ chính xác từng lớp trong kịch bản 2

Kết quả thực nghiệm khi huấn luyện trên 3 mơ hình trong kịch bản 2 lần lượt như sau:
Bảng 5. Mô tả chi tiết kết quả thực nghiệm trong kịch bản 2

Mơ hình
Faster R-CNN Resnet
Faster R-CNN Inception Resnet
SSD Mobilenet v2

Thời gian huấn luyện

16h10p
15h41p
8h38p

mAP
0.94
0.95
0.88

Dựa vào kết quả thực nghiệm ở bảng 7, khi đánh giá các mơ hình với độ đo mAP, phương pháp Faster R-CNN
Inception Resnet cho kết quả đạt cao nhất với mAP = 0.95 cho cả 38 đối tượng (hình 10). Hai mơ hình Faster R-CNN
Resnet và SSD Mobilenet v2 cho thấy kết quả mAP thấp hơn lần lượt là 0.94 và 0.88. Cả ba mơ hình chúng tơi huấn
luyện trên cùng một mơi trường, trong đó thời gian huấn luyện cho từng mơ hình như sau: 16 giờ 10 phút cho mơ hình
mạng Faster R-CNN Resnet; 15 giờ 41 phút cho mơ hình mạng Faster R-CNN Inception Resnet v2; 8 giờ 38 phút với
mơ hình SSD MobileNet v2.
Tương tự, chúng ta có thể thấy rằng mơ hình mạng SSDMobileNet v2 có thời gian huấn luyện và nhận dạng
nhanh hơn mơ hình Faster R-CNN Inception Resnet v2 và chậm hơn mơ hình Faster R-CNN Resnet nhưng độ đo mAP
là thấp nhất (hình 10 và hình 11). Điều này phù hợp với mục đích xây dựng mạng SSD Mobilenet có kiến trúc đơn giản

Phan Anh Cang, Lê Phương Thảo, Phan Thượng Cang

41

nhưng có độ chính xác chấp nhận được. Sau khi tăng số bước học thì độ đo mAP của mơ hình Faster R-CNN Inception
Resnet v2 cũng đã tăng lên và đạt cao nhất trong 3 mơ hình. Nhóm thuật tốn ResNet và Inception đi theo tiêu chí là độ
chính xác quan trọng hơn tốc độ (và quả thật nhóm thuật tốn thuộc họ này có độ chính xác khá cao). MobileNet cung
cấp cho chúng ta một mơ hình khá nhỏ gọn, sử dụng SSD, mục tiêu của nhóm này là có thể xử lý được trên các thiết bị
di động và thời gian xử lý là thời gian thực.

Hình 10. Biểu đồ so sánh độ chính xác

Hình 11. Biểu đồ so sánh thời gian huấn luyện

Dựa vào kết quả thực nghiệm này, chúng ta có thể kết luận mơ hình cải tiến từ mơ hình Faster R-CNN Inception
Resnet v2 là mơ hình phù hợp nhất để rút trích nội dung video trong bài toán này. Đồng thời, khi so sánh với các
nghiên cứu trước đây được trình bày trong Phần I - Giới thiệu thì phương pháp đề xuất trong bài báo đã đạt độ chính
xác 96 %, cao hơn 47.88 % so với độ chính xác của nghiên cứu [1], cao hơn so với độ chính xác của nghiên cứu [2]
27 %, cao hơn độ chính xác của nghiên cứu [3] 59 %. Điều này khẳng định rằng sử dụng Deep Neural Networks để
biểu diễn các thuộc tính nội dung có trong video nhằm phục vụ cho việc lập chỉ mục tìm kiếm thật sự là một hướng
nghiên cứu có hiệu quả cao, khả quan cho các hệ thống truy vấn video có dữ liệu lớn.
V. KẾT LUẬN
Trong nghiên cứu này, chúng tơi đã trình bày phương pháp sử dụng Deep Neural Networks để biểu diễn các
thuộc tính nội dung có trong video trên tập các ảnh gồm 38 nhãn. Khi thực hiện và huấn luyện bằng Deep Neural
Network cụ thể là kiến trúc mạng Faster R-CNN Resnet, Faster R-CNN Inception Resnet v2, Single Shot Detector
Mobilenet v2, ta thấy được là phương pháp này đều đạt độ chính xác cao từ 86 % đến 95 % cho các mơ hình kiến trúc.
Đồng thời phương pháp này cũng chứng minh được sự thay đổi của độ chính xác tùy theo bộ tham số sử dụng. Các kết
quả thực nghiệm cũng thể hiện tính khả thi của phương pháp khi áp dụng trên các cơng cụ tìm kiếm, cả về độ chính xác
và thời gian thực hiện. Phương pháp có ưu điểm là tận dụng được khả năng xử lý của mạng nơron sâu cho cả thao tác
trích xuất đặc trưng và phân loại đối tượng. Tuy nhiên, nhược điểm của phương pháp là cần được thực hiện tối ưu
nhằm tìm ra bộ tham số tốt nhất do việc huấn luyện trên mạng nơron sâu là một hoạt động tiêu tốn tài nguyên và thời
gian, nghiên cứu này chưa thực hiện tối ưu một cách triệt để các tham số của thuật toán.
TÀI LIỆU THAM KHẢO
[1] L. Q. V. P. L. S. N. Đ. T. L. Đ. D. D. A. Đ. Đỗ Văn Tiến, "Sử dụng Deep Neural Networks biểu diễn các thuộc tính cho bài tốn
phát hiện cảnh bạo lực trong video," Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu cơ bản và ứng dụng Công
nghệ thông tin (FAIR'9), 2016.
[2] B. M, "Content based video retrieval with orthogonal polynomials," Anna University, 2018.
[3] S. Renukadevi, "Spectral cluster based temporal feature extraction and b tree indexing for video retrieval," Periyar University,
2018.
[4] P. B. F. C. F. D. F. F. C. G. Giuseppe Amato, "The VISIONE video search system: exploiting off-the-shelf text search engines

for large-scale video retrieval," International Conference on Multimedia Modeling, 2020.
[5] S. S. Pramila Shinde, "A Review of Machine Learning and Deep Learning Applications," ICCUBEA, 2018.
[6] K. H. R. G. J. S. Shaoqing Ren, "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,"
Advances in Neural Information Processing Systems 28, 2015.
[7] A. H. M. Z. A. Z. L.-C. C. Mark Sandler, "MobileNetV2: Inverted Residuals and Linear Bottlenecks," The IEEE Conference on
Computer Vision and Pattern Recognition (CVPR), 2018.
[8] P. T. C. L. P. T. Phan Anh Cang, "Hệ thống tìm kiếm video theo hướng tiếp cận xử lý dữ liệu lớn," Hội thảo quốc gia lần thứ
XXIII: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, 2020.

42

TRUY VẤN VIDEO DỰA VÀO NỘI DUNG BẰNG PHƯƠNG PHÁP DEEP NEURAL NETWORKS

CONTENT-BASED VIDEO RETRIEVAL WITH DEEP NEURAL NETWORKS
Phan Anh Cang, Le Phuong Thao, Phan Thuong Cang
ABSTRACT: Deep Neural Networks (DNN) - A machine learning algorithm that uses multi-layer artificial neural networks
in the fields of image processing, audio processing, natural language processing, etc., is receiving the attention of scientists. study
in the world. In this paper, we propose to use DNN to represent content attributes for images in video. The extracted attributes will
serve as the basis for indexing and searching for video query systems. To do this work, we build some popular DNN models today
such as Faster R-CNN Inception Resnet v2, SSD Mobile v2, Faster R-CNN Resnet to evaluate the accuracy on the collected data set.
from the content repository of Vinh Long Radio and Television Station. Experimental results show that the method using DNN
achieves high accuracy from 86% to 95%. This is also the basis for related studies in choosing the right model for extracting
content from video to serve the big data-oriented content-based video query.

Truy vấn video dựa vào nội dung bằng phương pháp Deep Neural Networks

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về