Tải bản đầy đủ (.pdf) (136 trang)

Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.32 MB, 136 trang )

i
LỜI CAM ĐOAN
Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả.
Các kết quả nghiên cứu và các kết luận trong luận án này là trung thực, không
sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo
các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo
đúng quy định.
Thái Nguyên, ngày

tháng 08 năm 2020

Tác giả luận án


ii
LỜI CẢM ƠN
Luận án được hoàn thành dưới sự hướng dẫn tận tình của PGS. TS. Phạm
Việt Bình và PGS.TS. Đỗ Năng Toàn. Lời đầu tiên, tôi xin bày tỏ lòng kính
trọng và biết ơn sâu sắc tới hai Thầy.
Tôi xin chân thành cảm ơn TS. Phạm Thế Anh đã đóng góp những ý kiến
quý báu cả về học thuật và kinh nghiệm nghiên cứu giúp đỡ tôi trong suốt quá
trình thực hiện luận án.
Tôi xin chân thành cảm ơn Ban lãnh đạo trường Đại học Công nghệ
thông tin và Truyền thông, Khoa Công nghệ thông tin, Bộ môn Khoa học máy
tính, Bộ phận quản lý nghiên cứu sinh – trường Đại học Công nghệ thông tin
và Truyền thông – Đại học Thái Nguyên đã tạo mọi điều kiện thuận lợi trong
quá trình hoàn thành và bảo vệ luận án.
Xin cảm ơn Ban Giám hiệu Trường Đại học Hồng Đức, các đồng nghiệp
tại Phòng Đảm bảo chất lượng và Khảo thí, giảng viên khoa Công nghệ thông
tin và Truyền thông – Trường Đại học Hồng Đức, cán bộ Viện Công nghệ thông
tin – Đại học Quốc gia Hà Nội đã luôn động viên giúp đỡ tôi trong công tác để


tôi có thời gian tập trung nghiên cứu, thực hiện luận án.
Đặc biệt tôi xin bày tỏ lòng biết ơn sâu sắc tới Cha, Mẹ, Vợ, Con và các
anh, chị em trong gia đình, những người luôn dành cho tôi những tình cảm nồng
ấm và sẻ chia những lúc khó khăn trong cuộc sống, luôn động viên giúp đỡ tôi
trong quá trình nghiên cứu. Luận án cũng là món quà tinh thần mà tôi trân trọng
gửi tặng đến các thành viên trong Gia đình.
Tôi xin trân trọng cảm ơn!


iii
MỤC LỤC
LỜI CAM ĐOAN ........................................................................................... i
LỜI CẢM ƠN ................................................................................................ ii
DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU ........................................ vi
DANH MỤC CÁC BẢNG .......................................................................... viii
DANH MỤC HÌNH VẼ ................................................................................ ix
PHẦN MỞ ĐẦU ............................................................................................ 1
1. Tính cấp thiết .......................................................................................... 1
2. Mục tiêu nghiên cứu của luận án ............................................................. 2
3. Đối tượng, phạm vi nghiên cứu của luận án ............................................ 3
4. Đóng góp chính của luận án .................................................................... 4
5. Phương pháp và nội dung nghiên cứu ..................................................... 5
6. Cấu trúc luận án ...................................................................................... 5
CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ THAY THẾ
ĐỐI TƯỢNG TRONG VIDEO ...................................................................... 7
1.1. Tổng quan về video và bài toán phát hiện và thay thế đối tượng trong
video .............................................................................................................. 7
1.1.1. Khái quát về video ...................................................................... 7
1.1.2. Bài toán thay thế đối tượng trong video .................................... 12
1.1.3. Một số khái niệm ...................................................................... 16

1.1.3.1. Dò tìm đối tượng trong video ........................................... 16
1.1.3.2. Nhận dạng hình dạng đối tượng trong video .................... 16
1.1.3.3. Phát hiện đối tượng trong video ....................................... 16
1.1.3.4. Phân vùng đối tượng ........................................................ 17
1.1.3.5. Video inpainting .............................................................. 18
1.1.3.6. Thay thế đối tượng trong video ........................................ 19
1.1.4. Các thách thức cho bài toán thay thế đối tượng......................... 19
1.2. Tổng quan về các kỹ thuật áp dụng trong hệ thống thay thế đối tượng
trong video ................................................................................................... 22


iv
1.2.1. Dò tìm đối tượng ...................................................................... 22
1.2.1.1. Dựa trên điểm đặc trưng .................................................. 22
1.2.1.2. Dựa trên các mô hình từng phần của đối tượng ................ 23
1.2.1.3. Dựa trên mạng nơron nhân chập ...................................... 24
1.2.1.4. Phát hiện đối tượng quảng cáo ......................................... 25
1.2.2. Nhận dạng hình dạng đối tượng ................................................ 26
1.2.2.1. Lượng tử hóa vector ......................................................... 26
1.2.2.2. Lượng tử hóa tích đề các .................................................. 29
1.2.2.3. Độ đo khoảng cách .......................................................... 30
1.2.2.4. Nhận dạng hình dạng dựa trên tìm kiếm ANN ................. 32
1.2.3. Các kỹ thuật hoàn thiện video................................................... 34
1.2.3.1. Video inpainting dựa trên lấy mẫu ................................... 35
1.2.3.2. Inpainting ảnh sử dụng DCNN cho không gian 2D ......... 36
1.2.3.3. Video inpainting sử dụng DCNN cho không gian 3D ...... 37
Kết luận chương 1 ..................................................................................... 38
CHƯƠNG 2. PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO ......................... 39
2.1. Dò tìm đối tượng trong video ............................................................. 39
2.1.1. Khái quát về mô hình dò tìm đối tượng YOLO ......................... 40

2.1.2. Mô hình dò tìm đối tượng cải tiến YOLO-Adv ......................... 42
2.1.2.1. Cải tiến trong hàm loss .................................................... 42
2.1.2.2. Cải tiến trong kiến trúc mạng ........................................... 46
2.1.2.3. Trích chọn đặc trưng ........................................................ 49
2.1.3. Ước lượng, đánh giá mô hình cải tiến ....................................... 49
2.1.3.1. Dữ liệu kiểm thử .............................................................. 49
2.1.3.2. Độ đo ước lượng .............................................................. 50
2.1.3.3. Môi trường cài đặt ........................................................... 52
2.1.3.4. Ước lượng, đánh giá ........................................................ 52
2.2. Nhận dạng hình dạng đối tượng ......................................................... 59
2.2.1. Mô hình lập chỉ mục PSVQ ...................................................... 60


v
2.2.2. Tìm kiếm ANN dựa trên cây phân cụm thứ bậc ........................ 64
2.2.3. Ước lượng, đánh giá ................................................................. 68
2.2.3.1. Dữ liệu và cấu hình hệ thống kiểm thử............................. 69
2.2.3.2. Ước lượng, đánh giá chất lượng mã hóa của PSVQ ......... 71
2.2.3.3. Ước lượng, đánh giá tốc độ tìm kiếm với PSVQ .............. 73
2.2.3.4. Ước lượng, đánh giá giải thuật tìm kiếm cây phân cụm thứ
bậc kết hợp PSVQ ........................................................................ 75
Kết luận chương 2 ..................................................................................... 80
CHƯƠNG 3. THAY THẾ ĐỐI TƯỢNG VÀ HOÀN THIỆN VIDEO ......... 81
3.1. Phân vùng đối tượng .......................................................................... 81
3.1.1. Các kỹ thuật phân vùng thực thể ............................................... 82
3.1.2. Mô hình phân vùng thực thể ..................................................... 84
3.1.2.1. Phát sinh mặt nạ vùng ...................................................... 85
3.1.2.1. Phân vùng thực thể bằng Mask R-CNN ........................... 87
3.1.3. Kết quả thực nghiệm mô hình phân vùng ................................. 90
3.2. Mô hình hoàn thiện video................................................................... 92

3.2.1. Kiến trúc mô hình V-RBPconv ................................................. 94
3.2.2. Mô hình kiến trúc mạng RBPconv ............................................ 95
3.2.3. Hàm loss ................................................................................... 99
3.2.4. Ước lượng, đánh giá mô hình hoàn thiện video ...................... 100
3.2.4.1. Môi trường thực nghiệm ................................................ 101
3.2.4.2. Kết quả so sánh định tính .............................................. 103
3.2.4.3. Kết quả so sánh định lượng ............................................ 104
Kết luận chương 3 ................................................................................... 109
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................. 110
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CÓ LIÊN QUAN ĐẾN
LUẬN ÁN.................................................................................................. 112
TÀI LIỆU THAM KHẢO .......................................................................... 113
PHỤ LỤC .................................................................................................. 122


vi

DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU
Từ viết

Tên đầy đủ (và tạm dịch)

tắt
ANN

Approximate Nearest Neighbor (Lân cận xấp xỉ gần nhất)

ADC

Asymmetric distance computation (Tính khoảng cách bất đối xứng)


AVI

Audio Video Interleave (tệp tin đa phương tiện chứa cả âm thanh và
hình ảnh bên trong)

CAM

Class Activation Map (Bản đồ kích hoạt lớp)

CPU

Central processing unit (Bộ vi xử lý trung tâm)

CNN

Convolution Neural Network (Mạng nơron tích chập)

DCNN

Deep Convolution Neural Network (Mạng nơron tích chập sâu)

FID

Frechet Inception Distance (khoảng cách Frechet)

FVI

Free-form video inpainting (hoàn thiện/tái tạo video với mặt nạ bất
kỳ)


FCN

Fully Convolutional Network (Mạng tích chập đầy đủ)

GAN

Generative Adversarial Networks (Mạng sinh đối kháng)

GPU

Graphics processing unit (Bộ xử lý đồ họa)

HD

High Definition (chuẩn độ nét cao)

HOG

Histogram of oriented gradients (Biểu đồ hướng gradient)

IoU

Intersection over Union (Tỷ lệ trùng khớp giữa hai hộp bao)

IVFADC
LPIPS

Inverted file index Asymmetric distance computation (Chỉ mục
danh sách ngược của ADC)


Learned Perceptual Image Patch Similarity (Chỉ số đo sự tượng
đồng các mẫu ảnh)

MSE

Mean square error (Lỗi bình phương trung bình)

MPEG

Moving Picture Experts Group (Nhóm chuyên gia hình ảnh động)

NMS

Non-Maxima Suppression (Loại bỏ các điểm không cực trị)


vii
Từ viết

Tên đầy đủ (và tạm dịch)

tắt
NTSC

National Television System Committee (Ủy ban quốc gia về các hệ
thống truyền hình)

PRM


Peak Response Mapping (Ánh xạ độ nhạy tối đa)

PSNR

Peak signal-to-noise ratio (Tỉ số tín hiệu cực đại trên nhiễu)

PAL

Phase Alternation Line (Hệ truyền hình màu xoay pha)

PQ

Product quantization (Lượng tử hóa tích đề các)

PSL

Peak Simulation Layer (Tầng kích hoạt cực đại)

PSVQ

Product sub-vector quantization (Lượng tử hóa tích đề các cụm
vector)

RGB

Red, Green, Blue (Hệ màu RGB)

RoI

Region of Interest (Vùng chứa đối tượng)


R-CNN

Region-based Convolutional Neural Networks (Mạng nơron tích
chập dựa trên đề xuất vùng)

SIFT

Scale-Invariant Feature Transform (Biến đổi đặc trưng bất biến tỷ lệ)

SSD

Single Shot Detector (Bộ dò điểm đặc trưng SSD)

SURF

Speeded up robust features (Đặc trưng SURF)

SD

Standard Denfinition (Độ nét tiêu chuẩn)

SSIM

Structural Similarity Index (Chỉ số đồng nhất có cấu trúc)

VGG

Visual Geometry Group (Nhóm hình học trực quan)


YOLO

You only look once (Mạng nhìn đối tượng chỉ một lần)


viii
DANH MỤC CÁC BẢNG
Số hiệu

Tên bảng

bảng

Trang

2.1

Thông số phần cứng thực nghiệm mô hình YOLO-Adv

52

2.2

Hiệu năng thực thi trên tập dữ liệu Flickrlogos-47

55

2.3

So sánh mAP của mô hình dò tìm đối tượng trên tập dữ liệu

Flickrlogos-32

58

2.4

Các tập dữ liệu đặc trưng

69

2.5

Các tham số dùng để xây dựng các bộ lượng tử

75

So sánh kết quả của mô hình sử dụng với các phương pháp
3.1

khác sử dụng nhiều phương pháp tạo mặt nạ huấn luyện

90

khác nhau.
3.2

3.3

A.1


Kết quả định lượng trên tập dữ liệu Places2 của các mô
hình: CA, Pconv, EC và RBPConv.
Kết quả định lượng trên tập dữ liệu FVI với các mô hình:
EC, CombCN, 3Dgated và V- RBPConv
Số lượng đối tượng cho các tập huấn luyện và kiểm thử của
tập dữ liệu FlickrLogo-47.

106

107

124


ix
DANH MỤC HÌNH VẼ
Số hiệu

Tên hình vẽ

hình vẽ

Trang

1.1

Cấu trúc phân cấp của video

7


1.2

Sơ đồ chuyển đổi dữ liệu video

11

1.3

Một số ứng dụng chèn/thay thế logo trong video

12

1.4

Mô hình phát hiện và thay thế đối tượng trong video

13

1.5

Các kiểu phân vùng ảnh

17

1.6

Các ví dụ về hoàn thiện, tái tạo ảnh/video

18


1.7

Một số trở ngại trong phát hiện đối tượng quảng cáo

19

1.8

Mô hình lượng tử hóa tích đề các

28

1.9

Mô hình nhận dạng hình dạng đối tượng

32

1.10

Ví dụ hoàn thiện ảnh với kỹ thuật video inpainting

34

2.1

Ý tưởng chính của mô hình YOLO

40


2.2

Cách tính IoU

41

2.3

Kiến trúc chi tiết mạng YOLO-Adv

47

2.4

Mô hình trích chọn đặc trưng

48

2.5

Giá trị hàm loss trung bình huấn luyện trên tập Flicrklogos-47

53

2.6

Biểu đồ giá trị IoU huấn luyện trên tập FlicrkLogos-47

54


2.7

Một số hình ảnh phát hiện Logo

57

2.8

Chất lượng mã hóa PSVQ

70

2.9

Tốc độ tìm kiếm ANN trên các tập đặc trưng

72

2.10

Ảnh hưởng của tham số (d,k) trên các tập dữ liệu

74


x

Số hiệu

Tên hình vẽ


hình vẽ
2.11
2.12

Hiệu năng thực thi trên các tập đặc trưng
Một số kết quả trực quan nhận dạng hình dạng đối tượng
quảng cáo

Trang
77
78

3.1

Mô hình huấn luyện mạng phân vùng ảnh

83

3.2

Ví dụ về làm tinh mặt nạ

85

3.3

Mô hình phân vùng thực thể Mask R-CNN

87


3.4

Một số kết quả phân vùng thực thể trực quan trên tập dữ liệu
PASCAL VOC 2012

89

3.5

Hiệu năng phân lớp trên dữ liệu PASCAL VOC2012

91

3.6

Kiến trúc mô hình video inpainting 3DGated

92

3.7

Kiến trúc mô hình video inpainting V-RBPconv

93

3.8

Kiến trúc mô hình RBPconv


95

3.9

Kiến trúc khối residual cải tiến

96

3.10

Một số mặt nạ minh họa

101

3.11

So sánh trực quan tái tạo, hoàn thiện ảnh của các mô hình

102

3.12

So sánh trực quan của các mô hình video inpainting

103

A.1
A.2

Chú giải của FlickrLogos-32 (bên trên) và FlickrLogos-47

(bên dưới) được thể hiện trong các bounding box
Một số ảnh ví dụ trong tập dữ liệu Flickrlogos-47

122
123


1
PHẦN MỞ ĐẦU
1. Tính cấp thiết
Với sự phát triển nhanh chóng của các thiết bị có khả năng thu nhận hình
ảnh kỹ thuật số, dữ liệu đa phương tiện đã trở nên phổ biến, có mặt ở mọi nơi
và ảnh hưởng tới nhiều mặt của cuộc sống. Những dữ liệu này ngày càng được
các nhà sản xuất hàng hóa, nhà quảng cáo, nhà tiếp thị sử dụng như một phương
tiện truyền thông hiệu quả để quảng bá về sản phẩm, nhãn hiệu, thương hiệu,
... (gọi tắt là đối tượng quảng cáo trong luận án này) đến đông đảo khách hàng,
người tiêu dùng. Bên cạnh đó các nhà nghiên cứu thị trường cũng đã sử dụng
nguồn tài nguyên video phong phú để nghiên cứu, phân tích nội dung quảng
cáo bên trong nhằm tiếp cận thị trường, thu thập các thông tin hữu ích để nâng
cao tính cạnh tranh. Nhiều nghiên cứu đã cho thấy sự tăng trưởng mạnh mẽ
trong doanh thu được tạo ra từ quảng cáo trên các phương tiện truyền hình và
trên Internet thông qua các trang mạng, mạng xã hội trong thập kỷ vừa qua và
dự báo sẽ tiếp tục tăng mạnh trong những năm tới.
Tận dụng những video sẵn có với nội dung hấp dẫn thu hút được khối
lượng lớn người xem như phim ảnh, video thể thao, video về các sự kiện đặc
biệt, ... các đối tượng quảng cáo ngày nay được tích hợp trực tiếp trong nội
dung của các video này. Các ví dụ điển hình là chèn billboard, nhãn hiệu, ảnh
quảng cáo vào vị trí thích hợp quanh sân vận động trong video thể thao khi
không thể đặt trực tiếp tại sân; loại bỏ hoặc thay thế các trademark trong một
đoạn phim bằng một biểu tượng khác. Việc thay thế, chèn thêm này phần lớn

được hoàn thiện một cách thủ công thông qua các công nghệ hiệu chỉnh trong
quá trình hậu xử lý video. Quá trình thay thế thủ công thường được thực hiện
bằng cách duyệt qua tất cả các khung hình (frame) để nhận diện các frame tiềm
năng, thích hợp cho việc tích hợp hình ảnh quảng cáo. Sau đó dò tìm vùng thích
hợp trong các frame này để đặt hình ảnh quảng cáo hoặc tìm các hình ảnh quảng
cáo, đối tượng không phù hợp để thay thế bằng hình ảnh quảng cáo mới. Cuối


2
cùng là hoàn thiện, làm mượt, tạo tính chân thực cho video. Quá trình xử lý này
được xem là một tiến trình con trong bài toán hậu xử lý video đã và đang thu
hút được nhiều nghiên cứu trong cộng đồng thị giác máy tính với mục đích tạo
ra các công cụ xử lý tự động, giảm thiểu tối đa sự can thiệp của con người
nhưng vẫn thu được ảnh kết quả có độ chân thực cao hơn. Tuy nhiên, các hệ
thống công nghệ thị giác vẫn còn nhiều hạn chế và giới hạn khi xử lý video.
Phát hiện và thay thế đối tượng trong video nói chung và video có nội
dung tích hợp đối tượng quảng cáo nói riêng là một chuỗi các tiến trình cốt lõi
trong quá trình hậu xử lý video. Nó bao hàm các kỹ thuật phân tích, xử lý video
để dò tìm, nhận dạng các đối tượng cũng như tư thế, hình dạng của chúng trong
video từ đó có những tác động hợp lý vào đối tượng và hoàn thiện video sau
khi có những tác động này. Ngoài ra, từng tiến trình con trong quá trình hậu xử
lý video này còn có thể được ứng dụng rời rạc trong nhiều lĩnh vực khác như
nhận dạng hành động, phân tích video, tóm tắt video, giám sát trực quan, thống
kê đối tượng, xóa bỏ đối tượng khỏi video, hiệu chỉnh cảnh sau quay.
Với sự bùng nổ số lượng video có sẵn cả trực tuyến và ngoại tuyến như
đã minh họa bên trên làm cho việc phân tích, xử lý tất cả nội dung video theo
cách thủ công rất tốn kém và không khả thi. Điều này đã thúc đẩy luận án
nghiên cứu các kỹ thuật hỗ trợ quá trình hậu xử lý video tự động áp dụng trong
lĩnh vực thương mại như phân tích nội dung quảng cáo trong video hay tích
hợp, thay thế đối tượng quảng cáo vào video đã sẵn có nội dung.

2. Mục tiêu nghiên cứu của luận án
Mục tiêu cụ thể của luận án là tập trung nghiên cứu, cải tiến các kỹ thuật
xử lý các vấn đề quan trọng trong bài toán hậu xử lý, hiểu video ứng dụng cho
bài toán phát hiện và thay thế đối tượng trong video nhằm đạt được hiệu năng
cao trên hai phương diện tốc độ và độ chính xác. Cải tiến các mô hình dùng để
phát hiện đối tượng trong video gồm: dò tìm và nhận dạng hình dáng của đối
tượng. Nghiên cứu cải tiến các kỹ thuật liên quan đến bài toán thay thế đối


3
tượng gồm: phân vùng, trích chọn phần hiển thị của đối tượng trong các vùng
ảnh; hoàn thiện các vùng bị phá hủy do quá trình xử lý như loại bỏ hoặc thay
thế tạo ra.
Các cải tiến trên cũng có thể được mở rộng, ứng dụng vào để giải quyết
một số bài toán trong lĩnh vực thương mại như: tích hợp đối tượng quảng cáo
vào vị trí thích hợp trong video có sẵn nội dung; phân tích thị trường, nhận
dạng, thống kê sản phẩm trong các video quảng cáo; chèn đối tượng quảng cáo
vào vùng ảnh thích hợp, thay thế đối tượng quảng cáo trong các video thể thao;
hiệu chỉnh cảnh quay, xóa bỏ đối tượng không mong muốn xuất hiện trong các
cảnh quay của video phim ảnh, quảng cáo.
3. Đối tượng, phạm vi nghiên cứu của luận án
Do giới hạn về thời gian, luận án không tập trung nhiều vào nghiên cứu
cấu trúc, định dạng, sự cấu thành của video, phân đoạn cảnh quay, trích chọn
frame, đồng bộ phần hình ảnh và âm thanh. Luận án sử dụng dữ liệu đầu vào là
phần hình ảnh của đoạn video đã được ghi lại theo chuẩn MPEG-4 (Moving
Picture Experts Group) dùng cho truyền hình vô tuyến, mạng và Internet. Phần
hình ảnh video đầu vào được mã hóa kích thước 720p hoặc 480p với tỷ lệ khung
hình 16:9, tức là có độ phân giải 1280 x 720px hoặc 854 x 480px và giả thiết
đã được phân thành một chuỗi các frame liên tiếp nhau. Đối tượng được luận
án tập trung nghiên cứu là các kỹ thuật dò tìm, nhận dạng đối tượng tự động,

các kỹ thuật hoàn thiện video theo hướng tiếp cận đối tượng trên chuỗi frame
ảnh liên tục đã được trích chọn.
Hướng tới mục tiêu phát triển hệ thống thay thế đối tượng trong các video
thể thao, quảng cáo, phim ảnh phục vụ mục đích thương mại, phân tích thị
trường, phạm vi của đối tượng nhận dạng, thay thế được giới hạn là các hình
ảnh tĩnh, hai chiều của đối tượng quảng cáo. Đối tượng này thường được thể
hiện nổi bật trong video để thu hút người xem nên có tính phân biệt với các đối
tượng khác và với nền mà nó hiển thị. Bên cạnh đó kích thước của đối tượng


4
nghiên cứu trong video không quá nhỏ, giới hạn trong khoảng từ 20px đến
400px mỗi chiều vì nếu quá nhỏ thì sẽ không thu hút được người xem.
Vùng phá hủy sinh ra sau khi xóa bỏ hoặc thay thế đối tượng cần được
hoàn thiện trong quá trình hậu xử lý video được luận án tập trung nghiên cứu
sẽ có kích thước và hình dạng bất kỳ. Tuy nhiên khi thay thế hai đối tượng
thường có tính tương đồng cao về kích thước, vì vậy luận án tập trung nhiều
vào nghiên cứu các vùng trống có hình dạng chủ yếu dưới dạng đường cong,
đường kẻ, đường thẳng, hình điểm với độ dày không quá lớn.
4. Đóng góp chính của luận án
Xuất phát từ phạm vi nghiên cứu, các vấn đề luận án nghiên cứu gồm:
Vấn đề 1: Nghiên cứu, cải tiến mô hình dò tìm, định vị đối tượng trong
video theo thời gian thực.
Vấn đề 2: Nghiên cứu, cải tiến kỹ thuật đối sánh, tìm kiếm ứng dụng cho
bài toán nhận dạng hình dạng của đối tượng tìm thấy trong video.
Vấn đề 3: Nghiên cứu, áp dụng kỹ thuật phân vùng đối tượng dùng để
trích chọn vùng hiển thị của đối tượng.
Vấn đề 4: Nghiên cứu, cải tiến kỹ thuật tái tạo/hoàn thiện video sau hiệu
chỉnh video.
Trên cơ sở nghiên cứu các vấn đề nêu trên, luận án đã có ba đóng góp

chính là:
(i) Cải tiến hiệu năng thực thi mô hình dò tìm đối tượng trong video theo
hướng tiếp cận mạng tích chập học sâu (Deep Convolution Neural Network –
DCNN). Trong mô hình cải tiến tốc độ dò tìm đối tượng không những vẫn đạt
được theo thời gian thực mà độ chính xác cũng được gia tăng đáng kể, có tính
bền vững cao trong dò tìm lớp đối tượng phổ quát, ảnh đầu vào không cần qua
bước tiền xử lý. Kết quả đưa ra của mô hình bao gồm: tọa độ bao đóng hình


5
chữ nhật quanh các thể hiện của lớp đối tượng truy vấn trong ảnh và kèm theo
vector đặc trưng rất giàu thông tin của nó (CT1).
(ii) Cải tiến kỹ thuật nhận dạng hình dạng của đối tượng dựa trên phương
pháp lập chỉ mục vector đặc trưng. Tập dữ liệu về hình dạng của đối tượng sau
khi trích chọn đặc trưng được lập chỉ mục bằng kỹ thuật lượng tử hóa tích đề
các cụm vector (Product sub-vector quantization – PSVQ). Kỹ thuật này kết
hợp với cây phân cụm thứ bậc được sử dụng để tìm ra hình dạng tương đồng
nhất với đối tượng truy vấn (CT2, CT3, CT4 và CT6).
iii) Cải tiến mô hình hoàn thiện vùng bị phá hủy trong ảnh với hình dạng
và kích thước bất kỳ sinh, áp dụng trong video inpainting nhằm bảo toàn tính
kết cấu về không gian và thời gian trong tái tạo vùng bị phá hủy sinh ra trong
video sau hiệu chỉnh (CT5).
5. Phương pháp và nội dung nghiên cứu
Phương pháp luận trong nghiên cứu của luận án là kết hợp giữa nghiên
cứu lý thuyết và thực nghiệm.
Phương pháp lý thuyết: Tổng hợp một số công bố liên quan đến bài toán
dò tìm, nhận dạng đối tượng, hoàn thiện vùng bị phá hủy trong ảnh, video. Cụ
thể nghiên cứu các mạng tích chập học sâu ứng dụng trong dò tìm đối tượng,
hoàn thiện ảnh, video, các kỹ thuật lập chỉ mục trên tập dữ liệu lớn các vector
đặc trưng và các thuật toán tìm kiếm ảnh theo nội dung, một số thuật toán về

hoàn thiện các vùng mất mát thông tin trong video.
Phương pháp thực nghiệm: Thực hiện cài đặt các thuật toán của luận án,
chạy thử nghiệm trên các tập dữ liệu được sử dụng phổ biến trong cộng đồng
nghiên cứu.
6. Cấu trúc luận án
Cấu trúc luận án được tổ chức thành 3 chương như sau:


6
Chương 1: Tổng quan về bài toán phát hiện và thay thế đối tượng trong
video. Trình bày các nghiên cứu liên quan đến bài toán phát hiện đối tượng bao
gồm hai pha dò tìm và nhận dạng, bài toán thay thế đối tượng quảng cáo trong
các video thuộc lĩnh vực thương mại gồm các công đoạn phân vùng, thay thế
và hoàn thiện video. Bên cạnh đó, luận án đưa ra mô hình tổng quát cho hệ
thống thay thế đối tượng trong video cùng các khái niệm liên quan. Thông qua
đó xác định rõ vấn đề đặt ra cần nghiên cứu, vị trí nghiên cứu, xu hướng phát
triển để đưa ra các giải pháp giải quyết vấn đề đặt ra.
Chương 2: Phát hiện đối tượng trong video. Trình bày chi tiết mô hình
YOLO-Adv cải tiến, phát triển từ mô hình dò tìm đối tượng YOLO tương thích
với lớp bài toán dò tìm đối tượng quảng cáo trong video. Các kết quả thực
nghiệm trên tập dữ liệu flickrlogos-47 được phân tích, chứng minh độ chính
xác và tốc độ dò tìm đối tượng của mô hình cải tiến là nhanh hơn các phiên bản
của mô hình YOLO và các mô hình hiện tại khác. Tiếp theo, kỹ thuật lập chỉ
mục dữ liệu PSVQ (Product sub-vector quantization) cải tiến, phát triển từ
phương pháp lập chỉ mục lượng tử hóa tích đề các (product quantization-PQ)
trên tập dữ liệu vector đặc trưng có số chiều lớn ứng dụng cho bài toán nhận
dạng hình dạng của đối tượng được trình bày chi tiết. Các kết quả thực nghiệm
trên tập dữ liệu có số chiều lớn như ANN_GIST, VGG cũng được trình bày
ngay sau phần trình bày lý thuyết.
Chương 3: Thay thế đối tượng và hoàn thiện video. Trình bày kỹ thuật

phân vùng thực thể áp dụng để trích chọn vùng đối tượng xuất hiện trong ảnh.
Tiếp theo, kỹ thuật hoàn thiện, tái tạo video V-RBPconv dựa trên nền tảng của
mô hình RBPConv được sử dụng cho bài toán tái tạo các vùng bị phá hủy.
Những vùng này có sự đa dạng về hình dạng và kích thước sinh ra sau trong
quá trình hậu xử lý như loại bỏ, thay thế đối tượng không mong muốn khỏi
video. Cuối cùng, các kết quả thực nghiệm của mô hình trên các tập dữ liệu phổ
biến cũng được trình bày.


7
CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ THAY
THẾ ĐỐI TƯỢNG TRONG VIDEO
Trong chương tổng quan này luận án trình bày mô hình tổng quan cho
bài toán phát hiện và thay thế đối tượng trong video, mô tả chi tiết các thành
phần trong hệ thống cũng như đưa ra các khái niệm có liên quan. Bên cạnh đó
luận án hệ thống lại các nghiên cứu liên quan đến các mô hình, kỹ thuật áp dụng
trong hệ thống phát hiện và thay thế đối tượng, phân tích ưu, nhược điểm của
các kỹ thuật này làm tiền đề cho những nội dung nghiên cứu trong các chương
sau đó. Cụ thể, tổng quan về bài toán phát hiện và thay thế đối tượng trong
video được trình bày trong phần 1.1. Các nghiên cứu liên quan đến mô hình dò
tìm đối tượng trong video được phân tích trong phần 1.2. Tiếp theo, các kỹ
thuật nhận dạng đối tượng được trình bày trong phần 1.3. Cuối cùng các nghiên
cứu liên quan đến hoàn thiện vùng bị phá hủy trong video được trình bày trong
phần 1.4.

Hình 1.1. Cấu trúc phân cấp của video
1.1. Tổng quan về video và bài toán phát hiện và thay thế đối tượng trong
video
1.1.1. Khái quát về video
Video là sự phối hợp đồng bộ thu hoặc phát một chuỗi các hình ảnh và

âm thanh theo thời gian thực để thể hiện thế giới thực. Bản chất của video là


8
tập hợp các khung hình (frame), mỗi khung hình tương ứng là một ảnh tĩnh.
Tập hợp các chuỗi các khung hình liên tiếp, không thể chia nhỏ hơn, ứng với
một thao tác camera đơn tạo thành một lia (Shot). Tập các shot liên quan về
không gian và liền kề về thời gian, cùng mô tả một nội dung ngữ nghĩa hoặc
một tình tiết tạo thành một cảnh quay (Scene). Cấu trúc phân cấp của video
được thể hiện trong hình 1.1.
Video truyền thống các tín hiệu thu và phát dưới dạng tương tự. Tín hiệu
hình ảnh và tín hiệu âm thanh được phát đồng bộ nhau. Tuy nhiên, các thao tác
với video ở dạng tương tự như điều khiển, khử nhiễu, ... rất phức tạp. Vì vậy,
ngày nay các video tương tự ít được sử dụng mà thay bằng các video số. Với
video số các tín hiệu thu và phát chuỗi hình ảnh âm thanh được số hóa thành
dãy bít 0 và 1. Dữ liệu video được lưu trữ ở dạng bít 0 và 1 nên việc tác động
lên video đơn giản hơn nhiều so với video tương tự.
Dữ liệu video số là các đoạn phim đã được số hóa, ghi thành tệp trên đĩa
cứng, đĩa CD, đĩa DVD, hoặc các thiết bị lưu trữ khác mà máy tính có thể hiểu
được. Một tệp video thông thường có hai phần: dữ liệu hình ảnh và dữ liệu âm
thanh. Khi phát, các dữ liệu hình ảnh và các dữ liệu âm thanh được phát đồng
bộ nhau.
Kích cỡ khuôn hình của video phải được xác định rõ theo định dạng
chuẩn của video xuất ra. Ví dụ: kích cỡ khuôn hình 720x480 điểm ảnh cho hệ
NTSC, 720x576 điểm ảnh cho hệ PAL. Hoặc có thể xác định khuôn hình
320x240 điểm ảnh cho các video có kích cỡ nhỏ, có thể sử dụng trên Web. Kích
cỡ khuôn hình tăng đồng nghĩa với việc tiêu tốn nhiều bộ nhớ và thời gian xử
lý hơn khi hiển thị hay soạn thảo video. Khi xử lý video số, kích cỡ khuôn hình
tham chiếu đến độ phân giải. Các thuộc tính rất quan trọng của khuôn hình khi
soạn thảo video gồm: điểm ảnh, tỷ lệ của khuôn hình, độ phân giải, độ sâu mầu.

Mối liên hệ giữa các yếu tố này là rất quan trọng như kích cỡ khuôn hình và


9
yêu cầu bộ nhớ; độ phân giải cao hơn thì hình ảnh chi tiết hơn và do đó yêu cầu
cần nhiều bộ nhớ cho soạn thảo hơn.
Tỷ lệ khuôn hình là tỷ lệ kích thước chiều ngang/chiều dọc của ảnh. Ví
dụ: tỷ lệ khuôn hình của video trong các hệ thống truyền hình NTSC (National
Television System Committee) là 4:3. Video thông thường hiện nay sử dụng tỷ
lệ 16:9. Tỷ lệ của khuôn hình không chỉ là các cạnh mà nó còn liên quan đến
các chuẩn video. Ví dụ: tỷ lệ 4:3 là chuẩn cho các sản phẩm video của hệ điều
hành Windows, Mac, khuôn hình 720x480 điểm ảnh sử dụng cho chuẩn NTSC.
Khi video được phát, các khung hình lần lượt được hiển thị ở tốc độ nhất
định. Tốc độ phát hình là số hình ảnh được phát trong thời gian một giây. Các
video phổ biến được phát với tốc độ từ 25 đến 30 hình/giây.
Video số được hình thành từ rất nhiều ảnh số liên tục nên có kích cỡ rất
lớn. Do đó để lưu trữ người ta phải tìm mọi cách để giảm thiểu kích cỡ của
video. Một trong các cách này là sử dụng độ phân giải phù hợp cho video.
Nhiều nghiên cứu đã chứng minh rằng mắt người bị giới hạn về khả năng nhìn.
Với màu sắc được hiển trị trên màn hình thì mắt người chỉ nhận biết được sự
khác nhau của chất lượng hình ảnh chuyển động với độ phân giải dưới 72 dpi
(72 điểm ảnh/inch). Đối với các hình ảnh chuyển động có độ phân giải cao hơn
thì mắt người không nhận biết được. Vì vậy, video số sử dụng độ phân giải
72dpi. Đây là tiêu chuẩn cho tất cả các thiết bị thu video số thông thường như
các máy quay số (digital camera), các thiết bị chuyển đổi dữ liệu video từ dạng
tương tự sang dạng số. Một số trường hợp đặc biệt khi cần có video chất lượng
rất cao như các đoạn phim sử dụng cho việc phân tích khoa học cần phóng to
lên nhiều lần thì phải dùng những máy quay đặc biệt để có thể tăng độ phân
giải của video lên trên 72 dpi. Trong trường hợp này dữ liệu video sẽ lớn lên
khá nhiều. Ví dụ: tăng độ phân giải lên 300 dpi thì kích cỡ của tệp video tăng

lên trên 4 lần.


10
Bên cạnh đó người ta đã sử dụng nhiều biện pháp như giảm kích cỡ
khuôn hình, giảm độ sâu mầu, nhưng hữu hiệu hơn cả vẫn là sử dụng các thuật
toán nén video, như các thuật toán nén AVI (Audio Video Interleave), MPEG.
Các thuật toán này đảm bảo cho việc sử dụng các tệp video trên máy tính cũng
như truyền dữ liệu video trên mạng là hiệu quả trong thời gian thực. Hiện nay,
đã có rất nhiều thuật toán nén video khác nhau, nhưng nền tảng vẫn chủ yếu
dựa trên các thuật toán nén ảnh. Mỗi chuẩn nén được gọi là một định chuẩn
video.
Video có thể được phân loại theo mục đích sử dụng như: video số sử
dụng cho soạn thảo, video số sử dụng cho đầu cuối. Căn cứ vào mục đích sử
dụng này mà có các phương pháp thích hợp xử lý.
Video số sử dụng cho soạn thảo thường có chất lượng rất cao. Thông
thường sử dụng các thuật toán nén không mất thông tin. Các dữ liệu video này
được lưu trữ và xử lý trên các thiết bị đặc biệt, chuyên dụng như lưu trên các ổ
cứng có tốc độ đọc ghi nhanh, có các thiết bị phần cứng hỗ trợ xử lý video, máy
tính tốc độ cao có trang bị các chíp đặc biệt hỗ trợ xử lý đồ hoạ...
Video số sử dụng cho đầu cuối là các sản phẩm video số có chất lượng
thấp hơn so với video dùng làm soạn thảo nên kích cỡ lại nhỏ hơn rất nhiều
(nhỏ hơn vài chục lần so với video gốc) do sử dụng các thuật toán nén mất mát
thông tin. Video số đầu cuối có thể sử dụng trên mạng, Internet hoặc các ứng
dụng thông thường. Trong lớp các video số này, người ta lại phân thành nhóm
các sản phẩm nhỏ hơn như video ghi trên đĩa quang (Compact Disc – CD) hay
đĩa phim kỹ thuật số (Digital Video Disc – DVD), video phân phối trên mạng.
Các sản phẩm video số ghi trên đĩa CD là sản phẩm có chất lượng tương
đối cao và được phân phối rộng khắp trên thị trường. Nó sử dụng định chuẩn
nén MPEG-1. Một đĩa CD có dung lượng 700Mb lưu trữ được 80 phút video.

Các sản phẩm video số ghi trên đĩa DVD có sức chứa 4,7 Gb. Do đó, người ta
có thể nâng cấp chất lượng video số cao hơn chuẩn MPEG–1 bằng cách sử dụng


11
chuẩn MPEG–2. Một đĩa DVD có thể lưu trữ được hai giờ video số với chất
lượng rất tốt.
Các sản phẩm video số phân phối trên mạng băng thông rộng, sử dụng
chuẩn MPEG–1, MPEG–2, hoặc định chuẩn AVI, MOV (Apple QuickTime
Movie) với chất lượng video số cao. Các định chuẩn này thường yêu cầu tốc
độ truyền bít trên 15 Mb/giây.
Các sản phẩm video số phân phối trên mạng băng thông hẹp hoặc
Internet, sử dụng chuẩn video MPEG–4 hoặc AVI. Nhóm các sản phẩm video
số này có chất lượng thấp, khuôn hình nhỏ. Sản phẩm video số này yêu cầu tốc
độ đường truyền thấp dưới 500 Kb/giây.
Video từ máy
quay, Băng
Quá trình thu để
chuyển thành dữ liệu
Video dạng số
Video từ máy
quay, Băng

Quá trình xử lý
video sau đó chuyển
thành Video đầu
cuối sử dụng trong
các ứng dụng

Dữ liệu video số MPEG-1

cho đĩa CD
Dữ liệu video số MPEG-2
cho đĩa DVD
Dữ liệu video số MPEG-4
cho mạng, internet, …
Dữ liệu video số AVI,
MOV sử dụng cho các
ứng dụng

Hình 1.2. Sơ đồ chuyển đổi dữ liệu video
Do giới hạn về phạm vi nghiên cứu, luận án không tập trung vào quán
trình thu video và chuyển thành các video đầu cuối (hình 1.2). Thay vào đó,
luận án chỉ tập trung xử lý phần hình ảnh giả thiết đã được phân tách thành các
frame liên tục trong các dữ liệu video số sử dụng cho đầu cuối MPEG-4 đang
được sử dụng rộng rãi trong các dịch vụ truyền hình, phân phối trên mạng
Internet. Chính vì vậy, quá trình xử lý video sau đó chuyển thành video đầu


12
cuối, tích hợp phần hình ảnh với phần âm thanh, cũng như các định chuẩn video
không được trình bày chi tiết trong luận án này.
1.1.2. Bài toán thay thế đối tượng trong video
Bài toán hậu xử lý video, hiểu video đã nhận được sự quan tâm rất lớn
từ khi video ra đời đặc biệt là trong lĩnh vực công nghiệp điện ảnh. Tuy nhiên,
các bài toán phát hiện quảng cáo, phân tích thị trường trong các lĩnh vực thương
mại, thể thao mới được một số ít nhà nghiên cứu quan tâm.
Hussain và các cộng sự trong nghiên cứu [34] đã đề xuất một ý tưởng
cho việc tự động hiểu nội dung quảng cáo và phân tích cảm nhận của người
xem. Feng [23] đã đề xuất một phương pháp phát hiện logo trong quảng cáo
truyền hình sử dụng kết hợp các đặc trưng âm thanh và video. Phần khớp âm

thanh cũng được khai thác trong [17] để định vị chính xác các quảng cáo trong
chuỗi video. Trong những nghiên cứu này tiến trình phát hiện quảng cáo thường
không định vị đối tượng quảng cáo trong video mà chỉ xác định khung hình
thích hợp để tích hợp các quảng cáo mới.

(a) Chèn hình ảnh vào vị trí thích hợp

(b) Thay thế billboard vào các video thể

trong video [51]

thao [55]

Hình 1.3. Một số ứng dụng chèn/thay thế quảng cáo trong video


13

Hình 1.4. Mô hình phát hiện và thay thế đối tượng trong video
Trong lĩnh vực phân tích thể thao, cũng có một số ít nghiên cứu đã được
thực hiện để phát hiện các bảng quảng cáo xung quanh sân vận động. Watve và
cộng sự đã sử dụng các kỹ thuật khớp mẫu [84] để định vị bảng quảng cáo trên
sân. Cai và các cộng sự trong [13] sử dụng biến đổi Hough để phát hiện các
biển quảng cáo trong video thể thao phát trên truyền hình. Ngoài ra cũng đã có
một số ứng dụng được phát triển để chèn hình ảnh vào vị trí thích hợp trong
video [51], thay thế các virtual billboard vào video thể thao [55] (hình 1.3), biến
đổi hành vi của vận động viên thể thao [77], loại bỏ trademark khỏi các video
truyền hình [89]. Tuy nhiên, các kỹ thuật sử dụng trong các ứng dụng này dựa



14
trên điểm đặc trưng do đó tốc độ rất chậm và độ chính xác không cao. Với sự
phát triển mạnh mẽ trọng lĩnh vực trí tuệ nhân tạo, luận án đề xuất một mô hình
phát hiện và thay thế đối tượng quảng cáo chủ yếu dựa trên mạng tích chập học
sâu cho độ chính xác và tốc độ xử lý cao.
Mô hình phát hiện và thay thế đối tượng trong video luận án đề xuất được
minh họa trực quan trong hình 1.4. Đầu vào của hệ thống gồm bộ ba thành
phần: đoạn video mà phần hình ảnh đã được phân đoạn thành các frame liên
tiếp, nhãn đối tượng quảng cáo nguồn cần truy vấn, và đối tượng quảng cáo
đích dùng để thay thế đối tượng nguồn nếu tìm thấy. Đầu ra của hệ thống là các
frame của video mà đối tượng nguồn đã được thay thế bằng đối tượng đích. Hệ
thống phát hiện đối tượng bắt đầu bằng việc xem xét lần lượt từng frame để dò
tìm đối tượng truy vấn. Một khi đối tượng truy vấn được phát hiện và định vị,
hình dạng của nó được đối sánh với tập hình dạng có trước nhằm tìm ra một
ảnh hình dạng tương đồng nhất. Từ đó, bằng cách phép biến đổi, ánh xạ, xác
định được một hình dạng thích hợp của đối tượng đích dùng để chèn vào vị trí
của đối tượng nguồn trong video. Chi tiết, hệ thống đề xuất bao gồm bốn pha.
Pha thứ nhất là tiến trình lấy mẫu, tạo cơ sở dữ liệu vector đặc trưng
của đối tượng nguồn. Các đối tượng nguồn và đối tượng đích có cùng kiểu dáng
hay độ biến dạng hình thành các cặp mẫu. Các phép gia tăng biến thể như phép
xoay, phép biến dạng, gây nhiễu, ... được sử dụng để sản sinh tập lớn dữ liệu
các cặp biến thể đối tượng nguồn và đích. Một khi tìm thấy một thể hiện của
đối tượng nguồn trong tập dữ liệu này thì đối tượng đích cũng được tìm thấy
tương ứng. Tập các hình dạng của đối tượng nguồn sau đó được đưa vào bộ
trích chọn đặc trưng tạo ra một tập dữ liệu các vector đặc trưng đa chiều. Tập
vector đặc trưng của đối tượng nguồn được lập chỉ mục, lưu trữ giúp cho việc
tìm ra đối tượng nguồn có hình dạng tương đồng nhất với đối tượng truy vấn
để từ đó ánh xạ ra đối tượng đích tương ứng.



15
Pha thứ hai là tiến trình dò tìm đối tượng. Nhiệm vụ chính của pha này
là dò tìm, định vị, trích chọn vector đặc trưng các thể hiện của lớp đối tượng
truy vấn trong từng frame của đoạn video. Nếu frame có chứa đối tượng truy
vấn thì kết quả đưa ra là tập tọa độ của các bounding box cùng với tập vector
đặc trưng.
Pha thứ ba là tiến trình nhận dạng hình dạng cụ thể của đối tượng đã
được tìm thấy trong pha thứ hai. Bản chất của pha này là thực hiện quá trình
đối sánh vector để tìm ra một vector đặc trưng của đối tượng nguồn gần với
vector truy vấn nhất trong tập các vector đặc trưng nguồn đã được chuẩn bị
trong pha thứ nhất. Từ đó xác định ảnh hình dạng của đối tượng nguồn. Bằng
phép biến đổi, ánh xạ xác định được hình dạng thích hợp của đối tượng đích.
Pha thứ tư là tiến trình thay thế. Kỹ thuật phân vùng được áp dụng trên
các vùng chứa đối tượng nguồn được tìm thấy trong video để trích chọn, đánh
dấu phần hiển thị của đối tượng và loại bỏ chúng khỏi frame. Tiếp đó trích chọn
phần hiển thị tương ứng của đối tượng đích chèn vào vị trí trống tạo ra sau khi
loại bỏ các phần hiển thị của đối tượng nguồn. Cuối cùng là tiến trình hoàn
thiện, lấp đầy các vùng trống còn lại do không được chồng lấp hết.
Trong mô hình phát hiện và thay thế đối tượng quảng cáo đề xuất, quá
trình thay thế đối tượng trong video là sự tổng hợp của các giai đoạn xử lý
tương đối độc lập, chưa có một mô hình đầu-cuối áp dụng cho tổng thể hệ
thống. Tùy theo đặc trưng của từng giai đoạn được mô tả bên trên mà các kỹ
thuật phù hợp được lựa chọn nhằm tối ưu hiệu năng của hệ thống. Luận án đã
tập trung nghiên cứu cải tiến hiệu năng của các kỹ thuật tiên tiến sử dụng trong
tất cả các pha của hệ thống này. Cụ thể, nghiên cứu cải tiến mô hình DCNN sử
dụng trích chọn các vector đặc trưng 4096 chiều từ tập các đối tượng mẫu trong
pha thứ nhất. Nghiên cứu cải tiến kỹ thuật lập chỉ mục để mã hóa dữ liệu vector
đặc trưng có số chiều lớn đã được trích chọn. Sử dụng cùng mô hình DCNN
này để dò tìm đối tượng và trích chọn vector đặc trưng cùng số chiều chiều cho



×