Tải bản đầy đủ (.pdf) (85 trang)

TÌM KIẾM ẢNH dựa TRÊN HÌNH PHÁC họa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (12.23 MB, 85 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH

ĐẶNG BẢO ÂN

TÌM KIẾM ẢNH DỰA TRÊN HÌNH PHÁC HỌA

LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01.01

GIẢNG VIÊN HƯỚNG DẪN:
TS. NGÔ ĐỨC THÀNH

TP. HỒ CHÍ MINH, 2018


LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn chân thành đến TS. Ngô Đức Thành, người đã hướng
dẫn trực tiếp và giúp đỡ tận tình để tôi có thể hoàn thành luận văn này. Xin
cảm ơn ban Giám Hiệu, phòng Đào Tạo Sau Đại Học, khoa Khoa Học Máy
Tính, phòng thí nghiệm Truyền Thông Đa Phương Tiện của trường Đại học
Công Nghệ Thông Tin, Đại học Quốc gia Thành phố Hồ Chí Minh đã tạo
mọi điều kiện thuận lợi để tôi được học tập và nghiên cứu trong suốt thời
gian qua.
Tôi cũng xin cảm ơn tác giả các bài báo, các dataset được liệt kê ở phần tài
liệu tham khảo. Những công trình của quý tác giả chính là tiền đề cho việc
thực hiện luận văn thạc sĩ này.


TP. Hồ Chí Minh, tháng 01 năm 2018

Đặng Bảo Ân


LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất
kỳ công trình nào khác, ngoại trừ các tư liệu được trích dẫn ghi trong mục
tài liệu tham khảo.

Tác giả luận văn

Đặng Bảo Ân


TÓM TẮT

Cùng với sự phát triển mạnh mẽ của Internet và các thiết bị chụp ảnh số,
số lượng hình ảnh và video trên Internet cũng tăng trưởng một cách nhanh
chóng. Từ đó, đặt ra yêu cầu cần phải có một phương pháp hữu hiệu để có
thể tìm kiếm ảnh trong thời gian ngắn và chính xác. Hầu hết, các hệ thống
tìm kiếm ảnh hiện nay đều yêu cầu đầu vào là ảnh mẫu của đối tượng cần
tìm (search by example). Tuy nhiên, không phải lúc nào người dùng cũng
có thể có được ảnh mẫu để thực hiện tìm kiếm. Thay vào đó, nếu có thể tìm
kiếm được đối tượng dựa trên hình phác họa (sketch) đối tượng muốn tìm
thì sẽ thuận tiện hơn cho người dùng. Bên cạnh đó, sự phổ biến của các thiết
bị như điện thoại thông minh và máy tính bảng với màn hình cảm ứng giúp
cho người dùng có thể thực hiện việc phác họa hình ảnh một cách đơn giản

và tiện lợi. Chính những điều kể trên là động lực để học viên thực hiện luận
văn này.
Luận văn nghiên cứu phương pháp tìm kiếm ảnh dựa trên hình phác họa
(Sketch Based Image Retrieval - SBIR) tiên tiến hiện nay, đây là phương
pháp tìm kiếm ảnh dựa trên hình phác họa sử dụng đặc trưng cục bộ dày
đặc (Sketch Retrieval via local Dense Stroke feature - SRDS) và đưa ra các
đánh giá để tạo tiền đề cho việc cải tiến bài toán SBIR trong các nghiên cứu
sau này. Dữ liệu đầu vào của phương pháp là một hình phác họa đối tượng
muốn tìm. Đầu ra là những ảnh phác họa được xếp hạng theo mức độ giống
với hình phác họa đầu vào. Phương pháp SRDS thực hiện lấy mẫu đặc trưng
dày đặc trên nét vẽ kết hợp tăng cường thông tin gradient cục bộ. Codebook


sử dụng mô hình cây phân cấp giúp việc tìm kiếm nhanh hơn. Kết quả của
phương pháp được kiểm chứng trên tập dữ liệu chuẩn TU Berlin sketch [1]
và cho độ chính xác tốt hơn so với phương pháp tiên tiến hiện tại (phương
pháp SPM [2]).


NHỮNG ĐÓNG GÓP

Luận văn có một số đóng góp sau:
• Hệ thống lại các kiến thức cơ sở về bài toán tìm kiếm ảnh dựa trên hình

phác họa.
• Khảo sát và đánh giá các đặc trưng thị giác, làm tiền đề và tham khảo

cho những nghiên cứu sau trong lĩnh vực tìm kiếm ảnh dựa trên hình
phác họa.
• Hiện thực phương pháp tìm kiếm ảnh dựa trên hình phác họa sử dụng


đặc trưng cục bộ dày đặc.
• Xây dựng ứng dụng minh họa.


Mục lục
Lời cảm ơn

iii

Lời cam đoan

iv

Tóm tắt

v

Đóng góp của luận văn

vii

Mục lục

viii

Danh sách hình vẽ

xi


Danh sách bảng

xiv

Danh sách từ viết tắt

xv

1

MỞ ĐẦU

1

1.1

Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1.2

Thách thức, mục tiêu và phạm vi . . . . . . . . . . . . . . . . . . . . .

5

1.2.1

Thách thức . . . . . . . . . . . . . . . . . . . . . . . . . . . .


5

1.2.2

Mục tiêu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

1.2.3

Phạm vi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

Cấu trúc luận văn . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

1.3
2

CƠ SỞ LÝ THUYẾT

10
viii


MỤC LỤC

2.1


Giới thiệu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

2.2

Rút trích đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

2.2.1

Xác định đặc trưng . . . . . . . . . . . . . . . . . . . . . . . .

12

2.2.2

Biểu diễn đặc trưng . . . . . . . . . . . . . . . . . . . . . . . .

13

2.2.2.1

Đặc trưng SIFT . . . . . . . . . . . . . . . . . . . .

15

2.2.2.2


Đặc trưng GLOH . . . . . . . . . . . . . . . . . . .

16

2.2.2.3

Đặc trưng HOG . . . . . . . . . . . . . . . . . . . .

17

2.2.2.4

Đặc trưng SURF . . . . . . . . . . . . . . . . . . .

18

So khớp đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

2.3.1

Homography . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

2.3.2

Túi các từ . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


20

Một số nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . .

20

2.3

2.4
3

TÌM KIẾM ẢNH DỰA TRÊN HÌNH PHÁC HỌA

24

3.1

Rút trích đặc trưng . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

26

3.1.1

Xác định điểm lấy mẫu . . . . . . . . . . . . . . . . . . . . . .

26

3.1.2


Biểu diễn đặc trưng . . . . . . . . . . . . . . . . . . . . . . . .

28

3.1.2.1

Mô hình BoW . . . . . . . . . . . . . . . . . . . . .

28

3.1.2.2

Đặc trưng PHOG . . . . . . . . . . . . . . . . . . .

29

Xây dựng cây từ vựng . . . . . . . . . . . . . . . . . . . . . . . . . . .

33

3.2.1

Phương pháp . . . . . . . . . . . . . . . . . . . . . . . . . . .

33

3.2.2

Đánh trọng số . . . . . . . . . . . . . . . . . . . . . . . . . . .


34

Biểu diễn hình phác họa và đánh chỉ mục . . . . . . . . . . . . . . . .

35

3.3.1

Biểu diễn hình phác họa . . . . . . . . . . . . . . . . . . . . .

35

3.3.2

Đánh chỉ mục . . . . . . . . . . . . . . . . . . . . . . . . . . .

35

Truy vấn và xếp hạng kết quả . . . . . . . . . . . . . . . . . . . . . . .

36

3.4.1

Truy vấn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36

3.4.2


Xếp hạng kết quả . . . . . . . . . . . . . . . . . . . . . . . . .

37

3.2

3.3

3.4

ix


MỤC LỤC

4

THỰC NGHIỆM VÀ ĐÁNH GIÁ

38

4.1

Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

4.1.1

Mục đich thực nghiệm . . . . . . . . . . . . . . . . . . . . . .


38

4.1.2

Tập dữ liệu chuẩn . . . . . . . . . . . . . . . . . . . . . . . . .

39

4.1.3

Độ đo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

4.1.4

Thực nghiệm với phương pháp SPM . . . . . . . . . . . . . .

40

4.1.4.1

Thay đổi số tầng trong SPM . . . . . . . . . . . . .

41

4.1.4.2

Thay đổi kích thước codebook . . . . . . . . . . . .


41

4.1.5

Thực nghiệm với phương pháp SRDS . . . . . . . . . . . . . .

43

4.1.6

Tính Precision và Recall . . . . . . . . . . . . . . . . . . . . .

44

Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

45

4.2.1

Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . .

45

4.2.2

Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

48


Ứng dụng minh họa . . . . . . . . . . . . . . . . . . . . . . . . . . . .

49

4.3.1

Môi trường cài đặt . . . . . . . . . . . . . . . . . . . . . . . .

49

4.3.2

Kiến trúc hệ thống . . . . . . . . . . . . . . . . . . . . . . . .

49

4.3.3

Giới thiệu ứng dụng . . . . . . . . . . . . . . . . . . . . . . .

51

4.2

4.3

5

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN


54

5.1

Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

54

5.2

Hướng phát triển . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

Tài liệu tham khảo

56

Phụ lục đề cương xét duyệt

62

x


Danh sách hình vẽ
1.1

Thống kê truy cập Internet trong 1 phút . . . . . . . . . . . . . . . . .


2

1.2

Tìm kiếm ảnh dựa trên từ khóa trên Google Image . . . . . . . . . . .

2

1.3

Tìm kiếm ảnh dựa trên nội dung . . . . . . . . . . . . . . . . . . . . .

3

1.4

Tìm kiếm ảnh dựa trên nội dung . . . . . . . . . . . . . . . . . . . . .

4

1.5

Tìm kiếm các logo có chứa chữ E giống với ảnh phác họa . . . . . . .

5

1.6

Một số ảnh phác họa trong tập dữ liệu TU Berlin sketch, ảnh thường

chứa ít thông tin về kết cấu . . . . . . . . . . . . . . . . . . . . . . . .

6

1.7

Sự đa dạng của hình phác họa quả táo [3]. . . . . . . . . . . . . . . . .

7

1.8

Sự giống nhau giữa hình phác họa của quả táo và hình phác họa quả
cam [3]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

1.9

Một số ảnh phác họa trong tập dữ liệu TU Berlin sketch. . . . . . . . .

8

2.1

Hình phác họa của chiếc ghế. . . . . . . . . . . . . . . . . . . . . . . .

10

2.2


Minh họa đầu vào và đầu ra của phương pháp tìm kiếm ảnh dựa trên
hình phác họa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

2.3

Mô hình chung của các phương pháp SBIR. . . . . . . . . . . . . . . .

11

2.4

Phương pháp FAST Corner Dectection. . . . . . . . . . . . . . . . . .

12

2.5

Mô hình biểu đồ sao sử dụng đặc trưng toàn cục [19]. . . . . . . . . .

13

2.6

Mô hình túi các đặc trưng sử dụng đặc trưng cục bộ. . . . . . . . . . .

14


2.7

Mô tả đặc trưng SIFT tại một điểm hấp dẫn. . . . . . . . . . . . . . .

15

2.8

Mô tả đặc trưng GLOH tại một điểm hấp dẫn. . . . . . . . . . . . . .

16

xi


DANH SÁCH HÌNH VẼ

2.9

Các bước xác định đặc trưng HOG. . . . . . . . . . . . . . . . . . . .

17

2.10 Cách chia ô theo R-HOG và C-HOG. . . . . . . . . . . . . . . . . . .

17

2.11 Biểu diễn đặc trưng SURF. . . . . . . . . . . . . . . . . . . . . . . . .

18


2.12 Phương pháp homography sử dụng SURF và RANSAC so khớp nhãn
Pepsi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

2.13 Trường hợp so khớp thất bại của phương pháp homography. . . . . . .

20

2.14 Hình phác họa xe hơi: (a) hình phác họa đơn giản xe hơi chỉ với khung
xe hình chữ nhật, (b) hình phác họa phức tạp xe hơi với nhiều chi tiết
hơn như bánh xe, cửa xe. . . . . . . . . . . . . . . . . . . . . . . . . .

22

3.1

Tổng quan phương pháp SRDS [3]. . . . . . . . . . . . . . . . . . . .

26

3.2

Điểm khác biệt giữa cách lấy mẫu hiện tại so với các cách lấy mẫu
khác [3]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

3.3


Mô hình BoW. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

28

3.4

Sử dụng cửa sổ để rút trích đặc trưng HOG. . . . . . . . . . . . . . . .

30

3.5

(a) là hai vùng ảnh phác họa, (b) là biểu đồ gradient thưa thớt, (c) là
hai vùng ảnh sau khi lấy gradient dày đặc, (d) là biểu đồ gradient dày
đặc, (e) là kết quả khi so sánh biểu đồ ở (b), (f) là kết quả khi so sánh
biểu đồ ở (d). Kết luận, sử dụng vùng gradient dày đặc cho kết quả
phân biệt tốt hơn [3]. . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.6

Sự khác biệt giữa kết quả tìm kiếm sử dụng đặc trưng HOG so với đặc
trưng PHOG [3]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.7

31

33


Minh họa quá trình xây dựng cây từ vựng phân cấp với K=3 nhánh
con của mỗi nút [44]. . . . . . . . . . . . . . . . . . . . . . . . . . . .

34

3.8

Biểu diễn đặc trưng trên cây từ vựng phân cấp. . . . . . . . . . . . . .

35

3.9

Minh họa phương pháp đánh chỉ mục ngược. . . . . . . . . . . . . . .

36

4.1

Kết quả thử nghiệm khi thay đổi số tầng trong SPM. . . . . . . . . . .

41

4.2

Kết quả thực nghiệm khi thay đổi kích thước codebook. . . . . . . . .

42

xii



DANH SÁCH HÌNH VẼ

4.3

Kết quả thử nghiệm khi thay đổi thông số K và H. . . . . . . . . . . .

4.4

Giá trị CMA của phương pháp SRDS so với phương pháp SPM: (a)
kết quả luận văn cài đặt lại, (b) kết quả của phương pháp gốc. . . . . .

4.5

43

45

Kết quả tìm kiếm của phương pháp SRSD. Các ảnh bên trái có viền
đen là ảnh đầu vào, các ảnh bên phải là kết quả trả về. Ảnh có viền
xanh là kết quả đúng. Ảnh có viền đỏ là kết quả sai. . . . . . . . . . .

47

4.6

Kiến trúc ứng dụng web minh họa. . . . . . . . . . . . . . . . . . . . .

49


4.7

MATLAB Compiler dùng để build gói jar. . . . . . . . . . . . . . . .

51

4.8

Giao diện trang chủ của ứng dụng. . . . . . . . . . . . . . . . . . . . .

52

4.9

Thao tác tìm kiếm ảnh phác họa. . . . . . . . . . . . . . . . . . . . . .

52

4.10 Kết quả tìm kiếm ảnh phác họa. . . . . . . . . . . . . . . . . . . . . .

53

5.1

Kết quả tìm kiếm sai do sự tương đồng giữa các lớp đối tượng khác
nhau. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xiii


55


Danh sách bảng
4.1

Giá trị CMA khi thay đổi số tầng SPM. Giá trị in đậm là kết quả tốt
nhất. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2

Giá trị CMA khi thay đổi kích thước codebook. Giá trị in đậm là kết
quả tốt nhất. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.3

41

42

Giá trị CMA khi thay đổi số nhánh con của nút và chiều cao cây phân
cấp. Giá trị in đậm là kết quả tốt nhất. . . . . . . . . . . . . . . . . . .

xiv

44


Danh mục từ viết tắt
SBIR Sketch Based Image Retrieval

SRDS Sketch Retrieval via local Dense Stroke feature
GLOH Gradient Location-Orientation Histogram
HOG Histogram of Oriented Gradients
SIFT Scale Invariant Feature Transform
SURF Speeded-Up Robust Features Descriptor
PHOG Poisson base Histogram of Oriented Gradients
SPM Spatial Pyramid Matching
CMA Cumulative Matching Accuracy
DoG Difference-of-Gaussian
PCA Principal Components Analysis
BoW Bag of Words

xv


Chương 1

MỞ ĐẦU
1.1

Đặt vấn đề

Với việc các thiết bị tạo ảnh kỹ thuật số ngày càng phát triển và phổ biến (như máy
chụp ảnh kỹ thuật số, điện thoại di động, máy tính bảng, ...) khiến cho việc tạo ra một
bức ảnh khá dễ dàng. Bên cạnh đó, sự bùng nổ của mạng xã hội cũng như các dịch vụ
lưu trữ và chia sẻ ảnh hiện nay (có thể kể đến như Facebook, Zalo, Flickr, Google+,...)
làm gia tăng kích thước của các tập ảnh số một cách nhanh chóng (như hình 1.1). Với
một tập ảnh có kích thước lớn như vậy thì việc làm sao để tìm kiếm ảnh một cách
nhanh chóng và chính xác thật sự là một nhu cầu không thể thiếu. Đây cũng chính là
mục tiêu của bài toán tìm kiếm ảnh.


1


Chương 1. Mở đầu

Hình 1.1: Thống kê truy cập Internet trong 1 phút1 .

Tìm kiếm ảnh có hai dạng chính đó là tìm kiếm ảnh dựa trên từ khóa (text-based
image retrieval) và tìm kiếm ảnh dựa trên nội dung (content-based image retrieval).
Tìm kiếm ảnh dựa trên từ khóa thường được ứng dụng trên các hệ thống tìm kiếm ảnh
trên web. Ví dụ như Google Image (hình 1.2) , Yahoo Image,...

Hình 1.2: Tìm kiếm ảnh dựa trên từ khóa trên Google Image2 .

1

/>
oneinternetminuteb_Zing.jpg
2
/>2


Chương 1. Mở đầu

Phương pháp này sử dụng từ khóa để mô tả nội dung ảnh. Các ảnh trong cơ sở dữ
liệu sẽ được gán nhãn thủ công nội dung của từng ảnh. Người dùng được yêu cầu cung
cấp nội dung tìm kiếm bằng từ khóa mô tả đối tượng cần tìm. Phương pháp tiến hành
so sánh nội dung tìm kiếm với các nhãn gán để tìm ra kết quả. Phương pháp tìm kiếm
ảnh dựa trên từ khóa cho kết quả tìm kiếm khá chính xác và nhanh chóng. Tuy nhiên

phương pháp này đối mặt với một vấn đề lớn đó là việc gán nhãn thủ công cho cơ sở
dữ liệu. Với tập dữ liệu lớn khoảng vài trăm triệu ảnh thì chi phí và thời gian bỏ ra cho
việc gán nhãn là rất lớn. Do đó, phương pháp tìm kiếm ảnh dựa trên nội dung được
sinh ra để giải quyết vấn đề này. Phương pháp tìm kiếm ảnh dựa trên nội dung mô
tả ảnh (ảnh tự nhiên) hoàn toàn tự động bằng các đặc trưng rút trích từ ảnh như đặc
trưng về màu sắc, kết cấu và hình dạng. Người dùng cung cấp ảnh mẫu của đối tượng
cần tìm và phương pháp sẽ tìm kiếm những ảnh trong tập cơ sở dữ liệu giống với ảnh
đầu vào bằng cách so sánh đặc trưng giữa các ảnh. Hình 1.3 ví dụ một hệ thống tìm
kiếm ảnh dựa trên nội dung.

Hình 1.3: Tìm kiếm ảnh dựa trên nội dung1 .

Trong phương pháp tìm kiếm ảnh dựa trên nội dung, quan trọng là phải có ảnh
mẫu của đối tượng cần tìm. Nội dung của ảnh mẫu mô tả thông tin của đối tượng cần
tìm càng rõ thì sẽ càng dễ dàng để tìm thấy đối tượng. Một vấn đề được đặt ra là nếu
chúng ta không có ảnh mẫu cụ thể của đối tượng cần tìm mà chỉ biết được hình dạng
1

/>
ANd9GcSbHrpTWeBPmGap3EIlrZ3ocDaURPulo3BiHOEknFGH-QQa9cxtmA
3


Chương 1. Mở đầu

của đối tượng đó thì có thể tìm kiếm được không? Giải pháp cho vấn đề này là phương
pháp tìm kiếm ảnh dựa trên hình phác họa. Một số ví dụ cụ thể cho trường hợp người
dùng không có ảnh mẫu của đối tượng cần tìm như: Trong một vụ cướp ngân hàng,
tên cướp đã vô hiệu hóa các camera an ninh trước khi tiến hành vụ cướp. Do đó cảnh
sát hoàn toàn không có được hình ảnh của tên cướp mà chỉ có ảnh phác họa chân dung

tên cướp từ các nhân chứng có mặt ở hiện trường. Phương pháp tìm kiếm ảnh dựa trên
hình phác họa có thể giúp cảnh sát tìm thấy được tên cướp từ hình phác họa mà nhân
chứng cung cấp (như hình 1.4). Hoặc một công ty năng lượng mới thành lập, muốn
thiết kế logo với chữ E (viết tắt cho từ Energy) mà không muốn bị trùng lắp với các
logo khác. Do đó, họ muốn tìm các logo có chữ E đang sẵn có trên thị trường để so
sánh. Trong trường hợp này, họ cũng sẽ không có được ảnh cụ thể của các logo cần
tìm, mà chỉ có thể phác họa hình dáng của logo với chữ E (hình 1.5).

Hình 1.4: Tìm kiếm ảnh dựa trên nội dung1 .

1

/>
4


Chương 1. Mở đầu

Hình 1.5: Tìm kiếm các logo có chứa chữ E giống với ảnh phác họa1 .

Một số ví dụ kể trên đã cho thấy sự cần thiết của phương pháp tìm kiếm ảnh dựa
trên hình phác họa (SBIR). Do đó, trong luận văn này học viên sẽ tìm hiểu về bài toán
SBIR. Đầu vào bài toán sẽ là hình phác họa đối tượng cần tìm, đầu ra sẽ là những ảnh
phác họa được xếp hạng theo mức độ giống với hình phác họa đầu vào. Cụ thể, luận
văn nghiên cứu phương pháp tìm kiếm ảnh dựa trên hình phác họa sử dụng đặc trưng
cục bộ dày đặc (SRDS) để giải quyết vấn đề tìm kiếm giữa ảnh phác họa và ảnh phác
họa (sketch to sketch). Luận văn hiện thực phương pháp SRDS, thực nghiệm trên bộ
dữ liệu chuẩn TU Berlin sketch [1] để kiểm tra độ chính xác và xây dựng ứng dụng
minh họa cho phương pháp SRDS.


1.2

Thách thức, mục tiêu và phạm vi

1.2.1

Thách thức

Có nhiều thách thức đặt ra cho bài toán SBIR:
• Chi phí tính toán lớn: Làm sao để chương trình tìm kiếm chính xác trên tập dữ

liệu lớn trong khoảng thời gian chấp nhận được từ người dùng.
1

/>
5


Chương 1. Mở đầu

• Sự phụ thuộc của phương pháp vào tập dữ liệu: Thường các phương pháp tìm

kiếm ảnh chỉ hoạt động tốt trên một số tập dữ liệu chuẩn nhất định. Phải làm cho
phương pháp hoạt động tốt trên nhiều tập dữ liệu khác nhau.
• Số lượng các tập dữ liệu chuẩn cho ảnh phác họa còn ít, chưa đa dạng như các

tập dữ liệu chuẩn khác về ảnh thật.
• Hình phác họa chứa ít thông tin chi tiết của ảnh, chỉ được mô tả bằng những nét

vẽ chính.


Hình 1.6: Một số ảnh phác họa trong tập dữ liệu TU Berlin sketch, ảnh thường chứa
ít thông tin về kết cấu

• Sự đa dạng lớn trong dữ liệu: Người dùng khác nhau sẽ có những phong cách vẽ

khác nhau.
– Sự đa dạng trong cùng một lớp (intra-class variation): Cùng là quả táo, nhưng
sẽ có nhiều hình ảnh biểu diễn khác nhau.

6


Chương 1. Mở đầu

Hình 1.7: Sự đa dạng của hình phác họa quả táo [3].

– Sự đa dạng giữa các lớp (inter-class variation): Hình phác họa thường lược
bỏ bớt chi tiết về hình ảnh. Do đó, hình phác họa của quả táo có thể giống
với hình phác họa của quả cam.

Hình 1.8: Sự giống nhau giữa hình phác họa của quả táo và hình phác họa quả cam
[3].

1.2.2

Mục tiêu

Luận văn có các mục tiêu chính sau đây:
• Hệ thống kiến thức về bài toán SBIR.

• Hiện thực phương pháp SRDS.
• Xây dựng ứng dụng minh họa.

1.2.3

Phạm vi

Bài toán SBIR có nhiều thách thức. Trong phạm vi luận văn, học viên tập trung nghiên
cứu giải quyết một số vấn đề sau:

7


Chương 1. Mở đầu

• Ảnh phác họa thường thiếu thông tin chi tiết của ảnh.
• Tính đa dạng lớn trong tập dữ liệu ảnh phác họa.
• Thực nghiệm trên tập dữ liệu TU Berlin sketch [1]: Gồm 20.000 hình phác họa

thuộc 250 loại đối tượng khác nhau.

Hình 1.9: Một số ảnh phác họa trong tập dữ liệu TU Berlin sketch.

1.3

Cấu trúc luận văn

Trong chương đầu, học viên đã giới thiệu động lực nghiên cứu cũng như mục tiêu và
phạm vi trong luận văn này. Nội dung của của các chương tiếp theo sẽ được trình bày
với cấu trúc như sau:

• Chương 2: Giới thiệu một số kiến thức và lý thuyết cơ sở được sử dụng trong bài

toán SBIR và các hướng nghiên cứu liên quan. Nội dung chính của chương sẽ
giới thiệu các bước phân tích đặc trưng, bao gồm rút trích đặc trưng và so khớp
đặc trưng.
• Chương 3: Trình bày phương pháp lựa chọn để giải quyết bài toán SBIR. Cụ thể

là phương pháp tìm kiếm ảnh dựa trên hình phác họa sử dụng đặc trưng cục bộ
dày đặc (SRDS).
• Chương 4: Giới thiệu chi tiết tập dữ liệu chuẩn, các bước cài đặt thực nghiệm

cũng như tiến hành đánh giá phương pháp sử dụng dựa trên kết quả thực nghiệm.
8


Chương 1. Mở đầu

• Chương 5: Kết luận và bàn thêm về phương pháp đề xuất hướng cải tiến, phát

triển cho luận văn trong thời gian tới.

9


Chương 2

CƠ SỞ LÝ THUYẾT
Nội dung chương giới thiệu về bài toán tìm kiếm ảnh dựa trên hình phác họa (SBIR)
cũng như cơ sở lý thuyết sử dụng trong bài toán, chủ yếu tập trung vào phân tích đặc
trưng. Đồng thời khảo sát các nghiên cứu liên quan đến bài toán SBIR trong những

năm gần đây. Từ đó lựa chọn phương pháp tiên tiến để nghiên cứu về bài toán SBIR.

2.1

Giới thiệu bài toán

SBIR là bài toán giải quyết vấn đề liên quan đến việc tìm kiếm những ảnh (trong một
tập dữ liệu lớn) giống với hình phác họa đầu vào. Hình phác họa (sketch) theo định
nghĩa của [3] là một hình vẽ tay với phong cách vẽ tự do để biểu diễn đối tượng, bao
gồm các đường viền và bộ khung của đối tượng (ví dụ hình 2.1 là ảnh phác họa của
chiếc ghế).

Hình 2.1: Hình phác họa của chiếc ghế.
10


Chương 2. Cơ sở lý thuyết

Luận văn này sẽ tập trung vào vấn đề tìm kiếm giữa ảnh phác họa và ảnh phác họa
với nhau (sketch to sketch).
• Đầu vào: Một hình phác họa của đối tượng muốn tìm kiếm.
• Đầu ra: Chuỗi những ảnh phác họa được xếp hạng theo mức độ giống với hình

phác họa đầu vào.
Ví dụ: Nếu muốn tìm kiếm con ngựa, người dùng đưa vào hình phác họa của con
ngựa, thì đầu ra sẽ là những ảnh phác họa con ngựa giống với hình phác họa đầu vào.

Hình 2.2: Minh họa đầu vào và đầu ra của phương pháp tìm kiếm ảnh dựa trên hình
phác họa.


Các phương pháp giải quyết bài toán SBIR có mô hình hoạt động chung sau:

Hình 2.3: Mô hình chung của các phương pháp SBIR.

Có thể thấy, bài toán SBIR tập trung chủ yếu vào việc phân tích đặc trưng (gồm rút
trích đặc trưng và so khớp đặc trưng). Đặc trưng là một phần nhỏ thông tin của ảnh
11


×