Tải bản đầy đủ (.pdf) (81 trang)

Phát triển kỹ thuật tìm kiếm hình ảnh hai chiều dựa trên chuỗi thời gian

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.22 MB, 81 trang )

Đại Học Quốc Gia Tp. Hồ Chí Minh
TRƢỜNG ĐẠI HỌC BÁCH KHOA
--------------------

TRẦN CƠNG ĐỜI

PHÁT TRIỂN KỸ THUẬT TÌM KIẾM
HÌNH ẢNH HAI CHIỀU DỰA TRÊN
CHUỖI THỜI GIAN
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 604801

LUẬN VĂN THẠC SĨ

NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. QUẢN THÀNH THƠ
PGS.TS. DƢƠNG TUẤN ANH

TP. HỒ CHÍ MINH, tháng 12 năm 2011


CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI
TRƢỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Cán bộ hƣớng dẫn khoa học: TS. Quản Thành Thơ
PGS.TS. Dƣơng Tuấn Anh

Cán bộ chấm nhận xét 1: TS. Nguyễn Thanh Bình
Cán bộ chấm nhận xét 2: PGS.TS. Đỗ Phúc
Luận văn thạc sĩ đƣợc bảo vệ tại Trƣờng Đại học Bách Khoa, ĐHQG Tp. Hồ Chí
Minh, ngày 07 tháng 01 năm 2012


Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. TS. Đinh Đức Anh Vũ, Chủ tịch hội đồng.
2. TS. Nguyễn Thanh Hiên, thƣ ký hội đồng.
3. TS. Nguyễn Thanh Bình, phản biện 1.
4. PGS.TS. Đỗ Phúc, phản biện 2.
5. TS. Quản Thành Thơ, uỷ viên hội đồng.
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Bộ môn quản lý chuyên ngành sau
khi luận văn đã đƣợc sửa chữa (nếu có).
Chủ tịch Hội đồng đánh giá LV

Bộ mơn quản lý chuyên ngành


ĐẠI HỌC QUỐC GIA TP. HCM CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM
TRƢỜNG ĐẠI HỌC BÁCH KHOA
Độc Lập - Tự Do - Hạnh Phúc

----------------

---oOo--Tp. HCM, ngày . .07. . tháng . .01. . năm .2012.

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: Trần Công Đời .................................. Phái: Nam ......................................
Ngày, tháng, năm sinh: 10/07/1981 .................................... Nơi sinh: Đồng Nai ........................
Chuyên ngành: Khoa học máy tính . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
MSHV: 09070432 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1- TÊN ĐỀ TÀI:
PHÁT TRIỂN KỸ THUẬT TÌM KIẾM HÌNH ẢNH HAI CHIỀU DỰA TRÊN
CHUỖI THỜI GIAN
2- NHIỆM VỤ LUẬN VĂN:

Phát triển kỹ thuật tìm kiếm hình ảnh hai chiều dựa trên chuỗi thời gian ....................................
......................................................................................................................................................
......................................................................................................................................................
3- NGÀY GIAO NHIỆM VỤ: 14/02/2011 ................................................................................
4- NGÀY HOÀN THÀNH NHIỆM VỤ: 02/12/2011 ...............................................................
5- HỌ VÀ TÊN CÁN BỘ HƢỚNG DẪN (Ghi đầy đủ học hàm, học vị ):
TS. Quản Thành Thơ
PGS.TS. Dƣơng Tuấn Anh
Nội dung và đề cƣơng Luận văn thạc sĩ đã đƣợc Hội Đồng Chuyên Ngành thơng qua.
CÁN BỘ HƢỚNG DẪN
CHỦ NHIỆM BỘ MƠN KHOA QL CHUYÊN NGÀNH
(Họ tên và chữ ký)
QUẢN LÝ CHUYÊN NGÀNH
(Họ tên và chữ ký)
(Họ tên và chữ ký)








i

LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các cơng trình khác
nhƣ đã ghi rõ trong luận văn, các cơng việc trình bày trong luận văn này là do chính
tơi thực hiện và chƣa có phần nội dung nào của luận văn này đƣợc nộp để lấy một
bằng cấp ở trƣờng này hoặc trƣờng khác.

Ngày 07 tháng 01 năm 2012

Trần Công Đời


ii

LỜI CẢM ƠN
Tôi xin gởi lời cảm ơn chân thành và sâu sắc nhất đến TS. Quản Thành Thơ
và PGS.TS. Dƣơng Tuấn Anh đã tận tình hƣớng dẫn tơi trong suốt quá trình học
Cao học và tạo mọi điều kiện để tơi có thể hồn thành luận văn này.
Tơi cũng xin cảm ơn gia đình đã động viên và tạo mọi điều kiện tốt nhất để
tơi có thể tiếp tục theo đuổi việc học tập nghiên cứu. Tôi trân trọng dành tặng thành
quả của luận văn này cho gia đình tôi. Tôi xin hứa sẽ tiếp tục cố gắng phấn đấu để
vƣơn cao hơn nữa.


iii

TÓM TẮT LUẬN VĂN
Khai phá dữ liệu chuỗi thời gian đang phát triển và đƣợc ứng dụng trong
nhiều lĩnh vực. So trùng ảnh 2 chiều dựa trên chuỗi thời gian là một ứng dụng của
bài tốn tìm kiếm tƣơng tự trên dữ liệu chuỗi thời gian. Các lĩnh vực nhƣ sinh học,
cơng nghiệp, … đều có sử dụng các kỹ thuật so trùng ảnh.
Luận văn này đề xuất kỹ thuật tìm kiếm ảnh hai chiều dựa trên chuỗi thời
gian của ảnh. Trong đó, kỹ thuật mà chúng tơi đề xuất sử dụng phƣơng pháp trích
xuất đặc trƣng để đạt đƣợc tính bất biến trong phép quay ảnh và sử dụng một cấu
trúc dữ liệu để lập chỉ mục cho tập dữ liệu.
Chúng tôi sử dụng phép biến đổi Fourier để trích xuất đặc trƣng và đề nghị
sử dụng cấu trúc dữ liệu VP-Tree đƣợc tổ chức lƣu trữ theo một cấu trúc mới nhằm

tăng tốc khi tìm kiếm ảnh. Qua thực nghiệm cho thấy cấu trúc VP-Tree cải tiến
nâng cao hiệu quả tìm kiếm.


iv

ABSTRACT
Time-series data mining is growing and applied in many fields. Match twodimensional shape is an application based on time-series similar search. Fields such
as biology, industry, ... are using this technique.
This thesis proposed technique, two-dimensional search based on time-series
of shape. In particular, the technique that we propose to use feature extraction
method to achieve rotation invariance and use a data structure to index the data set.
We use Fourier transform method to extract features and VP-Tree structure
with enhancement to speed the search. Our experiments show that the enhanced VPTree improves retrieval performance.


v

MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................ i
LỜI CẢM ƠN ................................................................................................................. ii
TÓM TẮT LUẬN VĂN ................................................................................................ iii
ABSTRACT ................................................................................................................... iv
MỤC LỤC ....................................................................................................................... v
DANH MỤC HÌNH VẼ ............................................................................................... viii
DANH MỤC CÁC BẢNG.............................................................................................. x
CHƢƠNG 1:

GIỚI THIỆU ĐỀ TÀI .......................................................................... 1


1.1 Dữ liệu chuỗi thời gian .................................................................................... 1
1.2 Biểu diễn ảnh dạng chuỗi thời gian ................................................................. 2
1.3 Kỹ thuật tìm kiếm ảnh 2 chiều dựa trên dữ liệu chuỗi thời gian ..................... 3
1.4 Mục tiêu và giới hạn của đề tài ........................................................................ 3
1.5 Tóm lƣợc những kết quả đạt đƣợc ................................................................... 4
1.6 Cấu trúc của luận văn....................................................................................... 5
CHƢƠNG 2:

TỔNG THUẬT CÁC CƠNG TRÌNH LIÊN QUAN .......................... 6

2.1 Cơng trình về độ đo tƣơng tự ........................................................................... 6
2.1.1 Độ đo Minkowski – Độ đo khoảng cách Euclid ................................... 6
2.1.2 Độ đo xoắn thời gian động (Dynamic Time Warping –DTW)............. 8
2.1.3 Phƣơng pháp chuỗi con chung dài nhất (Longest Common
Subsequence – LCS) ........................................................................... 11
2.2 Các cơng trình về biểu diễn chuỗi thời gian .................................................. 11
2.2.1 Các phƣơng pháp thu giảm số chiều ................................................... 12
2.2.2 Các cấu trúc chỉ mục ........................................................................... 17
2.3 Kỹ thuật xử lý phép quay trên chuỗi thời gian của ảnh ................................. 18
2.3.1 Các hƣớng tiếp cận ............................................................................. 18
2.3.2 Các cơng trình ..................................................................................... 21
CHƢƠNG 3:

CƠ SỞ LÝ THUYẾT ......................................................................... 28


vi

3.1 Phép biến đổi Fourier rời rạc DFT trên chuỗi thời gian của ảnh ................... 28
3.1.1 Nén chuỗi Fourier ............................................................................... 29

3.1.2 Hàm biên dƣới .................................................................................... 29
3.2 Cấu trúc dữ liệu VP-Tree ............................................................................... 30
3.2.1 Xây dựng VP-Tree .............................................................................. 31
3.2.2 Tìm kiếm lân cận gần nhất trên VP-Tree ............................................ 32
3.3 Cấu trúc dữ liệu VPC-Tree ............................................................................ 34
CHƢƠNG 4:

PHƢƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ ....................................... 37

4.1 Kỹ thuật tìm kiếm ảnh dựa trên dữ liệu chuỗi thời gian của ảnh .................. 37
4.1.1 Phƣơng pháp biến đổi ảnh sang dữ liệu chuỗi thời gian:.................... 37
4.1.2 Các phƣơng pháp thu giảm số chiều ................................................... 37
4.1.3 Cấu trúc dữ liệu sử dụng lập chỉ mục ................................................. 38
4.1.4 Các mức độ lƣu trữ trong tập dữ liệu: ................................................. 39
4.1.5 Giải thuật tìm kiếm lân cận trên cây VP-Tree cải tiến ....................... 39
4.2 Kiến trúc hệ thống.......................................................................................... 42
4.2.1 Hệ thống lập chỉ mục cho tập dữ liệu ................................................. 43
4.2.2 Hoạt động của hệ thống tìm kiếm trên cấu trúc chỉ mục: ................... 45
CHƢƠNG 5:

THỰC NGHIỆM................................................................................ 47

5.1 Tập dữ liệu dùng cho thực nghiệm ................................................................ 47
5.2 Các tiêu chuẩn tiến hành thực nghiệm ........................................................... 48
5.2.1 Hệ số thu giảm truy xuất ..................................................................... 48
5.2.2 Số lần truy xuất đĩa trong quá trình tìm kiếm ..................................... 49
5.2.3 Thời gian tìm kiếm .............................................................................. 49
5.2.4 Kích thƣớc lƣu trữ chỉ mục ................................................................. 49
5.3 Đánh giá kết quả thực nghiệm ....................................................................... 50
5.3.1 Thực nghiệm trên tập dữ liệu Data1 ................................................... 50

5.3.2 Thực nghiệm trên tập dữ liệu Data2 và Data3 ................................... 54
5.4 Kết luận: ......................................................................................................... 55
CHƢƠNG 6:

KẾT LUẬN ........................................................................................ 56


vii

6.1 Tổng kết ......................................................................................................... 56
6.2 Những đóng góp của đề tài ............................................................................ 57
6.3 Hƣớng phát triển ............................................................................................ 57
TÀI LIỆU THAM KHẢO ............................................................................................. 59
LÝ LỊCH TRÍCH NGANG ........................................................................................... 62


viii

DANH MỤC HÌNH VẼ
Hình 1.1 Chuyển ảnh 2 chiều sang dữ liệu chuỗi thời gian (nguồn [26]) ...................... 2
Hình 2.1 Trƣờng hợp 2 chuỗi có đƣờng cơ bản lệch nhau và biên độ dao động khác
nhau [16] ......................................................................................................... 8
Hình 2.2 Minh họa sự khác nhau giữa 2 độ đo Euclid và DTW [13] ............................ 8
Hình 2.3 Độ đo độ xoắn thời gian động với cửa sổ warp Sakoe-Chiba độ rộng R.
Trên hình warping path giới hạn trong cửa sổ bán kính R (nguồn [15]) ....... 9
Hình 2.4 Phƣơng pháp biểu diễn PAA với n=128, N=8 (nguồn [14])........................ 14
Hình 2.5 Cấu trúc chỉ mục R-Tree (nguồn [10])......................................................... 17
Hình 2.6 Hai Hình trên biểu diễn bằng bốn kí tự và xoay tạo thành hai ma trận
xoay, mỗi hình nhƣ vậy có tất cả bốn vị trí xoay có thể (nguồn [26]). ........ 25
Hình 2.7 Phép chiếu ngẫu nhiên với kích thƣớc mặt nạ là 2 (cột 2 và 4 bị che

khuất). Ma trận đụng độ lƣu số lần đụng độ sau một phép chiếu (nguồn
[26]) .............................................................................................................. 26
Hình 3.1 Phân hoạch và tạo node trên VP-Tree[23] .................................................... 31
Hình 3.2 Giải thuật lựa chọn điểm thuận lợi (nguồn [9]) ............................................ 32
Hình 3.3 Cắt bỏ nhánh trong quá trình tìm lân cận trên VP-Tree ................................ 33
Hình 3.4 Giải thuật tìm n lân cận trên VP-Tree (nguồn [9]) ........................................ 33
Hình 3.5 Giải thuật tìm kiếm lân cận trên VP-Tree (nguồn [9]).................................. 34
Hình 3.6 Giải thuật tìm kiếm lân cận trên VP-Tree (nguồn [23])................................ 36
Hình 4.1 Cắt giảm tìm kiếm trong trƣờng hợp dist < ............................................... 40
Hình 4.2 Cắt giảm tìm kiếm trong trƣờng hợp dist

............................................... 40


ix

Hình 4.3 Mã giả giải thuât tìm kiếm lân cận trên VP-Tree cải tiến ............................. 42
Hình 4.4 Kiến trúc hệ thống tìm kiếm ảnh 2 chiều dựa trên dữ liệu chuỗi thời gian
của ảnh .......................................................................................................... 44
Hình 4.5 Lập chỉ mục cho tập dữ liệu .......................................................................... 45
Hình 5.1 Tập dữ liệu 15000 ảnh mũi tên ..................................................................... 47
Hình 5.2 2660 ảnh tổng hợp từ internet ....................................................................... 48
Hình 5.3 Hệ số thu giảm truy xuất với cây có nút lá chứa tối đa 100 ảnh. .................. 50
Hình 5.4 Hệ số thu giảm truy xuất với cây có nút lá chứa tối đa 50 ảnh. .................... 50
Hình 5.5 Số lần truy xuất đĩa ứng với cây có nút lá chứa tối đa 100 ảnh. ................... 51
Hình 5.6 Số lần truy xuất đĩa ứng với cây có nút lá chứa tối đa 50 ảnh. .................... 51
Hình 5.7 Thời gian tìm kiếm với cây có nút lá chứa tối đa 100 ảnh. ........................... 52
Hình 5.8 Thời gian tìm kiếm với cây có nút lá chứa tối đa 50 ảnh. ............................. 52
Hình 5.9 Kích thƣớc bộ nhớ lƣu trữ cấu cấu trúc. ....................................................... 53



x

DANH MỤC CÁC BẢNG
Bảng 5.1 Thực nghiệm hệ số thu giảm trên tập dữ liệu Data2 và Data 3 .................... 54
Bảng 5.2 Thực nghiệm số lần truy xuất đĩa trên tập dữ liệu Data2 và Data 3 ............. 55
Bảng 5.3 Thực nghiệm thời gian tìm kiếm trên tập dữ liệu Data2 và Data 3 .............. 55


1

CHƢƠNG 1:

GIỚI THIỆU ĐỀ TÀI

Chƣơng này trình bày các khái niệm cơ bản về chuỗi thời gian, biểu diễn ảnh
dạng chuỗi thời gian. Qua đó phát biểu vấn đề và sơ lƣợc kết quả đạt đƣợc.
1.1 Dữ liệu chuỗi thời gian
Chuỗi thời gian (Time Series) T = t1, t2… tn là tập hợp có thứ tự các quan sát
đơn biến hoặc đa biến đƣợc đo sau những khoảng thời gian bằng nhau theo thời
gian. Trong đề tài này, chúng tôi chỉ xem xét với ti là các giá trị thực.
Chuỗi thời gian có thể đƣợc xem là một tập hợp dữ liệu hai chiều, với các giá
trị tƣơng ứng là (T,X), trong đó T là thời điểm giá trị đƣợc xác định, X là giá trị
quan sát tƣơng ứng. Tuy nhiên, khoảng thời gian quan sát là bằng nhau nên có thể
khơng quan tâm đến T. Lúc này chuỗi thời gian có thể xem là dữ liệu n chiều.
Có rất nhiều dữ liệu có yếu tố thời gian nhƣ dữ liệu về giá chứng khoán, điện
tâm đồ, mực nƣớc, lƣu lƣợng truyền trên mạng, dữ liệu tài chính…
Một số hƣớng nghiên cứu trên dữ liệu chuỗi thời gian nhƣ:
-


Lập chỉ mục (Indexing): cho một chuỗi thời gian truy vấn Q, và một
hàm tính độ tƣơng tự hoặc độ sai biệt D(Q,C), tìm những chuỗi thời gian
tƣơng tự nhất với Q trong cơ sở dữ liệu DB nào đó.

-

Gom cụm (clustering): tìm những sự phân nhóm theo tự nhiên của
những chuỗi thời gian trong cơ sở dữ liệu DB theo một hàm tính độ
tƣơng tự D(Q,C).

-

Phân lớp (Classification): cho một chuỗi thời gian chƣa gán nhóm Q,
gán nó vào một trong những nhóm đã đƣợc định nghĩa trƣớc.

-

Tóm tắt (Summarization): cho chuỗi thời gian Q có n điểm dữ liệu trong
đó n là con số rất lớn, tạo một sự xấp xỉ của Q để vừa khít theo một giới


2

hạn nào đó (chẳng hạn màn hình máy tính, trang giấy…) sao cho vẫn duy
trì những đặc trƣng bản chất của nó.
-

Phát hiện bất thường (Anomaly detection): cho một chuỗi thời gian Q,
và một vài mơ hình hành vi bình thường (normal behavior), tìm tất cả
những phần thuộc Q có chứa bất thường. Ngồi ra cịn có nhiều tên gọi

khác cho lĩnh vực này nhƣ phát hiện những hành vi gây ngạc nhiên
(surprising behavior), hành vi quan tâm (interesting behavior), hành vi
không mong đợi (unexpected behavior), hành vi lạ thường (novel
behavior). Đồng thời có rất nhiều định nghĩa nhƣ thế nào gọi là bất
thƣờng.

1.2 Biểu diễn ảnh dạng chuỗi thời gian
Có nhiều phƣơng pháp để chuyển ảnh sang chuỗi thời gian [15] và trong luận
văn sử dụng phƣơng pháp dựa trên đƣờng biên hình dạng của ảnh [2][7][24]. Dữ
liệu chuỗi thời gian (còn gọi là dữ liệu giả chuỗi thời gian – pseudo “time series”)
của ảnh là chuỗi giá trị khoảng cách từ tâm của hình dạng ảnh đến các điểm trên
đƣờng biên hình dạng ảnh theo chiều kim đồng hồ.

Hình 1.1 Chuyển ảnh 2 chiều sang dữ liệu chuỗi thời gian (nguồn [26])


3

Dữ liệu chuỗi thời gian của ảnh mang các đặc điểm của ảnh nhƣ nhiễu do
điểm ảnh, các phép tỉ lệ (scale), phép quay (rotate), … Trong đó xử lý nhiễu do
phép quay đƣợc nhiều cơng trình quan tâm [15][23][26][27]
Một số hƣớng nghiên cứu trên dữ liệu chuỗi thời gian của ảnh: tìm kiếm
tƣơng tự trên chuỗi thời gian của ảnh, tìm motif, tìm dị thƣờng, …
1.3 Kỹ thuật tìm kiếm ảnh 2 chiều dựa trên dữ liệu chuỗi thời gian
Kỹ thuật tìm kiếm ảnh 2 chiều dựa trên dữ liệu chuỗi thời gian là kỹ thuật
tìm tƣơng tự trên dữ liệu chuỗi thời gian của ảnh. Hàm khoảng cách tính tốn
khoảng cách trên dữ liệu chuỗi thời gian của ảnh để đánh giá độ tƣơng tự của ảnh.
Hàm khoảng cách phải đạt đƣợc tính bất biến nhiễu.
Các thách thức:
-


Ảnh truy vấn bị nhiễu, nhất là phép quay.

-

Số chiều dữ liệu chuỗi thời gian không đồng nhất.

-

Lƣu trữ tập dữ liệu ảnh lớn.

-

Thời gian tìm kiếm phải nhỏ và chính xác.

1.4 Mục tiêu và giới hạn của đề tài
Mục tiêu chính của luận văn là phát triển một khung tổng quát cho kỹ thuật
tìm kiếm ảnh 2 chiều dựa trên chuỗi thời gian. Luận văn tập trung giải quyết các
vấn đề sau:
-

Các ảnh (dữ liệu chuỗi thời gian của ảnh) trong tập dữ liệu và ảnh truy
vấn thƣờng không đồng nhất về số chiều. Chúng tôi đề xuất sử dụng
phƣơng pháp thu giảm số chiều PAA trên dữ liệu chuỗi thời gian để đƣa
các ảnh về cùng số chiều.


4

-


Để xử lý nhiễu trên ảnh, phép tỉ lệ (scale), phép dịch (shift), chúng tôi đề
xuất sử dụng phƣơng pháp chuẩn hóa 0 và sử dụng biến đổi Fourier trên
chuỗi thời gian nhằm đạt đƣợc tính bất biến trong phép quay [23]. Ngồi
ra kỹ thuật này cịn cho phép giảm số chiều trên chuỗi biến đổi thu đƣợc
và sử dụng kỹ thuật nén chuỗi nhƣ trong [23].

-

Thơng thƣờng kích thƣớc dữ liệu để tìm kiếm là rất lớn. Vì vậy, những
ứng dụng này đòi hỏi phải sử dụng các phƣơng pháp lập chỉ mục. Phƣơng
pháp lập chỉ mục là phƣơng pháp nhằm nâng cao tốc độ tìm kiếm.
Phƣơng pháp lập chỉ mục có thể là giảm số chiều để giảm kích thƣớc dữ
liệu hoặc có thể sử dụng những cấu trúc biểu diễn dữ liệu nhằm nâng cao
tốc độ tìm kiếm. Chúng tôi đề xuất sử dụng phƣơng pháp lập chỉ mục sử
dụng cấu trúc cây VP cải tiến dựa trên [23].

-

Cải tiến giải thuật tìm kiếm trên cấu trúc chỉ mục dựa trên các giải thuật
của [9] [15] [23] .

1.5 Tóm lƣợc những kết quả đạt đƣợc
Xây dựng khung tổng quát và ứng dụng dựa trên khung tổng quát gồm 2
thành phần chính: thành phần tổ chức dữ liệu - lập chỉ mục cho tập dữ liệu tìm kiếm
và thành phần truy vấn ảnh - tìm kiếm ảnh tƣơng tự trong tập dữ liệu tìm kiếm dựa
vào ảnh truy vấn đƣa vào.
Với thành phần tổ chức dữ liệu, chúng tơi thực hiện chuẩn hóa dữ liệu, thu
giảm số chiều bằng phƣơng pháp PAA, biến đổi Fourier, và lập chỉ mục dựa trên
cấu trúc cây VP cải tiến.

Với thành phần truy vấn, nhận dữ liệu đầu vào là dữ liệu chuỗi thời gian
hoặc ảnh sẽ đƣợc chuyển sang chuỗi thời gian, đƣợc chuẩn hóa dữ liệu, thu giảm số
chiều để cùng số chiều với tập dữ liệu, biến đổi Fourier và thực hiện tìm kiếm trên


5

cấu trúc chỉ mục VP cải tiến. Giải thuật tìm kiếm cũng đƣợc cải tiến phù hợp với
cây VP cải tiến và từ các giải thuật [9] [15] [23].
Luận văn thực hiện 2 cải tiến: đề xuất sử dụng cây VP chỉ nén dữ liệu ở nút
lá, không nén dữ liệu tại nút gốc và nút trung gian; cải tiến giải thuật tìm kiếm trên
cây VP cải tiến.
Qua thực nghiệm cho thấy các cải tiến đã mang lại kết quả đáng kể trong
việc giảm thời gian tìm kiếm ảnh.
1.6 Cấu trúc của luận văn
Phần còn lại của luận văn đƣợc tổ chức nhƣ sau:
Chƣơng 2 trình bày tổng quan các cơng trình liên quan về các hàm tính độ
tƣơng tự, các phƣơng pháp thu giảm số chiều, các cấu trúc chỉ mục phổ biến, các
phƣơng pháp xử lý phép quay ảnh.
Chƣơng 3 làm rõ cơ sở lý thuyết nền tảng của các phƣơng pháp biểu diễn,
các giải thuật, cấu trúc dữ liệu dùng làm chỉ mục đƣợc chọn sau khi khảo sát các
cơng trình có liên quan ở chƣơng 2. Cụ thể đó là phép biến đổi Fourier để đạt đƣợc
tính bất biến trong phép quay, kỹ thuật nén và xây dựng hàm biên dƣới; cấu trúc chỉ
mục VP-Tree và giải thuật tìm kiếm lân cận trên VP-Tree.
Chƣơng 4, chúng tơi trình bày về phƣơng pháp giải quyết vấn đề, các đề xuất
trên cấu trúc VP-Tree và hiệu chỉnh giải thuật tìm kiếm lân cận cho phù hợp trên
cấu trúc đề xuất. Hệ thống hiện thực hóa phƣơng pháp giải quyết vấn đề cũng sẽ
đƣợc giới thiệu trong chƣơng 4.
Chƣơng 5, nêu ra các tiêu chuẩn tiến hành thực nghiệm. Các kết quả thực
nghiệm đƣợc công bố và so sánh. Chúng tôi chạy thực nghiệm hệ thống trên các tập

dữ liệu khác nhau. Ứng với mỗi tập dữ liệu, chúng tôi kiểm tra với các thông số
thiết lập khác nhau.
Chƣơng 6 là một số kết luận và hƣớng mở rộng của đề tài.


6

CHƢƠNG 2:

TỔNG THUẬT CÁC CƠNG TRÌNH LIÊN QUAN

Chƣơng này sẽ tổng thuật các cơng trình về độ đo tƣơng tự, các phƣơng pháp
biểu diễn dữ liệu chuỗi thời gian (gồm các phƣơng pháp thu giảm số chiều và các
phƣơng pháp rời rạc hóa dữ liệu chuỗi thời gian), các phƣơng pháp lập chỉ mục.
2.1 Cơng trình về độ đo tƣơng tự
Trong bài tốn tìm kiếm, kết quả tìm kiếm là một đối tƣợng giống với đối
tƣợng truy vấn. Sự giống nhau đó đƣợc xác định bằng độ tƣơng tự. Đánh giá độ
tƣơng tự giữa hai đối tƣợng qua khoảng cách giữa chúng. Nếu khoảng cách này
bằng không, chúng giống nhau; nếu khoảng cách này nhỏ hơn một giá trị ngƣởng r
cho trƣớc, chúng tƣơng tự nhau. Các tính chất có trong một độ đo:
D(x, y) = 0 nếu và chỉ nếu x = y
D(x, y) = D(y, x)
D(x, y) >= 0 với mọi x, y
D(x, y) < D(x, z) + D(y, z)
2.1.1 Độ đo Minkowski – Độ đo khoảng cách Euclid
n

Dist( X , Y )

( xi


p

yi ) p

i 1

trong đó,
p = 1 (độ đo Manhattan)
p = 2 (độ đo Euclid)
p = ∞ (độ đo Max)
Trong các cơng trình liên quan, độ đo Euclid đƣợc sử dụng rộng rãi vì những
ƣu điểm sau:


×