ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
NGUYỄN ĐỨC HOÀNG
T
T
R
R
U
U
Y
Y
V
V
Ấ
Ấ
N
N
Ả
Ả
N
N
H
H
T
T
H
H
E
E
O
O
N
N
Ộ
Ộ
I
I
D
D
U
U
N
N
G
G
S
S
Ử
Ử
D
D
Ụ
Ụ
N
N
G
G
T
T
R
R
Í
Í
C
C
H
H
Đ
Đ
Ặ
Ặ
C
C
T
T
R
R
Ư
Ư
N
N
G
G
T
T
R
R
Ê
Ê
N
N
N
N
Ề
Ề
N
N
W
W
A
A
V
V
E
E
L
L
E
E
T
T
S
S
Chuyên ngành: Kỹ thuật điện tử
Mã số chuyên ngành: 62527001
T
T
Ó
Ó
M
M
T
T
Ắ
Ắ
T
T
L
L
U
U
Ậ
Ậ
N
N
Á
Á
N
N
T
T
I
I
Ế
Ế
N
N
S
S
Ĩ
Ĩ
K
K
Ỹ
Ỹ
T
T
H
H
U
U
Ậ
Ậ
T
T
Tp. Hồ Chí Minh - 2013
Công trình được hoàn thành tại: Trường Đại học bách Khoa –
Đại học Quốc gia Tp. HCM
Người hướng dẫn khoa học 1: PGS. TS. Lê Tiến Thường
Người hướng dẫn khoa học 2: TS. Đỗ Hồng Tuấn
Phản biện độc lập 1: PGS. TS. Nguyễn Văn Khang
Phản biện độc lập 2: PGS. TS. Dương Anh Đức
Phản biện 1: PGS. TS. Ngô Quốc Tạo
Phản biện 2: TS. Nguyễn Thanh Hải
Phản biện 3: TS. Lê Thành Sách
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án họp tại:
Vào lúc…………giờ………ngày…… tháng………năm.
Có thể tìm hiểu luận án tại thư viện:
- Thư viện Khoa học tổng hợp Tp. HCM
- Thư viện Trường Đại học bách Khoa – ĐHQG-HCM
CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ
Các công trình công bố trên tạp chí tại Việt Nam
[1] Hoang Nguyen-Duc, Thuong Le-Tien, Tuan Do-Hong, Cao Bui-Thu, “A
new descriptor for image retrieval using contourlet cooccurrence”,
Journal of Science and Technology Development, Vietnam National
University - Ho Chi Minh City (VNU-HCM), pp 5-16, Tập 15, Số K2-2012.
[2] Nguyễn Đức Hoàng, Lê Tiến Thường, Đỗ Hồng Tuấn, Bùi Thư Cao,
Nguyễn Xuân Tý, “Một phương pháp phối hợp các đặc trưng toàn cục để
truy vấn ảnh”, Chuyên san BCVT, Tập V-1, Số 2 (22), trang 67-79, tháng
12/2009.
Các công trình công bố tại các hội nghị quốc tế
[3] Nguyễn Đức Hoàng, Lê Tiến Thường, Đỗ Hồng Tuấn, Bùi Thư Cao, “A
Survey of Classification Accuracy Using Multi-features and Multi-
kernels”, The 2013 International Conference on Advanced Technologies
for Communication (ATC 2013), Ho Chi Minh, Vietnam, October 16-18,
2013, accepted.
[4] Hoang Nguyen-Duc, Thuong Le-Tien, Tuan Do-Hong, Cao Bui-Thu,
“Performance evaluation of image retrieval algorithms using wavelet-
based feature extraction: an experimental study”, The 10th IASTED
International Conference on Visualization, Imaging, and Image Processing
(VIIP2012), Banff, Canada, July 3-5, 2012.
[5] Hoang Nguyen-Duc, Thuong Le-Tien, Tuan Do-Hong, Cao Bui-Thu,
“Texture Image Retrieval using Phase-Based Features in the Complex
Wavelet Domain”, The 2010 International Conference on Advanced
Technologies for Communication (ATC 2010), pp. 179-184, Ho Chi Minh,
Vietnam, August 20-22, 2010.
[6] Hoang Nguyen-Duc, Thuong Le-Tien, Tuan Do-Hong, Cao Bui-Thu, Ty
Ng-Xuan, “Image Retrieval Using Contourlet Based Interest Points”, 10th
International Conference on Information Science, Signal Processing and
their Applications (ISSPA 2010), pp. 93-96, Kuala Lumpur, Malaysia, May
10-13, 2010.
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
NGUYỄN ĐỨC HOÀNG
TRUY VẤN ẢNH THEO NỘI DUNG SỬ DỤNG
TRÍCH ĐẶC TRƯNG TRÊN NỀN WAVELETS
LUẬN ÁN TIẾN SĨ KỸ THUẬT
TP. HỒ CHÍ MINH NĂM 2013
ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
NGUYỄN ĐỨC HOÀNG
TRUY VẤN ẢNH THEO NỘI DUNG SỬ DỤNG
TRÍCH ĐẶC TRƯNG TRÊN NỀN WAVELETS
Chuyên ngành: Kỹ thuật điện tử
Mã số chuyên ngành: 62527001
Phản biện độc lập 1: PGS. TS. Nguyễn Văn Khang
Phản biện độc lập 2: PGS. TS. Dương Anh Đức
Phản biện 1: PGS. TS. Ngô Quốc Tạo
Phản biện 2: TS. Nguyễn Thanh Hải
Phản biện 3: TS. Lê Thành Sách
NGƯỜI HƯỚNG DẪN KHOA HỌC
1. PGS. TS. Lê Tiến Thường
2. TS. Đỗ Hồng Tuấn
i
LỜI CAM ĐOAN
Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả. Các kết
quả nghiên cứu và các kết luận trong luận án này là trung thực, và không sao chép từ
bất kỳ một nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu
(nếu có) đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng theo yêu
cầu.
Tác giả luận án
__________________________________
Nguyễn Đức Hoàng
ii
TÓM TẮT LUẬN ÁN
Mặc dù, các nhà nghiên cứu đã có nhiều nỗ lực trong những năm gần đây trong
việc nghiên cứu hệ thống truy vấn ảnh, nhưng vẫn chưa có giải thuật thuyết phục được
chấp nhận phổ biến có thể biểu diễn hoàn chỉnh các đặc điểm nhìn của con người
(human vision), đặc biệt là có thể “hiểu” được ảnh, và điều này luôn là thách thức lớn
với tất cả các nhà nghiên cứu.
So sánh với các nghiên cứu hệ thống CBIR (Content-based Image Retrieval)
công bố trước năm 2000, sự khác biệt có thể thấy trong các nghiên cứu 10 năm gần
đây là việc gia tăng của đa dạng các đặc trưng mô tả ảnh. Các đề xuất bắt nguồn từ cải
tiến những đặc trưng ảnh cơ bản (như: histogram màu, texture, shape,…) đến phát
triển những đặc trưng ảnh mới dựa trên những phép biến đổi như wavelets,
contourlets… và kết hợp đa dạng các mô hình toán học trong thiết kế hệ thống CBIR.
Do đó, Luận án tập trung nghiên cứu ứng dụng biến đổi wavelets vào thiết kế hệ thống
CBIR mà cụ thể là xây dựng các thuật toán trích đặc trưng ảnh dùng biến đổi wavelets
và giải thuật truy vấn phù hợp, cùng khả năng ứng dụng mở rộng của các đặc trưng
đề xuất.
Trong Luận án này, việc chọn lựa hướng nghiên cứu lấy biến đổi wavelets làm
cơ sở nghiên cứu sâu về thiết kế đặc trưng ảnh và ứng dụng vào truy vấn ảnh đã đạt
được kết quả nhất định. Theo đó, các bộ mô tả đặc trưng ảnh dựa trên biến đổi
wavelets đã được đề xuất kết hợp với thiết kế giải thuật truy vấn. Cụ thể, Luận án đã
đề xuất ba đặc trưng ảnh mới là: đặc trưng ảnh contourlet cooccurrence, đặc trưng
ảnh phase-based LBP, đặc trưng ảnh contourlet Harris và 4 giải thuật truy vấn ảnh là:
Giải thuật phối hợp các đặc trưng để truy vấn ảnh (matching), Giải thuật truy vấn ảnh
dùng đặc trưng contourlet cooccurrence (CC), Giải thuật truy vấn ảnh dùng đặc trưng
phase-based LBP (pbLBP), Giải thuật truy vấn ảnh dùng đặc trưng contourlet Harris
(CH).
Để có thể đánh giá được mức độ hiệu quả của một giải thuật truy vấn ảnh cần
phải có các phương pháp, tiêu chuẩn đánh giá thích hợp và đặc thù cho lĩnh vực truy
vấn ảnh. Luận án đã chọn lựa, giới thiệu bộ các phương pháp, các thông số đánh giá để
sử dụng cho các thực nghiệm của Luận án. Đây là những phương pháp và thông số
đánh giá đã được nhiều nhà nghiên cứu trong lĩnh vực truy vấn ảnh, truy vấn thông tin
iii
sử dụng nên có giá trị cao trong việc tham chiếu hiệu quả các kết quả thực nghiệm của
giải thuật đề xuất so với các giải thuật đã công bố. Ngoài ra, Luận án đã khảo sát khả
năng sử dụng đặc trưng đề xuất vào ứng dụng phân loại ảnh (image classification) là
một hướng nghiên cứu có liên quan chặt chẽ với truy vấn ảnh. Các đề xuất gồm
phương pháp MKL (Multiple Kernel Learning) kết hợp các kernel, integrate method
chọn những class có độ chính xác cao để gia tăng độ chính xác phân loại cho thấy mức
độ hiệu quả so sánh được với những phương pháp đã công bố gần đây.
Nhìn chung, Luận án này đã giới thiệu được tổng hợp các công trình công bố
quan trọng có liên quan đến hướng nghiên cứu và có những đề xuất về các bộ trích đặc
trưng ảnh, thiết kế các giải thuật truy vấn ảnh, và đã kiểm chứng hiệu quả truy vấn đề
xuất thông qua thực nghiệm cho kết quả truy vấn cải tiến hơn. Luận án cũng đã nghiên
cứu ứng dụng mở rộng của đặc trưng đề xuất trong hướng nghiên cứu phân loại ảnh.
Tất cả các công trình giới thiệu và nghiên cứu đề xuất trong Luận án này đáp ứng mục
tiêu nghiên cứu theo những “thang độ” khác nhau. Các thực nghiệm đóng vai trò minh
chứng để đưa ra các nhận định, kết luận và có giá trị tham khảo cho các nghiên cứu
sau này.
Trên cơ sở các mục tiêu đã đề ra, Luận án đã đề xuất được các bộ trích đặc trưng
ảnh mới dựa trên biến đổi wavelets, và thiết kế các giải thuật truy vấn, đề xuất các giải
pháp ứng dụng trong phân loại ảnh. Các thực nghiệm đã chứng minh được hiệu quả cải
tiến của các giải thuật đề xuất. Tóm lại, Luận án với kết quả nghiên cứu đạt được là
thiết thực, có đóng góp cụ thể, và đáp ứng được các mục tiêu đề ra cho Luận án.
iv
ABSTRACT
Although researchers have made great efforts in recent years for the study of
image retrieval systems, but no algorithm is accepted widely that can extract image
features like human visions (can “understand” images as human). This is always the
challenge to all researchers.
Compared to the previous researches of Content-based Image Retrieval (CBIR)
systems published before the year 2000, the differences viewed in the recent decades
of studies are the increasing of many image features. The improvements are based on
basic image features (such as color histogram, texture, shape …), to develop new
image features based on the transformations such as the wavelets, the contourlets…
and combine many mathematical operators to design CBIR systems. Therefore, the
thesis is focused into researches based on the wavelet transform to extract image
features then using these features to design CBIR systems and the extended application
of the proposed features.
In the thesis, the choice of using the wavelet transform to extract image features
and design CBIR systems have achieved certain results. Accordingly, the wavelet-
based feature extractors have been proposed and used to design the image retrieval
algorithms. Three new image features has been proposed as follows: contourlet
cooccurrence, phase-based LBP, contourlet Harris; and four image retrieval algorithms
as follows: global features matching (matching), using the contourlet cooccurrence
feature (CC), using the phase-based LBP feature (pbLBP), using the contourlet Harris
feature (CH).
To evaluate retrieval effectiveness of an image retrieval algorithm must have
evaluation methods, evaluation criteria appropriate to image retrieval algorithms. The
thesis presents the evaluation methods based on the experimental parameters. These
methods and parameters have been used commonly in the performance evaluation of
information retrieval and image retrieval by many researchers. So that, achieved
experimental results have high values to compare between proposed algorithms with
other related algorithms. Furthermore, the thesis also examine the possibility of using
the proposed features in image classification that is closely to the relation of CBIR. In
this extended application, the proposed methods consists of Multiple Kernel Learning
v
(MKL) and integrated methods to increase the classification accuracy. The experiment
results show the efficient perfomance compared with the state-of-the-art methods.
Overall, the thesis has introduced a combined research has proposed 3 new image
features, 4 new image retrieval algorithms. They have been verified the retrieval
effectiveness through the experimental simulations that have improved the query
results. The thesis also research an extended application of the proposed features
applied to the image classification. All of the introduced and proposed works in the
thesis have achieved the research objectives by different levels. The empirical
evidences have been used to make remarks, conclusions and maybe referenced to
further researches.
Based on the research objectives, the thesis has proposed image retrieval
algorithms using the wavelet-based feature extraction. The experiments have
demonstrated the improved retrieval effectiveness of the proposed algorithms in CBIR
and image classification. In summary, the contributions of the thesis are practical and
specific, fulfill all research objectives.
vi
LỜI CÁM ƠN
Trong quá trình thực hiện Luận án, tôi đã được các Thầy cô của Trường Đại học
Bách Khoa Tp. Hồ Chí Minh, Trung tâm Nghiên cứu Ứng Dụng Khoa học Kỹ thuật
Truyền hình (BRAC) là đơn vị nơi tôi công tác đã hỗ trợ và tạo mọi điều kiện thuận
lợi, người thân trong gia đình và bạn bè đã thường xuyên động viên. Tôi xin bày tỏ sự
cảm ơn chân thành với những sự hỗ trợ và giúp đỡ này.
Luận án này sẽ không thể hoàn thành nếu không có sự hướng dẫn tận tình và
giúp đỡ quý báu của PGS. TS. Lê Tiến Thường, TS. Đỗ Hồng Tuấn là những Người
thầy mà tôi muốn bày tỏ lòng biết ơn sâu sắc nhất.
Tôi cũng xin cảm ơn tập thể các thầy cô trong Khoa Điện-Điện tử, đặc biệt là các
Thầy cô trong Bộ môn Viễn Thông đã có những ý kiến đóng góp và phản biện trong
suốt quá trình nghiên cứu và hoàn chỉnh Luận án, cảm ơn Phòng Đào tạo sau đại học
đã hỗ trợ các thủ tục trong quá trình hoàn thành khóa học Nghiên cứu sinh.
Đặc biệt tôi xin tỏ lòng cảm ơn đến PGS. TS. Đặng Thành Tín, TS. Trịnh Hoàng
Hơn, PGS. TS. Hoàng Đình Chiến đã có những ý kiến phản biện sâu sắc trong các
chuyên đề cũng như các góp ý quan trọng về nội dung Luận án.
Xin cảm ơn Ban giám đốc Trung tâm Nghiên cứu Ứng Dụng Khoa học Kỹ thuật
Truyền hình (BRAC) – Đài Truyền hình Việt Nam nhất là TS. Trần Dũng Trình,
nguyên Giám đốc đơn vị đã có nhiều hỗ trợ về chuyên môn, về thời gian, về kinh phí,
và giúp đỡ để tôi hoàn thành Luận án này.
Tôi xin bày tỏ lòng cảm ơn đến cố PGS. TSKH. Nguyễn Kim Sách, nguyên
Giám đốc Trung tâm Nghiên cứu Ứng Dụng Khoa học Kỹ thuật Truyền hình (BRAC)
đã có những dìu dắt, hỗ trợ tôi trong nghiên cứu khoa học.
Cuối cùng, tôi cảm ơn tất cả những sự giúp đỡ của người thân, đồng nghiệp, bạn
bè đã đóng góp ý kiến, động viên khích lệ, tạo nguồn lực tinh thần to lớn để tôi có thể
thực hiện và hoàn thành được Luận án này.
vii
MỤC LỤC
1 CHƯƠNG 1 - GIỚI THIỆU 1
1.1 Đặt vấn đề 1
1.1.1 Phương pháp xử lý truy vấn 1
1.1.2 Sự cần thiết của nghiên cứu 3
1.1.3 Hướng nghiên cứu 5
1.2 Mục tiêu và nội dung nghiên cứu 10
1.3 Những đóng góp của Luận án 12
1.3.1 Nghiên cứu phối hợp các đặc trưng toàn cục để truy vấn ảnh 12
1.3.2 Nghiên cứu kết hợp biến đổi contourlets và ma trận GLCM để đề xuất
một bộ mô tả đặc trưng ảnh mới contourlet cooccurrence 12
1.3.3 Nghiên cứu kết hợp biến đổi wavelets phức và toán tử LBP để truy vấn
ảnh texture. 13
1.3.4 Nghiên cứu kết hợp biến đổi Nonsubsampled Contourlet (NSCT) và bộ
dò góc Harris để hình thành bộ trích đặc trưng contourlet Harris và thiết kế giải
thuật truy vấn 13
1.3.5 Thực nghiệm khảo sát đánh giá mở rộng các giải thuật đề xuất và so sánh
hiệu quả truy vấn với một số giải thuật đã công bố khác 14
1.3.6 Ứng dụng mở rộng của các đặc trưng đề xuất 14
1.4 Cấu trúc Luận án 14
2 CHƯƠNG 2 - CÁC KỸ THUẬT THIẾT KẾ, ĐÁNH GIÁ HỆ THỐNG TRUY
VẤN ẢNH VÀ CÁC MÔ HÌNH NGHIÊN CỨU 16
2.1 Giới thiệu 16
2.2 Các kỹ thuật trích đặc trưng ảnh 17
2.2.1 Biểu diễn và mô tả ảnh 17
2.2.2 Các đặc trưng cơ bản 18
2.2.3 Các đặc trưng dựa trên wavelets 21
2.3 Kỹ thuật đo đạc sự tương tự giữa các đặc trưng 22
2.4 Đánh giá hiệu quả giải thuật truy vấn 22
2.5 Xây dựng mô hình nghiên cứu 23
2.5.1 Các mô hình nghiên cứu trích đặc trưng ảnh 24
2.5.2 Nhận xét 33
2.6 Kết chương 34
viii
3 CHƯƠNG 3 - ĐỀ XUẤT CÁC PHƯƠNG PHÁP TRÍCH ĐẶC TRƯNG ẢNH
VÀ GIẢI THUẬT TRUY VẤN 35
3.1 Giới thiệu 35
3.2 Phối hợp các đặc trưng để truy vấn ảnh 36
3.2.1 Giới thiệu 36
3.2.2 Chọn các đặc trưng ảnh 37
3.2.3 Thiết kế giải thuật truy vấn 39
3.2.4 Độ phức tạp giải thuật 42
3.2.5 Thực nghiệm đánh giá 43
3.2.6 Kết luận 48
3.3 Truy vấn ảnh dùng đặc trưng contourlet cooccurrence 49
3.3.1 Giới thiệu 49
3.3.2 Đặc trưng ảnh contourlet cooccurrence 51
3.3.3 Lựa chọn phép đo sự tương tự mặc định 55
3.3.4 Kết quả thực nghiệm 56
3.3.5 Kết luận 58
3.4 Truy vấn ảnh dùng đặc trưng ảnh phase-based LBP 58
3.4.1 Giới thiệu 58
3.4.2 Đặc trưng ảnh Phased-Based LBP 60
3.4.3 Kết quả thực nghiệm 62
3.4.4 Kết luận 67
3.5 Truy vấn ảnh dùng đặc trưng ảnh contourlet Harris 67
3.5.1 Giới thiệu 67
3.5.2 Bộ dò contourlet Harris 69
3.5.3 Đề xuất giải thuật truy vấn 73
3.5.4 Kết quả thực nghiệm 75
3.5.5 Kết luận 77
3.6 Đánh giá MAP của các đề xuất với các kết quả trong [8] 77
3.7 Kết chương 79
4 CHƯƠNG 4 - THỰC NGHIỆM KHẢO SÁT MỨC ĐỘ HIỆU QUẢ CỦA CÁC
GIẢI THUẬT TRUY VẤN ĐỀ XUẤT 80
4.1 Giới thiệu 80
4.2 Khảo sát hiệu quả của 4 giải thuật đề xuất so với các giải thuật truy vấn ảnh
khác 80
4.2.1 Khảo sát với cơ sở dữ liệu ảnh: UIUC 81
ix
4.2.2 Khảo sát với cơ sở dữ liệu ảnh: Brodatz 87
4.3 Kết chương 93
5 CHƯƠNG 5 - ỨNG DỤNG MỞ RỘNG 96
5.1 Giới thiệu 96
5.2 Phân loại ảnh 97
5.2.1 Các bước xử lý của mô hình BoW 97
5.2.2 Mô hình Bags of Multi-features 103
5.2.3 Dùng nhiều bộ phân loại SVM cho multi-kernels và phương pháp chọn độ
chính xác trung bình đạt hiệu quả cao cho các class. 106
5.3 Kết quả thực nghiệm 108
5.3.1 Thực nghiệm 1: đánh giá hiệu quả phân loại của đặc trưng denseSBP 108
5.3.2 Thực nghiệm 2: so sánh phương pháp MKL và integrated method với các
phương pháp khác 110
5.4 Kết chương 112
6 CHƯƠNG 6 - TỔNG KẾT 114
6.1 Tóm tắt các kết quả đạt được 114
6.2 Hướng phát triển 115
6.3 Kết luận 116
7 CÁC TÀI LIỆU CÔNG BỐ CỦA TÁC GIẢ 117
7.1 Các công trình chính của Luận án 117
7.1.1 Các công trình công bố trên tạp chí tại Việt Nam 117
7.1.2 Các công trình công bố tại các hội nghị quốc tế 117
7.2 Một số công trình có liên quan đến lĩnh vực xử lý ảnh, video 118
7.3 Các đề tài cấp ngành 119
8 TÀI LIỆU THAM KHẢO 121
x
DANH MỤC CÁC HÌNH ẢNH
Hình 1-1 Trích đặc trưng trong miền không gian và miền wavelets 8
Hình 2-1 4 hướng (θ) và các khoảng cách (δ) trong ma trận Cooccurrence 26
Hình 2-2 Các pixel lân cận trên một đường tròn với tâm là pixel khảo sát. Các pixel
lân cận không rơi chính xác vào lưới pixel được nội suy 30
Hình 2-3 36 pattern nhị phân bất biến xoay có thể xảy ra trong tập các pixel lân cận
đối xứng vòng (LBP: ri, P = 8). Các vòng tròn nhỏ đen và trắng ứng với giá trị bit 0 và
1 của 8 bit ngõ ra toán tử. Hàng đầu tiên là 9 pattern “uniform” và số bên trong tương
ứng với code (LBP: riu2, P = 8). {Hình tham khảo từ [61]}. 30
Hình 2-4 Các vùng ảnh hưởng của các pixel lấy mẫu khi dùng bộ lọc trong toán tử
LBP. Bên trái: Toán tử LBP với P = 8 và 3 bán kính R; Bên phải: Các bộ lọc thông
thấp Gauss với các scale 2, 3, và 4 (tương ứng cho các bán kính R: R nhỏ ứng với lọc
Gauss có σ nhỏ (nhọn) và R lớn ứng với lọc Gauss có σ lớn (rộng hơn)). {Hình tham
khảo từ [63]} 32
Hình 2-5 Thiết kế vector đặc trưng dùng multiresolution LBP. {Hình tham khảo từ
[63]} 32
Hình 3-1 Ảnh minh họa từ cơ sở dữ liệu WANG. (a) ảnh truy vấn bên trái; (b) ảnh trả
về bên phải. 40
Hình 3-2 Khảo sát kết quả truy vấn trên 5 thể loại ảnh: Beaches, Buses, Dinosaurs,
Flowers, Horses 47
Hình 3-3 Kết quả trả về của 30 ảnh có giá trị đo đạc sự tương tự tốt nhất so với ảnh
truy vấn dùng đặc trưng phối hợp đề xuất (ảnh truy vấn ở góc trên trái của hình) 47
Hình 3-4 Kết quả trả về của cùng ảnh truy vấn trong Hình 3.3 khi dùng hệ thống truy
vấn SIMPLYcity 48
Hình 3-5 Minh họa biến đổi contourlets của một ảnh với các thông số đã xác định 52
Hình 3-6 Các mức lượng tử dùng tương ứng cho mức 1 (a) và mức 2 (b) 52
Hình 3-7 Các hướng băng con được sử dụng để tính toán các ma trận GLCM 53
Hình 3-8 Trích vector đặc trưng theo contourlet cooccurrence 55
Hình 3-9 Kết quả truy vấn với ảnh truy vấn là 600.ipg 56
Hình 3-10 Kết quả truy vấn của 3 phương pháp (dùng các đặc trưng contourlet,
cooccurrence, và contourlet cooccurrence) khảo sát trên cơ sở dữ liệu ảnh WANG 57
Hình 3-11 Vector đặc trưng được trích bởi phương pháp Phase-based LBP 61
Hình 3-12 Kết quả truy vấn của các phương pháp Phase Steerable Pyramid,
Magnitude Steerable Pyramid, Phase Gabor Wavelet, Magnitude Gabor Wavelet -
Dataset 1 64
Hình 3-13 Kết quả truy vấn của các phương pháp Phase Steerable Pyramid,
Magnitude Steerable Pyramid, Phase Gabor Wavelet, Magnitude Gabor Wavelet -
Dataset 2 64
Hình 3-14 So sánh Phase Steerable Pyramid với các phương pháp khác - Dataset 1 . 66
Hình 3-15 So sánh Phase Steerable Pyramid với các phương pháp khác - 66
Hình 3-16 Minh họa biến đổi NSCT với các thông số đã xác định 70
Hình 3-17 Phân loại các điểm trong ảnh dùng các giá trị riêng của ma trận M 71
Hình 3-18 Các điểm đặc trưng dò được khi dùng bộ dò góc Harris cho ảnh 72
Hình 3-19 Bộ dò contourlet Harris với các mức phân tích NSCT là [0, 1, 3] 72
Hình 3-20 Minh họa các tập điểm dùng bộ dò contourlet Harris 73
xi
Hình 3-21 Minh họa cách tính 3 moment (a) và đo Euclidean của 8 băng con mức 4
(b) 74
Hình 3-22 Kết quả truy vấn với ảnh truy vấn là 450.ipg 76
Hình 3-23 Kết quả truy vấn của 4 phương pháp truy vấn (dùng các đặc trưng
contourlet, NSCT, coocurrence, và contourlet Harris) khảo sát trên cơ sở dữ liệu ảnh
WANG 76
Hình 3-24 So sánh MAP của 4 giải thuật đề xuất với các kết quả trong [8] 78
Hình 4-1 Các biểu đồ stairstep các thông số đánh giá của giải thuật: matching, CC,
pbLBP, CH, GGD&KLD, Gabor, contourlet, HMT, curvelet (UIUC) 83
Hình 4-2 Các biểu đồ cột đánh giá của giải thuật: matching, CC, pbLBP, CH,
GGD&KLD, Gabor, contourlet, HMT, curvelet (UIUC) 83
Hình 4-3 Các biểu đồ cột đánh giá MAP của giải thuật: matching, CC, pbLBP, CH,
GGD&KLD, Gabor, contourlet, HMT, curvelet (UIUC) 84
Hình 4-4 Các biểu đồ cột so sánh R-precision A/B của giải thuật matching với các giải
thuật GGD&KLD, Gabor, contourlet, HMT, curvelet (UIUC) 84
Hình 4-5 Các biểu đồ cột so sánh R-precision A/B của giải thuật CC với các giải thuật
GGD&KLD, Gabor, contourlet, HMT, curvelet (UIUC) 85
Hình 4-6 Các biểu đồ cột so sánh R-precision A/B của giải thuật pbLBP với các giải
thuật GGD&KLD, Gabor, contourlet, HMT, curvelet (UIUC) 85
Hình 4-7 Các biểu đồ cột so sánh R-precision A/B của giải thuật CH với các giải thuật
GGD&KLD, Gabor, contourlet, HMT, curvelet (UIUC) 86
Hình 4-8 Các đường cong PR của các giải thuật matching, CC, pbLBP, CH,
GGD&KLD, Gabor, contourlet, HMT (UIUC). 86
Hình 4-9 P(10), P(30), P(N/2), P(N) - Brodatz 88
Hình 4-10 P(Best, 10), P(Best, 30), P(Best
5
, 10), P(Best
5
, 30) – Brodatz 88
Hình 4-11 R(N), R(N/2), R(Best, N), R(Best, N/2 – Brodatz 88
Hình 4-12 Các biểu đồ cột đánh giá của giải thuật: matching, CC, pbLBP, CH,
GGD&KLD, Gabor, contourlet, HMT, curvelet – Brodatz 89
Hình 4-13 Các biểu đồ cột đánh giá MAP của giải thuật: matching, CC, pbLBP, CH,
GGD&KLD, Gabor, contourlet, HMT, curvelet – Brodatz 90
Hình 4-14 Các biểu đồ cột so sánh R-precision A/B của giải thuật matching với các
giải thuật GGD&KLD, Gabor, contourlet, HMT, curvelet - Brodatz 91
Hình 4-15 Các biểu đồ cột so sánh R-precision A/B của giải thuật CC với các giải thuật
GGD&KLD, Gabor, contourlet, HMT, curvelet – Brodatz 91
Hình 4-16 Các biểu đồ cột so sánh R-precision A/B của giải thuật pbLBP với các giải
thuật GGD&KLD, Gabor, contourlet, HMT, curvelet - Brodatz 92
Hình 4-17 Các biểu đồ cột so sánh R-precision A/B của giải thuật CH với các giải thuật
GGD&KLD, Gabor, contourlet, HMT, curvelet – Brodatz 92
Hình 4-18 Các đường cong PR của các giải thuật matching, CC, pbLBP, CH,
GGD&KLD, Gabor, contourlet, HMT, curvelet – Brodatz 93
Hình 5-1 Qui trình xử lý phân loại dùng mô hình BoW 97
Hình 5-2 Minh họa cho các phương pháp chia lưới trong ảnh 98
Hình 5-3 Minh họa SPM từ [114]: 3 loại đặc trưng biểu diễn bởi chấm tròn, hình thoi,
và dấu cộng. Ảnh được chia thành 3 mức khác nhau, mức 1 tính được 1 histogram,
mức 2 tính được 4 histogram ứng với 4 vùng, và mức 3 tính được 16 histogram ứng
với 16 vùng được chia. 103
xii
Hình 5-4 Ma trận biểu diễn các hàm mã hóa và tổng hợp cho bộ mô tả des (hình
được thay đổi dự trên mô hình [119]) 104
Hình 5-5 Độ chính xác trung bình của các class dùng hàm kernel (kchi2) ứng với
30 ảnh huấn luyện và 30 ảnh kiểm tra mỗi class. 109
Hình 5-6 Độ chính xác trung bình của các class dùng hàm kernel Intersection
(histintersection) ứng với 30 ảnh huấn luyện và 30 ảnh kiểm tra mỗi class. 109
Hình 5-7 Độ chính xác trung bình của các class dùng hàm kernel L
1
(L1jame) ứng với
30 ảnh huấn luyện và 30 ảnh kiểm tra mỗi class. 110
xiii
DANH MỤC BẢNG BIỂU
Bảng 2.1 Các hướng θ 26
Bảng 2.2 Các đặc trưng texture từ ma trận GLCM 26
Bảng 2.3 Hướng θ tương ứng với các băng con của wavelet Haar 28
Bảng 3.1 Thứ tự kết quả truy vấn của ảnh đối tượng 44
Bảng 3.2 Thời gian xử lý 45
Bảng 3.3 Trích các đặc trưng texture từ ma trận GLCM 53
Bảng 3.4 So sánh độ chính xác trung bình của các phương pháp truy vấn dùng wavelet
correlogram và contourlet cooccurrence 57
Bảng 3.5 So sánh độ chính xác trung bình của các phương pháp Phase-Based LBP với
các phương pháp Magnitude-Based LBP 65
Bảng 3.6 So sánh độ chính xác trung bình của phương pháp Phase Steerable Pyramid
với các phương pháp khác 66
Bảng 3.7 Tham chiếu độ chính xác trung bình của phương pháp đề xuất với các hệ
thống truy vấn khác 77
Bảng 3.8 Thứ hạng MAP của 4 giải thuật đề xuất 78
Bảng 4.1 Tổng hợp các thông số khảo sát 9 giải thuật trên UIUC 82
Bảng 4.2 Tổng hợp các thông số khảo sát 9 giải thuật trên Brodatz 87
Bảng 4.3 Kết quả khảo sát thông số trong các giải thuật đề xuất (tập ảnh khảo sát
WANG) trong thực nghiệm Mục D.1 94
Bảng 4.4 Kết quả khảo sát mức độ hiệu quả giữa các giải thuật truy vấn đề xuất thực
nghiệm Mục D.2 94
Bảng 4.5 Kết quả khảo sát hiệu quả của 4 giải thuật đề xuất so với các giải thuật truy
vấn ảnh khác trong thực nghiệm Mục 4.2 95
Bảng 5.1 Giải thuật cho integrated method 107
Bảng 5.2 So sánh các đề xuất với các phương pháp khác trên 15 Scenes 111
Bảng 5.3 So sánh các đề xuất với các phương pháp khác trên Caltech 101 112
xiv
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt
Diễn giải tiếng Anh
Chú thích nghĩa tiếng Việt
ALIP
Automatic Linguistic Indexing of
Pictures
(Hệ thống) truy vấn ảnh ALIP
AP
Average Precision
Độ chính xác trung bình
ASIFT
Affine-SIFT
(Đặc trưng) Affine-SIFT
BoW
Bag-of-words
Mô hình túi các từ mã - BoW
CBIR
Content-based Image Retrieval
Truy vấn ảnh dựa trên nội dung
CC
Contourlet Cooccurrence
(Giải thuật) truy vấn/đặc trưng
ảnh CC
CCV
Color Coherence Vector
Vector đặc trưng màu CCV
CDFB
Complex Directional Filter Bank
Bộ lọc băng hướng phức
CH
Contourlet Harris
(Giải thuật) truy vấn/đặc trưng
ảnh CH
CW3C
Color-W3C
(Giải thuật) truy vấn ảnh CW3C
DCT
Discrete Cosine Transform
Biến đổi cosin rời rạc
DFB
Directional Filter Bank
Dãy bộ lọc hướng
DM
Discriminative Method
Phương pháp DM
DO
Dominant Orientation
Hướng trội (của băng con)
DoG
Difference of Gaussians
Bộ dò DoG
DoH
Determinant of Hessian
Bộ dò DoH
DS
Dominant Scale
Scale trội (của băng con)
DWT
Discrete Wavelet Transform
Biến đổi wavelet rời rạc
EM
Expectation Maximization
Ước lượng Expectation
Maximization
EMD
Earth Mover’s Distance
Phép đo EMD
ES
Evolutionary Society
(Thuật toán) tiến hóa
FB
Filter Bank
Dãy bộ lọc
FIRE
Flexible Image Retrieval Engine
(Hệ thống) truy vấn ảnh FIRE
GA
Genetic Algorithm
Giải thuật di truyền
GGD
Gereralized Gaussian Density
Hàm mật độ Gauss chung/tổng
quát
GIF
Graphics Interchange Format
Định dạng ảnh .gif
GLCM
Grey Level Cooccurrence Matrix
Ma trận GLCM (cooccurrence)
GMM
Gaussian Mixture Model
Mô hình Gauss trộn
HMC
Hidden Markov Chain
Chuỗi Markov ẩn
HMM
Hidden Markov Model
Mô hình Markov ẩn
HMT
Hidden Markov Tree
Mô hình cây Markov ẩn
HOG
Histogram of oriented gradients
Đặc trưng ảnh HOG
HSV
Hue, Saturation, Value
Không gian màu HSV
HVS
Human Visual System
Hệ thống thị giác của người
KLD
Kullback-Leibler Distance
Phép đo Kullback-Leibler
IM
Independent Mixture
Mô hình trộn độc lập
IRM
Intergrated Region Matching
Phép đo vùng tích hợp
xv
JPEG
Joint Photographic Experts Group
Định dạng ảnh .jpg
LBP
Local Binary Pattern
(Toán tử) LBP
LBP-HF
LBP - Histogram Fourier
(Toán tử )LBP-HF
LGPDP
Local Gabor Phase Difference
Pattern
(Toán tử) LGPDP
LoG
Laplacian of Gaussian
(Bộ dò) LoG
LP
Laplacian Pyramid
(Toán tử) LP
MAP
Mean Average Orecision
Trung bình của AP
matching
(Giải thuật) truy vấn phối hợp
các đặc trưng
MHMM
Multiresolution Hidden Markov
Model
Mô hình Markov ẩn đa phân giải
MKL
Multiple Kernel Learing
Giải thuật học kết hợp các kernel
ML
Maximum-Likelihood
Ước lượng Maximum-
Likelihood
MP
Matching Pursuit
Phương pháp MP
MPE
Multivariate Power Exponential
Hàm mũ đa biến
MPEG-7
Moving Picture Experts Group – 7
Chuẩn MPEG-7
MRF
Markov Random Filed
MSRC
Microsoft Research Cambridge
Object Recognition Image
Database
Tập ảnh thực của MSRC
MUVIS
CBIR System at TUT- Tampere
University of Technology
Hệ thống truy vấn multimedia
MUVIS
NIST
National Institute Standard and
Technology
Viện tiêu chuẩn và công nghệ
quốc gia (Mỹ)
NSCT
Nonsubsample Contourlet
Transform
Biến đổi NSCT (contourlet
không giảm mẫu)
NSDFB
Nonsubsample DFB
Bộ lọc băng hướng không giảm
mẫu
NSP
Nonsubsample Pyramid
Pyramid không giảm mẫu
OQWC
Optimal Quantized Wavelet
Correlogram
(Giải thuật) truy vấn ảnh OQWC
pbLBP
Phase-based LBP
(Giải thuật) truy vấn pbLBP
PCA
Principle Component Analysis
Phân tích thành phần chính
PDF
Probability Density Function
Hàm mật độ xác suất
pmf
Probability mass function
Hàm khối xác suất
PNG
Portable Network Graphics
Định dạng ảnh .png
PPM
Portable PixelMap
Định dạng ảnh .ppm
RANK
Normalized Average Rank
Thứ hạng trung bình chuẩn
RGB
Red, Green, Blue
Không gian màu RGB
RP
R-precision
Độ chính xác với R = R
q
SD
Standard Deviation
Độ lệch chuẩn (variance –
moment bậc 2)
SIFT
Scale-Invariant Feature Transform
Biến đổi đặc trưng bất biến scale
xvi
SIMPLIcity
Semantic-Sensitive Integrated
Matching for Picture Libraries
(Hệ thống) truy vấn ảnh
SIMPLIcity
SPM
Spatial Pyramid Matching
Cơ chế pyramid trong không
gian ảnh
SQL
Structural Query Language
Ngôn ngữ truy vấn theo cấu trúc
SUSAN
Smallest Univalue Segment
Assimilating Nucleus
(Bộ dò) góc SUSAN
SVM
Support vector machines
(Giải thuật) phân loại SVM
TIFF
Tagged Image File Format
Định dạng ảnh .tiff
TREC
Text REtrieval Conference
Hội nghị truy vấn TREC
W3C
Wavelet CCV-Correlogram
(Giải thuật) truy vấn ảnh W3C
UIUC
UIUC Texture Image Database
Tập ảnh texture từ UIUC
WBIIS
Wavelet-Based Image Indexing
and Searching
(Hệ thống) truy vấn ảnh WBIIS
WC
Wavelet Correlogram
Đặc trưng wavelet correlogram
WD-HMM
Wavelet Domain Hidden Markov
Model
Mô hình Markov ẩn trong miền
wavelet
XML
eXtensible Markup Language
Ngôn ngữ Đánh dấu Mở rộng
2
Từ khóa: người sử dụng đề xuất yêu cầu đơn giản bằng 1 hoặc 2 từ. Đây hiện
là cách phổ biến nhất để truy vấn ảnh, ví dụ: các công cụ truy vấn ảnh của
Google và Yahoo!
Nhóm từ: người sử dụng dùng một nhóm từ, câu, câu hỏi hoặc một diễn giải
thể hiện mong muốn cần hệ thống đáp ứng.
Ảnh mẫu: người sử dụng muốn truy vấn một ảnh tương tự so với ảnh yêu cầu.
Sử dụng một ảnh làm cơ sở truy vấn là cách phổ biến nhất để yêu cầu hệ thống
truy vấn khi không có các dữ liệu metadata tin cậy.
Ảnh đồ họa: dùng hình vẽ tay hoặc công cụ đồ họa máy tính tạo ra một hình
ảnh mong muốn và yêu cầu hệ thống truy vấn ảnh tương tự.
Tổng hợp: gồm kết hợp một hoặc nhiều phương thức truy vấn giới thiệu ở
trên, và có thể bao gồm khả năng tương tác như trong các hệ thống hồi tiếp
(relevance feedback systems).
Từ các phương thức truy vấn trên, các hệ thống truy vấn sẽ được thiết kế và phân
loại dựa trên thông tin đặc trưng mà nó xử lý. Theo đó, các thông tin sử dụng thường
dựa trên:
Dựa trên text (Text-based): xử lý yêu cầu truy vấn dựa trên text thường thực
hiện trên một hoặc nhiều từ khóa (keyword), hay nhóm từ nhập từ người dùng
và so sánh với thông tin metadata của các ảnh trong cơ sở dữ liệu. Khi xử lý
một nhóm từ dùng để truy vấn, quá trình xử lý có thể bao gồm việc phân tích,
xử lý để hệ thống có thể “hiểu” được yêu cầu của người dùng (có thể hiểu như
dịch ngôn ngữ của người dùng sang ngôn ngữ mà hệ thống hiểu được). Điều
này sẽ cần kết hợp với một số quá trình xử lý ngôn ngữ tự nhiên.
Dựa trên nội dung (Content-based): việc xử lý yêu cầu truy vấn dựa trên nội
dung là trọng tâm của tất cả các hệ thống CBIR (Content-Based Image
Retrieval). Bước đầu, hệ thống phải trích các đặc trưng của ảnh truy vấn (là
ảnh mẫu hay ảnh đồ họa do người dùng yêu cầu), sau đó các đặc trưng ảnh
này sẽ được so sánh với tập các đặc trưng ảnh của cơ sở dữ liệu ảnh trong hệ
thống. Hệ thống sẽ trả về kết quả là những ảnh trong cơ sở dữ liệu có các giá
trị đo đạc sự khác biệt (về đặc trưng ảnh) nhỏ nhất so với ảnh truy vấn. Đây
cũng là hệ thống được nghiên cứu trong Luận án này.
4
ảnh (các dấu hiệu mô tả đặc trưng về nội dung của ảnh) để phục vụ cho mục tiêu truy
vấn ảnh tương tự nhau.
Hệ thống CBIR gồm hai giai đoạn xử lý: offline và online. Việc tách riêng hai
giai đoạn này dựa trên cơ chế hoạt động của hệ thống. Phụ lục C thiết kế một hệ thống
CBIR hoạt động theo cơ chế này.
Có thể thấy với một hệ thống CBIR, giải thuật trích đặc trưng ảnh đóng vai trò
diễn dịch nội dung của ảnh thành ngôn ngữ hệ thống. Đây cũng là trọng tâm nghiên
cứu của Luận án này. Dĩ nhiên, hệ thống CBIR còn gồm các thành phần khác cũng rất
quan trọng như phép đo đạc sự tương tự giữa các đặc trưng ảnh, cấu trúc cơ sở dữ liệu
ảnh và đặc trưng ảnh, sức mạnh phần cứng, giải thuật phần mềm cho toàn hệ thống,…
khi quan tâm đến việc triển khai theo hướng thương mại hệ thống.
Trong hơn một thập kỷ vừa qua, công cụ toán học wavelets đã nhận được sự
quan tâm đặc biệt của nhiều nhà nghiên cứu trong việc ứng dụng vào các lĩnh vực tài
chính, công nghệ thông tin, điện tử-viễn thông,… Hiệu quả của công cụ này đã được
thừa nhận qua rất nhiều những công trình đã được công bố. Xét trong phạm vi hẹp của
lĩnh vực xử lý ảnh và ứng dụng trong hệ thống CBIR cũng có khá nhiều công trình
ứng dụng công cụ này đã được giới thiệu. Bản thân của biến đổi wavelets cũng có
những bước phát triển sang các thế hệ wavelets kế tiếp với nhiều khả năng biểu diễn
dữ liệu (ví dụ: dữ liệu âm thanh, hình ảnh, video,…) đạt hiệu quả hơn.
Cụ thể, một số công trình được công bố như [4] dùng biến đổi wavelets
Daubechies để trích đặc trưng ảnh và thiết kế hệ thống truy vấn. Tuy nhiên, hệ thống
này sử dụng biến đổi wavelets Daubechies chưa vận dụng được những ưu điểm của
các biến đổi wavelets cải tiến sau này. Các nghiên cứu khác [5], [6] cũng sử dụng biến
đổi wavelets kết hợp các mô hình toán học khác để trích đặc trưng ảnh…
Như vậy, việc xây dựng các hệ thống CBIR là vấn đề đang nhận được quan tâm
phát triển của nhiều nhà nghiên cứu. Những công trình đã công bố rải rác từ năm 2000
cho đến nay cho thấy khả năng ứng dụng wavelets để trích đặc trưng ảnh và thiết kế hệ
thống CBIR có thể mang lại hiệu quả truy vấn cao. Rõ ràng, hướng nghiên cứu này
vẫn còn nhiều “vùng” cần được khảo sát, và luôn có những kết quả mới trong các công
trình công bố gần đây. Vì thế, cần một nghiên cứu chi tiết, sâu hơn về vấn đề “Truy
vấn ảnh theo nội dung sử dụng trích đặc trưng trên nền wavelets” và đó cũng chính là
6
trên một vùng của ảnh). Với đặc trưng cục bộ, kích thước khác nhau của vùng
ảnh mô tả được xét đến: một số bộ mô tả chỉ dùng các vùng ảnh vuông nhỏ
trong khi một số khác quan tâm đến một phần lớn của ảnh (như các vùng phân
đoạn của ảnh). Vị trí để trích đặc trưng cục bộ cũng rất đa dạng (như: dựa trên
các điểm chia theo dạng lưới hoặc dựa trên các điểm đặc thù dò được,…).
Tạo codebook: Khi sử dụng các đặc trưng cục bộ cần có một mô hình biểu
diễn giúp phân loại, nhận diện, “hiểu” được ảnh. Một mô hình được sử dụng
nhiều là mô hình bag-of-words (BoW - nghĩa là các đặc trưng của ảnh có thể
biểu diễn theo một bộ từ điển các “words” xác định), đây là quá trình tạo ra
các codebook hay còn gọi là bộ từ điển. Ví dụ, một phương pháp phổ biến là
phân cluster tập các đặc trưng mô tả cục bộ sử dụng k-mean (thường là từ 500-
2000 clusters), sau đó mỗi ảnh được biểu diễn bởi một histogram theo số
lượng đặc trưng cục bộ được phân vào các cluster. Chương 5 sẽ giới thiệu chi
tiết hơn về mô hình BoW cho ứng dụng mở rộng của Luận án.
Phương pháp phân loại: Với một bộ mô tả đặc trưng ảnh, quá trình phân loại
được sử dụng để dự đoán thể loại của ảnh khảo sát. Các thông số trong quá
trình phân loại được xác định dựa trên dữ liệu huấn luyện và có thể tinh chỉnh
trong quá trình xác nhận dữ liệu. Một số phương pháp được sử dụng là ước
tính mô hình phân bố xác suất của các dữ liệu quan sát (dữ liệu mẫu) cho mỗi
lớp (class) và dùng mô hình này để dự đoán lớp, thể loại của ảnh khảo sát…
Bước hậu xử lý: Sau bước phân loại, có thể sử dụng thêm các bước xử lý để
tinh chỉnh kết quả. Cách tiếp cận phổ biến là phân tích mối tương quan (co-
occurrence hoặc correlation) của ngữ cảnh khái niệm (concept context) trong
dữ liệu huấn luyện.
Ví dụ trong [8], Thomas Deselaers phân các đặc trưng ảnh theo: (a) biểu diễn đặc
trưng màu; (b) biểu diễn đặc trưng texture; (c) các đặc trưng cục bộ; (d) các đặc trưng
shape (loại đặc trưng này theo cách ứng dụng trong thực nghiệm của tác giả thực ra
không biểu diễn hoàn toàn được shape trong ảnh do các yêu cầu liên quan đến giải
thuật phân đoạn ảnh). Các đặc trưng cục bộ (LF – local feature) của Thomas Deselaer
được dựa trên các image patch. Các image patch được trích dựa trên: (a) các điểm đặc
thù (salient point) của ảnh và dùng phương pháp giảm kích thước như PCA; (b) dùng