Tải bản đầy đủ (.pdf) (22 trang)

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH: PHƯƠNG PHÁP TRA CỨU ẢNH DỰA VÀO PHÂN CỤM ẢNH VÀ ỨNG DỤNG VÀO BÀI TOÁN TRA CỨU ẢNH PHONG CẢNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (702.63 KB, 22 trang )





BỘ GIÁO DỤC VÀ ĐÀO TẠO TẬP ĐOÀN BƯU CHÍNH VIỄN THÔNG VIỆT NAM
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG



NGUYỄN QUỲNH ANH

PHƯƠNG PHÁP TRA CỨU ẢNH DỰA VÀO PHÂN CỤM ẢNH
VÀ ỨNG DỤNG VÀO BÀI TOÁN TRA CỨU
ẢNH PHONG CẢNH

CHUYÊN NGÀNH : KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01

TÓM TẮT LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH




HÀ NỘI – 2011































Luận văn được hoàn thành tại:
Học viện Công nghệ Bưu chính Viễn thông
Tập đoàn Bưu chính Viễn thông Việt Nam

Người hướng dẫn khoa học:
Pgs.Ts Ngô Quốc Tạo
Phản biện 1: ……………………………………………………

……………………………………………………

Phản biện 2: ……………………………………………………
……………………………………………………

Luận văn sẽ được bảo vệ trước hội đồng chấm luận văn tại
Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm

MỞ ĐẦU
Tra cứu ảnh dựa theo nội dung là kỹ thuật cho phép trích chọn các đặc điểm dựa vào
nội dung trực quan của ảnh như màu sắc, kết cấu, hình dạng và bố cục không gian của
ảnh để làm cơ sở cho việc tra cứu, sắp xếp, tổ chức CSDL ảnh. Tuy nhiên, khi CSDL ảnh
lớn thì phương pháp tìm kiếm ảnh tuần tự sẽ tốn rất nhiều thời gian. Để tăng tốc hệ thống
tra cứu ảnh dựa vào nội dung, cần có một số kỹ thuật tra cứu ảnh nhanh. Đề tài "Phương
pháp tra cứu ảnh dựa vào phân cụm ảnh và ứng dụng vào bài toán tra cứu ảnh phong
cảnh " trình bày ứng dụng thuật toán phân cụm có thứ bậc (Agglomerative Hierarchical
Clustering) vào bài toán tra cứu ảnh dựa vào nội dung sử dụng đặc trưng màu với mục
đích phân tập ảnh trong CSDL thành các cụm ảnh có màu sắc tương tự nhau, khi tiến
hành tra cứu hệ thống chỉ phải so sánh ảnh truy vấn với cụm ảnh tương tự nhất mà không
phải so sánh trên toàn bộ ảnh trong CSDL.
Luận văn được bố cục thành 3 chương:
Chương 1: Giới thiệu tổng quan về tra cứu ảnh dựa vào nội dung, kỹ thuật đánh chỉ số
ảnh, một số hạn chế của các phương pháp tra cứu ảnh và nội dung nghiên cứu của đề tài.
Chương 2: Trình bày kỹ thuật phân cụm có thứ bậc (Agglomerative Hierarchical
Clustering -AHC) áp dụng cho bài toán tra cứu ảnh dựa vào nội dung sử dụng đặc trưng
màu sắc.
Chương 3: Trình bày thiết kế và xây dựng hệ thống thực nghiệm tra cứu ảnh ứng dụng
kỹ thuật phân cụm có thứ bậc (AHC) vào bài toán tra cứu ảnh phong cảnh.
Cuối cùng chúng tôi đưa ra một số kết luận và đề xuất các hướng nghiên cứu.






Chương 1
TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG
1.1 GIỚI THIỆU TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG
1.1.1 Giới thiệu chung
Sự phát triển mạnh mẽ của công nghệ ảnh số làm số lượng ảnh lưu trữ trên web tăng lên
một cách nhanh chóng. Để tìm kiếm bức ảnh theo mong muốn là rất khó khăn. Các kỹ
thuật tra cứu ảnh được thực hiện chủ yếu theo hai hướng: kỹ thuật dựa vào văn bản mô tả
ảnh, kỹ thuật dựa vào nội dung ảnh.
Kỹ thuật tra cứu ảnh dựa vào văn bản đó là sử dụng các từ khóa để mô tả nội dung ảnh,
kỹ thuật này có các hạn chế sau:
- Sử dụng tập từ khoá mô tả ảnh rất lớn và phức tạp
- Cần nguồn nhân lực xây dựng các từ khoá đối với mỗi ảnh.
- Việc mô tả phụ thuộc vào cảm nhận chủ quan của người xây dựng.
Kỹ thuật tra cứu ảnh dựa vào nội dung là sử dụng kỹ thuật trích rút đặc trưng thị giác
một cách tự động để cho ra các mô tả nội dung ảnh một cách trực tiếp từ chính bản thân
ảnh. Kỹ thuật tra cứu này đã khắc phục được các khó khăn ở trên
Hiện nay trên thị trường có nhiều các hệ thống tìm kiếm ảnh theo nội dung đã ra đời
như: Google Image Swirl, Tiltomo, Byo Image Search
1.1.2 Đặc trưng thị giác trong tra cứu ảnh dựa vào nội dung
Các đặc trưng ảnh bao gồm:
Đặc trưng màu: là tiến hành tính toán biểu đồ màu cho mỗi ảnh để xác định tỉ trọng
các điểm ảnh của ảnh mà chứa các giá trị đặc biệt.
Đặc trưng kết cấu: Kết cấu là tập các điểm trong một vùng thỏa mãn ràng buộc hay
qui luật nào đó. Các phương pháp biểu diễn kết cấu có thể được chia thành hai loại: các
phương pháp cấu trúc và các phương pháp thống kê.

Đặc trưng hình dạng: Các đặc trưng hình dạng có quan hệ chặt chẽ với mô tả vùng
hoặc các đối tượng được phân đoạn. Đặc trưng hình dạng được trích rút từ các đường bao
đối tượng hoặc vùng chứa đối tượng.
1.1.3 Kiến trúc của hệ thống tra cứu ảnh dựa vào nội dung.
Kiến trúc chung của hệ thống tra cứu ảnh gồm 2 phần:
Phần 1 : Tạo lập CSDL ảnh cùng với thông tin đặc trưng
Phần 2 : Tra cứu ảnh









Hình 1.2: Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung
1.1.4 Giới thiệu một số hệ thống tra cứu ảnh
Dựa trên các nghiên cứu về tra cứu ảnh dựa vào nội dung ảnh, một số hệ thống tra cứu
ảnh đã được đưa vào sử dụng thương mại như: QBIC, RetrievalWare, VisualSEEk và
WebSeek, Google Image Swirl, Tiltomo, Byo Image Search…vv
1.2 KỸ THUẬT ĐÁNH CHỈ SỐ ẢNH
Mô hình được hoạt động như sau (xem hình 1.6):
Bước 1: Chuyển đổi các đối tượng trong tập ảnh thành các vector đặc trưng.
Bước 2: Đo khoảng cách hoặc đo độ tương tự giữa hai vector đặc trưng của hai ảnh bất
kỳ.
Bước 3: Đánh chỉ số cho các vector đặc trưng tạo thành lược đồ
Bước 4: Thực hiện truy vấn ảnh dựa trên lược đồ đánh chỉ số.











Hình 1.6: Mô hình truy vần sử dụng kỹ thuật đánh chỉ số trong
các ứng dụng đa phương tiện
1.2.1 Kỹ thuật đánh chỉ số nhiều chiều
Kỹ thuật đánh chỉ số trong tra cứu ảnh dựa vào nội dung hay trong khai phá dữ liệu đa
phương tiện chính là việc gán một mô tả phù hợp cho dữ liệu để có thể phát hiện ra nội
dung thông tin của dữ liệu. Mô tả của dữ liệu được trích chọn dựa trên các đặc trưng của
dữ liệu. Mô tả nội dung này được tổ chức thành các cấu trúc truy cập phù hợp giúp cho
tra cứu được thuận lợi. Chúng tôi giới thiệu hai phương pháp đánh chỉ số:
- Sử dụng các cấu trúc cây không gian.
- Sử dụng các thuật toán phân cụm.
Phương pháp đánh chỉ số sử dụng các cấu trúc không gian thực hiện gồm các bước sau:
- Giảm chiều của các vector đặc trưng
- Tìm kiếm cấu trúc dữ liệu hiệu quả để đánh chỉ số.
- Tìm các độ đo tương tự phù hợp.
Phương pháp sử dụng các kỹ thuật phân cụm để đánh chỉ số là thực hiện nhóm các cụm
dữ liệu tương tự nhau. Đây cũng là phương pháp được này áp dụng và trình bày trong
luận văn
1.2.2 Một số cấu trúc cây đánh chỉ số nhiều chiều
Các cấu trúc đánh chỉ số có thứ bậc được chia làm 2 loại:
- Các cấu trúc đánh chỉ số dựa trên phân chia không gian thực hiện phân chia đệ quy
toàn bộ không gian dữ liệu thành các vùng không gian con. Các cấu trúc này bao gồm các
cây: Hybrid-tree, kd-tree, KDB-tree, LSD-tree

- Các cấu trúc đánh chỉ số dựa trên phân chia dữ liệu bao gồm các vùng bao được hình
thành dựa trên các cụm dữ liệu gồm các cấu trúc sau: R-tree,R
*
-tree, X-tree, SS-tree, SR-
tree
1.3 MỘT SỐ HẠN CHẾ CỦA CÁC PHƯƠNG PHÁP TRA CỨU ẢNH
Các hệ thống tra cứu ảnh hiện nay thường trích chọn các đặc trưng của ảnh truy vấn và
so sánh với các đặc trưng tương ứng của tất cả các ảnh được lưu trữ trong CSDL. Vì vậy
thời gian tìm kiếm tăng tuyến tính với kích thước của cơ sở dữ liệu.
Các kỹ thuật tìm kiếm nhanh khác cũng đã được nhiều nhà nghiên cứu đề xuất như: kỹ
thuật tìm kiếm nhanh được Barros và các đồng nghiệp sử dụng bất đẳng thức tam giác để
giảm thời gian tìm kiếm. Chen và các đồng nghiệp đề xuất kỹ thuật lượng hóa vector và
sử dụng bất đẳng thức tam giác.Cả hai kỹ thuật này đều yêu cầu độ đo tương tự được sử
dụng để so sánh hai ảnh phải thỏa mãn bất đẳng thức tam giác. Tuy nhiên hạn chế là
không phải tất cả độ đo tương tự đều thỏa mãn được bất đẳng thức tam giác. Các kỹ thuật
đánh chỉ số sử dụng cấu trúc cây R-Tree, R*- Tree, SR-Tree, SS-Tree, Kdb-Tree được
trình bày ở trên tuy nhiên nhược điểm của các phương pháp này là không thực hiện tốt
khi số chiều của các vector đặc trưng lớn.
Để khắc phục nhược điểm trên chúng tôi trình bày phương pháp tạo ra một lược đồ
được đánh chỉ số bằng cách nhóm các ảnh tương tự nhau theo nội dung của ảnh.
1.4 NỘI DUNG NGHIÊN CỨU CỦA ĐỀ TÀI
Nội dung nghiên cứu của đề tài là áp dụng phương pháp phân cụm có thứ bậc
Agglomerative Hierarchical clustering (AHC) cho bài toán tra cứu ảnh theo nội dung sử
dụng đặc trưng màu. Mục đích của phương pháp là nhóm các ảnh có nội dung về màu sắc
tương tự nhau thành các cụm và thực hiện tính các tâm cụm. Khi tra cứu ảnh thì chỉ cần
tìm kiếm ảnh tương tự trong một cụm ảnh và không phải tìm kiếm trong toàn bộ CSDL.
1.5 KẾT LUẬN CHƯƠNG 1
Trong chương này, chúng tôi đã trình bày tổng quan về tra cứu ảnh dựa vào nội dung,
trình bày các kỹ thuật đánh chỉ số ảnh. Nghiên cứu, tìm hiểu đưa ra một số hạn chế trong
các phương pháp, các công trình liên quan tới tra cứu ảnh nhanh qua đó trình bày nội

dung nghiên cứu của luận văn.


CHƯƠNG 2
KỸ THUẬT PHÂN CỤM ẢNH CÓ THỨ BẬC ÁP DỤNG CHO TRA CỨU ẢNH
DỰA VÀO NỘI DUNG

2.1 CÁC KHÁI NIỆM TRONG KỸ THUẬT TRA CỨU ẢNH THEO ĐẶC TRƯNG
MÀU
2.1.1 Đặc trưng màu: Đặc trưng màu là một trong những thành phần quan trọng giúp
mắt người nhận dạng ảnh. Là thành phần cơ bản của nội dung ảnh. Nó cung cấp một
lượng thông tin lớn cho việc phân loại ảnh. Đặc trưng màu được sử dụng rất hiệu quả cho
tra cứu các ảnh màu trong CSDL ảnh. Các mô tả màu được trích rút và so sánh tương đối
thuận lợi và do đó nó thích hợp cho tra cứu dựa vào đặc trưng thị giác.
2.1.2 Lượng hóa màu: Lượng hoá màu là quá trình giảm số các màu được sử dụng để
biểu diễn một ảnh. Một lược đồ lượng hoá được xác định bởi không gian màu và phân
đoạn của không gian màu.
2.1.3 Các không gian màu: Không gian màu là một mô hình đại diện cho màu về mặt giá
trị độ sáng. Một không gian màu xác định bao nhiêu thông tin màu được thể hiện. Nó
định nghĩa không gian 1, 2, 3 hoặc 4 chiều mà mỗi chiều của nó gọi là một thành phần
đại diện cho những giá trị độ sáng. Mô hình không gian màu có thể được phân biệt như
hướng phần cứng và hướng người dùng. Các không gian màu hướng phần cứng dựa trên
l ý thuyết ba màu bao gồm: RGB, CMY và YQI. Các không gian màu hướng người dùng
dựa trên ba tri giác màu của con người là độ bão hòa, độ sáng và đặc trưng màu bao gồm:
HLS, HCV, HSV, HSB, MTM, CIE-LAB và CIE- LUV.
2.1.4 Lược đồ màu: Lược đồ màu là công cụ hiệu quả trong việc mô tả phân bố màu toàn
cục của ảnh. Nó được xác định bằng một tập các bin, trong đó mỗi bin biểu thị xác suất
của các pixel của một màu trong ảnh.
2.1.5 Kỹ thuật tra cứu ảnh dựa vào đặc trưng màu: Hai kỹ thuật được sử dụng trong
tra cứu ảnh dựa trên màu sắc đó là lược đồ màu toàn cục và biểu đồ màu cục bộ

2.1.6 Độ đo tương tự giữa các lược đồ màu: Tra cứu ảnh theo nội dung tính toán độ
tương tự thị giác giữa ảnh truy vấn và các ảnh trong CSDL. Kết quả tìm kiếm không phải
là một ảnh đơn mà là một danh sách các ảnh được sắp xếp theo độ tương tự. Một số độ đo
tương tự được sử dụng phổ biến.
Khoảng cách Minkowski: Độ đo này chỉ so sánh các bin giống nhau giữa các lược đồ
màu và được xác định:
1/r
)
r
N
1i
|[i]
I
H[i]
Q
H|(I)d(Q,



(2.7)
Trong đó Q và I là hai ảnh. N là số các bin trong lược đồ màu,
][iH
Q
là giá trị của bin
i trong lược đồ màu
Q
H
, và ][iH
I
là gía trị của bin i trong lược đồ màu

I
H .
Khoảng cách toàn phương (Quadratic metrics): Độ đo này so sánh nhiều bin giữa các
lược đồ màu và được xác định:

)
I
H
Q
A(H
t
)
I
H
Q
(HI)d(Q, 
(2.10)
Trong đó: Q và I là hai ảnh,
Q
H
là lược đồ màu của ảnh Q
I
H là lược đồ màu của ảnh I,
]a[A
j,i

là ma trận N x N, N là số các bin trong lược đồ
màu, và
j,i
a

biểu thị sự tương tự giữa màu i và màu j. a
ij
=1-d
ij
/ d
max
và d
ij
= | H
Q
[i] -
H
T
[j] |
Lược đồ giao (Histogram Intersection): Lược đồ giao được xác định dựa trên tổng số các
điểm ảnh phổ biến có trong cả 2 lược đồ màu:



N
1i
[i])
I
H[i],
Q
min(HI)I(Q,
(2.12)
2.2 GIỚI THIỆU MỘT SỐ KỸ THUẬT PHÂN CỤM
Kỹ thuật phân cụm được chia thành hai nhóm chính:
- Phân cụm bằng cách phân hoạch (Partitional clustering).

- Phân cụm theo thứ bậc (Hierarchical clustering)
2.2.1 Phân cụm phân hoạch (Partitional clustering).
Phương pháp phân cụm phân hoạch nhằm phân một tập dữ liệu có n phần tử cho trước
thành k nhóm dữ liệu sao cho: mỗi phần tử dữ liệu chỉ thuộc về một nhóm dữ liệu và mỗi
nhóm dữ liệu có tối thiểu là một phần tử dữ liệu. Cho giá trị k tìm một phân hoạch có k
cụm nhằm tối ưu tiêu chuẩn phân hoạch được chọn. Lớp các thuật toán nổi tiếng của nó
là thuật toán K-means và các cải tiến.
2.2.2 Phân cụm theo thứ bậc (Hierarchical Clustering)
Các kỹ thuật phân cụm theo thứ bậc Hierarchical Clustering đưa ra một chuỗi các
phần được chia lồng vào nhau với một cụm gốc ở trên cùng và các cụm đơn của các đối
tượng đơn lẻ ở phía dưới. Các cụm ở cấp độ trên chứa các cụm phía dưới chúng theo thứ
bậc. Kết quả của thuật toán phân cụm theo thứ bậc có thể xem như một cây được gọi mà
một dendogram ( xem hình 2.13).









Hình 2.13: dendogram của phân cụm sử dụng phân cụm có thứ bậc
Trong kỹ thuật phân cụm theo thứ bậc có 2 phương pháp
Divisive Approach (top down approach): Quá trình ngược lại với Agglomerative
Approach, ban đầu chúng ta xem tất cả các đối tượng thuộc cùng 1 cụm, sau đó tiến hành
phân thành 2 cụm con. Quá trình này được thực hiện cho đến khi mỗi cụm chỉ còn 1 đối
tượng.
Agglomerative Approach (bottom up approach): Ban đầu, chúng ta xem mỗi đối
tượng là 1 cụm (cluster) và nhóm 2 đối tượng gần nhất thành 1 cụm. Quá trình này lặp

lại cho đến khi tất cả các đối tượng được nhóm vào 1 cụm hoặc là cho đến khi số lượng
cụm còn lại đạt đến một ngưỡng cho phép.
Các bước của thuật toán Agglomerative Approach như sau:
Cho một tập gồm N đối tượng và N*N là ma trận khoảng cách
Bước 1: Xác định các đặc trưng của đối tượng và tính ma trận khoảng cách (độ tương tự)
giữa các đối tượng.
Bước 2: Xem mỗi đối tượng là một cụm
Bước 3: Lặp lại 2 bước sau cho đến khi số cụm bằng 1 hoặc số cụm bằng một ngưỡng
cho phép R nào đó.
- Gộp 2 cụm gần nhất.
- Cập nhật ma trận khoảng cách (độ tương tự).










Hình 2.14: Sơ đồ Agglomerative Hierarchical Clustering
Trong bước 3 cần phải định nghĩa rõ việc tính khoảng cách giữa 2 cụm. Có 4 phương
thức hay được dùng để tính toán khoảng cách được liệt kê dưới đây:
- Kết nối đơn (Single Linkage)
- Kết nối toàn bộ (Complete Linkage)
- Kết nối trung bình (Average Linkage):
- Khoảng cách tâm (Centroid distance)
2.3 ÁP DỤNG THUẬT TOÁN PHÂN CỤM CÓ THỨ BẬC (AHC) VÀO HỆ
THỐNG TRA CỨU ẢNH THEO ĐẶC TRƯNG MÀU

2.3.1 Biểu diễn ảnh: Tập ảnh trong cơ sở dữ liệu được chia thành các vùng hình chữ
nhật. Mỗi ảnh sẽ được biểu diễn bởi một tập các lược đồ được chuẩn hóa tương đương
với các vùng hình chữ nhật này. Theo kinh nghiệm thì mỗi ảnh được chia nhỏ thành 16
vùng hình chữ nhật.









Hình 2.19: Chia ảnh thành các phần và các lược đồ màu tương ứng.
2.3.2 Độ đo tương tự giữa hai ảnh
Độ tương tự giữa hai ảnh: Chúng tôi sử dụng độ đo lược đồ giao để so sánh giữa hai lược
đồ đơn của hai vùng hình chữ nhật tương đương của hai ảnh.
Cho hai lược đồ màu được chuẩn hóa p={p
1
,p
2
, ,p
m
}, q={q
1
,q
2
, ,q
m
} độ đo tương tự

giữa hai lược đồ được tính như sau:



m
1
i
)
i
q,
i
min(p
qp,
S
(2.14)
Độ tương tự giữa hai cụm ảnh: Độ đo tương tự S
k,l
giữa hai cụm ảnh C
k
và C
l
được định
nghĩa bằng trung bình độ tương tự giữa các cặp ảnh được biểu diễn trong các cụm này:
)(
,,
,
,
l
N
k

N
P
ji
k
E
l
Eji
ji
s
lk
S










(2.16)
P
n
= (n - 1)
2
n
(2.17)

2.3.3 Trình bày thuật toán phân cụm ảnh có thứ bậc

Áp dụng thuật toán phân cụm có thứ bậc được thực hiện qua các bước chính sau:
- Bước 1: Thực hiện phân cụm ảnh
- Bước 2: Tính tâm cụm
- Bước 3: Tối ưu tâm cụm
- Bước 4: Tra cứu ảnh
Ví dụ:

Hình 2.22: Biểu diễn một ví dụ phân cụm có thứ bậc với 8 ảnh

Thực hiện phân cụm ảnh:
Đặt n là số lượng ảnh trong CSDL. Độ tương tự giữa các cặp ảnh được tính toán trước.
Thuật toán phân cụm được thực hiện như sau:
Bước 1: Khởi tạo trong CSDL n ảnh được đặt vào n cụm phân biệt. Các cụm này được
đánh chỉ số { C
1
,C
2
, C
n
}. Với mỗi cụm thứ k tập E
k
biểu thị tập ảnh chứa trong cụm đó
và N
k
là số lượng ảnh. E
k
={ k } và N
k
= 1 với k=1,2, ,n.
Bước 2: Trong các cụm {C

1
,C
2
, C
n
} nếu hai cụm C
k
và C
l
có độ tương tự S
k,l
cao thì
nhập lại thành một cụm mới C
n+1.
Mỗi khi hai cụm được nhập thì số cụm chưa được gom
sẽ giảm đi 1.

Khi đó tập

ảnh E
n+1
={E
k
U E
l
} và N
n+1
= N
k
+ N

l
. Cụm C
n+1
có cây con trái
RC
n+1 =
k và cây con phải LC
n+1
=l
.
Với mỗi cụm mới C
n+1
tính độ tương tự giữa cụm
C
n+1
với tất cả các cụm khác chưa được gom cụm.
Bước 3: Lặp lại quá trình trên cho đến khi đạt đến số các cụm cho trước hoặc độ tương tự
lớn nhất thấp hơn một ngưỡng cho trước.






















THUẬT TOÁN PHÂN CỤM
Input: G – tập ảnh gồm n ảnh,
s
ij
– độ tương tự giữa các cặp ảnh
Output: C – các cụm ảnh
1. Khởi tạo
count←n; m

n;
for k=1 to count -1
for l=k+1 to count
max
k,l


0;
for i=1 to n
C

C


{c
i
}; E
i


G
i
; N
i


1;
2. Repeat
2.1 Tính độ tương tự giữa các cụm Ck và Cl
For k=1 to count -1
For l=k+1 to count
)1(
2
)(
)(



 lk
lk
NN
NN
NN

P
lk
;
 
)(
,,
,
,
lk
kl
NN
jiEEji
ji
lk
P
s
S




;
If (max
k,l
<S
k,l
) max
k,l
←S
k,;l


2.2 Cập nhật các tham số
m←m+1; C
m
←m;
count ← count -1;

lkm
EEE 
1
;

lkm
NNN 
1
;

kRC
m

1
; lLC
m

1
;
C←C/ck; C←C/cl;
Until (count = “ số cụm yêu cầu”) or (max
kl
<T)

Hình 2.21: Giả mã thuật toán phân cụm


Thực hiện tính tâm cụm:
Sau khi thực hiện phân cụm ảnh thì mỗi cụm cần có một tâm cụm để xác định ảnh. Tâm
cụm được tính là trung bình của các lược đồ của các ảnh trong cụm đó. Vì mỗi cụm có
thể gồm rất nhiều ảnh nên việc tính trung bình của tất cả các ảnh là rất lớn. Một giải pháp
đưa ra phải lựa chọn ra một số ảnh đại diện để tính tâm cụm. Việc lựa chọn các ảnh này
phải phù hợp để kết quả tính tâm cụm thông qua các ảnh đại diện này phải tương tự với
kết quả tính tâm cụm dựa trên tất cả các cụm ảnh (xem hình 2.23).
Các bước thực hiện tính tâm cụm:
Bước 1:Khởi tạo n=0 và R
n
={C
i
}. Nếu r=1 chuyển tới bước 5.
Bước 2:Với mỗi phần tử trong R
n
tìm ra cụm thứ k có số ảnh N
k
là lớn nhất.
Bước 3: Tạo ra tập mới R
n+1
bằng cách copy tất cả các phần tử trong R
n
ngoài trừ phần tử
k và thêm phần tử thuộc cây con phải RC
k
và cây con trái LC
k

của cụm C
k
vào tập R
n+1
.
Bước 4: Lặp lại bước 2 và bước 3 cho đến khi số phần tử chứa trong R
n
= r.
Bước 5: Sau bước 4 tập Rn chứa r phần tử. Mỗi ảnh đại diện sẽ được chọn ra từ r phần tử
này. Nếu phần tử k

Rn và Nk =1 thì k được chọn luôn. Nếu Nk >1 thì chọn ra 1 ảnh
đơn từ tập Ek bằng cách chọn ảnh có độ tương tự trung bình lớn nhất so với Nk-1 ảnh
còn lại của tập Ek.
Bước 6: Sau khi chọn ra được r ảnh đại diện, tâm cụm được tính là trung bình của P lược
đồ tương đương của r ảnh.


THUẬT TOÁN TÍNH TÂM CỤM
Input: C
m
– cụm ảnh thứ m,
r – số các ảnh đại diện
Output: O – tâm cụm ảnh
1. Khởi tạo
n ←0; R
n


{ C

m
}; max

0; Cmax

0; b1

0; maxavesim

0;
2. Chọn r cụm chứa ảnh đại diện
If(r==1) goto step 4
Else
Repeat
For k=1 to Rn
If (max< N
k
)
max

N
k;
Cmax

k;

n ←n+1;
R
n



R
n
\Cmax;
R
n


R
n


RCmax

LCmax

;
Until ( Rn = =r)
3. Chọn r ảnh đại diện tự r cụm
r

Rn ;
for k=1 to r
if (N
k
==1) E


E


E
k
;
Else
{ for i=1 to N
k

{
sim
i

0;

for j=1 to N
k
sim
i


sim
i
+sij;
ave sim
i



k
i
N

sim
;
if (maxavesim< avesim
i
)
maxavesim

avesim
i
;
b1

i;
}
E


E

{b1} ;
}
4. Tính tâm của cụm
For i=1 to r O

O + Pi; O


r
O
;


Hình 2.23 Giã mã thuật toán tính tâm cụm

Thực hiện tối ưu tâm cụm: Tâm cụm cần được tối ưu khi độ tương tự của mỗi ảnh thuộc
cụm đó với tâm cụm chứa nó đều lớn hơn độ tương tự của mỗi ảnh đó với các tâm của
các cụm khác. Vì ta sử dụng một số ảnh đại diện để tính tâm cụm nên có một số ảnh
không nằm đúng cụm cần phải di chuyển các ảnh về đúng cụm của nó.
Tối ưu tâm cụm được thực hiện như sau:
Bước 1:Với n ảnh trong CSDL, tính độ tương tự của mỗi ảnh với tất cả các tâm cụm. Nếu
độ tương tự giữa ảnh đó với cụm chứa nó là lớn nhất thì không thực hiện ngược lại phải
di chuyển ảnh đó về cụm có độ tương tự lớn nhất. Các ảnh được di chuyển bằng thao tác
thêm và loại bỏ một nút từ cấu trúc cây.
Bước 2: Tính lại tâm đối với các cụm có ảnh được di chuyển. Bước 3: Lặp lại bước 1 và
bước 2 cho tới khi số ảnh di chuyển đạt tới một ngưỡng cho trước

2.4 KẾT LUẬN CHƯƠNG 2:
Trong chương này chúng tôi đã trình bày các khái niệm trong kỹ thuật tra cứu ảnh dựa
vào đặc trưng màu bao gồm: Lượng hóa màu, không gian màu, lược đồ màu, các độ đo
tương tự giữa các lược đồ màu. Giới thiệu hai thuật toán phân cụm điển hình đó là: thuật
toán phân cụm phân hoạch và phân cụm có thứ bậc. Trong đó áp dụng thuật toán phân
cụm có thứ bậc (Agglomerative Hierarchical Clustering- AHC) vào bài toán tra cứu ảnh
theo nội dung sử dụng đặc trưng màu nhằm tăng tốc độ của hệ thống tra cứu ảnh.


Chương 3
XÂY DỰNG ỨNG DỤNG PHÂN CỤM ẢNH VÀO BÀI TOÁN TRA CỨU ẢNH
PHONG CẢNH
3.1 GIỚI THIỆU VÀ MÔ TẢ HỆ THỐNG TRA CỨU ẢNH PHONG CẢNH
Chúng tôi đã xây dựng một hệ thống tra cứu ảnh phong cảnh theo nội dung sử dụng
đặc trưng màu và áp dụng kỹ thuật phân cụm có thứ bậc (Agglomerative Hierarchical

Clustering- AHC) để phân tập ảnh trong cơ sở dữ liệu ảnh thành các cụm có độ tương tự
nhau nhằm mục đích hạn chế việc phải tìm kiếm ảnh trong toàn bộ cơ sở dữ liệu và tăng
tốc độ tra cứu.
3.2 THIẾT KẾ HỆ THỐNG TỔNG QUÁT
Kiến trúc này gồm hai module chính: module tiền xử lý được thực hiện ngoại tuyến
và module tra cứu được thực hiện trực tuyến.

Hình 3.1: Kiến trúc của hệ thống tra cứu ảnh

Hình 3.2: Mô hình chi tiết của hệ thống tra cứu ảnh
3.3 BIỂU ĐỒ USE CASE CỦA HỆ THỐNG
( Xem tài liệu chi tiết)
3.4 BIỂU ĐỒ TRÌNH TỰ VÀ SƠ ĐỒ HÀNH ĐỘNG CỦA HỆ THỐNG ( Xem tài
liệu chi tiết)
3.5 MỘT SỐ GIAO DIỆN CHÍNH CỦA CHƯƠNG TRÌNH
3.5.1 . Giao diện chính của chương trình

Hình 3.8: Giao diện chính của chương trình.
3.5.2 Biểu diễn lược đồ màu trong không gian màu RGB

Hình 3.10: Giao diện lược đồ màu cục bộ của ảnh.
3.5.3 . Tính độ tương tự giữa hai ảnh

Hình 3.11: Giao diện tính độ tương tự giữa hai ảnh.


3.5.4 Giao diện phân cụm ảnh

Hình 3.12: Giao diện phân cụm ảnh.






3.5.5 . Giao diện tra cứu ảnh

Hình 3.14: Giao diện tra cứu ảnh
3.6 ĐÁNH GIÁ ĐỘ CHÍNH XÁC CỦA THUẬT TOÁN PHÂN CỤM
Thực nghiệm được tiến hành với cơ sở dữ liệu gồm 2000 ảnh thuật toán phân cụm đạt
độ chính xác 95% mà chỉ với 300 phép so sánh độ tương tự thay vì 2000 phép so sánh khi
không áp dụng thuật toán phân cụm. CSDL ảnh gồm 2000 ảnh được sử dụng cho thực
nghiệm. Trong đó gồm 1500 ảnh được lấy từ tập ảnh của GS Wang[50] và 500 ảnh còn
lại được chúng tôi sưu tập từ internet và camera số. Với 2000 ảnh được chia thành 133
cụm, trong đó cụm lớn nhất gồm 40 ảnh và cụm nhỏ nhất gồm 2 ảnh. Trung bình mỗi
cụm có 15 ảnh.
3.7 KẾT LUẬN CHƯƠNG 3
Ứng dụng được xây dựng bằng công cụ C# và hệ quản trị cơ sở dữ liệu SQL Server
2005 trên hệ điều hành Windows Vista. Với CSDL ảnh gồm 2000 ảnh thực nghiệm kết
quả cho thấy thuật toán phân cụm đạt độ chính xác 95% chỉ với 300 phép so sánh thay vì
2000 phép so sánh khi không thực hiện phân cụm ảnh mà tiến hành so sánh vét cạn với
toàn bộ ảnh trong CSDL.







KẾT LUẬN
Việc áp dụng các thuật toán và các kỹ thuật đánh chỉ số vào tra cứu ảnh theo nội dung

nhằm tăng tốc độ tìm kiếm của hệ thống là một chủ đề đang được rất nhiều quan tâm của
các nhà nghiên cứu trong lĩnh vực tra cứu ảnh.
Sau đây là các kết quả đã được trong luận văn:
 Nghiên cứu lý thuyết tổng quan về tra cứu ảnh theo nội dung.
 Nghiên cứu các kỹ thuật đánh chỉ số ảnh và một số các thuật toán phân cụm.
 Ứng dụng kỹ thuật phân cụm có thứ bậc (Agglomerative Hierarchical Clustering -
AHC) vào bài toán tra cứu ảnh sử dụng đặc trưng màu.
 Xây dựng một phần mềm thực nghiệm đọc vào một ảnh phong cảnh mẫu và tìm kiếm
những ảnh phong cảnh tương tự với ảnh mẫu trong một tập hợp các ảnh cho trước.
 Chúng tôi đã tiến hành thực nghiệm với CSDL gồm 2000 ảnh phong cảnh. Kết quả
cho thấy thuật toán phân cụm đạt độ chính xác 95% chỉ với 300 phép so sánh thay vì
2000 phép so sánh vét cạn với toàn bộ ảnh trong CSDL.
KIẾN NGHỊ CÁC HƯỚNG NGHIÊN CỨU TIẾP THEO
Trong quá trình nghiên cứu và thực hiện luận văn đã giúp cho tác giả có nhiều gợi mở
về các định hướng nghiên cứu trong tương lai:
Kết hợp nhiều đặc trưng như: kết cấu, không gian, hình dạng để so sánh độ tương tự
giữa hai ảnh.
Kết hợp nhiều thuật toán để phân cụm ảnh hiệu quả hơn. Thực nghiệm trên CSDL ảnh
có kích thước lớn hơn và đa dạng hơn

×