Tải bản đầy đủ (.pdf) (57 trang)

Nghiên cứu phương pháp phân đoạn ảnh sử dụng phân cụm và ứng dụng trong tra cứu ảnh dựa vào nội dung

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.59 MB, 57 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG




TRẦN DOÃN HIỂN


NGHIÊN CỨU PHƢƠNG PHÁP PHÂN ĐOẠN ẢNH
SỬ DỤNG PHÂN CỤM VÀ ỨNG DỤNG TRONG TRA CỨU
ẢNH DỰA VÀO NỘI DUNG



LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH




Thái Nguyên, năm 2013

2

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

LỜI MỞ ĐẦU
Xử lý ảnh là lĩnh vực nghiên cứu đang phát triển không ngừng bởi tính trực quan
sinh động cũng nhƣ khả năng áp dụng vào thực tế lớn. Hiện xử lý ảnh đang giành đƣợc
nhiều sự quan tâm của các nhà nghiên cứu trong và ngoài nƣớc. Trong xử lý ảnh, tra
cứu ảnh có thể nói là lĩnh vực đòi hỏi sự nghiên cứu tổng hợp: nghiên cứu xử lý ảnh để


rút trích các đặc trƣng, áp dụng các tính toán toán học cao cấp để xác định mức độ
tƣơng đồng giữa hai ảnh. Hơn nữa, cùng với sự phát triển của phần mềm và phần
cứng, khối lƣợng ảnh phát triển không ngừng và ngày càng lớn. Một số lƣợng lớn các
ảnh đang đƣợc sử dụng ở trong thƣ viện ảnh số và trên web. Vì vậy nhu cầu tìm kiếm
ảnh là một nhu cầu tất yếu. Hiện tại, tra cứu ảnh ứng dụng trong khá nhiều lĩnh vực
nhƣ: quản lý biểu trƣng(logo), truy tìm tội phạm, ứng dụng trong y khoa, quân sự….
Hệ thống tra cứu ảnh dựa trên nội dung (CBIR-Content-Based Image Retrieval)
là hệ thống truy vấn ảnh dựa trên việc tự động rút trích một số thông tin đặc trƣng
trong ảnh nhƣ: màu sắc, kết cấu, vị trí, hình dạng. Phƣơng pháp này đã đƣợc nhiều
ngƣời nghiên cứu với nhiều cách tiếp cận khác nhau; do đó rất nhiều hệ thống tra cứu
ảnh dựa trên nội dung đã ra đời nhƣ: QBIC, VisualSeek, WebSeek và BlobWorld
Phân cụm là bài toán đã đƣợc nhiều ngƣời nghiên cứu trƣớc đây, nhƣng cho đến
nayvẫn có vai tròquan trọng và cần thiết trong nghiên cứu khai phá dữ liệu cũng nhƣ
trong nhiều lĩnh vực đời sống: thƣơng mại, sinh học, phân tích dữ liệu không gian. Đề
tài này nghiên cứu kỹ thuật phân cụm ảnh thành từng vùng rồi trích chọn đặc trƣng của
từng vùng, dựa vào đó ta có thể tra cứu các bức ảnh một cách nhanh chóng và chính
xác từ một cơ sở dữ liệu ảnh cho trƣớc. Có nhiềuphƣơng pháp phân cụm khác nhau
nhƣ K-Means, HAC. Mỗi phƣơng pháp có những ƣu điểm, thế mạnh riêng và có yêu
cầu riêng về cách biểu diễn dữ liệu, độ đo. So sánh các thuật toán khác nhau ở các
phạm vi khác nhau là khôngđơn giản, do vậy việc đánh giá thƣờng dựa vào chất lƣợng
kết quả phân cụm.Phân cụm tích lũy phân cấp (Hierarchical Agglomerative Clustering
HAC) là thuật toán phân cụm cây phâncấp có tính gia tăng cao và tạo ra đƣợc một cây
phân cấp các pixel dựa theo yếu tố nào đó, theo hƣớng tiếp cận này khóa luận sẽ áp
dụng phƣơng pháp phâncụm HAC để phân cụm dữ liệu trƣớc khi đƣa vào tra cứu ảnh.
Nội dung của luận văn giới thiệu tổng quan về tra cứu ảnh dựa vào nội dung và đi
sâu vào đề tài “Nghiên cứu phƣơng pháp phân đoạn ảnh sử dụng phân cụm và
ứng dụng trong tra cứu ảnh dựa vào nội dung”. Trên những cơ sở phƣơng pháp tra
cứu ảnh dựa vào phân cụm, tiến hành xây dựng chƣơng trình thử nghiệm cho phép đọc
3


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

vào một ảnh mẫu và tìm kiếm những ảnh tƣơng tự với ảnh mẫu trong một tập hợp các
ảnh cho trƣớc.
Nội dung khoá luận gồm có 3 chƣơng:
CHƢƠNG 1: TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG, giới
thiệuphƣơng pháp tra cứu ảnh dựa vào nội dung và một số hệ thống tra cứu ảnh tiêu
biểu.
CHƢƠNG 2: TRA CỨU ẢNH DỰA VÀO NỘI DUNG SỬ DỤNG PHÂN CỤM
THEO MÀU, giới thiệu chi tiết về thuật toán cũng nhƣ phƣơng pháp tra cứu ảnh sử
dụng phân cụm.
CHƢƠNG 3: XÂY DỰNG HỆ THỐNG VÀ KẾT QUẢ ĐẠT ĐƢỢC, xây dựng
phân tích thiết kế hệ thống và giới thiệu một số kết quả đạt đƣợc khi xây dựng chƣơng
trình.
LỜI CẢM ƠN
Trong quá trình thực hiện luận văn này, em luôn nhận đƣợc sự hƣớng dẫn, chỉ
bảo tận tình của TS Nguyễn Hữu Quỳnh, Khoa Công nghệ Thông tin thuộc trƣờng Đại
học Điện lực là cán bộ trực tiếp hƣớng dẫn khoa học cho em. Thầy đã giành nhiều thời
gian trong việc hƣớng dẫn cách nghiên cứu, đọc tài liệu, cài đặt các thuật toán và giúp
đỡ về xây dựng hệ thống thực nghiệm.
Em xin chân thành cảm ơn các Thầy, Cô giáo trong trƣờng Đại học Công nghệ
Thông tin và Truyền Thông, Đại học Thái Nguyên đã luôn nhiệt tình giúp đỡ và tạo
điều kiện tốt nhất cho em trong suốt quá trình học tập tại trƣờng.
Xin chân thành cảm ơn các anh, các chị và các bạn học viên lớp Cao học - trƣờng
Đại học Công nghệ Thông tin và Truyền Thông thuộc Đại học Thái Nguyên đã luôn
động viên, giúp đỡ và nhiệt tình chia sẻ với tôi những kinh nghiệm học tập, công tác
trong suốt khoá học.
Và lời cuối cùng, tôi xin bày tỏ lòng chân thành và biết ơn tới cha mẹ, anh chị,
những ngƣời trong gia đình và bạn bè đã luôn ở bên cạnh tôi những lúc khó khăn nhất,
giúp tôi vƣợt qua khó khăn trong học tập cũng nhƣ trong cuộc sống.


Thái Nguyên, ngày 25 tháng 2 năm 2013




MỤC LỤC

Lời mở đầu
Trang
Chƣơng 1: TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG 1
1.1 Giới thiệu 1
1.2 Đặc trƣng ảnh 3
1.2.1 Màu sắc 3
1.2.2 Kết cấu 7
1.2.3 Hình dạng 7
1.3 Độ tƣơng tự giữa các ảnh 8
1.3.1 Độ đo về màu sắc 8
1.3.2 Độ đo tƣơng đồng hình dạng 9
1.3.3 Độ đo tƣơng đồng cho kết cấu ảnh 9
1.3.4 Độ đo tƣơng đồng cho đặc trƣng phân đoạn 9
1.4 Các hệ thống tra cứu ảnh dựa vào nội dung 10
1.4.1 Hệ thống QBIC (Query By Image Content) 10
1.4.2 Hệ thống Blobworld 10
1.4.3 Virage 11
1.4.4 RetrievalWare 11
1.4.5 VisualSeek và WebSeek 11
1.4.6 Photobook 12
1.5 Đánh giá hiệu năng tra cứu 12
1.6 Kết luận chƣơng 1 14

Chƣơng 2 : TRA CỨU ẢNH DỰA VÀO NỘI DUNG SỬ DỤNG PHÂN CỤM THEO
MÀU 15
2.1 Giới thiệu về phân cụm 15
2.1.1 Khái niệm 15
2.1.2 Một số vấn đề trong phân cụm 17
2.1.3 Phân cụm phân cấp 18
2.2 Một số kỹ thuật tra cứu dựa vào đặc trƣng màu 21
2.2.1 Kỹ thuật tra cứu dựa vào lƣợc đồ màu toàn bộ - GCH 21
2.2.2 Kỹ thuật tra cứu dựa vào lƣợc đồ màu cục bộ - LCH 22
2.2.3 Vector gắn kết màu 22
2.3 Kỹ thuật phân đoạn ảnhsử dụng phân cụm theo màu 23
2.3.1 Khoảng cách Euclid 23
2.3.2 Kỹ thuật phân cụm ảnh 23
2.3.3 Biểu diễn và trích rút đặc trƣng 26
2.4 Độ đo tƣơng tự 27
2

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

2.5 Kết luận chƣơng 2 29
Chƣơng 3: XÂY DỰNG HỆ THỐNG VÀ KẾT QUẢ ĐẠT ĐƢỢC 30
3.1 Giới thiệu bài toán tra cứu ảnh dựa vào nội dung 30
3.2 Phân tích bài toán 30
3.3 Thiết kế hệ thống 30
3.3.1 Thiết kế hệ thống 30
3.3.2 Thiết kế cơ sở dữ liệu 36
3.4 Mô tả chƣơng trình 37
3.5 Kết quả đạt đƣợc 38
3.6 Kết quả đạt đƣợc 46
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 48

TÀI LIỆU THAM KHẢO 49
DANH MỤC CÁC BẢNG, SƠ ĐỒ, HÌNH

Bảng 3.1 : Bảng cơ sở dữ liệu Image. 36
Bảng 3.2 : Bảng cơ sở dữ liệu Cluster 37
Bảng 3.3:Số liệu các loại ảnh trong cơ sở dữ liệu 38
Bảng 3.4 : Bảng kết quả tra cứu với chủ đề Ngựa 46
Bảng 3.5 : Bảng kết quả tra cứu với chủ đề Hoa 46
Hình 1.1: Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung 3
Hình 1.2: Không gian màu RGB đƣợc trực quan hoá nhƣ một hình khối. 4
Hình 1.3: Mô tả không gian màu HSV. 5
Hình 2.1: Biểu diễn phận cụm phân cấp bottom-up của 5 đối tƣợng 19
Hình 2.2: Ba ảnh và biểu đồ của chúng. 21
Hình 2.3: Thuật toán phân cụm. 25
Hình 2.4: Thuật toán Single-Linkage. 26
Hình 2.5: Thuật toán tính khoảng cách giữa hai ảnh 29
Hình 3.1: Kiến trúc tổng quát của hệ thống tra cứu ảnh. 31
Hình 3.2: Mô hình chi tiết của hệ thống tra cứu ảnh. 31
Hình 3.3: Biểu đồ UseCase tổng quát hệ thống. 33
Hình 3.4: Biểu đồ trình tự tra cứu ảnh. 34
Hình 3.5: Biểu đồ trình tự lƣu vào cơ sở dữ liệu. 35
Hình 3.6: Biểu đồ trình tự xoá ảnh khỏi cơ sở dữ liệu. 36
Hình 3.7: Mối quan hệ giữa các bảng. 37
Hình 3.8: Giao diện chính hệ thống tra cứu ảnh. 38
Hình 3.9: Giao diện hiển thị kết quả truy vấn. 39
Hình 3.10: Các vùng ảnh sau khi phân cụm 39
Hình 3.11: Giao diện chính tab cơ sở dữ liệu. 40
Hình 3.12: Giao diện thêm một ảnh vào cơ sở dữ liệu. 41
Hình 3.13: Giao diện xoá một ảnh khỏi cơ sở dữ liệu. 41
Hình 3.14: Ảnh mẫu truy vấn thứ nhất. 42

Hình 3.15: Kết quả truy vấn lần thứ nhất. 42
Hình 3.16: Ảnh mẫu truy vấn thứ hai. 43
Hình 3.17: Kết quả truy vấn lần thứ hai. 43
Hình 3.18: Ảnh mẫu truy vấn thứ ba. 44
Hình 3.19: Kết quả truy vấn lần thứ ba. 44
Hình 3.20: Ảnh mẫu truy vấn thứ ba. 45
Hình 3.21: Kết quả truy vấn lần thứ 4. 45
KÍ HIỆU CÁC CỤM TỪ VIẾT TẮT
CBIR
Content Base Image Retrieval
Tra cứu ảnh dựa vào nội dung
QBIC
Query By Image Content
Truy vấn theo nội dung ảnh
CIE
Commission internationale de
l'éclairage
Uỷ ban quốc tế về màu sắc
HAC
Hierarchical Agglomerative Clustering
Phân cụm tích luỹ phân cấp
CBC
Color Base Clustering
Phân cụm dựa vào màu
MST
Minimum Spainning Tree
Cây mở rộng tối thiểu
IRM
Integrated Region Matching
Đối sánh vùng tích hợp

CSDL
Cơ Sở Dữ Liệu

1

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Chƣơng 1: TỔNG QUAN VỀ TRA CỨU ẢNH DỰA VÀO NỘI DUNG
1.1 Giới thiệu
Thông thƣờng để lƣu trữ thông tin, dữ liệu về một nội dung, sự vật, sự việc nào
đó thì ngƣời ta thƣờng chọn sử dụng dạng lƣu trữ kiểu văn bản. Nhƣng lƣu trữ dữ liệu
bằng văn bản nhiều khi không thể phản ánh đầy đủ, chân thực về đối tƣợng đƣợc miêu
tả và nhiều khi đó chỉ là do cảm nhận chủ quan củangƣời viết. Vì vậy kết hợp với lƣu
trữ dữ liệu dạng văn bản ngƣời ta còn sử dụng lƣu trữ dữ liệu dạng ảnh. Khối lƣợng dữ
liệu dạng ảnh ngày càng trở nên khổng lồ nhất là khi hiện nay các thiết bị thu nhận ảnh
số ngày càng trở nên phổ biến với giá cả phù hợp. Khi ta có nhu cầu tìm kiếm một vài
bức ảnh trong một kho dữ liệu ảnh có thể lên tới vài trăm nghìn bức ảnh để minh họa
cho một đề tài nào đó thì tuyệt đối không phải là chuyện đơn giản nếu chúng ta tìm
kiếm một cách thủ công tức là xem lần lƣợt từng bức ảnh cho tới khi ta tìm thấy đƣợc
bức ảnh có nội dung cần tìm. Song song với sự phát triển của các phƣơng tiện kỹ thuật
số trong tƣơng lai, số lƣợng ảnh sẽ còn tăng nhiều hơn nữa. Do vậy nhu cầu thật sự đòi
hỏi phải có một công cụ hỗ trợ tìm kiếm ảnh chính xác và hiệu quả. Vì vậy tra cứu ảnh
dựa vào nội dung ra đời để góp phần đáp ứng nhu cầu này.
“Tra cứu ảnh dựa vào nội dung” - Đây là một chủ đề nghiên cứu mới trong lĩnh
vực công nghệ thông tin. Mục đích chính của nó là lấy những ảnh từ cơ sở dữ liệu phù
hợp với tiêu chí truy vấn. Các yếu tố mô tả nội dung của một bức ảnh có liên quan đến
cảm nhận nhƣ màu sắc, kết cấu, hình dạng, cấu trúc, mối liên hệ về không gian và
chuyển động. Do vậy, phân tích ảnh, nhận dạng ảnh và thị giác máy tính đóng vai trò
cơ bản trong các hệ thống tra cứu ảnh.Nó cho phép tự động trích chọn hầu hết các
thông tin cảm nhận, thông qua việc phân tích phân bố điểm ảnh và rút ra các độ đo nội

dung trực quan. Các hệ thống truy vấn ảnh dựa vào nội dung hiện nay rất đa dạng
nhƣng nhìn chung đƣợc phân biệt bởi: các đặc trƣng mà hệ thống rút trích từ ảnh để
làm cơ sở truy vấn, phƣơng pháp trích rút đặc trƣng ảnh đƣợc sử dụng trong hệ thống
truy vấn, độ đo sự tƣơng tự giữa hai ảnh, phƣơng pháp đánh chỉ số nhiều chiều để tối
ƣu việc tìm kiếm.
Một hệ thống tra cứu ảnh dựa trên nội dung tiêu biểu không chỉ liên quan tới các
nguồn thông tin trong những dạng khác nhau (ví dụ nhƣ văn bản, ảnh và video) mà
còn liên quan đến nhu cầu của ngƣời sử dụng. Về cơ bản nó phân tích cả nội dung của
nguồn thông tin cũng nhƣ truy vấn của ngƣời sử dụng và sau đó đối sánh chúng để tìm
ra những tiêu chí có liên quan này.
2

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


Những chức năng chính của một hệ thống tra cứu ảnh dựa vào nội dung bao
gồm:
 Phân tích nội dung của nguồn thông tin và biểu diễn nội dung của các nguồn
thông tin đƣợc phân tích phù hợp với sự đối sánh truy vấn của ngƣời sử dụng
(không gian của thông tin nguồn đƣợc chuyển đổi thành không gian đặc điểm với
mục đích đối sánh nhanh trong bƣớc tiếp theo). Bƣớc này thƣờng mất nhiều thời
gian cho việc xử lý tuần tự các thông tin nguồn (ảnh) trong cơ sở dữ liệu. Nó chỉ
phải làm một lần và có thể làm độc lập.
 Phân tích các truy vấn của ngƣời dùng và biểu diễn chúng thành các dạng
phù hợp với việc đối sánh với cơ sở dữ liệu nguồn. Nhiệm vụ của bƣớc này giống
với bƣớc trƣớc nhƣng chỉ đƣợc áp dụng với những ảnh truy vấn.
 Xác định chiến lƣợc để đối sánh tìm kiếm truy vấn với thông tin đƣợc lƣu trữ
trong cơ sở dữ liệu. Bƣớc này có thể thực hiện trực tuyến và thực hiện rất nhanh.
Công nghệ đánh chỉ số có thể đƣợc sử dụng để nhận dạng không gian đặc điểm
để tăng tốc độ xử lý đối sánh.

 Tạo ra sự điều chỉnh cần thiết trong hệ thống (thƣờng là bằng cách đối chiếu
các tham số trong công nghệ đối sánh) dựa trên phản hồi từ ngƣời sử dụng hoặc
những hình ảnh đƣợc tra cứu.
Các hệ thống tra cứu ảnh dựa vào nội dung thường tuân theomô hình sau:
Trích rút đặc trƣng
Cơ sở dữ
liệu ảnh
Cơ sở dữ
liệu đặc
trƣng
Tạo truy
vấn
Trích rút
đặc trƣng
Ngƣời sử
dụng
Đánh chỉ số
So sánh độ
tƣơng tự
Các kết quả
tra cứu
Phản hồi liên
quan
Đầu ra
Thực hiện ngoại tuyến
3

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Hình 1.1: Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung

Chúng ta nhận thấy rằng trên một mặt của một hệ thống tra cứu ảnh dựa vào nội
dung, có các nguồn thông tin trực quan ở các khuôn dạng khác nhau và trên mặt kia có
các truy vấn ngƣời sử dụng. Hai mặt này đƣợc liên kết thông qua một chuỗi các tác vụ
nhƣ đƣợc minh họa trong Hình 1.1. Hai tác vụ phân tích truy vấn ngƣời sử dụng và
đánh chỉ số nhiều chiều đƣợc tóm lƣợc ở đây trong khi hai tác vụ quan trọng nhất:
“Phân tích các nội dung của thông tin nguồn” (trích rút đặc trƣng) và “Định nghĩa một
chiến lƣợc để đối sánh các truy vấn tìm kiếm với thông tin trong cơ sở dữ liệu đƣợc
lƣu trữ” (độ đo tƣơng tự), sẽ đƣợc mô tả chi tiết hơn trong phần dƣới (mục 2.3.3 và
mục 2.4).
1.2 Đặc trƣng ảnh
1.2.1 Màu sắc
Mắt ngƣời rất nhạy cảm với màu sắc và đặc điểm màu là một trong những thành
phần quan trọng giúp con ngƣời có thể nhận biết đƣợc hình ảnh. Vì vậy, đặc điểm màu
sắc là đặc điểm cơ bản của nội dung ảnh. Đặc điểm màu sắccó thể cung cấp những
thông tin rất hữu hiệu cho việc phân loại ảnh và chúng cũng rất hữu ích cho việc tra
cứu ảnh. Cũng vì thế mà tra cứu ảnh dựa trên màu sắc đƣợc sử dụng rộng rãi trong các
hệ thống tra cứu ảnh dựa trên nội dung. Biểu đồ màu thƣờng đƣợc sử dụng để thể hiện
những đặc điểm màu của các ảnh. Mặc dù vậy trƣớc khi sử dụng biểu đồ màu chúng ta
cần phải lựa chọn và xác định kiểu không gian màu và lựa chọn độ đo tƣơng tự.
1.2.1.1 Không gian màu
Không gian màu là sự biểu diễn tập các màu, một số không gian màu đƣợc sử dụng
rộng rãi trong đồ họa máy tính. Màu sắc thƣờng đƣợc xác định trong không gian màu
3 chiều.
 Không gian màu RGB
Không gian màu RGB là không gian màu đƣợc sử dụng nhiều nhất cho đồ hoạ
máy tính. Lƣu ý rằng R,G và B là viết tắt của các từ đỏ (Red), xanh lục (Green) và
xanh lơ (Blue). Đây là không gian màu cộng: đỏ, xanh lục và xanh lơ đƣợc kết hợp lại
để tạo ra các màu khác. Không gian này không đồng nhất về nhận thức. Không gian
màu RGB có thể đƣợc trực quan hoá nhƣ một hình khối, nhƣ đƣợc minh hoạ trong
hình 1.2.

4

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


Hình 1.2: Không gian màu RGB được trực quan hoá như một hình khối.
Mỗi trục màu (R, G, B) có độ quan trọng nhƣ nhau. Do đó, mỗi trục nên đƣợc
lƣợng hoá với cùng một độ chính xác. Khi không gian màu RGB đƣợc lƣợng hoá, số
các bin sẽ luôn luôn là một hình khối. Thông thƣờng, 8 (2
3
), 64 (4
3
), 216 (6
3
), 512 (8
3
)
bin đƣợc sử dụng trong lƣợng hoá không gian màu RGB. Chuyển đổi từ một ảnh RGB
sang một ảnh cấp xám nhận đƣợc tổng của R, G và B rồi chia kết quả cho ba.
 Không gian màu HSx
Không gian màu HSI, HSV, HSB và HLS thƣờng đƣợc gọi là HSx có mối liên
quan gần gũi với sự nhận thức về màu sắc của con ngƣời hơn là không gian màu RGB.
Những trục từ không gian màu HSx mô tả những đặc tính của màu nhƣ sắc độ, độ bão
hoà và độ sáng. Sự khác nhau giữa những không gian màu HSx là sự biến đổi của
chúng từ không gian màu RGB, chúng thƣờng đƣợc mô tả bằng những hình dạng khác
nhau (nhƣ hình nón, hình trụ). Trong hình 1.3 không gian màu HSV đƣợc mô tả nhƣ
hình nón.
5

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



Hình 1.3: Mô tả không gian màu HSV.
Sắc độ là thành phần của không gian màu HSx. Sắc độ là góc giữa những đƣờng
tham chiếu và điểm gốc màu trong không gian màu RGB. Vùng giá trị này từ 0
0
đến
360
0
. Theo uỷ ban quốc tế về màu sắc CIE (Commission International d'E clairage) thì
sắc độ là thuộc tính của cảm giác có liên quan đến thị giác, qua đó một vùng xuất hiện
tƣơng tự với một màu đƣợc cảm nhận nhƣ red, green, blue hoặc là sự kết hợp của hai
trong số những màu đƣợc cảm nhận. Cũng theo CIE độ bão hoà là màu đƣợc đánh giá
theo tỷ lệ độ sáng của nó. Trong hình nón độ bão hoà là khoảng cách từ tâm đến cạnh
hình nón. Chiều cao của đƣờng cắt chính là giá trị (value)đây chính là độ sáng hoặc độ
chói của màu. Khi độ bão hoà S bằng 0 thì H không xác định, giá trị nằm trên trục V
biểu diễn ảnh xám. Không gian màu HSV dễ dàng lƣợng tử hoá. Mức lƣợng tử hoá
thông dụng trong không gian màu này là 162 mức với H nhận 18 mức, S và V nhận 3
mức.
 Không gian màu YUV và YIQ
Các không gian màu YUV và YIQ đƣợc phát triển cho truyền hình vô tuyến.
Không gian màu YIQ là giống nhƣ không gian màu YUV, ở đây mặt phẳng I-Q là một
mặt phẳng quay
0
33
của mặt phẳng U-V. Tín hiệu Y biểu diễn độ chói của một pixel
và là kênh duy nhất đƣợc sử dụng trong ti vi đen trắng. U và V cho YUV và I và Q cho
YIQ là các thành phần màu.
6


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Kênh Y đƣợc định nghĩa bởi các giá trị năng lƣợng có trọng số của R(0.299),
G(0.587) và B(0.144). Các không gian màu YUV và YIQ không là đồng nhất nhận
thức. Khi các không gian màu YUV và UIQ đƣợc lƣợng hoá, mỗi trục đƣợc lƣợng hoá
với cùng độ chính xác.
 Không gian màu CIE XYZ và LUV
Không gian màu đầu tiên đƣợc phát triển bởi CIE là không gian màu XYZ.
Thành phần Y là thành phần độ chói đƣợc xác định bởi các tổng có trọng số của
R(0:212671), G(0:715160) và B(0:072169). X và Y là các thành phần màu. Không
gian màu XYZ là không đồng nhất nhận thức. Trong lƣợng hoá không gian màu XYZ,
mỗi trục đƣợc lƣợng hoá với cùng độ chính xác.
Không gian màu CIE LUV là một biến đổi xạ ảnh của không gian màu XYZ là
đồng nhất nhận thức. Kênh L của không gian màu LUV là độ chói của màu. Các kênh
U và V là các thành phần màu. Vậy, khi U và V đƣợc đặt bằng 0, kênh L biểu diễn
một ảnh cấp xám.
Trong lƣợng hoá không gian LUV, mỗi trục đƣợc lƣợng hoá với cùng độ chính
xác. Với cả không gian màu XYZ và LUV, các lƣợc đồ lƣợng hoá thƣờng sử dụng 8
(2
3
), 27 (3
3
), 64 (4
3
), 125 (5
3
) bin.
1.2.1.2 Lƣợc đồ màu
Lƣợc đồ màu đƣợc xác định bằng một tập các bin, trong đó mỗi bin biểu thị xác
suất của các pixel trong ảnh. Một lƣợc đồ màu H của một ảnh đã cho đƣợc xác định

bởi véc tơ:
H={H[0], H[1], H[2], , H[i], H[N]},
Ở đây i biểu diễn một màu trong lƣợc đồ màu và tƣơng ứng với một khối con
trong không gian màu RGB, H[i] là số các pixel có màu i trong ảnh và N là số các bin
trong lƣợc đồ màu.
Mỗi pixel trong ảnh sẽ thuộc về một bin của lƣợc đồ màu của ảnh, vì thế với lƣợc
đồ màu của một ảnh, giá trị của mỗi bin là số các pixel cùng màu. Để so sánh các ảnh
7

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

có các kích cỡ khác nhau, các lƣợc đồ màu đƣợc chuẩn hóa. Lƣợc đồ màu chuẩn hóa
H’ đƣợc xác định bằng:
H’={H’[0], H’[1], H’[2], , H’[i], H’[N]},
Ở đây
p
iH
iH
][
][' 
, P là tổng số các pixel trong ảnh.
Trong lƣợc đồ lƣợng hóa không gian màu lý tƣởng, các màu riêng biệt không
đƣợc định vị trong cùng hình khối con và các màu tƣơng tự đƣợc gán vào cùng hình
khối con. Sử dụng một số màu sẽ giảm khả năng các màu tƣơng tự đƣợc gán vào các
bin khác nhau, nhƣng cũng tăng khả năng các màu riêng biệt đƣợc gán vào cùng các
bin, nội dung thông tin của các ảnh sẽ giảm. Mặt khác, các lƣợc đồ màu với một số
lƣợng lớn các bin sẽ chứa nhiều thông tin về nội dung của ảnh, theo đó giảm khả năng
các màu riêng biệt sẽ đƣợc gán vào cùng các bin. Tuy nhiên, chúng tăng khả năng các
màu tƣơng tự sẽ đƣợc gán vào các bin khác nhau và tăng không gian lƣu trữ biểu diễn
ảnh và thời gian tính toán khoảng cách giữa các lƣợc đồ màu. Do đó, cần có sự thỏa

hiệp trong việc xác định số lƣợng các bin sẽ đƣợc sử dụng trong các lƣợc đồ màu.
1.2.2 Kết cấu
Kết cấu là một mô tả vùng trợ giúptốttrong quá trình tra cứu. Kết cấu không có
khả năng tìm ra cácảnh tƣơng tự, nhƣng nó có thểđƣợc sử dụng để phân lớp cácảnh kết
cấu từ cácảnh không kết cấu và sau đóđƣợc kết hợp với các thuộc tínhđặc trƣng khác
nhƣ màuđể làm cho tra cứu hiệu quả hơn. Một trong những biểu diễn phổ biến nhất
của đặc trƣng kết cấu là ma trậnđồng khả năng đƣợcđề xuất bởiHaralick và cộng sự[8].
Ma trận dựa trên hƣớng và khoảng cách pixel. Các thống kê từ ma trận đồng khả năng
đƣợc trích rút và đƣợc biểu diễn nhƣ thông tin kết cấu. Tamura và cộng sự[6] đã đề
xuất phƣơng pháp trích rút sáu thuộc tính kết cấu đặc trƣng coarseness, contrast,
directionality, likeliness, regularity and roughness.
1.2.3 Hình dạng
Hình dạng đƣợc xem nhƣ là một đặc trƣng quan trọng trong mô tả các đối tƣợng
nổi bật trong ảnh và có thể giúp phân biệt giữa hai ảnh.
8

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Bƣớcđầu tiên là sử dụng một phƣơng pháp phân đoạn thích hợpđể chia ảnh thành
các vùng. Các kỹ thuật phân đoạn có thểđƣợc phân lớp thành ba loại: dựa vào vùng,
dựa vàođƣờng biên và dựa vào pixel.Sau khi ảnhđƣợc phân đoạn và thu đƣợccác vùng,
các đặc trƣng thuộc về các vùng thu đƣợc sẽ đƣợc ghi lại. Các mã xích[9] sử dụng 4
hoặc 8 liên thông để biểu diễn cácđoạn thẳng tạo thành đƣờng biên của vùng. Các dấu
hiệu, số các hình vàđa giác là các lƣợcđồ biểu diễn khác.
Bƣớc tiếp theo là sử dụng các mô tả thích hợp cho các vùng này sao cho chúng
có thểđƣợc sử dụng trong khi đối sánh các vùng của cácảnh khác nhau. Các mô tả
hìnhđƣợc chia thành ba loại: Các mô tả dựa vàođƣờng biên xácđịnh các thuộc tính
củađƣờng biên. Các kỹ thuật dựa vào đƣờng biên sử dụng các phác thảo vùngđể tính
toán hình. Mô tả Fourier là một trong những phƣơng pháp phổ biến thuộc về loại này.
Trong kỹ thuật này, đƣờng biên của một vùng đã cho đƣợc thu và đƣợc biến đổi

Fourier[9]. Các hệ số Fourier trội đƣợc sử dụng nhƣ các mô tả hình. Các mô tả khác
trong loại này là các mô men hình [5].
Nếu một vùng có một hình phức hợp, nó có thể đƣợc phân tách tiếp thành các hình
đơn giản hơn nhƣ các hình chữ nhật hoặc các hình tròn và một số thuộc tính của các
hình đơn giản này và các quan hệ của chúng có thể đƣợc sử dụng cho các mô tả hình.
Các mô tả vùng khác gồm màu và kết cấu. Một số đặc tính của vùng nhƣ trọng tâm,
không cụ thể đối với đƣờng biên hoặc nội dung của vùng.
1.3 Độ tƣơng tự giữa các ảnh
1.3.1 Độ đo về màu sắc
Mộtsốđộđotƣơngđồngđƣợcsửdụngnhƣ:ĐộđokhoảngcáchƠclit,độđo Jensen-
Shannondivergence(JSD).
Gọih(I)vàh(M)tƣơngứnglà2lƣợc đồmàucủahaiảnhIvàảnhM.Khiđó
cácloạiđộđomàuđƣợcđịnhnghĩalàmộtsốnguyên(hoặcsốthực)theocácloạiđộ đotƣơng
ứng nhƣsau:
Khoảngcách Ơclit:
ĐâylàkhoảngcáchƠclitthôngthƣờnggiữacácKbin:

Intersection (h(I),h(M)) =
2
1
( ( ) ( ))
k
j
h I h M



2
1
( ( ) ( ))

k
j
h I h M



(1-18)
9

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Hoặc
Intersection (h(I),h(M)) =
1
( ) ( )
k
j
h I h M



(1-19)
ĐộđoJensen-Shannondivergence(JSD):
ĐộđoJensen-Shannon divergencesửdụnglƣợcđộmàuRGBđểtínhtoánđộ
tƣơngđồngvềmàusắcgiữa2ảnh:

d
JSD
(H,H’)=
'

'
''
1
22
log log
M
mm
mm
m
m m m m
HH
HH
H H H H




(1-20)
Trongđó:HvàH’là2biểuđồmàuđƣợcsosánh, H
m
là dải thứ m của biểu đồ H.
1.3.2 Độ đo tƣơng đồng hình dạng
Độđovềhìnhdạng rất nhiềutrong phạmvilýthuyếtcủa bộmônxửlýảnh. Chúng trải
rộng từ những độđo toàn cục dạngthôvớisựtrợgiúpcủaviệcnhận dạng đốitƣợng,cho
tớinhữngđộđochitiếttựđộng tìmkiếmnhữnghìnhdạngđặc biệt.
Lƣợcđồhìnhdạnglàmộtvídụcủađộđođơngiản.Kỹthuậtdùngđƣờng
biênhiệuquảhơnphƣơngpháptrƣớc,chúngtìmkiếm nhữnghìnhdạngđốitƣợng
gầngiốngvớiđƣờng biênnhất.Phƣơngphápvẽpháchọalàphƣơngphápcónhiều
đặctrƣngrõrànghơn,khôngchỉtìmkiếmnhữngđƣờngbiênđốitƣợngđơn,mà
cònđốivớitậpnhữngđốitƣợngđãđƣợcphânđoạntrongmộtảnhmàngƣờidùng

vẽhaycungcấp.
1.3.3 Độ đo tƣơng đồng cho kết cấu ảnh
Đểđođộtƣơngđồng theokếtcấugiữacácảnh,ngƣờitathƣờngsửdụngđộđo
Ơclit.Kếtcấuđƣợctrích xuấttừ cácbức ảnhsẽ đƣợcbiểu diễnthànhcácvéc tơnhiều
chiềuvàkhoảngcáchƠclitđƣợcdùngđểđođộtƣơngđồnggiữacácđặctrƣngcủa
ảnhtruyvấnvớiđặctrƣngcủaảnhtrongcơsởdữliệu.
1.3.4 Độ đo tƣơng đồng cho đặc trƣng phân đoạn
Mộtsốđộđotƣơngđồngchoảnh:
 Độ đo Cosin:
10

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

d(x,y) =
.
.
xy
xy
.
.
xy
xy
(1-21)
 Khoảng cách góc:
d(x,y) =
1
cos ( . )xy

1
cos ( , )xy


(1-22)
 Độ đo Euclide:
d(x,y) =
2
1
m
ii
i
xy



2
1
m
ii
i
xy



(1-23)
1.4 Các hệ thống tra cứu ảnh dựa vào nội dung
1.4.1 Hệ thống QBIC (Query By Image Content)
Hệ thống QBIC[5] là hệ thống tra cứu ảnh dựa trên sự phác thảo cho phép ngƣời
sử dụng xây dựng một phác thảo, vẽ ra và lựa chọn màu sắc cùng các mẫu kết cấu. Các
đặc trƣng màu sử dụng trong QBIC là giá trị màu trung bình của không gian RGB.
QBIC là một trong các hệ thống dùng cấu trúcđánh chỉ số nhiều chiều dựa trên cấu
trúc R*-Tree[3] và là hệ thống đầu tiên có cách tiếp cận tra cứu ảnh dựa trên nội dung

đƣợc ứng dụng trong thực tiễn. Các kỹ thuật trong hệ thống này là cơ sở nghiên cứu
cho sự xây dựng và phát triểncủa các hệ thống tra cứu ảnh sau này. QBIC cung cấp
một số phƣơng pháp: đơn đặc trƣng, đa đặc trƣng [12] và Multi-pass:
 Phƣơng pháp truy vấn đơn đặc trƣngchỉ sử dụng một đặc điểm cụ thể để tra cứu
ảnh.
 Truy vấn đa đặc trƣng bao gồm nhiều hơn một đặc trƣngvà mọi đặc trƣngđều có
trọng số nhƣ nhau trong suốt quá trình tìm kiếm.
 TruyvấnMulti-pass sử dụng đầu ra của các truy vấn trƣớc làm cơ sở cho bƣớc
tiếp theo. Ngƣời sử dụng có thể vẽ ra và chỉ định màu, kết cấu mẫu của hình
ảnh yêu cầu.
Trong hệ thống QBIC,tƣơng tựmàu đƣợc tính toán bằng độ đo bình phƣơng sử
dụng biểu đồ màu k phần tử và màu trung bình đƣợc sử dụng nhƣ là bộ lọc để cải tiến
hiệu quả của truy vấn.
1.4.2 Hệ thống Blobworld
Hệ thống này không áp dụng cách tiếp cận tra cứu ảnh theo ảnh mẫu mà tạo ra
những biến đổi bằng cách trích rútcác dữ liệu điểm nguyên thuỷ có đặc tính giống
nhau về màu sắc và không gian kết cấu để hợp thành một tập hợp nhỏ gọi là vùng
riêng biệt.
11

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Hệ thống này cũng cho ngƣời sử dụng thấy đƣợc sự trình bày kết cấu bên trong của
ảnh truy vấn và các kết quả truy vấn của nó. Ngoài ra, việc hiển thị ngẫu nhiên của hệ
thống cho ngƣời sử dụng biết nguyên nhân tại sao các ảnh không đồng dạng với ảnh
truy vấn lại đƣợc trả về nhƣ kết quả truy vấn và làm sao để cải tiến điều đó.

1.4.3 Virage
Virage là một máy tìm kiếm ảnh dựa vào nội dung đƣợc phát triển tại liên hợp
Virage. Tƣơng tự với QBIC, Virage hỗ trợ các truy vấn trực quan dựa trên màu, thành

phần cấu tạo (bố cục màu), kết cấu và cấu trúc (thông tin đƣờng bao đối tƣợng).
Nhƣng Virage tiến một bƣớc xa hơn QBIC. Nó cũng hỗ trợ các kết hợp tuỳ ý của bốn
truy vấn trên. Ngƣời sử dụng có thể điều chỉnh các trọng số đƣợc kết hợp với các đặc
trƣng theo sự nhấn mạnh riêng của họ. Jeffrey và cộng sự đã đề xuất tiếp một khuôn
khổ mở cho quản lý ảnh. Họ đã phân loại các đặc trƣng trực quan thành tổng quát (nhƣ
màu, hình, hoặc kết cấu) và lĩnh vực cụ thể (nhận dạng mặt ngƣời, phát hiện khối u,
v.v ). Nhiều đặc trƣng gốc hữu ích có thể đƣợc thêm vào cấu trúc mở, phụ thuộc vào
các yêu cầu lĩnh vực. Để đi ra ngoài giới hạn chế độ truy vấn bởi ví dụ, Gupta và Jain
đã đề xuất một khung công việc ngôn ngữ truy vấn chín thành phần. Hệ thống sẵn có
nhƣ một thành phần có thể thêm vào các hệ quản trị cơ sở dữ liệu nhƣ Oracle hoặc
Informix.
1.4.4 RetrievalWare
RetrievalWare là một máy tra cứu ảnh dựa vào nội dung đƣợc phát triển bởi tập
đoàn công nghệ Excalibur. Từ một trong các công bố đầu tiên của họ, chúng ta có thể
thấy rằng tầm quan trọng của nó là ứng dụng của các mạng neural để tra cứu ảnh. Máy
tìm kiếm gần đây của họ sử dụng màu, hình, kết cấu, độ sáng, bố cục màu, và hƣớng tỷ
lệ của ảnh, nhƣ các đặc trƣng truy vấn. Nó cũng hỗ trợ các kết hợp của các đặc trƣng
này và cho phép ngƣời sử dụng điều chỉnh các trọng số kết hợp với mỗi đặc trƣng.
Trang demo của nó tại
1.4.5 VisualSeek và WebSeek
VisualSEEk là một máy tìm kiếm đặc trƣng trực quan và WebSEEk là một máy
tìm kiếm văn bản/ảnh trên web, cả hai sản phẩm đã đƣợc phát triển tại đại học
12

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Columbia. Các đặc trƣng nghiên cứu chính là truy vấn quan hệ không gian của các
vùng ảnh và trích rút đặc trƣng trực quan lĩnh vực đƣợc nén. Các đặc trƣng trực quan
đƣợc sử dụng trong các hệ thống của họ là các tập màu và các đặc trƣng kết cấu dựa
vào biến đổi sóng. Để tăng tốc quá trình tra cứu, họ cũng đã phát triển các thuật toán

đánh chỉ số dựa vào cây nhị phân. VisualSEEk hỗ trợ các truy vấn dựa vào cả các đặc
trƣng trực quan và các quan hệ không gian của chúng. Điều này cho phép ngƣời sử
dụng chuyển một truy vấn hoàng hôn bằng vùng màu đỏ-cam trên đỉnh và vùng xanh
lơ hoặc xanh lá cây ở dƣới bằng phác thảo của nó. WebSEEk là một máy tìm kiếm
hƣớng Web. Nó gồm ba module chính, tức là module tập hợp ảnh/video, module phân
loại chủ đề và đánh chỉ số, và module tìm kiếm, duyệt, và tra cứu. Nó hỗ trợ các truy
vấn dựa trên cả các từ khoá và nội dung trực quan. Bản demo trực tuyến có tại

1.4.6 Photobook
Photobook là một tập các công cụ tƣơng tác để duyệt và tìm kiếm các ảnh đƣợc
phát triển tại phòng thí nghiệm MIT Media. Photobook gồm ba quyển nhỏ từ đó các
đặc trƣng hình, kết cấu, và bề mặt đƣợc trích rút tƣơng ứng. Sau đó những ngƣời sử
dụng có thể truy vấn trên cơ sở các đặc trƣng tƣơng ứng trong mỗi quyển con. Trong
phiên bản Photobook gần đây nhất của nó, bốn mắt, Picard và cộng sự đã đề xuất gồm
những ngƣời sử dụng trong lặp và chú thích tra cứu ảnh. Động cơ cho việc này là dựa
trên quan sát rằng không có đặc trƣng nào có thể mô hình các ảnh tốt nhất từ mỗi và
mọi lĩnh vực. Hơn nữa, nhận thức của con ngƣời là chủ quan. Họ đã đề xuất một cách
tiếp cận “hội các mô hình” để liên kết nhân tố ngƣời. Các kết quả thực nghiệm chỉ ra
rằng cách tiếp cận này là hiệu quả trong chú thích ảnh tƣơng tác.
1.5 Đánh giá hiệu năng tra cứu
Để đánh giá hiệu năng của hệ thống tra cứu, ngƣời ta đƣa ra hai số đo đó là độ
triệu hồi (recall) và độ chính xác (precision). Các số đo này đƣợc mƣợn từ hệ thống tra
cứu thông tin truyền thống.
Đối với một truy vấn q, tập hợp các ảnh trong cơ sở dữ liệu thích hợp với truy
vấn q đƣợc ký hiệu là R(q) còn kết quả tra cứu của truy vấn q đƣợc ký hiệu là Q(q).
13

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Độ chính xác của việc tra cứu đƣợc định nghĩa là tỉ lệ những kết quả thu đƣợc

thực sự thích hợp với truy vấn.
)q(Q
)q(R)q(Q
precision


(1-25)
Độ triệu hồi là tỉ lệ những kết quả thích hợp do truy vấn trả lại:
)q(R
)q(R)q(Q
recall


(1-26)
Thông thƣờng phải có sự thoả hiệp giữa hai số đo này bởi vì nếu muốn tăng
cƣờng số đo này thì lại phải chịu giảm số đo kia và ngƣợc lại. Trong các hệ thống tra
cứu điển hình thì độ triệu hồi có xu hƣớng tăng lên khi số lƣợng các kết quả thu đƣợc
tăng lên trong khi đó thì độ chính xác dƣờng nhƣ lại bị giảm đi.
Ngoài ra, việc lựa chọn R(q) lại rất không ổn định do sự đa đạng của cách hiểu về
một bức ảnh. Hơn nữa, khi số lƣợng ảnh thích hợp lại lớn hơn số lƣợng ảnh hệ thống
tìm đƣợc thì lúc đó khái niệm độ triệu hồi trở thành vô nghĩa.
Do đó, độ chính xác và độ triệu hồi chỉ là các mô tả ở dạng thô về hiệu năng của
một hệ thống truy vấn mà thôi.
Gần đây MPEG7 có khuyến nghị một cách đánh giá mới về hiệu năng của các hệ
thống tra cứu gọi là ANMRR (average normalized modified retrieval rank) . Theo
cách này độ chính xác và độ triệu hồi đƣợc kết hợp thành một số đo duy nhất.
Ký hiệu số lƣợng ảnh hoàn toàn đúng với truy vấn q là N(q) và số lƣợng lớn nhất
của các ảnh hoàn toàn đúng với tất cả Q truy vấn tức là max{N(q
1
), N(q

2
), ,N(q
Q
)} là
M. Sau đó đối với mỗi truy vấn q thì mỗi bức ảnh hoàn toàn đúng k đƣợc gán một giá
trị xếp hạng rank(k) giá trị này là thứ hạng của nó trong số những ảnh hoàn toàn đúng
nếu ảnh đó nằm trong K kết quả truy vấn đầu tiên (ở đây K = min{4N(q), 2M}) hoặc
có giá trị K+1 nếu ảnh đó không nằm trong K kết quả truy vấn đầu tiên.
Thứ hạng trung bìnhAVR(q) đối với truy vấn q đƣợc tính nhƣ sau:



)q(N
1k
)q(N
)q(rank
)q(AVR
(1-27)
14

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Thứ hạng tra cứu sửa đổi MRR(q) đƣợc tính là:
MRR(q)=AVR(q)-0.5-0.5*N(q) (1-28)
MRR(q) nhận giá trị 0 khi tất cả các ảnh hoàn toàn đúng đều nằm trong K kết quả
truy vấn đầu tiên.
Thứ hạng tra cứu sửa đổi và chuẩn hoá NMRR(q) nhận giá trị từ 0 đến 1 đƣợc
tính nhƣ sau:
)q(N*5.05.0K
)q(MRR

)q(NMRR


(1-29)
Thứ hạng tra cứu sửa đổi và chuẩn hoá trung bình ANMRR xét trên tất cả các
truy vấn Q là:



Q
1q
)q(NMRR
Q
1
ANMRR

1.6 Kết luận chƣơng 1
Trong chƣơng này, tôi đã giới thiệu một số khái niệm cơ bản về tra cứu ảnh dựa
vào nội dung, bao gồm: tra cứu ảnh, trình bày một số ứng dụng củahệ thống CBIR, các
chức năng tiêu biểu của hệ thống tra cứu ảnh dựa vào nội dung, một số nghiên cứu liên
quan về màu và thông tin không gian, đặc trƣng hình và kết cấu. Đặc biệt tôi nhấn
mạnh vào các đặc trƣng màu vàthông tin không gian.


15

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Chƣơng 2 : TRA CỨU ẢNH DỰA VÀO NỘI DUNG SỬ DỤNG PHÂN CỤM
2.1 Giới thiệu về phân cụm

2.1.1 Khái niệm
Phân cụm dữ liệu[2] là một kỹ thuật trong khai phá dữ liệu, nhằm đưa ra các cụm
mà các phần tử trong cụm có độ tương đồng cao và các phần tử khác cụm nhau lại có
độ tương đồng thấp.
Nhƣ vậy, phân cụm dữ liệu là kỹ thuật sử dụng quan sát đối tƣợng, mục đích để tổ
chức một tập các đối tƣợng cụ thể hoặc trừu tƣợng vào các nhóm, cụm phân
biệt.Những đối tƣợng có nội dung tƣơng tự nhau sẽ đƣợc xếp vào cùng một cụm và
những đối tƣợng có nội dung khác nhau đƣợc xếp vào các cụm khác nhau.
Sau đây sẽ giới thiệu một số tính chất của dữ liệu và yêu cầu của một thuật toán
phân cụm. Hầu hết các nghiên cứu và phát triển các thuật toán phân cụm dữ liệu nói
chung đều nhằm thỏa mãn các yêu cầu cơ bản sau:
 Có khả năng mở rộng, gia tăng: Thuật toán phân cụm cần có khả năng gia tăng,
mở rộng. Rất nhiều thuật toán phân cụm có thể làm việc tốt với lƣợng dữ liệu nhỏ, ít
hơn 100 đối tƣợng dữ liệu mà khônglàm tốt với lƣợng dữ liệu lớn, trong khi đó cơ
sở dữ liệu lớn chứa hàng triệu đối tƣợng vì vậy ta cần mở rộng bộ phân cụm đó để
bao trùm cả tập dữ liệu lớn.
 Khả năng thích nghi với các kiểu và thuộc tính dữ liệu khác nhau: có nhiều
thuật toán phân cụmphù hợp với dữ liệu số vàcó một sốthuật toán áp dụng cho loại
dữ liệu nhị phân hay dữ liệu ảnh …
 Nhận biết đƣợc các cụm với hình thù bất kỳ: một số thuật toán xác định cụm
dựa vào việc tính khoảng cách Euclid hay Manhattan với mục đích nhận biết độ dày
và giống nhau của các tài liệu trong cụm. Tuy nhiên, một cụm có thể có hình dạng
bất kỳ vì vậy mà việc phát triển thuật toán có khả năng xác định các cụm với hình
thù bất kỳ là quan trọng và cần thiết.
 Khả năng thích nghi với dữ liệu nhiễu: Phần lớn các cơ sở dữ liệu thực tế chứa
đựng ngoại lệ hoặc thiếu, không xác định hay không đúng. Các thuật toán nhạy cảm
với nhiễu là nguyên nhân dẫn đến việc tạo ra các cụm kém chất lƣợng.
 Phân cụm trên một số ràng buộc: Trong một số ứng dụng, chúng ta cần phân
cụm trên cơ sở dữ liệu chứa các liên kết bắt buộc giữa hai hay nhiều đối tƣợng. Việc
phân cụm cần đảm bảo các đối tƣợng này thỏa mãn các ràng buộc đó.

 Dễ hiểu, dễ cài đặt và khả thi: một thuật toán càng dễ hiểu và dễ cài đặt và
mang tính khả thi cao sẽ đƣợc ngƣời dùng tin cậy và sử dụng rộng rãi.
16

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

Các kiểu biến dữ liệu
 Biểu diễn dƣới dạng ma trận của các biến cấu trúc hay các thuộc tính của đối
tƣợng. Ví dụ đối tƣợng ngƣời sẽ có các thuộc tính là tên, tuổi, chiều cao, cân nặng,
màu mắt, … Nếu ta có n đối tƣợng, mỗi đối tƣợng có p thuộc tính thì sẽ có một ma
trận với n dòng, p cột.






 Biểu diễn dữ liệu dƣới dạng độ đo khoảng cách giữa các cặp đối tƣợng. Nếu ta có
n đối tƣợng, chúng sẽ đƣợc biểu diễn bằng một ma trận với n hàng và n cột nhƣ sau:





Trong đó d(i, j) là khoảng cách giữa đối tƣợng i và j; thể hiện sự khác biệt giữa
đối tƣợng i và j; đƣợc tính tuỳ thuộc vào kiểu của các biến/thuộc tính và thỏa mãn các
tính chất:
d(i,j) 0
d(i,i) = 0
d(i,j) = d(j,i)

d(i,j)d(i,k) + d(k,j)
Các kiểu khoảng cách
Việc tính toán khoảng cách có thể đƣợc thực hiện bằng nhiều cách khác nhau
dựavào mục đích của phân cụm. Khoảng cách giữa hai đối tƣợng x, y hay độ đo phi
tƣơng tƣợng giữa hai đốitƣợng đƣợc xác định bằng một ma trận. Một số phƣơng pháp
đo khoảng cách phổ biến là: Khoảng cách Euclid, khoảng cách Manhattan đƣợc định
nghĩa bằng khoảng cách Minkowski:
 Độ đo khoảng cách Minkowski :



















np
x
nf

x
n1
x

ip
x
if
x
i1
x

1p
x
1f
x
11
x

















0 )2,()1,(
:::
)2,3()
ndnd
0dd(3,1
0d(2,1)
0
q
q
pp
qq
j
x
i
x
j
x
i
x
j
x
i
xjid )|| |||(|),(
2211

17


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


 Độ đo khoảng cách Manhattan (q = 1)


 Độ đo khoảng cách Euclid(q = 2)



Phép đo khoảng cách cho dữ liệu thuộc tính nhị phân
Xác định một bảng tham số

Đối tƣợng i


1
0
Đối tƣợng j
1
a
b
0
c
d

Trong đó:
a: Tổng số thuộc tính có giá trị là 1 trong cả i và j
b: Tổng số các thuộc tính có giá trị là 1 trong i và có giá trị là 0 trong j.
c: Tổng số các thuộc tính có giá trị là 0 trong i và có giá trị là 1 trong j.

d: Tổng số thuộc tính có giá trị là 0 trong cả i và j.
Hệ số so trùng đơn giản :

Hệ số so trùng Jaccard :

2.1.2 Một số vấn đề trong phân cụm
Xử lý nhiễu: Dữ liệu bị nhiễu là dữ liệu không chính xác hay là dữ liệu
khuyếtthiếu thông tin về một số thuộc tính. Hầu hết các dữ liệu sử dụng để phân cụm
đều bị nhiễu do quá trình thu thập thiếu chính xác hay thiếu đầy đủ. Vì vậy cần phải
thực hiện bƣớc tiền xử lý dữ liệu nhằm khắc phục hoặc loại bỏ nhiễu trƣớc khi chuyển
sang giai đoạn phân tích cụm dữ liệu. Một trong các kỹ thuật xử lý nhiễu hiện nay là
thay thế các giá trị các thuộc tính của đối tƣợng nhiễu bằng các giá trị thuộc tính tƣơng
ứng.
|| ||||),(
2211 pp j
x
i
x
j
x
i
x
j
x
i
xjid 
)|| |||(|),(
22
22
2

11 pp j
x
i
x
j
x
i
x
j
x
i
xjid 
dcba
cb
jid


),(
cba
cb
jid


),(

×