Tải bản đầy đủ (.pdf) (67 trang)

Nghiên cứu một số kỹ thuật phân cụm trong tra cứu logo

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.98 MB, 67 trang )

ĐẠI HỌC THÁI NGUN
ĐẠI HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG


Nguyễn Đình Sinh

NGHIÊN CỨU MỘT SỐ KỸ THUẬT PHÂN CỤM
TRONG TRA CỨU LOGO

Chun ngành: Khoa học máy tính
Mã số: 60.48.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH


NGƢỜI HƢỚNG DẪN KHOA HỌC
1. PGS.TS: ĐỖ NĂNG TỒN



Thái Ngun - 2013
Số hóa bởi trung tâm học liệu />MỤC LỤC
LỜI CẢM ƠN i
LỜI CAM ĐOAN ii
DANH MỤC CÁC HÌNH iii
LỜI MỞ ĐẦU 1
Chƣơng 1: KHÁI QT VỀ PHÂN CỤM VÀ BÀI TỐN TRA CỨU LOGO 3
1.1 Phân cụm dữ liệu 3
1.1.1 Khái niệm và mục tiêu của phân cụm dữ liệu 3
1.1.2 Các ứng dụng của phân cụm dữ liệu 6
1.1.3 Các u cầu của phân cụm 7


1.1.4 Những kỹ thuật tiếp cận trong phân cụm dữ liệu 9
1.1.4.1 Phƣơng pháp phân cụm phân hoạch 9
1.1.4.2 Phƣơng pháp phân cụm phân cấp 11
1.1.4.3 Phƣơng pháp phân cụm dựa trên mật độ 12
1.1.4.4 Phƣơng pháp phân cụm dựa trên lƣới 13
1.1.4.5 Phƣơng pháp phân cụm dựa trên mơ hình 14
1.1.4.6 Phƣơng pháp phân cụm có dữ liệu ràng buộc 15
1.2 Bài tốn tra cứu Logo 16
1.2.1 Định nghĩa Logo 16
1.2.2 Đặc trƣng của Logo và ảnh Logo 17
1.2.2 Đặc trƣng của Logo và ảnh Logo 17
1.2.2.1 Một số đặc trƣng cơ bản của ảnh số 17
1.2.2.2 Tra cứu thơng tin và thơng tin trực quan 19
1.2.3 Đặc trƣng của logo 22
Số hóa bởi trung tâm học liệu />Chƣơng 2: MỘT SỐ KỸ THUẬT PHÂN CỤM TRONG TRA CỨU LOGO 25
2.1 Thuật tốn K- Means 25
2.2 Thuật tốn Seed-Kmeans 30
2.3 Thuật tốn IsoData 31
2.4 Thuật tốn CURE 32
2.5 Thuật tốn DBSCAN 35
2.6 Thuật tốn STING 37
Chƣơng 3: CHƢƠNG TRÌNH THỬ NGHIỆM 39
3.1. Bài tốn 39
3.1.1 Phân tích về lơgơ 39
3.1.2 Đánh giá độ tƣơng tự về lơgơ 40
3.2. Phân tích, lựa chọn kỹ thuật tra cứu 41
3.2.1. Thuật tốn K – Mean trong phân cụm ảnh 44
3.2.2 Một số thuật tốn sử dụng trong chƣơng trình 46
3.3 Chƣơng trình 48
3.3.1 Hƣớng dẫn sử dụng chƣơng trình . 48

3.3.2 Chƣơng trình và một số kết quả đạt đƣợc 48
KẾT LUẬN 53
TÀI LIỆU THAM KHẢO 55
PHỤ LỤC - ẢNH LƠGƠ TRONG CƠ SỞ DỮ LIỆU 57
Số hóa bởi trung tâm học liệu />


i


LỜI CẢM ƠN
Em xin chân thành cảm ơn PGS. TS Đỗ Năng Tồn đã tận tình hƣớng dẫn
khoa học, giúp đỡ em hồn thành tốt luận văn tốt nghiệp này.
Em cũng xin gửi lời cảm ơn tới các thầy, cơ giáo đã dạy dỗ, và trun đạt
kiến thức cho em trong suốt q trình học tập và nghiên cứu.

Học viên
NGUYỄN ĐÌNH SINH
Số hóa bởi trung tâm học liệu />


ii


LỜI CAM ĐOAN
Tơi xin cam đoan tồn bộ nội dung trong Luận văn hồn tồn theo đúng nội
dung đề cƣơng cũng nhƣ nội dung mà cán bộ hƣớng dẫn giao cho. Nội dung của
Luận văn, các phần trích lục các tài liệu là hồn tồn chính xác. Nếu có sai sót
tơi hồn tồn chịu trách nhiệm.


Thái Ngun, Ngày 20 tháng 09 năm 2013
Học viên
NGUYỄN ĐÌNH SINH
Số hóa bởi trung tâm học liệu />


iii


DANH MỤC CÁC HÌNH

Hình 1.1- Mơ tả tập dữ liệu vay nợ được phân thành 3 cụm. 4
Hình 1.2: Các chiến lược phân cụm phân cấp 12
Hình 1.3. Một số hình dạng khám phá bởi phân cụm dựa trên mật độ 13
Hình 2.1: Các thiết lập để xác định các ranh giới các cụm ban đầu 25
Hình 2.2: Tính tốn trọng tâm của các cụm mới 26
Hình 2.3: Ví dụ về một số hình dạng cụm dữ liệu được khám phá bởi K-means 29
Hình 2.4: Khái qt thuật tốn CURE 32
Hình 2.5: Các cụm dữ liệu được khám phá bởi CURE 33
Hình 2.6. Ví dụ thực hiện phân cụm bằng thuật tốn CURE 34
Hình 2.7. a) Mật độ trực tiếp, b) Đến được mật độ, c) Mật độ liên thơng 36
Hình 3.1 Mơ hình hệ thống tra cứu ảnh 41
Hình 3.2: Sơ đồ thuật tốn K – Mean trong phân cụm ảnh 44
Hình 3.3. Phân cụm ảnh 45
Hình 3.4- Sơ đồ thuật tốn dò biên Canny 46
Hình 3.5- Hàm xấp xỉ Gaussian rời rạc với
4.1

(cửa sổ W kích cỡ 5x5) 46
Hình 3.6 - Cặp mặt lạ tính tốn gradient 47

Hình 3.7 - Màn hình lựa chọn các tham số cho chương trình 49
Hình 3.8- Màn hình lựa chọn menu mở file ảnh lơgơ đưa vào tra cứu 49
Hình 3.9- Màn hình hiển thị ảnh lơgơ đưa vào cùng histogram màu và hình dạng 50
Hình 3.10- Lựa chọn menu Image Retrieval -> By Color (tra cứu theo màu sắc) 50
Hình 3.11- Màn hình hiển thị kết quả 10 ảnh lơgơ gần giống nhất theo màu sắc 51
Hình 3.12- Lựa chọn menu Image Retrieval -> By Shape để tra cứu theo hình dạng 51
Hình 3.13- Màn hình hiển thị kết quả 10 ảnh lơgơ gần giống nhất theo hình dạng 52
Số hóa bởi trung tâm học liệu />


iv








Số hóa bởi trung tâm học liệu />


1


LỜI MỞ ĐẦU

Những năm gần đây, ảnh số và việc xử lý ảnh số ngày càng nhận đƣợc sự quan
tâm của nhiều ngƣời, một phần do các thiết bị thu nhận ảnh số ngày càng trở nên
thơng dụng với mọi ngƣời, cùng với nó là các thiết bị lƣu trữ ngày càng đƣợc cải

thiện về dung lƣợng và giá thành nên việc lƣu trữ ảnh ngày càng thơng dụng hơn,
chất lƣợng ảnh tốt hơn, thời gian lƣu trữ lâu hơn,
Mặt khác, với sự phát triển mạnh mẽ của cơng nghệ thơng tin, đặc biệt là sự phát
triển của Internet làm cho số lƣợng ảnh số đƣợc lƣu trữ và trao đổi qua Internet là
rất lớn. Do đó bài tốn thực tế đặt ra là cần phải có phƣơng pháp tổ chức CSDL ảnh
phù hợp, phục vụ cho q trình tìm kiếm và tra cứu ảnh nhanh hơn và có độ chính
xác cao hơn.
Việc tìm kiếm một bức ảnh thỏa mãn tiêu chí tìm kiếm trong vơ số các bức ảnh
thuộc đủ loại chủ đề và định dạng khác nhau là rất khó khăn, và khi số lƣợng ảnh
trong CSDL còn ít, việc nhận diện một bức ảnh hay việc so sánh sự giống và khác
nhau giữa nhiều bức ảnh có thể thực hiện đƣợc bằng mắt thƣờng, tuy nhiên khi số
lƣợng ảnh rất lớn thì việc so sánh này rất khó khăn, và do đó cần có các phƣơng
pháp hiệu quả và phù hợp hơn.
Sự phát triển mạnh mẽ của cơng nghệ ảnh số làm số lƣợng ảnh lƣu trữ trên web
tăng lên một cách nhanh chóng. Để tìm kiếm bức ảnh theo mong muốn là rất khó
khăn. Hơn thế nữa việc xã hội hóa và hội nhập kinh tế diễn ra rất mạnh mẽ. Đã có
thêm rất nhiều các cơng ty mới xuất hiện tại nƣớc ta. (Các cơng ty trong nƣớc, liên
doanh và nƣớc ngồi). Với mỗi cơng ty đƣợc thành lập thì đều có Logo riêng của
cơng ty đó, Logo đó phải đƣợc thiết kế bởi các nhà thiết kế và đăng ký bản quyền
với Cục bản quyền tác giả. Nhƣng việc để biết đƣợc Logo đó đã có hay chƣa và đã
đƣợc đăng ký hay chƣa là rất khó khăn.
Kỹ thuật tra cứu ảnh đƣợc nhiều ngƣời quan tâm nghiên cứu hiện nay là kỹ thuật
Số hóa bởi trung tâm học liệu />


2


" Tra cứu ảnh dựa theo nội dung”. Kỹ thuật này cho phép trích rút các đặc trƣng
dựa vào nội dung trực quan của bản thân ảnh nhƣ màu sắc, kết cấu, hình dạng, bố

cục khơng gian của ảnh, để làm cơ sở cho việc tra cứu, sắp xếp, tổ chức CSDL
ảnh. Việc biểu diễn và trích rút đặc trƣng để nhận dạng đƣợc bức ảnh mong muốn
là rất quan trọng và nhiều hƣớng nghiên cứu khác nhau đã đƣợc triển khai. Tuy
nhiên, khi CSDL ảnh lớn thì việc tìm kiếm ảnh một cách tuần tự sẽ tốn rất nhiều
thời gian. Để tăng tốc hệ thống tra cứu ảnh dựa vào nội dung, cần có một số kỹ
thuật tra cứu ảnh nhanh. Thực tế đòi hỏi thời gian tìm kiếm khơng đƣợc tăng tuyến
tính đối với số các ảnh trong CSDL.
Có rất nhiều kỹ thuật đƣợc sử dụng trong tra cứu ảnh và Logo. Một trong các kỹ
thuật đó là các kỹ thuật phân cụm. Nó có thể giúp ngƣời sử dụng tìm kiếm nhanh và
chính xác một Logo đã có. Vì vậy tơi chọn đề tài: ”Nghiên cứu một số kỹ thuật phân
cụm trong tra cứu Logo”.
Luận văn đƣợc trình bầy trong 3 chƣơng và phụ lục:
Chương 1: Khái qt về phân cụm và bài tốn tra cứu Logo.
Chương 2: Một số kỹ thuật phân cụm trong tra cứu Logo.
Chương 3: Chương trình thử nghiệm.





Số hóa bởi trung tâm học liệu />


3


Chương 1: KHÁI QT VỀ PHÂN CỤM VÀ
BÀI TỐN TRA CỨU LOGO

1.1 Phân cụm dữ liệu

1.1.1 Khái niệm và mục tiêu của phân cụm dữ liệu
Mục đích chính của phân cụm dữ liệu (PCDL) nhằm khám phá cấu trúc của
mỗi dữ liệu để thành lập các nhóm dữ liệu từ tập dữ liệu lớn, theo đó nó cho phép
ngƣời ta đi sâu vào phân tích và nghiên cứu cho từng cụm dữ liệu này nhằm khám
phá và tìm kiếm các thơng tin tiềm ẩn, hữu ích phục vụ cho việc ra quyết định. Ví
dụ “Nhóm các khách hàng trong cơ sở dữ liệu (CSDL) ngân hàng có vốn các đầu tƣ
vào bất động sản cao” Nhƣ vậy, PCDL là một phƣơng pháp xử lý thơng tin quan
trọng và phổ biển, nó nhằm khám phá mối liên hệ giữa các mẫu dữ liệu bằng cách
tổ chức chúng thành các cụm.
Ta có thể khái qt hóa khái niệm PCDL: PCDL là một kĩ thuật trong khai
phá dữ liệu (KPDL), nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên,
tiềm ẩn, quan trọng trong tập dữ liệu lớn từ đó cung cấp thơng tin, tri thức hữu ích
cho việc ra quyết định.
Nhƣ vậy, PCDL là q trình phân chia một tập dữ liệu ban đầu thành các
cụm dữ liệu sao cho các phần tử trong một cụm “tƣơng tự” với nhau và các phần tử
trong các cụm khác nhau sẽ “phi tƣơng tự” với nhau. Số các cụm dữ liệu đƣợc phân
ở đây có thể đƣợc xác định trƣớc theo kinh nghiệm hoặc có thể đƣợc tự động xác
định của phƣơng pháp phân cụm
Trong PCDL khái niệm hai hoặc nhiều đối tƣợng cùng đƣợc xếp vào một
cụm nếu chúng có chung một định nghĩa về khái niệm hoặc chúng xấp xỉ với các
khái niệm mơ tả cho trƣớc
Trong học máy, PCDL đƣợc xem là vấn đề học khơng có giám sát, vì nó phải giải
quyết vấn đề tìm một cấu trúc trong tập hợp dữ liệu chƣa biết trƣớc các thơng tin về
lớp hay các thơng tin về tập huấn luyện. Trong nhiều trƣờng hợp, nếu phân lớp
Số hóa bởi trung tâm học liệu />


4



đƣợc xem là vấn đề học có giám sát thì PCDL là một bƣớc trong phân lớp dữ liệu,
PCDL sẽ khởi tạo các lớp cho phân lớp bằng cách xác định các nhãn cho các nhóm
dữ liệu
Trong KPDL, ngƣời ta có thể nghiên cứu các phƣơng pháp phân tích cụm có
hiệu quả và hiệu suất cao trong CSDL lớn. Những mục tiêu trƣớc tiên của nghiên
cứu là tập trung vào khả năng mở rộng của các phƣơng pháp phân cụm, tính hiệu
quả của các phƣơng pháp phân cụm với các hình dạng phức tạp, những kĩ thuật cho
phân cụm với nhiều kiểu dữ liệu có kích cỡ lớn và những phƣơng pháp cho PCDL
tƣờng minh và những dữ liệu dạng số hỗn hợp trong CSDL lớn. PCDL đƣợc sử
dụng rộng rãi trong nhiều ứng dụng, bao gồm nhận dạng mẫu, phân tích dữ liệu, xử
lý ảnh, nghiên cứu thị trƣờng

Hình 1.1- Mơ tả tập dữ liệu vay nợ đƣợc phân thành 3 cụm.

Vấn đề thƣờng gặp trong PCDL là hầu hết các dữ liệu cần cho phân cụm đều
có chứa dữ liệu “nhiễu” do q trình thu thập thiếu chính xác hoặc thiếu đầy đủ, vì
cần phải xây dựng chiến lƣợc cho bƣớc tiền xử lý dữ liệu nhằm khắc phục hoặc loại
bỏ “nhiễu” trƣớc khi bƣớc vào giai đoạn phân tích PCDL. “nhiễu” ở đây có thể là
các đối tƣợng dữ liệu khơng chính xác hoặc các đối tƣợng dữ liệu khuyết thiếu
Số hóa bởi trung tâm học liệu />


5


thơng tin về một số thuộc tính. Một trong các kỹ thuật xử lý nhiễu phổ biến là việc
thay thế giá trị của các thuộc tính của đối tƣợng “nhiễu” bằng giá trị thuộc tính
tƣơng ứng của đối tƣợng dữ liệu gần nhất.
Ngồi ra, dò tìm phần tử ngoại lai là một trong những hƣớng nghiên cứu
quan trọng trong PCDL, chức năng của nó là xác định một nhóm nhỏ các đối tƣợng

dữ liệu “khác thƣờng” so với các dữ liệu khác trong CSDL - tức là đối tƣợng dữ
liệu khơng tn theo các hành vi hoặc mơ hình dữ liệu - nhằm tránh sự ảnh hƣởng
của chúng tới q trình và kết quả của PCDL. Khám phá các phần tử ngoại lai đã
đƣợc phát triển và ứng dụng trong viễn thơng, dò tìm gian lận thƣơng mại.
Tóm lại, PCDL là một vấn đề khó vì ngƣời ta phải đi giải quyết các vấn đề
con cơ bản nhƣ sau:
- Biểu diễn dữ liệu.
- Xây dựng hàm tính độ tƣợng tự.
- Xây dựng các tiêu chuẩn phân cụm.
- Xây dựng mơ hình cho cấu trúc cụm dữ liệu.
- Xây dựng thuật tốn phân cụm và xác lập các điều kiện khởi tạo.
- Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm.
Theo các nghiên cứu thì đến nay chƣa có một phƣơng pháp phân cụm tổng
qt nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cụm dữ liệu. Hơn
nữa, các phƣơng pháp phân cụm cần có cách thức biểu diễn cấu trúc các cụm dữ
liệu khác nhau, với mỗi cách thức biểu diễn khác nhau sẽ có một thuật tốn phân
cụm phù hợp. PCDL đang là vấn đề mở và khó vì ngƣời ta cần phải đi giải quyết
nhiều vấn đề cơ bản nhƣ đã đề cập ở trên một cách trọn vẹn và phù hợp với nhiều
dạng dữ liệu khác nhau. Đặc biệt đối tƣợng với dữ liệu hỗn hợp, đang ngày càng
tăng trƣởng khơng ngừng trong các hệ quản trị dữ liệu, đây cũng là một trong
những thách thức lớn trong lĩnh vực KPDL trong những thập kỷ tiếp theo và đặc
biệt trong lĩnh vực KPDL bằng phƣơng pháp phân cụm dữ liệu.Mục tiêu của phân
cụm dữ liệu là xác định đƣợc bản chất nhóm trong tập dữ liệu chƣa có nhãn. Nhƣng
để có thể quyết định đƣợc cái gì tạo thành một cụm tốt. Nó có thể đƣợc chỉ ra rằng
Số hóa bởi trung tâm học liệu />


6



khơng có tiêu chuẩn tuyệt đối “tốt” mà có thể khơng phụ thuộc vào kết quả phân
cụm. Vì vậy, nó đòi hỏi ngƣời sử dụng phải cung cấp tiêu chẩn này, theo các mà kết
quả phân cụm sẽ đáp ứng đƣợc u cầu. Ví dụ, có thể quan tâm đến việc tìm đại
diện cho các nhóm đồng nhất (rút gọn dữ liệu), trong tìm kiếm Mục tiêu của phân
cụm dữ liệu là xác định đƣợc bản chất nhóm trong tập dữ liệu chƣa có nhãn. Nhƣng
để có thể quyết định đƣợc cái gì tạo thành một cụm tốt. Nó có thể đƣợc chỉ ra rằng
khơng có tiêu chuẩn tuyệt đối “tốt” mà có thể khơng phụ thuộc vào kết quả phân
cụm. Vì vậy, nó đòi hỏi ngƣời sử dụng phải cung cấp tiêu chẩn này, theo các mà kết
quả phân cụm sẽ đáp ứng đƣợc u cầu. Ví dụ, có thể quan tâm đến việc tìm đại
diện cho các nhóm đồng nhất (rút gọn dữ liệu), trong tìm kiếm “các cụm tự nhiên”
và mơ tả các thuộc tính chƣa biết (kiểu dữ liệu tự nhiên) hoặc tìm kiếm các đối
tƣợng khác thƣờng (dò tìm phần tử ngoại lai).
1.1.2 Các ứng dụng của phân cụm dữ liệu
Phân cụm dữ liệu là một cơng cụ quan trọng trong một số ứng dụng. Sau đây
là một số ứng dụng của nó:
• Giảm dữ liệu: Giả sử ta có một lƣợng lớn dữ liệu (N). Phân cụm sẽ nhóm
các dữ liệu này thành m cụm dữ liệu dễ nhận thấy và m << N. Sau đó xử lý mỗi
cụm nhƣ một đối tƣợng đơn.
• Rút ra các giả thuyết: Các giả thuyết này có liên quan đến tính tự nhiên của
dữ liệu và phải đƣợc kiểm tra bởi việc dùng một số tập dữ liệu khác.
• Kiểm định giả thuyết: Ta sẽ phân cụm để xét xem có tồn tại một tập dữ liệu
nào đó trong tập dữ liệu thoả mãn các giả thuyết đã cho hay khơng. Chẳng hạn xem
xét giả thuyết sau đây: “Các cơng ty lớn đầu tư ra nước ngồi“. Để kiểm tra, ta áp
dụng kỹ thuật phân cụm với một tập đại diện lớn các cơng ty. Giả sử rằng mỗi cơng
ty đƣợc đặc trƣng bởi tầm vóc, các hoạt động ở nƣớc ngồi và khả năng hồn thành
các dự án. Nếu sau khi phân cụm, một cụm các cơng ty đƣợc hình thành gồm các
cơng ty lớn và có vốn đầu tƣ ra nƣớc ngồi (khơng quan tâm đến khả năng hồn
thành các dự án) thì giả thuyết đó đƣợc củng cố bởi kỹ thuật phân cụm đã
thực hiện.
Số hóa bởi trung tâm học liệu />



7


• Dự đốn dựa trên các cụm: Đầu tiên ta sẽ phân cụm một tập dữ liệu thành
các cụm mang đặc điểm của các dạng mà nó chứa. Sau đó, khi có một dạng mới
chƣa biết ta sẽ xác định xem nó sẽ có khả năng thuộc về cụm nào nhất và dự đốn
đƣợc một số đặc điểm của dạng này nhờ các đặc trƣng chung của cả cụm.
Cụ thể hơn, phân cụm dữ liệu đã đƣợc áp dụng cho một số ứng dụng điển
hình trong các lĩnh vực sau:
• Thƣơng mại: Trong thƣơng mại, phân cụm có thể giúp các thƣơng nhân
khám phá ra các nhóm khách hàng quan trọng có các đặc trƣng tƣơng đồng nhau và
đặc tả họ từ các mẫu mua bán trong cơ sở dữ liệu khách hàng.
• Sinh học: Trong sinh học, phân cụm đƣợc sử dụng để xác định các loại sinh
vật, phân loại các Gen với chức năng tƣơng đồng và thu đƣợc các cấu trúc trong
các mẫu.
• Phân tích dữ liệu khơng gian: Do sự đồ sộ của dữ liệu khơng gian nhƣ dữ
liệu thu đƣợc từ các hình ảnh chụp từ vệ tinh các thiết bị y học hoặc hệ thống thơng
tin địa lý (GIS), làm cho ngƣời dùng rất khó để kiểm tra các dữ liệu khơng gian
một cách chi tiết. Phân cụm có thể trợ giúp ngƣời dùng tự động phân tích và xử lý
các dữ liệu khơng gian nhƣ nhận dạng và chiết xuất các đặc tính hoặc các mẫu dữ
liệu quan tâm có thể tồn tại trong cơ sở dữ liệu khơng gian.
• Lập quy hoạch đơ thị: Nhận dạng các nhóm nhà theo kiểu và vị trí địa lý,
nhằm cung cấp thơng tin cho quy hoạch đơ thị.
• Nghiên cứu trái đất: Phân cụm để theo dõi các tâm động đất nhằm cung cấp
thơng tin cho nhận dạng các vùng nguy hiểm.
• Địa lý: Phân lớp các động vật và thực vật và đƣa ra đặc trƣng của chúng
• Web Mining: Phân cụm có thể khám phá các nhóm tài liệu quan trọng, có
nhiều ý nghĩa trong mơi trƣờng Web. Các lớp tài liệu này trợ giúp cho việc khám

phá tri thức từ dữ liệu,
1.1.3 Các u cầu của phân cụm
Việc xây dựng, lựa chọn một thuật tốn phân cụm là bƣớc then chốt cho việc
giải quyết vấn đề phân cụm, sự lựa chọn này phụ thuộc vào đặc tính dữ liệu cần
Số hóa bởi trung tâm học liệu />


8


phân cụm, mục đích của ứng dụng thực tế hoặc xác định độ ƣu tiên giữa chất lƣợng
của các cụm hay tốc độ thực hiện thuật tốn,
Hầu hết các nghiên cứu và phát triển thuật tốn PCDL đều nhằm thỏa
mãn các u cầu cơ bản sau:
• Có khả năng mở rộng: Nhiều thuật tốn phân cụm làm việc tốt với những
tập dữ liệu nhỏ chứa ít hơn 200 đối tƣợng, tuy nhiên một CSDL lớn có thể chứa tới
hàng triệu đối tƣợng. Việc phân cụm với một tập dữ liệu cho lớn có thể làm ảnh
hƣởng tới kết quả. Vậy làm các nào để chúng ta có thể phát triển các thuật tốn
phân cụm có khả năng mở rộng cao đối với các CSDL lớn?
• Khả năng thích nghi với các kiểu dữ liệu khác nhau: Thuật tốn có thể áp
dụng hiệu quả cho việc phân cụm các tập dữ liệu với nhiều kiểu dữ liệu khác nhau
nhƣ dữ liệu kiểu số, kiểu nhị phân, dữ liệu định danh, hạng mục, và thích nghi
với kiểu dữ liệu hỗn hợp.
• Khám phá các cụm với hình dạng bất kỳ: Do hầu hết các cơ sở dữ liệu có
chứa nhiều cụm dữ liệu với các hình thù khác nhau nhƣ: hình lõm, hình cầu, hình
que, Vì vậy, để khám phá đƣợc các cụm có tính tự nhiên thì các thuật tốn phân
cụm cần phải có khả năng khám phá ra các cụm dữ liệu có hình thù bất kì.
• Tối thiểu lƣợng tri thức cần cho xác định các tham số đầu vào: Do các giá
trị đầu vào thƣờng ảnh hƣởng rất lớn đến thuật tốn phân cụm và rất phức tạp để
xác định các giá trị vào thích hợp đối với các CSDL lớn.

• Ít nhạy cảm với thứ tự của dữ liệu vào: Cùng một tập dữ liệu, khi đƣa vào
xử lý cho thuật tốn PCDL với các thứ tự vào của các đối tƣợng dữ liệu ở các lần
thực hiện khác nhau thì khơng ảnh hƣởng lớn đến kết quả phân cụm.
• Khả năng thích nghi với dữ liệu nhiễu cao: Hầu hết các dữ liệu phân cụm
trong KPDL đều chứa đựng các dữ liệu lỗi, dữ liệu khơng đầy đủ dữ liệu rác. Thuật
tốn phân cụm khơng những hiệu quả đối với các dữ liệu nhiễu mà còn tránh dẫn
đến chất lƣợng phân cụm thấp do nhạy cảm với nhiễu.
• Ít nhạy cảm với thứ tự của các tham số đầu vào: Nghĩa là giá trị của các
tham số đầu vào khác nhau ít gây ra các thay đổi lớn đối với kết quả phân cụm.
Số hóa bởi trung tâm học liệu />


9


• Thích nghi với dữ liệu đa chiều: Thuật tốn có khả năng áp dụng hiệu quả
cho dữ liệu có số khác chiều nhau.
• Dễ hiểu dễ cài đặt và khả thi: Ngƣời sử dụng có thể chờ đợi những kết quả
phân cụm dễ hiểu, dễ lý giải và dễ sử dụng. Nghĩa là, sự phân cụm có thể cần đƣợc
giải thích ý nghĩa và ứng dụng rõ ràng. Việc nghiên cứu cách để một ứng dụng đạt
đƣợc mục tiêu rất quan trọng có thể gây ảnh hƣởng tới sự lựa trọn các phƣơng pháp
phân cụm.
Với những u cầu đáng chú ý này, nghiên cứu của ta về phân tích phân cụm
diễn ra nhƣ sau: Đầu tiên, ta nghiên cứu các kiểu dữ liệu khác và cách chúng có thể
gây ảnh hƣởng tới các phƣơng pháp phân cụm. Thứ hai, ta đƣa ra một cách phân
loại chúng trong các phƣơng pháp phân cụm. Sau đó, ta nghiên cứu chi tiết mỗi
phƣơng pháp phân cụm, bao gồm các phƣơng pháp phân hoạch, các phƣơng pháp
phân cấp, các phƣơng pháp dựa trên mật độ, các phƣơng pháp dựa trên lƣới và các
phƣơng pháp dựa trên mơ hình. Ta cũng khảo sát sự phân cụm trong khơng gian đa
chiều và các biến thể của các phƣơng pháp khác.

1.1.4 Những kỹ thuật tiếp cận trong phân cụm dữ liệu
Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực
tế. Các kỹ thuật phân cụm đều hƣớng tới hai mục tiêu chung: chất lƣợng của các
cụm khám phá đƣợc và tốc độ thực hiện của thuật tốn. Tuy nhiên có thể phân loại
thành từng loại cơ bản dựa trên phân loại các phƣơng pháp. Hiện nay, các kỹ thuật
phân cụm có thể phân loại theo các cách tiếp cận chính sau:
1.1.4.1 Phương pháp phân cụm phân hoạch
Ý tƣởng chính của kỹ thuật này là phân hoạch một tập hợp dữ liệu có n phần
tử cho trƣớc thành k nhóm dữ liệu sao mỗi phần tử dữ liệu chỉ thuộc về một nhóm
dữ liệu có tối thiểu ít nhất một phần tử dữ liệu. Số các cụm đƣợc thiết lập là các đặc
trƣng đƣợc lựa chọn trƣớc. Phƣơng pháp này là tốt cho việc tìm các cụm hình cầu
trong khơng gian Euclidean. Ngồi ra, phƣơng pháp này cũng phụ thuộc vào
khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào có quan hệ là
gần nhau với mỗi điểm khác và các điểm dữ liệu nào khơng có quan hệ hoặc có
Số hóa bởi trung tâm học liệu />


10


quan hệ là xa nhau so với mỗi điểm khác. Tuy nhiên, phƣơng pháp này khơng thể
xử lý các cụm có hình dạng kỳ quặc hoặc các cụm có mật độ các điểm dầy đặc. Các
thuật tốn phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ƣu
tốn cục cho vấn đề PCDL, do nó phải tìm kiếm tất cả các cách phân hoạch có thể
đƣợc. Chính vì vậy, trên thực tế thƣờng đi tìm giải pháp tối ƣu cục bộ cho vấn đề
này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lƣợng của cụm cũng
nhƣ để hƣớng dẫn cho q trình tìm kiếm phân hoạch dữ liệu. Với chiến lƣợc này,
thơng thƣờng bắt đầu khởi tạo một phân hoạch ban đầu cho tập dữ liệu theo phép
ngẫu nhiên hoặc Heuristic và liên tục tinh chỉnh nó cho đến khi thu đƣợc một phân
hoạch mong muốn, thỏa mãn ràng buộc cho trƣớc. Các thuật tốn phân cụm phân

hoạch cố gắng cải tiến tiêu chuẩn phân cụm, bằng cách tính các giá trị đo độ tƣơng
tự giữa các đối tƣợng dữ liệu và sắp xếp các giá trị này, sau đó thuật tốn lựa chọn
một giá trị trong dẫy sắp xếp sao cho hàm tiêu chuẩn đạt giá trị tối thiểu. Nhƣ vậy,
ý tƣởng chính của thuật tốn phân cụm phân hoạch tối ƣu cục bộ là sử dụng chiến
lƣợc ăn tham (Greedy) để tìm kiểm nghiệm.
Lớp các thuật tốn phân cụm phân hoạch bao gồm các thuật tốn đề xuất
đầu tiên trong lĩnh vực KPDL cũng là thuật tốn đƣợc áp dụng nhiều trong thực tế
nhƣ k-means, k-medoids, PAM, CLARA, CLARANS,
Thuật tốn K-means là một trong những thuật tốn phổ biến nhất. Nó căn cứ
vào khoảng cách giữa các đối tƣợng để phân cụm. Các đối tƣợng đƣợc xếp vào một
cụm dựa trên khoảng cách từ chúng tới tâm cụm. Trong thuật tốn này, chúng ta
chọn một giá trị cho k (số các cụm mong muốn), sau đó chọn ngẫu nhiên k đối
tƣợng làm k cụm ban đầu. Tiếp theo ta tính tốn khoảng cách giữa từng đối tƣợng
với k cụm này. Căn cứ vào khoảng cách tính đƣợc để xếp từng đối tƣợng vào cụm
thích hợp. Sau khi phân cụm, ta lại tìm tâm mới cho từng cụm. Q trình này đƣợc
lặp lại cho đến khi tâm các cụm ổn định. Thuật tốn này có một vài phiên bản, phân
biệt với nhau bằng hàm tính khoảng cách. Thuật tốn K-means thích hợp với các
cụm dữ liệu có dạng hình cầu và tròn. Tuy nhiên, K-means tỏ ra rất nhạy cảm với
nhiễu và các phần tử ngoại lai.
Số hóa bởi trung tâm học liệu />


11


Thuật tốn tiếp theo là K-medoids. Thuật tốn này sử dụng phƣơng pháp
khác so với thuật tốn K-means để tính trọng tâm của cụm, nhằm khắc phục ảnh
hƣởng của nhiễu và các phần tử ngoại lai. Thuật tốn này dùng đối tƣợng nằm ở vị
trí trung tâm nhất của cụm làm trung tâm. Phần tử này gọi là medoid của cụm dod.
Mỗi khi một cụm đƣợc bổ sung một phần tử mới, một medoid đƣợc lựa chọn dựa

trên các hàm chi phisddeer đảm bảo rằng chất lƣợng phân cụm ln đƣợc cải thiện.
Cách tiếp cận này giúp K-medoid giảm nhẹ ảnh hƣởng của nhiễu và các phần tử
ngoại lai, nhƣng cũng làm tăng thời gian tính tốn so với K-means.
Một biến thể khác của K-medoids là PAM (Partitioning Around Medoids),
trong đó việc lựa chọn phần tử medoid phải thỏa mãn điều kiện sai số bình phƣơng
là nhỏ nhất. Chất lƣợng phân cụm của PAM khá tốt, nhƣng thời gian thực hiện lâu
hơn so với K-means và K-medoids. Tuy nhiên, PAM tỏ ra khơng thích hợp đối với
tập dữ liệu lớn.
1.1.4.2 Phương pháp phân cụm phân cấp
Phƣơng pháp này xây dựng một phân cấp trên cơ sở các đối tƣợng dữ liệu đang
xem xét. Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình
cây, cây phân cấp này đƣợc xây dựng theo kỹ thuật đệ quy. Cây phân cụm có thể
đƣợc xây dựng theo hai phƣơng pháp sau: hòa nhập nhóm, thƣờng đƣợc gọi là tiếp
cận Bottom-Up và phân chia nhóm, thƣờng đƣợc gọi là tiếp cận Top-Down.
Phương pháp Bottom-Up: phƣơng pháp này bắt đầu xuất phát với mỗi đối
tƣợng dữ liệu đƣợc khởi tạo tƣơng ứng với các cụm riêng biệt và sau đó tiến hành
nhóm các đối tƣợng theo một độ đo tƣơng tự (nhƣ khoảng cách giữa hai trung tâm
của hai nhóm), q trình này đƣợc thực hiện cho đến khi tất cả các nhóm đƣợc hòa
nhập vào một nhóm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điều
kiện kết thúc thỏa mãn. Nhƣ vậy, cách tiếp cận này sử dụng chiến lƣợc ăn tham
trong q trình phân cụm.
Phương pháp Top-Down: Bắt đầu với trạng thái là tất cả các đối tƣợng dữ
liệu đƣợc sắp xếp trong cùng một cụm và phƣơng pháp này tiến hành chia nhỏ các
cụm. Mỗi vòng lặp thành cơng, một cụm đƣợc tách ra thành các cụm nhỏ hơn theo
Số hóa bởi trung tâm học liệu />


12



giá trị của một phép đo tƣơng tự nào đó cho đến khi mỗi đối tƣợng dữ liệu là một
cụm riêng biệt hoặc cho đến khi điều kiện dừng thỏa mãn. Cách tiếp cận này sử
dụng chiến lƣợc chia để trị trong q trình phân cụm.
Sau đây là minh họa chiến lƣợc phân cụm phân cấp Bottom up và Top down:
Hình 1.2: Các chiến lược phân cụm phân cấp
Trong thực tế áp dụng, có nhiều trƣờng hợp ngƣời ta kết hợp cả hai phƣơng
pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu đƣợc của
phƣơng pháp phân cấp có thể cải tiến thơng qua bƣớc phân cụm phân hoạch. Phân
cụm phân hoạch và phân cụm phân cấp là hai phƣơng pháp PCDL cổ điển, hiện đã
có rất nhiều thuật tốn cải tiến dựa trên hai phƣơng pháp này đã đƣợc áp dụng phổ
biến trong KPDL. Phƣơng pháp này bao gồm các thuật tốn AGNES, DIANA,
BIRCH, CURE, ROCK, Chemeleon,
1.1.4.3 Phương pháp phân cụm dựa trên mật độ
Phƣơng pháp này nhóm các đối tƣợng theo hàm mật độ xác định. Mật độ xác
định đƣợc định nghĩa nhƣ là số các đối tƣợng lân cận của một đối tƣợng dữ liệu
theo một ngƣỡng nào đó. Trong cách tiếp cận này, khi một cụm dữ liệu mới miễn là
số các đối tƣợng lân cận của các đối tƣợng này phải lớn hơn 1 ngƣỡng đã đƣợc xác
định trƣớc. Phƣơng pháp phân cụm dựa vào mật độ của các đối tƣợng để xác định
các cụm dữ liệu và có thể phát hiện ra các cụm dữ liệu với nhiều hình dạng bất kỳ.
Tuy vậy, việc xác định các tham số mật độ của thuật tốn rất khó khăn, trong khi
Số hóa bởi trung tâm học liệu />


13


các tham số này lại có thể tác động rất lớn đến kết quả của PCDL. Hình 1.3 minh
hoạ về các cụm dữ liệu với các hình thù khác nhau dựa trên mật độ đƣợc khám phá
từ 3 CSDL khác nhau.


Hình 1.3. Một số hình dạng khám phá bởi phân cụm dựa trên mật độ
Các cụm có thể đƣợc xem nhƣ các vùng mật độ cao, đƣợc tách ra bởi các
vùng khơng có hoặc ít mật độ. Khái niệm mật độ ở đây đƣợc xem nhƣ là các số các
đối tƣợng láng giềng.
Một thuật tốn PCDL dựa trên mật độ điển hình nhƣ DBSCAN, OPTICS,
DENCLUE, SNN,
1.1.4.4 Phương pháp phân cụm dựa trên lưới
Kỹ thuật phân cụm dựa trên mật độ khơng thích hợp với dữ liệu nhiều chiều,
để giải quyết cho đòi hỏi này, ngƣời ta đã sử dụng phƣơng pháp phân cụm dựa trên
lƣới. Đây là phƣơng pháp dựa trên cấu trúc dữ liệu lƣới để PCDL, phƣơng pháp này
chủ yếu tập trung áp dụng cho lớp dữ liệu khơng gian. Thí dụ nhƣ dữ liệu đƣợc biểu
diễn dƣới dạng cấu trúc hình học của đối tƣợng trong khơng gian cùng với các quan
hệ, các thuộc tính, các hoạt động của chúng. Mục tiêu của phƣơng pháp này là
lƣợng hố tập dữ liệu thành các ơ (cell), các ơ này tạo thành cấu trúc dữ liệu lƣới;
Sau đó, các thao tác PCDL làm việc với các đối tƣợng trong từng ơ này. Cách tiếp
Số hóa bởi trung tâm học liệu />


14


cận dựa trên lƣới này khơng di chuyển các đối tƣợng trong các ơ mà xây dựng
nhiều mức phân cấp của nhóm các đối tƣợng trong một ơ. Ƣu điểm của phƣơng
pháp PCDL dựa trên lƣới là thời gian xử lý nhanh và độc lập với số đối tƣợng dữ
liệu trong tập dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số ơ trong mỗi
chiều của khơng gian lƣới. Một thí dụ về cấu trúc dữ liệu lƣới chứa các ơ trong
khơng gian nhƣ hình sau:

Hình 1.4. Mơ hình cấu trúc dữ liệu lưới.


Một số thuật tốn PCDL dựa trên cấu trúc lƣới điểu hình nhƣ STING,
Wavecluster, CLIQUE
1.1.4.5 Phương pháp phân cụm dựa trên mơ hình
Phƣơng pháp này cố gắng khám phá các phép xấp xỉ tốt của các tham số mơ
hình sao cho khớp với dữ liệu một cách tốt nhất. Chúng có thể sử dụng chiến lƣợc
phân cụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mơ hình mà
chúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mơ hình này để nhận
dạng ra các phân hoạch.
Phƣơng pháp phân cụm dựa trên mơ hình cố gắng khớp giữa các dữ liệu vớ i mơ
hình tốn học, nó dựa trên giả định rằng dữ liệu đƣợc tạo ra bằng hỗn hợp phân
Số hóa bởi trung tâm học liệu />


15


phối xác suất cơ bản. Các thuật tốn phân cụm dựa trên mơ hình có hai cách tiếp
cận chính: mơ hình thống kê và mạng nơron. Phƣơng pháp này gần giống với
phƣơng pháp phân cụm dựa trên mật độ, vì chúng phát triển các cụm riêng biệt
nhằm cải tiến các mơ hình đã đƣợc xác định trƣớc đó, nhƣng đơi khi nó khơng bắt
đầu với một số cụm cố định và khơng sử dụng cùng một khái niệm mật độ cho các
cụm. Một thuật tốn PCDL dựa trên mơ hình điển hình nhƣ EM, COBWEB,
1.1.4.6 Phương pháp phân cụm có dữ liệu ràng buộc
Sự phát triển của PCDL khơng gian trên CSDL lớn đã cung cấp nhiều cơng
cụ tiện lợi cho phân tích thơng tin địa lý, tuy nhiên hầu hết các thuật tốn này cung
cấp rất ít cách thức cho ngƣời dùng để xác định các ràng buộc trong thế giới thực
cần phải đƣợc thoả mãn trong q trình phân cụm. Để PCDL khơng gian hiệu quả
hơn, các nghiên cứu bổ sung cần đƣợc thực hiện để cung cấp cho ngƣời dùng khả
năng kết hợp các ràng buộc trong thuật tốn phân cụm.
Hiện nay các phƣơng pháp phân cụm trên đã và đang phát triển và áp dụng

nhiều trong các lĩnh vực khác nhau và đã có một số nhánh nghiên cứu đƣợc phát
triển trên cơ sở các phƣơng pháp đó nhƣ:
- Phân cụm thống kê: Dựa trên các khái niệm phân tích hệ thống, nhánh
nghiên cứu này sử dụng các độ đo tƣơng tự để phân hoạch các đối tƣợng, nhƣng chỉ
áp dụng cho các dữ liệu có thuộc tính số.
- Phân cụm khái niệm: Các kỹ thuật phân cụm đƣợc phát triển áp dụng cho
dữ liệu hạng mục, chúng phân cụm các đối tƣợng theo các khái niệm mà chúng xử lý.
- Phân cụm mờ: Thơng thƣờng mỗi phƣơng pháp PCDL phân một tập dữ
liệu ban đầu thành các cụm dữ liệu có tính tự nhiên và mỗi đối tƣợng dữ liệu chỉ
thuộc về một cụm dữ liệu, phƣơng pháp này chỉ phù hợp với việc khám ph á ra các
cụm có mật độ cao và rời nhau. Tuy nhiên, trong thực tế, các cụm dữ liệu lại có thể
chồng lên nhau (một số các đối tƣợng dữ liệu thuộc về nhiều các cụm khác nhau),
ngƣời ta đã áp dụng lý thuyết về tập mờ trong PCDL để giải quyết cho trƣờng hợp
này, cách thức kết hợp này đƣợc gọi là phân cụm mờ. Trong phƣơng pháp phân
cụm mờ, độ phụ thuộc của đối tƣợng dữ liệu x
k
tới cụm thứ i (u
k
) có giá trị thuộc
Số hóa bởi trung tâm học liệu />


16


khoảng [0,1]. Ý tƣởng trên đã đƣợc giới thiệu bởi Ruspini (1969) và đƣợc Dunn áp
dụng năm 1973 nhằm xây dựng một phƣơng pháp phân cụm mờ dựa trên tối thiểu
hóa hàm tiêu chuẩn. Bezdek (1982) đã tổng qt hóa phƣơng pháp này và xây dựng
thành thuật tốn phân cụm mờ c-means có sử dụng trọng số mũ.
C-means là thuật tốn phân cụm mờ (của K-means). Thuật tốn C - means

mờ hay còn gọi tắt là thuật tốn FCM (Fuzzy C-mens) đã đƣợc áp dụng thành cơng
trong giải quyết một số lớn các bài tốn PCDL nhƣ trong nhận dạng mẫu, xử lý ảnh,
y học, Tuy nhiên, nhƣợc điểm lớn nhất của thuật tốn FCM là nhạy cảm với các
nhiễu và phần tử ngoại lai, nghĩa là các trung tâm cụm có thể nằm xa so với trung
tâm thực tế của cụm.
Đã có nhiều phƣơng pháp đề xuất để cải tiến cho nhƣợc điểm trên của thuật tốn
FCM bao gồm: Phân cụm dựa trên xác suất (keller, 1993), phân cụm nhiễu mờ
(Dave, 1991), phân cụm dựa trên tốn tử L
p
Norm (kersten, 1999). Thuật tốn
s
-
Insensitive Fuzzy c-means (s FCM- khơng nhạy cảm mờ c-means).
1.2 Bài tốn tra cứu Logo
1.2.1 Định nghĩa Logo
- Logo là một yếu tố đồ họa (kí hiệu, chữ biểu thị, biểu tượng, hình tượng )
kết hợp với cách thức thể hiện nó tạo thành: một nhãn hiệu hay thƣơng hiệu, hình
ảnh đại diện cho một cơng ty hay các tổ chức phi thƣơng mại, hình ảnh biểu thị một
sự kiện, một cuộc thi, một phong trào hay một cá nhân nào đó.

Hình 1.5: Logo của hãng Apple.
- Một Logo đƣợc tạo lên bởi: Hình dạng và màu sắc.
Số hóa bởi trung tâm học liệu />


17


1.2.2 Đặc trưng của Logo và ảnh Logo
1.2.2.1 Một số đặc trưng cơ bản của ảnh số

*) Khái niệm đặc trưng của ảnh số
Trích rút đặc trƣng là cơ sở của tra cứu ảnh dựa vào nội dung. Theo nghĩa rộng,
các đặc trƣng có thể bao gồm cả các đặc trƣng dựa vào văn bản và các đặc trƣng
trực quan. Các đặc trƣng trực quan có thể đƣợc phân loại tiếp thành các đặc trƣng
chung và các đặc trƣng trong các lĩnh vực cụ thể. Các đặc trƣng trực quan chung
gồm: màu, kết cấu, hình dạng, ; các đặc trƣng trong các lĩnh vực cụ thể phụ
thuộc vào các ứng dụng, ví dụ: mặt ngƣời, vân tay, Các đặc trƣng lĩnh vực cụ
thể bao gồm nhiều tri thức lĩnh vực, ta khơng đề cập ở đây.
Nói chung, khơng tồn tại một biểu diễn đơn tốt nhất cho một đặc trƣng đã cho, và
tùy vào điều kiện cụ thể nên lựa chọn các đặc trƣng ảnh một cách phù hợp.
*) Đặc trưng về màu sắc
Màu là đặc trƣng trực quan quan trọng đầu tiên và đơn giản nhất trong tra cứu ảnh
dựa vào nội dung. Nó cũng là đặc trƣng đƣợc sử dụng phổ biến nhất trong lĩnh vực
này, vì nó độc lập với kích thƣớc và hƣớng của ảnh. Mỗi điểm ảnh có thể đƣợc
biểu diễn nhƣ một điểm trong khơng gian màu sắc ba chiều, với các khơng gian
màu thƣờng dùng là RGB, HSV, CIE,
*) Lược đồ màu
Lƣợc đồ màu H của một ảnh đƣợc xác định bởi véc tơ: H={H[0], H[1], H[2], ,
H[N]}, trong đó H[i] là số các pixel có màu i trong ảnh, i biểu diễn một màu trong
lƣợc đồ màu, tƣơng ứng với một khối con trong khơng gian màu RGB, N là số các
bin trong lƣợc đồ màu, mỗi bin biểu thị xác suất của các pixel trong ảnh. Để so
sánh các ảnh có các kích cỡ khác nhau, các lƣợc đồ màu sẽ đƣợc chuẩn hóa. Lƣợc
đồmàu chuẩn hóa H’ đƣợc xác định: H’={H’[0], H’[1], , H’[N]},
với H'[i] = -Mi,p và p là tổng các pixel trong ảnh.
Đối với đặc trƣng màu, lƣợc đồ màu thƣờng đƣợc sử dụng để thực hiện việc tra
cứu ảnh bằng cách tính tốn để xác định tỉ trọng của các điểm ảnh, vì lƣợc đồ màu
biểu thị xác suất chung của các cƣờng độ của ba kênh màu. Có rất nhiều kỹ thuật
Số hóa bởi trung tâm học liệu />



18


đã áp dụng thành cơng lƣợc đồ màu trong việc tra cứu ảnh, ví dụ nhƣ Swain và
Ballard đề xuất lƣợc đồ màu giao để tính tốn sự tƣơng tự giữa các lƣợc đồ màu
của các ảnh, hay Stricker và Orengo đề xuất sử dụng các lƣợc đồ màu tích lũy,
hoặc sử dụng phƣơng pháp mơ-men khoảng màu [12], Smith và Chang đề xuất
thiết lập bộ màu nhƣ là một xấp xỉ với lƣợc đồ màu [10], để khắc phục một số
hạn chế của lƣợc đồ màu thơng thƣờng. Ở đây khơng gian màu đƣợc giả thiết là
cố định, thơng tin khơng gian trong ảnh bị bỏ qua, và thơng tin màu trong một ảnh
tiêu biểu có thể đƣợc xem nhƣ tín hiệu ba chiều đơn, điều này có thể dẫn tới khả
năng các ảnh rất khác nhau có thể có các phân bố màu giống nhau, nhất là trong
các CSDL lớn. Để giải quyết vấn đề này, một số cải tiến đã đƣợc đề xuất để kết
hợp với thơng tin khơng gian ảnh ngồi các thơng tin màu, mà phƣơng pháp đơn
giản nhất là phân chia một ảnh thành các vùng (phân hoạch ảnh) và xác định lƣợc
đồ màu cho từng vùng. Phân hoạch hay đƣợc dùng là phân hoạch hình chữ nhật,
thậm chí phân hoạch đối tƣợng. Việc tăng số các vùng con sẽ tăng thơng tin về vị
trí, nhƣng cũng tăng về chi phí bộ nhớ và thời gian tính tốn khi thực hiện tra cứu
ảnh.
*) Véc tơ gắn kết màu
Véctơ gắn kết màu CCV đề xuất mỗi bin lƣợc đồ đƣợc phân thành hai loại là gắn
kết (khơng gắn kết) nếu nó thuộc (khơng thuộc) về một vùng màu đồng nhất. Cho ai
và ßi biểu thị số các pixel gắn kết và khơng gắn kết trong bin màu thứ i của một ảnh
thì CCV của ảnh đó đƣợc định nghĩa bằng véctơ ((a
1

1
),(a
2


2
), ,(a
N

N
)). Lƣu ý
rằng (a
1

1
,a
2

2
, ,a
N

N
) là lƣợc đồ màu của ảnh. Do đã tính đến cả thơng tin
khơng gian nên CCV cho kết quả tra cứu tốt hơn lƣợc đồ màu, đặc biệt với các ảnh
có sự tƣơng đồng lớn về màu sắc và kết cấu. Khơng gian màu HSV cung cấp các
kết quả tra cứu tốt hơn khơng gian CIE L*u*v* và CIE L*a*b*.
*) Tương quan màu
Tƣơng quan màu đƣợc đề xuất khơng chỉ để mơ tả các phân bố màu của các
pixel, mà còn tƣơng quan khơng gian của các cặp màu. Chiều thứ nhất và thứ hai
của lƣợc đồ màu ba chiều là các màu của mọi cặp pixel và chiều thứ ba làkhoảng
Số hóa bởi trung tâm học liệu />

×