Tải bản đầy đủ (.pdf) (73 trang)

nghiên cứu kỹ thuật đánh chỉ số dựa vào phân cụm phục vụ tra cứu ảnh nhanh và ứng dụng trong tìm kiếm danh lam thắng cảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.24 MB, 73 trang )







ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG







Thái Xuân Hoàng






NGHIÊN CỨU KỸ THUẬT ĐÁNH CHỈ SỐ DỰA VÀO PHÂN CỤM
PHỤC VỤ TRA CỨU ẢNH NHANH VÀ ỨNG DỤNG TRONG TÌM
KIẾM ẢNH DANH LAM THẮNG CẢNH









LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH










Thái Nguyên - Năm 2011
Header Page 1 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên






ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG







Thái Xuân Hoàng






NGHIÊN CỨU KỸ THUẬT ĐÁNH CHỈ SỐ DỰA VÀO PHÂN CỤM
PHỤC VỤ TRA CỨU ẢNH NHANH VÀ ỨNG DỤNG TRONG TÌM
KIẾM ẢNH DANH LAM THẮNG CẢNH




Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01


LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH



HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN HỮU QUỲNH








Thái Nguyên - Năm 2011
Header Page 2 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


LỜI CAM ĐOAN
Tôi xin cam đoan toàn bộ nội dung trong Luận văn hoàn toàn theo đúng nội dung
đề cương cũng như nội dung mà cán bộ hướng dẫn giao cho. Nội dung của Luận
văn, các phần trích lục các tài liệu là hoàn toàn chính xác. Nếu có sai sót tôi hoàn
toàn chịu trách nhiệm.
Thái Nguyên, Ngày 20 tháng 09 năm 2011
Học viên

Thái Xuân Hoàng
Header Page 3 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn chân thành tới TS. Nguyễn Hữu Quỳnh, Trưởng Khoa
Công nghệ Thông tin - Trường Đại học Điện lực, là cán bộ trực tiếp hướng dẫn luận
văn cho tôi.
Tôi xin trân trọng cảm ơn tới các Thầy cô trong Khoa công nghệ Thông tin -
Trường Đại học Thái Nguyên, các Thầy cô trong Viện Công nghệ Thông tin - Viện
Khoa học và Công nghệ Việt Nam đã tạo điều kiện giúp đỡ tôi trong suốt khóa học
cũng như trong suốt quá trình làm luận văn.
Tôi xin gửi lời cảm ơn tới gia đình, bạn bè và các đồng nghiệp đã giúp đỡ tôi để
tôi có thể hoàn thành khóa học Cao học này.

Thái Nguyên, ngày 20 tháng 09 năm 2011

Học viên

Thái Xuân Hoàng
Header Page 4 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
i

MỤC LỤC
Chương 1. TỔNG QUAN VỀ TRA CỨU ẢNH VÀ KỸ THUẬT ĐÁNH CHỈ SỐ 4
1.1. Một số đặc trưng cơ bản của ảnh số 4
1.1.1. Khái niệm đặc trưng của ảnh số 4
1.1.2. Đặc trưng về màu sắc 4
1.1.2.1. Lược đồ màu 4
1.1.2.2. Véc tơ gắn kết màu 5
1.1.2.3. Tương quan màu 5
1.1.2.4. Các màu trội 6
1.1.2.5. Các Mômen màu 6
1.1.3. Đặc trưng về không gian màu 7
1.1.3.1. Giới thiệu về không gian màu 7
1.1.3.2. Không gian màu RGB 9
1.1.3.3. Không gian màu HSx 9
1.1.3.4. Các không gian màu YUV và YIQ 10
1.1.3.5. Các không gian màu CIE XYZ và LUV 11
1.1.4. Đặc trưng về kết cấu 11
1.1.4.1. Một số khái niệm về kết cấu 11
1.1.4.2. Các đặc trưng Tamura 12
1.1.4.3. Các đặc trưng Wold 13
1.1.4.4. Mô hình tự hồi qui đồng thời SAR 14
1.1.4.5. Các đặc trưng lọc Gabor 15
1.1.4.6. Các đặc trưng biến đổi sóng 16

1.1.5. Đặc trưng về hình dạng 17
1.1.5.1. Một số khái niệm về hình dạng ảnh 17
1.1.5.2. Các bất biến Mômen 17
1.1.5.3. Các góc uốn 18
1.1.5.4. Các ký hiệu mô tả Fourier 19
1.2. Tra cứu thông tin và thông tin trực quan 20
1.2.1. Khái niệm 20
1.2.2. Truy vấn người sử dụng 21
1.2.2.1. Truy vấn bởi ảnh mẫu (QBE) 21
1.2.2.2. Truy vấn bởi đặc trưng (QBF) 22
1.2.2.3. Truy vấn dựa vào thuộc tính 22
1.3. Đánh chỉ số nhiều chiều 22
1.3.1. Khái niệm 22
1.3.2. Giảm số chiều 23
1.3.3. Kỹ thuật đánh chỉ số nhiều chiều 24
1.4. Các chức năng của một hệ thống tra cứu ảnh dựa vào nội dung 25
1.5. Đánh giá hiệu năng tra cứu 26
1.6. Một số ứng dụng của tra cứu ảnh dựa vào nội dung 28
1.7. Kết luận Chương 1 và hướng nghiên cứu 29
Chương 2. KỸ THUẬT ĐÁNH CHỈ SỐ DỰA VÀO PHÂN CỤM 30
2.1. Gi
ới thiệu 30
Header Page 5 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ii

2.2. Phân cụm ảnh 30
2.3. Biểu diễn ảnh và đo độ tương tự 31
2.3.1. Biểu diễn ảnh 31
2.3.2. So sánh độ tương tự 32

2.3.2.1. Kỹ thuật tra cứu ảnh dựa vào đặc trưng màu 32
2.3.2.2. Đo khoảng cách giữa các lược đồ màu 34
2.3.2.3. Đo độ tương tự 37
2.4. Phân cụm có thứ bậc dựa vào kỹ thuật đánh chỉ số 39
2.4.1. Khái quát 39
2.4.1.1. Các bước phân cụm 39
2.4.1.2. Tính toán tâm cụm 42
2.4.2. Tối ưu tâm cụm 44
2.4.2.1. Loại bỏ các nút 44
2.4.2.2. Thêm các nút 45
2.5. Kết luận Chương 2 46
Chương 3. XÂY DỰNG HỆ THỐNG TRA CỨU ẢNH NHANH 47
3.1. Giới thiệu bài toán tra cứu ảnh danh lam thắng cảnh 47
3.2. Phân tích bài toán 47
3.3. Thiết kế hệ thống 48
3.3.1. Các chức năng của chương trình 49
3.3.2. Biểu đồ Use Case của hệ thống 50
3.3.3. Biểu đồ trình tự và biểu đồ hoạt động 51
3.3.3.1. Tác nhân Quản lý CSDL ảnh 51
3.3.3.2. Tác nhân tra cứu ảnh 53
3.3.4. Thiết kế CSDL 55
3.3.4.1. Bảng Clusters 55
3.3.4.2. Bảng Regions 55
3.3.4.3. Bảng Cluster_Images 55
3.3.5. Sơ đồ liên kết các bảng trong CSDL 56
3.3.6. Giao diện chương trình 56
3.3.6.1. Giao diện chính của chương trình 56
3.3.6.2. Giao diện cập nhật ảnh 57
3.3.6.3. Giao diện phân cụm ảnh 57
3.3.6.4. Giao diện tìm kiếm ảnh 58

3.3.6.5. Giao diện so sánh hai ảnh 58
3.3.6.6. Giao diện duyệt CSDL ảnh 59
3.4. Một số kết quả 59
3.5. Kết luận Chương 3 61
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 62
TÀI LIỆU THAM KHẢO 64
Header Page 6 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
iii

DANH MỤC CÁC KÝ HIỆU VÀ TỪ NGỮ VIẾT TẮT

Viết tắt Tiếng anh Tiếng việt
CBIR Content Based Images Retrieval

Tra cứu ảnh dựa vào nội dung
CCH Cell Color Histogram Lược đồ màu khối
CCV Color Coherence Vectors Véc-tơ gắn kết màu
CSDL Data Base Cơ sở dữ liệu
GCH Global Color Histogram Lược đồ màu toàn cục
LCH Local Color Histogram Lược đồ màu cục bộ
MRF Markov Random Field Trường ngẫu nhiên Markov
MRSAR

Multi-Resolution Simultaneous
Auto-Regressive
Mô hình tự hồi qui đồng thời SAR
PCA Principal Component Analysis Phân tích thành phần chính
RGB Red, Green, Blue Đỏ, xanh lục, xanh lơ
TBIR Text Based Image Retrieval Tra cứu ảnh dựa vào văn bản mô tả

VIR Visual Information Retrieval Tra cứu thông tin trực quan

Header Page 7 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
iv

DANH MỤC CÁC HÌNH TRONG LUẬN VĂN
Hình 1.1. Biểu diễn không gian màu RGB 9
Hình 1.2. Trực quan hóa không gian màu HSV như một hình nón 10
Hình 1.3. Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung 26
Hình 2.1. Ba ảnh mẫu và lược đồ màu của chúng 33
Hình 2.3. Khoảng cách dạng Minkowski. 35
Hình 2.4. Khoảng cách dạng Quadratic 35
Hình 2.5. Lược đồ giao của hai lược đồ. 37
Hình 2.6. Biểu diễn một ví dụ phân cụm có thứ bậc với 8 ảnh. 40
Hình 2.7. Xóa nút 2 và nút 5 từ cluster C14. 45
Hình 2.8. Thêm nút 2 vào cụm C12 46
Hình 3.1. Kiến trúc chung của hệ thống tra cứu ảnh dựa vào nội dung. 48
Hình 3.2. Mô hình chi tiết của hệ thống tra cứu ảnh 49
Hình 3.3. Biểu đồ Use Case đối với chức năng Quản trị hệ thống 50
Hình 3.4. Biểu đồ Use Case đối với chức năng Người dùng 50
Hình 3.5. Biểu đồ trình tự của tác nhân xử lý dữ liệu 52
Hình 3.6. Sơ đồ hoạt động của tác nhân xử lý dữ liệu 52
Hình 3.7. Biểu đồ trình tự của tác nhân tra cứu ảnh 54
Hình 3.8. Sơ đồ hoạt động của tác nhân Tra cứu ảnh 54
Hình 3.9. Sơ đồ liên kết các bảng dữ liệu trong CSDL. 56
Hình 3.10. Giao diện chính của hệ thống tra cứu ảnh dựa vào nội dung 56
Hình 3.11. Giao diện Cập nhật ảnh 57
Hình 3.12. Giao diện Phân cụm ảnh. 57
Hình 3.13. Giao diện Tìm kiếm ảnh 58

Hình 3.14. Giao diện So sánh sự tương tự giữa hai ảnh thông qua LCH. 58
Hình 3.15. Giao diện Xem CSDL ảnh dưới dạng Preview 59
Hình 3.16. Kết quả tìm kiếm với ảnh truy vấn có trong CSDL 59
Hình 3.17. Kết quả tìm kiếm với ảnh truy vấn không có trong CSDL 60
Hình 3.18. Đánh giá kết quả giữa hai phương pháp tìm kiếm 60

Header Page 8 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
1

LỜI NÓI ĐẦU
Những năm gần đây, ảnh số và việc xử lý ảnh số ngày càng nhận được sự quan
tâm của nhiều người, một phần do các thiết bị thu nhận ảnh số ngày càng trở nên
thông dụng với mọi người, cùng với nó là các thiết bị lưu trữ ngày càng được cải
thiện về dung lượng và giá thành nên việc lưu trữ ảnh ngày càng thông dụng hơn,
chất lượng ảnh tốt hơn, thời gian lưu trữ lâu hơn,
Mặt khác, với sự phát triển mạnh mẽ của công nghệ thông tin, đặc biệt là sự phát
triển của Internet làm cho số lượng ảnh số được lưu trữ và trao đổi qua Internet là
rất lớn. Do đó bài toán thực tế đặt ra là cần phải có phương pháp tổ chức CSDL ảnh
phù hợp, phục vụ cho quá trình tìm kiếm và tra cứu ảnh nhanh hơn và có độ chính
xác cao hơn.
Việc tìm kiếm một bức ảnh thỏa mãn tiêu chí tìm kiếm trong vô số các bức ảnh
thuộc đủ loại chủ đề và định dạng khác nhau là rất khó khăn, và khi số lượng ảnh
trong CSDL còn ít, việc nhận diện một bức ảnh hay việc so sánh sự giống và khác
nhau giữa nhiều bức ảnh có thể thực hiện được bằng mắt thường, tuy nhiên khi số
lượng ảnh rất lớn thì việc so sánh này rất khó khăn, và do đó cần có các phương
pháp hiệu quả và phù hợp hơn.
Các ứng dụng tiềm năng của các hệ thống tra cứu ảnh tăng theo từng ngày. Cho
đến nay, sử dụng tra cứu ảnh phổ biến nhất là tìm kiếm trên web. Có một số hệ
thống tra cứu như: QBIC, Netra Simplicity, Yahoo! Picture Gallery, Google Image

Search Tạo thuận lợi tìm kiếm các ảnh từ web. Gần đây, tra cứu ảnh được ứng
dụng rất phổ biến trong lĩnh vực ngăn ngừa tội phạm. Các cơ sở dữ liệu chứa các
ảnh, vân tay và dấu chân có thể được sử dụng trong điều tra hình sự. Một ứng dụng
quan trọng khác là lĩnh vực chuẩn đoán bệnh. Tra cứu ảnh được sử dụng trong một
số kỹ thuật chuẩn đoán bệnh như chụp nhũ ảnh (mammography), chụp cắt lớp
(tomography) và mô bệnh học (histopathology). Tra cứu ảnh có thể rất hữu ích
trong nhận biết các trường hợp tương tự đã được điều trị trong quá khứ để đánh giá
Header Page 9 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2

loại điều trị được biết. Tra cứu ảnh dựa vào nội dung cũng được sử dụng trong các
hệ thống thông tin địa lý và viễn thám. CBIR có thể được sử dụng cho tra cứu các
phần video như phim và trò chơi. Các ứng dụng khác bao gồm bảo tàng trực tuyến,
quảng cáo và thiết kế thời trang.
Việc tìm ra các phương pháp tổ chức dữ liệu ảnh và cách thức tra cứu, tìm kiếm
ảnh hiệu quả sẽ là điều kiện quan trọng để giải quyết các bài toán như trên, và điều
này trở thành vấn đề có tính thiết thực và có hiệu quả cao trong thực tiễn.
Kỹ thuật tra cứu ảnh được nhiều người quan tâm nghiên cứu hiện nay là kỹ thuật
"Tra cứu ảnh dựa theo nội dung". Kỹ thuật này cho phép trích rút các đặc trưng dựa
vào nội dung trực quan của bản thân ảnh như màu sắc, kết cấu, hình dạng, bố cục
không gian của ảnh, để làm cơ sở cho việc tra cứu, sắp xếp, tổ chức CSDL ảnh.
Việc biểu diễn và trích rút đặc trưng để nhận dạng được bức ảnh mong muốn là rất
quan trọng và nhiều hướng nghiên cứu khác nhau đã được triển khai. Tuy nhiên, khi
CSDL ảnh lớn thì việc tìm kiếm ảnh một cách tuần tự sẽ tốn rất nhiều thời gian. Để
tăng tốc hệ thống tra cứu ảnh dựa vào nội dung, cần có một số kỹ thuật tra cứu ảnh
nhanh. Thực tế đòi hỏi thời gian tìm kiếm không được tăng tuyến tính đối với số các
ảnh trong CSDL.
Đề tài "Nghiên cứu kỹ thuật đánh chỉ số dựa vào phân cụm phục vụ tra cứu
ảnh nhanh và ứng dụng trong tìm kiếm ảnh danh lam thắ ng cảnh" trình bày tổng

quan về tra cứu ảnh dựa vào nội dung và ứng dụng kỹ thuật đánh chỉ số ảnh dựa vào
phân cụm. Trong kỹ thuật này, tại thời điểm truy vấn, ảnh truy vấn không so sánh
với tất cả các ảnh trong CSDL, mà chỉ so sánh với một tập con rất nhỏ các ảnh. Trên
cơ sở đó thử nghiệm phương pháp cụ thể để xây dựng một chương trình phần mềm
đọc vào một ảnh danh lam thắng cảnh mẫu và tìm kiếm những ảnh danh lam thắng
cảnh tương tự với ảnh mẫu trong tập hợp các ảnh cho trước. Kết quả thực hiện đề
tài sẽ giúp cho việc tìm kiếm các ảnh danh lam thắng cảnh trong tập hợp các ảnh
được nhanh hơn, đồng thời là cơ sở cho việc xây dựng nên các hệ thống ứng dụng
có tính thực tiễn cao phục vụ cho nhu cầu phát triển của xã hội và cho công tác
nghiên cứu sau này.
Header Page 10 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
3

Bố cục trình bày của luận văn như sau:
Chương 1: Giới thiệu tổng quan về tra cứu ảnh dựa vào nội dung, trình bày kỹ
thuật đánh chỉ số ảnh, một số đặc trưng cơ bản của ảnh số, các chức năng chính của
một hệ thống tra cứu ảnh dựa vào nội dung và một số ứng dụng của hệ thống tra cứu
ảnh dựa vào nội dung tiêu biểu.
Chương 2: Giới thiệu phương pháp phân cụm ảnh dựa vào kỹ thuật đánh chỉ số
ảnh để phục vụ cho quá trình tra cứu ảnh.
Chương 3: Thiết kế hệ thống tra cứu ảnh ứng dụng phương pháp phân cụm ảnh
dựa vào kỹ thuật đánh chỉ số ảnh để tra cứu ảnh danh lam thắng cảnh.

Header Page 11 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
4

Chương 1. TỔNG QUAN VỀ TRA CỨU ẢNH VÀ KỸ THUẬT ĐÁNH CHỈ SỐ
1.1. Một số đặc trưng cơ bản của ảnh số

1.1.1. Khái niệm đặc trưng của ảnh số
Trích rút đặc trưng là cơ sở của tra cứu ảnh dựa vào nội dung. Theo nghĩa rộng,
các đặc trưng có thể bao gồm cả các đặc trưng dựa vào văn bản và các đặc trưng
trực quan. Các đặc trưng trực quan có thể được phân loại tiếp thành các đặc trưng
chung và các đặc trưng trong các lĩnh vực cụ thể. Các đặc trưng trực quan chung
gồm: màu, kết cấu, hình dạng, ; các đặc trưng trong các lĩnh vực cụ thể phụ thuộc
vào các ứng dụng, ví dụ: mặt người, vân tay, Các đặc trưng lĩnh vực cụ thể bao
gồm nhiều tri thức lĩnh vực, ta không đề cập ở đây.
Nói chung, không tồn tại một biểu diễn đơn tốt nhất cho một đặc trưng đã cho, và
tùy vào điều kiện cụ thể nên lựa chọn các đặc trưng ảnh một cách phù hợp.
1.1.2. Đặc trưng về màu sắc
Màu là đặc trưng trực quan quan trọng đầu tiên và đơn giản nhất trong tra cứu
ảnh dựa vào nội dung. Nó cũng là đặc trưng được sử dụng phổ biến nhất trong lĩnh
vực này, vì nó độc lập với kích thước và hướng của ảnh. Mỗi điểm ảnh có thể được
biểu diễn như một điểm trong không gian màu sắc ba chiều, với các không gian
màu thường dùng là RGB, HSV, CIE,
1.1.2.1. Lược đồ màu
Lược đồ màu H của một ảnh được xác định bởi véc tơ: H={H[0], H[1], H[2], ,
H[N]}, trong đó H[i] là số các pixel có màu i trong ảnh, i biểu diễn một màu trong
lược đồ màu, tương ứng với một khối con trong không gian màu RGB, N là số các
bin trong lược đồ màu, mỗi bin biểu thị xác suất của các pixel trong ảnh. Để so sánh
các ảnh có các kích cỡ khác nhau, các lược đồ màu sẽ được chuẩn hóa. Lược đồ
màu chuẩn hóa H’ được xác định: H’={H’[0], H’[1], , H’[N]}, với
p
iH
iH
][
][' =
,
và P là tổng các pixel trong ảnh.

Đối với đặc trưng màu, lược đồ màu thường được sử dụng để thực hiện việc tra
cứu ảnh bằng cách tính toán để xác định tỉ trọng của các điểm ảnh, vì lược đồ màu
Header Page 12 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
5

biểu thị xác suất chung của các cường độ của ba kênh màu. Có rất nhiều kỹ thuật đã
áp dụng thành công lược đồ màu trong việc tra cứu ảnh, ví dụ như Swain và Ballard
đề xuất lược đồ màu giao [18] để tính toán sự tương tự giữa các lược đồ màu của
các ảnh, hay Stricker và Orengo đề xuất sử dụng các lược đồ màu tích lũy, hoặc sử
dụng phương pháp mô-men khoảng màu [12], Smith và Chang đề xuất thiết lập bộ
màu như là một xấp xỉ với lược đồ màu [10], để khắc phục một số hạn chế của
lược đồ màu thông thường. Ở đây không gian màu được giả thiết là cố định, thông
tin không gian trong ảnh bị bỏ qua, và thông tin màu trong một ảnh tiêu biểu có thể
được xem như tín hiệu ba chiều đơn, điều này có thể dẫn tới khả năng các ảnh rất
khác nhau có thể có các phân bố màu giống nhau, nhất là trong các CSDL lớn. Để
giải quyết vấn đề này, một số cải tiến đã được đề xuất để kết hợp với thông tin
không gian ảnh ngoài các thông tin màu, mà phương pháp đơn giản nhất là phân
chia một ảnh thành các vùng (phân hoạch ảnh) và xác định lược đồ màu cho từng
vùng. Phân hoạch hay được dùng là phân hoạch hình chữ nhật, thậm chí phân hoạch
đối tượng. Việc tăng số các vùng con sẽ tăng thông tin về vị trí, nhưng cũng tăng về
chi phí bộ nhớ và thời gian tính toán khi thực hiện tra cứu ảnh.
1.1.2.2. Véc tơ gắn kết màu
Véctơ gắn kết màu CCV đề xuất mỗi bin lược đồ được phân thành hai loại là gắn
kết (không gắn kết) nếu nó thuộc (không thuộc) về một vùng màu đồng nhất [3].
Cho α
i
và β
i
biểu thị số các pixel gắn kết và không gắn kết trong bin màu thứ i của

một ảnh thì CCV của ảnh đó được định nghĩa bằng véctơ ((α
1

1
),(α
2

2
), ,(α
N

N
)).
Lưu ý rằng (α
1

1

2

2
, ,α
N

N
) là lược đồ màu của ảnh. Do đã tính đến cả thông
tin không gian nên CCV cho kết quả tra cứu tốt hơn lược đồ màu, đặc biệt với các
ảnh có sự tương đồng lớn về màu sắc và kết cấu. Không gian màu HSV cung cấp
các kết quả tra cứu tốt hơn không gian CIE L*u*v* và CIE L*a*b* [3].
1.1.2.3. Tương quan màu

Tương quan màu được đề xuất không chỉ để mô tả các phân bố màu của các
pixel, mà còn tương quan không gian của các cặp màu [8]. Chiều thứ nhất và thứ
hai của lược đồ màu ba chiều là các màu của mọi cặp pixel và chiều thứ ba là
Header Page 13 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
6

khoảng cách không gian của chúng. Một tương quan màu là một bảng được đánh
chỉ số bởi các cặp màu, ở đây mục thứ k cho (i,j) chỉ rõ xác suất tìm được một pixel
có màu j tại một khoảng cách k từ một pixel có màu i trong ảnh. Cho I biểu diễn
toàn bộ tập các pixel ảnh và I
c(i)
biểu diễn tập các pixel có màu c(i) thì tương quan
màu được định nghĩa bằng:
[
]
kppIp
jc
IpIp
k
ji
ic
=−∈=
∈∈
||Pr
21)(2
,
,
2)(1
γ

(1.1)
Ở đây i,j

{1,2, ,N}, k

{1, ,d}, |p
1
-p
2
| là khoảng cách giữa các pixel p
1
và p
2
.
Nếu ta xét tất cả các kết hợp có thể của các cặp màu, thì cỡ của tương quan màu sẽ
rất lớn (bằng O(N
2
d)), do đó một phiên bản đơn giản hoá, được gọi là tự tương quan
màu thường được sử dụng thay thế. Tự tương quan màu chỉ thu tương quan không
gian giữa các màu thuần nhất và vì thế giảm số chiều xuống còn O(Nd).
So sánh với lược đồ màu và véc tơ gắn kết màu, tự tương quan màu cho các kết
quả tra cứu tốt hơn, nhưng chi phí tính toán cũng cao hơn do có tính tới thông tin về
chiều cao trong không gian màu ba chiều.
1.1.2.4. Các màu trội
Các lược đồ màu thường rất thưa và thường chỉ cần một số nhỏ các màu là đủ để
miêu tả các thông tin màu cần thiết, do đó các màu trội được dùng để mô tả nội
dung màu của một ảnh. Một phân cụm màu được thực hiện để thu các màu trội đại
diện và phần trăm tương ứng của nó. Mỗi bộ (màu đại diện, phần trăm tương ứng)
tạo ra một cặp các thuộc tính mô tả các đặc trưng màu trong một vùng ảnh.
Ký hiệu mô tả đặc trưng lược đồ màu trội F được định nghĩa:

F={{c
i
,p
i
}, i= 1 N} (1-2)
Ở đây N là tổng số các cụm màu trong ảnh, c
i
là véc tơ màu ba chiều, p
i
là phần
trăm của nó (
1
=

i
i
p
). Lưu ý rằng N có thể thay đổi từ ảnh này sang ảnh khác.
1.1.2.5. Các Mômen màu
Là các Mômen thống kê của các phân bố xác suất của các màu. Nó được sử dụng
thành công trong nhiều hệ thống tra cứu ảnh (ví dụ QBIC [7]), đặc biệt khi ảnh chứa
chính xác đối tượng. Các Mômen màu bậc nhất (trung bình), bậc hai (phương sai)
Header Page 14 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
7

và bậc ba (độ lệch), đã được chứng minh là hiệu quả trong biểu diễn các phân bố
màu của các ảnh.
Về mặt toán học, ba Mômen đầu tiên được định nghĩa bằng:



=
=
N
j
iji
f
N
1
1
µ
(1-3)

2
1
2
))(
1
(

−=
iiji
f
N
µσ
(1-4)

3
1
1

3
))(
1
(

=
−=
N
j
iiji
f
N
s
µ
(1-5)
Ở đây f
ij
là giá trị của thành phần màu thứ i của pixel ảnh j và N là số các pixel
trong ảnh.
Thông thường Mômen màu thực hiện tốt hơn nếu nó được xác định bởi cả hai
không gian màu L*u*v* và L*a*b* chứ không chỉ duy nhất bởi không gian màu
HSV. Sử dụng thêm Mômen bậc ba sẽ cải tiến đáng kể hiệu năng tra cứu, tuy nhiên
Mômen bậc ba này thỉnh thoảng làm cho biểu diễn đặc trưng nhạy cảm hơn với sự
thay đổi của cảnh trong ảnh, và do đó có thể giảm hiệu năng.
Do chỉ 9 số (ba Mômen cho mỗi một trong ba thành phần màu) được sử dụng để
biểu diễn nội dung màu của mỗi ảnh, các Mômen màu là một biểu diễn rất nén so
với các đặc trưng màu khác, do đó có thể cũng giảm khả năng phân biệt. Thông
thường, các Mômen màu có thể được sử dụng như sơ duyệt lần đầu để giảm không
gian tìm kiếm trước khi các đặc trưng màu phức tạp khác được dùng để tra cứu.
1.1.3. Đặc trưng về không gian màu

1.1.3.1. Giới thiệu về không gian màu
Một không gian màu chỉ rõ các màu như các bộ số, theo các đặc tả nào đó và
được dùng để sinh ra các biểu diễn màu, như trong việc in hoặc hiển thị điện tử số.
Mục đích của không gian màu là để đặc tả các màu theo một số cách chuẩn, được
chấp nhận chung. Có thể mô tả các không gian màu sử dụng khái niệm đồng nhất
nhận thức - nghĩa là hai màu có khoảng cách bằng nhau trong không gian màu thì
cũng được nhận thức như nhau bởi người quan sát.
Header Page 15 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
8

Có rất nhiều dạng không gian màu khác nhau, tùy thuộc vào từng ứng dụng và
từng nhà phát triển, ví dụ như không gian màu RGB, CMY, HSx,
Các ảnh với đặc tính màu và kết cấu tương tự nhau có thể được phân biệt khi
dùng các ràng buộc không gian, ví dụ: vùng bầu trời màu xanh và biển xanh có thể
có các lược đồ màu giống nhau, nhưng các vị trí không gian của chúng trong các
ảnh là khác nhau. Do đó, vị trí không gian giữa các vùng và quan hệ giữa các vùng
trong một ảnh rất có ích cho việc tra cứu ảnh, gọi là đặc trưng màu – không gian.
Biểu diễn quan hệ không gian được sử dụng rộng rãi nhất là các xâu 2D được đề
xuất bởi Chang và cộng sự [10]. Nó được xây dựng bởi việc chiếu các ảnh dọc theo
các hướng x và y. Hai tập ký hiệu, V và A, được định nghĩa trên hình chiếu. Mỗi ký
hiệu trong V biểu diễn một đối tượng trong ảnh. Mỗi ký hiệu trong A biểu diễn một
loại quan hệ không gian giữa các đối tượng. Do sự biến đổi của nó, xâu 2DG cắt tất
cả các đối tượng dọc theo hình hộp tối thiểu của nó và mở rộng các quan hệ không
gian thành hai tập toán tử không gian. Một tập định nghĩa các quan hệ không gian
cục bộ. Tập còn lại định nghĩa quan hệ không gian toàn cục, chỉ ra rằng hình chiếu
của hai đối tượng là tách rời, nối tiếp hoặc định vị tại cùng vị trí. Thêm nữa, xâu
2DG được đề xuất để cực tiểu hoá số các đối tượng cắt. Xâu 2D-B biểu diễn một
đối tượng bằng hai ký hiệu, vị trí cho bắt đầu và kết thúc đường bao của đối tượng.
Tất cả các phương pháp này có thể hỗ trợ ba loại truy vấn: Truy vấn tìm tất cả các

ảnh chứa đối tượng O
1
, O
2
, , O
n
; Truy vấ n tìm tất cả các ảnh chứa các đối tượng
có quan hệ với nhau, nhưng khoảng cách giữa chúng không đáng kể; và Truy vấn
tìm tất cả các ảnh có quan hệ khoảng cách nào đó với mỗi ảnh khác.
Ngoài các xâu 2D, cây tứ phân không gian [5] cũng được sử dụng cho biểu diễn
thông tin không gian. Tuy nhiên, tìm kiếm các ảnh dựa trên các quan hệ không gian
của các vùng còn là một vấn đề nghiên cứu khó trong tra cứu ảnh dựa vào nội dung,
do việc phân chia các đối tượng hoặc các vùng thường là không khả thi ngoại trừ
các ứng dụng rất giới hạn. Người ta thường dùng một số kỹ thuật khác để khắc phục
vấn đề này, ví dụ sử dụng phương pháp dựa vào biến đổi radon,
Header Page 16 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
9

1.1.3.2. Không gian màu RGB
Không gian màu RGB (Red, Green, Blue) là không gian màu được sử dụng nhiều
nhất cho đồ hoạ máy tính. Đây là không gian màu cộng: đỏ, xanh lục, và xanh lơ
được kết hợp lại để tạo ra các màu khác. Không gian này không đồng nhất về nhận
thức. Không gian màu RGB có thể được trực quan hoá như một hình khối, như
được minh hoạ trong hình 1.1 sau:

Hình 1.1. Biểu diễn không gian màu RGB.
Mỗi trục màu (R, G, và B) có độ quan trọng như nhau, do đó mỗi trục nên được
lượng hoá với cùng một độ chính xác. Khi không gian màu RGB được lượng hoá,
số các bin luôn là một hình khối. Thông thường, 8 (2

3
), 64 (4
3
), 216 (6
3
), 512 (8
3
)
bin được sử dụng trong lượng hoá không gian màu RGB. Có thể thực hiện chuyển
đổi sang ảnh đa cấp xám để tiện cho việc xử lý.
1.1.3.3. Không gian màu HSx
Các không gian màu HSx (như HSI, HSV, HSB, HSL, ) là gần với nhận thức
của người hơn không gian màu RGB, nhưng vẫn không là đồng nhất nhận thức.
Các trục của không gian màu HSx biểu diễn các đặc trưng hue (màu), saturation
(độ bão hòa), lightness (độ sáng) (còn gọi là value, brightness và intensity). Sự khác
biệt giữa các không gian màu HSx là cách biến đổi từ không gian màu RGB. Chúng
thường được biểu diễn bởi các hình khác nhau (ví dụ hình nón, hình trụ).
Header Page 17 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
10


Hình 1.2. Trực quan hóa không gian màu HSV như một hình nón.
Hue là thành phần màu của các không gian màu HSx. Hue là một góc giữa một
đường tham chiếu và điểm màu trong không gian RGB, phạm vi của giá trị này giữa
0
0
và 360
0
, ví dụ blue là 240

0
. Theo CIE, Hue là “thuộc tính của cảm giác trực quan
theo đó một vùng xuất hiện là tương ứng vớ i một vùng màu được nhận thức, đỏ
(red), vàng (yellow), xanh lục (green), và xanh lơ (blue), hoặc kết hợp của hai trong
chúng”. Nói cách khác, hue là loại màu, như đỏ hoặc xanh lục. Cũng theo CIE, độ
bão hoà là “màu đầy của một vùng được xem xét tương xứng với độ sáng của nó”.
Trong hình nón, độ bão hoà là khoảng cách từ tâm của mặt cắt ngang của hình nón,
“chiều cao” nơi mặt cắt ngang này được được xác định bởi giá trị - Value, nó là
khoảng cách từ điểm cuối của hình nón. Giá trị là độ sáng của một màu, điều này
được định nghĩa bởi CIE như “thuộc tính của cảm giác trực quan theo đó một vùng
xuất hiện để phát ra nhiều hoặc ít ánh sáng”. Khi độ bão hoà được đặt đến 0, Hue
không được xác định.
1.1.3.4. Các không gian màu YUV và YIQ
Các không gian màu này được phát triển cho truyền hình vô tuyến. Không gian
màu YIQ là giống như không gian màu YUV, ở đây mặt phẳng I-Q là một mặt
phẳng quay 33
0
của mặt phẳng U-V. Tín hiệu Y biểu diễn độ chói của một pixel và
là kênh duy nhất được sử dụng trong ti vi đen trắng. U và V cho YUV và I và Q cho
YIQ là các thành phần màu.
Kênh Y được định nghĩa bởi các giá trị năng lượng có trọng số của R(0.299),
G(0.587), và B(0.144). Các không gian màu YUV và YIQ không là đồng nhất nhận
Header Page 18 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
11

thức. Khi các không gian màu YUV và UIQ được lượng hoá, mỗi trục được lượng
hoá với cùng độ chính xác.
1.1.3.5. Các không gian màu CIE XYZ và LUV
Không gian màu đầu tiên được phát triển bởi CIE là không gian màu XYZ.

Thành phần Y là thành phần độ chói được xác định bởi các tổng có trọng số của
R(0:212671), G(0:715160), và B(0:072169). X và Y là các thành phần màu. Không
gian màu XYZ là không đồng nhất nhận thức. Trong lượng hoá không gian màu
XYZ, mỗi trục được lượng hoá với cùng độ chính xác.
Không gian màu CIE LUV là một biến đổi xạ ảnh của không gian màu XYZ là
đồng nhất nhận thức. Kênh L của không gian màu LUV là độ chói của màu. Các
kênh U và V là các thành phần màu, nên khi U và V được đặt bằng 0, kênh L biểu
diễn một ảnh cấp xám.
Trong lượng hoá không gian LUV, mỗi trục được lượng hoá với cùng độ chính
xác. Với cả không gian màu XYZ và LUV, các lược đồ lượng hoá thường sử dụng 8
(2
3
), 27 (3
3
), 64 (4
3
), 125 (5
3
) bin.
1.1.4. Đặc trưng về kết cấu
1.1.4.1. Một số khái niệm về kết cấu
Kết cấu là một đặc tính quan trọng khác của ảnh. Các biểu diễn kết cấu đa dạng
đã được nghiên cứu trong nhận dạng mẫu và thị giác máy tính. Các phương pháp
biểu diễn kết cấu có thể được phân thành hai loại: cấu trúc và thống kê. Các phương
pháp cấu trúc, gồm toán tử hình thái và đồ thị kề, mô tả kết cấu bởi nhận dạng cấu
trúc gốc và các luật sắp đặt của chúng. Chúng có chiều hướng hiệu quả nhất khi
được áp dụng với các kết cấu đều. Các phương pháp thống kê, gồm các kỹ thuật phổ
năng lượng Fourier, ma trận đồng khả năng, phân tích thành phần chính bất biến,
đặc trưng Tamura, phân rã Wold, MRF, mô hình fractal, và lọc đa phân giải như
biến đổi Gabor và sóng, mô tả kết cấu bằng phân bố thống kê của cường độ ảnh.

Một số biểu diễn kết cấu [14] được sử dụng thường xuyên và đã được chứng minh
là hiệu quả trong tra cứu ảnh dựa vào nội dung.
Header Page 19 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
12

1.1.4.2. Các đặc trưng Tamura
Bao gồm các đặc trưng Coarseness (thô), contrast (tương phản), directionality
(hướng), linelikeness (giống nhất), regularity (đều), và roughness (nhám), được thiết
kế phù hợp với các nghiên cứu tâm lý về nhận thức của người đối với kết cấu. Ba
đặc trưng đầu tiên được sử dụng trong một số hệ thống tra cứu ảnh như QBIC và
Photobook. Các tính toán của ba đặc trưng này được cho như sau:
*. Thô (Coarseness): Thô là một độ đo tính chất hột của kết cấu. Để
tính toán thô, các trung bình động A
k
(x,y) được tính đầu tiên sử dụng cỡ 2
k
*2
k

(k=0 5) các cửa sổ tại mỗi pixel (x,y), tức là:

∑ ∑
−+
−=
−+
−=





=
12
2
12
2
2
1
1
1
1
2/),(),(
k
k
k
k
x
xi
y
yj
k
k
jigyxA
(1-6)
Ở đây g(i,j) là cường độ pixel tại (i,j).
Sau đó, các sự khác nhau giữa các cặp trung bình động không chồng theo hướng
ngang và đứng cho mỗi pixel được tính toán, tức là:

)2,()2,(),(),2(),2(),(
11

,
11
,
−−−−
−−+=−−+=
k
k
k
kvk
k
k
k
khk
yxAyxAyxEvàyxAyxAyxE
(1-7)
Sau đó, gía trị của k cực đại hoá E theo một trong hai hướng được sử dụng để đặt
cỡ tốt nhất cho mỗi pixel, tức là:

k
best
yxS 2),( =
(1-8)
Sau đó thô được tính bằng trung bình S
best
trên toàn bộ ảnh, tức là:

∑∑
= =
×
=

m
i
n
j
bestcrs
jiS
nm
F
1 1
),(
1
(1-9)
Thay vì lấy trung bình của S
best
, một phiên bản được cải tiến của đặc trưng thô có
thể thu được bởi sử dụng một lược đồ để mô tả phân bố của S
best
. So với sử dụng
một giá trị đơn để biểu diễn thô, sự cải tiến này có thể tăng đáng kể hiệu năng tra
cứu. Sự điều chỉnh này làm cho đặc trưng có khả năng xử lý với một ảnh hoặc vùng
có đa đặc tính kết cấu, và do đó là hữu ích hơn đối với các ứng dụng tra cứu ảnh.
*. Độ tương phản: Công thức tính tương phản như sau:

4/1
4
α
σ
=
con
F

(1-10)
Header Page 20 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
13

Ở đây α
4

4
/ σ
4
, µ
4
là Mômen thứ tư về trung bình, và phương sai σ
2
. Công thức
này có thể được sử dụng cho cả toàn bộ ảnh và một vùng của ảnh.
*. Hướng: Để tính hướng, ảnh được chập với hai dãy 3*3 (tức là:










−−−














111
000
111
101
101
101

là một véc tơ gradient tại mỗi pixel được tính).
Độ lớn và góc của véc tơ này được định nghĩa bằng:

(
)
2/)/(tan2/
1
πθ
+∆∆=∆+∆=∆

HVVH

vàG
(1-11)
Ở đây ∆
H
và ∆
V
là các khác biệt ngang và dọc của chập.
Sau đó, bằng lượng hoá θ và đếm số các pixel với độ lớn tương ứng |∆G| lớn hơn
một ngưỡng, một lược đồ của θ, biểu thị bằng HD, có thể được xây dựng. Lược đồ
này sẽ cho biết các đỉnh bền vững cho các ảnh hướng cao và sẽ là tương đối phẳng
với các ảnh không có hướng bền vững. Sau đó toàn bộ lược đồ được tóm lược để
thu toàn bộ độ đo hướng dựa trên tính nhọn của các đỉnh:

∑ ∑

−=
p
p
n
p w
Dpdir
HF
φ
φφφ
)()(
2
(1-12)
1.1.4.3. Các đặc trưng Wold
Phân rã Wold [9] cung cấp một cách tiếp cận khác để mô tả các kết cấu về mặt
đặc tính nhận thức. Ba thành phần chính của Wold tương ứng với chu kỳ, hướng, và

tính ngẫu nhiên của kết cấu tương ứng. Đối với một trường ngẫu nhiên đều {y(m,n),
m,n Є Z
2
}, phân rã Wold cho phép trường được phân rã thành ba thành phần trực
giao lẫn nhau:

),(),(),(),(),(),( nmenmhnmunmdnmunmy
+
+
=
+
=
(1-13)
Ở đây u(m,n) là thành phần không xác định, d(m,n) là thành phần xác định và
thành phần tạm thời e(m,n) có thể được phân rã tiếp ra thành phần điều hoà h(m,n)
và thành phần tạm thời e(m,n). Trong miền tần số, một biểu diễn tương tự tồn tại:

),(),(),(),(),(),(
ηξηξηξηξηξηξ
ehuduy
FFFFFF ++=+=
(1-14)
Ở đây
),(),,(),,(),,(),,(
ηξηξηξηξηξ
ehduy
FFFFF
là các hàm phân bố phổ (SDF)
của
)},({)},,({)},,({)},,({ nmhnmdnmunmy

và {e(m,n)} tương ứng.
Header Page 21 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
14

Trong miền không gian, ba thành phần trực giao có thể thu được bởi ước lượng
khả năng nhất, nó gồm sự điều chỉnh một quá trình bậc cao, cực tiểu hoá hàm giá,
và giải một tập các phương trình tuyến tính. Trong miền tần số, các thành phần
Wold có thể thu được bởi ngưỡng toàn cục của các độ lớn phổ Fourier của ảnh.
Trong [15], một phương pháp sử dụng trích rút đỉnh điều hoà và mô hình MRSAR
thiếu một phân rã thực sự của ảnh được giới thiệu. Phương pháp này được thiết kế
để dung sai sự đa dạng của các sự không đồng nhất trong các mẫu kết cấu tự nhiên.
1.1.4.4. Mô hình tự hồi qui đồng thời SAR
Là một thể hiện của các mô hình MRF, nó rất thành công về mô hình kết cấu
trong những thập kỷ qua. So với MRF, SAR sử dụng ít các tham số hơn. Trong mô
hình SAR, các cường độ pixel nhận được bằng các biến ngẫu nhiên. Cường độ
g(x,y) tại pixel (x,y) có thể được ước lượng bằng một kết hợp tuyến tính của các giá
trị pixel lân cận g(x’,y’) và một số hạng nhiễu cộng Σ(x,y), tức là:



++=
Dyx
yxyxgyxyxg
)'',(
),()','()','(),(
εθµ
(1-15)
Ở đây µ là giá trị xiên được xác định bởi trung bình của toàn bộ ảnh; D là tập lân
cận của (x,y); θ(x’,y’) là tập các trọng số được kết hợp với mỗi pixel lân cận; ε(x,y)

là biến ngẫu nhiên độc lập Gaussian với trung bình 0 và phương sai σ
2
. Các tham số
θ và σ được sử dụng để đo kết cấu. Ví dụ một giá trị σ cao hơn hàm ý tính chất hột
tốt hơn hoặc thô kém hơn; các giá trị θ(x,y+1) và θ(x,y-1) cao hơn chỉ ra rằng kết
cấu được hướng thẳng đứng. Kỹ thuật sai số bình phương tối thiểu hoặc phương
pháp ước lượng hợp lý cực đại thường được sử dụng để đánh giá các tham số của
mô hình SAR.
Mô hình SAR là không bất biến quay. Để nhận được một mô hình SAR bất biến
quay (RISAR), các pixel nằm trên các đường tròn có bán kính khác nhau có tâm tại
mỗi pixel (x,y) đáp ứng bằng tập D lân cận của nó. Như thế cường độ g(x,y) tại
pixel (x,y) có thể được ước lượng bằng:


=
++=
p
i
ii
yxyxlyxyxg
1
),(),(),(),(
εθµ
(1-16)
Header Page 22 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
15

Ở đây p là số lân cận. Để tạo chi phí tính toán thấp và để thu được bất biến quay
tại cùng thời điểm, p không được quá lớn hoặc quá nhỏ. Thông thường p=2.l(x,y) có

thể được tính toán bởi:



=
i
Nyx
ii
yxgyxw
i
yxl
)','(
)','()','(
8
1
),(
(1-17)
Ở đây N
i
là lân cận tròn thứ i của (x,y), w
i
(x’,y’) là một tập các trọng số được
tính trước chỉ ra đóng góp của pixel (x’,y’) trong vòng tròn thứ i.
Để mô tả các kết cấu có các tính chất hột khác nhau, mô hình tự hồi qui đồng
thời đa phân giải MRSAR được đề xuất để cho phép phân tích kết cấu đa mức. Một
ảnh được biểu diễn bởi hình chóp Gaussian đa độ phân giải với lọc thông thấp và
lấy mẫu dưới được áp dụng tại một số mức liên tiếp, sau đó mô hình SAR có thể
được áp dụng đối với mỗi mức của hình chóp.
1.1.4.5. Các đặc trưng lọc Gabor
Được sử dụng rộng rãi để trích rút các đặc trưng ảnh, đặc biệt là các đặc trưng kết

cấu. Nó tối ưu về mặt cực tiểu hoá sự không chắc chắn chung trong miền không
gian và miền tần số, và thường được sử dụng như một hướng và tỷ lệ biên điều
hướng và phát hiện đường. Có nhiều cách tiếp cận đã được đề xuất để mô tả các kết
cấu của các ảnh dựa trên các lọc Gabor. Ý tưởng cơ bản của sử dụng các lọc Gabor
để trích rút các đặc trưng kết cấu như sau: Một hàm Gabor hai chiều g(x,y) được
định nghĩa bằng:









+








+−= jWx
yx
yxg
yxyx
π
σσσπσ

2
2
1
exp
2
1
),(
2
2
2
2
(1-18)
Ở đây σ
x
và σ
y
là các độ lệch chuẩn của các bao Gauss theo hướng x và y. Sau đó
một tập các lọc Gabor có thể thu được bởi các giãn và quay thích hợp của g(x,y):

)cossin('
)191()sincos('
)','(),(
θθ
θθ
yxay
yxax
yxgayxg
m
m
m

mn
+−=
−+−=
=




Ở đây a>1, θ=nπ / K, n=0, ,K-1, và m=0, ,S-1. K và S là số các hướng và các tỷ
lệ. Nhân tố tỷ lệ a
-m
là để đảm bảo rằng năng lượng là độc lập của m.
Header Page 23 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
16

Một ảnh I(x,y) đã cho, biến đổi Gabor của nó được định nghĩa bằng:


−−=
1111
*
),(),(),( dydxyyxxgyxIyxW
mnmn
(1-20)
Ở đây * chỉ ra số liên hợp phức. Sau đó trung bình µ
mn
và độ lệch chuẩn σ
mn
của

độ lớn W
mn
(x,y), tức là, f=[µ
00
, σ
00
, , µ
mn
, σ
mn
, Λ, µ
S-1 K-1
, σ
S-1 K-1
] có thể được sử
dụng để biểu diễn đặc trưng kết cấu của một vùng kết cấu thuần nhất.
1.1.4.6. Các đặc trưng biến đổi sóng
Tương tự với lọc Gabor, biến đổi sóng cung cấp một cách tiếp cận đa độ phân
giải đối với phân tích kết cấu và phân lớp. Các biến đổi sóng phân rã một tín hiệu
với một họ các hàm cơ sở ψ
mn
(x) thu được thông qua dịch chuyển và sự giãn của
sóng mẹ ψ(x), tức là:

)2(2)(
2/
nxx
mm
mn
−=

−−
ψψ
(1-21)
Ở đây, m và n là các tham số giãn và dịch chuyển. Một tín hiệu f(x) có thể được
biểu diễn bằng:


=
nm
mnmn
xcxf
,
)()(
ψ
(1-22)
Tính toán các biến đổi sóng của một tín hiệu hai chiều gồm lọc đệ quy và lấy
mẫu. Tại mỗi mức, tín hiệu được phân thành bốn dải tần số con: LL, LH, HL và
HH, ở đây L biểu thị tần số thấp và H biểu thị tần số cao. Hai loại biến đổi sóng
chính được sử dụng cho phân tích kết cấu là biến đổi sóng cấu trúc hình chóp PWT
(pyramid structured wavelet transform) và biến đổi sóng cấu trúc hình cây TWT
(tree structured wavelet transform). PWT phân rã dải LL một cách đệ quy. Tuy
nhiên một số kết cấu thông tin quan trọng thường xuất hiện ở kênh có tần số chung.
Để khắc phục hạn chế này, TWT phân rã các dải khác như LH, HL hoặc HH khi
cần. Sau khi phân rã, các véc tơ đặc trưng có thể được xây dựng sử dụng trung bình
và độ lệch chuẩn của phân bố năng lượng của mỗi dải con tại mỗi mức. Với phân rã
ba mức, PWT đưa ra một véc tơ đặc trưng có 3*4*2 thành phần. Với TWT, đặc
trưng sẽ phụ thuộc vào dải con nào tại mỗi mức được phân rã. Một cây phân rã cố
định có thể thu được bởi phân rã liên tiếp các dải LL, LH, HL, và vì thế cho ra một
Header Page 24 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

17

véc tơ đặc trưng có 52*2 thành phần. Hơn nữa, theo so sánh của các đặc trưng biến
đổi sóng khác nhau, chọn riêng lọc sóng không là then chốt cho phân tích kết cấu.
1.1.5. Đặc trưng về hình dạng
1.1.5.1. Một số khái niệm về hình dạng ảnh
Các đặc trưng hình dạng của các đối tượng hoặc các vùng đã được sử dụng trong
nhiều hệ thống CBIR. So với các đặc trưng màu và kết cấu, đặc trưng này thường
được mô tả sau khi các ảnh được phân đoạn thành các vùng hoặc các đối tượng. Do
phân đoạn ảnh mạnh và chính xác là khó đạt được, sử dụng các đặc trưng hình dạng
cho tra cứu ảnh bị giới hạn đối với các ứng dụng chuyên biệt, ở đó các đối tượng
hoặc các vùng đã sẵn có. Các phương pháp state-of-art cho mô tả hình có thể được
phân thành hoặc là các phương pháp dựa vào đường bao hoặc các phương pháp dựa
vào vùng. Một biểu diễn đặc trưng hình tốt cho một đối tượng phải bất biến với dịch
chuyển, quay và tỷ lệ. Chúng ta sẽ mô tả ngắn gọn một số đặc trưng hình được sử
dụng phổ biến trong các ứng dụng tra cứu ảnh. Với một giới thiệu tổng quan ngắn
gọn về các kỹ thuật đối sánh hình.
1.1.5.2. Các bất biến Mômen
Biểu diễn hình cổ điển sử dụng một tập các bất biến Mômen. Nếu đối tượng R
được biểu diễn như một ảnh nhị phân, thì các Mômen trung tâm bậc p+q cho hình
của đối tượng R được định nghĩa:



−−=
Ryx
q
c
p
cqp

yyxx
),(
,
)()(
µ
(1-23)
Ở đây
)y,x(
cc
là tâm của đối tượng. Mômen trung tâm này có thể được chuẩn
hoá để bất biến tỷ lệ:

2
2
,
0,0
,
,
++
==
qp
qp
qp
γ
µ
µ
η
γ
(1-24)
Dựa trên các Mômen này, một tập các bất biến Mômen đối với dịch chuyển, quay

và tỷ lệ có thể tìm thấy trong:
Header Page 25 of 73.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

×