i
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
HOÀNG TRẦN HIẾU
TÌM HIỂU MỘT SỐ PHƢƠNG PHÁP TRÍCH CHỌN
ĐẶC TRƢNG ẢNH VÀ THỬ NGHIỆM
TÌM KIẾM ẢNH
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên - 2012
ii
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
MỤC LỤC
MỤC LỤC i
DANH MỤC CÁC HÌNH VẼ v
MỞ ĐẦU 1
CHƢƠNG 1 ĐẶC TRƢNG ẢNH VÀ BÀI TOÁN TÌM KIẾM ẢNH 3
1.1 Đặt vấn đề 3
1.2 Đặc trưng văn bản đi kèm ảnh và tìm kiếm ảnh theo đặc trưng văn bản đi kèm 4
1.3 Đặc trưng nội dung ảnh và tìm kiếm ảnh theo nội dung 6
1.4 Một số chương trình minh họa tìm kiếm ảnh theo nội dung 8
1.5 Tổng kết chương 1 10
CHƢƠNG 2: MỘT SỐ PHƢƠNG PHÁP TRÍCH CHỌN ĐẶC TRƢNG ẢNH 11
2.1 TRÍCH CHỌN ĐẶC TRƯNG THEO MÀU 11
2.1.1 Màu sắc 11
2.1.1.1 Khái niệm màu sắc 11
2.1.1.2 Một số đặc tính vật lý đặc biệt về màu sắc 12
2.1.2 Các hệ màu thông dụng 14
2.1.2.1 Hệ màu chuẩn RGB 14
2.1.2.2 Hệ màu CMY 15
2.1.2.3 Hệ màu HSI 16
2.1.2.4 Hệ màu HLS 18
2.1.2.5 Hệ màu YIQ 19
2.1.3 Đặc trưng màu sắc 19
2.1.3.1 Lược đồ màu (Histogram) 19
2.1.3.2 Véc- tơ liên kết mầu 21
2.1.3.3 Đặc trưng tương quan màu (AutoCorrelogram) 23
2.1.4 Các loại độ đo màu 26
2.1.4.1 Độ đo khoảng cách min- max 26
2.1.4.2 Độ đo khoảng cách Euclid 27
2.1.4.3 Độ đo khoảng cách toàn phương: 27
iii
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2.1.4.4 Độ đo Jensen – Shannon diergence (JSD): 27
2.2 TRÍCH CHỌN ĐẶC TRƯNG THEO KẾT CẤU ẢNH 28
2.2.1 Khái niệm 28
2.2.2 Một số loại kết cấu tiêu biểu 28
2.2.3 Đặc trưng kết cấu ảnh 28
2.2.4 Độ tương đồng kết cấu ảnh 29
2.2.4.1 Mật độ đường biên và hướng biên 29
2.2.4.2 Phân hoạch màu nhị phân cục bộ 31
2.2.4.3 Ma trận đồng hiện và đối tượng đồng hiện 31
2.2.4.4 Độ đo năng lượng của kết cấu dựa vào luật đo 34
2.2.4.5 Tương quan tự động và năng lượng 35
2.2.5 Phân đoạn cho kết cấu 36
2.3 TRÍCH CHỌN ĐẶC TRƯNG THEO HÌNH DẠNG ẢNH 36
2.3.1 Khái niệm 36
2.3.2 Các kỹ thuật phát hiện biên ảnh 37
2.3.2.1 Kỹ thuật phát hiện biên trực tiếp 38
2.3.3.2 Kỹ thuật phát hiện biên gián tiếp 48
2.3.3 Các đặc trưng về biên cạch 48
2.3.3.1 Lược đồ hệ số góc (Edge Direction Histogram) 48
2.3.3.2 Véc – tơ liên kết hệ số góc (Edge Direction Coherence Vector) 49
2.4 Kết luận chƣơng 2: 51
CHƢƠNG 3: THỬ NGHIỆM TÌM KIẾM ẢNH 52
3.1 Kỹ thuật tìm kiếm ảnh dựa trên đặc trưng về màu sắc 52
3.1.1 Biểu đồ màu 52
3.1.2.1 Độ đo khoảng cách Minkowski. 53
3.1.2.2 Độ đo khoảng cách Quadratic. 54
3.1.2.3 Độ đo khoảng cách Non-histogram. 54
3.2 Các phương pháp tra cứu ảnh 55
3.2.1 Biểu đồ màu toàn cục (Global Color Histogram - GCH). 55
iv
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
3.2.2 Biểu đồ màu cục bộ (Local Color Histogram - LCH). 56
3.2.3 Color Auto Correlgram. 57
3.3 Thực nghiệm 60
3.3.1. Môi trường test 60
3.3.2. Mô tả chương trình 60
3.4 Giao diện chương trình 61
3.5 Kết luận 61
KẾT LUẬN 62
TÀI LIỆU THAM KHẢO 63
v
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Hình trả về khi truy vấn “d-80”……………………………………… 4
Hình 1.2 Hình trả về khi truy vấn “apple” 4
Hình 1.3 Hình dễ mô tả 5
Hình 1.4 Hình khó mô tả hơn 5
Hình 1.5 Hình khó mô tả bằng trực quan 5
Hình 1.6 Sơ đồ tìm kiếm ảnh theo đặc trưng văn bản đi kèm ảnh 6
Hình 1.7: Một số loại kết cấu trong tự nhiên 7
Hình 1.8: Sơ đồ tìm kiếm ảnh nội dung ảnh 8
Hình 1.9 Hình minh hoạ trả về của Google Image Swirl 9
Hình 1.10 Hình minh hoạ trả về của Tiltomo 9
Hình 1.11 Hình minh hoạ trả về của Byo Image Search 10
Hình 2.1 Hình mô tả ba màu cơ bản Red-Green-Blue 14
Hình 2.2. Sự biến đổi từ RGB thành CMY 15
Hình 2.3: Hệ màu CMY 16
Hình 2.4: Hệ màu HSI 17
Hình 3.5: Không gian màu HSI 17
Hình 2.6 Hình minh họa sự thay đổi độ sáng trong hệ HSI 18
Hình 2.7 . Mô hình màu HLS 18
Hình 2.8.Ảnh trong hệ màu RGB 20
Hình 2.9.Ảnh trong hệ màu HSI 21
Hình 2.10. Lược đồ màu của ảnh sau khi lượng tử hóa 21
Hình 2.11: Ảnh trong hệ màu RGB 22
Hình 2.12: Ảnh trong hệ màu HSI 22
Hình 2.13: Màu đỏ thể hiện liên kết màu trong ảnh 22
Hình 2.15. Một số loại kết cấu trong tự nhiên 28
Hình 2.16. Đường bao ảnh 37
vi
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Hình 2.17. Minh họa biên ảnh 38
Hình 2.18 Ảnh minh họa làm mảnh biên 44
Hình 2.19. Hình biên ảnh sau khi dùng phương pháp Gradient 44
Hình 2.20. Hình sau khi làm mảnh biên 44
Hình 2.21. Minh họa nguyên lý Bellman. 46
Hình 2.22 Hình mô tả tìm biên theo phương pháp quy hoạch động 48
Hình 2.23.Ảnh minh hoạ hệ số góc 49
Hình 2.24 Đường biên của ảnh 49
Hình 2.25 Lược đồ hệ số góc của ảnh 49
Hình 2.26. Ảnh minh hoạ véc- tơ liên kết hệ số góc 50
Hình 2.27. Biên cạch của ảnh 50
Hình 2.28. Lược đồ vec- tơ liên kết hệ số góc 50
Hình 3.2. Độ đo khoảng cách Quadretic 54
Hình 3.3. Ba ảnh và biểu đồ màu của chúng. 55
Hình 3.4. Sử dụng LCH để tính toán khoảng cách giữa ảnh C và D 57
H ình 3.5. Xác suất tính mầu sắc 57
Hình 3.6. Color auto correlgram của 2 ảnh tương tự. 58
Hình 3.7. Các chức năng chính của chương trình 59
Hình 3.8. Giao diện chính của chương trình tra cứu ảnh. 61
1
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
MỞ ĐẦU
Ngày nay với sự phát triển không ngừng của công nghệ nói chung thiết bị kỹ
thuật số nói riêng đã tạo ra các loại thiết bị máy ghi hình ngày càng phổ biến đa
dạng và hiện đại như máy ảnh kỹ thuật số, camera, webcam…Với giá từ vài triệu
đến vài chục triệu thì mỗi cá nhân, gia đình hay một tổ chức xã hội đã sở hữu được
một trong các thiết bị trên. Các thiết bị này đã và đang ghi lại được rất nhiều hình
ảnh thuộc nhiều lĩnh vực khác nhau như khoa học kỹ thuật, giáo dục, chính trị, thể
thao, văn hóa du lịch…
Trong mỗi một lĩnh vực khác như vậy, trải qua hàng tháng, hàng năm số ảnh của
mỗi cơ quan, tổ chức và cá nhân tăng lên một cách nhanh chóng tạo thành cơ sở dữ
liệu (CSDL) ảnh phong phú và đa dạng.
Cùng với sự phát triển mạnh mẽ không ngừng của mạng Internet, tài nguyên
ảnh trên các trang web ngày càng lớn. Tính đến tháng 10/2009 thì trên Flick : 4 tỷ
ảnh, Facebook: 30 tỷ ảnh và có 1,73 tỷ người sử dụng Internet. [18] Đây quả là con
số khổng lồ.
Vấn đề đặt ra là với CSDL ảnh lớn như vậy, để tìm kiếm được ảnh đáp ứng yêu
cầu người dùng thì cần phải có một hệ thống hỗ trợ tìm kiếm ảnh một cách nhanh
chóng, chính xác cao và tiện lợi. Các công cụ tìm kiếm ảnh theo nội dung văn bản
đi kèm ảnh với thời gian đáp ứng khá nhanh tuy nhiên, các công cụ này vẫn còn hạn
chế trong việc giải quyết giữa nội dung câu truy vấn và nội dung hiển thị của ảnh trả
về. Sự ra đời của các công cụ tìm kiếm ảnh theo nội dung đã giải quyết được vấn đề
này.
Một trong những bước quan trọng của việc tìm kiếm ảnh theo nội dung đó là
bước trích chọn đặc trưng ảnh. Trích chọn đặc trưng ảnh trong CSDL ảnh có sẵn để
đưa ra các bộ ảnh được huấn luyện. Từ ảnh yêu cầu gửi vào ta cũng trích chọn đặc
trưng ảnh này theo phương pháp đã được sử dụng rồi đối sánh với bộ ảnh được
huấn luyện trong CSDL ảnh để trả lại kết quả tìm kiếm.
Phương pháp trích chọn đặc trưng ảnh là một bước rất quan trọng trong quá
trình tìm kiếm ảnh. Nó ảnh hưởng trực tiếp đến hiệu quả của công cụ tìm kiếm.
2
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Chính vì vậy trong khuân khổ một luận văn thạc sỹ em chọn để tài: “Tìm hiểu một
số phƣơng pháp trích chọn đặc trƣng ảnh và thử nghiệm tìm kiếm ảnh” nhằm
tìm hiểu kỹ về các kỹ thuật trích chọn đặc trưng của ảnh, nhằm hiểu rõ hơn bản chất
của bài toán tìm kiếm ảnh theo nội dung từ đó lựa chọn được được phương pháp
thích hợp trong quá trình tìm kiếm ảnh vào những trường hợp cụ thể.
Luận văn gồm 3 chương với các nội dung như sau:
Chương 1: Trình bày đặc trưng ảnh và bài toán tìm kiếm ảnh. Chương này sẽ
trình bày đặc trưng theo văn bản đi kèm ảnh, tìm kiếm ảnh theo văn bản đi kèm.
Phần tiếp theo của chương luận văn sẽ trình bày khái quát các đặc trưng ảnh. Các
đặc trưng đó là màu sắc, kết cấu và hình dạng ảnh. Phần cuối của chương nêu lên
một số hệ tìm kiếm ảnh trên mạng.
Chương 2: Tìm hiểu sâu, phân tích kỹ hơn về các đặc trưng ảnh. Các phương
pháp trích chọn đặc trưng ảnh phục vụ trong quá trình tìm kiếm ảnh theo nội dung.
Chương 3: Luận văn trên cơ sở từ việc nghiên cứu cách trích chọn đặc trưng
theo màu sắc sẽ thử nghiệm cài đặt một chương trình tìm kiếm ảnh.
3
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
CHƢƠNG 1 ĐẶC TRƢNG ẢNH VÀ BÀI TOÁN TÌM KIẾM ẢNH
1.1 Đặt vấn đề
Ngày nay với sự phát triển không ngừng của công nghệ nói chung thiết bị kỹ
thuật số nói riêng đã tạo ra các loại thiết bị máy ghi hình ngày càng phổ biến đa
dạng và hiện đại như máy ảnh kỹ thuật số, camera, webcam…Với giá từ vài triệu
đến vài chục triệu thì mỗi cá nhân, gia đình hay một tổ chức xã hội đã sở hữu được
một trong các thiết bị trên. Các thiết bị này đã và đang ghi lại được rất nhiều hình
ảnh thuộc nhiều lĩnh vực khác nhau như khoa học kỹ thuật, giáo dục, chính trị, thể
thao, văn hóa du lịch…
Trong mỗi một lĩnh vực khác như vậy, trải qua hàng tháng, hàng năm số ảnh của
mỗi cơ quan, tổ chức và cá nhân tăng lên một cách nhanh chóng tạo thành cơ sở dữ
liệu (CSDL) ảnh phong phú và đa dạng.
Cùng với sự phát triển mạnh mẽ không ngừng của mạng Internet, tài nguyên
ảnh trên các trang web ngày càng lớn. Tính đến tháng 10/2009 thì trên Flick : 4 tỷ
ảnh, Facebook: 30 tỷ ảnh và có 1,73 tỷ người sử dụng Internet[18]. Đây quả là con
số khổng lồ.
Vấn đề đặt ra là với CSDL ảnh lớn như vậy, để tìm kiếm được ảnh đáp ứng yêu
cầu người dùng thì cần phải có một hệ thống hỗ trợ tìm kiếm ảnh một cách nhanh
chóng, chính xác cao và tiện lợi. Các công cụ tìm kiếm ảnh theo nội dung văn bản
đi kèm ảnh với thời gian đáp ứng khá nhanh tuy nhiên, các công cụ này vẫn còn hạn
chế trong việc giải quyết giữa nội dung câu truy vấn và nội dung hiển thị của ảnh trả
về. Sự ra đời của các công cụ tìm kiếm ảnh theo nội dung đã giải quyết được vấn đề
này. Phần trình bày tiếp theo sẽ giúp chúng ta hiểu rõ hơn cách tìm kiếm ảnh theo
văn bản đi kèm và theo nội dung ảnh, từ đó cho ta thấy ưu và nhược điểm của từng
phương pháp.
4
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
1.2 Đặc trƣng văn bản đi kèm ảnh và tìm kiếm ảnh theo đặc trƣng văn bản
đi kèm
Mỗi ảnh trên Web thường có các văn bản đi kèm như là tên ảnh (title), các thẻ
(tag), bình luận (comment)… để mô tả các thông tin về ảnh, đây là các siêu dữ liệu
(metadata) về ảnh. Các dữ liệu này thường do người dùng tự đặt, công việc này
được làm một cách thủ công, sau khi tạo ra rồi gắn cho mỗi ảnh, vì vậy chúng đều
mang một ý nghĩa nhất định.
Vì văn bản đi kèm ảnh mang ngữ nghĩa về nội ảnh cho nên hai bức ảnh có
nội dung giống nhau thường có tên giống nhau và các thẻ tương tự nhau. Vì vậy,
các công cụ tìm kiếm ảnh theo văn bản đi kèm thường tập trung khai thác nội dung
của các văn bản này để tìm kiếm và xếp hạng ảnh. Phương pháp này cho kết quả
khả quan cũng như đáp ứng nhanh nhu cầu của người sử dụng. Tuy nhiên, với các
câu truy vấn mang ý nghĩa không rõ ràng có thể các kết quả trả về không đúng như
yêu cầu đặt ra. Ví dụ truy vấn là “d-80”, “một máy ảnh phổ biến của Nikon”, hình
1.1, thì hệ thống trả về kết quả khá tốt. Tuy nhiên, với truy vấn “apple”, nếu người
dùng muốn tìm quả táo thì kết quả đầu tiên không thỏa mãn (logo của hãng Apple),
hình 1.2, đó là hạn chế thứ nhất của việc tìm kiếm ảnh dựa trên đặc trưng văn bản đi
kèm ảnh.
Hình 1.1 Hình 1.2
Mặt khác các từ khóa này do người dùng tạo ra nên có thể rất dễ dàng mô tả với
một số ảnh ở mức cao như: [3]
5
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Who: 2 người, Chirac-Mendela, Tổng thống.
What: Bắt tay, Đồng ý.
Where: Thảm đỏ, Ngoài trời, Điện Elysée.
When: Ban ngày, tháng 7/1997.
Hình 1.3 Hình dễ mô tả
nhưng cũng sẽ gặp khó khăn với một số ảnh như:
Hình 1.4 Hình khó mô tả hơn
và khó mô tả được ở mức cao với một số loại ảnh:
What? Who?
Hình 1.5 Hình khó mô tả bằng trực quan
Đây là hạn chế thứ hai trong việc tìm kiếm ảnh theo đặc trưng văn bản đi
kèm ảnh.
6
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Hơn nữa, cách gán các nhãn cho mỗi ảnh được thực hiện thủ công, bên cạnh
đó ảnh tăng lên ngày một chóng bởi sự phát triển nhanh và mạnh của các máy ảnh
kỹ thuật số, việc gán thủ công là rất tốn kém. Một hướng nghiên cứu nhằm khắc
phục vấn đề trên là tìm kiếm ảnh theo chính các đặc trưng trích rút từ nội dung của
ảnh.
Hình 1.6 Sơ đồ tìm kiếm ảnh theo đặc trƣng văn bản đi kèm ảnh
1.3 Đặc trƣng nội dung ảnh và tìm kiếm ảnh theo nội dung
Tìm kiếm ảnh theo nội dung (Content Based Images Retrieval CBIR) hay truy
vấn theo nội dung ảnh (Query Based Image Content QBIC) là một ứng dụng của thị
giác máy tính đối với bài toán tìm kiếm ảnh [17]. “Dựa vào nội dung ảnh (Content-
Based) ” nghĩa là việc tìm kiếm sẽ phân tích nội dung thực sự của các bức ảnh. Nội
dung ảnh ở đây được thể hiện bằng màu sắc, hình dạng, kết cấu ảnh (texture), các
đặc trưng cục bộ (local features), hay bất cứ thông tin nào có từ chính nội dung
7
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ảnh. Cụm từ CBIR được T.Kato đưa ra vào năm 1992 trong quá trình thu thập ảnh
một cách tự động từ cơ sở dữ liệu dựa trên biểu diễn màu sắc và hình dạng của ảnh.
Tee Cheng Siew đã giới thiệu một số đặc trưng nội dung ảnh[10]:
• Đặc trưng màu sắc: Màu sắc là một đặc trưng nổi bật và được sử dụng phổ
biến nhất trong tìm kiếm ảnh theo nội dung. Mỗi một điểm ảnh (thông tin màu sắc)
có thể được biểu diễn như một điểm trong không gian màu sắc ba chiều. Các không
gian màu sắc thường dùng là: RGB, Munsell, CIE, HSV. Tìm kiếm ảnh theo màu
sắc tiến hành tính toán biểu đồ màu cho mỗi ảnh để xác định tỉ trọng các điểm ảnh
của ảnh mà chứa các giá trị đặc biệt (màu sắc). Các nghiên cứu gần đây đang cố
gắng phân vùng ảnh theo các màu sắc khác nhau và tìm mối quan hệ giữa các vùng
này.
• Đặc trưng kết cấu ảnh: Trích xuất nội dung ảnh theo kết cấu nhằm tìm ra mô
hình trực quan của ảnh và cách thức chúng được xác định trong không gian. Kết
cấu được biểu diễn bởi các texel mà sau đó được đặt vào một số các tập phụ thuộc
vào số kết cấu được phát hiện trong ảnh. Các tập này không chỉ xác định các kết
cấu mà còn chỉ rõ vị trí các kết cấu trong ảnh. Việc xác định các kết cấu đặc biệt
trong ảnh đạt được chủ yếu bằng cách mô hình các kết cấu như những biến thể cấp
độ xám 2 chiều. Ví dụ về một số loại kết cấu
Hình 1.7: Một số loại kết cấu trong tự nhiên
8
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
• Đặc trưng hình dạng: Hình dạng của một ảnh hay một vùng là một đặc trưng
quan trong trong việc xác định và phân biệt ảnh trong nhận dạng mẫu. Mục tiêu
chính của biểu diễn hình dạng trong nhận dạng mẫu là đo thuộc tính hình học của
một đối tượng được dùng trong phân lớp, so sánh và nhận dạng đối tượng. Thực tế,
đã có nhiều máy tìm kiếm cho phép tìm kiếm ảnh theo nội dung ảnh, tuy nhiên, các
máy tìm kiếm này thường chỉ khai thác vào một phần nội dung của ảnh.
Hình 1.8: Sơ đồ tìm kiếm ảnh nội dung ảnh
1.4 Một số chƣơng trình minh họa tìm kiếm ảnh theo nội dung
• Google Image Swirl: Là một thử nghiệm tìm kiếm hình ảnh theo nội dung
của Google, trong đó, kết quả tìm kiếm được sẽ được tổ chức lại dựa vào hiển thị
trực quan và độ tương đồng ngữ nghĩa giữa các ảnh. Google Image Swril phân cụm
9
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
tốp đầu các kết quả trả về cho trên 200.000 câu truy vấn và cho phép hiển thị hình
ảnh dưới dạng các cụm và mối quan hệ giữa các ảnh.
Hình 1.9 Hình minh hoạ trả về của Google Image Swirl
• Tiltomo: Là một công cụ dựa trên Flickr và duy trì chính cơ sở dữ liệu ảnh
của Flickr. Nó cho phép tìm kiếm ảnh dựa vào độ tương đồng về chủ đề, màu sắc
hay kết cấu.
Hình 1.10 Hình minh hoạ trả về của Tiltomo
• Byo Image Search: Tìm kiếm ảnh theo độ tương đồng về màu sắc với mẫu
ảnh mà người dùng tải lên từ máy tính hoặc từ một địa chỉ URL. Công cụ tìm kiếm
10
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
này không hỗ trợ tính năng tìm kiếm ảnh dựa vào độ tương đồng về chủ đề.
Hình 1.11 Hình minh hoạ trả về của Byo Image Search
• Tìm kiếm ảnh theo mẫu (example-based image search): Tìm kiếm ảnh theo
mẫu là một dạng của tìm kiếm ảnh dựa vào nội dung. Trong hệ thống đó, đầu vào là
một ảnh, hệ thống tìm kiếm và trả lại cho người dùng những ảnh tương đồng với
ảnh mẫu.
1.5 Tổng kết chƣơng 1
Trong chương này, em trình bày khái quát đặc trưng văn bản đi kèm ảnh và
đặc trưng nội dung của ảnh, và giới thiệu một số công cụ tìm kiếm dựa vào nội
dung ảnh. Phương pháp tìm kiếm ảnh theo nội dung đã khắc phục được một phần
nhược điểm của phương pháp tìm kiếm ảnh theo văn bản đi kèm ảnh và cho ra
những kết quả khả quan. Chương 2 luận văn sẽ trình bày về các đặc trưng, cách
trích chọn đặc trưng ảnh phục vụ trong tìm kiếm ảnh số.
11
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
CHƢƠNG 2: MỘT SỐ PHƢƠNG PHÁP TRÍCH CHỌN ĐẶC TRƢNG
ẢNH
Trích chọn đặc trưng là cơ sở của việc tìm kiếm ảnh dựa vào nội dung. Theo
nghĩa rộng, các đặc trưng có thể bao gồm cả các đặc trưng dựa vào văn bản và các
đặc trưng trực quan như màu, kết cấu hay hình dạng. Trong phạm vi đặc trưng trực
quan, các đặc trưng có thể được phân loại tiếp thành các đặc trưng chung và các đặc
trưng trong từng lĩnh vực cụ thể. Các đặc trưng trực quan chung gồm màu, kết cấu,
và hình dạng trong khi các đặc trưng lĩnh vực cụ thể là phụ thuộc ứng dụng. Các
đặc trưng lĩnh vực cụ thể bao gồm nhiều tri thức lĩnh vực.
Nhìn chung, không tồn tại một biểu diễn đơn tốt nhất cho một đặc trưng đã
cho. Với mọi đặc trưng được cho tồn tại nhiều biểu diễn mô tả đặc trưng từ các tình
huống khác nhau.
2.1 TRÍCH CHỌN ĐẶC TRƢNG THEO MÀU ẢNH
2.1.1 Màu sắc
2.1.1.1 Khái niệm màu sắc
Màu ảnh là một yếu tố đặc trưng hết sức cơ bản của ảnh. Ánh sáng màu là tổ
hợp của ánh sáng đơn sắc. Mắt người chỉ có thể cảm nhận được vài chục màu, song
lại có thể phân biệt được tới hàng ngàn màu. Có 3 thuộc tính chủ yếu trong cảm
nhận màu:
- Brightness: sắc màu, còn gọi là độ chói.
- Hue : sắc lượng, còn gọi là sắc thái màu.
- Saturation: độ bão hoà [1]
Sự nhận thức về màu sắc là rất quan trọng trong đời sống của con người. Sự
nhận thức về màu sắc phụ thuộc vào cả tính chất vật lý của ánh sáng và quá trình xử
lý của thị giác với sự góp phần rất quan trọng của kinh nghiệm. Con người có thể
dùng thông tin màu sắc để phân biệt đối tượng, vật liệu, đồ ăn, vị trí, và ngay cả thời
gian của ngày,
12
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2.1.1.2 Một số đặc tính vật lý đặc biệt về màu sắc
Con người chỉ có khả năng nhận thức được ánh sáng có bức xạ điện từ với bước
sóng trong khoảng 400 – 700 nanomet. Cơ quan thị giác cảm nhận được ánh sáng
là do bề mặt đối tượng phát ra ánh sáng, là kết quả của sự tương tác giữa năng
lượng chiếu sáng và những phân tử của bề mặt đối tượng. Một đối tượng màu xanh
dương sẽ có bề mặt màu xanh dương khi chiếu ánh sáng trắng vào. Nhưng đối
tượng đó sẽ có màu tím khi chiếu ánh sáng đỏ vào.Với sự phát triển mạnh mẽ của
các thiết bị kinh tế, máy móc xử lý màu sắc trở nên thông dụng: Chúng ta có các
thiết bị như máy quay phim màu, thiết bị chiếu màu và những phần mềm xử lý ảnh
màu. Máy móc có thể dùng màu sắc cho những mục đích như là con người. Đặc
biệt, màu sắc thuận tiện bởi vì nó cung cấp phép đo lường đa dạng tại mỗi điểm
ảnh đơn, có thể phân lớp, phân loại mà không cần đến những sự xử lý không gian
phức tạp để đưa đến quyết định. Do đó, việc lựa chọn mô hình màu thích hợp và sử
dụng lược đồ lượng hoá màu thích hợp sẽ giảm bớt độ phân giải màu. Đây là các
vấn đề quan trọng trong việc tìm kiếm ảnh dựa trên màu sắc. Màu sắc thường được
biểu diễn như là các điểm trong không gian màu 3 chiều. Hiện tại có rất nhiều mô
hình màu hình học hỗ trợ việc thể hiện màu sắc một cách rõ ràng, dễ lượng hoá
.Mô hình màu có thể khác biệt: Mô hình dựa trên thiết bị đo màu: Kết quả từ độ đo
vật lý hệ số phản xạ quang phổ sử dụng thiết bị đo màu. Các không gian màu
chuẩn theo CIE (Comission International d’Eclairage) thuộc loại này. Mô hình
màu dựa trên cảm nhận sinh lí: Kết quả từ các nghiên cứu về thần kinh. Tồn tại 3
kiểu hình nón phân biệt trong võng mạc của con người đóng vai trò vào việc sắp
xếp màu sắc trong không gian màu. Các mô hình màu CIE XYZ, RGB và các biến
thể thuộc nhóm này. Mô hình màu dựa trên tâm lý học: dựa trên cách mà màu sắc
hình thành trong đầu của người quan sát. Các mô hình đối lập dựa trên các phân
tích thực nghiệm phản ứng của con người đối với các thành phần đối lập cơ sở. Họ
các không gian màu HSB (Hue- Saturation-Brightness) thuộc lớp này. Mô hình
màu có thể phân biệt
o Mô hình hướng thiết bị: Định nghĩa theo thuộc tính của thiết bị dùng để hiển
13
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
thì màu như màn hình TiVi, màn hình máy tính và máy in. Các mô hình màu
hướng thiết bị là RGB, CMY, YIQ. Người dùng rất khó xử lý trên các mô hình này
vì nó không phản ánh trực tiếp các khái niệm trực giác màu sắc, sắc thái (còn gọi là
sắc độ, là độ đậm nhạt của màu sắc) và cường độ sáng.
o Mô hình hướng người dùng: Dựa trên khả năng cảm nhận màu sắc của con
người. Con người cảm nhận màu sắc thông qua các đối tượng trực giác màu sắc,
sắc thái và cường độ sáng. Các mô hình màu hướng ngừơi dùng là HSL, HSV,
HCV, HSB, MTM, L*u*v, L*a*b* và L*C*h .
Không gian màu là một cách biểu diễn toán học một tập các màu. Các không
gian màu có thể được phân vào 2 loại không gian màu: phụ thuộc thiết bị hay độc
lập thiết bị.
o Không gian màu độc lập thiết bị được chia thành nhiều không gian màu được
định theo chuẩn CIE như: XYZ, L*a*b và L*u*v, ứng dụng chính cho mục
đích đo màu .
o Không gian màu phụ thuộc thiết bị được chia vào 3 lớp rộng: không gian màu
in, không gian màu video, và không gian màu màn hình. Các không gian màu
in CMY, CMYK dựa trên màu mực được dùng trong ngành in và nhiếp ảnh.
Các không gian màu màn hình là các biến thể của không gian màu RGB, các
không gian màu video - tất cả đều tương tự như không gian màu YUV được phân
thành các không gian màu riêng tuỳ vào ứng dụng.
Mục đích của hệ màu là cho phép các chỉ số kỹ thuật quy ước của một số loại
màu sắc thích hợp với các màu sắc của một số gam màu khác. Chúng ta có thể nhìn
thấy trong hệ màu này, không gian màu là một tập hợp nhỏ hơn của không gian các
màu có thể nhìn thấy được, vì vậy một hệ màu không thể được sử dụng để định rõ
tất cả có thể nhìn thấy. Sau đây, ta xem xét một số hệ hay được sử dụng nhất.
14
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2.1.2 Các hệ màu thông dụng
2.1.2.1 Hệ màu chuẩn RGB
Tổ chức quốc tế về chuẩn hoá màu CIE(Commision Internationale
d'Eclairage) đưa ra một số các chuẩn để biểu diễn màu. Các hệ này có các chuẩn
riêng. Ở đây chỉ đề cập đến chuẩn màu CIE-RGB (hệ toạ độ dùng 3 màu cơ bản).
Như đã nêu trên, một màu là tổ hợp của các màu cơ bản theo một tỉ lệ nào đấy. Như
vậy, một pixel ảnh màu kí hiệu P
x
được viết:
P
x
=
red
green
blue
Người ta dùng hệ toạ độ ba màu R-G-B (tương ứng với hệ toạ độ x-y-z) để biểu diễn
màu như sau:
Hình 2.1 Hình mô tả ba màu cơ bản Red-Green-Blue
Mắt người có thể phân biệt hàng ngàn màu sắc khác nhau, những con số
chính xác hơn vẫn còn đang được bàn cãi nhiều. Ba màu RGB (Red-Green- Blue)
mã hóa hệ thống đồ họa sử dụng ba byte 2
24
hay khoảng chừng 16 triệu màu phân
biệt. Máy tính có thể phân biệt bất kỳ màu gì sau khi được mã hóa, nhưng việc mã
15
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
hóa có thể không trình bày được những sự khác biệt trong thế giới thực. Mỗi điểm
ảnh RGB bao gồm một byte cho màu R, một byte cho màu G và một byte cho màu
B. Việc mã hóa một màu tùy ý trong dãy hiển thị được làm bằng cách tổ hợp ba màu
chính. Ví dụ: Red(255,0,0), Green(0,255,0), Blue(0,0,255), Black(0,0,0) Hệ thống
màu RGB là một hệ thống màu cộng vào bởi vì mỗi màu được tạo nên bằng cách
cộng thêm các phần tử vào màu đen(0,0,0) Khuôn dạng của không gian màu RGB là
định dạng phổ biến nhất của ảnh số, lý do chính là tính tương thích với màn hình
hiển thị chính là màn hình vi tính. Tuy nhiên không gian màu RGB có hạn chế lớn
nhất là không phù hợp với cách con người cảm nhận về màu sắc. Do đó không phù
hợp cho việc ứng dụng vào tìm kiếm ảnh.
2.1.2.2 Hệ màu CMY
Không gian màu CMY được dùng trong in ấn. Màu lục lam, màu đỏ tươi và
màu vàng là phần bù của màu đỏ, màu xanh lá cây và màu xanh dương được gọi là
các thành phần cơ sở trừ vì chúng được tạo ra bằng cách trừ đi độ sáng từ màu
trắng. Ví dụ màu lục lam là phần bù của màu đỏ, tạo ra bằng cách xoá thành phần
đỏ từ màu trắng. Có thể chuyển từ không gian màu RGB sang không gian màu
CMY bằng công thức chuyển đổi đơn giản nhưng không chính xác: C=1-R, M=1-
G, Y=1-B.
Hình 2.2. Sự biến đổi từ RGB thành CMY
Hệ thống màu CMY dường như là một sự đảo ngược của hệ thống màu
RGB. Đặc tính của nó là sự đơn giản, ứng dụng nhiều trong thực tế. Tuy nhiên
khuyết điểm của nó cũng tương tự như không gian màu RGB, tức là cách mã hóa
khác với cách mà con người cảm nhận về màu sắc. Không thích hợp cho bài toán
tìm kiếm ảnh dựa vào nội dung.
B
G
R
Y
M
C
1
1
1
16
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Hình 2.3: Hệ màu CMY
2.1.2.3 Hệ màu HSI
Hệ thống màu HSI mã hóa thông tin màu sắc bằng cách chia giá trị intensity
I từ hai giá trị được mã hóa thuộc về độ hội tụ của màu- hue H và saturation S.
Thành phần không gian màu HSI gồm có ba phần: Hue được định nghĩa có giá trị
0-2Π, mang thông tin về màu sắc. Saturation có giá trị 0-1, mang giá trị về độ
thuần khiết của thành phần Hue. Intensity (Value) mang thông tin về độ sáng của
điểm ảnh. Ta có thể hình dung không gian màu HSI như là vật hình nón. Với trục
chính biểu thị cường độ sáng Intensity. Khoảng cách đến trục biểu thị độ tập trung
Saturation. Góc xung quanh trục biểu thị cho sắc màu Hue. Đôi khi, hệ thống màu
HSI được coi như là hệ thống màu HSV dùng Value thay vì Intensity. Hệ thống
màu HSI thì thích hợp hơn với một số thiết kế đồ họa bởi vì nó cung cấp sự điều
khiển trực tiếp đến ánh sáng và hue. Hệ thống màu HSI cũng hỗ trợ tốt hơn cho
những thuật toán xử lý ảnh vì sự tiêu chuẩn hóa về ánh sáng và tập chung vào hai
tham số về độ hội tụ màu, và cường độ màu. Hệ thống màu HSI có sự phân chia rõ
rệt giữa ánh sáng và màu sắc. Do đó có khả năng rất lớn được áp dụng cho việc
tính đặc trưng và so sánh sự giống nhau về màu sắc của hai ảnh. Do đó nó rất thích
hợp cho việc tìm kiếm ảnh dựa vào màu. Sự giống và khác nhau giữa hai ảnh về
mặt màu sắc đối với mắt người chỉ mang ý nghĩa tương đối. Do đó khi áp dụng vào
bài toán này trên máy tính thì ta cũng giả lập sự tương đối này. Phương pháp chính
của việc tìm kiếm theo màu sắc là dùng lược đồ màu để làm đặc trưng cho từng
17
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ảnh. Do những đặc điểm riêng của
mô hình màu HSI và đặc trưng của
việc tìm kiếm nên tính lược đồ màu
cũng được dùng một mô mình rất đặc
biệt để phù hợp cho những đặc điểm
riêng này.
Hình 2.4: Hệ màu HSI
Hình 3.5: Không gian màu HSI
Công thức chuyển đôi từ hệ màu RGB sang hệ HIS
Cho RGB c
1
(r,g,b) và HIS c
2
(h, s, i). Ta có:
i= max (r, g, b), s =
i
bgri ),,min(
Đặt r’ =
),,min( bgri
ri
,
),,min(
'
bgri
gi
g
,
),,min(
'
bgri
bi
b
18
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
h=
khácr
bgrvàrbgrkhigg
bgrvàbbgrkhigb
bgrvàbbgrkhigr
bgrvàgbgrkhirg
bgrvàgbgrkhirb
,'5
),,min(),,max(,'3
),,min(),,max(,'3
),,min(),,max(,'1
),,min(),,max(,1
),,min(),,max(,'5
Minh họa thành phần cường độ sáng i thay đổi:
Hình 2.6 Hình minh họa sự thay đổi độ sáng trong hệ HSI
2.1.2.4 Hệ màu HLS
Mô hình màu HLS được xác định bởi tập hợp hình chóp sáu cạnh đôi của
không gian hình trụ. Sắc màu là góc quanh trục đứng của hình chóp sáu cạnh đôi
với màu đỏ tại góc 0
o
. Các màu sẽ xác định theo thứ tự giống như trong biểu đồ CIE
khi ranh giới của nó bị xoay ngược chiều kim đồng hồ: Màu đỏ, màu vàng, màu lục,
màu xanh tím, màu lam và đỏ thẫm. Điều này cũng giống như thứ tự sắp xếp trong
mẫu hình chóp sáu cạnh đơn HSI.[2]
Hình 2.7 . Mô hình màu HLS
19
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Chúng ta có thể xem mẫu HLS như một sự biến dạng của mẫu HSV mà trong
đó mãu này màu trắng được kéo hướng lên hình chóp sáu cạnh phía trên từ mặt V=
1. Như với mẫu hình chóp sáu cạnh đơn, phần bổ sung của một màu sắc được đặt ở
vị trí 180
o
hơn là xunh quanh hình chóp sáu cạnh đôi, sự bão hòa được đo xung
quanh trục đứng, từ 0 trên trục tới 1 trên bề mặt. Độ sáng bằng không cho màu đen
và bằng một cho màu trắng.
2.1.2.5 Hệ màu YIQ
Về cơ bản mô hình màu YIQ là sự biến thể hệ màu RGB bằng cách chuyển
đổi hiệu quả và duy trì sự tương thích với TV đơn sắc chuẩn. Thật sự, thành phần
Y của mô hình màu YIQ cung cấp tất cả các thông tin video yêu cầu bởi một tập
các TV đơn sắc. Công thức chuyển đổi từ RGB sang YIQ:
B
G
R
Q
I
Y
3111.0532.0212.0
321.0275.0596.0
114.0587.0299.0
Để lấy được các giá trị RGB từ tập YIQ, chúng ta chỉ cần thực hiện toán tử
đảo ma trận .Hệ màu YIQ được thiết kế giúp cho sự cảm nhận của con người về sự
thay đổi độ sáng chói tốt hơn sự thay đổi đặc trưng màu sắc (Hue) và độ thuần
khiết (Sataration). Lợi thế của YIQ trong việc xử lý ảnh là độ sáng chói (Y) và
thông tin màu (I và Q) được tách riêng ra. Sự quan trọng của việc tách riêng này
giúp cho việc xử lý thành phần Y của ảnh có thể không có ảnh hưởng đến nội dung
màu. Không gian màu này đều gây khó khăn cho người sử dụng vì nó không phản
ánh trực tiếp khái niệm giác quan của màu sắc: màu, sắc thái và độ sáng.
2.1.3 Đặc trưng màu sắc
2.1.3.1 Lược đồ màu (Histogram)
Là đại lượng đặc trưng cho phân bố màu cục bộ của ảnh .
Được định lượng:
H(I
D
, C
I
) =
( , )
()
DI
D
m I C
nI
Ci là màu của điểm ảnh.