Tải bản đầy đủ (.docx) (49 trang)

QUẢN Lý d6cntt epu dai

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.05 MB, 49 trang )

MỤC LỤC
LỜI MỞ ĐẦU


DANH MỤC CÁC BẢNG, SƠ ĐỒ, HÌNH


LỜI MỞ ĐẦU
Ngày nay cùng với sự phát triển của các ngành khoa học khác, ngành công nghệ
thông tin cũng có những bước phát triển nhanh chóng, ngày càng có nhiều ứng dụng vào
thực tiễn cuộc sống và đem lại hiệu quả cao. Việc quản lý thông tin rất cần tới các công
cụ để thu thập, phân loại tổ chức ở các dạng dữ liệu khác nhau một cách hiệu quả. Trong
khi các hệ thống quản lý thông tin dựa vào văn bản đã rất thành công nhưng chúng vẫn
không đáp ứng được việc quản lý, khai thác và xử lý dữ liệu với khối lượng khổng lồ như
hiện nay. Ảnh số ngày càng thu hút được sự quan tâm của nhiều người, một phần là do
các thiết bị thu nhận ảnh số ngày càng phổ biến và có giá cả phù hợp, cho phép nhiều
người có thể sở hữu và sử dụng. Tra cứu và quản trị cơ sở dữ liệu ảnh thu hút sự quan tâm
của nhiều nhà nghiên cứu từ những năm 1970. Với sự tăng nhanh về tốc độ máy tính và
giảm chi phí bộ nhớ, các cơ sở dữ liệu ảnh chứa hàng nghìn thậm chí hàng triệu ảnh được
sử dụng trong nhiều lĩnh vực ứng dụng khác nhau như y học, ảnh vệ tinh, các cơ sở dữ
liệu ảnh sinh học và các cơ sở dữ liệu ảnh phong cảnh... Các ứng dụng này đòi hỏi độ
chính xác tra cứu cao.
Trên thế giới, việc nghiên cứu, quản lý, bảo tồn các loại động vật quý hiếm đã nhận
được sự quan tâm của nhiều nhiều cá nhân, tổ chức, nhà quản lý, nhà khoa học … Vào
năm 1981, Hiệp hội Bảo vệ Động vật Thế giới (World Society for the Protection of
Animals, tên viết tắt sử dụng thông thường:WSPA) đã được thành lập, đây là một tổ chức
quốc tế phi lợi nhuận để bảo vệ động vật, đại diện cho nhiều Tổ chức hoạt động ở hơn
150 quốc gia, có trên 900 Hội thành viên. Mục tiêu của WSPA là vì một Thế giới không
còn những ngược đãi tàn bạo với động vật, có nghĩa vụ xây dựng một Trái đất an toàn cho
động vật. Năm 1992, Việt Nam cho xuất bản cuốn sách đỏ Việt Nam với 365 loài động
vật quý hiếm, đang bị giảm sút số lượng và có nguy cơ tuyệt chủng. Ở Việt Nam việc


nhận dạng các loại động vật quý hiếm chỉ quý hiếm chủ yếu thông qua tranh ảnh, sách
báo…
Xuất phát từ thực tế nêu trên, đề tài em lựa chọn là: “Xây dựng chương trình tra
cứu ảnh động vật quý hiếm dựa vào lược đồ màu và hình dạng”


GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt

CHƯƠNG 1: TỔNG QUAN TRA CỨU ẢNH DỰA VÀO NỘI DUNG
1.1. Tổng quan về xử lý ảnh
Xử lý ảnh là một lĩnh vực mang tính khoa học và công nghệ. Nó là một ngành khoa
học mới mẻ so với các ngành khoa học khác nhưng tốc độ phát triển của nó rất nhanh,
kích thích các trung tâm nghiên cứu ứng dụng, đặc biệt là máy tính chuyên dụng cho nó.
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho ra kết
quả mong muốn. Kết quả đầu ra của một quá trình xử lý ảnh có thể là một ảnh “tốt hơn”
hoặc một kết luận.

Hình 1.1: Các bước cơ bản trong một hệ thống xử lý ảnh
 Phần thu nhận ảnh
Các thiết bị thu nhận ảnh bao gồm camera, scanner các thiết bị thu nhận này có thể
cho ảnh đen trắng. Các thiết bị thu nhận ảnh có 2 loại chính ứng với 2 loại ảnh thông dụng
Raster, Vector. Các thiết bị thu nhận ảnh thông thường Raster là camera các thiết bị thu
nhận ảnh thông thường Vector là sensor hoặc bàn số hóa Digitalizer hoặc được chuyển
đổi từ ảnh Raster.
Trước đây ảnh thu được qua camera là ảnh tương tự nhưng gần đây với sự phát triển
của công nghệ, ảnh màu hay ảnh đen trắng lấy được từ camera sau đó được chuyển trực
tiếp thành ảnh số tạo thuận lợi cho xử lý tiếp theo. Mặt khác ảnh có thể thu được từ vệ
tinh hoặc máy quét ảnh.

 Tiền xử lý

4


GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt

Sau bộ thu nhận ảnh có thể bị nhiễu hoặc có độ tương phản thấp nên cần đưa vào bộ
tiền xử lý để nâng cao chất lượng. Chức năng của bộ tiền xử lý là lọc nhiễu, nâng cao độ
tương phản,...
 Trích chọn đặc điểm
Các đặc điểm của đối tượng được trích chọn tùy theo mục đích nhận dạng trong quá
trình xử lý ảnh. Có thể nêu ra một số đặc điểm của ảnh sau đây:
• Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ, điểm uốn,
v.v…
• Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc thực hiện lọc
vùng (zonal filtering). Các bộ vùng được gọi là “mặt nạ đặc điểm” (feature mask)
thường là các khe hẹp với hình dạng hác nhau (chữ nhật, tam giác, cung tròn, v.v…)
• Đặc điểm đường biên và đường biên: Đặc trưng cho đường biên của đối tượng và
do vậy rất hữu ích trong việc trích chọn các thuộc tính bất biến được dùng khi nhận
dạng đối tượng. Các đặc điểm này có thể được trích chọn nhờ toán tử gradient, toán
tử la bàn, toán tử Laplace, toán tử “chéo không” (zero crossing), …
 Biểu diễn ảnh
Ảnh trên máy tính là kết quả thu nhận theo các phương pháp số hóa được nhúng
trong các thiết bị kỹ thuật khác nhau. Quá trình lưu trữ ảnh nhằm 2 mục đích là: Tiết kiệm
bộ nhớ và giảm thời gian xử lý.
Việc lưu trữ thông tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in ấn và
xử lý ảnh được xem như là 1 tập hợp các điểm với cùng kích thước nếu sử dụng càng

nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn chi tiết của ảnh
người ta gọi đặc điểm này là độ phân giải.
 Nhận dạng và giải thích ảnh
Nhận dạng ảnh là quá trình xác định ảnh. Quá trình được thực hiện nhờ so sánh với
mẫu chuẩn đã được học hoặc lưu trữ trước. Giải thích là phán đoán theo ý nghĩa trên cơ
sở nhận dạng. Ví dụ một loạt chữ số và nét gạch ngang trên bì thư có thể phán đoán là mã
điện thoại.
Theo lý thuyết về nhận dạng, các mô hình toán học về ảnh được phân loại theo hai
loại nhận dạng cơ bản: Nhận dạng theo tham số và nhận dạng theo cấu trúc.

5


GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt

Một số đối tượng nhận dạng ảnh khá phổ biến hiện nay là nhận dạng kí tự (chữ in,
chữ viết tau, chữ kí điện tử), nhận dạng vân tay, nhận dạng mã vạch, nhận dạng mặt
người.
1.2. Khái quát về tra cứu ảnh
Tra cứu ảnh là một quá trình tra cứu trong một cơ sở dữ liệu ảnh những ảnh thỏa
mãn một yêu cầu nào đó. Ví dụ người sử dụng có thể tra cứu tất cả các hình ảnh chủ đề về
“Con gà” trong một cơ sở dữ liệu ảnh hoặc một người sử dụng khác lại muốn phân loại cơ
sở ảnh của mình thành các bộ sưu tập có chủ đề khác nhau. Một ví dụ khác là một người
muốn tìm tất cả các ảnh tương tự với một bức ảnh mẫu nào đó trong một cơ sở dữ liệu
ảnh.
Một trong những phương pháp được nhiều người quan tâm nghiên cứu hiện nay là
phương pháp “Tra cứu ảnh dựa theo nội dung” (Content Based Images Retrieval - CBIR)
[16]. Phương pháp tra cứu ảnh theo nội dung ra đời đã khắc phục được những nhược điểm

của phương pháp từ khóa. CBIR là một lĩnh vực khoa học được phát triển dựa trên cơ sở
lý thuyết và ứng dụng của xử lý ảnh.
CBIR được thực hiện thông qua việc tính độ tương tự giữa hai bức ảnh được biểu
diễn bởi một trong số các đặc trưng mức thấp của ảnh như: Màu sắc, hình dạng, kết cấu...
Kết quả đưa ra là tập các bức ảnh tương tự với ảnh truy vấn được sắp xếp theo thứ tự
giảm dần độ tương tự. Cụm từ CBIR được T.Kato đưa ra vào năm 1992 trong quá trình
thu thập ảnh một cách tự động từ cơ sở dữ liệu dựa trên biểu diễn màu sắc và hình dạng
của ảnh.
Có hai cách tiếp cận chung đối với các giải pháp cho vấn đề tra cứu thông tin dựa
trên dạng thông tin trực quan đó là các phương pháp dựa trên đặc trưng và các phương
pháp dựa trên văn bản mô tả ảnh. Các phương pháp dựa trên văn bản mô tả ảnh dựa trên
các phương pháp tra cứu thông tin văn bản truyền thống và hệ quản trị cơ sở dữ liệu cũng
như sự can thiệp của con người để trích rút siêu dữ liệu về một đối tượng trực quan và kết
hợp nó cùng với đối tượng trực quan như một chú thích văn bản.
Các vấn đề đối với việc truy cập các ảnh và video dựa vào văn bản đã thúc đẩy
nhanh chóng sự quan tâm phát triển các giải pháp dựa vào nội dung. Với giải pháp này,
thay vì được chú thích một cách thủ công bởi các từ khóa dựa vào văn bản, các ảnh có thể
được trích rút sử dụng một số đặc trưng trực quan như màu, hình dạng và kết cấu và được
6


GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt

đánh giá chỉ số dựa trên các đặc trưng này. Cách tiếp cận này dựa chủ yếu vào các kết quả
từ thị giác máy. Tuy nhiên, không có đặc trưng riêng lẻ tốt nhất mà cho các kết quả chính
xác. Thông thường một sự kết hợp các đặc trưng một cách tùy biến là cần thiết để cung
cấp các kết quả tra cứu thích hợp cho ứng dụng tra cứu ảnh dựa vào nội dung.
Một số đặc trưng đã sử dụng để biểu diễn các ảnh trong hệ thống CBIR:

1.2.1. Đặc trưng màu
Đặc trưng được sử dụng phổ biến nhất là màu. Màu sắc là vấn đề cần tập trung giải
quyết nhiều nhất, vì một ảnh màu thì thông tin quan trọng nhất trong ảnh chính là màu
sắc. Hơn nữa thông tin về màu sắc là thông tin người dùng quan tâm nhất, qua đặc trưng
màu sắc, có thể lọc được rất nhiều lớp ảnh, thông qua vị trí, không gian, định lượng của
màu trong ảnh.
Lược đồ màu toàn cục (GCH) là cách sử dụng đặc trưng màu đơn giản và hiệu quả.
GCH là một vectơ n chiều (h1, h2,…, hn), ở đây mỗi thành phần hj biểu diễn phần trăm các
pixel có màu j trong ảnh. GCH là bất biến đối với quay và tỉ lệ, tính toán rất đơn giản.
Tuy nhiên, GCH có nhược điểm cơ bản là quá tổng quát. Nói cách khác, GCH chỉ đem
vào bản miêu tả phân bố các màu mà bỏ qua quan hệ giữa các bin màu [14, 15].
Để tránh một số vấn đề gặp phải đối với GCH, lược đồ màu cục bộ (LCH) đã được
đề xuất. Một ảnh được chia thành các khối ảnh có cỡ như nhau và độ tương tự giữa hai
ảnh được dựa trên các khoảng cách lược đồ giữa các khối tương tự. Phương pháp này
không có khả năng xử lý đối với các biến đổi hình học như quay và dịch chuyển, bị một
số vấn đề về đan chéo và biến đổi với vị trí không gian. Một số giải pháp đã được đề xuất
để làm cho cách tiếp cận dựa vào lưới bất biến đối với quay và dịch chuyển nhưng các
giải pháp này tốn nhiều thời gian.
Natsev và cộng sự thực hiện tra cứu ảnh dựa vào nội dung dựa trên thuộc tính bố
cục màu. Mỗi ảnh được chia thành một số ảnh con bằng việc dịch chuyển các cửa sổ có
cỡ khác nhau và với mỗi ảnh con, một dấu hiệu bố cục màu được trích rút. Độ tương tự
giữa các ảnh được tính toán bằng việc so sánh các dấu hiệu của các ảnh con này. Ưu điểm
của hệ thống này là có thể giảm các nhạy cảm với tỉ lệ và trượt, nhược điểm là độ phức
tạp tính toán tăng và hệ thống không xem xét đến đặc trưng hình.
Smith và Chang đã đề xuất các tập màu. Phương pháp xấp xỉ lược đồ màu để tăng
tốc quá trình tra cứu trong trường hợp cở sở dữ liệu ảnh rất lớn. Tập màu được chọn từ
7


GVHD: PGS.TS. Ngô Quốc Tạo


SVTH: Lưu Văn Việt

không gian màu được lượng hóa và từ các đặc trưng được biểu diễn như một xâu bít, một
cây nhị phân được sử dụng để tăng tốc quá trình tra cứu.
Pass và cộng sự đã đề xuất một phương pháp mới sử dụng véc tơ gắn kết màu
(CCV). Họ đã đề xuất một cách tiếp cận dựa vào lược đồ màu kết hợp với thông tin
không gian. Ảnh được làm mờ để loại đi các khác biệt nhỏ giữa các pixel và sau đó không
gian màu được lượng hóa thành n màu. Các pixel trong phạm vi một bit màu được phân
lớp hoặc là gắn kết hoặc là không gắn kết phụ thuộc vào chúng có thuộc vùng pixel tương
đối lớn hay không.
1.2.2. Đặc trưng màu vân
Có những lớp ảnh mà màu sắc không thể giải quyết được, đòi hỏi phải sử dụng đặc
trưng vân, ví dụ những ảnh liên quan đến cấu trúc của điểm ảnh như: cỏ, mây, đá, sợi.
Vân sẽ giải quyết tốt cho việc tìm kiếm đối với lớp này.
1.2.3. Đặc trưng về hình dạng
Đối với những lớp ảnh cần tìm mà vẫn liên quan đến hình dạng của đối tượng thì
đặc trưng vân và màu không thể giải quyết được. Tìm hiếm theo hình dạng thật sự là một
cái đích của hệ thống tìm kiếm dựa vào nội dung muốn đạt tới. Các đặc trưng hình dạng
của các đối tượng hoặc các vùng đã được sử dụng trong nhiều hệ thống tra cứu ảnh dựa
vào nội dung. So với các đặc trưng màu và vân, các đặc trưng hình dạng thường được mô
tả sau khi các ảnh được phân đoạn thành các vùng hoặc các đối tượng. Do phân đoạn ảnh
mạnh và chính xác là khó đạt được, sử dụng các đặc trưng hình dạng cho tra cứu ảnh bị
giới hạn đối với các ứng dụng chuyên biệt, ở đó các đối tượng hoặc các vùng đã sẵn có.
1.2.4. Thông tin không gian
Các vùng hoặc đối tượng với các đặc tính màu và kết cấu tương tự có thể được phân
biệt dễ dàng bằng việc tận dụng các ràng buộc không gian. Thí dụ, các vùng bầu trời màu
xanh và biển xanh có thể có các lược đồ màu tương tự, nhưng các vị trí không gian của
chúng trong các ảnh là khác nhau. Do đó, vị trí không gian của các vùng (hoặc các đối
tượng) hoặc quan hệ không gian giữa nhiều vùng (hoặc đối tượng) trong một ảnh thì rất

hữu ích cho tìm kiếm các ảnh.
Thu thông tin không gian của các đối tượng trong một ảnh là một quá trình quan
trọng đối với các hệ thống GIS. Quá trình này bao gồm việc biểu diễn vị trí không gian
tuyệt đối và cũng bao gồm vị trí không gian tương đối của các đối tượng. Các thao tác
8


GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt

như giao và chồng được sử dụng. Bố cục màu kết hợp thông tin không gian với thông tin
màu xuất hiện trong ảnh và tạo ra một đặc trưng rất quan trọng trong quá trình tra cứu, gọi
là đặc trưng màu - không gian.
Biểu diễn quan hệ không gian đươc sử dụng rộng rãi nhất là các xâu 2D được đề
xuất bởi Chang và cộng sự. Nó được xây dựng bởi việc chiếu các ảnh dọc theo các hướng
x và y. Hai tập ký hiệu V và A được định nghĩa trên hình chiếu. Mỗi ký hiệu trong V biểu
diễn một đối tượng trong ảnh. Mỗi ký hiệu A biểu diễn một loại quan hệ không gian giữa
các đối tượng. Do sự biến đổi của nó, xâu 2DG cắt tất các đối tượng dọc theo hình hộp tối
thiểu của nó và mở rộng các quan hệ không gian thành tập hai toán tử không gian. Một
tập định nghĩa các quan hệ không gian cục bộ. Tập còn lại định nghĩa quan hệ không toàn
cục, chỉ ra rằng hình chiếu của hai đối tượng là tách rời, nối tiếp hoặc định vị tại cùng vị
trí. Thêm nữa, xâu 2DC được đề xuất để cực tiểu hóa số các đối tượng cắt. Xâu 2D-B biểu
diễn một đối tượng bằng hai ký hiệu, vị trí cho bắt đầu và kết thúc đường bao của đối
tượng. Tất cả các phương pháp này có thể hỗ trợ ba loại truy vấn. Loại truy vấn 0 tìm tất
cả ảnh chứa đối tượng O1, O2, ..., On. Loại 1 tìm tất cả các ảnh chứa các đối tượng có quan
hệ nào đó giữa chúng nhưng khoảng cách giữa chúng là không đáng kể. Loại 2 tìm tất cả
các ảnh có quan hệ khoảng cách nào đó với mỗi ảnh khác.
Thêm với xâu 2D, cây tứ phân không gian, và ảnh ký hiệu cũng được sử dụng cho
biểu diễn thông tin không gian. Tuy nhiên, tìm kiếm các ảnh dựa trên các quan hệ không

gian của các vùng còn lại là một vấn đề nghiên cứu khó trong tra cứu ảnh dựa vào nội
dung, do phân đoạn tin cậy của các đối tượng hoặc các vùng thường là không khả thi
ngoại trừ các ứng dụng rất đơn giản. Mặc dù một số hệ thống chia các ảnh thành các khối
đều, chỉ thu được sự thành công khiêm tốn với các lược đồ chia không gian như thế do
hầu hết các ảnh tự nhiên không thể ép thành các khối non đều về không gian. Để giải
quyết vấn đề này, một phương pháp dựa vào biến đổi radon, tận dụng phân bố không gian
của các đặc trưng quan không cần phân đoạn phức tạp.

9


GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt

1.2.5. Phân đoạn
Phân đoạn là quá trình phân ảnh ra thành các vùng mà về lý tưởng nó sẽ tương ứng
với các đối tượng xuất hiện trong ảnh. Đây là bước rất quan trọng đối với tra cứu ảnh. Cả
đặc trưng hình và đặc trưng bố cục phụ thuộc và phân đoạn tốt. Phần này sẽ mô tả một số
kỹ thuật phân đoạn đã có được sử dụng trong cả thị giác máy và tra cứu ảnh.
Trong, Lybanon và các cộng sự đã nghiên cứu một cách tiếp cận phép toán hình thái
học (mở và đóng) trong phân đoạn ảnh. Họ đã kiểm tra cách tiếp cận của họ với các loại
ảnh khác nhau, gồm các ảnh thiên văn và các ảnh hồng ngoại. Trong khi cách tiếp cận này
hiệu quả trong xử lý các loại ảnh khoa học, hiệu năng của nó cần được tiếp tục đánh giá
cho các ảnh tự nhiên phức tạp hơn. Li và cộng sự đã đề xuất một cách tiếp cận phân đoạn
dựa vào entropy mở. Cách tiếp cận này dựa trên thực tế rằng entropy cực đại địa phương
tương ứng với sự không rõ ràng giữa các vùng khác nhau trong ảnh. Cách tiếp cận này rất
hiệu quả cho các ảnh co lược đồ không có các đỉnh và các rãnh rõ ràng. Các kỹ thuật phân
đoạn khác dựa trên phép đo đạc tam giác Delaunay (Delaunay triangulation), fractals và
luồng biên (edge flow).

Tất cả các thuật toán được đề cập ở trên là tự động. Một ưu điểm chính của các thuật
toán phân đoạn này là nó trích rút các đường bao từ một số lượng lớn các ảnh mà không
chiếm thời gian và nỗ lực của con người. Tuy nhiên, trong một lĩnh vực tự nhiên, với các
ảnh không có điều kiện tiên quyết, phân đoạn tự động không luôn luôn tin cậy. Một thuật
toán có thể phân đoạn trong trường hợp này chỉ là các vùng, mà không là các đối tượng.
Để thu được các đối tượng mức cao, nó cần có sự trợ giúp cả con người.
Samadani và Han đã đề xuất một cách tiếp cận trích rút đường bao được trợ giúp bởi
máy tính, nó kết hợp các đầu vào thủ công từ người sử dụng với các bien ảnh được sinh ra
bởi máy tính. Trong khi đó, Daneel và các cộng sự đã phát triển một phương pháp cải tiến
của các chu tuyến thiết thực. Dựa trên đầu vào của người sử dụng, đầu tiên thuật toán sử
dụng một thủ tục tham lam để cung cấp sự hội tụ ban đầu nhanh. Thứ hai, nét ngoài được
lọc bằng việc sử dụng quy hoạch động. Rui và cộng sự đã đề xuất một thuật toán dựa vào
phân cụm và nhóm trong không gian - màu - kết cấu. Người sử dụng định nghĩa đối tượng
quan tâm là ở đâu, và thuật toán nhóm các vùng thành các đối tượng có ý nghĩa.
1.3. Các chức năng cơ bản của một hệ thống tra cứu ảnh
Các chức năng chính của một hệ thống tra cứu ảnh dựa vào nội dung như sau:
10


GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt

• Phân tích các nội dung của nguồn tin và biểu diễn các nội dung của các nguồn được
phân tích theo cách thích hợp cho so sánh các truy vấn (không gian của nguồn thông
tin được biến đổi thành không gian đặc trưng cho mục tiêu so sánh nhanh trong bước
tiếp theo). Bước này thông thường cần rất nhiều thời gian do nó phải xử lý lần lượt tất
cả thông tin nguồn (các ảnh) trong cơ sở dữ liệu. Tuy nhiên, bước này được thực hiện
chỉ một lần và có thể được thực hiện ngoại tuyến.
• Phân tích các truy vấn người sử dụng và biểu diễn chúng ở dạng thích hợp cho so

sánh với cơ sở dữ liệu nguồn. Bước này là tương tự với bước trước nhưng chỉ được
áp dụng với ảnh truy vấn.
• Định nghĩa một chiến lược để so sánh các truy vấn tìm kiếm với thông tin trong cơ sở
dữ liệu được lưu trữ. Tra cứu thông tin liên quan theo một cách hiệu quả.
• Thực hiện các điều chỉnh cần thiết trong hệ thống (thường bằng điều chỉnh các tham
số trong máy đối sánh) dựa trên phản hồi từ người sử dụng hoặc các ảnh được tra
cứu.

Hinh 1.2: Kiến trúc tra cứu ảnh dựa vào nội dung
 Truy vấn người sử dụng
Có nhiều cách gửi một truy vấn trực quan. Một phương pháp truy vấn tốt là một
phương pháp tự nhiên đối với người sử dụng cũng như thu được đủ thông tin từ người sử
dụng để trích rút các kết quả có ý nghĩa.
 Truy vấn bởi ảnh mẫu

11


GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt

Trong loại truy vấn bởi ảnh mẫu (QBE), người sử dụng hệ thống chỉ rõ một ảnh truy
vấn đích, dựa trên truy vấn đó hệ thống sẽ tìm kiếm trong cơ sở dữ liệu ảnh các ảnh tương
tự nhất. Ảnh truy vấn có thể là một ảnh thông thường, một bản quét của một ảnh có độ
phân giải thấp, hoặc một phác thảo của người sử dụng sử dụng các công cụ mô tả giao
diện đồ họa. Một ưu điểm chính của hệ thống này đó là một cách tự nhiên cho những
người sử dụng chung và chuyên gia để tìm kiếm một cơ sở dữ liệu ảnh.
 Truy vấn bởi đặc trưng
Trong hệ thống truy vấn bởi đặc trưng (QBF) tiêu biểu, những người sử dụng chỉ rõ

các truy vấn bằng việc chỉ rõ các đặc trưng họ quan tâm cho tìm kiếm. Thí dụ, một người
sử dụng có thể truy vấn một cơ sở dữ liệu ảnh bằng việc đưa ra một lệnh để tra cứu tất cả
các ảnh có góc phần tư trái chứa 30% pixel màu xanh lá. Truy vấn này được chỉ rõ bằng
việc sử dụng các công cụ giao diện đồ họa chuyên dụng. Những người sử dụng hệ thống
tra cứu ảnh chuyên biệt có thể thấy loại truy vấn này là bình thường, nhưng những người
sử dụng chung thì không thể.
 Các truy vấn dựa vào thuộc tính
Các truy vấn dựa vào thuộc tính sử dụng các chú thích văn bản, trích rút trước bởi
nỗ lực của con người, như một khóa tra cứu chính. Loại biểu diễn này đòi hỏi một độ trừu
tượng cao khó để thu được bằng các phương pháp tự động hoàn toàn do một ảnh chứa
một số lượng lớn các thông tin mà khó tóm tắt khi sử dụng một số ít các từ khóa. Phương
pháp này nhìn chung là nhanh hơn và dễ thực hiện hơn, nhưng có một độ chủ quan và
nhập nhằng cao xuất hiện như chúng ta đề cập.
Một người sử dụng tiêu biểu chắc chắn thích truy vấn các hệ thống tra cứu ảnh dựa
vào nội dung bằng việc yêu cầu các câu hỏi tự nhiên như “Đưa cho tôi tất cả các bức tranh
có hình ảnh của cây Ngải Cứu” hoặc “Tìm tất cả các ảnh có cây rau ăn được”. Ánh xạ
truy vấn ngôn ngữ tự nhiên này đến một truy vấn trên cơ sở dữ liệu là vô cùng khó so với
việc sử dụng các phương pháp chú thích. Khả năng của các máy tính để thực hiện nhận
dạng đối tượng tự động trên các ảnh chung vẫn là một vấn đề nghiên cứu mở. Do đó hầu
hết các nỗ lực nghiên cứu và thương mại tập trung vào xây dựng các hệ thống thực hiện
tốt với các phương pháp QBE.

1.4. Những ứng dụng cơ bản của tra cứu ảnh dựa vào nội dung
12


GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt


Tra cứu ảnh dựa vào nội dung được ứng dụng thành công trong rất nhiều lình vực
bao gồm:













Ngăn chặn tội phạm.
Quân sự.
Quản lý tài sản trí tuệ
Thiết kế kiến trúc máy móc.
Thiết kế thời trang và nội thất.
Báo chí quảng cáo
Chẩn đoán y học.
Hệ thống thông tin địa lý.
Di sản văn hóa.
Giáo dục và đào tạo.
Giải trí.
Tra cứu trang web.

13



GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt

CHƯƠNG 2. MỘT SỐ KỸ THUẬT TRA CỨU ẢNH DỰA VÀO NỘI DUNG
2.1. Tra cứu ảnh dựa vào màu sắc
2.1.1. Màu sắc
Sự nhận thức về màu sắc là quá trình quan trọng của con người. Sự nhận thức về
màu sắc phụ thuộc vào cả tính chất vật lý của ánh sáng và quá trình xử lý của thị giác với
sự góp phần rất quan trọng của kinh nghiệm. Con người dùng thông tin màu sắc để phân
biệt đối tượng, vật liệu, đồ ăn, vị trí và ngay cả thời gian của ngày. Với sự phát triển mạnh
mẽ của các thiết bị khoa học, máy móc xử lý màu sắc trở nên thông dụng. Đặc biệt, màu
sắc thuận tiện bởi vì nó cung cấp phép đo lường đa dạng tại mỗi điểm ảnh đơn, có thể
phân lớp, phân loại mà không cần đến những xử lý không gian phức tạp để đưa đến quyết
định.
2.1.2. Các không gian màu
Một không gian màu chỉ rõ các màu như các bộ số, theo các đặc tả nào đó. Các
không gian màu có thể dùng để sinh ra các biểu diễn màu, đặc biệt trong các biểu diễn số,
như in số hoặc hiển thị điện tử số. Mục đích của không gian màu là để phục vụ đặc tả các
màu theo một số cách chuẩn, được chấp nhận chung.
Mỗi điểm ảnh trên một bức ảnh có thể được biểu diễn bằng một điểm trong một
không gian màu 3 chiều. Những không gian màu được sử dụng nhiều nhất trong các hệ
thống tra cứu ảnh là RGB, CIE L*a*b, CIE L*u*v, HSV, YUV, YIQ và không gian màu
đối lập.
 Không gian màu RGB
RGB là không gian màu được sử dụng phổ biến nhất để hiển thị ảnh. Không gian
RGB bao gồm 3 thành phần màu là Đỏ (Red), Xanh lá cây (Green) và Xanh lam (Blue).
Các thành phần này gọi là màu cộng bởi vì các màu sắc trong không gian RGB đều có thể
thu đựoc bằng cách cộng 3 thành phần màu này lại với nhau.

Một màu trong không gian màu RGB đại diện cho một véc tơ với ba tọa độ. Khi tất
cả ba giá trị đều bằng 0 thì cho màu Black, khi tất cả ba giá trị đều bằng 1 thì cho màu
White.

14


GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt

Lưu ý rằng R, G, và B là viết tắt của các từ đỏ (Red), xanh lục (Green), và xanh lơ
(Blue). Đây là không gian màu cộng đỏ, xanh lục, và xanh lơ được kết hợp lại để tạo ra
các màu khác. Không gian này không đồng nhất về nhận thức. Không gian màu RGB có
thể được trực quan hoá như một hình khối, như được minh hoạ trong hình 2.1.

Hình 2.1: Mô tả không gian màu RGB
Mỗi trục màu (R, G, và B) có độ quan trọng như nhau. Do đó, mỗi trục nên được
lượng hoá với cùng một độ chính xác. Khi không gian màu RGB được lượng hoá, số các
bin sẽ luôn luôn là một hình khối. Thông thường, 8 (23), 64 (43), 216 (63), 512 (83) bin
được sử dụng trong lượng hoá không gian màu RGB. Chuyển đổi từ một ảnh RGB sang
một ảnh cấp xám nhận được tổng của R, G, và B rồi chia kết quả cho ba.
 Không gian màu HSx
Các không gian màu HSI, HSV, HSB, và HSL (qui ước gọi là HSx) là gần với nhận
thức của người hơn không gian màu RGB, nhưng vẫn không là đồng nhất nhận thức.
Các trục từ các không gian màu HSx biểu diễn các đặc trưng màu (hue), độ bão hoà
(saturation), và độ sáng (lightness) (cũng được gọi là value, brightness và intensity). Sự
khác biệt giữa các không gian màu trong HSx là cách chúng biến đổi từ không gian màu
15



GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt

RGB. Chúng thường được biểu diễn bởi các hình khác nhau (ví dụ, hình nón, hình trụ).
Trong hình 2.2 không gian màu HSV được trực quan hoá như một hình nón.

Hình 2.2: Mô tả không gian màu HSV
Hue là thành phần màu của các không gian màu HSx. Hue là một góc giữa một
đường tham chiếu và điểm màu trong không gian RGB, phạm vi của giá trị này giữa 00
và 3600, thí dụ blue là 2400. Theo uỷ ban quốc tế về màu sắc CIE (Commission
International d'E clairage), hue là “thuộc tính của cảm giác trực quan theo đó một vùng
xuất hiện là tương ứng với một vùng màu được nhận thức, đỏ (red), vàng (yellow), xanh
lục (green), và xanh lơ (blue), hoặc kết hợp của hai trong chúng”. Nói cách khác, hue là
loại màu, như đỏ hoặc xanh lục. Cũng theo CIE, độ bão hoà là “màu đầy của một vùng
được xem xét tương xứng với độ sáng của nó”. Trong hình nón, độ bão hoà là khoảng
cách từ tâm của mặt cắt ngang tròn của hình nón, “chiều cao” nơi mặt cắt ngang này nhận
được được xác định bởi giá trị – Value, nó là khoảng cách từ điểm cuối của hình nón. Giá
trị là độ sáng của một màu, điều này được định nghĩa bởi CIE như “thuộc tính của cảm
giác trực quan theo đó một vùng xuất hiện để phát ra nhiều hoặc ít ánh sáng”. Khi độ bão
hoà được đặt đến 0, Hue không được xác định. Trục giá trị biểu diễn ảnh cấp xám.
Không gian màu HSV có thể được lượng hoá dễ dàng, hue là đặc điểm quan trọng
nhất của màu, thành phần này nhận được lượng hoá tốt nhất. Trong vòng tròn hue, các
màu chính đỏ, xanh lục, và xanh lơ được tách bởi 1200. Các màu phụ, yellow, magenta, và
cyan, cũng được tách bởi 1200 và 600 cách xa hai màu chính gần nhất.

16



GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt

Lượng hoá màu chung nhất của không gian màu HSV thành 162 bin, ở đây hue nhận
18 bin và độ bão hoà và giá trị nhận 3 bin. Khi hue được chia ra thành 18 bin, mỗi màu
chính và màu phụ được biểu diễn bởi ba phần nhỏ.
 Không gian màu CMY
Hệ thống màu CMY theo mô hình in trên giấy trắng và theo khuôn mẫu trừ từ màu
trắng thay vì thêm vào từ màu đen như hệ thống màu RGB. CMY là viết tắt của CyanMagenta-Yellow (màu lục lam, màu đỏ tươi, màu vàng), đó là ba màu chính tương ứng
với ba màu mực in. Cyan hấp thu sự chiếu sáng của màu đỏ, Magenta hấp thu màu xanh
lục, Yellow hấp thu màu xanh dương. Do đó, tạo ra sự phản ánh tương ứng như khi in ảnh
được chiếu sáng với ánh sáng trắng. Hệ thống dưới dạng âm tính vì mã hóa theo dạng hấp
thụ màu. Có một số mã hóa như sau trắng (0,0,0) vì không có ánh sáng trắng được hấp
thụ, đen (255,255,255) vì tất cả các thành phần của màu trắng đều được hấp thụ.
Hệ thống màu CMY dường như là một sự đảo ngược của hệ thống màu RGB. Đặc
tính của nó là sự đơn giản, ứng dụng nhiều trong thực tế. Tuy nhiên khuyết điểm của nó
cũng tương tự như không gian màu RGB, tức là cách mã hóa khác với cách mà con người
cảm nhận về màu sắc. Không thích hợp cho bài toán tìm kiếm ảnh dựa vào nội dung.
 Các không gian màu YUV và IUQ
Các không gian màu YUV và YIQ được phát triển cho truyền hình vô tuyến. Không
gian màu YIQ giống như không gian màu YUV, ở đây mặt phẳng I-Q là một mặt phẳng
quay 330 của mặt phẳng U-V. Tín hiệu Y biểu diễn độ chói của một pixel và là kênh duy
nhất được sử dụng trong ti vi đen trắng. U và V cho YUV và I và Q cho YIQ là các thành
phần màu.
Kênh Y được định nghĩa bởi các giá trị năng lượng có trọng số của R(0.299),
G(0.587) và B(0.144). Các không gian màu YUV và YIQ không là đồng nhất nhận thức.
Khi các không gian màu YUV và UIQ được lượng tử hoá, mỗi trục được lượng tử hoá với
cùng độ chính xác.
 Các không gian màu CIE XYZ và LUV

Không gian màu đầu tiên được phát triển bởi CIE là không gian màu XYZ. Thành
phần Y là thành phần độ chói được xác định bởi các tổng có trọng số của R(0:212671),
G(0:715160), và B(0:072169). X và Y là các thành phần màu. Không gian màu XYZ là
17


GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt

không đồng nhất nhận thức. Trong lượng tử hoá không gian màu XYZ, mỗi trục được
lượng tử hoá với cùng độ chính xác.
Không gian màu CIE LUV là một biến đổi xạ ảnh của không gian màu XYZ là đồng
nhất nhận thức. Kênh L của không gian màu LUV là độ chói của màu. Các kênh U và V
là các thành phần màu. Vậy, khi U, và V được đặt bằng 0, kênh L biểu diễn một ảnh cấp
xám.
Trong lượng tử hoá không gian LUV, mỗi trục được lượng tử hoá với cùng độ chính
xác. Với cả không gian màu XYZ và LUV, các lược đồ lượng tử hoá thường được sử
dụng 8 (23), 27 (33), 64 (43), 125 (53) bin.
 Hệ thống màu L*a*b
Mô hình L*a*b được đề cử bởi CIE cho việc lượng hóa sự khác biệt của màu sắc
trong vật chiếu sáng của ánh sáng ban ngày. Tuy nhiên nó có một sự chuyển đổi được ghi
vào để mà tính toán cho việc thích nghi với những nguồn sáng. Đây là hệ thống màu có
sự tách riêng ánh sáng và màu sắc ra riêng. Do đó, cũng có khả năng lớn cho việc tìm
kiếm dựa vào nội dung.
2.1.3. Lượng tử hóa màu và lược đồ màu
 Lượng tử hóa màu
Lượng tử hóa màu là quá trình làm giảm số màu sắc được sử dụng để mô tả ảnh.
Việc lượng tử hóa màu trong không gian màu RGB được thực hiện bằng cách chia khối
hình lập phương lớn thành những khối nhỏ và mỗi khối nhỏ có thể đại diện cho một màu

đơn. Ví dụ chia hình lớn thành 64(43) hình nhỏ bằng cách chia các trục Red, Green, Blue
mỗi trục thành 4 phần nhỏ và tất cả các màu sắc được xác định trong một hình khối nhỏ
sẽ đại diện cho một màu đơn.
Với hệ thống máy tính hiện thời thì không gian RGB thường thể hiện bởi hệ thống
màu thực 24 bit. Trong hệ thống màu 24 bit thì mỗi màu được xác định bằng 3 số nguyên:
{Red, Green và Blue} và 3 số nguyên này nằm trong khoảng từ 0 – 23 như vậy nó cho ta
khoảng 16.777.216 màu (224). Bởi vì quá trình lượng tử hóa không gian màu RGB tương
tự như quá trình làm giảm số màu nên có thể xác định số màu trong không gian màu một
cách đơn giản là giảm số màu từ 24 bit màu xuống còn n3 màu như sau:
Khi giảm một màu {R, G, B} 24 bit màu thành màu mới {R’, G’, B’} với n3. Màu
ta đặt:
18


GVHD: PGS.TS. Ngô Quốc Tạo

R' =

n*R
28

G' =

SVTH: Lưu Văn Việt

n *G
28

B' =


n*B
28

(2-1)

Vậy, sau khi giảm số màu sẽ có n*n*n = n3 màu.
 Lược đồ màu
Lược đồ màu như là một bảng tóm tắt thông tin về màu sắc cho một ảnh màu bất kỳ.
Việc tính lược đồ màu này được tiến hành một cách rất nhanh chóng trong ảnh mà chỉ qua
một lần duyệt qua toàn bộ ảnh. Do đó ứng dụng vào việc tìm kiếm ảnh sẽ có lợi rất lớn về
mặt tốc độ. Một số tính chất cần quan tâm của lược đồ màu đối với vấn đề truy tìm ảnh:
• Việc tính lược đồ màu của ảnh diễn ra rất nhanh chóng trong ảnh chỉ qua một lần
duyệt qua toàn bộ ảnh.
• Lược đồ màu tương đối bất biến đối với phép tịnh tiến, xoay ảnh, và nhất là sự kéo
nhỏ, kéo giãn, thay đổi kích thước của ảnh.
• Lược đồ màu của một ảnh màu có thể là một cách miêu tả rất có ý nghĩa cho việc truy
tìm ảnh hay nhận dạng đối tượng trong ảnh.
 Lược đồ màu RGB
Lược đồ màu được xác định bằng một tập các bin, trong đó mỗi bin biểu thị xác suất
của các pixel trong ảnh. Một lược đồ màu H của một ảnh đã cho được xác định bởi véc tơ:
H={H[0], H[1], H[2], ..., H[i],... H[N]}
Ở đây i biểu diễn một màu trong lược đồ màu và tương ứng với một khối con trong
không gian màu RGB, H[i] là số các pixel có màu i trong ảnh, và N là số các bin trong
lược đồ màu. Mỗi pixel trong ảnh sẽ thuộc về một bin của lược đồ màu của ảnh, vì thế với
lược đồ màu của một ảnh, giá trị của mỗi bin là số các pixel cùng màu. Để so sánh các
ảnh có các kích cỡ khác nhau, các lược đồ màu được chuẩn hóa. Lược đồ màu chuẩn hóa
H’ được xác định bằng:
H’={H’[0], H’[1], H’[2], ..., H’[i],... H’[N]}
Ở đây , p là tổng số các pixel trong ảnh.
Trong lược đồ lượng hóa không gian màu lý tưởng, các màu riêng biệt không được

định vị trong cùng hình khối con và các màu tương tự được gán vào cùng hình khối con.
Sử dụng một số màu sẽ giảm khả năng các màu tưương tự được gán vào các bin khác
nhau, nhưng cũng tăng khả năng các màu riêng biệt được gán vào cùng các bin, nội dung
19


GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt

thông tin của các ảnh sẽ giảm. Mặt khác, các lược đồ màu với một số lượng lớn các bin sẽ
chứa nhiều thông tin về nội dung của ảnh, theo đó giảm khả năng các màu riêng biệt sẽ
được gán vào cùng các bin. Tuy nhiên, chúng tăng khả năng các màu tương tự sẽ được
gán vào các bin khác nhau và tăng không gian lưu trữ biểu diễn ảnh, thời gian tính toán
khoảng cách giữa các lược đồ màu. Do đó, cần có sự thỏa hiệp trong việc xác định số
lượng các bin sẽ được sử dụng trong các lược đồ màu.
 Lược đồ màu HSI
Mô hình màu HSI có những ưu điểm lớn cho việc tìm kiếm hình ảnh dựa vào nội
dung và nhất là trong công việc tìm kiếm dựa vào màu sắc. Nhưng những ảnh màu thông
thường được lưu trữ ở dạng kỹ thuật số trong máy tính thường theo chuẩn RGB, do đó để
có được ảnh màu HSI ta phải qua công đoạn chuyển đổi. Chuyển từ hệ màu RGB sang hệ
màu HSI là một thuật giải có rất nhiều trong hầu hết những sách về xử lý ảnh cổ điển.
Theo các phương pháp truyền thống, việc tạo lược đồ màu chỉ đơn giản bằng cách
chia không gian màu thành những ngăn riêng biệt, sau đó đếm những pixel có màu sắc
phù hợp trong những ngăn này. Cách làm này rất đơn giản, nhưng không phù hợp cho
việc so sánh, tìm kiếm ảnh. Vì những thay đổi nhỏ về điều kiện chiếu sáng, sự thay đổi về
cường độ có thể gây nên những thay đổi lớn trong lược đồ màu. Do đó, hai ảnh rất giống
nhau về màu sắc có thể có lược đồ màu hoàn toàn khác nhau.
 Lược đồ màu HSI cải tiến
Một phương pháp được đề xuất để giải quyết cho trường hợp trên là ta dựa vào

cường độ màu để lọc trước những giá trị mà màu không thể biểu thị được. Sau đó dùng độ
bão hòa để lọc những giá trị có sắc màu xám. Phần còn lại của không gian màu ta sẽ chia
đều mỗi thành phần thành những khoảng nhất định có sự tương đồng về màu sắc.
Để giá trị của lược đồ màu HSI được tính một cách phù hợp nhất đối với việc tìm
kiếm, chúng ta cần chia nhỏ không gian 24 bit màu, tương ứng với 224 màu, xuống một
con số có thể chấp nhận được. Một con số được đề nghị là 5 giá trị mức xám, 162 cho giá
trị sắc màu, tổng cộng là ta chỉ cần lưu trữ 167 bin màu.

20


GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt

Hình 2.3: Lược đồ HIS cải tiến
2.1.4. Đo khoảng cách giữa các lược đồ màu
Bước tiếp theo của quá trình tra cứu dữ liệu ảnh dựa vào nội dung là xác định độ
trùng khớp của hai lược đồ màu vừa tính được ở bước trên. Do đó, phát sinh ra một giá trị
để biểu thị cho sự trùng khớp và có nhiều cách để tính giá trị này. Ta gọi những giá trị
được tính từ những cách khác nhau này là các loại độ đo màu. Một cách đơn giản, độ đo
21


GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt

màu được coi là một giá trị để biểu thị cho độ so khớp sự trùng khớp của hai lược đồ màu.
Tùy theo từng trường hợp, từng loại độ đo màu giá trị này có thể âm hoặc dương, lớn

hoặc nhỏ tương ứng với mức độ giống nhau như thế nào của các loại lược đồ màu. Mỗi
loại độ đo màu có những ưu và khuyết điểm riêng, trong từng trường hợp cụ thể.
 Khoảng cách dạng Minkowski
Độ đo này chỉ so sánh các bin giống nhau giữa các lược đồ màu (xem hình 2.4)
được xác định:
N

d (Q, I ) = ∑ | H Q [i ] − H I [i ] |r
i −1

(2-2)

Ở đây Q và I là hai ảnh, N là số các bin trong lược đồ màu, HQ[i] là giá trị của bin i
trong lược đồ màu HQ và HI[i] là giá trị của bin i trong lược đồ màu HI [4].

Hình 2.4: Khoảng cách dạng Minkowski
 Khoảng cách dạng toàn phương
Độ đo này không chỉ so sánh các bin giống nhau mà so sánh nhiều bin giữa các lược
đồ màu (xem hình 2.5) và được xác định:

d (Q, I ) = ( HQ − HI )t A( HQ − HI )

(2-3)

22


GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt


Ở đây, Q và I là hai ảnh, HQ là lược đồ màu của ảnh Q, HI là lược đồ màu của ảnh I,
A = [ai,j] là ma trận N x N, N là số các bin trong lược đồ màu và ai,j biểu thị sự tương tự
giữa màu i và màu j.

Hình 2.5: Khoảng cách dạng toàn phương
 Khoảng cách Non-Histogram
Cách tiếp cận mô men màu khắc phục hiệu ứng lượng tử hóa của lược đồ màu.
Trong cách tiếp cận này, các đặc trưng phân bố màu của các ảnh được biểu diễn bởi các
đặc trưng trội của chúng là trung bình, phương sai, độ lệch. Mô men thứ nhất là màu
trung bình của ảnh, mô men thứ hai là độ lệch chuẩn của mỗi kênh màu và mô men thứ ba
là căn bậc ba của mỗi kênh màu. Chúng được xác định bằng:

1 F
Ei = ∑ Pij
F j −1
(2-4)

1 F
σ i = ( ∑ ( Pij − Ei ) 2 )1/2
F j −1
(2-5)

23


GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt


1 F
Si = ( ∑ ( Pij − Ei )3 )1/3
F j −1
(2-6)
Ở đây Pij là giá trị của kênh màu thứ i tại pixel ảnh thứ j, Ei là màu trung bình của
kênh màu thứ i, σi là độ lệch chuẩn của kênh màu thứ i, si là căn bậc ba của kênh màu thứ
i, và F là tổng số các pixel. Nếu Q và I là hai ảnh, và các đặc trưng màu của chúng được
biểu diễn bởi các kênh màu r, thì sự tương tự giữa hai ảnh này được xác định:
r

d (Q, I ) = ∑ (Wi1 | EiQ − EiI | + Wi 2 | σ iQ − σ iI | + Wi 3 | siQ − siI |)
i −1

(2-7)

Ở đây Wi1, Wi2 và Wi3 là các trọng số được chỉ ra bởi người sử dụng.
 Độ đo khoảng cách Min-Max
Được thực hiện dựa trên ý tưởng lấy phần giao của của hai lược đồ cần so sánh, ta sẽ
được một lược đồ, tính tổng các giá trị có được từ lược đồ này cho ta được độ đo minmax.
• Đối với độ đo min: ta tính dựa vào giá trị min tại mỗi K bin.
k

Intersection

(h( I ), h( M )) = ∑ min{h( I )[j ], h( M )[j ]}
j −1

(2-8)

• Đối với độ đo max: ta tính dựa vào giá trị max tại mỗi K bin.

k

Intersection

(h( I ), h( M )) = ∑ m ax {h( I )[j ], h( M )[j ]}
j −1

(2-9)

(h( I ), h(M )) =
Matching

Inter sec tion(h( I ), h( M )
max(∑ i h( I ), ∑ i h( M )[i ]
(2-10)

24


GVHD: PGS.TS. Ngô Quốc Tạo

SVTH: Lưu Văn Việt

2.2. Tra cứu ảnh dựa vào hình dạng
2.2.1. Khái niệm về hình dạng
Một đặc trưng quan trọng khác trong tra cứu ảnh theo nội dung đó là đặc trưng về
hình dạng. Hình dạng có khuynh hướng chỉ định tới một khu vực đặc biệt của ảnh. Hay
hình dạng chỉ là biên của đối tượng nào đó trong ảnh.
Các đặc trưng hình dạng của các đối tượng hoặc các vùng đã được sử dụng trong
nhiều hệ thống tra cứu ảnh dựa vào nội dung. Các đặc trưng hình dạng thường được mô tả

sau khi các ảnh được phân đoạn thành các vùng hoặc các đối tượng. Do phân đoạn ảnh
mạnh và chính xác là khó đạt được, sử dụng các đặc trưng hình dạng cho tra cứu ảnh bị
giới hạn đối với các ứng dụng chuyên biệt, ở đó các đối tượng hoặc các vùng đã sẵn có.
Các phương pháp state-of-art cho mô tả hình có thể được phân thành hoặc là các phương
pháp dựa vào đường bao hoặc các phương pháp dựa vào vùng. Một biểu diễn đặc trưng
hình tốt cho một đối tượng phải bất biến với dịch chuyển, quay và tỷ lệ.
2.2.2. Đặc điểm hình dạng với việc tìm kiếm ảnh
Hình dạng là một cấp cao hơn màu sắc và vân. Nó đòi hỏi sự phân biệt giữa các
vùng để tiến hành xử lý về độ đo của hình dạng. Trong nhiều trường hợp, sự phân biệt
này cần thiết phải làm bằng tay. Nhưng sự tự động hóa trong một số trường hợp có thể
khả thi. Trong đó, vấn đề chính yếu nhất là quá trình phân đoạn ảnh. Nếu quá trình phân
đoạn ảnh được làm một cách chính xác, rõ ràng và nhất là hiệu quả thì sự tìm kiếm thông
tin dựa vào hình dạng có thể có hiệu lực rất lớn. Nhận dạng ảnh hai chiều là một khía
cạnh quan trọng của quá trình phân tích ảnh. Tính chất hình dạng toàn cục ám chỉ đến
hình dạng ảnh ở mức toàn cục. Hai hình dạng có thể được so sánh với nhau theo tính chất
toàn cục bởi những phương pháp nhận dạng theo hoa văn, mẫu vẽ. Sự so khớp hình dạng
ảnh cũng có thể dùng những kỹ thuật về cấu trúc, trong đó một ảnh được mô tả bởi những
thành phần chính của nó và quan hệ không gian của chúng. Vì sự hiển thị ảnh là một quá
trình liên quan đến đồ thị, do đó những phương pháp so khớp về đồ thị có thể được dùng
cho việc so sánh hay so khớp. Sự so khớp về đồ thị rất chính xác, vì nó dựa trên những
quan hệ không gian hầu như bất biến trong toàn thể các phép biến đổi hai chiều. Tuy
nhiên, quá trình so khớp về đồ thị diễn ra rất chậm, thời gian tính toán tăng theo cấp số
mũ tương ứng với số lượng các phần tử. Trong việc tìm kiếm dữ liệu ảnh dựa vào nội
dung, ta cần những phương pháp có thể quyết định sự giống và khác nhau một cách nhanh
25


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×