Tải bản đầy đủ (.pdf) (74 trang)

Một số kỹ thuật đánh giá độ tương tự trong tra cứu tàu cá trên biển (LV thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.08 MB, 74 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Ninh Thị Kim Yến

MỘT SỐ KỸ THUẬT ĐÁNH GIÁ ĐỘ TƯƠNG TỰ
TRONG TRA CỨU TÀU CÁ TRÊN BIỂN

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

Thái Nguyên - 2016
Số hóa bởi Trung tâm Học liệu – ĐHTN




ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

Ninh Thị Kim Yến

MỘT SỐ KỸ THUẬT ĐÁNH GIÁ ĐỘ TƯƠNG TỰ
TRONG TRA CỨU TÀU CÁ TRÊN BIỂN
Chuyên ngành: Khoa học máy tính
Mã số: 60480101

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS ĐỖ NĂNG TOÀN


Thái Nguyên - 2016

Số hóa bởi Trung tâm Học liệu – ĐHTN




LỜI CAM ĐOAN
Học viên xin cam đoan, toàn bộ nội dung liên quan tới đề tài được trình
bày trong luận văn là bản thân học viên tự tìm hiểu và nghiên cứu, dưới sự
hướng dẫn khoa học của PGS.TS Đỗ Năng Toàn.
Các tài liệu, số liệu tham khảo được trích dẫn đầy đủ nguồn gốc. Học
viên xin chịu trách nhiệm trước pháp luật lời cam đoan của mình.
Thái Nguyên, ngày 20 tháng 6 năm 2016
Học viên thực hiện

Ninh Thị Kim Yến

Số hóa bởi Trung tâm Học liệu – ĐHTN




LỜI CẢM ƠN
Học viên xin gửi lời cảm ơn tới các thầy, cô giáo của Trường Đại học
Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên đã tận tình
truyền đạt kiến thức, tổ chức hoạt động cho lớp Thạc sĩ chuyên ngành Khoa
học máy tính, khóa học 2014-2016. Đặc biệt, học viên xin gửi lời cảm ơn và
biết ơn sâu sắc nhất tới PGS.TS Đỗ Năng Toàn, trong thời gian qua đã luôn
tận tình chỉ bảo, giúp đỡ, kịp thời định hướng để em có thể hoàn thành được

luận văn này.
Học viên cũng xin gửi lời cảm ơn sâu sắc tới Thủ trưởng các cấp - nơi
học viên đang công tác, đã luôn tạo điều kiện, giúp đỡ để học viên hoàn thành
chương trình học trong thời gian qua. Đồng thời, học viên xin được chân
thành cảm ơn gia đình, các bạn cùng lớp và những người thân thiết đã động
viên, giúp đỡ trong suốt quá trình học tập và thực hiện luận văn./.
Thái Nguyên, ngày 20 tháng 6 năm 2016
Học viên thực hiện

Ninh Thị Kim Yến

Số hóa bởi Trung tâm Học liệu – ĐHTN




i

MỤC LỤC
TRANG BÌA PHỤ
LỜI CAM ĐOAN
LỜI CẢM ƠN
MỤC LỤC...................................................................................................................i
CÁC THUẬT NGỮ, TỪ VIẾT TẮT........................................................................iii
DANH MỤC HÌNH MINH HỌA...............................................................................iv
MỞ ĐẦU ....................................................................................................................... 1
Chương 1. KHÁI QUÁT VỀ TRA CỨU ẢNH VÀ BÀI TOÁN TRA CỨU TÀU CÁ
TRÊN BIỂN .................................................................................................................. 3
1.1. Khái quát về tra cứu ảnh .................................................................................. 3
1.1.1. Giới thiệu ................................................................................................ 3

1.1.2. Một số phương pháp tra cứu ảnh ............................................................ 7
1.2. Bài toán tra cứu tàu cá trên biển .................................................................... 21
1.2.1. Giới thiệu .............................................................................................. 21
1.2.2. Cách tiếp cận ........................................................................................ 26
Chương 2. MỘT SỐ KỸ THUẬT ĐÁNH GIÁ ĐỘ TƯƠNG TỰ ............................ 27
2.1. Kỹ thuật theo mô hình không gian vector (VSM) ......................................... 27
2.1.1. Phép so sánh histogram ........................................................................ 27
2.1.2. Phép so sánh qua giá trị điểm ảnh ........................................................ 33
2.2. Kỹ thuật theo mô hình k-phần tử kề cận (k-NN)........................................... 40
2.2.1. Thuật toán k-NN................................................................................... 40
2.2.2. k-NN trong so khớp điểm ảnh .............................................................. 42
2.3. Kỹ thuật kết hợp ............................................................................................ 50
Chương 3. CHƯƠNG TRÌNH THỬ NGHIỆM .......................................................... 54
3.1. Phân tích yêu cầu bài toán ............................................................................. 54
3.2. Phân tích lựa chọn công cụ ............................................................................ 55
3.2.1. Mô tả dữ liệu thử nghiệm ..................................................................... 55


ii

3.2.2. Trích chọn đặc trưng cho tàu cá ........................................................... 56
3.2.3. Lựa chọn kỹ thuật đánh giá độ tương tự .............................................. 56
3.3. Một số kết quả chương trình .......................................................................... 57
KẾT LUẬN ................................................................................................................. 61
TÀI LIỆU THAM KHẢO ........................................................................................... 62
PHỤ LỤC .................................................................................................................... 64


iii


CÁC THUẬT NGỮ, TỪ VIẾT TẮT

STT Từ, thuật ngữ

Ý nghĩa
Content Base Image Retrieval Tra cứu ảnh dựa vào

1

CBIR

nội dung

2

QBIC

Query By Image Content Truy vấn theo nội dung ảnh

3

4

Commission internationale de l'éclairage - Uỷ ban quốc
CIE

tế về màu sắc
Geographic Information System - Hệ thống thông tin

GIS


địa lý


iv

DANH MỤC HÌNH MINH HỌA
Hình 1.1. Mô hình hệ thống Tra cứu ảnh theo nội dung .............................................. 5
Hình 1.2. Không gian màu RGB được trực quan hoá như một hình khối. .................... 8
Hình 1.3. Mô tả không gian màu HSV .......................................................................... 9
Hình 1.4. Ví dụ về một số loại kết cấu ........................................................................ 12
Hình 1.5. Mô hình tàu làm nghề lưới kéo ................................................................... 22
Hình 1.6. Mô hình tàu làm nghề lưới vây ................................................................... 22
Hình 1.7. Mô hình tàu làm nghề lưới rê ...................................................................... 23
Hình 1.8. Mô hình tàu làm nghề câu ........................................................................... 23
Hình 1.9. Mô hình tàu làm nghề chụp mực................................................................. 23
Hình 1.10. Tàu cá lưới kéo 41,38 mét ......................................................................... 24
Hình 1.11. Tàu chụp mực, dùng đèn vỏ thép dài 43,6 m ............................................ 25
Hình 1.12. Tàu lưới vây dùng đèn 37,8m ................................................................... 25
Hình 1.13. Tàu lưới kéo hai boong vỏ thép ................................................................ 25
Hình 1.14. Tàu câu mực xa bờ 65m ............................................................................ 25
Hình 2.1. Độ tương tự giữa a) và b) phải lớn hơn giữa a) và c) ................................. 28
Hình 2.2. Khoảng cách đường tiếp tuyến.................................................................... 34
Hình 2.3. Ảnh và histogram của ảnh ........................................................................... 36
Hình 2.4. (a) Ảnh gốc; (b) Histogram gốc; (c) Ảnh cân bằng ; (d) Histogram cân bằng .... 37
Hình 2.5. Khoảng cách Euclidean trong không gian 2D ............................................ 41
Hình 2.6. 1-NN và 2-NN ............................................................................................. 42
Hình 2.7. So khớp các điểm “quan trọng” (matching) ................................................ 43
Hình 2.8. Mô tả điều kiện có thể “ghép đúng” được theo 3 phần tử kề cận ............... 43
Hình 2.9. Sơ đồ thuật toán dò biên Canny .................................................................. 50

Hình 2.10. Hàm xấp xỉ Gaussian rời rạc với   1.4 (cửa sổ W kích cỡ 5x5) ........... 51
Hình 2.11. Cặp mặt lạ tính toán gradient .................................................................... 51
Hình 3.1. Giao diện chương trình thử nghiệm ............................................................ 58
Hình 3.2. Chọn ảnh cần truy vấn................................................................................. 58
Hình 3.3. Biểu đồ Histograms của ảnh ....................................................................... 59
Hình 3.4. Xác định giá trị ngưỡng và ảnh xử lý.......................................................... 59
Hình 3.5. Giao diện hiển thị kết quả cuối cùng........................................................... 60


1

MỞ ĐẦU
1. Lý do chọn đề tài
Nhận dạng và xử lý ảnh là một trong những lĩnh vực có nhiều ứng dụng
trong thực tiễn như: Hệ thống thông tin địa lý, quân sự, y học, vv..... Đối với
lĩnh vực khoa học quân sự, trong những thập kỷ vừa qua, công nghệ xử lý ảnh
đã thực sự trở thành một lĩnh vực mũi nhọn không thể thiếu.
Thời gian gần đây, tình trạng tàu cá nước ngoài có những hành động
xâm phạm chủ quyền vùng biển Việt Nam ngày càng nhiều và phức tạp.
Tàu cá nước ngoài không chỉ khai thác trái phép hải sản, đưa phương
tiện vào thăm dò tài nguyên biển nước ta, mà còn xuất hiện những hành động
mang tính chất đặc biệt nguy hiểm, dễ gây xung đột vũ trang trên biển như uy
hiếp, vô cớ trấn cướp tài sản của ngư dân Việt Nam.

Một số hình ảnh tàu cá Việt Nam bị tàu cá nước ngoài uy hiếp trên biển


2

Trong các lực lượng thực thi pháp luật trên biển của Việt Nam nói riêng

và trên thế giới nói chung, bài toán nhận dạng các loại tàu cá trên biển luôn
được đặt ra cấp thiết từ nhiều năm qua, giải quyết tốt bài toán này sẽ giúp cho
việc quản lý tình hình an ninh mặt biển được nhanh chóng, chính xác, hiệu
quả... Nhằm đáp ứng bài toán nhận dạng tàu cá, luận văn này sẽ tập trung
nghiên cứu một số kỹ thuật đánh giá độ tương tự trong tra cứu tàu cá trên biển.
2. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là các ảnh/video có chứa tàu bao gồm
các loại tàu cá nước ngoài, tàu cá Việt Nam cùng các đặc điểm hình dạng cơ
bản của chúng. Phạm vi nghiên cứu là các ảnh mặt biển vào ban ngày có chứa
một con tàu.
3. Những nội dung nghiên cứu chính
Luận văn được trình bày trong 3 chương, có phần mở đầu, phần kết luận,
phần mục lục, phần tài liệu tham khảo. Các nội dung cơ bản của luận văn được
trình bày theo cấu trúc sau:
Chương 1 - Khái quát về tra cứu ảnh và bài toán tra cứu tàu cá trên biển
Chương 2 - Một số kỹ thuật đánh giá độ tương tự
Chương 3 - Chương trình thử nghiệm
Do thời gian thực hiện và hiểu biết của học viên còn hạn chế nên luận
văn này không tránh khỏi các thiếu sót về nội dung cũng như hình thức trình
bày. Học viên rất mong nhận được sự cảm thông, góp ý, nhận xét của các quý
thầy cô và người đọc để học viên có thể hoàn thiện và tiếp tục theo các hướng
nghiên cứu sau này.


3

Chương 1
KHÁI QUÁT VỀ TRA CỨU ẢNH VÀ BÀI TOÁN
TRA CỨU TÀU CÁ TRÊN BIỂN
1.1. Khái quát về tra cứu ảnh

1.1.1. Giới thiệu
Những năm gần đây, vấn đề tra cứu ảnh số nhận được sự quan tâm
ngày càng lớn. Nguyên nhân một phần là do sự phát triển của công nghệ chế
tạo thiết bị thu nhận và lưu trữ ảnh số cũng như sự phát triển mạnh mẽ
của mạng Internet. Người sử dụng trong nhiều lĩnh vực khác nhau có cơ hội
để truy cập và sử dụng các kho lưu trữ ảnh thuộc đủ loại chủ đề và với
nhiều kiểu định dạng ảnh khác nhau. Tuy nhiên người ta cùng nhận thấy
rằng việc tìm được một bức ảnh mong muốn trong bộ sưu tập ảnh đa dạng
có kích thước lớn là rất khó khăn.
Tra cứu ảnh là một quá trình tìm kiếm trong một cơ sở dữ liệu ảnh
những ảnh thoả mãn một yêu cầu nào đó. Ví dụ, người sử dụng có thể tìm
kiếm tất cả các ảnh về chủ đề về “tàu cá” trong một cơ sở dữ liệu ảnh hoặc
một người sử dụng khác lại muốn phân loại cơ sở ảnh của mình thành các bộ
sưu tập có chủ đề khác nhau. Một ví dụ khác về tra cứu ảnh là một người
muốn tìm tất cả các ảnh tương tự với một bức ảnh mẫu nào đó trong một cơ
sở dữ liệu ảnh.
Trước năm 1990, người ta thường sử dụng phương pháp tra cứu ảnh theo
văn bản (Text Based Image Retrieval). Theo cách này người ta sẽ gán cho
mỗi bức ảnh một lời chú thích phù hợp với nội dung hoặc một đặc điểm nào
đó của ảnh, sau đó việc tra cứu ảnh được thực hiện dựa trên những lời chú
thích này. Phương pháp này khá đơn giản. Phương pháp tra cứu ảnh như trên
còn được gọi là tra cứu ảnh theo từ khóa. Tuy nhiên, việc tra cứu chỉ dựa vào
văn bản đi kèm còn có nhiều nhập nhằng giữa nội dung hiển thị ảnh và nội


4

dung văn bản đi kèm ảnh trong quá trình tra cứu. Bên cạnh đó phương pháp
tra cứu ảnh dựa theo văn bản không thể áp dụng để tra cứu các cơ sở dữ liệu
ảnh có số lượng ảnh lớn và kết quả tra cứu thì mang tính chủ quan và cảm

ngữ cảnh.
Vấn đề tra cứu ảnh đã được nhìn nhận rộng rãi và việc tìm kiếm các
giải pháp cho vấn đề này trở thành một lĩnh vực rất sôi động, thu hút sự
quan tâm của nhiều nhà nghiên cứu và phát triển.
Một trong những phương pháp được nhiều người quan tâm nghiên
cứu hiện nay là phương pháp “Tra cứu ảnh dựa theo nội dung” (Content
Based Images Retrieval - CBIR). Phương pháp tra cứu ảnh theo nội dung ra
đời đã khắc phục được những nhược điểm của phương pháp từ khóa. CBIR là
một lĩnh vực khoa học được phát triển dựa trên cơ sở lý thuyết và ứng dụng
của xử lý ảnh. Hệ thống cho phép người dùng tra cứu các ảnh tương tự trong
một cơ sở dữ liệu hình ảnh.
CBIR được thực hiện thông qua việc tính độ tương tự giữa hai bức ảnh
được biểu diễn bởi một trong số các đặc trưng mức thấp của ảnh như: Màu
sắc, hình dạng, kết cấu… Kết quả đưa ra là tập các bức ảnh tương tự với ảnh
truy vấn được sắp xếp theo thứ tự giảm dần độ tương tự.
Trong một hệ thống tra cứu ảnh theo nội dung điển hình (hình vẽ 1.1)
các nội dung trực quan của ảnh được trích chọn và mô tả bằng những véc tơ
đặc trưng nhiều chiều. Tập hợp các vec tơ đặc trưng của các ảnh trong một
cơ sở dữ liệu ảnh tạo thành cơ sở dữ liệu đặc trưng. Quá trình tra cứu ảnh
được tiến hành như sau: người sử dụng cung cấp cho hệ thống tra cứu một
ảnh mẫu cụ thể hoặc hình vẽ phác thảo của đối tượng ảnh cần tìm. Sau đó hệ
thống sẽ chuyển những mẫu này thành các véc tơ đặc trưng và tính toán sự
giống nhau (hay độ tương tự) giữa véc tơ đặc trưng của ảnh mẫu và véc tơ
đặc trưng của các ảnh trong cơ sở dữ liệu. Sau cùng việc tra cứu được tiến


5

hành với sự trợ giúp của các sơ đồ đánh chỉ số. Sử dụng sơ đồ đánh chỉ số là
cách hiệu quả để tìm kiếm trong các cơ sở dữ liệu ảnh.


trưng

Hình 1.1. Mô hình hệ thống Tra cứu ảnh theo nội dung

Trong mô hình này, người sử dụng sẽ tạo truy vấn bằng cách chọn một ảnh
mẫu trong một cơ sở dữ liệu ảnh cho trước hoặc phác thảo một hình vẽ mô tả
đối tượng ảnh cần tìm bằng cách sử dụng một giao diện đồ hoạ của hệ thống.
Ảnh mẫu đó được đưa qua khối mô tả nội dung trực quan, trong đó
người ta sử dụng một phương pháp mô tả nội dung trực quan nào đó để
trích chọn một đặc điểm nội dung trực quan để xây dựng thành một véc tơ
đặc trưng.
Véc tơ đặc trưng của ảnh mẫu sẽ được so sánh với véc tơ đặc trưng
tương ứng của các ảnh trong cơ sở dữ liệu ảnh. Kết quả của phép so sánh
là một chỉ số đánh giá độ tương tự giữa ảnh mẫu và ảnh lấy ra để so sánh.
Dựa vào chỉ số độ tương tự tính toán được ở trên, hệ thống sẽ sắp xếp các
ảnh tìm được trong cơ sở dữ liệu ảnh theo một sơ đồ đánh chỉ số nào đó. Danh
sách các ảnh tìm được (đã được sắp xếp) được đưa ra đầu ra của hệ thống.


6

Các chức năng chính của một hệ thống tra cứu ảnh dựa vào nội
dung bao gồm:
 Phân tích nội dung của nguồn thông tin và biểu diễn nội dung của các
nguồn thông tin được phân tích phù hợp với sự đối sánh truy vấn của người
sử dụng (không gian của thông tin nguồn được chuyển đổi thành không gian
đặc điểm với mục đích đối sánh nhanh trong bước tiếp theo). Bước này
thường mất nhiều thời gian cho việc xử lý tuần tự các thông tin nguồn (ảnh)
trong cơ sở dữ liệu. Nó chỉ phải làm một lần và có thể làm độc lập.

 Phân tích các truy vấn của người dùng và biểu diễn chúng thành các
dạng phù hợp với việc đối sánh với cơ sở dữ liệu nguồn. Nhiệm vụ của bước
này giống với bước trước nhưng chỉ được áp dụng với những ảnh truy vấn.
 Xác định chiến lược để đối sánh tìm kiếm truy vấn với thông tin được
lưu trữ trong cơ sở dữ liệu. Bước này có thể thực hiện trực tuyến và thực hiện
rất nhanh. Công nghệ đánh chỉ số có thể được sử dụng để nhận dạng không
gian đặc điểm để tăng tốc độ xử lý đối sánh.
 Tạo ra sự điều chỉnh cần thiết trong hệ thống (thường là bằng cách đối
chiếu các tham số trong công nghệ đối sánh) dựa trên phản hồi từ người sử
dụng hoặc những hình ảnh được tra cứu.
Một hệ thống tra cứu ảnh dựa trên nội dung tiêu biểu không chỉ liên quan
tới các nguồn thông tin trong những dạng khác nhau (ví dụ như văn bản, ảnh
và video) mà còn liên quan đến nhu cầu của người sử dụng. Về cơ bản nó
phân tích cả nội dung của nguồn thông tin cũng như truy vấn của người sử
dụng và sau đó đối sánh chúng để tìm ra những tiêu chí có liên quan này.
Các phương pháp truy vấn dưới đây được sử dụng phổ biến trong nghiên
cứu tra cứu ảnh dựa vào nội dung:
+ Truy vấn người sử dụng
+ Truy vấn bởi ảnh mẫu (QBE)


7

+ Truy vấn bởi đặc trưng (QBF)
+ Các truy vấn dựa vào thuộc tính
Một người sử dụng tiêu biểu chắc chắn thích truy vấn các hệ thống tra
cứu ảnh dựa vào nội dung bằng việc yêu cầu các câu hỏi tự nhiên như “Đưa
cho tôi tất cả các bức ảnh có hình ảnh của tàu cá” hoặc “Tìm tất cả các ảnh có
tàu”. Ánh xạ truy vấn ngôn ngữ tự nhiên này đến một truy vấn trên cơ sở dữ
liệu ảnh là vô cùng khó so với việc sử dụng các phương pháp chú thích. Khả

năng của các máy tính để thực hiện nhận dạng đối tượng tự động trên các ảnh
chung vẫn là một vấn đề nghiên cứu mở. Do đó hầu hết các nỗ lực nghiên cứu
và thương mại tập trung vào xây dựng các hệ thống thực hiện tốt với các
phương pháp QBE.
1.1.2. Một số phương pháp tra cứu ảnh
1.1.2.1. Tra cứu ảnh theo nội dung
Trích rút đặc trưng là cơ sở của tra cứu ảnh dựa vào nội dung. Theo
nghĩa rộng, các đặc trưng có thể bao gồm cả các đặc trưng dựa vào văn bản và
các đặc trưng trực quan như màu, kết cấu, hình dạng. Trong phạm vi đặc
trưng trực quan, các đặc trưng có thể được phân loại tiếp thành các đặc trưng
chung và các đặc trưng lĩnh vực cụ thể. Các đặc trưng trực quan chung gồm
màu, kết cấu và hình dạng trong khi các đặc trưng lĩnh vực cụ thể là phụ thuộc
ứng dụng, có thể gồm mặt người và vân tay. Các đặc trưng lĩnh vực cụ thể
bao gồm nhiều tri thức lĩnh vực.
Nói chung, không tồn tại một biểu diễn đơn tốt nhất cho một đặc trưng
đã cho. Với mọi đặc trưng được cho tồn tại nhiều biểu diễn mô tả đặc trưng từ
các viễn cảnh khác nhau.
a) Màu sắc
Mắt người rất nhạy cảm với màu sắc và đặc điểm màu là một trong
những thành phần quan trọng giúp con người có thể nhận biết được hình ảnh.


8

Vì vậy, đặc điểm màu sắc là đặc điểm cơ bản của nội dung ảnh. Đặc điểm
màu sắc có thể cung cấp những thông tin rất hữu hiệu cho việc phân loại ảnh
và chúng cũng rất hữu ích cho việc tra cứu ảnh. Cũng vì thế mà tra cứu ảnh
dựa trên màu sắc được sử dụng rộng rãi trong các hệ thống tra cứu ảnh dựa
trên nội dung. Biểu đồ màu thường được sử dụng để thể hiện những đặc điểm
màu của các ảnh. Mặc dù vậy trước khi sử dụng biểu đồ màu chúng ta cần

phải lựa chọn và xác định kiểu không gian màu và lựa chọn độ đo tương tự.
 Không gian màu
Không gian màu là sự biểu diễn tập các màu, một số không gian màu
được sử dụng rộng rãi trong đồ họa máy tính. Màu sắc thường được xác định
trong không gian màu 3 chiều.
Không gian màu RGB
Không gian màu RGB là không gian màu được sử dụng nhiều nhất cho
đồ hoạ máy tính. Lưu ý rằng R, G và B là viết tắt của các từ đỏ (Red), xanh
lục (Green) và xanh lơ (Blue). Đây là không gian màu cộng: đỏ, xanh lục và
xanh lơ được kết hợp lại để tạo ra các màu khác. Không gian này không đồng
nhất về nhận thức. Không gian màu RGB có thể được trực quan hoá như một
hình khối, như được minh hoạ trong hình 1.2.

Hình 1.2. Không gian màu RGB được trực quan hoá như một hình khối.


9

Không gian màu HSx
Không gian màu HSI, HSV, HSB và HSL thường được gọi là HSx có
mối liên quan gần gũi với sự nhận thức về màu sắc của con người hơn là
không gian màu RGB. Những trục từ không gian màu HSx mô tả những đặc
tính của màu như sắc độ, độ bão hoà và độ sáng. Sự khác nhau giữa những
không gian màu HSx là sự biến đổi của chúng từ không gian màu RGB,
chúng thường được mô tả bằng những hình dạng khác nhau (như hình nón,
hình trụ). Trong hình 1.3 không gian màu HSV được mô tả như hình nón.

Hình 1.3. Mô tả không gian màu HSV

Sắc độ là thành phần của không gian màu HSx. Sắc độ là góc giữa

những đường tham chiếu và điểm gốc màu trong không gian màu RGB. Vùng
giá trị này từ 00 đến 3600. Trong hình nón độ bão hoà là khoảng cách từ tâm
đến cạnh hình nón. Chiều cao của đường cắt chính là giá trị (value) đây chính
là độ sáng hoặc độ chói của màu. Khi độ bão hoà S bằng 0 thì H không xác
định, giá trị nằm trên trục V biểu diễn ảnh xám. Không gian màu HSV dễ
dàng lượng tử hoá. Mức lượng tử hoá thông dụng trong không gian màu này
là 162 mức với H nhận 18 mức, S và V nhận 3 mức.
Không gian màu YUV và YIQ
Các không gian màu YUV và YIQ được phát triển cho truyền hình vô
tuyến. Không gian màu YIQ là giống như không gian màu YUV, ở đây mặt


10

phẳng I-Q là một mặt phẳng quay 330 của mặt phẳng U-V. Tín hiệu Y biểu
diễn độ chói của một pixel và là kênh duy nhất được sử dụng trong ti vi đen
trắng. U và V cho YUV và I và Q cho YIQ là các thành phần màu.
Kênh Y được định nghĩa bởi các giá trị năng lượng có trọng số của
R(0.299), G(0.587) và B(0.144). Các không gian màu YUV và YIQ không
là đồng nhất nhận thức. Khi các không gian màu YUV và UIQ được lượng
hoá, mỗi trục được lượng hoá với cùng độ chính xác.
Không gian màu CIE XYZ và CIE LUV
Không gian màu đầu tiên được phát triển bởi CIE là không gian màu
XYZ. Thành phần Y là thành phần độ chói được xác định bởi các tổng có
trọng số của R(0:212671), G(0:715160) và B(0:072169). X và Y là các thành
phần màu. Không gian màu XYZ là không đồng nhất nhận thức. Trong lượng
hoá không gian màu XYZ, mỗi trục được lượng hoá với cùng độ chính xác.
Không gian màu CIE LUV là một biến đổi xạ ảnh của không gian màu
XYZ là đồng nhất nhận thức. Kênh L của không gian màu LUV là độ chói
của màu. Các kênh U và V là các thành phần màu. Vậy, khi U và V được đặt

bằng 0, kênh L biểu diễn một ảnh cấp xám.
Trong lượng hoá không gian LUV, mỗi trục được lượng hoá với cùng độ
chính xác. Với cả không gian màu XYZ và LUV, các lược đồ lượng hoá
thường sử dụng 8 (23), 27 (33), 64 (43), 125 (53) bin.
 Lược đồ màu
Lược đồ màu được xác định bằng một tập các bin, trong đó mỗi bin biểu
thị xác suất của các pixel trong ảnh. Một lược đồ màu H của một ảnh đã cho
được xác định bởi véc tơ: H  H[0], H[1], H[2],..., H[i],...H[ N ], trong đó H [i] là
số các pixel có màu i trong ảnh, i biểu diễn một màu trong lược đồ màu và
tương ứng với một khối con trong không gian màu RGB và N là số các bin
trong lược đồ màu.


11

Mỗi pixel trong ảnh sẽ thuộc về một bin của lược đồ màu của ảnh, vì thế
với lược đồ màu của một ảnh, giá trị của mỗi bin là số các pixel cùng màu. Để
so sánh các ảnh có các kích cỡ khác nhau, các lược đồ màu được chuẩn hóa.
Lược đồ màu chuẩn hóa H’ được xác định:
H '  H '[0], H '[1], H '[2],..., H '[i],...H '[ N ], với H '[i ] 

H [i ]
, P là tổng số các
P

pixel trong ảnh.
Trong lược đồ lượng hóa không gian màu lý tưởng, các màu riêng biệt
không được định vị trong cùng hình khối con và các màu tương tự được gán
vào cùng hình khối con. Sử dụng một số màu sẽ giảm khả năng các màu tương
tự được gán vào các bin khác nhau nhưng cũng tăng khả năng các màu riêng

biệt được gán vào cùng các bin, nội dung thông tin của các ảnh sẽ giảm. Mặt
khác, các lược đồ màu với một số lượng lớn các bin sẽ chứa nhiều thông tin về
nội dung của ảnh, theo đó giảm khả năng các màu riêng biệt sẽ được gán vào
cùng các bin. Tuy nhiên, chúng tăng khả năng các màu tương tự sẽ được gán
vào các bin khác nhau và tăng không gian lưu trữ biểu diễn ảnh và thời gian
tính toán khoảng cách giữa các lược đồ màu. Do đó, cần có sự thỏa hiệp trong
việc xác định số lượng các bin sẽ được sử dụng trong các lược đồ màu.
b) Kết cấu
Kết cấu là một đặc tính quan trọng khác của ảnh. Các biểu diễn kết cấu
đa dạng đã được nghiên cứu trong nhận dạng mẫu và thị giác máy tính. Về cơ
bản, các phương pháp biểu diễn kết cấu có thể được phân ra thành hai loại:
cấu trúc và thống kê.
Các phương pháp cấu trúc, gồm toán tử hình thái và đồ thị kề, mô tả kết
cấu bởi nhận dạng cấu trúc gốc và các luật sắp đặt của chúng. Chúng có chiều
hướng hiệu quả nhất khi được áp dụng với các kết cấu đều.
Các phương pháp thống kê, gồm các kỹ thuật phổ năng lượng Fourier,


12

các ma trận đồng khả năng, phân tích thành phần chính bất biến - trượt, đặc
trưng Tamura, phân rã Wold, trường ngẫu nhiên Markov (Markov random
field), mô hình fractal và lọc đa phân giải như biến đổi Gabor và sóng, mô tả
kết cấu bằng phân bố thống kê của cường độ ảnh.
Trích xuất nội dung ảnh theo kết cấu nhằm tìm ra mô hình trực quan của
ảnh và cách thức chúng được xác định trong không gian. Kết cấu được biểu
diễn bởi các texel mà sau đó được đặt vào một số các tập phụ thuộc vào số kết
cấu được phát hiện trong ảnh. Các tập này không chỉ xác định các kết cấu mà
còn chỉ rõ vị trí các kết cấu trong ảnh. Việc xác định các kết cấu đặc biệt trong
ảnh đạt được chủ yếu bằng cách mô hình các kết cấu như những biến thể cấp

độ xám 2 chiều. Ví dụ về một số loại kết cấu.

Hình 1.4. Ví dụ về một số loại kết cấu

c) Hình dạng
Hình dạng được xem như là một đặc trưng quan trọng trong mô tả các
đối tượng nổi bật trong ảnh và có thể giúp phân biệt giữa hai ảnh.
Bước đầu tiên là sử dụng một phương pháp phân đoạn thích hợp để chia
ảnh thành các vùng. Các kỹ thuật phân đoạn có thể được phân lớp thành ba
loại: dựa vào vùng, dựa vào đường biên và dựa vào pixel. Sau khi ảnh được
phân đoạn và thu được các vùng, các đặc trưng thuộc về các vùng thu được sẽ
được ghi lại. Các mã xích sử dụng 4 hoặc 8 liên thông để biểu diễn các đoạn
thẳng tạo thành đường biên của vùng. Các dấu hiệu, số các hình và đa giác là


13

các lược đồ biểu diễn khác.
Bước tiếp theo là sử dụng các mô tả thích hợp cho các vùng này sao cho
chúng có thể được sử dụng trong khi đối sánh các vùng của các ảnh khác
nhau. Các mô tả hình được chia thành ba loại: Các mô tả dựa vào đường biên
xác định các thuộc tính của đường biên. Các kỹ thuật dựa vào đường biên sử
dụng các phác thảo vùng để tính toán hình. Mô tả Fourier là một trong những
phương pháp phổ biến thuộc về loại này. Trong kỹ thuật này, đường biên của
một vùng đã cho được thu và được biến đổi Fourier. Các hệ số Fourier trội
được sử dụng như các mô tả hình. Các mô tả khác trong loại này là các
mômen hình.
Nếu một vùng có một hình phức hợp, nó có thể được phân tách tiếp
thành các hình đơn giản hơn như các hình chữ nhật hoặc các hình tròn và một
số thuộc tính của các hình đơn giản này và các quan hệ của chúng có thể được

sử dụng cho các mô tả hình. Các mô tả vùng khác gồm màu và kết cấu. Một
số đặc tính của vùng như trọng tâm, không cụ thể đối với đường biên hoặc nội
dung của vùng.
d) Thông tin không gian
Các vùng hoặc đối tượng với các đặc tính màu và kết cấu tương tự có thể
được phân biệt dễ dàng bằng việc tận dụng các ràng buộc không gian. Thí dụ,
các vùng bầu trời màu xanh và biển xanh có thể có các lược đồ màu tương tự,
nhưng các vị trí không gian của chúng trong các ảnh là khác nhau. Do đó, vị
trí không gian của các vùng (hoặc các đối tượng) hoặc quan hệ không gian
giữa nhiều vùng (hoặc đối tượng) trong một ảnh thì rất hữu ích cho tìm kiếm
các ảnh.
Thu thông tin không gian của các đối tượng trong một ảnh là một quá
trình quan trọng đối với các hệ thống GIS. Quá trình này bao gồm việc biểu
diễn vị trí không gian tuyệt đối và cũng bao gồm vị trí không gian tương đối


14

của các đối tượng. Các thao tác như giao và chồng được sử dụng. Bố cục màu
kết hợp thông tin không gian với thông tin màu xuất hiện trong ảnh và tạo ra
một đặc trưng rất quan trọng trong quá trình tra cứu, gọi là đặc trưng màu –
không gian.
Biểu diễn quan hệ không gian được sử dụng rộng rãi nhất là các xâu 2D
được đề xuất bởi Chang và cộng sự. Nó được xây dựng bởi việc chiếu các ảnh
dọc theo các hướng x và y. Hai tập ký hiệu V và A được định nghĩa trên hình
chiếu. Mỗi ký hiệu trong V biểu diễn một đối tượng trong ảnh. Mỗi ký hiệu A
biểu diễn một loại quan hệ không gian giữa các đối tượng. Do sự biến đổi của
nó, xâu 2DG cắt tất cả các đối tượng dọc theo hình hộp tối thiểu của nó và mở
rộng các quan hệ không gian thành lập hai toán tử không gian. Một tập định
nghĩa các quan hệ không gian cục bộ. Tập còn lại định nghĩa quan hệ không

gian toàn cục, chỉ ra rằng hình chiếu của hai đối tượng là tách rời, nối tiếp
hoặc định vị tại cùng vị trí. Thêm nữa, xâu 2DC được đề xuất để cực tiểu hóa
số các đối tượng cắt. Xâu 2D-B biểu diễn một đối tượng bằng hai ký hiệu, vị
trí cho bắt đầu và kết thúc đường bao của đối tượng. Tất cả các phương pháp
này có thể hỗ trợ ba loại truy vấn. Loại truy vấn 0 tìm tất cả ảnh chứa đối
tượng O1, O2, ...,On. Loại 1 tìm tất cả các ảnh chứa các đối tượng có quan hệ
nào đó giữa chúng nhưng khoảng cách giữa chúng là không đáng kể. Loại 2
tìm tất cả các ảnh có quan hệ khoảng cách nào đó với mỗi ảnh khác.
Thêm với xâu 2D, cây tứ phân không gian và ảnh ký hiệu cũng được sử
dụng cho biểu diễn thông tin không gian. Tuy nhiên, tìm kiếm các ảnh dựa
trên các quan hệ không gian của các vùng còn lại là một vấn đề nghiên cứu
khó trong tra cứu ảnh dựa vào nội dung, do phân đoạn tin cậy của các đối
tượng hoặc các vùng thường là không khả thi ngoại trừ các ứng dụng rất giới
hạn. Mặc dù một số hệ thống chia các ảnh thành các khối đều, chỉ thu được sự
thành công khiêm tốn với các lược đồ chia không gian như thế do hầu hết các


15

ảnh tự nhiên không thể ép thành các khối con đều về không gian. Để giải
quyết vấn đề này, một phương pháp dựa vào biến đổi radon, tận dụng phân bố
không gian của các đặc trưng trực quan không cần phân đoạn phức tạp.
e) Phân đoạn
Phân đoạn là quá trình phân ảnh ra thành các vùng mà về lý tưởng nó sẽ
tương ứng với các đối tượng xuất hiện trong ảnh. Đây là bước rất quan trọng
đối với tra cứu ảnh. Cả đặc trưng hình và đặc trưng bố cục phụ thuộc vào
phân đoạn tốt. Trong phần này chúng tôi sẽ mô tả một số kỹ thuật phân đoạn
đã có được sử dụng trong cả thị giác máy và tra cứu ảnh.
Trong, Lybanon và các cộng sự đã nghiên cứu một cách tiếp cận phép
toán hình thái học (mở và đóng) trong phân đoạn ảnh. Họ đã kiểm tra cách

tiếp cận của họ với các loại ảnh khác nhau, gồm các ảnh thiên văn và các ảnh
hồng ngoại. Trong khi cách tiếp cận này là hiệu quả trong xử lý các loại ảnh
khoa học ở trên, hiệu năng của nó cần được tiếp tục đánh giá cho các ảnh tự
nhiên phức tạp hơn. Li và cộng sự đã đề xuất một cách tiếp cận phân đoạn dựa
vào entropy mờ. Cách tiếp cận này dựa trên thực tế rằng entropy cực đại địa
phương tương ứng với sự không rõ ràng giữa các vùng khác nhau trong ảnh.
Cách tiếp cận này rất hiệu quả cho các ảnh có lược đồ không có các đỉnh và
các rãnh rõ ràng. Các kỹ thuật phân đoạn khác dựa trên phép đạc tam giác
Delaunay (Delaunay triangulation), fractals và luồng biên (edge flow).
Tất cả các thuật toán được đề cập ở trên là tự động. Một ưu điểm chính
của các thuật toán phân đoạn loại này là nó trích rút các đường bao từ một số
lượng lớn các ảnh mà không chiếm thời gian và nỗ lực của con người. Tuy
nhiên, trong một lĩnh vực tự nhiên, với các ảnh không có điều kiện tiên quyết,
phân đoạn tự động không luôn luôn tin cậy. Một thuật toán có thể phân đoạn
trong trường hợp này chỉ là các vùng, mà không là các đối tượng. Để thu được
các đối tượng mức cao, nó cần có sự trợ giúp của con người.


16

Samadani và Han đã đề xuất một cách tiếp cận trích rút đường bao được
trợ giúp bởi máy tính, nó kết hợp các đầu vào thủ công từ người sử dụng với
các biên ảnh được sinh ra bởi máy tính. Trong, Daneel và cộng sự đã phát
triển một phương pháp cải tiến của các chu tuyến thiết thực. Dựa trên đầu vào
của người sử dụng, đầu tiên thuật toán sử dụng một thủ tục tham lam để cung
cấp sự hội tụ ban đầu nhanh. Thứ hai, nét ngoài được lọc bằng việc sử dụng
quy hoạch động. Trong, Rui và cộng sự đã đề xuất một thuật toán dựa vào
phân cụm và nhóm trong không gian - màu - kết cấu. Người sử dụng định
nghĩa đối tượng quan tâm là ở đâu, và thuật toán nhóm các vùng thành các đối
tượng có ý nghĩa.

Giá trị đáng chú ý sau cùng đề cập trong phân đoạn là các yêu cầu chính
xác phân đoạn là rất khác nhau cho các đặc trưng hình và các đặc trưng bố
cục. Với các đặc trưng hình, phân đoạn chính xác là mong muốn cao trong khi
các đặc trưng bố cục, một phân đoạn thô có thể là đủ.
1.1.2.2. Tra cứu ảnh dựa vào hình dạng
a) Lược đồ hình dạng
Lược đồ hình dạng là phương pháp giúp cho việc tính toán được dễ dàng
và nhanh trong thi hành. Chúng sử dụng cả sự so sánh về màu sắc và vân. Vấn
đề chính là định nghĩa biến cho lược đồ hình dạng được định nghĩa. Xem như
hình dạng trong ảnh là một vùng những giá trị một trong ảnh nhị phân, trong
khi toàn thể những giá trị khác đều là giá trị không. Một kiểu của so khớp
hình dạng ảnh là so khớp hình chiếu thông qua hình chiếu đứng và hình chiếu
nằm của hình dạng. Giả sử rằng hình dạng có n hàng và có m cột. Mỗi hàng
và mỗi cột là một bin trong lược đồ hình dạng. Tổng số được lưu trữ trong
một bin là tổng số những giá trị 1 được lưu trữ trong dòng hoặc cột tương ứng
đó. Điều này đưa đến một lược đồ gồm có một bin, nhưng điều này cũng chỉ
có ý nghĩa khi tất cả những ảnh được xem xét phải có cùng một kích thước.


17

Để làm cho việc so khớp hình chiếu bất biến đối với kích thước, số lượng bin
của dòng và số lượng bin của cột phải ổn định. Bằng cách định nghĩa những
bin từ góc trái trên đến góc phải dưới của hình dạng, sự chuyển đổi bất biến
đã đạt được. Việc so khớp hình chiếu không bất biến đối với phép xoay ảnh,
nhưng nó có thể làm việc tốt với sự xoay nhỏ và sự thiếu chính xác thuộc về
hình học ở mức độ nhỏ. Một cách khác để làm nó bất biến đối với phép quay
là tính toán theo trục toạ độ elip vừa nhất và xoay chúng cho đến khi trục
chính là trục nằm ngang. Vì không biết nơi đâu là phía trên cùng của hình
dạng, xoay hai khả năng có thể xảy ra để thử. Hơn nữa, nếu trục chính và trục

phụ có cùng chiều dài thì 4 khả năng xoay phải được xem xét. So khớp hình
chiếu được sử dụng thành công trong tìm kiếm ảnh logo. Những khả năng
khác để xây dựng lược đồ thông qua góc tiếp tuyến tại mỗi điểm ảnh trên
đường bao của hình dạng. Độ đo này thì hoàn toàn tự động về mặt kích thước
và bất biến đối với sự dịch chuyển, nhưng nó cũng không bất biến đối với
xoay đối tượng, bởi vì góc tiếp tuyến được tính từ hình dạng đối với một
hướng xác định. Có một số cách khác nhau để giải quyết vấn đề này. Cách thứ
nhất là xoay hình dạng về trục chính như đã mô tả ở trên. Một cách khác đơn
giản hơn là xoay lược đồ hình dạng. Nếu lược đồ có K bin, thì sẽ có K khả
năng xoay. Những vị trí xoay không đúng có thể làm ảnh hưởng tốc độ của
việc tính toán, đặc biệt là trong trường hợp lược đồ và ảnh có kích thước lớn.
Hoặc là lược đồ có thể được tiêu chuẩn hoá bởi cách chọn bin với số đếm lớn
nhất là bin đầu tiên. Một vài bin lớn nhất nên được thử vì có thể có sự tồn tại
của nhiễu.
b) Độ so khớp đường biên của hình dạng
Thuật toán so khớp đường biên đòi hỏi sự trích rút và trình bày đường
biên của cả ảnh cần truy vấn và ảnh mang ra so khớp. Đường biên có thể
được trình bày bởi một dãy những điểm ảnh hay có thể được xấp xỉ bởi một


×