Tải bản đầy đủ (.pdf) (69 trang)

Nghiên cứu phương pháp tra cứu ảnh dựa trên phương pháp phân cụm đô thị

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.17 MB, 69 trang )

I HC THI NGUYấN
TRƯờNG ĐạI HọC CÔNG NGHệ THÔNG TIN Và TRUYềN THÔNG

TRN TH HNG

NGHIấN CU PHNG PHP TRA CU ẢNH
DỰA TRÊN PHƯƠNG PHÁP PHÂN CỤM ĐỒ THỊ

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2020


I HC THI NGUYấN
TRƯờNG ĐạI HọC CÔNG NGHệ THÔNG TIN Và TRUYềN THÔNG

TRN TH HNG

NGHIấN CU PHNG PHP TRA CU ẢNH
DỰA TRÊN PHƯƠNG PHÁP PHÂN CỤM ĐỒ THỊ
Chuyên ngành: Khoa học máy tính
Mã số: 8 48 0101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Giáo viên hướng dẫn: PGS. TS. Ngơ Quốc Tạo

Thái Nguyên - 2020


i



LỜI CẢM ƠN
Luận văn này được hoàn thành tại Trường Đại học Công nghệ Thông tin
và Truyền thông dưới sự hướng dẫn của PGS. TS. Ngô Quốc Tạo, sự hỗ trợ của
các đề tài NVCC02.01/20-20 và VAST01.07/19-20. Tác giả xin bày tỏ lịng
biết ơn tới các thầy cơ giáo thuộc Trường Đại học Công nghệ Thông tin và
Truyền thông, các thầy cô giáo thuộc Viện Công nghệ Thông tin – Viện Hàn
lâm Khoa học và Công nghệ Việt Nam đã tạo điều kiện, giúp đỡ tác giả trong
quá trình học tập và làm luận văn tại Trường. Đặc biệt tác giả xin bày tỏ lịng
biết ơn tới PGS. TS. Ngơ Quốc Tạo đã tận tình hướng dẫn và cung cấp nhiều
tài liệu cần thiết, cám ơn TS. Ngô Trường Giang đã nhiệt tình hỗ trợ, để tác giả
có thể hồn thành luận văn đúng thời hạn.
Xin chân thành cảm ơn anh chị em học viên cao học và bạn bè đồng nghiệp
đã trao đổi, khích lệ tác giả trong quá trình học tập và làm luận văn tại Trường Đại
học Công nghệ Thông tin và Truyền thông – Đại học Thái Nguyên.
Cuối cùng tác giả xin gửi lời cảm ơn đến gia đình, những người đã ln
bên cạnh, động viên và khuyến khích tơi trong q trình thực hiện đề tài.
Thái Nguyên, tháng 9 năm 2020
Học viên

Trần Thị Hường


ii

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này do chính tơi thực hiện, dưới sự hướng dẫn
khoa học của PGS. TS. Ngô Quốc Tạo, các kết quả lý thuyết được trình bày
trong luận văn là sự tổng hợp từ các kết quả đã được cơng bố và có trích dẫn
đầy đủ, kết quả của chương trình thực nghiệm trong luận văn này được tác giả

thực hiện là hoàn toàn trung thực, nếu sai tơi hồn tồn chịu trách nhiệm.
Thái Nguyên, tháng 9 năm 2020
Học viên

Trần Thị Hường


iii

MỤC LỤC
LỜI CẢM ƠN ....................................................................................................................... i
LỜI CAM ĐOAN ................................................................................................................ii
DANH MỤC CÁC TỪ VIẾT TẮT................................................................................... v
DANH MỤC CÁC HÌNH ................................................................................................ vii
DANH MỤC BẢNG BIỂU.............................................................................................viii
MỞ ĐẦU .............................................................................................................................. 1
1. Tính khoa học và cấp thiết của đề tài ....................................................................... 1
2. Đối tượng và phạm vi nghiên cứu của đề tài .......................................................... 2
3. Phương pháp luận nghiên cứu.............................................................................. 3
4. Nội dung và bố cục của luận văn......................................................................... 3
CHƯƠNG 1. TỔNG QUAN VỀ TRA CỨU ẢNH ..................................................... 4
1.1 Tra cứu ảnh dựa trên nội dung ........................................................................... 4
1.1.1 Khái niệm tra cứu ảnh ..................................................................................... 4
1.1.2 Kiến trúc của hệ thống CBIR .......................................................................... 5

1.2 Trích chọn đặc trưng trong tra cứu ảnh ............................................................ 9
1.2.1 Trích chọn đặc trưng màu ............................................................................... 9
1.2.2 Trích chọn đặc trưng kết cấu (texture) ........................................................12
1.2.3 Trích chọn đặc trưng hình dạng (shape) .....................................................17
1.3 Khoảng cách ngữ nghĩa trong tra cứu ảnh dựa trên nội dung...................... 20

1.3.1 Khoảng cách ngữ nghĩa.................................................................................20
1.3.2 Các phương pháp làm giảm khoảng cách ngữ nghĩa ................................21
1.4 Phản hồi liên quan trong tra cứu ảnh .............................................................. 22
1.4.1 Giới thiệu về phản hồi liên quan ..................................................................22
1.4.2 Các kỹ thuật phản hồi liên quan..................................................................23

1.5 Các lĩnh vực ứng dụng tra cứu ảnh ................................................................. 25
1.5.1 Một số ứng dụng cơ bản của tra cứu ảnh ...................................................25
1.5.2 Một số hệ thống tra cứu ảnh theo nội dung tiêu biểu ................................26


iv

1.6 Kết luận chương 1 ............................................................................................. 28
CHƯƠNG 2. TRA CỨU ẢNH DỰA TRÊN PHÂN CỤM ĐỒ THỊ ...................28
2.1 Phân cụm đồ thị ................................................................................................. 29
2.1.1 Giới thiệu đồ thị..............................................................................................29
2.1.2 Thuật toán phân cụm quang phổ ..................................................................33
2.1.3 Các thuật toán phân cụm phổ .......................................................................34
2.2 Phương pháp tra cứu ảnh sử dụng phân cụm phổ ......................................... 35
2.2.1 Phát biểu bài toán ..........................................................................................35
2.2.2 Phân tích và xây dựng mơ hình ....................................................................37
2.2.3 Phân cụm phổ với phản hồi liên quan .........................................................37
2.3 Kết luận chương ................................................................................................ 42
CHƯƠNG 3. CHƯƠNG TRÌNH THỬ NGHIỆM..................................................44

3.1 Thiết kế mơ hình thử nghiệm........................................................................... 44
3.1.1 Công cụ ............................................................................................................44
3.1.2 Chuẩn bị dữ liệu .............................................................................................46
3.2 Trích chọn đặc trưng ......................................................................................... 46

3.3 Độ đo tương tự................................................................................................... 47

3.4 Mơ hình truy vấn .............................................................................................. 48
3.5 Một số kết quả đạt được và đánh giá .............................................................. 49
3.5.1 Tiêu chí đánh giá hiệu năng..........................................................................49
3.5.2 Đánh giá định tính .........................................................................................50
3.5.3 Đánh giá định lượng ......................................................................................52

3.6 Kết luận chương 3 ............................................................................................. 55
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................................. 56
TÀI LIỆU THAM KHẢO ........................................................................................ 58


v

DANH MỤC CÁC TỪ VIẾT TẮT
Từ
hoặc

Từ tiếng Anh

Từ tiếng Việt

cụm từ
CBIR

Content-Based Image Retrieval

Tra cứu ảnh dựa trên nội dung


RF

Relevance Feedback

Phản hồi liên quan

ST

Semantic Template

Định dạng ngữ nghĩa

RGB

Red-Green-Blue

Ba màu cơ bản

SVM

Support Vector Machine

May học vecto hỗ trợ

SVT

Semantic Visual Template

Định dạng ngữ nghĩa thị giác


KL

Karhunen-Loeve

Biến đổi Karhunen-Loeve

CSDL

Data base

Cơ sở dữ liệu

CCV

Color Coherence Vector

Véc tơ liên kết màu

SIFT

Scale Invariant Feature Transform Quy mô biến đổi tính năng

SCRF

Spectral Clustering in Relevant Thuật tốn tra cứu ảnh hiệu quả sử
Feedback

dụng phân cụm phổ trong phản hồi
liên quan


QBIC

Query By Image Content

Truy vấn ảnh bởi nội dung

PCA

Principal Component Analysis

Phương pháp phân tích thành phần
chính


vi


vii

DANH MỤC CÁC HÌNH

Hình 1.1. Kiến trúc tổng quan về hệ thống tra cứu ảnh ..................................................5
Hình 1.2. Hình ảnh minh họa độ tương tự giữa 2 hình ảnh ...........................................6
Hình 1.3 Sơ đồ phản hồi liên quan. ...................................................................................8
Hình 1.4. Hình minh họa 2 ảnh có lược đồ giống nhau đến 70% nhưng khác nhau
về ngữ nghĩa ................................................................................................... 10
Hình 1.5. Hình minh họa vector liên kết mầu ............................................................... 11
Hình 1.6. Cấu trúc vân của lá cây................................................................................... 14
Hình 1.7. Decompostion để tạo ra các frequency bands bởi biến đổi Wavelet ........ 16
Hình 1.8. Đường bao của ảnh ......................................................................................... 18

Hình 1.9. Đường biên của ảnh ........................................................................................ 19
Hình 1.10. Lược đồ hệ số góc của ảnh........................................................................... 19
Hình 1.11. Ảnh minh họa sự liên kết giữa các biên cạnh ............................................ 20
Hình 1.12. Lược đồ vector liên kết hệ số góc của ảnh................................................. 20
Hình 2.1. Ví dụ về mơ hình đồ thị .................................................................................. 29
Hình 2.2. Phân lo ại đồ thị ................................................................................................ 30
Hình 2.3. Cấu trúc của phương pháp SCRF .................................................................. 37
Hình 2.4. Thuật tốn CRISE [5] ..................................................................................... 40
Hình 2.5. Thuật tốn SCRF [5] ....................................................................................... 42
Hình 3.1. Giao diện chương trình thực nghiệm ............................................................ 44
Hình 3.2. Chọn các điều kiện tra cứu ảnh ..................................................................... 45
Hình 3.3. Các ảnh minh họa cho 10 thể loại trong tập ảnh Wang.............................. 46
Hình 3.4. Mơ hình truy vấn ............................................................................................. 49
Hình 3.5. Kết quả tra cứu khi chưa có phản hồi liên quan .......................................... 50
Hình 3.6. Kết quả tra cứu khi phản hồi liên quan với số cụm là 4 ............................. 51
Hình 3.7. Kết quả tra cứu khi phản hồi liên quan 4 lần với số cụm là 6 ................... 51


viii

DANH MỤC BẢNG BIỂU

Bảng 3.1. Các loại đặc trưng ........................................................................................... 47
Bảng 3.2. Kết quả đánh giá độ đo tương tự................................................................... 52
Bảng 3.3. Kết quả đánh giá khi sử dụng các đặc trưng khác nhau............................. 53
Bảng 3.4. Kết quả đánh giá độ chính xác với số lượng ảnh trả về khác nhau .......... 54
Bảng 3.5. Hiệu quả của thuật toán SCRF với các lần phản hồi liên quan................. 55


1


MỞ ĐẦU
1. Tính khoa học và cấp thiết của đề tài
Trong những năm gần đây, cùng với sự phát triển ngày càng mạnh mẽ của
khoa học kỹ thuật, xử lý ảnh là lĩnh vực nghiên cứu đang phát triển không ngừng bởi
tính trực quan sinh động cũng như khả năng áp dụng vào thực tế lớn. Hiện xử lý ảnh
đang giành được nhiều sự quan tâm của các nhà nghiên cứu trong và ngoài nước.
Trong xử lý ảnh, tra cứu ảnh có thể nói là lĩnh vực địi hỏi sự nghiên cứu tổng hợp:
nghiên cứu xử lý ảnh để rút trích các đặc trưng, áp dụng các tính tốn tốn học cao
cấp để xác định mức độ tương đồng giữa hai ảnh. Hơn nữa, cùng với sự phát triển
của phần mềm và phần cứng, khối lượng ảnh phát triển không ngừng và ngày càng
lớn. Một số lượng lớn các ảnh đang được sử dụng ở trong thư viện ảnh số và trên
web. Vì vậy, nhu cầu tìm kiếm ảnh là một nhu cầu tất yếu. Hiện nay, tra cứu ảnh ứng
dụng trong khá nhiều lĩnh vực như: quản lý biểu trưng (logo), nhận dạng đối tượng,
nhận dạng mặt, ứng dụng trong y khoa, quân sự…[3] , [4] .
Hệ thống tra cứu ảnh dựa trên phương pháp phân cụm là phương pháp đã được
nhiều người nghiên cứu với nhiều cách tiếp cận khác nhau, do đó rất nhiều hệ thống
tra cứu ảnh dựa trên phương pháp này [5] , [6] , [8] .
Phân cụm là một trong những vấn đề cơ bản phổ biến trong các lĩnh vực nhận
dạng mẫu, học máy và khai thác dữ liệu. Hiện tại, trên thực tế có rất nhiều thuật tốn
phân cụm được cơng bố. Tuy nhiên, do khơng tồn tại một thuật tốn phân cụm duy
nhất cho tất cả các loại bộ dữ liệu, những thuật toán phân cụm mới vẫn liên tục được
đề xuất. Kết quả là, người dùng phải chọn thuật toán thích hợp nhất từ nhiều ứng viên
để đạt được kết quả chính xác. Trong thực tế, việc lựa chọn thuật tốn phân cụm dữ
liệu phù hợp là rất khó khăn do người sử dụng thường khơng có một kiến thức tiên
nghiệm về sự đa dạng và phức tạp của dữ liệu. Để phần nào giảm bớt nhược điểm
trên, các thuật toán phân cụm dựa trên đồ thị được đề xuất do ưu điểm ở khả năng xử
lý các bộ dữ liệu đa dạng và có cấu trúc. Bản chất của các thuật toán này là biểu diễn
dữ liệu dựa trên đồ thị và phân cụm các thành phần theo các thuật toán thiết kế riêng
[7] .



2

Đồ thị là những cấu trúc toán học được sử dụng để đại diện cho mối quan hệ
giữa cặp đối tượng từ một tập hợp xác định. Đồ thị chứa đỉnh (đại diện cho các đối
tượng) và các cạnh nối các đỉnh (đại diện cho mối quan hệ giữa các đối tượng cặp).
Đây là phương pháp biểu diễn cấu trúc dữ liệu quan trọng được sử dụng trong rất
nhiều lĩnh vực như khai thác dữ liệu, xử lý ngôn ngữ tự nhiên, tìm kiếm thơng tin và
khai thác thơng tin.
Trong phân cụm, sự tương đồng giữa các đối tượng được phân cụm có thể
được diễn tả như một đồ thị có trọng số. Trong đó, các đối tượng là các đỉnh và sự
tương đồng là trọng số của các cạnh. Trong bài toán tra cứu ảnh, các ảnh trong cơ sở
dữ liệu được biểu diễn như là các đỉnh của đồ thị có trọng số. Phản hồi liên quan của
người dùng được sử dụng để tạo ra các mẫu được gán nhãn. Những mẫu này sẽ được
sử dụng để làm cơ sở tính tốn khả năng lan truyền cho mỗi ảnh. Trong tiếp cận này,
không chỉ sử dụng mối quan hệ từng cặp giữa ảnh truy vấn với các ảnh trong cơ sở
dữ liệu mà nó cịn khai thác cả mối quan hệ giữa tất cả các ảnh với nhau. Các ảnh liên
quan với truy vấn được xem và gom cụm vào cùng nhóm, các ảnh cịn lại là nhóm
khác. Do vậy, hiệu quả tra cứu của chúng được cải thiện.
Với những lý do trên, tác giả đã chọn đề tài “Nghiên cứu phương pháp tra cứu
ảnh dựa trên phương pháp phân cụm đồ thị” làm đề tài nghiên cứu luận văn tốt
nghiệp thạc sĩ chuyên ngành Khoa học máy tính.
2. Đối tượng và phạm vi nghiên cứu của đề tài
 Đối tượng
Nghiên cứu phương pháp tra cứu ảnh dựa trên phương pháp phân cụm đồ
thị.
 Phạm vi

- Đề tài dừng ở mức áp dụng kỹ thuật phân cụm đồ thị vào bài toán tra c ứu

ảnh.

- Thử nghiệm trên cơ sở dữ liệu ảnh wang [14] ; đây là các tập dữ liệu được sử
dụng rộng rãi trong các nghiên cứu lĩnh vực tra cứu ảnh.

- Phân tích đánh giá kết quả việc sử dụng các bộ tham số khác nhau trong thuật
toán.


3

3. Phương pháp luận nghiên cứu

- Phương pháp nghiên cứu lý thuyết: Nghiên cứu tài liệu đã xuất bản, các bài
báo trên tạp chí khoa học và các tài liệu trên mạng Internet có liên quan đến vấn đề
đang nghiên cứu của các tác giả trong và ngoài nước. Từ đó chọn lọc theo ý tưởng
của mình.

- Phương pháp chun gia: Tích cực làm việc với giáo viên hướng dẫn và các
chuyên gia trong lĩnh vực machine learning để luận văn đi đúng hướng và theo đúng
kế hoạch đã định.

- Phương pháp thực nghiệm: xây dựng chương trình cụ thể trên CSDL ảnh
wang, core để thử nghiệm, phân tích, đánh giá kết quả việc sử dụng các bộ tham số
khác nhau trong thuật toán.
4. Nội dung và bố cục của luận văn
Ngoài phần mở đầu, kết luận và hướng phát triển, luận văn được bố cục thành
ba chương chính như sau:

- Chương 1. Tổng quan về tra cứu ảnh: Trong chương này, giới thiệu các vấn

đề cơ bản của tra cứu ảnh bao gồm: tổng quan bài toán tra cứu ảnh, tra cứu ảnh dựa
trên nội dung, trích chọn đặc trưng trong tra cứu ảnh, các phản hồi liên quan cũng
như các lĩnh vực ứng dụng tra cứu ảnh.

- Chương 2. Tra cứu ảnh dựa trên phân cụm đồ thị: Nội dung chính của
chương tập trung làm rõ các kiến thức cơ bản về phân cụm đồ thị, đặc biệt là phương
pháp phân cụm đồ thị quang phổ. Bên cạnh đó, nội dung chương 2 cũng nghiên cứu
tổng hợp kiến thức về đề xuất áp dụng phương pháp tra cứu ảnh sử dụng phân cụm
phổ trong phản hồi liên quan.

- Chương 3: Xây dựng chương trình thử nghiệm: Ở chương này, luận văn tập
trung vào việc mơ tả bài tốn, phân tích, xây dựng và thiết kế mơ hình thử nghiệm
đánh giá hiệu quả tra cứu ảnh trên CSDL ảnh Wang khi sử dụng các phương pháp
trích chọn đặc trưng khác nhau, các độ đo khác nhau, số lượng ảnh trả về khác nhau
cũng như khi áp dụng phân cụm đồ thị trong phản hồi liên quan.


4

CHƯƠNG 1
TỔNG QUAN VỀ TRA CỨU ẢNH
Nội dung chương 1 tập trung tìm hiểu khái quát về tra cứu ảnh dựa trên nội dung
bao gồm: Các phương pháp tra cứu ảnh truyền thống; một số phương pháp trích chọn
đặc trưng ảnh; khoảng cách ngữ nghĩa và phương pháp làm giảm khoảng cách ngữ
nghĩa sử dụng phản hồi liên quan. Đồng thời chương này cũng giới thiệu một số hệ
thống CBIR lớn theo các lĩnh vực đã ứng dụng rộng rãi.
1.1 Tra cứu ảnh dựa trên nội dung
1.1.1 Khái niệm tra cứu ảnh
Thuật ngữ “Tra cứu thông tin” được đưa ra vào năm 1952 và đã giành được sự
quan tâm đặc biệt của hội các nhà nghiên cứu từ năm 1961. Chúng ta có thể dễ dàng

mơ tả một hệ thống đó như là một hệ thống lưu trữ và tra cứu thơng tin. Vì vậy nó
gồm một tập hợp các thành phần tương tác lẫn nhau, mỗi thành phần được thiết kế
cho một chức năng riêng, có mục đích riêng và tất cả các thành phần này có quan hệ
với nhau để đạt được mục đích là tìm kiếm thơng tin trong một phạm vi nào đó [6]
Thế giới đang chứng kiến một sự tiến hóa về lượng, sự sẵn có, độ phức tạp, sự
đa dạng và sự quan trọng của các ảnh trong tất cả các lĩnh vực. Do đó, nhu cầu về các
dịch vụ ảnh trở nên quan trọng hơn bao giờ hết. Các ảnh đóng một vai trò quan trọng
trong một phạm vi rộng các ứng dụng và các lĩnh vực như giáo dục, chăm sóc y tế,
dự báo thời tiết, nghiên cứu về tội phạm, quảng cáo, thiết kế nghệ thuật, web, phương
tiện xã hội và giải trí [2] , [6] [9] . Tuy nhiên, phương tiện trực quan yêu cầu một
lượng xử lý và lưu trữ đáng kể, cần có các phương pháp hiệu quả cao để đánh chỉ số,
lưu trữ, phân tích và tra cứu thông tin trực quan từ các cơ sở dữ liệu ảnh. Do đó, tra
cứu các ảnh nhanh, chính xác và hiệu quả cho tất cả các loại tập ảnh trở thành một
trong những nhiệm vụ thách thức nhất.
Cách tiếp cận ban đầu cho tra cứu ảnh là dựa vào văn bản, trong đó các ảnh
được đánh chỉ số bằng các từ khóa, chủ đề hoặc mã phân loại. Các từ khóa, chủ đề
hoặc mã phân loại này được sử dụng trong quá trình tra cứu. Tuy nhiên, với cơ sở dữ
liệu ảnh lớn và tăng lên nhanh chóng, các khó khăn phải đối mặt của cách tiếp cận tra


5

cứu dựa vào văn bản ngày càng trở nên nghiêm trọng hơn. Bên cạnh đó, q trình này
tốn nhiều nhân lực và thời gian, từ khóa lại mang tính chủ quan và khơng duy nhất,
những người khác nhau có các nhận thức khác nhau về cùng một ảnh.
Để khắc phục các vấn đề này, các nội dung của ảnh (gồm mầu, kết cấu và
hình dạng) được trích rút tự động từ bản thân các ảnh đã được sử dụng cho tra cứu
ảnh. Phương pháp này được gọi là tra cứu ảnh dựa vào nội dung (CBIR - contentbased image retrieval). CBIR cho phép loại đi các khó khăn của tra cứu dựa vào
văn bản trong các cơ sở dữ liệu ảnh lớn và hệ thống CBIR cung cấp các kết quả
chính xác hơn.

1.1.2 Kiến trúc của hệ thống CBIR
Phản hồi thích
hợp
Người
sử dụng

Tạo truy vấn

Cơ sở Dữ liệu
ảnh

Mơ tả
Nội dung
Trực quan
Mơ tả
Nội dung

Các Vector
Đặc trưng
Đánh giá độ
tương tự
Cơ sở Dữ liệu
Đặc trưng
Tra cứu và
Đánh chỉ số

Đầu ra

Kết quảtra cứu


Hình 1.1. Kiến trúc tổng quan về hệ thống tra cứu ảnh
1.1.2.1 Trích chọn đặc trưng
Các đặc trưng của hình ảnh bao gồm các đặc trưng nguyên thủy và các đặc trưng
ngữ nghĩa hoặc đặc trưng logic. Các đặc trưng cơ bản đó là: màu sắc (color), kết cấu
(texture), hình dạng (shape), vị trí khơng gian (spatial location),… được định lượng
trong tự nhiên, chúng có thể được trích xuất tự động hoặc bán tự động. Đặc trưng
logic cung cấp mô tả trừu tượng của dữ liệu hình ảnh ở các cấp độ khác nhau. Thơng
thường, một hoặc nhiều đặc trưng có thể được sử dụng trong từng ứng dụng cụ thể
trên thực tế.


6

1.1.2.2 Đo độ tương tự giữa các ảnh
Hệ thống CBIR dựa trên những đặc điểm nguyên thủy để so sánh độ tương
tự giữa ảnh truy vấn và tất cả các ảnh trong CSDL. Mặc dù vậy sự tương tự hoặc
sự khác nhau giữa các ảnh không chỉ xác định theo một cách. Số lượng của ảnh
tương tự sẽ thay đổi khi yêu cầu truy vấn thay đổi. Chẳng hạn trong trường hợp
hai hình ảnh, một là biển xanh mặt trời mọc và trường hợp khác là núi xanh với
mặt trời mọc.

Hình 1.2. Hình ảnh minh họa độ tương tự giữa 2 hình ảnh
Khi mặt trời được xem xét thì độ tương tự giữa hai ảnh này là cao nhưng nếu
đối tượng quan tâm là biển xanh thì độ tương tự giữa hai ảnh này là thấp. Như vậy
rất khó khăn để tìm ra phương pháp đo độ tương tự giữa hai hình ảnh trên một cách
chính xác đối với tất cả các kiểu yêu cầu của truy vấn. Hay nói cách khác mỗi một
phương pháp tra cứu sẽ có giới hạn của chính nó. Ví dụ rất khó cho cơng nghệ tra cứu
dựa trên màu sắc để tìm ra điểm khác nhau giữa một ảnh là bầu trời màu xanh với
một ảnh là mặt biển xanh. Vì vậy khi đánh giá một phương pháp tra cứu ảnh dựa trên
nội dung cần phải biết rằng hiệu quả của cơng nghệ đó phụ thuộc vào kiểu yêu cầu

tra cứu mà người dùng sử dụng.
1.1.2.3 Đánh chỉ số
Đánh chỉ số là một công việc quan trọng trong tra cứu ảnh dựa trên nội dung,
nó giúp tìm kiếm nhanh ảnh dựa trên đặc trưng trực quan, bởi vì các vector đặc trưng
của ảnh có xu hướng, có số chiều cao và vì vậy nó khơng thích hợp cho các cấu trúc
đánh chỉ số truyền thống. Do đó trước khi lên kế hoạch đánh chỉ số ta phải tìm cách
làm giảm số chiều của các vector đặc trưng.


7

Có nhiều phương pháp làm giảm số chiều của vector đặc trưng, một trong những
công nghệ được sử dụng phổ biến là phân tích thành phần chính PCA. Nó là một
cơng nghệ tối ưu trong việc ánh xạ tuyến tính dữ liệu đầu vào một không gian toạ độ,
các trục được thẳng hàng để phản ánh các biến thể lớn nhất trong dữ liệu. Hệ thống
QBIC sử dụng PCA để làm giảm số chiều của vector đặc trưng hình dạng từ nhiều
chiều thành hai hoặc ba chiều. Ngoài phương pháp PCA ra, nhiều nhà nghiên cứu còn
sử dụng biến đổi KL để làm giảm số chiều trong không gian đặc trưng. Ngồi hai
phương pháp biến đổi PCA và KL, thì mạng nơ ron cũng là cơng cụ hữu ích cho việc
giảm số chiều đặc trưng.
Khi đã giảm được số chiều thì dữ liệu đa chiều được đánh chỉ số. Có nhiều
phương pháp đánh chỉ số bao gồm : K-D-B tree, R-tree, linear quadtrees,... các
phương pháp này đều cho hiệu quả hợp lý với khơng gian có số chiều nhỏ.
1.1.2.4 Giao diện truy vấn
Để biểu diễn ảnh tra cứu từ CSDL cho người dùng thì có rất nhiều cách. Và
những cách thông thường nhất được sử dụng là: Duyệt qua mục; truy vấn bởi khái
niệm; truy vấn bởi bản phác thảo và truy vấn bởi ví dụ,...

- Duyệt qua mục là phương pháp duyệt qua toàn bộ CSDL theo danh mục các
ảnh. Mục đích của phương pháp này là ảnh trong CSDL được phân loại thành nhiều

mục khác nhau theo ngữ nghĩa hoặc nội dung trực quan.

- Truy vấn bởi khái niệm là tra cứu ảnh theo mô tả khái niệm liên quan với từng
ảnh trong CSDL.

- Truy vấn bởi bản phác thảo và truy vấn bởi ví dụ là vẽ ra một bản phác thảo
hoặc cung cấp một ảnh ví dụ từ những ảnh với độ tương tự đặc trưng trực quan sẽ
được trích chọn từ CSDL.
Trong số các phương pháp trên thì phương pháp thì truy vấn bởi bản phác thảo
hoặc bởi ví dụ là phương pháp quan trọng và khó khăn nhất. Phần lớn các nghiên cứu
tra cứu ảnh dựa trên nội dung tập trung đi sâu vào phương pháp này.


8

1.1.2.5 Phản hồi liên quan
Phản hồi liên quan (RF - Relevance Feedback) là một quá trình trực tuyến mà
cố gắng học mục đích của người dùng trong q trình tương tác. Phản hồi liên quan
được sử dụng rộng rãi trong các hệ thống tra cứu thơng tin. Mục đích của nó là mang
người dùng vào lặp tra cứu để giảm khoảng cách ngữ nghĩa giữa những gì mà truy
vấn biểu diễn và những gì người dùng nghĩ. Bằng việc tiếp tục học thông qua tương
tác với các người dùng cuối, phản hồi liên quan đã được chỉ ra là cung cấp cải tiến
hiệu năng đáng kể trong các hệ thống tra cứu ảnh dựa vào nội dung [5] .
Ảnh truy vấn
Truy vấn
Kết quả tra cứu ảnh khởi tạo
Phản hồi
Các mẫu được gán nhãn
(các ảnh liên quan không)


Các tham số điều chỉnh

Các kết quả tra cứu

Phản
hồi

Hình 1.3 Sơ đồ phản hồi liên quan.
Hình 1.3 chỉ ra cơ chế hoạt động của phản hồi liên quan trong tra cứu ảnh dựa
vào nội dung. Khi có kết quả tra cứu khởi tạo, người dùng chọn các ảnh liên quan
trong danh sách kết quả này để làm các mẫu có nhãn (dương hay âm). Dựa trên tập
mẫu huấn luyện này, một thuật toán máy học được thực hiện để điều chỉnh các tham
số. Dựa trên các tham số vừa được học, tra cứu ảnh sẽ tiếp tục được thực hiện. Quá
trình được lặp lại cho đến khi người dùng thỏa mãn.


9

1.2 Trích chọn đặc trưng trong tra cứu ảnh
Các đặc trưng cơ trưng bản của hình ảnh bao gồm: màu sắc (color), kết cấu
(texture), hình dạng (shape), vị trí khơng gian (spatial location),… được định lượng
trong tự nhiên, chúng có thể được trích xuất tự động hoặc bán tự động.
Dưới đây sẽ giới thiệu một số phương pháp trích chọn đặc trưng hình ảnh.
1.2.1 Trích chọn đặc trưng màu
Hình ảnh bao gồm một mảng các điểm ảnh (pixel), và mỗi pixel thể hiện một
màu sắc [2] . Có nhiều khơng gian màu được sử dụng để tính tốn các giá trị màu của
pixel như: không gian chuẩn RGB, không gian trực giác HSV... Các đặc trưng được
lưu giữ dưới dạng các vector biểu diễn cho các thông tin mô tả nội dung ảnh.
Lược đồ màu (Histogram) là đại lượng đặc trưng cho phân bố màu
cục bộ của ảnh. Được định lượng:

H ( I D , Ci ) 

m( I D , Ci )
n( I D )

(1.1)

Trong đó Ci là màu của điểm ảnh, n( I D ) là tổng số điểm ảnh trong ảnh, m( I D , Ci )
biểu diễn số điểm ảnh có giá trị màu Ci . H là lược đồ màu của ảnh.
Độ đo tính tương tự về màu sắc giữa lược đồ màu của ảnh truy vấn H ( I Q ) và
lược đồ màu của ảnh trong CSDL ảnh H ( I D ) được định nghĩa:
M

DH ( I Q , I D ) 

 min( H ( I
j 1

Q

, j ), H ( I D , j ))

(1.2)

M

 H (I
j 1

D


, j)

Công thức (1.2) cho ta thấy, tính tương tự về màu sắc được tính bằng phần
giao của 2 lược đồ màu ảnh truy vấn H(IQ) và ảnh trong cơ sở dữ liệu ảnh H(ID). Kết
quả sẽ là một lược đồ màu thể hiện độ giống nhau giữa 2 ảnh trên.
Tuy nhiên vì lược đồ màu chỉ thể hiện tính phân bố màu tồn cục của ảnh mà
khơng xét đến tính phân bố cục bộ của điểm ảnh nên có thể có 2 ảnh trơng rất khác
nhau nhưng lại có cùng lược đồ màu.


10

Hình 1.4. Hình minh họa 2 ảnh có lược đồ giống nhau đến 70% nhưng khác nhau về
ngữ nghĩa
Để khắc phục được tình trạng này, chúng ta dùng phân hoạch lưới ô vuông trên
ảnh. Lược đồ màu của ảnh là không duy nhất.
1.2.1.1 Vector liên kết màu
Vector liên kết màu (CCV) là lược đồ tinh chế lược đồ màu, chia mỗi ơ màu
(bin) thành 2 nhóm điểm ảnh: Nhóm liên kết màu (coherence pixels) và nhóm khơng
liên kết màu (non-coherence pixels).
Một pixel trong 1 ô màu (bin) được gọi là điểm liên kết màu (coherent) nếu nó
thuộc vùng gồm các màu tương tự với kích thước lớn (thường bằng khoảng 1% kích
thước ảnh). Với mỗi ơ màu (bin) giả sử số điểm liên kết màu là α và số điểm khơng
liên kết màu là β thì vector liên kết màu được xác định:
VC  1 , 1  , 1 , 1  ,...,  n ,  n   , n là số ơ màu (bin)

Trong tìm kiếm ảnh với việc sử dụng đặc trưng vectơ liên kết màu sẽ giúp ta
tránh được tình trạng hai ảnh có cùng lược đồ màu nhưng khác nhau hoàn toàn về
ngữ nghĩa.

Ngồi ra vector liên kết màu cịn giúp giải quyết khuyết điểm về tính khơng
duy nhất của lược đồ màu đối với ảnh. Hai ảnh có thể có chung lược đồ màu nhưng
khác nhau hoàn toàn, đây là khuyết điểm của lược đồ màu. Nhưng với truy vấn theo
đặc trưng vector liên kết màu thì nó sẽ giải quyết được khuyết điểm không duy nhất
này


11

Hình 1.5. Hình minh họa vector liên kết mầu
1.2.1.2 Tương quan màu
Như đã giới thiệu ở trên, lược đồ màu chỉ ghi nhận được sự phân bố màu trong
ảnh mà không chứa các thông tin mối quan hệ về khoảng cách. Để khắc phục hạn chế
đó, đặc trưng tương quan màu biểu diễn sự thay đổi mối quan hệ về không gian giữa
các cặp màu theo khoảng cách.
Cũng giống như đặc trưng vectơ liên kết màu, đặc trưng tương quan màu thể
hiện mối quan hệ chặt chẽ về sự phân bố màu trong ảnh. Chính vì vậy nếu truy tìm
ảnh sử dụng đặc trưng này cũng tránh được tình trạng mà đặc trưng lược đồ màu vấp
phải.
So sánh với lược đồ màu và vector gắn kết màu, tương quan màu cho các kết
quả tra cứu tốt hơn. Tuy nhiên, tương quan màu có độ phức tạp tính tốn cao, do
vector đặc trưng có số chiều cao.
1.2.1.3 Các màu trội
Các lược đồ màu thường rất thưa và thông thường chỉ cần số ít màu là đủ để
miêu tả đặc trưng màu trong một ảnh màu, các màu trội được sử dụng để mô tả đặc
trưng màu của một ảnh [4] [5] . Phân cụm màu được thực hiện để thu các màu trội
đại diện và phần trăm tương ứng của nó. Mỗi màu đại diện và phần trăm tương ứng
này tạo ra một cặp các thuộc tính mơ tả các đặc trưng màu trong một vùng ảnh.
Ký hiệu mô tả đặc trưng lược đồ màu trội F được xác định bởi một tập các cặp
thuộc tính:

F  ci , pi  , i  1,..., N 

(1.3)


12

Ở đây N là tổng số các cụm màu trong ảnh, Ci là một vector màu ba chiều, p i là
phần trăm của nó, và  i pi  1 . Tuy nhiên, phương pháp này cũng cho kết quả tra
cứu khơng cao khi cơ sở dữ liệu ảnh có kích thước lớn, do nó chỉ biểu thị phân bố xác
suất của các màu trội trong ảnh.
1.2.1.4 Mô men màu.
Mô men màu là các mô men thống kê của các phân bố xác suất của các màu.
Các mô men màu được sử dụng trong nhiều hệ thống tra cứu ảnh như QBIC [6] . Các
mô men màu bậc nhất (trung bình), bậc hai (phương sai) và bậc ba (độ lệch), đã được
minh chứng là hiệu quả trong biểu diễn các phân bố màu của các ảnh.
Về mặt toán học, ba mô men đầu tiên được xác định bằng:

1 N
i   fij
N j 1

(1.4)
1

 1
i  
N

 f


1
si  
N

 f

ij

 i 

ij

 i 

2

2



(1.5)

1

3

3




(1.6)

Ở đây fij là giá trị của thành phần màu thứ i của điểm ảnh j và N là số các điểm
ảnh trong ảnh.
Do chỉ số (ba mô men cho một trong ba thành phần màu) được sử dụng để biểu
diễn đặc trưng màu của mỗi ảnh, các mô men màu là một biểu diễn rất nén so với các
đặc trưng màu khác. Do biểu diễn rất nén này, các mơ men màu có thể làm giảm khả
năng phân biệt các ảnh. Thông thường, các mô men màu có thể được sử dụng như sơ
duyệt lần đầu để giảm không gian tra cứu trước khi các đặc trưng màu phức tạp khác
được sử dụng.
1.2.2 Trích chọn đặc trưng kết cấu.
Kết cấu (texture) hay còn gọi là vân, là một đối tượng dùng để phân hoạch ảnh
ra thành những vùng được quan tâm và để phân lớp những vùng đó. Vân cung cấp
thơng tin sự sắp xếp về mặt không gian của màu sắc và cường độ của một ảnh. Vân


13

được đặc trưng bởi sự phân bổ không gian của những mức cường độ trong một khu
vực láng giềng với nhau. Vân của ảnh màu và vân đối với ảnh xám là như nhau. Vân
gồm nhiều vân gốc hay vân phần tử gộp lại, đôi khi được gọi là texel. Xét về vấn đề
phân tích vân, có hai đặc trưng chính yếu nhất:
Cấu trúc vân: là tập hợp những texel được sắp xếp theo một số quy luật nhất
định hay có cấu trúc khơng gian lặp đi lặp lại.
Sự thống kê vân được định nghĩa như sau: là một độ đo về số lượng của sự sắp
xếp những mức xám hay cường độ sáng trong vùng. Một vân bất kỳ có thể coi như là
một tập của những texel thơ trong một quan hệ khơng gian đặc biệt nào đó. Một cấu
trúc không gian của một vân bất kỳ sau đó có thể bao gồm một sự mơ tả của texel và
một đặc tả về không gian. Những texel đương nhiên phải được phân đoạn và quan hệ

không gian phải được tính tốn một cách thật hiệu quả. Texel là những vùng ảnh có
thể trích rút từ một số hàm phân ngưỡng đơn giản. Đặc điểm quan hệ không gian của
chúng có thể miêu tả như sau: Giả sử rằng chúng ta có tập những texel, với mỗi phần
tử của tập hợp này ta có thể đặc trưng bởi một điểm ý nghĩa nhất, điểm này gọi là
trọng tâm. Đặt S là tập của những điểm này. Với mỗi cặp điểm P và Q trong tập S, ta
có thể xây dựng đường phân giác trực giao nối chúng lại với nhau. Đường phân giác
trực giao này chia mặt phẳng thành hai nửa mặt phẳng, một trong chúng là tập của
những điểm gần với P hơn và cái còn lại là tập những điểm gần với Q hơn. Đặt HQ(P)
là nửa mặt phẳng gần P hơn. Ta có thể lặp lại quá trình này với mỗi điểm Q trong S.
Đa giác Voronoi của P là vùng đa giác bao gồm tất cả những điểm gần P hơn những
điểm khác của S và được định nghĩa:
V ( P)  QS ,Q  S H Q ( P)

(1.7)

Các đặc trưng kết cấu có xu hướng ghi nhận các “hoa văn” dạng hạt, vân,…của
những vùng cục bộ (local pattern) trong ảnh. Ví dụ, mặt sân cỏ, tường gạch, vân gỗ,
vân đá,… là những dạng texture khác nhau. Tùy theo cơ sở dữ liệu ảnh như: ảnh
không gian, ảnh y tế,… hệ thống truy vấn sử dụng các đặc trưng texture có tính chất,
đặc thù riêng để đạt hiệu quả truy vấn cao nhất xét về độ chính xác, thời gian xử lý.


14

Các đặc trưng texture đã được nghiên cứu một thời gian dài trong các lĩnh vực
như: xử lý ảnh, computer vision, đồ họa máy tính (computer graphic). Có rất nhiều
giải pháp trích đặc trưng texture của ảnh đã được cơng bố và có thể phân loại thành
hai dạng trích đặc trưng texture: trong miền không gian và trong miền biến đổi của
ảnh
Ví dụ cấu trúc của vân của một số loại lá cây:


Hình 1.6. Cấu trúc vân của lá cây
1.2.2.1 Ma trận đồng hiện mức xám
Ma trận đồng hiện mức xám là ma trận lưu trữ số lần xuất hiện của những cặp
điểm ảnh trên một vùng đang xét. Các cặp điểm này được tính theo những quy luật
cho trước. Ví dụ với ảnh f như sau:
1 1 0 0 
 4 0 2
1 1 0 0 
 ta có ma trận đồng hiện mức xám P(1,0), với P 1, 0    2 2 0 
f 


0 0 2 2 


0
0
2



0022 

(lưu ý là có rất nhiều ma trận đồng hiện mức xám khác nhau cho một ma trận
ban đầu)
Ma trận đồng hiện mức xám trên tạo ra bởi những cặp điểm lệch nhau (1,0)
nghĩa là 2 điểm kế nhau trên cùng hàng. Giá trị tại dòng 0, cột 0 của ma trận đồng
hiện trên là 4 vì ảnh f có 4 cặp điểm 0 0 kế nhau trên cùng một hàng. Tương tự như
vậy, giá trị ở dịng 1, cột 2 của ma trận là 0 vì khơng có cặp 1 2 nào xuất hiện nhau

trên cùng một hàng.
Công thức tổng quát của ma trận đồng hiện mức xám là:


15

Ct i, j  

r, c f  r, c   i, f  r  t , c  t
x



 j

y

(1.8)

trong đó t=(t x , t y )
Ví dụ với ma trận f đã cho như trên thì khi t=(1,0) ta sẽ có ma trận đồng hiện
như ví dụ trên, và khi t=(1,1), nghĩa là tìm những cặp điểm kế nhau trên cùng một
đường chéo, ta có ma trận đồng hiện là:
4 0 2
P 1, 0   2  2 1 1 
 0 1 1 

Từ ma trận đồng hiện mức xám người ta định nghĩa ra các đặc trưng về vân như
sau:


Pt 2 i, j 

(1.9)

  P i, j  log  P i, j 

(2.0)

Energy (năng lượng):


i

Entropy:

t

i

j

2

t

j

Maximan Probability: max  Pt i, j 

(2.1)


i , j 

Contrast (thông thường k=2 và l=1):

 i  j  P i, j 
k

i

Inverset difference moment:


i


j

Pt l  i, j 
i j

k

,i  j

 i  ui  j  ui  Pt i, j 
ai a j

j


i 1

2

(2.5)

 P i, j , a    j  u   P i, j 
2

t

j

(2.3)
(2.4)





ui    i  Pt i, j  , u j    j  Pt i, j  
i 1 
j
i 1 
i



ai    i  ui 


(2.2)

j

i

Correlation:

l

t

j

j 1

j

t

i

(2.6)


×