Tải bản đầy đủ (.doc) (32 trang)

ÁP DỤNG PHẢN HỒI LIÊN QUAN TRONG NÂNG CAO CHẤT LƯỢNG TRA CỨU ẢNH DỰA VÀO NỘI DUNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.21 MB, 32 trang )

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN TỐT NGHIỆP

ĐỀ TÀI: ÁP DỤNG PHẢN HỒI LIÊN QUAN TRONG
NÂNG CAO CHẤT LƯỢNG TRA CỨU ẢNH DỰA VÀO NỘI
DUNG
Sinh viên thực hiện

: NGUYỄN TRỌNG KIÊN

Mã sinh viên

: 1681310038

Giảng viên hướng dẫn

: THS. PHƯƠNG VĂN CẢNH

Ngành

: CÔNG NGHỆ THÔNG TIN

Chuyên ngành

: CƠNG NGHỆ PHẦN MỀM

Lớp

: D11CNPM



Khóa

: 2016-2021

Hà Nội, tháng 12 năm 2021

PHIẾU CHẤM ĐIỂM
0


Sinh viên thực hiện:
Họ và tên

Chữ ký

Ghi chú

Chữ ký

Ghi chú

Nguyễn Trọng Kiên

Giảng viên chấm:
Họ và tên
Giảng viên chấm 1 :

Giảng viên chấm 2 :


Giảng viên chấm 3 :

1


Mục lục
LỜI CAM ĐOAN..........................................................................................4
Lời cảm ơn....................................................................................................5
Lời nói đầu....................................................................................................6
Chương 1. Tổng quan về tra cứu ảnh dựa vào nội dung...............................8
1.1. Bài toán tra cứu ảnh.........................................................................8
1.2. Các đặc trưng trong tra cứu ảnh......................................................9
1.2.1. Đặc trưng màu sắc.....................................................................9
1.2.2. Đặc trưng kết cấu....................................................................11
1.2.3. Đặc trưng hình dạng................................................................12
1.2.4. Đặc trưng khơng gian..............................................................12
1.3. Các độ đo sử dụng trong tra cứu ảnh.............................................14
1.3.1. Khoảng cách Minkoski...........................................................14
1.3.2. Khoảng cách Mahalanobis:.....................................................14
1.3.3. Khoảng cách Cosine................................................................15
1.3.4. Khoảng cách Kullback-Leibler và Jeffrey divergence............15
1.3.5. Khoảng cách Hamming...........................................................15
1.3.6. Khoảng cách Earth Mover......................................................16
1.3.7. Khoảng cách Euclid................................................................17
1.4. Kết luận chương 1.........................................................................18
Chương 2. Phản hồi liên quan và ứng dụng trong tra cứu ảnh dựa vào nội
dung.....................................................................................................................19
2.1. Tra cứu khởi tạo...............................................................................21
2.2. Chiến lược phản hồi liên quan.........................................................23
2.3. Ứng dụng phản hồi liên quan trong tra cứu ảnh dựa vào nội dung.. 25

2.4. Kết luận chương 2............................................................................25
2


Chương 3. Cài đặt và đánh giá hệ thống.....................................................26
3.1. Môi trường thực nghiệm..................................................................26
3.2. Giao diện hệ thống...........................................................................26
3.3. Đánh giá và kết quả thực nghiệm.....................................................27
3.4. Kết luận chương 3............................................................................27
Kết luận và hướng nghiên cứu trong tương lai...........................................28
1. Kết quả đạt được...............................................................................28
2. Những hạn chế và hướng phát triển.................................................28
3. Kết luận............................................................................................28
Tài liệu tham khảo.......................................................................................29

Hình 1.1. Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung.........................9
Hình 2.1. Mơ hình hoạt động hệ thống tra cứu ứng dụng phản hồi liên quan.
.............................................................................................................................20

3


LỜI CAM ĐOAN
Tôi xin cam đoan đồ án “Áp dụng phản hồi liên quan trong nâng cao
chất lượng tra cứu ảnh dựa vào nội dung” là do chính tơi thực hiện dưới sự
hướng dẫn của giảng viên hướng dẫn ThS Phương Văn Cảnh
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn
gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong đồ án. Trong đồ án,
khơng có việc sử dụng tài liệu, cơng trình nghiên cứu của người khác mà khơng
chỉ rõ về tài liệu tham khảo. Các chương trình thực nghiệm đều là do tơi thực

hiện mà có được, khơng sao chép từ bất cứ nguồn nào.

Hà Nội ngày 31 tháng 12 năm 2020
Sinh viên
Nguyễn Trọng Kiên

4


Lời cảm ơn
Trong lời đầu tiên của báo cáo đồ án tốt nghiệp “Áp dụng phản hồi liên
quan trong nâng cao chất lượng tra cứu ảnh dựa vào nội dung” này, em
muốn gửi những lời cám ơn và biết ơn chân thành nhất của mình tới tất cả
những người đã hỗ trợ, giúp đỡ em về kiến thức và tinh thần trong quá trình thực
hiện đồ án.
Trước hết, em xin chân thành cám ơn Thầy Giáo - Ths. Phương Văn Cảnh,
Giảng viên Khoa Công Nghệ Thông Tin, Trường Đại học Điện Lực, người đã
trực tiếp hướng dẫn, nhận xét, giúp đỡ em trong suốt quá trình thực hiện đồ án.
Xin chân thành cảm ơn các thầy cô trong Khoa Công Nghệ Thơng Tin và
các phịng ban nhà trường đã tạo điều kiện tốt nhất cho em cũng như các bạn
khác trong suốt thời gian học tập và làm tốt nghiệp.
Cuối cùng em xin gửi lời cảm ơn đến gia đình, bạn bè, người thân đã giúp
đỡ động viên em rất nhiều trong quá trình học tập và làm Đồ án Tốt Nghiệp.
Do thời gian thực hiện có hạn, kiến thức còn nhiều hạn chế nên Đồ án thực
hiện chắc chắn khơng tránh khỏi những thiếu sót nhất định. Em rất mong nhận
được ý kiến đóng góp của thầy cơ giáo và các bạn để em có thêm kinh nghiệm
và tiếp tục hồn thiện đồ án của mình.
Em xin chân thành cảm ơn!
Sinh viên thực hiện
Kiên

Nguyễn Trọng Kiên

5


Lời nói đầu
Ngày nay, lĩnh vực tra cứu ảnh nhận được sự quan tâm ngày càng lớn. Lý
do một phần là sự phát triển của công nghệ chế tạo thiết bị thu nhận và lưu trữ
ảnh cũng như sự phát triển mạnh mẽ của mạng Internet. Người sử dụng trong
nhiều lĩnh vực khác nhau có cơ hội để truy cập và sử dụng các kho lưu trữ ảnh
thuộc đủ loại chủ đề và với nhiều kiểu định dạng ảnh khác nhau.
Phương pháp tra cứu ảnh theo nội dung (Content-Based Image Retrieval)
sử dụng các nội dung trực quan của ảnh như màu sắc, hình dạng, kết cấu
(texture) và phân bố khơng gian để thể hiện và đánh chỉ số các ảnh. Trong một
hệ thống tra cứu ảnh theo nội dung điển hình các nội dung trực quan của ảnh
được trích chọn và mô tả bằng những véctơ đặc trưng nhiều chiều.
Tập hợp các véctơ đặc trưng của các ảnh trong một cơ sở dữ liệu ảnh tạo
thành cơ sở dữ liệu đặc trưng. Hệ thống sẽ chuyển những mẫu này thành các véc
tơ đặc trưng và tính tốn sự giống nhau (hay độ tương tự) giữa véc tơ đặc trưng
của ảnh mẫu và véc tơ đặc trưng của các ảnh trong cơ sở dữ liệu. Sau cùng việc
tra cứu được tiến hành với sự trợ giúp của các sơ đồ đánh chỉ số. Sử dụng sơ đồ
đánh chỉ số là cách hiệu quả để tìm kiếm trong các cơ sở dữ liệu ảnh.
Cấu trúc đề tài:
Chương 1. Tổng quan về tra cứu ảnh dựa vào nội dung.
1.1. Bài toán tra cứu ảnh.
1.2. Các đặc trưng trong tra cứu ảnh.
1.3. Các độ đo sử dụng trong tra cứu ảnh.
1.4. Kết luận chương 1.
Chương 2. Phản hồi liên quan và ứng dụng trong tra cứu ảnh dựa vào
nội dung.

2.1.

Tra cứu khởi tạo.

2.2.

Chiến lược phản hồi liên quan.

2.3.

Ứng dụng phản hồi liên quan trong tra cứu ảnh dựa vào nội dung.
6


2.4.

Kết luận chương 2.

Chương 3. Cài đặt và đánh giá hệ thống.
3.1. Môi trường thực nghiệm.
3.2. Giao diện hệ thống.
3.3. Đánh gia và kết quả thực nghiệm
3.4. Kết luận chương 3.
Kết luận và hướng nghiên cứu trong tương lai.
- Những kết quả đạt được.
- Những hạn chế và hướng phát triển.
- Kết luận.

7



Chương 1. Tổng quan về tra cứu ảnh dựa vào nội dung.
1.1. Bài toán tra cứu ảnh.
Ngày nay, lĩnh vực tra cứu ảnh nhận được sự quan tâm ngày càng lớn. Lý
do một phần là sự phát triển của công nghệ chế tạo thiết bị thu nhận và lưu trữ
ảnh cũng như sự phát triển mạnh mẽ của mạng Internet. Người sử dụng trong
nhiều lĩnh vực khác nhau có cơ hội để truy cập và sử dụng các kho lưu trữ ảnh
thuộc đủ loại chủ đề và với nhiều kiểu định dạng ảnh khác nhau.
Các dạng nguồn đa phương tiện khác nhau (văn bản, tiếng nói, ảnh, video)
đang tăng lên nhanh chóng, chẳng hạn dữ liệu được trực quan trong các điện
thoại thông minh, các ứng dụng 2D/3D, nội dung web... Thế giới đang chứng
kiến một sự tiến hóa về lượng, sự sẵn có, độ phức tạp, sự đa dạng và sự quan
trọng của các ảnh trong tất cả các lĩnh vực.
Nhu cầu về các dịch vụ ảnh trở nên quan trọng hơn bao giờ hết. Các ảnh
đóng một vai trò quan trọng trong một phạm vi rộng các ứng dụng và các lĩnh
vực như giáo dục, chăm sóc y tế, dự báo thời tiết, nghiên cứu về tội phạm, quảng
cáo, thiết kế nghệ thuật, web, phương tiện xã hội và giải trí. Tuy nhiên, phương
tiện trực quan yêu cầu một lượng xử lý và lưu trữ đáng kể, cần có các phương
pháp hiệu quả cao để đánh chỉ số, lưu trữ, phân tích và tra cứu thơng tin trực
quan từ các cơ sở dữ liệu ảnh. Do đó, tra cứu các ảnh nhanh, chính xác và hiệu
quả cho tất cả các loại tập ảnh trở thành một trong những nhiệm vụ thách thức
nhất.
CBIR là một ứng dụng của các kỹ thuật thị giác máy tính đối với bài tốn
tra cứu ảnh. Mục tiêu của hệ thống CBIR là sử dụng nội dung trực quan của các
ảnh để tìm các ảnh quan tâm từ một cơ sở dữ liệu ảnh lớn. “Tra cứu ảnh dựa vào
nội dung có nghĩa là tra cứu sẽ phân tích nội dung của ảnh hơn là các siêu dữ
liệu như từ khóa, thẻ và các mô tả văn bản đi kèm với ảnh. Thuật ngữ nội dung ở
đây được hiểu là màu, hình dạng, kết cấu hoặc bất cứ một thơng tin nào mà có
thể lấy ra từ bản thân ảnh.


8


Trong CBIR, các ảnh có thể được tra cứu hoặc sử dụng các đặc trưng mức
thấp hoặc sử dụng các đặc trưng mức cao hay các đặc trưng ngữ nghĩa. Kiến trúc
của hệ thống tra cứu ảnh dựa vào nội dung được chỉ ra trên Hình 1.1.1.

Hình 1.1. Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung.
1.2. Các đặc trưng trong tra cứu ảnh.
Các đặc trưng của ảnh bao gồm các đặc tính cơ bản và các đặc tính ngữ
nghĩa/logic. Các đặc tính cơ bản đó là: màu sắc (color), hình dạng (shape), kết
cấu (texture), vị trí khơng gian (spatial location). Chúng có thể được trích xuất
tự động hoặc bán tự động. Đặc tính logic cung cấp mơ tả trừu tượng của dữ liệu
hình ảnh ở các cấp độ khác nhau. Thơng thường, các đặc tính logic được chiết
xuất bằng tay hoặc bán tự động. Một hoặc nhiều đặc trưng có thể được sử dụng
trong ứng dụng cụ thể.
1.2.1. Đặc trưng màu sắc.

Đặc trưng màu là một trong những đặc trưng thị giác rộng nhất do quan
hệ chặt chẽ với các đối tượng ảnh, tiền cảnh, và nền. Màu cũng là một đặc trưng
trực quan mạnh do nó không phụ thuộc vào trạng thái của các nội dung ảnh như
hướng, cỡ và góc. Các biểu diễn màu phổ biến là lược đồ màu, mô men màu,
tương quan màu và ma trận đồng hiện màu.
Không gian màu được phân lớp thành các khơng gian màu tuyến tính (tức
RGB, XYZ, CMY, YIQ và YUV) và các không gian màu phi tuyến (tức L*a*b,
HSV, Nxyz và L*u*v). Không gian màu RGB là một khơng gian màu cộng tính
9


dựa vào ba màu chính: đỏ, xanh lá cây và xanh lam. Các màu khác có thể được

sinh ra bởi sử dụng các màu chính, chẳng hạn, sử dụng đỏ với xanh lam tạo ra
đỏ tươi, xanh lá cây và xanh lam ta ra màu lục và sự kết hợp của màu đỏ, xanh
lá cây và màu xanh lam ở cường độ tối đa tạo ra màu trắng. Tuy nhiên, không
gian RGB không hiệu quả trong việc xử lý các ảnh trong thế giới thực, do đó nó
bị tránh trong nhiều thuật tốn tra cứu ảnh vì nó thiếu khả năng đo lường sự
tương tự về nhận thức. Hơn nữa, khoảng cách trong khơng gian RGB có ít thơng
tin ngữ nghĩa về mặt nhận thức thị giác của con người.
Theo đó, khơng gian màu HSV được sử dụng thay cho khơng gian màu
RGB vì các thành phần màu sắc và độ bão hòa rất gần với nhận thức thị giác của
con người. Mơ hình HSV có ba thành phần cấu thành: “hue” đề cập đến màu
sắc, “saturation” đề cập đến độ sắc nét của màu và “value” là độ sáng của màu
sắc.
Một không gian màu khác, không gian màu YCbCr được chia thành độ
chói (Y) và sắc độ (Cb, Cr), trong khi Cb và Cr lần lượt biểu thị sự khác biệt
màu xanh-vàng và đỏ-lục.
Không gian màu L * a * b * cũng được lấy từ không 9 gian màu XYZ để
đạt được sự đồng nhất về nhận thức. Như trong YCbCr, L * a * b bao gồm một
chiều độ sáng (L) và hai chiều sắc độ (a *, b *) dựa trên quá trình đối lập màu.
Lược đồ màu khơng có thơng tin về sự phân bố khơng gian của màu; do
đó, các biểu diễn khác đã được đề xuất như tương quan màu sắc và sự tương
quan. Các phương pháp này cung cấp thông tin về tương quan không gian của
các cặp màu thay đổi như thế nào đối với khoảng cách trong một ảnh, và chúng
đã cho thấy hiệu quả tra cứu tốt hơn so với lược đồ màu.
Đặc trưng màu sắc là một trong những đặc tính được sử dụng phổ biến
trong tra cứu ảnh. Màu sắc được định nghĩa trên một không gian màu lựa chọn.
Sự đa dạng của không gian màu là có sẵn, chúng thường được dùng cho các ứng
dụng khác nhau. Không gian màu được thể hiện gần gũi hơn với nhận thức của
con người và được sử dụng rộng rãi trong RGB, LAB, HSV… Đặc trưng màu
sắc phổ biến hoặc các mô tả trong hệ thống CBIR bao gồm: ma trận hiệp biến
màu, biểu đồ màu, moment màu, và véc-tơ kết hợp màu.

10


Vào năm 1999, Gevers và cộng sự đã quan tâm đến các đối tượng lấy từ
các điểm quan sát khác nhau và sự chiếu sáng. Theo kết quả, một tập các điểm
bất biến đặc trưng màu đã được tính tốn. Các bất biến màu được xây dựng trên
cơ sở của “hue”, “cặp hue-hue”, và ba đặc trưng màu được tính tốn từ các mơ
hình đối xứng. Việc lựa chọn đặc trưng màu phụ thuộc vào kết quả phân đoạn.
Ví dụ, nếu việc phân đoạn cung cấp đối tượng mà không có màu đồng nhất, thì
rõ ràng màu trung bình khơng phải là lựa chọn tốt. Với các ứng dụng đặc biệt
như cơ sở dữ liệu khn mặt người, thì miền tri thức có thể được khai thác để
gán trọng số cho từng điểm ảnh trong việc tính tốn vùng màu.
Lược đồ màu (Histogram) là đại lượng đặc trưng cho phân bố màu cục bộ
của ảnh. Được định lượng:

Trong đó:
Ci : là màu của điểm ảnh
n(ID) : Tổng số điểm ảnh trong ảnh
m(ID, Ci) : Biểu diễn số điểm ảnh có giá trị màu Ci
H : Lược đồ màu của ảnh
1.2.2. Đặc trưng kết cấu.

Trong thị giác máy tính, khơng có định nghĩa chính xác về kết cấu ảnh,
nhưng nó có thể được xác định như tất cả những gì cịn lại sau khi xem xét các
màu và các hình, hoặc như một mơ tả của cấu trúc ảnh, tính ngẫu nhiên 11
(randomness), hột (granulation), đường thẳng (linearity), độ nhám (roughness)
và tính đồng nhất (homogeneity). Kết cấu ảnh là một đặc trưng ảnh quan trọng
để mơ tả các thuộc tính bề mặt của một đối tượng và mối quan hệ của nó với các
vùng xung quanh. Do các đặc trưng kết cấu được xuất hiện trong nhiều ảnh thực,
chúng rất quan trọng và có lợi ích trong các nhiệm vụ tra cứu ảnh và nhận dạng

mẫu. Tuy nhiên, độ phức tạp tính tốn và độ chính xác tra cứu là những nhược
điểm chính của các hệ thống tra cứu ảnh dựa vào kết cấu.
11


Nhiều phương pháp tra cứu ảnh dựa vào kết cấu đã được đề xuất và được
cải tiến trong ngữ cảnh CBIR. Một số thuật toán được sử dụng phổ biến như mô
tả kết cấu là lọc Gabor, biến đổi Wavelet, ma trận đồng hiện mức, trường ngẫu
nhiên Markov, mô tả lược đồ cạnh, phân rã, và các đặc trưng Tamura.
1.2.3. Đặc trưng hình dạng.

Hình dạng là một khái niệm được định nghĩa khá tốt. Đặc trưng hình dạng
của các ứng dụng nói chung bao gồm: tỷ lệ aspect, tuần hồn, mô tả Fourier, bất
biến thời điểm, phân đoạn đường bao liên tiếp.... Đặc trưng hình dạng là đặc
trưng ảnh quan trọng, mặc dù chúng chưa được sử dụng rộng rãi trong CBIR
như là đặc trưng màu và đặc trưng kết cấu. Đặc trưng hình dạng đã thể hiện tính
hữu ích trong nhiều miền ảnh đặc biệt như là các đối tượng nhân tạo. Đối với
ảnh màu thì được sử dụng trong hầu hết các loại giấy tờ, tuy nhiên, nó lại khó
khăn để áp dụng đặc trưng hình dạng so với màu sắc và kết cấu do sự thiếu
chính xác của phân đoạn. Mặc dù gặp khó khăn, đặc trưng hình dạng chỉđược sử
dụng trong một số hệ thống và cho thấy tiềm năng có ích cho CBIR. Ví dụ, vào
năm 2003, Mezaris và các cộng sự đã sửdụng các đặc trưng hình dạng đơn giản
chẳng hạn như: độ lệch tâm và định hướng. Một hệ thống mà Wang và cộng sự
vào năm 1999 đã sử dụng tiêu chuẩn hoá qn tính của thứ tự từ 1-3 để mơ tả
hình dạng khu vực.
1.2.4. Đặc trưng không gian.

Các vùng hoặc đối tượng với thuộc tính màu sắc và kết cấu tương tự có
thể được nhận ra một cách dễ dàng bởi ràng buộc khơng gian. Ví dụ, các vùng
có bầu trời và biển màu xanh có thể có biểu đồ màu tương tự, nhưng lại có vị trí

khơng gian trong ảnh khác nhau. Vì thế, vị trí khơng gian của các vùng (hoặc
các đối tượng) hoặc mối liên hệ không gian giữa nhiều vùng trong một ảnh thì
rất hữu dụng cho việc tra cứu ảnh. Một biểu diễn của mối liên hệ không gian
được sử dụng rộng rãi nhất là “2D strings” được Chang và các cộng sự đưa ra
vào năm 1987. Kỹ thuật này được xây dựng bằng cách chiếu các ảnh theo trục x
và y. Cho hai tập ký hiệu V và A, được định nghĩa trên phép chiếu. Cứ mỗi ký
hiệu trong V thì được biểu diễn bởi một đối tượng trong ảnh. Còn mỗi ký hiệu
trong A thì được biểu diễn bởi một loại liên hệ khơng gian giữa các đối tượng.
Nếu chúng khác nhau, thì kỹthuật “2DG-string” sẽ cắt tất cả các đối tượng dọc
12


theo đường bao hộp nhỏ nhất và mở rộng mối liên hệ khơng gian vào trong hai
tập tốn tử khơng gian. Một tập tốn tử thì định nghĩa mối liên hệ khơng gian
cục bộ. Và tập cịn lại thì định nghĩa mối liên hệ khơng gian tồn cục, chỉ ra rằng
phép chiếu của hai đối tượng là tách ra, nối liền hoặc được xác định ở cùng vị
trí. Ngồi ra, kỹthuật “2D C-string” thì được đề xuất bởi Lee và các cộng sự vào
năm 1990 để cực tiểu con số đối tượng đã cắt. Cịn kỹthuật “2D B-string” thì lại
được giới thiệu vào năm 1992 bởi Yang và các cộng sự. Kỹ thuật này sẽ biểu
diễn một đối tượng bởi hai ký hiệu, thay thế cho việc mở đầu và kết thúc đường
bao của đối tượng.
Hầu hết các phương pháp trên có thể tạo ra ba kiểu truy vấn. Kiểu truy vấn
0 sẽ tìm tất cả các ảnh chứa đối tượng O 1, O2, ..., On. Kiểu truy vấn 1 sẽ tìm tất
cả các ảnh chứa đối tượng mà có mối liên hệ chắc chắn giữa từng đối tượng
khác, nhưng khoảng cách giữa chúng là khơng có nghĩa. Cuối cùng, kiểu truy
vấn 2 sẽ tìm tất cảcác ảnh mà có liên kết khoảng cách chắc chắn với từng đối
tượng khác.
Ngoài kỹ thuật “2D string” ở trên, cịn có các kỹ thuật khác như: “spatial
quad-tree” được giới thiệu vào năm 1984 bởi Samet, và “symbolic image” được
giới thiệu vào năm 1995 bởi Gudivada và Raghavan.Hai kỹthuật này thì được

dùng để biểu diễn thông tin không gian. Tuy nhiên, tra cứu ảnh dựa trên mối liên
hệ khơng gian của vùng thì vẫn là một bài tốn khó trong nghiên cứu tra cứu ảnh
dựa trên nội dung. Bởi vì, các phân đoạn của đối tượng hoặc các vùng đáng tin
cậy thì thường khơng khả thi trừ khi trong các ứng dụng rất giới hạn. Mặc dù,
một số hệ thống đơn giản phân chia ảnh vào trong các khối con chuẩn, mà chỉ
đạt được thành công nhỏ với phương pháp phân chia không gian từ hầu hết ảnh
tự nhiên không bị nén vào các khối con chuẩn. Để giải quyết vấn đề này, một
phương pháp dựa trên kỹthuật “Radon transform”, một kỹ thuật mà sẽ khai thác
các đặc trưng trực quan của sắp xếp không gian mà không cần phân đoạn phức
tạp. Phương pháp này được đề xuất vào năm 1998 bởi Guo và các cộng sự
1.3. Các độ đo sử dụng trong tra cứu ảnh.
Việc lựa chọn xác định loại độ đo khoảng cách mà sử dụng để so sánh độ
tương tự của từng cặp ảnh còn phụ thuộc vào cấu trúc của các véc tơ đặc trưng
mô tả chúng. Độ đo khoảng cách được áp dụng chỉ ra độ tương tự giữa truy vấn
13


và mỗi ảnh trong cơ sở dữ liệu. Để thu được tra cứu chính xác hơn và hiệu năng
tốt hơn, hệ thống CBIR nên tận dụng độ đo đối sánh tương tự hiệu quả, mô tả và
định lượng tốt các tương tự nhận thức.
1.3.1. Khoảng cách Minkoski.

Được sử dụng rộng rãi để đo sự tương tự trong các hệ thống CBIR. Với hai
ảnh X và Y được cho, được biểu diễn trong không gian dữ liệu bởi hai véc tơ n
chiều (�1, �2, …. ��) và (�1, �2…. ��) tương ứng. Khoảng cách Minkowski
giữa X và Y, d(X, Y) được xác định như sau:
d(X, Y) = (∑ |xi − yi|r n i=1 )1/r (1.1)
Ở đây r là nhân tố chuẩn hóa cho khoảng cách Minkowski, và � ≥ 1. Khi �
= 1, � = 2 và � = ∞, nó trở thành Manhattan (tức �1), Euclid (tức �2) và
Chebyshev (tức �∞) tương ứng.

1.3.2. Khoảng cách Mahalanobis:

Với điểm A và phân bố B được cho, Mahalanobis đo khoảng cách giữa A
và B bằng việc tính bao nhiêu độ lệch chuẩn từ A so với trung bình của B. Cho
ma trận hiệp phương sai M, và hai ảnh X và Y mà biểu diễn trong không gian dữ
liệu bởi hai véc tơ n chiều (�1, �2… ��) và (�1, �2… ��). Khoảng cách
Mahalanobis giữa X và Y được xác định như sau:
�(�, �) = (∑ |�� − ��|��−1 � �=1 )1/� (1.2)
Nếu � = 2 và ma trận hiệp phương sai S là ma trận đơn vị thì nó tương
đương với khoảng cách Euclid, nhưng nếu S là ma trận trực giao thì nó tương
đương với khoảng cách Euclid chuẩn hóa.
1.3.3. Khoảng cách Cosine.

Với hai ảnh X và Y được cho mà biểu diễn trong không gian dữ liệu bởi hai
véc tơ n chiều, khoảng cách được cho bởi góc giữa các véc tơ sử dụng tích vơ
hướng và độ lớn là:
�(�, �) = 1 − ���
� � = 1 − �.� ‖�‖.‖�‖

14


1.3.4. Khoảng cách Kullback-Leibler và Jeffrey divergence.

Dựa trên lý thuyết thông tin, phân kỳ K-L đo lường mức độ trung bình
khơng hiệu quả của việc mã hóa một lược đồ bằng cách sử dụng một lược đồ
khác làm code-book. Cho hai lược đồ � = {ℎ� } và � = {�� }, ở đây ℎ� và �� là
các bin lược đồ, phân kỳ Kullback-Leibler (K-L) được xác định như sau:

Tuy nhiên, phân kỳ K-L nhạy cảm với việc tạo lược đồ và khơng đối xứng.

Phân kỳ Jeffrey có nguồn gốc thực nghiệm là một sự điều chỉnh của phân kỳ KL đối xứng về số, ổn định và mạnh với nhiều và kích thước của các bin lược đồ.
Khoảng cách này đo lường mức độ khó có thể xảy ra khi một phân phối được
lấy ra từ quần thể biểu diễn bởi một phân phối khác và được xác định như sau:

ở đây �� = (ℎ� + ��)/2 và với các thống kê:

1.3.5. Khoảng cách Hamming.

Một không gian dữ liệu hữu hạn F được cho với n thành phần, khoảng cách
Hamming �(�, �) giữa hai véc tơ �, � ∈ � (�) là số các hệ số mà chúng khác
nhau, hoặc có thể được giải thích như số tối thiểu các cạnh trong một đường kết
nối hai đỉnh của không gian n chiều. Trong hệ thống CBIR, khoảng cách
Hamming được sử dụng để tính tốn sự khơng giống nhau giữa các véc tơ đặc
trưng mà biểu diễn các ảnh cơ sở dữ liệu và ảnh truy vấn. Khoảng cách
Hamming mờ là một mở rộng của khoảng cách Hamming cho các véc tơ với các
giá trị thực. Với các giá trị thực � và �, mức độ khác nhau giữa � và �, được
điều chỉnh bởi >0, biểu thị bởi � (�, �) được xác định bởi:

1.3.6. Khoảng cách Earth Mover

Khoảng cách Earth Mover được dựa trên vấn đề vận chuyển từ tối ưu tuyến
tính, mục tiêu cực tiểu chi phí mà có thể được tả để biến đổi một phân phối sang
15


một phần phối khác. Với tra cứu ảnh, ý tưởng này được kết hợp với một lược đồ
biểu diễn của các phân bố mà dựa vào lượng hóa véc tơ để đo độ tương tự nhận
thức. Điều này có thể được phát biểu thành một bài toán qui hoạch tuyến tính
như sau: Cho � = {(�1, ��1)… (��, ���)} là dấu hiệu đầu 20 tiên với m
cụm, ở đây �� là đại diện cụm và ��� là trọng số cụm; và � = {(�1, ��1)…

(��, ���)} là dấu hiệu thứ hai với n cụm; và � = [���] là ma trận khoảng
cách nền ở đây ��� là khoảng cách nền giữa các cụm �� và �� . Để tính một
luồng � = [���], ở đây ��� là luồng giữa �� và �� , mà cực tiểu chi phí tổng thể:

Với các ràng buộc:

Ràng buộc (1) cho phép dịch chuyển các nguồn cung theo một cách từ P
đến Q; Ràng buộc (2) giới hạn lượng nguồn cung mà có thể được gửi đến các
trọng số của nó bởi các cụm trong P; Ràng buộc (3) giưới hạn các cụm trong Q
không nhận nhiều nguồn cung hơn trọng số của chúng; và ràng buộc (4) buộc
phải di chuyển lượng nguồn cung tối đa mà được gọi là luồng tổng. Ngay khi
luồng tối ưu F được tìm thấy và bài tốn vận chuyển được giải, khoảng cách
Earth Mover được xác định như sau:

16


Khoảng cách Earth Mover mạnh hơn các kỹ thuật đối sánh dựa vào lược đồ
và có nhiều ưu điểm so với các xác định khác của các khoảng cách phân bố. 21
Đầu tiên, khoảng cách Earth Mover áp dụng đối với các dấu hiệu mà gộp các
lược đồ nào đó. Điều này giữ được các ưu điểm của nén và mềm dẻo của dấu
hiệu cũng như lợi ích của việc xử lý các cấu trúc có cỡ thay đổi bởi một độ đo
khoảng cách. Thứ hai, chi phí của Earth Mover phản ảnh đúng khái niệm gần mà
không cần sự tồn tại của các vấn đề lượng tử hóa của hầu hết các độ đo khác.
Thứ ba, khoảng cách Earth Mover đưa ra đối sánh từng phần, chẳng hạn, để xử
lý với các hỗn loạn và đút nút trong các ứng dụng tra cứu ảnh. Thứ tư, nếu
khoảng cách nền là một độ đo và với tổng các trọng số ngang bằng của hai dấu
hiệu, khoảng cách Earth Mover cho phép các không gian ảnh với một cấu trúc
độ đo.
1.3.7. Khoảng cách Euclid.


Khoảng cách Euclid giữa hai điểm p và q là chiều dài đoạn thẳng
.
Trong hệ tọa độ Descartes, nếu p = (p1, p2,..., pn) và q = (q1, q2,..., qn) là hai điểm
trong không gian Euclid n chiều, thì khoảng cách từ p đến q bằng:

Dạng chuẩn Euclid là khoảng cách của một điểm đến điểm gốc trong
không gian Euclid:

trong đó phương trình sau cùng là tích vơ hướng. Đây là chiều dài của p,
khi ta xem nó là một Véc-tơ Euclid có gốc nằm ở gốc tọa độ. Khoảng cách khi
đó bằng

1.4. Kết luận chương 1.
Trong chương này đã trình bày về các đặc trưng mức thấp của ảnh, cấu trúc
hệ thống tra cứu ảnh dựa vào đặc trưng mức thấp và phân tích một số phương
17


pháp tra cứu ảnh dựa vào đặc trưng mức thấp. Bên cạnh đó, đồ án cũng đã trình
bày một số phương pháp giảm khoảng cách ngữ nghĩa theo cách tiếp cận phản
hồi liên quan. Một số kỹ thuật tra cứu ảnh với ngữ nghĩa mức cao đã được phân
tích.

18


Chương 2. Phản hồi liên quan và ứng dụng trong tra cứu
ảnh dựa vào nội dung.


19


Hình 2.1. Mơ hình hoạt động hệ thống tra cứu ứng dụng phản hồi liên quan.
20


2.1. Tra cứu khởi tạo.
Một hệ thống tra cứu dựa vào nội dung tiêu biểu được chia thành hai pha:
trích rút đặc trưng ngoại tuyến và tra cứu ảnh trực tuyến. Trong pha ngoại tuyến,
hệ thống trích rút tự động các thuộc tính trực quan ở mức thấp (mầu, kết cấu và
hình dạng). Trong pha tra cứu ảnh, người dùng có thể cung cấp một ảnh mẫu cho
hệ thống tra cứu để tìm kiếm các ảnh mong muốn. Hệ thống tra cứu ảnh biểu
diễn ảnh mẫu này bởi véc tơ đặc trưng và khoảng cách (hoặc độ tương tự) giữa
các véc tơ đặc trưng của ảnh mẫu và của ảnh trong cơ sở dữ liệu đặc trưng được
tính tốn. Cuối cùng hệ thống phân hạng các ảnh theo thứ tự tăng dần của
khoảng cách hay giảm dần của độ tương tự và trả về cho người dùng. Nếu không
thỏa mãn với kết quả tra cứu, người dùng có thể cung cấp phản hồi liên quan
cho hệ thống tra cứu, hệ thống sẽ học nhu cầu thông tin của người dùng. Hình

21


22


Tiến hành tra cứu khởi tạo với tập ảnh dataset và ảnh truy vấn có kích
thước 120x80 pixels. Các ảnh sử dụng ba đặc trưng cơ bản là màu sắc
(histogram), hình dạng (hu moment), kết cấu (haralick) để phân tích ngữ nghĩa.
Kết quả phân tích trả về dưới dạng vector có 531 chiều, trong đó đặc trưng màu

sắc chiếm 512 chiều, đặc trưng hình dạng chiếm 7 chiều, đặc trưng kết cấu
chiếm 13 chiều. Sau khi phân tích ta được một vector trích chọn đặc trưng của
ảnh truy vấn và một mảng n vector trích chọn đặc trưng của tập ảnh dataset (với
n là số ảnh trong tập dataset).
Sau khi có được kết quả phân tích, tiến hành tính trung bình các trích
chọn đặc trưng trong tập dataset với trích chọn đặc trưng của ảnh truy vấn. Việc
tính khoảng cách sẽ biết được độ tương tự giửa các ảnh trong tập dataset với ảnh
truy vấn, từ đó ta có thể xác định được những ảnh có khả năng mang ngữ nghĩa
giống với ảnh truy vấn. Độ đo Euclid là phương pháp có thể tính nhanh chóng,
chính xác và thuận tiện với cơng thức:

Sau khi tính tốn khoảng cách, ta sẽ có tập ảnh kết quả với độ tương tự
giảm dần (hay khoảng cách so với ảnh truy vấn là tăng dần). Đây chính là tập
truy vấn khởi tạo.
2.2. Chiến lược phản hồi liên quan.
Phản hồi liên quan (RF - Relevance Feedback) là một quá trình trực tuyến
mà cố gắng học mục đích của người dùng trong q trình và là một công cụ
mạnh được sử dụng truyền thống trong các hệ thống tra cứu thơng tin. Mục đích
của nó là mang người dùng vào lặp tra cứu để giảm khoảng cách ngữ nghĩa giữa
những gì mà truy vấn biểu diễn và những gì người dùng nghĩ. Bằng việc tiếp tục
học thông qua tương tác với các người dùng cuối, phản hồi liên quan đã được
chỉ ra là cung cấp cải tiến hiệu năng đáng kể trong các hệ thống CBIR.
Khi có kết quả tra cứu khởi tạo, người dùng chọn các ảnh liên quan trong
danh sách kết quả này để làm các mẫu có nhãn. Dựa trên tập mẫu huấn luyện
này, một thuật toán máy học được thực hiện để điều chỉnh các tham số. Dựa trên
các tham số vừa được học, tra cứu ảnh được thực hiện. Quá trình được lặp lại
23


cho đến khi người dùng thỏa mãn. Hình 1.1.2 chỉ ra cơ chế hoạt động của phản

hồi liên quan trong CBIR

Hình 2.2. Cơ chế hoạt động của phản hồi liên quan trong CIBR.
Để bắt chước hành vi của con người, thực nghiệm thực hiện mô phỏng
phản hồi liên quan trong thử nghiệm. Đầu tiên, một truy vấn khởi tạo sẽ được
thực hiện để tạo ra kết quả truy vấn khởi tạo. Tiếp theo, để mô phỏng tương tác
người dùng bằng việc chọn k ảnh liên quan từ kết quả tra cứu khởi tạo dựa vào
tập thực sự. Những ảnh liên quan từ việc phản hồi sẽ phân thành các cụm và
trọng tâm của các cụm được dùng để hình thành truy vấn tiếp theo và được thực
hiện theo cách tiếp cận truy vấn đa điểm lõm, sau đó những kết quả tra cứu được
gộp lại để tạo ra một danh sách kết quả tổng hợp.
Phản hồi liên quan được thực hiện theo chiến lược chọn những ảnh liên
quan đầu tiên (dựa vào tập thực sự) trong danh sách kết quả. Trong chiến lược
này, trường hợp xấu nhất là khơng có ảnh liên quan nào ngoài ảnh truy vấn và
24


×