Xây dựng hệ thống truy vấn ảnh tương tự theo nội dung dựa trên cấu trúc cây r tree

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.85 MB, 49 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÀ RỊA-VŨNG TÀU

BÁO CÁO
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG

XÂY DỰNG HỆ TRUY VẤN ẢNH TƯƠNG TỰ THEO
NỘI DUNG DỰA TRÊN CẤU TRÚC CÂY R-TREE

Chủ nhiệm đề tài: Nguyễn Anh Tuấn
Giáo viên hướng dẫn: ThS Lê Thị Vĩnh Thanh

BÀ RỊA-VŨNG TÀU, 2020

THÔNG TIN ĐỀ TÀI
Tên đề tài: Xây dựng hệ truy vấn ảnh tương tự theo nội dung dựa trên cấu trúc cây RTree.
Mã đề tài: SV2020-189
Thời gian nghiên cứu: Từ 02-2020 đến 10-2020.
Chủ nhiệm:
- Họ và tên: NGUYỄN ANH TUẤN
- Đơn vị công tác: Lớp DH18LT, Khoa CNKT-NNCNC
- Mã số sinh viên: 18033747
- Điện thoại: 0333326585
- Email:
Các thành viên tham gia:
1. Nguyễn Anh Tuấn, sinh viên lớp DH18LT (MSSV: 18033747)
2. ThS Lê Thị Vĩnh Thanh, giảng viên Khoa Công nghệ Kỹ thuật – Nơng nghiệp
Cơng nghệ cao.

Nội dung chính:

Hình ảnh mang một thơng điệp truyền tải ý nghĩa có tính xã hội rất cao. Khơng
những thế, nó giúp mọi người cập nhật thông tin và giữ liên lạc với nhau. Với dữ liệu
hình ảnh phát triển mỗi ngày, nhu cầu chia sẻ và tìm kiếm ảnh của chúng ta rất lớn vì
những lợi ích mà hình ảnh mang lại trong các lĩnh vực ứng dụng. Chính vì vậy, chúng
tơi đã nghiên cứu và xây dựng mơ hình cho bài toán truy vấn ảnh tương tự. Điều này
giúp cải thiện khả năng tìm kiếm và truy xuất ảnh trong kho ảnh ngày càng mở rộng của
chúng ta.
Để thực hiện, chúng tơi đã xây dựng và phát triển mơ hình tìm kiếm ảnh dựa trên
cây cấu trúc cây R-Tree; thuật toán về tạo cây; thuật tốn duyệt và tìm kiếm. Vận dụng
kiến thức tích lũy và sự hướng dẫn, hỗ trợ từ Giảng viên hướng dẫn, chúng tôi kế thừa
và cải tiến cấu trúc dữ liệu cây R-Tree, các tính chất và phân bố dữ liệu lên cây để đảm
bảo hiệu quả của hệ truy vấn ảnh tương tự theo nội dung.

LỜI NĨI ĐẦU
Ngày nay, trong cuộc cách mạng cơng nghiệp 4.0 và sự bùng nổ của các ngành
Công nghệ thông tin, điện tử… Đã làm cho đời sống con người ngày càng được nâng
cao. Trong đó, Trí tuệ nhân tạo, đang ngày càng chứng tỏ được giá trị của mình khi có
những ứng dụng vào nhiều lĩnh vực trong đời sống hàng ngày và đem lại kết quả vượt
trội.
Trí tuệ nhân tạo có rất nhiều ứng dụng và cách triển khai. Nhưng nổi bật trong số
đó là giải quyết bài tốn tìm kiếm ảnh tương tự. Đó là khi chúng ta đưa ra một hình ảnh
và mong muốn tìm được những hình ảnh khác có tính chất tương đồng. Nó có thể ứng
dụng vào nhiều lĩnh vực như: trong Y khoa để chẩn đoán bệnh, trong thực phẩm để phát
hiện hàng thật/giả/kém chất lượng, trong nông nghiệp để phát hiện sâu bệnh, các bài
tốn điểm danh bằng nhận diện khn mặt…
Là một sinh viên thuộc Khoa CNKT-NNCNC của Trường Đại học Bà Rịa-Vũng
Tàu, việc nghiên cứu và áp dụng những gì đã học vào đời sống thực tiễn là một điều rất
cần thiết trong bối cảnh con người làm chủ cơng nghệ hiện nay. Để góp phần tạo nên
nền tảng và đam mê trong việc học tập và nghiên cứu về Trí tuệ nhân tạo, em đã lựa

chọn nghiên cứu về bài toán “XÂY DỰNG HỆ TRUY VẤN ẢNH TƯƠNG TỰ THEO
NỘI DUNG DỰA TRÊN CẤU TRÚC CÂY R-TREE” với sự hướng dẫn của ThS Lê
Thị Vĩnh Thanh (Giảng viên Khoa CNKT-NNCNC).
Trong q trình thực hiện, có nhiều khó khăn vấp phải, điều này kích thích sinh viên
khả năng tư duy logic và sáng tạo để tìm ra phương án tối ưu, đồng thời chủ động tìm
hiểu, học hỏi từ những người đi trước những gì bản thân cịn thiếu. Tuy nhiên với những
hạn chế về kinh nghiệm thực tế, nên khơng thể tránh khỏi những sai sót. Do đó em rất
mong nhận được những góp ý của Q Thầy/Cơ và các bạn sinh viên để em có thể hồn
thiện hơn nữa mục tiêu của mình.

MỤC LỤC
CHƯƠNG I. MỞ ĐẦU ..................................................................................................1
1.1. Đặt vấn đề .............................................................................................................1
1.2. Phương pháp nghiên cứu.......................................................................................1
1.3. Tính cấp thiết của đề tài ........................................................................................2
1.4. Mục tiêu, nhiệm vụ và giới hạn của phần mềm ....................................................3
CHƯƠNG II. TỔNG QUAN BÀI TỐN TÌM KIẾM ẢNH THEO NỘI DUNG ..5
2.1. Giới thiệu...............................................................................................................5
2.2. Tra cứu ảnh dựa vào văn bản ................................................................................5
2.3. Tra cứu ảnh dựa vào nội dung...............................................................................7
2.4. Trích xuất đặc trưng ảnh .......................................................................................8
2.5. Độ đo tương đồng giữa 2 vector đặc trưng ...........................................................9
2.6. Thuật toán gom cụm K-Means............................................................................10
CHƯƠNG III. HỆ TRA CỨU ẢNH DỰA TRÊN CẤU TRÚC CÂY R-TREE ....11
3.1. Các khái niệm cơ bản về cây R-Tree [20]...........................................................11
3.1.1. Giới thiệu .....................................................................................................11
3.1.2. Cây R-Tree nguyên thủy .............................................................................11
3.1.3. R-Tree trong dữ liệu không gian .................................................................13
3.1.4. R-Tree trong dữ liệu đa phương tiện ...........................................................14

3.1.5. R-Tree trong kho dữ liệu (Data Warehousing) và khai phá dữ liệu (Data
Mining) ..................................................................................................................15
3.1.6. Kết hợp các kỹ thuật khai phá dữ liệu vào cây R-Tree ứng dụng cho bài
toán truy vấn ảnh. ..................................................................................................15
3.2. Một phương pháp cải tiến cho bài tốn tìm kiếm ảnh dựa trên cây R-Tree .......17
3.2.1. Cấu trúc cây RG-Tree ..................................................................................17
3.2.2. Một cải tiến cấu trúc cây RG-Tree ..............................................................20
3.3. Cài đặt cấu trúc cây KNN_R-Tree ......................................................................23
3.4. Các thuật toán xử lý trên cây KNN_R-Tree .......................................................24
3.4.1. Thuật toán chèn một phần tử vào cây KNN_R-Tree...................................24
3.4.2. Thuật toán cập nhật tâm cụm ......................................................................26
3.4.3. Thuật tốn Tìm kiếm ảnh tương tự trên cây KNN_R-Tree .........................27
3.5. Kết quả thực nghiệm ...........................................................................................29
3.5.1. Cài đặt thực nghiệm.....................................................................................29
3.5.2. Các giao diện thực nghiệm ..........................................................................30

3.5.3. Phân tích kết quả thực nghiệm ....................................................................33
CHƯƠNG IV. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .......................................37
4.1. Những mặt đã làm được ......................................................................................37
4.2. Những mặt tồn tại................................................................................................37
4.3. Hướng phát triển .................................................................................................37
4.4. Kết luận ...............................................................................................................38
TÀI LIỆU THAM KHẢO...........................................................................................39

DANH MỤC HÌNH ẢNH
Hình 1. Minh họa tìm kiếm ảnh tương tự theo văn bản ..................................................6
Hình 2. Minh họa tìm kiếm ảnh dựa trên nội dung .........................................................7
Hình 3. Mơ tả vùng không gian lưu trữ và các dữ liệu bên trong nó ............................12

Hình 4. Cây R-Tree tương ứng ......................................................................................12
Hình 5. Minh họa độ đo giảm sự sai biệt trong KNN_R-Tree ......................................21
Hình 6. Internal (In) Node .............................................................................................23
Hình 7. Leaf Node .........................................................................................................23
Hình 8. Cây KNN_R-Tree .............................................................................................24
Hình 9. Mơ tả ảnh gốc và các phân vùng của nó...........................................................27
Hình 10. Mơ hình truy vấn ảnh .....................................................................................28
Hình 11. Giao diện thiết lập các thơng số để thực hiện việc tạo cây KNN_R-Tree .....30
Hình 12. Giao diện đọc dữ liệu các vector từ DataSet và tiền xử lý .............................31
Hình 13. Giao diện thêm các vector từ DataSet vào cây KNN_R-Tree ........................31
Hình 14. Giao diện tìm kiếm ảnh tương tự dựa trên cây KNN_R-Tree. .......................32
Hình 15. Giao diện xuất kết quả thực nghiệm với DataSet ...........................................32
Hình 16. Giao diện kết quả tìm kiếm ảnh tương tự .......................................................33
Hình 17. Giá trị trung bình của Precision, Recall, F-measure của tập dữ liệu
ImageCLEF ...................................................................................................................34

DANH MỤC TỪ VIẾT TẮT
CBIR

Content-based Image Retrieval

CNN

Convolution Neural Network

DCC

Dynamical Clustering Center

DIS

Distributed Information Systems

DNN

Deep Neural Network

GEMINI

Generic Multimedia Indexing

GIS

Geographic Information System

KNN

K - Nearest Neighbors

LBS

Location Based Service

RG-Tree

Region Growth Tree

SOM

Self-Organizing Maps

TBIR

Text-based Image Retrieval

VLSI

Very Large Scale Integrated

DANH MỤC BẢNG BIỂU
Bảng 1. Các giá trị ngưỡng áp dụng cho chương trình thực nghiệm ………. 33
Bảng 2. Hiệu suất truy vấn ảnh của phương pháp đề xuất trên tập ảnh
ImageCLEF…………………………………………………………………. 34
Bảng 3. Hiệu suất truy vấn ảnh trung bình trên tập ảnh ImageCLEF ……… 36
Bảng 4. So sánh độ chính xác giữa các phương pháp trên bộ dữ liệu
ImageCLEF.………………………………………………………………….36

CHƯƠNG I. MỞ ĐẦU
1.1. Đặt vấn đề
Một vấn đề quan trọng cần phải được nghiên cứu trong hệ thống này đó là sử dụng
các khối dữ liệu số lớn, đặc biệt là dữ liệu về ảnh số (image). Nhu cầu sử dụng để phân
tích và mơ tả cho ngữ nghĩa hình ảnh trên thế giới và Việt Nam tăng cao.
Theo đó, dữ liệu số trên tồn cầu đã được gia tăng không ngừng và đạt đến một khối
lượng khổng lồ dẫn đến bài toán khai phá dữ liệu và tra cứu thông tin cần phải được giải
quyết. Theo IDC (International Data Corporation), dữ liệu toàn cầu năm 2012, 2013
đạt được 2.8 zettabytes và 4.4 zettabytes; ước tính đến cuối năm 2020 dữ liệu toàn cầu
gấp 300 lần so với năm 2005, tức là tăng từ 130 exabytes lên đến 40,000 exabytes (40

nghìn tỷ gigabytes = 40 zettabytes), trong đó dữ liệu được tạo ra từ các thiết bị mobile
chiếm 27%; đến năm 2025, dữ liệu toàn cầu khoảng 163 zettabytes - tăng gấp 10 lần so
với năm 2017 [8].
Mặt khác, dữ liệu đa phương tiện (văn bản, hình ảnh, âm thanh và video) đã được
phát triển nhanh chóng trên nhiều hệ thống khác nhau, như điện thoại thông minh, hệ
thống mô phỏng đối tượng 2D, 3D, WWW, và các thiết bị viễn thông...
Ảnh số đã trở nên thân thuộc với cuộc sống của con người và được ứng dụng trong
nhiều hệ thống tra cứu thông tin đa phương tiện như Hệ thống thông tin bệnh viện
(Hospital Information System), Hệ thống thông tin địa lý (Geographic Information
System), Hệ thống thư viện số (Digital Library System), ứng dụng y sinh, phân tích hình
ảnh trong thực phẩm, phân tích các loại động thực vật, trong giáo dục đào tạo, giải trí…
[10, 13].
1.2. Phương pháp nghiên cứu
Tổng hợp lý thuyết của các cơng trình nghiên cứu liên quan và phương pháp thực
nghiệm. Dữ liệu và thông tin khoa học được thu thập và tổng hợp từ các bài báo, tạp chí
khoa học chuyên ngành của các Trường Đại học trong nước và ngoài nước, qua sự trao
đổi, định hướng của Thầy/Cô hướng dẫn trong lĩnh vực nghiên cứu.
Việc tổng hợp lý thuyết, chúng tôi lựa chọn cách tiếp cận thông tin đã được áp dụng
thành cơng, thử nghiệm và phân tích trên cơ sở khách quan để đưa ra nhận định, kết luận
phù hợp cho đề tài.

1

Thực nghiệm là phương pháp đưa ra chứng minh về kết quả tìm kiếm cũng như mức
độ khả thi của nghiên cứu. Đây là phương pháp khá quan trọng tạo quyết định tính khả
thi của đề tài.
1.3. Tính cấp thiết của đề tài
Theo WordStream, năm 2019, mỗi ngày có 8.95 triệu ảnh, video được chia sẻ trên
Instagram và cho đến nay có hơn 40 tỷ hình ảnh. Theo thống kê của Google, khoảng 93

triệu ảnh được tạo ra mỗi ngày kể từ 2014; theo như tổ chức Gigaom, năm 2017, một
người trung bình tạo ra 630 ảnh trên điện thoại; cũng theo tổ chức Mylio, năm 2017,
mỗi năm một người tạo ra ít nhất 1000 ảnh, mỗi năm tạo ra ít nhất 1 nghìn tỷ hình ảnh…
Năm 2015, tổng số hình ảnh tồn cầu đạt 3.2 nghìn tỷ; năm 2016, có 3.5 triệu hình ảnh
được chia sẻ trong mỗi phút và có 2.5 nghìn tỷ hình ảnh được chia sẻ và lưu trữ trực
tuyến. Trong năm 2017, thế giới đã tạo ra 1.2 nghìn tỷ hình ảnh và tổng số ảnh tồn cầu
đến năm 2017 là 4.7 nghìn tỷ; trong đó, các hình ảnh được tạo ra từ thiết bị moblie là
90% [2, 6, 7].
Kích thước cũng như số lượng ảnh ngày càng được gia tăng nên cần phải có nhiều
hệ thống xử lý phức tạp nhằm đáp ứng yêu cầu của người dùng. Vì vậy, cần phải có các
hệ thống truy vấn ảnh số tự động trên các thiết bị cũng như trong các hệ thống đa phương
tiện. Việc tra cứu ảnh để tìm ra tập ảnh tương tự và trích xuất ngữ nghĩa hình ảnh là một
bài tốn quan trọng trong các hệ thống đa phương tiện và phù hợp với xu thế của xã hội
hiện đại. Bài tốn khai phá dữ liệu và tra cứu các thơng tin liên quan đến hình ảnh phải
được quan tâm giải quyết; việc phân loại và tra cứu ngữ nghĩa là một trong những bài
toán quan trọng của nhiều hệ thống đa phương tiện [5].
Nhiều hệ truy vấn ảnh theo ngữ nghĩa đã được công bố và ứng dụng trong nhiều
lĩnh vực khác nhau như: truy vấn hình ảnh dựa trên đặc trưng ngữ nghĩa mức cao và áp
dụng cho ảnh y khoa [9], truy vấn ảnh y khoa sử dụng mạng nơ-ron tích chập CNN
(Convolutional Neural Network) [4], ứng dụng ngữ nghĩa hình ảnh trong hệ thống thơng
tin phân tán DIS (Distributed Information Systems) [1], hệ truy vấn ảnh y khoa theo nội
dung M-CBIR (Medical Content-based Image Retrieval) dựa trên cấu trúc vân ảnh và
các thơng tin hình ảnh trên ontology [11]…
Trong mỗi lĩnh vực khác nhau, hệ thống đa phương tiện cần phải trích xuất ngữ
nghĩa của các đối tượng nhằm mơ tả các nội dung. Bài tốn tìm kiếm ảnh theo ngữ nghĩa
được thực hiện bằng cách trích xuất đặc trưng hình ảnh tạo ra ngữ nghĩa; sau đó tra cứu
2

các hình ảnh liên quan theo ngữ nghĩa thị giác và trích xuất các thơng tin mơ tả nội dung

hình ảnh [3, 12, 14]. Vấn đề đầu tiên của hệ truy vấn theo ngữ nghĩa là trích xuất thơng
tin thị giác và chuyển thành ngữ nghĩa mô tả nội dung cho hình ảnh; vấn đề thứ hai là
đó là mơ tả thơng tin ngữ nghĩa và tìm kiếm các hình ảnh liên quan [13].
Trong bối cảnh “Cách mạng công nghiệp 4.0” và tương lai, thế giới đang ngày càng
ứng dụng mạnh mẽ Trí tuệ nhân tạo vào đời sống để đem lại những trải nghiệm tuyệt
vời nhất, mang tính “nhân tạo” hơn là lập trình máy móc. Giúp xử lý những vấn đề phức
tạp – có tính ứng dụng cao. Bài tốn tìm kiếm ảnh tương tự theo đó lại ngày càng phát
triển do ứng dụng của nó rất đa dạng trong đời sống. Từ giải trí cho đến học tập, cải
thiện sức khoẻ, đảm bảo an ninh, phát triển kinh tế…Khi nắm bắt được xu thế đó, ta có
thể tạo ra những ứng dụng giúp ích rất nhiều cho con người.
1.4. Mục tiêu, nhiệm vụ và giới hạn của phần mềm
Mục tiêu chung của đề tài nghiên cứu là xây dựng một mơ hình tra cứu, phương
pháp tìm kiếm ảnh tương tự theo nội dung hình ảnh dựa theo cấu trúc cây R-Tree.
Mục tiêu cụ thể:
• Xây dựng mơ hình cho bài tốn tìm kiếm ảnh tương tự theo nội dung dựa trên
cấu trúc cây R-Tree.
• Nghiên cứu thuật tốn xây dựng cây, thuật tốn tìm kiếm ảnh tương tự và
phương pháp trích xuất đặc trưng hình ảnh vào bài tốn tìm kiếm ảnh nhằm
mục đích cải thiện kết quả tìm kiếm.
• Xây dựng ứng dụng thực nghiệm dựa trên bộ ảnh ImageCLEF.
Nghiên cứu được thực hiện trên các nội dung:
• Nghiên cứu cấu trúc dữ liệu lưu trữ đặc trưng hình ảnh và phân cụm dữ liệu
trên mơ hình cây R-Tree.
• Phân tích, vận dụng kỹ thuật, chuẩn hóa trong q trình rút trích đặc trưng
hình ảnh.
• Nghiên cứu thuật tốn xây dựng cây R-Tree.
• Áp dụng thuật tốn tìm kiếm trên cây nhằm tìm kiếm ảnh tương tự theo nội
dung.
• Thực nghiệm kết quả tra cứu trên bộ ảnh dữ liệu ImageCLEF với 20.000 ảnh
được chia thành 276 phân lớp.

3

Đối tượng nghiên cứu:
Phạm vi nghiên cứu bao gồm các thuật toán máy học, cấu trúc dữ liệu cây và thực
nghiệm trên bộ ảnh ImageCLEF với 20.000 ảnh và 276 phân lớp.
• Thuật tốn gom cụm K-Means.
• Cấu trúc dữ liệu cây phân cụm R-Tree và các thuật toán xây dựng cây.
• Phương pháp rút trích xuất đặc trưng hình ảnh thành véc-tơ.
• Dữ liệu ảnh, tập dữ liệu ImageCLEF (20.000 ảnh và 276 phân lớp).
• Độ đo tương tự Euclide giữa hai véc-tơ.
• Bài tốn tìm kiếm ảnh tương tự theo nội dung.
• Xây dựng thực nghiệm dựa trên ngơn ngữ lập trình C#.

4

CHƯƠNG II. TỔNG QUAN BÀI TỐN TÌM KIẾM
ẢNH THEO NỘI DUNG
2.1. Giới thiệu
Trong thập niên vừa qua, một kho dữ liệu ảnh khổng lồ đang được chia sẻ rộng rãi
trên Word Wide Web. Các nhà khoa học trên thế giới đã nghiên cứu rất nhiều các
phương pháp truy vấn hình ảnh với mục đích nâng cao hiệu quả và tính chính xác của
tìm kiếm ảnh. Các kỹ thuật tìm kiếm hình ảnh thường được sử dụng chủ yếu dựa trên
các từ khóa [15]. Những kỹ thuật này sử dụng danh sách từ khóa để mơ tả nội dung
thơng tin, hệ thống tìm kiếm dựa trên từ khố khớp với tìm kiếm văn bản của người
dùng để mô tả văn bản của hình ảnh và trả lại tất cả các hình ảnh có mơ tả phù hợp. Tuy
nhiên, các nhà nghiên cứu đã chỉ ra một số hạn chế của kỹ thuật này, như tính chủ quan
của các mơ tả (metadata), sự mơ hồ của ngơn ngữ tự nhiên, có thể các kết quả trả lại có

chứa hình ảnh khơng liên quan khi mơ tả khơng chính xác… Chính vì thế, các nhà khoa
học đã nghiên cứu các hệ thống tìm kiếm hình ảnh dựa trên nội dung CBIR (ContentBased Image Retrieval), sử dụng các tính năng trực quan cấp thấp như màu sắc, kết cấu,
hình dạng và vị trí,… được trích xuất từ các điểm ảnh vào chỉ mục và tìm kiếm các hình
ảnh sử dụng các kỹ thuật xử lý và phân tích hình ảnh [16, 17].
Việc tìm kiếm hình ảnh dựa trên nội dung (CBIR) đã được nghiên cứu trong nhiều
năm tập trung vào việc trích xuất và so sánh các tính năng từ các hình ảnh [18, 19]. Các
tính năng được tự động trích ra từ các điểm ảnh bằng cách sử dụng màu sắc chiếm ưu
thế, kết cấu hoặc hình dạng chi phối (tức là kỹ thuật này tập trung vào các tính năng
trực quan của hình ảnh) và được sử dụng trong các biện pháp tương tự đã được lựa chọn
cụ thể để lấy các hình ảnh tương tự.
Tìm kiếm ảnh là tra cứu các hình ảnh liên quan từ một tập dữ liệu hình ảnh. Tìm
kiếm ảnh theo nội dung gồm một tập các kỹ thuật để tìm kiếm các hình ảnh liên quan từ
tập dữ liệu hình ảnh, dựa trên trích xuất các đặc trưng của hình ảnh như màu sắc, cấu
trúc, hình dạng, vị trí…
2.2. Tra cứu ảnh dựa vào văn bản
Trước khi ra đời Tìm kiếm ảnh dựa vào nội dung, việc tìm kiếm hình ảnh có thể
dựa vào Chú thích (văn bản) của ảnh, được cộng đồng gán nhãn. Với việc hình ảnh được

5

gán nhãn tuỳ ý từ cộng đồng, việc dựa vào nhãn đó để tra cứu ảnh gây nhiều khó khăn
vì độ chính xác khơng cao và thật khó để tin tưởng.
Ngày nay, việc sử dụng ngày càng nhiều công nghệ đa phương tiện, các thiết bị điện
tử được trang bị máy ảnh kỹ thuật số và hàng tỷ bức ảnh được tải lên trên phương tiện
truyền thông xã hội dẫn đến sự tăng trưởng theo cấp số nhân của cơ sở dữ liệu hình ảnh
kỹ thuật số. Truy xuất hình ảnh dựa trên văn bản (TBIR / Text-Based Image Retrieval)
là kỹ thuật truy xuất sớm nhất và phổ biến nhất. Phương pháp TBIR dựa trên giả định
rằng tất cả các hình ảnh đều được chú thích. Tuy nhiên, giả định này không được áp
dụng cho các cơ sở dữ liệu hình ảnh kỹ thuật số lớn, nơi người dùng tải lên các tệp của

riêng họ mà không cần thêm tên hoặc nhãn cụ thể. Một giải pháp tự nhiên để khắc phục
nhược điểm này là ghi nhãn thủ công của hình ảnh. Tuy nhiên, giải pháp này đại diện
cho một cơng việc tẻ nhạt cho bộ sưu tập hình ảnh nhỏ và không thực tế cho cơ sở dữ
liệu lớn. Một nhược điểm khác của phương pháp TBIR là khoảng cách ngữ nghĩa giữa
truy vấn văn bản người dùng và thuộc tính hình ảnh của hình ảnh [18, 19].

Hình 1. Minh họa tìm kiếm ảnh tương tự theo văn bản
Hầu hết hệ thống tìm kiếm dựa trên văn bản đều yêu cầu các dữ liệu được chú thích
bằng tay, việc tìm kiếm được thực hiện dựa trên mơ tả văn bản của dữ liệu đa phương
tiện do người dùng cung cấp. Tìm kiếm được thơng qua việc kết hợp các tìm kiếm của
người dùng và chú thích từ khố TBIR. Hệ thống tìm kiếm dựa trên văn bản sử dụng
các đặc trưng trực quan cấp thấp như màu sắc, kết cấu, hình dạng và vị trí… để lấy dữ
liệu, cụ thể là tìm kiếm ảnh. Các đặc trưng cấp thấp này được trích xuất từ hình ảnh tự
động. Google và Bing đều sử dụng các kỹ thuật tìm kiếm dựa trên từ khoá; Cách tiếp
cận này nhanh và hiệu quả.

6

Dữ liệu được mô tả bởi một tập hợp các từ khóa hoặc siêu văn bản được cung cấp
bởi người dùng => phụ thuộc vào tính chủ quan của người dùng. Kết quả trả về của truy
vấn có thể chứa các dữ liệu khơng liên quan. Vì vậy, bất lợi chính của hệ thống tìm kiếm
dữ liệu đa phương tiện dựa trên văn bản là nó có thể trả lại các dữ liệu dự phịng hoặc
khơng liên quan trong kết quả. Kết quả trả về chỉ là những dữ liệu đơn giản.
2.3. Tra cứu ảnh dựa vào nội dung
Truy xuất hình ảnh dựa trên nội dung (CBIR / Content-Based Image Retrieval) là
một các tiếp cận mới để lấy các hình ảnh liên quan một cách hiệu quả. Các kỹ thuật
CBIR có khuynh hướng truy xuất các hình ảnh tương tự trực quan với một hình ảnh truy
vấn nhất định. Đối với hệ thống CBIR điển hình, người dùng cung cấp cho hệ thống
hình ảnh dưới dạng truy vấn và tìm kiếm hình ảnh có liên quan. Q trình truy xuất này

mã hóa và lập chỉ mục các hình ảnh bằng các tính năng hình ảnh của chúng và các hình
ảnh được trả về được chọn dựa trên sự giống nhau của các tính năng hình ảnh của chúng
với các hình ảnh đại diện cho truy vấn. Do đó, hiệu suất truy xuất phụ thuộc vào sự lựa
chọn của các tính năng trực quan cấp thấp [19].
Tra cứu ảnh dựa vào nội dung ra đời nhằm khắc phục nhược điểm của Tra cứu ảnh
dựa trên văn bản. Nó phân tích ảnh nguồn (hình ảnh được đưa vào để tìm kiếm tập tương
tự) thành các đặc trưng và sử dụng thuật toán để so sánh độ tương đồng với tập các ảnh
sẵn có. Các đặc trưng có thể kể đến như màu sắc, độ sâu, kết cấu, hình dạng, các đối
tượng trong ảnh… Bằng việc phân tích và so sánh đặc trưng như vậy, độ chính xác trong
truy vấn được nâng cao và đáng tin cậy hơn so với phương pháp dựa trên văn bản.

Hình 2. Minh họa tìm kiếm ảnh dựa trên nội dung
Tập trung vào việc trích xuất và so sánh các đặc trưng từ các hình ảnh, văn bản, âm
thanh... Các đặc trưng của dữ liệu thường được trích xuất từ các đặc trưng cấp thấp (màu

7

sắc, hình dạng, âm sắc...). Các nhà nghiên cứu trong thập kỷ qua đã chứng minh tính
hiệu quả và tính chính xác của các kỹ thuật dựa trên CBIR.
2.4. Trích xuất đặc trưng ảnh
Đặc trưng màu sắc: Màu sắc là một đặc trưng nổi bật và được sử dụng phổ biến
nhất trong tìm kiếm ảnh theo nội dung. Mỗi một điểm ảnh (thơng tin màu sắc) có thể
được biểu diễn như một điểm trong không gian màu sắc ba chiều. Các không gian màu
sắc thường dùng là: RGB, Munsell, CIE, HSV. Tìm kiếm ảnh theo màu sắc tiến hành
tính tốn biểu đồ màu cho mỗi ảnh để xác định tỉ trọng các điểm ảnh của ảnh mà chứa
các giá trị đặc biệt (màu sắc). Các nghiên cứu gần đây đang cố gắng phân vùng ảnh theo
các màu sắc khác nhau và tìm mỗi quan hệ giữa các vùng này. Để gia tăng độ chính xác
khi đối sánh hình ảnh qua đặc trưng cấp thấp, các màu sắc chủ đạo của hình ảnh được
trích xuất. Đối với đặc trưng màu sắc, mỗi điểm ảnh được gom cụm theo dãy màu

Newton (Red, Green, Blue, Yellow, Orange, Purple). Vì vậy, mỗi điểm ảnh là một véctơ dữ liệu trong không gian RGB và thực hiện gom cụm theo thuật toán K-Means dựa
trên sáu cụm màu Newton.
Đặc trưng kết cấu: Trích xuất nội dung ảnh theo kết cấu nhằm tìm ra mơ hình trực
quan của ảnh và cách thức chúng được xác định trong không gian. Kết cấu được biểu
diễn bởi các texel mà sau đó được đặt vào một số các tập phụ thuộc vào số kết cấu được
phát hiện trong ảnh. Các tập này không chỉ xác định các kết cấu mà cịn chỉ rõ vị trí các
kết cấu trong ảnh. Việc xác định các kết cấu đặc biệt trong ảnh đạt được chủ yếu bằng
cách mơ hình các kết cấu như những biến thể cấp độ xám 2 chiều.
Đặc trưng hình dạng: Hình dạng của một ảnh hay một vùng là một đặc trưng quan
trong trong việc xác định và phân biệt ảnh trong nhận dạng mẫu. Mục tiêu chính của
biểu diễn hình dạng trong nhận dạng mẫu là đo thuộc tính hình học của một đối tượng
được dùng trong phân lớp, so sánh và nhận dạng đối tượng.
Trong bộ dữ liệu hình ảnh của bộ ImageCLEF, mỗi ảnh sẽ được phân tích thành
một vector đặc trưng gồm 27 thuộc tính, được phân thành các nhóm bao gồm:
▪ Đặc trưng vùng: diện tích, chiều rộng và chiều cao.
▪ Đặc trưng vị trí: giá trị trung bình và độ lệch chuẩn theo trục x và trục y.
▪ Đặc trưng về hình dạng (shape): boundary/area, convexity.
▪ Đặc trưng màu sắc trong không gian RGB và CIE-Lab: trung bình, độ lệch
chuẩn và độ nghiêng.
8

1. Diện tích vùng (số pixel/tổng số pixel của hình ảnh)
2. Chiều rộng: số pixel theo chiều rộng của vùng/số pixel của chiều rộng ảnh
3. Chiều cao: số pixel theo chiều cao của vùng/số pixel của chiều cao ảnh
4. Giá trị trung bình theo trục x: giá trị trung bình theo trục x của các pixel trong vùng
5. Độ lệch chuẩn theo trục x
6. Giá trị trung bình theo trục y: giá trị trung bình theo trục y của các pixel trong vùng
7. Độ lệch chuẩn theo trục y
8. Chu vi/diện tích

9. Convexity: số pixel phần lõm của vùng/tổng số pixel của vùng
10. Trung bình theo màu R (RGB)
11. Độ lệch chuẩn theo màu R (RGB)
12. Độ nghiêng theo màu R (RGB)
13. Trung bình theo màu G (RGB)
14. Độ lệch chuẩn theo màu G (RGB)
15. Độ nghiêng theo màu G (RGB)
16. Trung bình theo màu B (RGB)
17. Độ lệch chuẩn theo màu B (RGB)
18. Độ nghiêng theo màu B (RGB)
19. Trung bình theo màu L (CIE-Lab)
20. Độ lệch chuẩn theo màu L (CIE-Lab)
21. Độ nghiêng theo màu L (CIE-Lab)
22. Trung bình theo màu a (CIE-Lab)
23. Độ lệch chuẩn theo màu a (CIE-Lab)
24. Độ nghiêng theo màu a (CIE-Lab)
25. Trung bình theo màu b (CIE-Lab)
26. Độ lệch chuẩn theo màu b (CIE-Lab)
27. Độ nghiêng theo màu b (CIE-Lab)
2.5. Độ đo tương đồng giữa 2 vector đặc trưng
Nghiên cứu này sử dụng phương pháp tính độ đo tương đồng giữa 2 vector đặc
trưng dựa vào Khoảng cách Euclide. Theo định nghĩa về khoảng cách Euclidean
(Euclidean Distance): “Khoảng cách giữa 2 điểm là chiều dài của đường thẳng nối
9

chúng”. Trong mặt phẳng, khoảng cách giữa 2 điểm (x1, y1) và (x2, y2) được cho bởi định
lý Pythagorean như sau:
𝑑 = √(𝑥2 − 𝑥1 )2 + (𝑦2 − 𝑦1 )2
 Ta có cơng thức tổng qt cho khoảng cách Euclide giữa 2 vector đặc trưng:

v1: vector thứ nhất
v2: vector thứ hai
2
d (v1, v2) = √∑27
𝑖=1(𝑣1𝑖 − 𝑣2𝑖 )

2.6. Thuật toán gom cụm K-Means
K-Means là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân
cụm. Tư tưởng chính của thuật tốn K-Means là tìm cách phân nhóm các đối tượng
(objects) đã cho vào K cụm (K là số các cụm được xác định trước, K nguyên dương) sao
cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm (centroid) là nhỏ
nhất.
Thuật tốn K-Means thực hiện qua các bước chính sau:
1. Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster). Mỗi cụm được đại
diện bằng các tâm của cụm.
2. Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng
khoảng cách Euclidean)
3. Nhóm các đối tượng vào nhóm gần nhất
4. Xác định lại tâm mới cho các nhóm
5. Thực hiện lại bước 2 cho đến khi khơng có sự thay đổi nhóm nào của các
đối tượng
Thuật tốn K-Means có ưu điểm là đơn giản, dễ hiểu và cài đặt. Tuy nhiên, một số
hạn chế của K-Means là hiệu quả của thuật tốn phụ thuộc vào việc chọn số nhóm K
(phải xác định trước) và chi phí cho thực hiện vịng lặp tính tốn khoảng cách lớn khi
số cụm K và dữ liệu phân cụm lớn.
.

10

CHƯƠNG III. HỆ TRA CỨU ẢNH DỰA TRÊN CẤU
TRÚC CÂY R-TREE
3.1. Các khái niệm cơ bản về cây R-Tree [20]
3.1.1. Giới thiệu
Quản lý dữ liệu không gian đã là một lĩnh vực hoạt động nghiên cứu chuyên sâu
trong hơn ba thập kỷ qua. Để hỗ trợ các đối tượng không gian trong hệ thống cơ sở dữ
liệu, cần xem xét một số vấn đề bao gồm mơ hình dữ liệu không gian, cơ chế lập chỉ
mục, xử lý truy vấn hiệu quả và mơ hình chi phí. Một trong những phương pháp truy
xuất có ảnh hưởng nhất trong lĩnh vực này là cấu trúc cây R-Tree được Guttman đề xuất
vào năm 1984 là một giải pháp hiệu quả để lập chỉ mục các đối tượng không gian trong
các ứng dụng thiết kế VLSI (Very Large Scale Integrated). Kể từ đó, một số biến thể
của cấu trúc R-Tree đã được đề xuất để truy xuất hiệu quả hơn và xử lý các đối tượng
trong không gian đa chiều.
Theo sự phát triển này, các phương pháp truy xuất mới đã được đề xuất, đánh
giá, so sánh và cài đặt. Một trong những phương pháp này là sử dụng cấu trúc cây RTree. Cấu trúc này được ứng dụng nhằm mục đích xử lý dữ liệu hình học, chẳng hạn
như điểm, đoạn thẳng, bề mặt, khối lượng và thể tích cong trong khơng gian [1]. Cây RTree được xử lý theo cách tương tự như cây B- Tree. Cây R-Tree dành cho cơ sở dữ liệu
không gian, cây B-Tree được dùng cho các kiểu dữ liệu chữ và số.
Cây R-Tree được sử dụng rất rộng rãi trong các ứng dụng để xử lý dữ liệu đa
chiều. Ngày nay, cơ sở dữ liệu không gian và hệ thống thông tin địa lý được nghiên cứu
rộng rãi; Cơ sở dữ liệu đa phương tiện có thể xử lý các loại dữ liệu mới như hình ảnh,
giọng nói, âm thanh, hoặc video, đang được thiết kế và phát triển. Các ứng dụng này đã
sử dụng cây R-Tree để lưu trữ và truy xuất dữ liệu. Các ứng dụng dựa trên cây R-Tree
bao gồm cơ sở dữ liệu khơng gian, cơ sở dữ liệu hình ảnh và video.
3.1.2. Cây R-Tree nguyên thủy
Cây R-Tree là một cấu trúc dữ liệu dùng để phân vùng dữ liệu thành các khối có
thể lồng nhau hoặc chồng lên nhau, được giới thiệu bởi Guttman vào năm 1984 [1]. Cây
R-Tree là cây đa nhánh cân bằng và dữ liệu được lưu tại các nút lá (leafNode). Mỗi nút
trong (inNode) là một vùng khơng gian hình chữ nhật hoặc đa giác chứa các vùng không

11

gian con bên trong nó và chứa các liên kết trỏ đến các nút con. Mỗi nút trên cây có số
phần tử tối thiểu là m và số phần tử tối đa là M. Mỗi nút lá là một vùng không gian chứa
các liên kết trỏ đến các đối tượng dữ liệu. Mỗi nút lá phân chia dữ liệu thành một cụm
trong khơng gian k-chiều.

Hình 3. Mơ tả vùng khơng gian lưu trữ và các dữ liệu bên trong nó

Hình 4. Cây R-Tree tương ứng
R-Tree là một cấu trúc dữ liệu cây được sử dụng để lưu trữ các chỉ mục dữ liệu
không gian một cách hiệu quả. R-Tree rất hữu ích cho việc truy vấn và lưu trữ dữ liệu
không gian. Một số ứng dụng thực tế được đề cập dưới đây:
▪ Lập chỉ mục thông tin đa chiều.
▪ Xử lý tọa độ không gian địa lý.
▪ Thực hiện bản đồ ảo.
▪ Xử lý dữ liệu trị chơi.
Các tính chất của cây R-Tree:
▪ Bao gồm một gốc duy nhất (rootNode), tập các nút trong (inNodes) và tập
các nút lá (leafNodes).
▪ Root chứa con trỏ đến vùng lớn nhất trong miền không gian.
▪ Các nút cha chứa các con trỏ tới các nút con trong đó vùng của các nút
con nằm bên trong vùng của các nút cha.
▪ Các nút lá chứa dữ liệu các đối tượng.
▪ Vùng giới hạn tối thiểu là vùng nhỏ nhất chứa đối tượng đang xem xét.
Cây R ban đầu có hai nhược điểm quan trọng:

12

▪ Việc truy xuất một điểm trong cây R có thể dẫn đến việc xét nhiều đường
dẫn từ gốc đến lá. Đặc tính này có thể dẫn đến suy giảm hiệu suất, đặc biệt
khi có sự chồng lấp của các vùng không gian.
▪ Các vùng không gian lưu trữ lớn có thể làm tăng mức độ chồng lấp, dẫn
đến suy giảm hiệu suất khi thực hiện truy vấn vùng, do không gian trống.
3.1.3. R-Tree trong dữ liệu không gian
Các hệ thống cơ sở dữ liệu khơng gian nhằm mục đích kết hợp các đặc điểm
không gian và thời gian của dữ liệu. Có nhiều ứng dụng địi hỏi việc xử lý hiệu quả các
truy vấn không gian như: hệ thống thơng tin di động, hệ thống kiểm sốt giao thơng (ví
dụ: giám sát khơng lưu trên đường hàng khơng), hệ thống thông tin địa lý GIS
(Geographic Information System), hệ thống đa phương tiện và dịch vụ dựa trên vị trí
LBS (Location Based Service). Cơ sở tổng quát của các ứng dụng này là xử lý không
gian và thời gian của dữ liệu. Dữ liệu không gian được đặc trưng bởi vị trí hoặc hình
dạng theo thời gian.
Các phương pháp truy cập và kỹ thuật xử lý truy vấn cho cơ sở dữ liệu không
gian thường được phân loại trong các lĩnh vực sau:
▪ Các kỹ thuật xử lý truy vấn cho các vị trí trong quá khứ của các đối tượng,
trong đó các vị trí trong q khứ của các đối tượng chuyển động được lưu
trữ và truy vấn, sử dụng các phương thức truy cập nhiều phiên bản hoặc
các phương thức truy cập chuyên biệt cho các quỹ đạo của đối tượng.
▪ Kỹ thuật xử lý truy vấn cho các vị trí hiện tại và tương lai của các đối
tượng, trong đó mỗi đối tượng chuyển động được biểu diễn dưới dạng hàm
của thời gian, cho khả năng xác định vị trí tương lai của nó theo các đặc
điểm hiện tại của chuyển động của đối tượng (vị trí tham chiếu, vectơ vận
tốc).
Các biến thể của cây R-Tree được ứng dụng trong các lĩnh vực này là: Cây RTTree, cây 3D R-Tree, cây RST-Tree, Cây TB-tree, Cây Q+R-Tree, Cây VCI R-Tree…
▪ Cây RT-Tree là sự kết hợp thông tin thời gian vào phương pháp truy cập cây
R-Tree. Về cơ bản, cây RT-Tree là cây R- Tree được tăng cường bởi thông
tin thời gian trong mỗi nút lá. Tuy nhiên, q trình xây dựng cây bị chi phối
bởi thơng tin khơng gian và do đó việc xử lý các truy vấn đòi hỏi nhiều thời

gian.
13

▪ Cây 3D R-Tree, được đề xuất trong, coi thời gian là một chiều thứ 3 và biểu
thị các vùng dữ liệu khơng gian hai chiều.
▪ Cây RST có khả năng lập chỉ mục dữ liệu không gian thời gian thực với các
phạm vi không gian thay đổi một cách riêng biệt. Trái ngược với các cấu trúc
lập chỉ mục được mô tả trước đây, cây RST hỗ trợ dữ liệu có hai kích thước
thời gian và hai kích thước không gian.
▪ Cây TB-Tree đã được thiết kế để truy cập hiệu quả về lịch sử của các đối
tượng. Đặc tính cơ bản của cây TB-Tree là nó làm giảm tính chất cơ bản của
các phương thức truy cập khơng gian, trong đó các đối tượng lân cận phải
được lưu trữ trong cùng một nút lá.
▪ Cây Q + R là sơ đồ lập chỉ mục cho các đối tượng chuyển động, giúp giảm
đáng kể chi phí cập nhật.
▪ Cây VCI R-Tree dùng để lập chỉ mục các đối tượng chuyển động. Sơ đồ lập
chỉ mục sử dụng trong cây VCI R-Tree được dùng điều chỉnh để thao tác hiệu
quả đối với các vật thể chuyển động.
3.1.4. R-Tree trong dữ liệu đa phương tiện
Các ứng dụng đa phương tiện, kho dữ liệu và khai thác dữ liệu đòi hỏi phải lưu
trữ các đối tượng phức tạp và đặt ra các yêu cầu liên quan đến việc xử lý các truy vấn
một cách hiệu quả. Dựa trên thực tế là các lược đồ lập chỉ mục cải thiện thời gian truy
vấn người dùng, các hệ thống quản lý cơ sở dữ liệu đa phương tiện nhằm mục đích mơ
tả và truy xuất hiệu quả các đối tượng đa phương tiện (chẳng hạn như văn bản, hình
ảnh, âm thanh và video). Trong đó, cây R-Tree là một lựa chọn để xử lý hiệu quả các
truy vấn, lưu trữ và khai thác dữ liệu.
a) Generic Multimedia Indexing (GEMINI). GEMINI là một cách tiếp cận tổng
quát để lập chỉ mục các đối tượng đa phương tiện, để tìm kiếm các loại đa
phương tiện theo nội dung. GEMINI đã sử dụng cấu trúc cây R-Tree, lưu trữ

các điểm được ánh xạ trong không gian đặc trưng để tăng tốc tìm kiếm.
b) High-Dimensional Access Methods. Bằng cách sử dụng các phép biến đổi
phù hợp, kỹ thuật này cũng đã được áp dụng thành công cho các loại dữ liệu
khác (ví dụ: âm thanh, hình ảnh màu, video). Để tổ chức các vectơ đa chiều
này, một phương pháp truy cập khơng gian có thể được sử dụng. Từ phương
pháp truy cập dựa trên cây R-Tree, nhiều biến thể được điều chỉnh để xử lý
14

tốt hơn các vectơ có số chiều cao. Các biến thể của R-Tree được ứng dụng
trong lĩnh vực này là: TV-Tree, R+ Tree, R* Tree, SR-Tree, X-Tree….
c) R-Trees and Self-Organizing Maps (SOM). Một biến của cây R-Tree là cây
R dựa trên SOM, được đề xuất bởi “Oh et al”. [15]. R ∗ -tree dựa trên SOM
đạt được hiệu suất truy vấn tốt trong các ứng dụng như truy xuất hình ảnh
tương tự (hình ảnh được lập chỉ mục bởi các véc-tơ đặc trưng).
Một hệ thống truy vấn ảnh dựa theo nội dung sử dụng R-Trees and SelfOrganizing Maps được đề xuất trong [16]. Nhóm tác giả đã sử dụng kỹ thuật mạng SOM
không giám sát của Kohonen, để huấn luyện các hình ảnh và xây dựng hệ thống lập chỉ
mục của các đối tượng hình ảnh dựa trên cây R-Tree base on SOM.
3.1.5. R-Tree trong kho dữ liệu (Data Warehousing) và khai phá dữ liệu

(Data Mining)
Kho dữ liệu là các cơ sở dữ liệu chun biệt đóng vai trị là kho lưu trữ cho nhiều
nguồn dữ liệu không đồng nhất, được tổ chức theo một lược đồ thống nhất để tạo thuận
lợi cho việc ra quyết định. Xử lý phân tích trực tuyến OLAP (OnLine Analytical
Processing) là một kỹ thuật phân tích được thực hiện trong kho dữ liệu. Cả kho dữ liệu
và khai thác dữ liệu đều cần truy cập một lượng lớn dữ liệu. Vì lý do này, việc tăng tốc
truy cập dữ liệu được tạo điều kiện bởi các chỉ mục, các biến thể của cây R-Tree như
R*-Tree, R*a-Tree, cũng đã được sử dụng cho lĩnh vực này để nâng cao hiệu suất truy
vấn.
3.1.6. Kết hợp các kỹ thuật khai phá dữ liệu vào cây R-Tree ứng dụng cho

bài toán truy vấn ảnh.
Để nâng cao hiệu quả của việc ứng dụng cây R-Tree cho các bài toán về truy vấn
ảnh, chúng ta có thể áp dụng việc kết hợp các kỹ thuật trong khai phá dữ liệu như: kỹ
thuật phân cụm, phân lớp dữ liệu trên cây (K-Means, C-Means, KNN…) cũng như kết
hợp nhiều kỹ thuật mạng nơ-ron tích chập - Convolution Neural Network (CNN), mạng
nơ-ron học sâu - Deep Neural Network (DNN)… để thực hiện phân loại đối tượng hình
ảnh và phân tích ngữ nghĩa hình ảnh.
Trong những năm gần đây R-Tree được ứng dụng và phát triển trong nhiều lĩnh
vực khác nhau cụ thể là:

15

Năm 2011, Chandresh Pratap Singh đã sử dụng một thuật tốn dị cạnh Sobel và
độ đo ma trận khoảng cách để tìm kiếm ảnh tương tự dựa trên cấu trúc cây R-Tree. Kết
quả thực nghiệm cho thấy cở sở dữ liệu được thực hiện thành cơng trên cây R-Tree, có
thể tìm kiếm ảnh tương tự cho một phần hình ảnh nhất định [21].
Năm 2018, Shifeng Wu và cộng sự đã đề xuất thuật toán tách nút dựa trên gom
cụm quang phổ (spectral) kết hợp thuật toán phân tách nút cây R-Tree truyền thống với
thuật toán gom cụm phổ, giúp cải thiện tốc độ lập chỉ mục của dữ liệu có số chiều cao
như video và vectơ từ (word vector) [22].
Năm 2018, Xia Tiantian đã đề xuất một thuật toán cải tiến mới dựa trên cây chỉ
mục R *-Tree để khai thác mơ hình tập hợp quỹ đạo theo thời gian, trong đó, tác giả
theo dõi tính chất chuyển động của các đối tượng trong giai đoạn đơn giản hóa quỹ đạo
và sử dụng chỉ mục cây R *-Tree trong giai đoạn gom cụm nhằm nâng cao hiệu suất.
Thí nghiệm dựa trên bộ dữ liệu quỹ đạo cho thấy phương pháp được đề xuất có hiệu quả
vượt trội so với phương pháp hiện có và có thể đảm bảo hiệu quả tương tự cho việc di
chuyển khai thác mơ hình tập hợp đối tượng [23].
Năm 2019, Xinlu Wang và cộng sự đã đề xuất một phương thức truy vấn mới,

được đặt tên là phương pháp tâm cụm động DCC (Dynamical Clustering Center), xác
định các tâm cụm động được tối ưu hóa khi dựa trên cấu trúc cây R-Tree. Bằng cách
chọn một tâm cụm được tối ưu hóa, phương pháp cho phép dữ liệu không gian trong
cùng một không gian con được tổ chức thành cùng một cây con và xây dựng một cây
chỉ mục R-Tree hiệu quả theo từng tầng từ gốc đến lá. Các thí nghiệm cho thấy phương
pháp được đề xuất có thể cải thiện tính ổn định của hệ thống và hiệu quả truy xuất cho
hệ thống thông tin bệnh viện thông minh [24].
Năm 2019, Yang Yang và cộng sự đã đề xuất một phương pháp tách nút trên cây
R-Tree để cải thiện quy trình xây dựng cây R-Tree, được gọi là LAZY R-Tree. Lược đồ
hoạt động như sau: (1) Khi một nút tràn, nó tạo ra một nút tràn cho nút đó và tất cả các
nút tràn được lưu trong bảng băm. (2) Nếu nút đó tiếp tục chèn dữ liệu, dữ liệu sẽ được
thêm vào nút tràn. (3) Khi một nút tràn được ổn định, nút và nút tràn của nó được chia
thành hai nút ổn định. Kết quả thử nghiệm cho thấy cây R được xây dựng bởi thuật toán
LAZY vượt trội hơn cây R-Tree ban đầu hoặc thuật tốn phân tách dựa trên góc CBS
(Corner-based Splitting) được ứng dụng hiệu quả cho các truy vấn vùng và truy vấn Kláng giềng gần nhất (K Nearest Neighbors) [25].
16

Năm 2019, Yuan Qiu và cộng sự đề xuất thuật truy vấn top-k mCK (m-Recent
Keywords) bằng cách sử dụng cây Hilbert R-Tree được ứng dụng để truy vấn từ khóa
khơng gian cho các đối tượng văn bản địa lý. Truy vấn này nhằm mục đích tìm một tập
hợp các đối tượng văn bản địa lý tương tự nhau dựa vào m từ khóa do người dùng cung
cấp. Kết quả thực nghiệm cho thấy có thuật tốn dựa trên cây Hilbert R-Tree có độ chính
xác cao hơn, thời gian truy xuất nhanh hơn ứng dụng trên cây QSkd-Tree (một biến thể
của cây KD-Tree) [26].
3.2. Một phương pháp cải tiến cho bài tốn tìm kiếm ảnh dựa trên cây R-Tree
Theo tác giả L.T.V. Thanh, 2020 [27] - một cải tiến cho cây R-Tree được thực
hiện nhằm tìm kiếm ảnh tương tự theo nội dung, cây cải tiến được gọi là RG-Tree
(Region Growth Tree). Để thực hiện vấn đề này, chúng tôi lưu trữ các véc-tơ đặc trưng
của hình ảnh trên mỗi nút lá của cây RG-Tree theo quy tắc phân hoạch đã được đề xuất.

Cây RG-Tree cho phép tăng trưởng nhằm lưu trữ các vùng dữ liệu và phân bố trên các
nút lá tạo thành các cụm dữ liệu. Việc phân hoạch này được thực hiện phân bố các phần
tử càng giống nhau thì càng thuộc về một nhóm các nhánh con trên cây RG-Tree. Hơn
nữa, cây RG-Tree khắc phục được trường hợp tái tạo tồn bộ cây khi xóa một phần tử.
Trên cơ sở lý thuyết đã đề nghị, một mô hình tìm kiếm ảnh được thiết kế dựa trên cây
RG-Tree.
3.2.1. Cấu trúc cây RG-Tree
Cấu trúc cây RG-Tree [27] là một cây đa nhánh để phân cụm theo từng vùng dữ
liệu. Bao gồm một nút gốc (root), tập các nút trong (inNode) và nút lá (lvNode). Mỗi
nút trong chứa liên kết đến các nút con (nút con có thể là nút trong hoặc nút lá), tạo ra
đường dẫn từ nút gốc đến nút lá. Mỗi nút lá lưu tập các vector đặc trưng tương đồng với
nhau. Các phần tử tại mỗi nút trong và nút lá được phân bổ lần lượt theo bán kính 𝜃
(theta – ngưỡng trên) và 𝜉 (slack – ngưỡng dưới).
Gọi E = <f, id> là một thành phần trong một nút trên cây, với f = (v1, …, vk); và

id lần lượt là các số hiệu của vector đặc trưng ảnh – hay định danh của ảnh. Cây RGTree lưu trữ tập các vector đặc trưng ảnh T = {Ei | i = 1, …, N}, trong đó N là số lượng
ảnh trong bộ dữ liệu. Cây RG-Tree được dùng để phân cụm các vector đặc trưng của
ảnh dựa trên khoảng cách Euclide.
Gọi fI, fJ lần lượt là hai vector đặc trưng của hai ảnh I, J. Hai ảnh là tương tự nhau
được định nghĩa như sau:
17

Xây dựng hệ thống truy vấn ảnh tương tự theo nội dung dựa trên cấu trúc cây r tree

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về