Tải bản đầy đủ (.docx) (75 trang)

Luận văn thạc sĩ Chuyên ngành Khoa học máy tính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.86 MB, 75 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ

LÊ ANH TRUNG

NGHIÊN CỨU
CÁC PHƯƠNG PHÁP TÍNH KHOẢNG CÁCH,
KẾT HỢP VỚI MƠ HÌNH MÁY HỌC ĐỂ CẢI
THIỆN NÂNG CAO ĐỘ CHÍNH XÁC TRONG
VIỆC PHÂN LOẠI HÌNH ẢNH

LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH
MÃ SỐ 848 01 01

NĂM 2022


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ

LÊ ANH TRUNG
MÃ SỐ HV: M3718020

NGHIÊN CỨU
CÁC PHƯƠNG PHÁP TÍNH KHOẢNG CÁCH,
KẾT HỢP VỚI MƠ HÌNH MÁY HỌC ĐỂ CẢI
THIỆN NÂNG CAO ĐỘ CHÍNH XÁC TRONG
VIỆC PHÂN LOẠI HÌNH ẢNH

LUẬN VĂN THẠC SĨ


NGÀNH: KHOA HỌC MÁY TÍNH
Mã số: 848 01 01

NGƯỜI HƯỚNG DẪN
TS. PHẠM THẾ PHI

NĂM 2022


CHẤP THUẬN CỦA HỘI ĐỒNG
Luận văn này, với đề tựa là "Nghiên cứu các phương pháp tính khoảng cách, kết
hợp với mơ hình máy học để cải thiện nâng cao độ chính xác trong việc phân loại hình
ảnh", do học viên Lê Anh Trung thực hiện theo sự hướng dẫn của TS. Phạm Thế Phi.
Luận văn đã báo cáo và được Hội đồng chấm luận văn thông qua ngày: / / . Luận
văn đã được chỉnh sửa theo góp ý và được Hội đồng chấm luận văn xem lại.

Thư ký

Ủy viên

(ký tên)

(ký tên)

Phản biện 2

Phản biện 1

(ký tên)


(ký tên)

Người hướng dẫn

Chủ tịch Hội đồng

(ký tên)

(ký tên)


LỜI CÁM ƠN

Đầu tiên, xin trân trọng cảm ơn TS. Phạm Thế Phi đã tận tình tiếp nhận, hướng
dẫn và cung cấp các chỉ dẫn quý báu cho tôi trong suốt q trình thực hiện luận văn tốt
nghiệp.
Bên cạnh đó tôi xin gửi lời cảm ơn đến quý Thầy, Cô Khoa Công nghệ Thông tin
và Truyền thông Trường Đại học Cần Thơ đã tận tình giảng dạy, truyền đạt những
kiến thức bổ ích trong suốt khóa học cao học vừa qua.
Xin gửi lời cảm ơn đến cơ quan, đơn vị Trường Cao đẳng nghề Đồng Tháp và
Trường THPT TP Sa Đéc đã tạo điều kiện cho tơi tham gia khóa học cao học, giúp tơi
nâng cao trình độ chun mơn, nghiệp vụ và tiếp thu được rất nhiều kiến thức bổ ích.
Cuối cùng, tơi xin gửi lời cảm ơn đến gia đình, những người thân, các đồng
nghiệp và bạn bè lớp Khoa học máy tính - K25 đã thường xuyên quan tâm, truyền
động lực, động viên, chia sẻ kinh nghiệm và cung cấp các tài liệu hữu ích trong thời
gian học tập, cũng như trong suốt quá trình thực hiện luận văn tốt nghiệp.
Xin chân thành cảm ơn!

Cần Thơ, ngày


tháng
Ký tên

4

năm 2022


TÓM TẮT TIẾNG VIỆT
Mục tiêu của đề tài này là thu thập số lớn dữ liệu hình ảnh của 05 chủ đề "Văn
hóa Phi vật thể của Việt Nam" từ Web và cơng cụ Google Image Search. Sau đó,
nghiên cứu các phương pháp học số đo khoảng cách kết hợp với mơ hình máy học
(SVM) để cải thiện nâng cao độ chính xác trong việc phân loại hình ảnh.
Hình ảnh của từng lớp chủ đề sau khi được lấy về, sẽ được xếp thứ hạng từ cao
xuống thấp dựa vào chú thích, nội dung văn bản đi kèm, bằng bộ phân loại Bayes thơ
ngây. Những hình ảnh có thứ hạng cao sẽ được lấy làm dữ liệu đào tạo. Trong luận
văn này sẽ so sánh các phương pháp học số đo khoảng cách, kết hợp với bộ phân loại
kNN để đào tạo, phân loại hình ảnh. Từ đó, lấy ra ma trận học phép đo khoảng cách
của thuật toán tốt nhất làm hàm nhân (kernel) cho mơ hình máy học SVM để phân loại
và xếp hạng lại hình ảnh cho từng lớp chủ đề.
Kết quả việc thực nghiệm chỉ ra rằng, dùng phương pháp học số đo khoảng cách
kết hợp với bộ phân loại kNN để đào tạo và phân loại hình ảnh cho độ chính xác bằng
hoặc cao hơn so với mơ hình máy học vectơ hỗ trợ SVM.

5


ABSTRACT
The objective of this study is to collect a large amount of image data of 05 topics
“Intangible Culture of Vietnam” from the Web and Google Image Search. Then,

studying distance measurement methods combined with machine learning model
(SVM) aims to improve accuracy in image classification.
Based on captions and accompanying text content, the images of each topic class,
after being retrieved, were ranked from high to low by Naive BayesClassifiers. The
images with high ranking were taken as training data. In this thesis, distance data
learning methods, combined with kNN classifiers to train and classify images were
compared. From there, the distance data learning matrix of the best algorithm as a
kernel function for the SVM machine learning model were taken out to classify and rerank the images for each topic class.
The experimental results show that using the distance data learning method
combined with the kNN classifier to train and classify the images, the accuracy is
equal to or higher than that of the support vector machine learning model (SVM).

6


LỜI CAM ĐOAN

Tôi xin cam đoan luận văn “Nghiên cứu các phương pháp tính khoảng cách, kết
hợp với mơ hình máy học để cải thiện nâng cao độ chính xác trong việc phân loại hình
ảnh” được hồn thành là do tơi nghiên cứu, tìm hiểu và thực hiện dưới sự hướng dẫn
của TS. Phạm Thế Phi.
Các thông tin được sử dụng tham khảo trong đề tài luận văn được thu thập từ các
nguồn tin cậy, đã được kiểm chứng, được cơng bố rỗng rãi và được tơi trích dẫn nguồn
gốc rõ ràng ở phần Danh mục Tài liệu tham khảo. Các kết quả nghiên cứu được trình
bày trong luận văn này là do chính tơi thực hiện một cách nghiêm túc, trung thực và
không trùng lắp với các đề tài khác đã được công bố.
Tôi xin chịu trách nhiệm những lời cam đoan trên.

Người hướng dẫn
(ký tên)


Cần Thơ, ngày tháng năm 2022
Tác giả thực hiện
(ký tên)

Phạm Thế Phi

Lê Anh Trung

7


MỤC LỤC

LỜI CÁM ƠN..............................................................................................................4
TÓM TẮT TIẾNG VIỆT............................................................................................5
ABSTRACT.................................................................................................................6
LỜI CAM ĐOAN.........................................................................................................7
MỤC LỤC.................................................................................................................... 8
DANH MỤC BẢNG..................................................................................................10
CHƯƠNG 1. GIỚI THIỆU.......................................................................................14
1.1 Lý do chọn đề tài...........................................................................................14
1.2 Mục tiêu nghiên cứu......................................................................................15
1.2.1 Mục tiêu nghiên cứu tổng quát..........................................................15
1.2.2 Mục tiêu nghiên cứu cụ thể................................................................15
1.3 Đối tượng nghiên cứu....................................................................................15
1.4 Phương pháp nghiên cứu...............................................................................15
1.5 Phạm vi nghiên cứu.......................................................................................16
1.6 Bố cục luận văn.............................................................................................16
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT..........................................................................17

2.1 Nghiên cứu liên quan....................................................................................17
2.1.1 Thu hoạch ảnh từ Web.......................................................................17
2.1.2 Khảo sát và nghiên cứu thực nghiệm về các phương pháp học phép đo
khoảng cách.................................................................................................................18
2.2 Các hàm tính khoảng cách.............................................................................23
2.2.1 Các định nghĩa chung........................................................................23
2.2.2. Các phép đo Khoảng cách................................................................23
2.3 Các thuật toán học số phép đo LMNN, KLMNN, NCA................................26
2.3.1 Kỹ thuật LMNN (Large Margin Nearest Neighbor)..........................26
2.3.2 Kỹ thuật KLMNN (Kernel Large Margin Nearest Neighbor)............28
2.3.3 Kỹ thuật NCA (Neighborhood Components Analysis)......................28
2.4 Mơ hình máy học Vector hỗ trợ (Support Vector Machines - SVM)............29
CHƯƠNG 3. PHƯƠNG PHÁP NGHIÊN CỨU......................................................31
3.1 Thu thập dữ liệu............................................................................................31
8


3.3 Phương pháp bố trí thực nghiệm...................................................................34
3.3.1 Mơi trường thực nghiệm....................................................................34
3.3.2 Phương pháp thực nghiệm.................................................................34
3.4 Đánh giá mơ hình..........................................................................................38
3.4.1 Nghi thức kiểm tra.............................................................................38
3.4.2 Các tiêu chí đo tính hiệu quả của giải thuật phân lớp.........................39
CHƯƠNG 4. KẾT QUẢ VÀ THẢO LUẬN............................................................40
4.1 Kết quả Precision Score giữa các thuật toán..................................................40
4.2 Kết quả Accuracy Score giữa các thuật toán.................................................46
4.3 Bảng thống kê: Precsion, Recall, F1-Score, Accuracy của các thuật toán cho
từng lớp chủ đề............................................................................................................52
4.4 So sánh thời gian của các giải thuật học phép đo khoảng cách......................55
4.5 Kết hợp ma trận phép đo học khoảng cách với mơ hình máy học SVM để

huấn luyện và phân lớp lại hình ảnh............................................................................56
4.5.1 Đối với Ma trận học phép đo khoảng cách của thuật toán NCA (k=5)
..................................................................................................................................... 56
4.5.2 Đối với Ma trận học phép đo khoảng cách của thuật toán KLMNN
(k=5)............................................................................................................................ 56
CHƯƠNG 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.........................................63
5.1 Kết luận.........................................................................................................63
5.1.1 Về mặt lý thuyết................................................................................63
5.1.2 Về mặt thực tiễn.................................................................................64
5.1.3 Hạn chế..............................................................................................64
5.2 Hướng nghiên cứu, phát triển........................................................................64
TÀI LIỆU THAM KHẢO.........................................................................................65

9


DANH MỤC BẢNG
Bảng 3.1 Mô tả tập dữ liệu...................................................................................................................31
Bảng 3.2 Mô tả việc gán nhãn bằng tay cho mỗi bức hình thuộc các lớp chủ đề..................................33
Bảng 4.1 Tổng hợp so sánh Precision Score giữa các thuật toán của các lớp chủ đề............................44
Bảng 4.2 Tổng hợp so sánh Accuracy Score giữa các thuật toán của các lớp chủ đề...........................50
Bảng 4.3 Bảng thống kê: Precsion, Recall, F1-Score, Accuracy của các thuật toán cho từng lớp chủ đề
.............................................................................................................................................................54
Bảng 4.4 Kết quả việc kết hợp Ma trận học khoảng cách của thuật toán KLMNN với mơ hình máy học
SVM để huấn luyện và phân lớp lại trên tập dữ liệu của luận văn........................................................61

10


DANH MỤC HÌNH ẢNH

Hình 2.1 Mơ tả lại sơ đồ hệ thống của nhóm tác giả Florian Schroff, Antonio Criminisi, and Andrew
Zisserman.............................................................................................................................................18
Hình 2.2 Khoảng cách Minkowski: vịng trịn đơn vị cho các giá trị khác nhau của p.........................23
Hình 2.3 Sơ đồ minh họa của thuật tốn LMNN..................................................................................27
Hình 2.4 Phân lớp tuyến tính với máy học Vectơ hỗ trợ.......................................................................29
Hình 3.1 Mơ tả tập dữ liệu hình ảnh cụ thể của lớp chủ đề...................................................................32
Hình 3.2 Minh họa tập chia tập dữ liệu thực nghiệm............................................................................34
Hình 3.3 Sơ đồ hệ thống các bước làm thực nghiệm............................................................................36
Hình 3.4 Sơ đồ mơ tả phương pháp thực hiện việc kết hợp giữa Ma trận học phép đo khoảng cách với
mơ hình máy học Vectơ hỗ trợ SVM....................................................................................................37
Hình 4.1 So sánh Precision Score của các thuật toán trong lớp chủ đề 1..............................................40
Hình 4.2 So sánh Precision Score của các thuật tốn lớp chủ dề 2.......................................................40
Hình 4.3 So sánh Precision Score của các thuật toán trong lớp chủ đề 3..............................................41
Hình 4.4 So sánh Precision Score của các thuật tốn trong lớp chủ đề 4..............................................41
Hình 4.5 So sánh Precision Score của các thuật tốn trong lớp chủ đề 5..............................................42
Hình 4.6 So sánh Precision Score Trung bình của các thuật tốn đạt được..........................................42
Hình 4.7 Biểu đồ tổng hợp Precision Score của các thuật tốn trên các lớp chủ đề..............................43
Hình 4.8 So sánh Accuracy Score của các thuật toán trong lớp chủ đề 1.............................................46
Hình 4.9 So sánh Accuracy Score của các thuật tốn trong lớp chủ đề 2.............................................46
Hình 4.10 So sánh Accuracy Score của các thuật tốn trong lớp chủ đề 3...........................................47
Hình 4.11 So sánh Accuracy Score của các thuật toán trong lớp chủ đề 4...........................................47
Hình 4.12 So sánh Accuracy Score của các thuật tốn trong lớp chủ đề 5...........................................48
Hình 4.13 So sánh Accuracy Score Trung bình của các thuật tốn đạt được........................................48
Hình 4.14 Biểu đồ Tổng hợp so sánh Accuracy Score giữa các thuật tốn của các lớp chủ đề.............49
Hình 4.15 Biểu đồ so sánh thời gian chạy các giải thuật học phép đo khoảng cách..............................55
Hình 4.16 Phương thức Tranformer() của thuật tốn KLMNN............................................................57
Hình 4.17Mơ tả việc áp dụng ma trận học phép đo khoảng cách của thuật toán KLMNN với SVM....58
Hình 4.18 Kết quả giải thuật KLMNN kết hợp với phân lớp kNN (với k-5) trên Data Iris..................58
Hình 4.19 Kết quả giải thuật NCA kết hợp với phân lớp kNN (với k=5)trên Data Iris.........................59
Hình 4.20 Kết quả khi dùng mơ hình máy học SVM (kernel =’rbf’) huấn luyện và phân lớp dữ liệu

trên Data IRIS......................................................................................................................................59
Hình 4.21 Kết hợp Ma trận học phép đo khoảng cách của thuật toán KLMNN với mơ hình máy học
SVM để huấn luyện và phân lớp lại dữ liệu trên Data IRIS..................................................................60
Hình 4.22 Kết hợp Ma trận học phép đo khoảng cách của thuật toán NCA với mơ hình máy học SVM
để huấn luyện và phân lớp lại dữ liệu trên Data IRIS...........................................................................60

11


DANH MỤC TỪ VIẾT TẮT
STT

Từ viết tắt

Diễn giải

Tiếng Việt

1

ANMM

Average Neighborhood Margin
Maximization

Thuật tốn Tối đa hóa lợi nhuận
vùng lân cận trung bình

2


DML-eig

Distance Metric Learning with
Eigenvalue Optimization

Thuật tốn Học chỉ số từ xa với tối
ưu hóa giá trị Eigenvalue

3

DMLMJ

Distance Metric Learning through the
Maximization of the Jeffrey
Divergence

Thuật tốn Học chỉ số khoảng cách
thơng qua tối đa hóa sự phân kỳ
Jeffrey

4

F

FALSE

Giá trị Sai

5


GBLMNN

Global Large Margin Nearest
Neighbor

Một thuật toán cải biên từ Thuật
toán phân loại biên lớn làng giềng
gần nhất

6

IEEE

The Institute of Electrical and
Electronics Engineers

Viện Kỹ sư điện và điện tử

7

ITML

Information Theoretic Metric Learning

Thuật toán Học phép đo khoảng
cách lý thuyết thông tin

8

KANMM


Kernel Average Neighborhood Margin
Maximization

Thuật tốn Tối đa hóa lợi nhuận
vùng lân cận trung bình của Hạt
nhân

9

KDA

Kernel Discriminant Analysis

Thuật tốn Phân tích phân biệt nhân

10

KDMLMJ

Kernel Distance Metric Learning
through the Maximization of the
Jeffrey divergence

Thuật toán Học chỉ số khoảng cách
hạt nhân thông qua tối đa hóa sự
phân kỳ Jeffrey

11


Kernel

12

KLLDA

Kernel
Kernel Local Linear Discriminant
Analysis

Hàm nhân / Hạt nhân
Thuật tốn Phân tích phân biệt
tuyến tính cục bộ hạt nhân

13

KLMNN

14

kNN

Kernel Large Margin Nearest
Neighbor
K-Nearest neighbors

15

LDA


Linear Discriminant Analysis

Thuật toán Hàm nhân phân loại
biên lớn làng giềng gần nhất
Thuật toán k láng giềng gần nhất
Thuật tốn Phân tách phân biệt
tuyến tính

16

LDML

Logistic Discriminant Metric Learning

Thuật toán Học phép đo khoảng
cách phân biệt đối xử hậu cần

17

LLDA

Local Linear Discriminant Analysis

Thuật tốn Phân tích phân biệt
tuyến tính cục bộ

18

LMNN


Large Margin Nearest Neighbor

19

LSI

Learning with Side Information

20

MCML

Maximally Collapsing Metric Learning

21

NCA

Neighbourhood Components Analysis

Thuật tốn Phân tích thành phần lân
cận

22

NCMC

Nearest Class with Multiple Centroids

Thuật toán Lớp gần nhất với nhiều

trung tâm

12

Thuật toán phân loại biên lớn làng
giềng gần nhất
Thuật tốn Học với thơng tin bên lề
Thuật tốn Học chỉ số thu gọn tối
đa


23

NCMML

Nearest Class Mean Metric Learning

24

PCA

Principal Component Analysis

25

RBF

Radial Basis Function

26


SERAPH

Semi-Supervised Metric Learning via
Entropy Regularization

27
28

SVM
T

Support Vector Machine
TRUE

13

Thuật toán Học chỉ số trung bình
lớp gần nhất
Thuật tốn Phân tích thành phần
chính
Hàm cơ sở xuyên tâm
Thuật toán Học phép đo khoảng
cách bán giám sát thông tin-lý
thuyết thông qua điều chỉnh
Entropy
Máy vectơ hỗ trợ
Giá trị Đúng



CHƯƠNG 1. GIỚI THIỆU
1.1 Lý do chọn đề tài
Ngày nay, cùng với sự bùng nổ của công nghệ thông tin, dữ liệu đa phương tiện
(chẳng hạn như hình ảnh, âm thanh, video) đóng một vai trị quan trọng trong tất cả
lĩnh vực. Trong đó, sự phát triển mạnh mẽ của công nghệ ảnh kỹ thuật số làm lượng
ảnh lưu trữ trên web tăng lên một cách nhanh chóng địi hỏi phải có các cơng cụ hỗ trợ
tìm kiếm ảnh hiệu quả và tiện lợi. Vì vậy, việc xây dựng các hệ thống tìm kiếm và xếp
hạng ảnh là rất cần thiết và thực tế đã có nhiều cơng cụ tìm kiếm ảnh thương mại xuất
hiện.Các cơng cụ tìm kiếm ảnh thường dựa vào hai đặc trưng chính là văn bản đi kèm
ảnh hoặc nội dung ảnh.
Một số cơng cụ tìm kiếm ảnh theo văn bản đi kèm như Google Image Search,
Yahoo!, MSN,… các hệ thống này cho phép người sử dụng nhập truy vấn về các ảnh
cần quan tâm. Thông qua việc phân tích các văn bản đi kèm ảnh, hệ thống gửi trả các
ảnh tương ứng với truyvấn của người dùng.
Một số cơng cụ lại tìm kiếm ảnh dựa vào nội dung ảnh như Google Image Swirl,
Bing, Tiltomo,Tineye,… cho phép người dùng nhập câu hỏi dưới dạng ảnh. Nghĩa là
việc tìm kiếm sẽ phân tích nội dung thực sự của các bức ảnh. Nội dung ảnh ở đây được
thể hiện bằng màu sắc, hình dạng, kết cấu (texture), các đặc trưng cục bộ (local
features), đặc trưng toàn cục (global features) … hay bất cứ thơng tin nào có từ chính
nội dung ảnh. Các cơng cụ này sẽ dựa vào nội dung đó để tìm kiếm và trả về những
ảnh tương đồng.
Mặc dù các cơng cụ tìm kiếm ảnh ra đời cho phép người dùng tìm kiếm ảnh với
thời gian đáp ứng khá nhanh, tuy nhiên, các công cụ này vẫn cịn hạn chế trong việc
giải quyết độ chính xác giữa nội dung truy vấn và nội dung hiển thị của ảnh trả về. Ví
dụ, với truy vấn “Apple”, máy tìm kiếm khó phân biệt được người dùng muốn tìm
hình ảnh quả táo hay những sản phẩm của hãng Apple.
Các kỹ thuật tìm kiếm ảnh có một ngun tắc chung đó là: phải trích rút đặc
trưng văn bản, đặc trưng hình ảnh, rồi dùng các phương pháp tính khoảng cách hoặc so
sánh độ tương đồng, kết hợp các mơ hình máy học để phân loại hình ảnh.
Sự sẵn có của cơ sở dữ liệu hình ảnh đã được chứng minh là vô giá đối với việc

đào tạo và thử nghiệm các mơ hình nhận dạng lớp đối tượng trong thời gian đây. Tuy
nhiên, việc tạo ra các cơ sở dữ liệu như vậy chứa một số lượng lớn hình ảnh với độ
chính xác cao vẫn là một cộng việc thủ cơng khó khăn. Các cơng cụ tìm kiếm hình ảnh
đã cho phép tìm kiếm hình ảnh một cách dễ dàng, nhưng hiện tại bị giới hạn bởi độ
chính xác kém của các hình ảnh được trả về và các hạn chế đối với tổng số hình ảnh
được cung cấp.
14


Vì thế cần đặt ra phương pháp giúp người dùng có thể lấy được dữ liệu ảnh hiệu
quả, phục vụ cho cơng việc của mình. Đó cũng là lý do tơi chọn đề tài "Nghiên cứu
các phương pháp tính khoảng cách, kết hợp với mơ hình máy học để cải thiện nâng
cao độ chính xác trong việc phân loại hình ảnh" để làm đề tài luận văn.
1.2 Mục tiêu nghiên cứu
1.2.1 Mục tiêu nghiên cứu tổng quát
Mục tiêu của luận văn này là lấy một số lượng lớn dữ liệu hình ảnh của 05 chủ đề
"Văn hóa Phi vật thể của Việt Nam" từ web và công cụ Google Image Search. Sau đó,
nghiên cứu các phương pháp tính khoảng cách, kết hợp với mơ hình máy học để cải
thiện nâng cao độ chính xác trong việc phân loại hình ảnh theo mỗi chủ đề.
1.2.2 Mục tiêu nghiên cứu cụ thể
- Cách thu thập một số lượng lớn hình ảnh từ Internet.
- Các hàm tính khoảng cách.
- Các thuật tốn học phép đo khoảng cách: LMNN, KLMNN, NCA kết hợp với
kNN để phân loại ảnh.
- Mơ hình Máy học Vector hỗ trợ SVM
- Thực nghiệm trên dữ liệu để so sánh kết quả các phương pháp đạt được.
- Kết hợp giữa ma trận học phép đo khoảng cách NCA, KLMNN với SVM để
phân loại hình ảnh.
1.3 Đối tượng nghiên cứu
Các vấn đề về xử lý dữ liệu hình ảnh, các phương pháp tính khoảng cách, các

thuật tốn học phép đo khoảng cách, mơ hình máy học Vector hỗ trợ (SVM) kết hợp
với các hàm nhân tính khoảng cách (kernel) để phân loại hình ảnh.
1.4 Phương pháp nghiên cứu
- Tìm hiểu tài liệu, kiến thức về: Cách thu thập hình ảnh từ Internet, các hàm tính
khoảng cách, các thuật tốn về việc học phép đo khoảng cách, mơ hình máy học
Vector hỗ trợ SVM, các khung phân loại hàm nhân (kernel).
- Xử lý dữ liệu hình ảnh. Đề xuất xây dựng mơ hình.
- Thực nghiệm trên tập dữ liệu 05 lớp hình ảnh chủ đề "Văn hóa phi vật thể Việt
Nam".
- Sử dụng ngơn ngữ lập trình Python 3.8 để kiểm tra và đánh giá kết quả thực
nghiệm của mơ hình đề xuất.

15


1.5 Phạm vi nghiên cứu
Đề tài tập trung nghiên cứu trên tập dữ liệu 05 lớp hình ảnh chủ đề "Văn hóa phi
vật thể Việt Nam" để làm thử nghiệm mơ hình đề xuất phân loại lớp hình ảnh.
1.6 Bố cục luận văn
Báo cáo luận văn gồm 5 chương như sau:
Chương 1: Giới thiệu. Giới thiệu tổng quan lý do chọn đề tài, mục tiêu nghiên
cứu, đối tượng nghiên cứu, phương pháp nghiên cứu, phạm vị nghiên cứu và bố cục
của luận văn.
Chương 2: Tổng quan tài liệu. Luận văn sẽ giới thiệu các nghiên cứu liên quan
đến đề tài trước đó. Các cơ sở lý thuyết về: các hàm tính khoảng cách, các thuật tốn
học phép đo khoảng cách, khung phân loại hàm nhân cho việc học phép đo khoảng
cách, mơ hình máy học Vector hỗ trợ SVM kết hợp với khung phân loại hàm nhân
(kernel).
Chương 3: Phương pháp nghiên cứu. Trình bày cách thu thập và xử lý dữ liệu,
các thiết bị trong nghiên cứu, các bước thực hiện, cách xây dựng mơ hình, đánh giá mơ

hình, phương pháp thực nghiệm và cách đánh giá kết quả thực nghiệm được áp dụng
trong đề tài.
Chương 4: Kết quả và thảo luận.
Chương 5: Kết luận và đề xuất.

16


CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
2.1 Nghiên cứu liên quan
2.1.1 Thu hoạch ảnh từ Web
Việc tạo ra các cơ sở dữ liệu chứa một lượng lớn hình ảnh và với độ chính xác
cao vẫn là một cơng việc thủ cơng khó khăn. Các cơng cụ tìm kiếm hình ảnh đã cung
cấp cho chúng ta một cách thực hiện dễ dàng, nhưng hiện tại bị giới hạn bởi độ chính
xác kém của các hình ảnh được trả lại và các hạn chế đối với tổng số hình ảnh được
cung cấp.
❖ Tại Hội nghị Hiệp hội Máy tính IEEE về Nhận dạng Mẫu và Thị giác Máy
tính, năm 2006. Bài báo "
Động vật trên Web"của nhóm tác giả Tamara L. Berg và
David A. Forsyth [1] đã đề xuất một phương pháp tìm kiếm cho ra hàng ngàn ảnh các
lớp động vật có độ chính xác cao từ Web. Phương pháp của họ được tiến hành theo hai
giai đoạn:
Đầu tiên, các chủ đề được phát hiện dựa trên các từ xuất hiện trên các Trang web
bằng cách sử dụng Phân bổ Dirichlet tiềm ẩn (LDA) trên văn bản. Cụm hình ảnh cho
mỗi chủ đề được hình thành bởi những hình ảnh chọn nơi lân cận văn bản là tốp xếp
đầu tiên theo chủ đề này. Sau đó, bằng cách thủ cơng (con người) mỗi lớp được phân
vùng thành các cụm tích cực và tiêu cực.
Thứ hai, hình ảnh và văn bản liên quan từ các cụm này được sử dụng làm mẫu để
huấn luyện bộ phân loại dựa trên biểu quyết về hình ảnh (hình dạng, màu sắc và kết
cấu) và các tính năng văn bản. Bộ phân loại sau đó được sử dụng để chạy lại tập dữ

liệu đã tải xuống. Việc ghi nhãn bởi người dùng của các cụm tránh được vấn đề về đa
năng, cũng như cung cấp dữ liệu huấn luyện tốt cho trình phân loại.
Phương pháp này thành công trong việc đạt được năng suất cao hơn, nhưng với
chi phí can thiệp thủ cơng.
❖ Trong bài báo "
Thu thập cơ sở dữ liệu ảnh từ Web"của nhóm tác giả Florian
Schroff, Antonio Criminisi, and Andrew Zisserman [2] tại Hội nghị quốc tế lần thứ 11
IEEE về thị giác máy tính năm 2007, đã đề xuất ra một phương pháp là tự động tạo ra
một số lượng lớn hình ảnh cho một lớp đối tượng được chỉ định. Bằng cách sử dụng
WebSearch và Google Image Search với hướng tiếp cận đa phương thức sử dụng cả
văn bản, siêu dữ liệu và các tính năng trực quan được sử dụng để thu thập nhiều hình
ảnh chất lượng cao từ Web. Các bước thực hiện của phương pháp này như sau:
 Bước thứ nhất, tải hình ảnh và dữ liệu văn bản liên quan của hình ảnh cho một
lớp đối tượng được chỉ định bằng cách sử dụng WebSearch & GoogleImages.
17


 Bước thứ hai, loại bỏ những biểu tượng, hình vẽ trừ tượng của hình ảnh khơng
liên quan.
 Bước thứ ba, xếp thứ hạng của những hình ảnh dựa trên thuộc tính văn bản của
hình ảnh đó bằng việc sử dụng phân loại xác suất Bayes.
 Bước thứ tư, huấn luyện phân loại trực quan SVM trên những hình ảnh đã được
xếp thứ hạng dựa vào thuộc tính văn bản.
 Bước thứ năm, sắp xếp lại thứ hạng của tất cả hình ảnh tải xuống (bước 1) sử
dụng cơng cụ phân loại trực quan đánh giá.

Hình 2.1 Mơ tả lại sơ đồ hệ thống của nhóm tác giả Florian Schroff, Antonio Criminisi, and
Andrew Zisserman

Với phương pháp này, nhóm tác giả đã lấy được một số lượng lớn các hình ảnh

của một lớp học đặc biệt tự động, đạt được độ chính xác cao hơn so với cơng cụ tìm
kiếm Google Image Search.
Trong phương pháp này, có một số lớp hình ảnh khi phân loại cho hiệu suất cao
như: đồng hồ đeo tay, hươu cao cổ bởi vì sự nhiễu loạn thơng tin miêu tả về văn bản
các hình này thấp (đa ngữ nghĩa văn bản). Một số lớp hình ảnh cho hiệu suất phân loại
thấp như: máy bay, lạc đà, hổ. Nguyên nhân là thiếu tính phân biệt ngữ nghĩa của truy
vấn văn bản đối với hình ảnh cần tìm kiếm (ví dụ: đối với máy bay, có hình ảnh của
thực phẩm máy bay, máy bay đồ chơi, máy bay giấy, nội thất máy bay…).
2.1.2 Khảo sát và nghiên cứu thực nghiệm về các phương pháp học phép đo
khoảng cách
❖ Vào năm 2018, Dewei Li và Yingjie Tian, đã “Khảo sát và nghiên cứu
thực nghiệm về phương pháp học phép đo khoảng cách” [3]cách toàn diện để so
18


sánh tất cả các phương pháp được đề xuất từ năm 2003 đến 2017.Khám phá khả năng
cải thiện độ chính xác, mối quan hệ giữa thay đổi khoảng cách và độ chính xác, mối
quan hệ giữa độ chính xác và kích thước lân cận kNN.
Trong bài báo này, có tất cả 18 phương pháp được đánh giá và trình bày phân
loại dựa trên đặc điểm riêng biệt nhất của mỗi phương pháp. Tất cả các phương pháp
được phân loại thành năm lớp, bao gồm: chi phí theo cặp, khung xác suất, phương
pháp tiếp cận tăng, các biến thể có lợi và các ứng dụng cụ thể. Tất cả các kết quả thử
nghiệm xác minh rằng học phép đo khoảng cách phi tuyến có lợi thế lớn hơn so với
học phép đo khoảng cách tuyến tính trong việc trích xuất phép đo hữu ích. Tuy nhiên,
học phép đo khoảng cách phi tuyến thường cần nhiều thời gian hơn để có được thơng
tin phụ thuộc dữ liệu. Nhóm tác giả xác nhận rằng khơng có một phương pháp nào có
thể thực hiện tốt nhất trên tất cả các bộ dữ liệu, nhưng kết quả thử nghiệm cung cấp
bằng chứng cho thấy một số phương pháp có khả năng cao trong việc học các phép đo
thông tin.
Một số gợi ý về việc lựa chọn phương pháp học theo phép đo: (1) Ba phương

pháp BoostMetric,LMNNvà SERAPH được đề xuất trước tiên vì điểm số thống kê (độ
chính xác và đánh giá phân loại), với thời gian tính tốn tương đối thấp hơn. (2)
GBLMNN và MCML được khuyến nghị khi tìm kiếm chính xác và đánh giá phân loại
cao với thời gian tính tốn là yếu tố phụ. Nhưng đối với dữ liệu phi cấu trúc, chẳng
hạn như bộ dữ liệu hình ảnh, GBLMNN khơng phải là một lựa chọn tốt; (3) ITML và
DML-eig là hai lựa chọn tốt khi học phép đo khoảng cách cho bộ dữ liệu quy mô lớn
do độ phức tạp tính tốn thấp hơn nhiều.
❖ Tháng 12 năm 2018, nhóm tác giả gồm: Juan Lúi Suárez Díaz, Salvador
Garcia, Francisco Herrera thuộc DaSCI Viện nghiên cứu Andalusian về Khoa học Dữ
liệu và Trí tuệ Tính Tốn Đại học Granada, Tây Ban Nha, có đăng bài "
Hướng dẫn về
Học phép đo khoảng cách từ xa: Cơ sở Toán học, Thuật toán, Phân tích Thực
nghiệm, Triển vọng và Thách thức (với Phụ lục về Cơ sở Tốn học và Giải thích
Thuật tốn chi tiết)"[4] trên Computer Sciences. Bài đăng đầu tiên vào ngày 14 tháng
12 năm 2018, lần chỉnh sửa cuối cùng là ngày 19 tháng 08 năm 2020. Trong bài báo
này, nhóm tác giả đã mô tả vấn đề học phép đo khoảng cách và các cơ sở toán học
thành ba khối chính: phân tích lồi, phân tích ma trận và lý thuyết thơng tin. Các thuật
tốn được nhóm tác giả nghiên cứu, đánh giá thử nghiệm tồn diện để phân tích khả
năng của chúng trong các bài toán phân loại tiêu chuẩn, đặc biệt là xem xét giảm kích
thước và các hàm nhân (kernezation).
Trong q trình thực hiện, nhóm tác giả đã thu thập 34 bộ dữ liệu để thử nghiệm.
Tất cả các tập dữ liệu này là số, không chứa các giá trị bị thiếu và được định hướng
cho các vấn đề phân loại tiêu chuẩn. Ngoài ra, mặc dù một số thuật tốn học phép đo
khoảng cách có thể xử lý tốt với những tập dữ liệu lớn, nhưng cũng có các thuật tốn
19


khác không thể xử lý tập dữ liệu quá lớn. Vì vậy đối với các tập hợp có số lượng mẫu
cao, một tập hợp con có kích thước mà tất cả các thuật tốn có thể giải quyết, giữ
ngun phân bố lớp, sẽ được chọn.

Sau đây là bảng mô tả chi tiết 34 bộ dữ liệu dùng để thực nghiệm của nhóm tác
giả:

Bảng 2 Mơ tả 34 bộ dữ liệu thực nghiệm của nhóm tác giả Juan Lúi Srez Díaz, Salvador
Garcia, Francisco Herrera
(trích dẫn từ: />
Trên cơ sở 34 bộ dữ liệu đã thu thập, nhóm tác giả đã thực nghiệm trên 19 thuật
toán học phép đo khoảng cách. Các thuật toán sẽ được đánh giá với các bộ phân loại
kNN (với k=3, 5, 7). Cụ thể các thuật toán thực nghiệm như sau:
20



×