Tải bản đầy đủ (.pdf) (10 trang)

Phân loại hình ảnh sử dụng ràng buộc cục bộ đại diện hạng thấp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (735.34 KB, 10 trang )

No.12/2022

Journal of Science, Tien Giang University

Phân loại hình ảnh sử dụng ràng buộc cục bộ đại diện hạng thấp
Image classification based on locality constrained low rank representation
Nguyễn Hoàng Vũ1,*, Trần Quốc Cường1
1

Trường Đại học Tiền Giang, 119 Ấp Bắc, Phường 5, Mỹ Tho, Tiền Giang, Việt Nam

Thơng tin chung

Tóm tắt

Ngày nhận bài:
22/05/2022
Ngày nhận kết quả phản biện:
02/06/2022
Ngày chấp nhận đăng:
13/06/2022

Đại diện hạng thấp đã được sử dụng hiệu quả trong phân
đoạn không gian con, đại diện tốt cho dữ liệu, và trích xuất đặc
điểm từ dữ liệu bị hỏng. Bài báo này đề xuất một phương pháp phân
loại hình ảnh sử dụng đại diện hạng thấp (LRRC). Bằng cách bổ
sung ràng buộc cục bộ vào hàm mục tiêu và huấn luyện một từ điển
nhằm loại bỏ vấn để ảnh hưởng của nhiễu, một đại diện hạng thấp
cho dữ liệu hình ảnh huấn luyện tương ứng với một từ điển đã đạt
được. Với ý nghĩa về về cấu trúc thông tin và khả năng phân biệt
mạnh, đại diện này rất phù hợp cho nhiệm vụ phân loại hình ảnh.


Kết quả thực nghiệm trên các tập dữ liệu hình ảnh tiêu chuẩn đã
chứng minh tính hiệu quả của phương pháp đề xuất.

Từ khóa:
Đại diện hạng thấp,
học từ điển, phân đoạn, phân
loại hình ảnh, trích đặc điểm.

Keywords:
Low-rank
representation,
dictionary
learning,
segmentation,
image classification, feature
extraction.

Abstract
Low-rank representation (LRR) has been used effectively in
subspace segmentation, data representation and feature extraction
from corrupted data. In this paper, an image classification method
based on low-rank representation (Low Rank Representation
Classification: LRRC) is proposed. By adding local constraints to
objective functions and constructing a dictionary to eliminate
interference effects, a low rank representation for images
corresponding to the constructed dictionary is obtained. With the
meaning in terms of information structure and strong identification
capability, this representation is appropriate for image
classification tasks. The experimental results of standard image files
demonstrate the effectiveness of the proposed approach.


1. GIỚI THIỆU
Đại diện hạng thấp (LRR) ngày
càng nhận được nhiều sự quan tâm, chú
ý vì các ứng dụng thành cơng trong lĩnh
vực thị giác máy tính và học máy. Mục
tiêu của LRR là tìm một đại diện hạng
thấp nhất trong số tất cả dữ liệu, có thể
được biểu diễn dưới dạng kết hợp tuyến
tính của dữ liệu và các nguyên tử trong
một từ điển. LRR đã được chứng minh
hoạt động hiệu quả trong phân đoạn
không gian con và trích xuất đặc điểm từ
dữ liệu bị hỏng [1], [2], [3].

Tuy nhiên, LRR bỏ qua những
thông tin phân biệt trong dữ liệu, đây là
những thơng tin hữu ích để sử dụng LRR
trong phân loại hình ảnh. Các ứng dụng
học LRR phụ thuộc rất nhiều vào từ
điển, thường từ điển được chọn chính là
dữ liệu huấn luyện [1], do đó thơng tin
phân biệt trong từ điển là rất thấp. Để có
được khả năng phân biệt, thông thường
từ điển được học dựa theo lỗi tái cấu trúc
lại dữ liệu huấn luyện theo mỗi lớp [4]
và theo tất cả dữ liệu huấn luyện [5].
Một số đề xuất đã xây dựng một từ điển

* tác giả liên hệ, email: , 0907 495 882


-100-


Tạp chí Khoa học, Trường Đại học Tiền Giang

phân biệt từ đại diện hạng thấp kết hợp
với các ràng buộc làm cho đại diện có
tính miêu tả và tính phân biệt mạnh
trong nhiệm vụ nhận dạng hình ảnh [6],
[7] , [8], [9], [10], [11].
Các phương pháp tiếp cận dựa trên
LRR đều có thể đối phó hiệu quả với
tình huống khi cả mẫu huấn luyện và
kiểm tra đều có nhiễu hoặc bị hỏng. Tuy
nhiên, các phương pháp trên bỏ qua mối
quan hệ giữa các mẫu tương tự hoặc
không học từ điển nhỏ gọn từ dữ liệu
huấn luyện bị hỏng. Để giải quyết các
vấn đề trên, chúng tôi đề xuất phương
pháp phân loại hình ảnh dựa trên đại
diện hạng thấp với một ràng buộc cục bộ
và thuật toán học từ điển (LRRC). Ràng
buộc cục bộ được đưa vào hàm mục tiêu
để khai thác cấu trúc đa nội tại của dữ
liệu huấn luyện. Dưới điều kiện của ràng
buộc cục bộ, các mẫu tương tự sẽ có xu
hướng tạo ra các đại diện tương tự, các
mẫu khác nhau sẽ có tính phân biệt cao.
Kết quả thực hiện phân loại ảnh trên các

tập dữ liệu tiêu chuẩn, so sánh với các
giải thuật khác sẽ chứng minh tính hiệu
quả vượt trội của phương pháp đề xuất.
2. NỘI DUNG NGHIÊN CỨU
2.1. Đại diện hạng thấp
Đại diện hạng thấp là khái niệm dựa
trên giả thuyết rằng tất cả dữ liệu được
lấy mẫu từ nhiều không gian con thấp
chiều nhúng trong không gian cao chiều.
LRR đã được chứng minh thực hiện
nhiệm vụ phân đoạn không gian con một
cách hiệu quả [1], [2]. Với giả thuyết
rằng dữ liệu
được rút ra từ
một trong nhiều khơng gian con thấp
chiều. Mơ hình LRR nhằm tìm kiếm một
đại diện hạng thấp
và nhiễu
thưa
thơng qua từ điển
. Cụ thể, LRR được miêu tả
bởi phương trình tối ưu:

Số 12/2022

(1)
Trong đó

(số phần tử
nonzero), là tham số cân bằng giữa 2

phần.
Phương trình (1) là dạng nonconvex do sự rời rạc tự nhiên của phép

. Do đó, phương
trình (1) được chuyển về dạng sau:
(2)
Trong đó
là nuclear norm (tổng các
giá trị riêng của Z);

(tổng các giá trị tuyệt đối của các phần
tử trong E);
Việc giải (2) tương đương với giải
(1) trong trường hợp dữ liệu có nhiễu tự
nhiên. Tuy nhiên, trong thực tế, một số
lượng lớn dữ liệu thường bị các nhiễu
khác hoặc bị hỏng nặng, vì vậy phương
trình (2) được mơ tả lại như sau:
(3)
Trong đó:




, so sánh

với
,
hướng đến
các cột của E là vector có nhiều phần tử

là 0, tương ứng với nhiều mẫu là rõ ràng
và các mẫu còn lại có nhiễu.
Từ (3), có thể thấy Z là một ma trận
hệ số, mỗi phần tử trong Z đại diện cho
mỗi phần tử trong X tương ứng với phần
tử của D. Như vậy, nếu sử dụng một từ
điển D thích hợp, đại diện hạng thấp
nhất (lowest-rank representation) trong Z
có thể đại diện cho dữ liệu X dưới dạng
kết hợp tuyến tính với các phần tử trong
từ điển D (các biểu diễn hạng thấp trong
Z sẽ tiết lộ nhóm các điểm dữ liệu trong
X).
-101-


No.12/2022

Để phân đoạn dữ liệu thành các
không gian con tương ứng, cần tính tốn
một ma trận quan hệ để mã hóa các mối
quan hệ từng cặp giữa các véc tơ dữ liệu.
Vì vậy, nhóm tác giả đã sử dụng chính
dữ liệu làm từ điển (
).

(4)
Sau khi đạt được Z và E, có thể sử
dụng
hoặc

để đạt được ma trận
hạng thấp phục hồi dữ liệu gốc . Nhóm
tác giả sử dụng đại diện hạng thấp Z để
xác định ma trận quan hệ của một đồ thị
vô hướng. Các véc tơ dữ liệu tương ứng
của các đỉnh và quan hệ giữa

được tính bởi
. Sau đó có
thể thực hiện phân đoạn bằng cách sử
dụng thuật toán Normalized Cuts để đưa
ra kết quả phân đoạn.
Dựa trên những đặc điểm có thể
phục hồi dữ liệu gốc và khả năng đại
diện tốt cho dữ liệu, bài báo đề xuất sử
dụng LRR và bổ sung các ràng buộc vào
hàm mục tiêu phù hợp để cải thiện hiệu
quả phân loại hình ảnh trên cơ sở
phương pháp học từ điển.
2.2. Mơ hình phân loại hình ảnh sử
dụng đại diện hạng thấp
Xét 1 tập dữ liệu hình ảnh huấn
luyện được sắp xếp thành ma trận
, trong đó
là mẫu của lớp thứ i.
Để đạt được đại diện hạng thấp Z từ
tập dữ liệu X, phương trình tổng qt tối
thiểu hóa hạng thấp được sử dụng:
(5)
Mặc dù ma trận Z có khả năng đại

diện tốt cho dữ liệu huấn luyện X, tuy
nhiên để sử dụng trong phân loại hình
ảnh, cần phải cải thiện tính phân biệt
giữa các lớp trong Z.

Journal of Science, Tien Giang University

Để cải thiện tính phân biệt giữa các
lớp chúng tơi xem xét về cấu trúc hình
học của mẫu khác lớp. Hầu hết các thuật
toán học khác nhau sử dụng ý tưởng bất
biến cục bộ là: nếu hai điểm dữ liệu
và gần nhau trong cấu trúc nội tại của
dữ liệu phân phối, khi đó chúng sẽ có
trọng số lớn giữa hai điểm và có khả
năng thể hiện mối quan hệ trong không
gian biểu diễn dữ liệu mới. Như đã công
bố trong [12], chúng tôi sử dụng dạng
ràng buộc cục bộ sau để khai thác thơng
tin hình học cục bộ trong dữ liệu:
(6)
Trong đó ký hiệu
là phép nhân
Hadamard và

.

Biểu thức (6) được xem là một trọng
số
, vì vậy nó có thể thúc đẩy

sự thưa thớt của hàm mục tiêu, (6) được
tính như sau:
(7)
Theo [13], ràng buộc này có lợi cho
việc phân loại khi sử dụng một biểu đồ
thưa đặc trưng cho mối quan hệ cục bộ.
Ma trận trọng số M có một đặc tính:
trọng số M càng nhỏ thể hiện các mẫu
càng giống nhau, trong khi trọng số M
càng lớn thì các mẫu càng khác nhau.
Như vậy, ràng buộc này mong đợi sẽ đạt
được sự tương tự trong cùng lớp và sự
phân biệt giữa các lớp. Dạng ràng buộc
cục bộ này được tích hợp vào hàm mục
tiêu của LRR và viết lại như sau:
(8)
Chất lượng từ điển có tầm quan
trọng lớn đối với vấn đề phân loại hình
ảnh, đặc biệt đối với trường hợp cả hai
dữ liệu huấn luyện và hình ảnh thử
nghiệm bị hỏng [14]. Hiệu suất của thuật
toán phân loại đã được cải thiện đáng kể
-102-


Tạp chí Khoa học, Trường Đại học Tiền Giang

với từ điển được học từ dữ liệu huấn
luyện bị hỏng [15], [16]. Ngồi ra, q
trình học đại diện trở nên hiệu quả đối

với một từ điển nhỏ gọn, thay vì sử dụng
toàn bộ dữ liệu huấn luyện làm từ điển
[17], [1]. Trong mơ hình học đại diện
này, một từ điển nhỏ gọn và phân biệt
được học từ các quan sát bị hỏng bằng
cách khai thác thơng tin hình học cục bộ.
Hàm mục tiêu của phương pháp đề xuất
LRRC để học từ điển đại diện kết hợp
với ràng buộc cục bộ có dạng như sau:

Số 12/2022

trong khi giữ các biến khác cố định trong
cùng thời điểm.
Cập nhật J:

(12)
Sử dụng giải thuật SVT (Singular Value
Thresholding) để giải (12):
(13)

Trong đó:
D và

(9)
là chuẩn Frobenius của
dùng để tránh sự thay đổi

Với
là toán tử shrinkage.


tỉ lệ trong quá trình học từ điển.
2.3. Giải hàm mục tiêu
Để giải phương trình (9), các biến
phụ J và L được thêm vào, phương trình
(9) được viết lại:

,

(14)
Cập nhật Z:

(10)
Phương trình (10) được giải bằng
phương pháp Augmented Lagrange
Multiplier (ALM) [18]. Hàm Lagrange
tương ứng được viết như sau:

(15)

(16)
Cập nhật L:

(11)
Trong

đó
,
là các nhân tử Lagrange. Tối ưu
hóa các biến trong (11) được thực hiện

bằng cách luân phiên cập nhật 1 biến

(17)

-103-


No.12/2022

Journal of Science, Tien Giang University

Phương trình (17) được cập nhật theo
từng phần tử, hàng thứ i và cột thứ j của
của phần tử
được tính:

(18)
Cập nhật E:

(19)

Trong đó đại diện của mẫu thử thứ i là
cột thứ i của

là đại diện
hạng thấp của dữ liệu
được tính
bằng cách giải (5).
Thuật tốn 1: Giải phương trình (9) bằng
phương pháp ALM

Input: Ma trận dữ liệu hình ảnh X, các
tham số , , .
1: Khởi tạo
,
,
,
,
,
,
,
,
,
2: while chưa hội tụ do
3:
Lần lượt cập nhật J, Z, L, E, D sử
dụng (12), (16), (18), (19), (20).
4: Cập nhật các nhân tử:

Cập nhật D:

(20)
Thuật toán 1 tổng hợp các bước giải
phương trình (9) bằng phương pháp
ALM.
2.4. Phân loại
Quá trình phân loại được thực hiện
bởi bộ phân lớp tuyến tính. Sau khi đại
diện hạng thấp Z của dữ liệu huấn luyện
X được tính, chúng tơi sử dụng mơ hình
hồi quy ridge đa biến để xác định bộ

phân lớp tuyến tính :
(21)
H là ma trận lớp nhãn của X.
(22)
Nhãn của mẫu thử thứ i được xác
định bởi:
(23)

5:

Cập nhật :

6:

Kiểm tra điều kiện hội tụ:

7: end while
Output: Z, D, E
2.5. Khởi tạo từ điển
Phương pháp K-SVD [19] được sử
dụng để khởi tạo từ điển.
3. KẾT QUẢ VÀ THẢO LUẬN
Để chứng minh hiệu quả của
phương pháp đề xuất, các thử nghiệm
được thực hiện trên 3 cơ sở dữ liệu hình
ảnh tiêu chuẩn: cơ sở dữ liệu Extended
Yale B [20], cơ sở dữ liệu AR [21] và
Caltech101 [22]. Thuật toán đề xuất
được so sánh với các phương pháp liên
quan bao gồm SRC [17], SLRR [14],

LRSR [23], LRSI [15].
-104-


Tạp chí Khoa học, Trường Đại học Tiền Giang

(a) Dữ liệu Extended Yale B

(b) Dữ liệu AR

(c) Dữ liệu Caltech101
Hình 1. Vài hình ảnh từ các tập dữ
liệu
3.1. Thực nghiệm trên tập dữ liệu
Extended Yale B
Tập dữ liệu khuôn mặt Extended
Yale B chứa 2414 hình ảnh của 38
người, hình ảnh của mỗi người được
chụp trong 64 điều kiện ánh sáng được
kiểm sốt khác nhau. Các hình ảnh đều ở
tư thế chính diện và được cắt theo vùng
mặt thực tế. Tất cả các hình ảnh có độ
phân giải 192 × 168 pixel (Hình 1a).
Chúng tơi thực hiện giảm kích thước
hình ảnh với tỉ lệ 1/2, 1/4, 1/8 tương ứng
với 8064, 2016 và 504 chiều. Số lượng
ảnh được chọn ngẫu nhiên trên mỗi lớp
(Nc) để huấn luyện là 8 và 32. Đối với
trường hợp 8 ảnh cho mỗi lớp, từ điển
được chọn có 5 nguyên tử cho mỗi lớp,

trường hợp 32 ảnh mỗi lớp, từ điển được
chọn có 20 mục cho mỗi lớp. Kết quả
nhận dạng so sánh các phương pháp
khác được trình bày trong Bảng 1 và
Bảng 2. Có thể thấy rằng phương pháp
đề xuất LRRC có kết quả vượt trội hơn
so với các phương pháp khác trong cả
hai các trường hợp. Nó vượt trội hơn
SLRR khi cải thiện cao nhất 3,5% với 8
hình ảnh đào tạo cho mỗi người và cải
thiện 7,9% với 32 hình ảnh huấn luyện.
Cách tiếp cận của chúng tôi đạt được

Số 12/2022

tăng hiệu suất đáng kể trong trường hợp
32 hình ảnh huấn luyện trên mỗi lớp, vì
từ điển đã học với 20 nguyên tử cho mỗi
lớp có khả năng mở rộng khơng gian con
tương ứng tốt hơn và biểu diễn do LRRC
thu được có khả năng phân biệt tốt hơn,
có lợi cho việc mục đích phân loại.
Bảng 1. Tỉ lệ nhận dạng trên tập dữ
liệu Extended Yale B (Nc = 8)

Tỉ lệ mẫu
SRC
LRSR
SLRR
LRSI

LRRC

1/8
75,3
75,3
76,6
70,3
80,1

1/4
78,9
78,6
83,7
80,9
84,6

1/2
80,1
79,5
83,8
80,8
85,0

Bảng 2. Tỉ lệ nhận dạng trên tập dữ
liệu Extended Yale B (Nc = 32)

Tỉ lệ mẫu
SRC
LRSR
SLRR

LRSI
LRRC

1/8
84,4
96,8
89,9
89,5
97,8

1/4
85,7
96,9
93,6
93,5
99,0

1/2
85,9
97,7
95,7
94,5
99,8

1.1. Thực nghiệm trên tập dữ liệu AR
Tập dữ liệu khn mặt AR bao gồm
hơn 4000 hình ảnh trực diện từ 126 cá
nhân. Đối với mỗi cá nhân, 26 hình ảnh
được chụp trong hai nhóm riêng biệt,
gồm nhiều biến thể như thay đổi ánh

sáng, biểu cảm và ngụy trang trên
khn mặt (Hình 1b). Kích thước của
mỗi hình ảnh là 165 × 120 pixel. Trong
các thử nghiệm, một tập hợp con của cơ
sở dữ liệu AR gồm 50 nam và 50 nữ
được chọn. Các ảnh được chuyển đổi
sang thang màu xám và lấy mẫu xuống
theo tỷ lệ 1/3. Kích thước của vectơ đặc
điểm là 2200. Các thí nghiệm được tiến
hành trong ba tình huống sau:
1) Kính râm: Trước tiên, chúng tơi
xem xét các mẫu huấn luyện có sự hiện
-105-


No.12/2022

diện của kính râm, ảnh hưởng đến
khoảng 20% hình ảnh khn mặt.
Chúng tơi sử dụng bảy hình ảnh trung
tính cộng với 1 hình ảnh kính râm từ
nhóm 1 (được chọn ngẫu nhiên) cho 1
lớp (8 hình ảnh cho mỗi lớp) và hình
ảnh trung tính cịn lại hình ảnh (từ
nhóm 2) và phần cịn lại của hình ảnh
với kính râm (2 ảnh ở nhóm 1 và 3 ảnh
ở nhóm 2) dùng để kiểm tra (12 hình
ảnh kiểm tra cho mỗi lớp).
2) Khẩu trang: Chọn số lượng ảnh
huấn luyện và kiểm tra giống như ảnh

kính râm ở trên.
3) Hỗn hợp (kính râm và khẩu
trang): Các mẫu huấn luyện bao gồm
ảnh kính râm và khẩu trang. 7 hình ảnh
trung tính, 2 hình ảnh bị hỏng (1 ảnh có
kính râm và 1 ảnh với khẩu trang) từ
nhóm 1 được sử dụng để huấn luyện (9
ảnh huấn luyện cho mỗi lớp) và phần
còn lại được sử dụng để kiểm tra (17
hình ảnh kiểm tra/mỗi lớp).
Kích thước từ điển được chọn với 5
nguyên tử/mỗi lớp trong cả 3 tình
huống. Kết quả so sánh các phương
pháp khác nhau trên cơ sở dữ liệu AR
được tóm tắt trong Bảng 3. Cách tiếp
cận của chúng tôi đạt được kết quả nhận
tốt nhất và làm tốt hơn LRSR 3,1% đối
với trường hợp kính râm, 5,2% cho
trường hợp khẩu trang và 4,4% cho
trường hợp hỗn hợp.
Bảng 3. Tỉ lệ nhận dạng trên tập dữ
liệu AR
Chiều 2200
Kính Khẩu Hỗn
râm trang hợp
SRC
82,1
72,6 65,5
LRSR
89,2

85,2 85,6
SLRR
87,3
83,4 82,4
LRSI
84,9
76,4 80,3
LRRC
92,3
90,4 90,0
Phương pháp tiếp cận của chúng tôi
cho thấy sự chắc chắn đối với những

Journal of Science, Tien Giang University

trường hợp ảnh bị che khuất như kính
râm và khẩu trang trong khi hiệu suất
của các phương pháp khác thấp hơn khi
cả hình ảnh huấn luyện và kiểm tra bị
hỏng. Từ kết quả nhận dạng cho thấy, từ
điển dựa trên đại diện hạng thấp có tính
phân biệt rất quan trọng đối với học cách
đại diện khi cả hình ảnh huấn luyện và
kiểm tra đều bị hỏng nặng.
3.2. Thực nghiệm trên tập dữ liệu
Caltech101
Tập dữ liệu hình ảnh Caltech 101
chứa 9144 ảnh gồm 102 lớp, 101 lớp là
động vật, hoa, cây cối, … và một lớp
nền. Số lượng hình ảnh trong mỗi lớp

thay đổi từ 31 đến 800 (Hình 1c). 15 và
30 hình ảnh trong mỗi lớp được chọn
ngẫu nhiên cho dữ liệu huấn luyện, phần
còn lại dùng để kiểm tra. Từ điển được
chọn với 10 phần tử/mỗi lớp. Bảng 4
trình bày độ chính xác của q trình
phân loại. Thuật toán đề xuất đã đạt
được hiệu suất vượt trội so với các
phương pháp khác. Hình 2 thể hiện ảnh
từ các lớp đạt được độ chính xác phân
loại cao trong trường hợp sử dụng 30
hình ảnh huấn luyện cho mỗi lớp.

(a) Đồng hồ 95,8%

(b) Mô tô 97,6%

(c) Âm dương 100%
-106-


Tạp chí Khoa học, Trường Đại học Tiền Giang

Số 12/2022

phương pháp đề xuất so với các phương
pháp học tương tự.
TÀI LIỆU THAM KHẢO

(d) Hoa 100%


(e) Quả bóng 100%
Hình 2. Hình ảnh có tỉ lệ nhận dạng
cao
Bảng 4. Tỉ lệ nhận dạng trên tập dữ
liệu Caltech 101
Số mẫu huấn luyện
15
30
SRC
64,9 70,7
LRSR
69,6 77,2
SLRR
66,1 73,6
LRSI
58,3 65,7
LRRC
72,1 79,8
Qua kết quả thực nghiệm, có thể
thấy phương pháp đề xuất đã đạt được
hiệu quả phân loại hình ảnh tốt hơn so
với các phương pháp khác khi kết hợp
đại diện hạng thấp với ràng buộc cục bộ.
Ràng buộc cục bộ đã có xu hướng làm
cho đại diện của các mẫu trong cùng lớp
có tính tương tự, trong khi đại diện hạng
thấp có khả năng loại trừ nhiễu trong
hình ảnh. Ngồi ra, khi sử dụng phương
pháp học từ điển, một từ điển nhỏ gọn

với khả năng tái tạo tốt các mẫu và khả
năng phân biệt mạnh được học cùng thời
điểm với đại diện hạng thấp.
4. KẾT LUẬN
Bài báo đã giới thiệu một thuật tốn
mới “Phân loại hình ảnh sử dụng đại
diện hạng thấp”. Với việc thiết kế bổ
sung các ràng buộc phân biệt vào quy tắc
hạng thấp, thuật toán đã cải thiện khả
năng miêu tả và độ phân biệt của đại
diện hạng thấp và từ điển phân biệt được
huấn luyện nhằm nâng cao hiệu quả
nhận dạng hình ảnh. Kết quả thực
nghiệm cho thấy tính vượt trội của

[1].

[2].

[3].

[4].

[5].

[6].

-107-

G. Liu, Z. Lin, S. Yan, J. Sun, Y.

Yu, and Y. Ma, “Robust recovery of
subspace structures by low-rank
representation,”
IEEE
Trans.
Pattern Anal. Mach. Intell., vol. 35,
no. 1, pp. 171–184, 2013, doi:
10.1109/TPAMI.2012.88.
J. Chen and J. Yang, “Robust
subspace segmentation via low-rank
representation,”
IEEE
Trans.
Cybern., vol. 44, no. 8, pp. 1432–
1445,
2014,
doi:
10.1109/TCYB.2013.2286106.
Z. Hu, F. Nie, R. Wang, and X. Li,
“Low Rank Regularization: A
review,” Neural Networks, vol. 136,
pp.
218–232,
2021,
doi:
10.1016/j.neunet.2020.09.021.
L. Ma, C. Wang, B. Xiao, and W.
Zhou, “Sparse representation for
face
recognition

based
on
discriminative low-rank dictionary
learning,” in Proceedings of the
IEEE Computer Society Conference
on Computer Vision and Pattern
Recognition, 2012, pp. 2586–2593,
doi: 10.1109/CVPR.2012.6247977.
T. Zhang, B. Ghanem, S. Liu, … C.
X.-P. of the, and undefined 2013,
“Low-rank sparse coding for image
classification,”
openaccess.thecvf.com, 2013, doi:
10.1109/ICCV.2013.42.
L. Li, S. Li, and Y. Fu, “Learning
low-rank
and
discriminative
dictionary for image classification,”
Image Vis. Comput., vol. 32, no. 10,
pp.
814–823,
2014,
doi:
10.1016/j.imavis.2014.02.007.


No.12/2022

[7]. H.-F. Yin, X.-J. Wu, and J. Kittler,

“Face Recognition via Locality
Constrained
Low
Rank
Representation
and
Dictionary
Learning,” 2019, Accessed: Mar.
01, 2020. [Online]. Available:
/>RDL.
[8]. P. Xie, H.-F. Yin, and X.-J. Wu,
“Low-rank representations with
incoherent dictionary for face
recognition,” 2019, Accessed: Apr.
06, 2020. [Online]. Available:
/>[9]. H. Nguyen, W. Yang, B. Sheng, and
C. Sun, “Discriminative low-rank
dictionary
learning
for
face
recognition,” Neurocomputing, vol.
173, pp. 541–551, Jan. 2016, doi:
10.1016/j.neucom.2015.07.031.
[10]. Q. Wang, X. He, and X. Li,
“Locality and structure regularized
low
rank
representation
for

hyperspectral image classification,”
IEEE Trans. Geosci. Remote Sens.,
vol. 57, no. 2, pp. 911–923, 2019,
doi: 10.1109/TGRS.2018.2862899.
[11]. J. Li, H. Chang, and J. Yang,
“Learning discriminative low-rank
representation
for
image
classification,” Proc. Int. Jt. Conf.
Neural Networks, no. September,
pp.
313–318,
2014,
doi:
10.1109/IJCNN.2014.6889401.
[12]. L. Wei, A. Wu, and J. Yin,
“Latent space robust subspace
segmentation based on low-rank and
locality constraints,” Expert Syst.
Appl., vol. 42, no. 19, pp. 6598–
6608,
2015,
doi:
10.1016/j.eswa.2015.04.041.
[13]. M. Belkin and P. Niyogi,
“Laplacian
eigenmaps
for
dimensionality reduction and data


Journal of Science, Tien Giang University

representation,” Neural Comput.,
vol. 15, no. 6, pp. 1373–1396, 2003,
doi: 10.1162/089976603321780317.
[14]. Y. Zhang, Z. Jiang, and L. S.
Davis, “Learning structured lowrank representations for image
classification,” Proc. IEEE Comput.
Soc. Conf. Comput. Vis. Pattern
Recognit., pp. 676–683, 2013, doi:
10.1109/CVPR.2013.93.
[15]. C.-F. Chen, C.-P. Wei, and Y.-C.
F. Wang, “Low-rank matrix
recovery with structural incoherence
for robust face recognition,”
ieeexplore.ieee.org,
2012,
doi:
10.1109/CVPR.2012.6247981.
[16]. Y. Rong, S. Xiong, and Y. Gao,
“Low-rank
double
dictionary
learning from corrupted data for
robust image classification,” Pattern
Recognit., vol. 72, pp. 419–432,
2017,
doi:
10.1016/j.patcog.2017.06.038.

[17]. J. Wright, A. Y. Yang, A.
Ganesh, S. S. Sastry, and Y. Ma,
“Robust face recognition via sparse
representation,”
IEEE
Trans.
Pattern Anal. Mach. Intell., vol. 31,
no. 2, pp. 210–227, 2009, doi:
10.1109/TPAMI.2008.79.
[18]. Z. Lin, M. Chen, and Y. Ma,
“The
Augmented
Lagrange
Multiplier Method for Exact
Recovery of Corrupted Low-Rank
Matrices,”
Sep.
2010,
doi:
10.1016/j.jsb.2012.10.010.
[19]. M. Aharon, M. Elad, and A.
Bruckstein, “K-SVD: An algorithm
for
designing
overcomplete
dictionaries
for
sparse
representation,” IEEE Trans. Signal
Process., vol. 54, no. 11, pp. 4311–

4322,
2006,
doi:
10.1109/TSP.2006.881199.
-108-


Tạp chí Khoa học, Trường Đại học Tiền Giang

[20]. A. S. Georghiades, P. N.
Belhumeur, and D. J. Kriegman,
“From few to many: Illumination
cone models for face recognition
under variable lighting and pose,”
IEEE Trans. Pattern Anal. Mach.
Intell., vol. 23, no. 6, pp. 643–660,
Jun. 2001, doi: 10.1109/34.927464.
[21]. A. Mart Nez and R. Benavente,
“The AR Face Database,” CVC
Tech. Rep., 1998, Accessed: Apr.
06, 2020. [Online]. Available:
/>xfaceDB.htmlor
n.purdue.edu.
[22]. L. Fei-Fei, R. Fergus, and P.
Perona, “Learning generative visual
models from few training examples:
An incremental Bayesian approach
tested on 101 object categories,”
Comput. Vis. Image Underst., vol.
106, no. 1, pp. 59–70, Apr. 2007,

doi: 10.1016/j.cviu.2005.09.012.
[23]. Y. Li, J. Liu, H. Lu, and S. Ma,
“Learning robust face representation
with
classwise
block-diagonal
structure,” IEEE Trans. Inf.
Forensics Secur., vol. 9, no. 12, pp.
2051–2062,
2014,
doi:
10.1109/TIFS.2014.2361936.

-109-

Số 12/2022



×