.
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ LAN ANH
NGHIÊN CỨU MƠ HÌNH HỌC TỪ ĐIỂN THƯA
ỨNG DỤNG TRONG NHẬN DẠNG
THĨC GIỐNG
LUẬN VĂN THẠC SĨ CƠNG NGHỆ THÔNG TIN
HÀ NỘI - 2018
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ LAN ANH
NGHIÊN CỨU MƠ HÌNH HỌC TỪ ĐIỂN THƯA
ỨNG DỤNG TRONG NHẬN DẠNG
THĨC GIỐNG
LUẬN VĂN THẠC SĨ CƠNG NGHỆ THÔNG TIN
Cán bộ hướng dẫn: PGS. TS. Nguyễn Thị Thủy
Cán bộ đồng hướng dẫn: PGS. TS. Lê Thanh Hà
HÀ NỘI, 2018
LỜI CAM ĐOAN
Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm được trình bày trong luận văn
này do tơi thực hiện dưới sự hướng dẫn của Phó giáo sư - Tiến sĩ Nguyễn Thị Thuỷ và
Phó giáo sư - Tiến sĩ Lê Thanh Hà.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách
rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn, khơng có việc sao
chép tài liệu, cơng trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham
khảo.
TÁC GIẢ LUẬN VĂN
Phạm Thị Lan Anh
LỜI CẢM ƠN
Trước tiên, tôi xin gửi lời cảm ơn sâu sắc nhất đến cơ giáo: Phó giáo sư - Tiến sĩ Nguyễn
Thị Thuỷ và thầy giáo: Phó giáo sư - Tiến sĩ Lê Thanh Hà, đã tận tình hướng dẫn tơi
trong suốt q trình thực hiện luận văn tốt nghiệp.
Cảm ơn thầy giáo - Tiến sĩ Trần Quốc Long đã có những góp ý, nhận xét q giá giúp
hồn thiện nội dung nghiên cứu của tôi trong luận văn này.
Tôi xin bày tỏ lời cảm ơn chân thành tới trường Đại học Công Nghệ - ĐHQG Hà Nội
và những thầy cô giáo đã giảng dạy, truyền thụ kiến thức cho tôi trong thời gian qua
cùng với sự quan tâm và động viên khích lệ tinh thần của các thành viên của phịng thí
nghiệm Tương tác người máy HMI – Đại học Công nghệ, Đại học Quốc Gia Hà Nội.
Tôi cũng cảm ơn các đồng nghiệp của Khoa Công nghệ thơng tin, đặc biệt là Bộ mơn
Khoa học máy tính – Học viện Nông nghiệp Việt Nam đã luôn tạo điều kiện và hỗ trợ
tốt nhất để tôi tập trung hoàn thành việc học cao học và bảo vệ luận văn thạc sĩ.
Cuối cùng, tôi xin cảm ơn tất cả gia đình, bạn bè đã ln động viên giúp đỡ tơi trong
thời gian nghiên cứu đề tài. Tuy đã có những cố gắng nhất định nhưng do thời gian và
trình độ có hạn nên luận văn cịn nhiều thiếu sót và hạn chế. Kính mong nhận được sự
góp ý của quý thầy cô và các bạn.
TÁC GIẢ LUẬN VĂN
Phạm Thị Lan Anh
MỤC LỤC
Lời cam đoan ................................................................................................................. iii
Lời cảm ơn ......................................................................................................................iv
Mục lục ............................................................................................................................v
Danh mục ký hiệu và chữ viết tắt ....................................................................................1
Danh mục hình vẽ ............................................................................................................2
Danh mục bảng biểu ........................................................................................................3
Giới thiệu .........................................................................................................................4
Chương 1.
Mơ hình học từ điển và mã thưa ..............................................................6
1.1. Biểu diễn thưa và học từ điển ............................................................................6
1.1.1.
Biểu diễn thưa ..........................................................................................6
1.1.2.
Học từ điển...............................................................................................8
1.1.3.
Mơ hình học từ điển và mã thưa ..............................................................9
1.2. Xây dựng mơ hình học từ điển và mã thưa ......................................................10
1.2.1.
Giới thiệu họ các chuẩn .........................................................................10
1.2.2.
Xác định mã thưa và xây dựng từ điển học ...........................................15
1.3. Một số mơ hình học từ điển ứng dụng cho phân lớp .......................................18
1.3.1.
Mơ hình học từ điển có đảm bảo tính thưa ............................................19
1.3.2.
Mơ hình học từ điển khơng cần đảm bảo tính thưa ...............................21
Chương 2.
Bài toán nhận dạng ảnh và ứng dụng.....................................................24
2.1. Tổng quan về bài tốn nhận dạng ....................................................................24
2.1.1.
Giới thiệu thị giác máy tính ...................................................................24
2.1.2.
động
Bài tốn nhận dạng ảnh và quy trình thực hiện của hệ nhận dạng ảnh tự
...............................................................................................................26
2.2. Ứng dụng của nhận dạng ảnh...........................................................................29
Chương 3.
Cài đặt và kết quả thực nghiệm .............................................................32
3.1. Mơ tả bài tốn ..................................................................................................33
3.1.1.
Dữ liệu ...................................................................................................34
3.1.2.
Cài đặt ....................................................................................................36
3.2. Kết quả đạt được ..............................................................................................37
3.3. Thảo luận về ảnh hưởng của ràng buộc thưa vào kết quả nhận dạng ..............43
Chương 4. Kết luận và hướng phát triển ......................................................................45
Tài liệu tham khảo .........................................................................................................46
Phụ lục ...........................................................................................................................49
1
DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT
CS
Compressed Sensing
DPL
Dictionary Pair Learning
K-SVD
K-means Singular Value Decomposition
LC-KSVD
Label Consistent K-means Singular Value Decomposition
MP
Matching Pursuit
NSL
Nyquist Sampling Law
OMP
Orthogonal Matching Pursuit
RF
Random Forest
SAD
Sum of Absolute Difference
SSD
Sum of Squared Difference
SST
Shannon’ Sampling Theorem
SVM
Support Véc-tơ Machine
2
DANH MỤC HÌNH VẼ
Hình 1.1. Mẫu ảnh đa mức xám và biểu diễn dày ........................................................... 7
Hình 1.2. Ảnh đa mức xám với biểu diễn thưa ............................................................... 8
Hình 1.3. Mơ tả giải pháp tối thiểu hóa của một số chuẩn trong khơng gian 2-D ........ 14
Hình 2.1. Một số ví dụ về các thuật tốn thị giác máy .................................................. 26
Hình 2.2. Một số ví dụ về ứng dụng của nhận dạng mẫu ảnh ....................................... 27
Hình 2.3.Quy trình thực hiện của hệ nhận dạng ảnh tự động ........................................ 28
Hình 3.1.Ảnh từng hạt thóc của các giống thóc khác nhau sẽ trở thành dữ liệu mẫu cho
việc học các mơ hình ..................................................................................................... 34
Hình 3.2.Biểu đồ thể hiện hiệu suất của mơ hình LC-KSVD và DPL .......................... 39
Hình 3.3.Biểu đồ so sánh tổng thời gian học và kiểm tra mơ hình của LC-KSVD1, LCKSVD2, DPL ................................................................................................................. 41
Hình 3.4.Biểu đồ tổng hợp kết quả phân loại của mơ hình học từ điển, SVM và RF... 43
Hình phụ lục 1.Sơ đồ quá trình nhận dạng biển số xe ................................................... 49
Hình phụ lục 2.Ảnh biển số xe sau khi được thu nhận và phân tách. ........................... 50
Hình phụ lục 3.Hiệu suất phân lớp của mơ hình LC-KSVD và DPL ........................... 54
Hình phụ lục 4.Thời gian học và kiểm tra mơ hình của LC-KSVD 1, LC-KSVD 2,
DPL ................................................................................................................................ 55
3
DANH MỤC BẢNG BIỂU
Bảng 3.1.Thống kê số lượng dữ liệu ảnh của từng giống thóc...................................... 35
Bảng 3.2.Kết quả khi thay đổi tham số sparsitythres của giống Bắc thơm 7 ................ 36
Bảng 3.3.Kết quả khi thay đổi tham số DictSize của giống thóc Bắc thơm 7 .............. 37
Bảng 3.4.Kết quả phân lớp của LC-KSVD1, LC-KSVD2 và DPL .............................. 38
Bảng 3.5.Thời gian học mơ hình và kiểm tra của LC-KSVD và DPL .......................... 40
Bảng phụ lục 1.Số lượng biển số xe thu nhận được ...................................................... 50
Bảng phụ lục 2.Số lượng từng ký tự được tách ra từ biển số xe ................................... 51
Bảng phụ lục 3.Số lượng mẫu của bài toán nhận dạng 10 ký tự ................................... 52
Bảng phụ lục 4.Số lượng mẫu của bài toán nhận dạng 14 ký tự ................................... 52
Bảng phụ lục 5.Số lượng mẫu của bài toán nhận dạng mẫu ......................................... 53
Bảng phụ lục 6.Hiệu suất phân lớp của LC-KSVD 1, LC-KSVD 2 và DPL ................ 54
Bảng phụ lục 7.Thời gian học và kiểm tra mơ hình của LC-KSVD 1, LC-KSVD 2,
DPL ................................................................................................................................ 54
4
GIỚI THIỆU
Phương pháp biểu diễn thưa (Sparse represetation) là một phương pháp đại diện tiêu
biểu cho phương pháp biểu diễn tuyến tính [5] và đã được chứng minh là giải pháp mạnh
mẽ cho nhiều lĩnh vực ứng dụng, đặc biệt là xử lý tín hiệu, xử lý hình ảnh, học máy, thị
giác máy tính. Biểu diễn thưa cho thấy tiềm năng phát triển cho nhiều bài toán về ảnh
như khử nhiễu ảnh, nén ảnh, khơi phục ảnh, phân loại hình ảnh, phân vùng hình ảnh. Sự
kết hợp giữa phương pháp biểu diễn thưa dựa trên một bộ từ điển (Dictionary learning)
được học từ chính tín hiệu mẫu ban đầu đã giúp cho mơ hình học từ điển thưa (Dictionary
learning and sparse coding) trở thành một trong những mơ hình mạnh để biểu diễn tín
hiệu được ưa chuộng từ khi bắt đầu hình thành cho đến ngày nay.
Ban đầu, mơ hình chỉ quan tâm đến lớp bài toán biểu diễn lại tín hiệu một cách thưa thớt
nhất nhưng cũng phải đảm bảo khả năng khôi phục là tốt nhất. Trong những năm gần
đây, với sự phát triển của khoa học kỹ thuật cũng như những đòi hỏi từ ứng dụng thực
tế, các nhà nghiên cứu về mơ hình học từ điển thưa đã cải tiến mơ hình cổ điển thành
những mơ hình có tính cạnh tranh trong việc giải quyết những bài toán phân loại/nhận
dạng, đặc biệt là phân loại/nhận dạng ảnh số.
Trong luận văn này, tơi tìm hiểu về lý thuyết biểu diễn thưa và những phương pháp cơ
bản để xây dựng một mơ hình học từ điển thưa đồng thời cũng trình bày hai hướng phát
triển chính của mơ hình học từ điển: mơ hình học từ điển đảm bảo tính thưa và mơ hình
học từ điển khơng cần đảm bảo tính thưa. Sau đó, tơi triển khai cài đặt hai mơ hình đại
diện cho hai hướng là mơ hình học từ điển với nhãn phù hợp (LC-KSVD) – tiêu biểu cho
mơ hình học từ điển đảm bảo thưa và mơ hình cặp từ điển (DPL) – tiêu biểu cho mơ
hình học từ điển khơng đảm bảo thưa trên bộ dữ liệu ảnh thóc giống được thu nhận từ
thực tế Việt Nam. Việc áp dụng các mơ hình học từ điển trên bộ dữ liệu ký tự biển số
xe (được trình bày trong phần Phụ lục của luận văn này) nhằm mục đích đánh giá sơ bộ
khả năng ứng dụng của các mơ hình với bài tốn nhận dạng ảnh để làm tiền đề cho bài
tốn nhận dạng thóc giống. Ngồi ra, việc áp dụng các mơ hình trên hai bộ dữ liệu khác
nhau với những đặc điểm, khó khăn khác nhau sẽ giúp tơi có sự đánh giá khách quan
hơn đối với mơ hình học từ điển đảm bảo thưa và khơng đảm bảo thưa. Từ đó đưa ra
những nhận xét về hai dạng mơ hình học từ điển cũng như đề xuất hướng ứng dụng của
mơ hình học từ điển thưa.
Ngoài phần giới thiệu và tài liệu tham khảo, luận văn này gồm 4 chương với các nội
dung chính sau đây:
5
Chương 1 trình bày về mơ hình học từ điển và mã thưa với mô tả chi tiết về cách
xây dựng mơ hình học từ điển và tìm biểu diễn thưa tương ứng. Đồng thời, tôi
cũng đề cập tới một xu hướng phát triển mới của mơ hình học từ điển áp dụng
cho bài tốn phân lớp/nhận dạng đó là xây dựng mơ hình học từ điển khơng cần
đảm bảo tính thưa.
Chương 2 là tổng quan về bài tốn nhận dạng mẫu ảnh. Trong chương này, tơi sẽ
trình bày một số nghiên cứu có liên quan đến lĩnh vực của luận án bao gồm lý
thuyết về thị giác máy tính, bài tốn nhận dạng đối tượng nói chung và nhận dạng
ảnh nói riêng cũng như nêu lên một số ứng dụng của nhận dạng mẫu ảnh.
Chương 3 mơ tả chi tiết q trình thực nghiệm cài đặt các mơ hình học từ điển
với bộ dữ liệu ảnh thóc giống và đưa ra kết quả tính tốn cho thời gian chạy cũng
như hiệu suất phân loại của từng mơ hình. Qua đó đưa ra một số nhận xét đối với
các mơ hình.
Chương 4 trình bày kết luận và hướng phát triển trong tương lai.
Ngoài các chương chính, luận văn cịn trình bày thêm phần Phụ lục: mơ tả chi
tiết q trình thực nghiệm cài đặt các mơ hình học từ điển trên bộ dữ liệu ảnh ký
tự biển số xe để làm cơ sở lý luận cho việc so sánh tính hiệu quả của hai mơ hình
tiêu biểu cho hai hướng xây dựng mơ hình học từ điển.
6
CHƯƠNG 1.
MƠ HÌNH HỌC TỪ ĐIỂN VÀ MÃ THƯA
Con người chúng ta ghi nhớ về một hiện tượng, sự vật; cách chúng ta phân biệt các hiện
tượng, sự vật khác nhau khơng hề đầy đủ các tín hiệu về hiện tượng, sự vật đó mà chỉ
qua một vài tín hiệu nhất định. Chúng ta phát hiện ra một bản nhạc có thể chỉ bằng vài
nốt nhạc đầu tiên hay nhận ra khn mặt của ai đó sau nhiều năm khơng gặp chỉ thơng
qua vị trí nốt ruồi gần mắt.
Đây chính là tiền đề cho một phương pháp biểu diễn tín hiệu được gọi là biểu diễn thưa.
Ban đầu mục đích cho việc biểu diễn thưa chỉ dừng lại ở việc biểu diễn tín hiệu một
cách cơ đọng, giảm khơng gian lưu trữ tín hiệu mà khơng làm mất mát thơng tin có giá
trị. Trong những năm gần đây, biểu diễn thưa cho một tín hiệu đầu vào đã được đơng
đảo các nhà nghiên cứu tham gia tìm hiểu và phát triển thêm những tính chất phù hợp
hơn với các bài toán thực tế đa dạng. Với ý tưởng thực hiện biểu diễn thưa cho tín hiệu
ban đầu dựa trên bộ các thành phần (atoms) được tạo nên từ chính tập tín hiệu đã có sẵn,
mơ hình học từ điển thưa trở thành một mơ hình mạnh trong việc biểu diễn tín hiệu và
mở rộng ra cho việc loại bỏ nhiễu, nén, phân loại tín hiệu [4,43]. Bởi thế, mơ hình học
từ điển thưa đáng được quan tâm và phát triển cũng như ứng dụng vào nhiều hơn nữa
các bài toán thực tế đầy thách thức.
Chương này của luận văn sẽ trình bày cụ thể về mơ hình học từ điển cổ điển cũng như
cách để xác định từ điển và hệ số biểu diễn thưa (mã thưa). Ngoài ra, luận văn cũng trình
bày một hướng phát triển khác của mơ hình học từ điển ứng dụng cho phân lớp là mơ
hình học từ điển khơng cần đảm bảo tính thưa (tức yếu tố ràng buộc đối với hệ số biểu
diễn thưa đã khơng cịn được chú trọng).
1.1. Biểu diễn thưa và học từ điển
1.1.1. Biểu diễn thưa
Trong thế giới số, mọi tín hiệu đều được biểu diễn dưới dạng số và việc biểu diễn này
có hiệu quả hay khơng sẽ ảnh hưởng đến các phép xử lý tiếp theo trong đó có truyền gửi
và lưu trữ. Vì vậy, các nhà nghiên cứu ln mong muốn việc biểu diễn tín hiệu trong thế
giới số gần nhất có thể với tín hiệu thế giới thực nhưng có thể truyền đưa và lưu trữ ngắn
gọn dẫn tới tín hiệu thường khơng được biễu diễn trùng khớp hồn tồn mà sẽ được biểu
diễn thơng qua các đặc trưng đủ để phân biệt tín hiệu này với tín hiệu khác giúp quá
7
trình truyền đưa và lưu trữ bớt tốn kém cũng như tăng tốc độ của việc xử lý tín hiệu sau
đó. Ý tưởng này hình thành nên một phương pháp biểu diễn tuyến tính gọi là biểu diễn
thưa. Về mặt nguồn gốc lý thuyết, biểu diễn thưa có liên quan đến lý thuyết cảm biến
nén (Compressed Sensing – CS) [43]. Theo lý thuyết CS thì những tín hiệu thưa hoặc
được nén thì tín hiệu ban đầu có thể được khơi phục bằng cách triển khai một vài giá trị
đo được trong khi số lượng những giá trị này ít hơn nhiều so với cách lấy mẫu của
Shannon (Shannon’sampling theorem - SST) và luật lấy mẫu Nyquist (Nyquist sampling
law - NSL). Các thành tố cơ bản trong lý thuyết CS bao gồm biểu diễn thưa, mã hóa và
thuật tốn khơi phục. Mục đích của biểu diễn thưa là đưa khơng gian biểu diễn tín hiệu
ban đầu sang khơng gian nhiều chiều hơn giúp những thành phần đặc trưng của tín hiệu
“nổi lên” rõ ràng hơn so với “bề mặt”, sau đó tín hiệu sẽ được “ghi nhớ” thơng qua
những thành phần đặc trưng này thay vì tồn bộ các thành phần như lúc ban đầu để đưa
vào các quá trình xử lý tiếp theo.
Mỗi ảnh số là một ảnh tự nhiên được số hóa dưới dạng ma trận số. Với ảnh màu ta sẽ có
3 ma trận số tương ứng với các kênh màu tùy thuộc vào hệ màu biểu diễn khác nhau và
thông thường các ma trận biểu diễn này là ma trận “dày” với hầu hết các giá trị trong đó
khác khơng [1]. Hình 1.1 biểu diễn một mẫu ảnh đa mức xám kích thước 14x14.
Hình 1.1. Mẫu ảnh đa mức xám và biểu diễn dày
Ta hồn tồn có thể biểu diễn mẫu ảnh này bằng một vec-tơ có 14x14 = 156 chiều, tuy
nhiên cách biểu diễn này sẽ dễ bị tác động bởi nhiễu và “cồng kềnh” khi phải truyền gửi
và lưu trữ. Khi áp dụng biểu diễn thưa vào, mặc dù sẽ đẩy số chiều vecto biểu diễn cho
ảnh lên cao hơn nhưng số lượng giá trị thực tế cần “ghi nhớ” lại rất ít do hầu hết thành
phần của vec-tơ mang giá trị khơng. Vì vậy, việc biểu diễn hầu như chỉ liên quan đến
một vài thành phần có giá trị khác khơng.
Ví dụ mẫu ảnh có thể được biểu diễn bằng mơ hình thưa như trong hình 1.2.
8
Hình 1.2. Ảnh đa mức xám với biểu diễn thưa
Khi đó, để lưu trữ và xử lý mẫu ảnh đã cho ta có thể sử dụng vec-tơ hệ số biểu diễn X
sau: [a1,...,a64] = [0,0,...,0.8,0,...,0,0.3,0,...,0.5,...,0]. Trong ví dụ này, vec-tơ hệ số được
dùng để đại diện cho mẫu ảnh chỉ có ba thành phần có giá trị khác khơng, số lượng thành
phần có giá trị khác khơng này sẽ đóng vai trị là ngưỡng đảm bảo thưa cho mơ hình
biểu diễn. Ngưỡng đảm bảo thưa này khơng có quy định rõ ràng về giá trị mà chỉ được
lựa chọn tùy thuộc vào bài toán và dữ liệu cụ thể của bài tốn đó.
1.1.2. Học từ điển
Trong ngơn ngữ học, bộ từ điển được hình thành bao gồm tất cả các từ đơn, từ ghép, từ
láy,... đủ để giúp diễn đạt mọi câu nói, viết trong ngữ pháp của ngơn ngữ đó. Trong học
máy cũng có một mơ hình có tên gọi tương tự đó là học từ điển. Với góc nhìn của tốn
học, nếu coi từ điển là một ma trận vecto trong đó mỗi thành tố hay từ là một vecto thì
từ điển trong mơ hình học từ điển giống như một hệ sinh vecto mà tại đó các thành tố
hay các từ không đảm bảo độc lập tuyến tính với nhau. Việc xác định từ điển sẽ được
học từ chính những tín hiệu đầu vào và q trình sinh là quá trình biểu diễn lại đối tượng
bằng tập hợp các từ trong từ điển sao cho việc biểu diễn chính xác tín hiệu đầu vào hoặc
gần “giống” tín hiệu đó.
Mơ hình học từ điển có thể có lịch sử hình thành từ những năm 1960 với sự ra đời của
biến đổi nhanh Fourier (FFT). Ban đầu từ điển được tạo ra bằng các biến đổi miền của
tín hiệu như biến đổi bước sóng, biến đổi wavelet [39],… Tuy nhiên những biến đổi đó
khơng thực sự đem lại hiệu quả, thay vào đó, phương pháp học từ điển biểu diễn thưa
lại đem lại những kết quả thuyết phục hơn. Khi từ điển có số từ nhiều hơn số chiều (tính
9
over-complete) thì có thể dẫn tới một biểu diễn thưa và khi đó ta có mơ hình học từ điển
thưa.
Mơ hình học từ điển, với ý nghĩa ban đầu dùng để biểu diễn tín hiệu (representation)
[25], được ứng dụng cho các bài tốn khơi phục dữ liệu (reconstruction) [18] , khử nhiễu
[8,20] và mã hóa thưa (sparse coding), gần đây được mở rộng cho bài tốn phân lớp
(classification) [9,21,29,30,34].
1.1.3. Mơ hình học từ điển và mã thưa
Cho 𝑦1 , 𝑦2 , ..., 𝑦𝑛 ∈ 𝑅𝑝 là tất cả n mẫu tín hiệu và Y ∈ 𝑅𝑝∗𝑁 là ma trận tín hiệu đầu vào
với N tín hiệu đầu vào mà mỗi tín hiệu 𝑦𝑖 ∈ 𝑅𝑝 tương ứng với một cột của ma trận Y.
Từ n mẫu tín hiệu xác định một ma trận D ∈ 𝑅𝑝∗𝐾 (p ≪ K) được gọi là từ điển cơ bản
q hồn chỉnh (tính overcomplete) mà mỗi từ 𝑑𝑗 ∈ 𝑅𝑝 . Một mẫu mới cần biểu diễn
𝑦𝑛𝑒𝑤 ∈ 𝑅𝑝 . Nếu tất cả các mẫu đã biết được sử dụng để biểu diễn tuyến tính cho mẫu
mới thì mẫu mới phải được biểu diễn bằng:
𝑦𝑛𝑒𝑤 = 𝑥𝑛𝑒𝑤_1 𝑑1 + 𝑥𝑛𝑒𝑤_2 𝑑2 + ⋯ + 𝑥𝑛𝑒𝑤𝑛 𝑑𝑛
(1)
X ∈ 𝑅𝐾∗𝑁 là ma trận hệ số với 𝑥𝑖 là hệ số tương ứng biểu diễn tín hiệu 𝑦𝑖 và phương
trình (1) có thể được viết lại bởi phương trình sau:
𝑦𝑛𝑒𝑤 = 𝐷 ∗ 𝑥𝑛𝑒𝑤
(2)
Khi đó, mơ hình bài toán học từ điển thưa được thể hiện qua biểu thức (3) sau:
2
argmin‖𝑌 − 𝐷𝑋 ‖22 𝑠𝑎𝑜 𝑐ℎ𝑜 ‖𝑥𝑖 ‖0 ≤ T và ‖𝑑𝑗 ‖2 = 1
(3)
𝐷
Trong đó, ‖. ‖0 là chuẩn 𝑙0 nhận giá trị số lượng phần tử khác không của vec-tơ. T là giá
trị ngưỡng thưa được lựa chọn trước. Việc giải bài toán tối ưu (3) sẽ dẫn tới xác định
được một phương pháp biểu diễn mới cho bộ tín hiệu đầu vào Y với khơng gian biểu
diễn lớn hơn và có khả năng khơi phục lại tín hiệu Y thơng qua từ điển D và hệ số biểu
diễn X. Quá trình học ra từ điển D và X từ chính dữ liệu ban đầu giúp cho việc biểu diễn
lại dữ liệu ban đầu là hiệu quả. Quá trình này bao gồm hai nhiệm vụ: tìm D và xác định
X. Việc tìm từ điển D sẽ được gọi là cập nhật từ điển và việc xác định X được gọi là xác
10
định mã thưa. Thông thường ta sẽ cố định X trong khi cập nhật từ điển và khi xác định
mã thưa thì từ điển D sẽ được cố định.
Vấn đề tìm lời giải cho phương trình tuyến tính (2) với quan điểm đại số tuyến tính, nếu
khơng có bất kỳ ràng buộc nào được áp đặt đối với hệ số biểu diễn x thì phương trình
(2) sẽ khơng có lời giải duy nhất. Với việc coi từ điển như một hệ sinh vec-tơ, với tính
chất số chiều nhỏ hơn nhiều so với số từ (p ≪ K), theo lý thuyết hình học khơng gian,
ta có vơ số lời giải cho biểu diễn vec-tơ. Để giảm bớt khó khăn, các ràng buộc chuẩn
hóa thích hợp được áp dụng cho hệ số biểu diễn [19]. Với phương pháp biểu diễn thưa
thì yêu cầu đặt ra là giải pháp biểu diễn thu được phải thưa thớt. Ràng buộc theo chuẩn
𝑙0 giúp cho bài tốn có nghiệm đảm bảo tính chất thưa cho véc-tơ hệ số tìm được. Ta
cũng có thể thay thế chuẩn 𝑙0 bằng chuẩn 𝑙1 để đảm bảo tính thưa cho mơ hình học từ
điển, tuy nhiên nếu sử dụng chuẩn 𝑙2 thì tính thưa sẽ khơng được bảo đảm.
Ngồi ra mối tương quan giữa bộ hệ số 𝑥𝑖 với việc biểu diễn các tín hiệu đầu vào của
cùng một đối tượng nào đó đã gợi ý về việc sử dụng mơ hình này vào trong bài tốn
phân lớp, đặc biệt là nhận dạng đối tượng.
1.2. Xây dựng mơ hình học từ điển và mã thưa
Việc xây dựng mơ hình học từ điển thưa cần đảm bảo hai yếu tố cơ bản: từ điển học
được tạo ra từ chính dữ liệu mẫu ban đầu và hệ số biểu diễn đảm bảo ràng buộc thưa.
Có nhiều phương pháp để giải quyết các yêu cầu đặt ra đối với việc xây dựng mô hình
[7]. Luận văn này sẽ giới thiệu một số phương pháp cổ điển và đặc biệt trình bày về giải
thuật K-SVD trong quá trình xác định mã thưa và cập nhật từ điển.
1.2.1. Giới thiệu họ các chuẩn
Trước hết, để làm rõ hơn việc sử dụng điều kiện ràng buộc thưa dựa trên các chuẩn 𝑙0
hay 𝑙1 của mơ hình học từ điển cũng như vì sao khi áp dụng chuẩn 𝑙2 vào việc tìm hệ số
biểu diễn thì hệ số sẽ khơng được đảm bảo tính thưa thì phần này sẽ trình bày về họ các
chuẩn [1,43] thơng thường.
Về mặt tốn học, một chuẩn là tổng kích thước hoặc chiều dài của tất cả các véc-tơ trong
một không gian véc-tơ hoặc ma trận nào đó, khi đó, chuẩn càng cao thì (độ lớn) ma trận
hay véc-tơ càng lớn. Chuẩn có thể có nhiều hình thức và nhiều tên gọi khác nhau như
khoảng cách Euclide, sai số bình phương trung bình – phương sai của ước lượng (Mean
Squared Error)... Ký hiệu ‖𝑥 ‖với x có thể là véc-tơ hoặc ma trận.
11
Ví dụ, một chuẩn Euclide của một véc-tơ x:
3
x= [−2] là ‖𝑥‖2 = √32 + (−2)2 + 12 = 3.742 là kích thước của x
1
Ví dụ trên cho thấy làm thế nào để tính ra một chuẩn Euclide, hay chính thức gọi là một
chuẩn 𝑙2 .
Công thức (4) xác định một chuẩn 𝑙𝑝 của x:
𝑝
‖𝑥‖𝑝 = √∑𝑖|𝑥𝑖 |𝑝 với p ∈ 𝑅
(4)
Mặc dù mọi chuẩn đều trông rất giống nhau về mặt cơng thức tổng qt nhưng tính tốn
của chúng rất khác nhau và do đó ứng dụng của chúng cũng khác nhau rất nhiều.
Chuẩn 𝑙0
Chuẩn 𝑙0 của x được xác định bởi (5):
‖𝑥‖0 = 0√∑𝑖|𝑥𝑖 |0
(5)
Nói đúng ra, chuẩn 𝑙0 khơng chính xác là một chuẩn. Đó là một trường hợp đặc biệt
trong định nghĩa hình thức chuẩn 𝑙p . Xác định chuẩn 𝑙0 có chút khó khăn vì việc tính
tốn 0 giai thừa và căn bậc 0 của một số x bởi định nghĩa về giai thừa 0 và đặc biệt là
căn bậc 0 của một số là khơng rõ ràng và thường phải có quy ước trước để tuân thủ. Vì
vậy, trong thực tế, hầu hết các nhà toán học và kỹ sư xác định chuẩn 𝑙0 bằng cơng thức:
‖𝑥‖0 = (𝑖|𝑥𝑖 ≠ 0). Đó là số các phần tử khác 0 trong một véc-tơ và là một số ngun
khác khơng. Chuẩn 𝑙0 có rất nhiều ứng dụng và gần đây nó được quan tâm nhiều hơn do
sự phát triển của các bài toán liên quan đến khôi phục dữ liệu sau nén thông qua việc cố
gắng tìm ra giải pháp thưa thớt của hệ thống biểu diễn tuyến tính. Giải pháp thưa thớt
nhất là giải pháp có chuẩn 𝑙0 nhỏ nhất. Vấn đề này thường liên quan đến vấn đề tối ưu
hoá chuẩn theo 𝑙0 .
12
Chuẩn 𝑙1
Theo định nghĩa về chuẩn, chuẩn 𝑙1 của x được xác định bởi (6):
‖𝑥‖1 = 1√∑𝑖|𝑥𝑖 |1
(6)
Tiêu chuẩn này khá phổ biến trong họ các chuẩn. Nó có nhiều tên và nhiều hình thức
trong các lĩnh vực khác nhau.
Nếu chuẩn 𝑙1 được tính cho sự khác biệt giữa hai vectơ hoặc ma trận, thì chuẩn 𝑙1 được
gọi là Sum of Absolute Difference (SAD) và được xác định bởi công thức (7):
SAD (𝑥1 , 𝑥2 ) = ‖𝑥1 − 𝑥2 ‖1 = ∑𝑖|𝑥1𝑖 − 𝑥2𝑖 |1
(7)
Trong trường hợp tổng quát về phép đo sai lệch tín hiệu, chuẩn 𝑙1 có thể đóng vai trị
như lỗi trung bình tuyệt đối (MAE) trong công thức (8):
1
1
𝑛
𝑛
MAE(𝑥1 , 𝑥2 ) = ‖𝑥1 − 𝑥2 ‖1 = ∑|𝑥1𝑖 − 𝑥2𝑖 | với n là kích thước của x.
(8)
Chuẩn 𝑙2
Phổ biến nhất của tất cả các tiêu chuẩn là chuẩn 𝑙2 . Chuẩn 𝑙2 được sử dụng trong hầu
hết các lĩnh vực kỹ thuật và khoa học. Theo định nghĩa cơ bản, chuẩn 𝑙2 được xác định
bởi công thức (9):
‖𝑥‖2 = √∑𝑖|𝑥𝑖 |2
(9)
Chuẩn 𝑙2 được biết đến như là một chuẩn Euclide, được sử dụng như một đại lượng
chuẩn để đo sự chênh lệch véc-tơ.
13
Như trong chuẩn 𝑙1 , nếu chỉ số Euclide được tính cho một sự khác biệt về véc-tơ, nó
được gọi là khoảng cách Euclide và được xác định trong công thức (10):
‖𝑥1 − 𝑥2 ‖2 = √∑ |𝑥1 − 𝑥2 |2
(10)
hoặc được gọi là một Sum of Squared Difference (SSD):
SSD (𝑥1 , 𝑥2 ) = ‖𝑥1 − 𝑥2 ‖22 = ∑𝑖(𝑥1i − 𝑥2i )2
(11)
Ứng dụng được biết đến nhiều nhất trong lĩnh vực xử lý tín hiệu là đo lường sai số trung
bình (MSE), được sử dụng để tính tốn độ tương đồng hoặc tương quan giữa hai tín hiệu:
1
1
𝑛
𝑛
MSE (𝑥1 , 𝑥2 ) = ‖𝑥1 − 𝑥2 ‖22 =
∑𝑖(𝑥1i − 𝑥2i )2
(12)
Để làm rõ hơn ý nghĩa và giải pháp của các phương pháp tối thiểu hóa dựa trên các
chuẩn 𝑙0 , 𝑙1 , 𝑙2 , hình học trong không gian 2-D được sử dụng để minh họa như trong
hình 1.3. Tối thiểu hóa với chuẩn 𝑙0 trong hình 1.3a, tối thiểu hóa với chuẩn 𝑙1 trong
hình 1.3b và tối thiểu hóa với chuẩn 𝑙2 trong hình 1.3c [1,43]. Gọi S (norm ball) là đường
màu đỏ biểu diễn các điểm mà tại đó giá trị chuẩn của chúng bằng nhau. Bài tốn mục
tiêu có thể xem như việc xấp xỉ hàm mục tiêu bởi các điểm trên norm ball. Để xấp xỉ
hàm, ta thay đổi tỉ lệ của norm ball đến khi norm ball tiếp xúc với giá trị hàm mục tiêu
(đường thẳng y = Ax trong hình). Tọa độ điểm tiếp xúc chính là hệ số biểu diễn x cần
tìm. Từ hình 1.3a và 1.3b, giao điểm có xu hướng cắt các điểm trên trục tọa độ hay nói
cách khác, sử dụng ràng buộc 𝑙0 và 𝑙1 sẽ thúc đẩy yếu tố thưa trong biểu diễn véc-tơ.
Cũng qua đó, trong hình 1.3c, giao điểm rất khó cắt các trục tọa độ, vì vậy, việc sử dụng
ràng buộc 𝑙2 khó đảm bảo tính thưa cho biểu diễn véc-tơ.
14
Hình 1.3. Mơ tả giải pháp tối thiểu hóa của một số chuẩn trong khơng gian 2-D
Ngồi các chuẩn cơ bản kể trên, trong một số mơ hình học từ điển thưa còn sử dụng đến
chuẩn Frobenius.
Chuẩn Frobenius
Chuẩn Frobenius được biết đến như là chuẩn 𝑙2,1 (chuẩn F) [4,43]. Việc xác định chuẩn
F của một ma trận X ∈ 𝑅𝑚∗𝑛 thơng qua 2 bước:
Tìm chuẩn 𝑙1 của X theo cơng thức (13):
‖𝑋 ‖1 = 𝑚𝑎𝑥𝑗=1,…,𝑛 ∑𝑚
𝑛 |𝑥𝑖,𝑗 |
(13)
Tìm chuẩn 𝑙2 của X theo công thức (14):
‖𝑋 ‖2 = 𝛿𝑚𝑎𝑥 (X) = (𝜆𝑚𝑎𝑥 (𝑋 𝑇 𝑋))1/2
(14)
Khi đó, chuẩn F được xác định bởi công thức tổng quát (15):
2 1/2
‖𝑋 ‖1,2 = ∑𝑛𝑖=1(∑𝑚
𝑗=1 𝑋𝑗,𝑖 ))
(15)
Các giải thuật xác định hệ số biểu diễn trong mơ hình học điển sử dụng phương pháp tối
ưu hóa dựa trên các chuẩn sẽ được trình bày trong phần 1.2.2 của luận văn. Cũng có một
số thuật toán được áp dụng vào cho việc biểu diễn thưa với tối thiểu hóa chuẩn F, tuy
nhiên luận văn khơng đi sâu vào tìm hiểu mà chỉ mang tính chất giới thiệu.
15
1.2.2. Xác định mã thưa và xây dựng từ điển học
Xác định mã thưa
Q trình mã hóa thưa được xác định thơng qua tính tốn hệ số biểu diễn x dựa trên việc
biểu diễn tín hiệu vào y và từ điển D sao cho thỏa mãn hàm mục tiêu (3). Việc tìm biểu
diễn thưa nhất thỏa mãn (3) được biết đến như một vấn đề NP-khó [10]. Có một số
hướng giải quyết cho vấn đề biểu diễn thưa này: biểu diễn thưa với tối thiểu hóa theo
chuẩn 𝑙0 , biểu diễn thưa với tối thiểu hóa theo chuẩn 𝑙1 , biểu diễn thưa với tối thiểu hóa
theo chuẩn F.
Với hướng giải quyết theo chuẩn 𝑙0 các giải thuật thực hiện đơn giản nhất là các giải
thuật theo đuổi tham lam như matching pursuit (MP) [1,4,33] hay orthogonal matching
pursuit (OMP) [1,4,10,11,15,22,34,40,43].
Với hướng giải quyết theo chuẩn 𝑙1 [14,27,35,41,42] có thể nói đến giải thuật theo đuổi
như basis pursuit (BP) [35]. Hoặc giải thuật focal underdetermined system solver
(FOCUSS) [14] cũng là đơn giản được xây dựng theo hướng giải quyết dựa vào chuẩn
𝑙𝑝 (𝑝 ≤ 1) thay thế cho chuẩn 𝑙0 .
Các thuật tốn tham lam có thể tạo ra giải pháp tối ưu hóa cục bộ trong mỗi bước thực
hiện. Tuy nhiên, thuật tốn tham lam khơng có thể tạo ra giải pháp tối ưu hóa tồn cục.
Chiến lược tham lam cung cấp một cách đặc biệt để có được biểu diễn thưa thớt gần
đúng [43].
Xây dựng từ điển (học từ điển)
Việc học từ điển có thể thực hiện theo ba phương pháp học: học không giám sát (học
không thầy) [4], học có giám sát (học có thầy) [17,28,37] và học bán giám sát [43]. Từ
quan điểm của cơ sở lý thuyết, sự khác nhau của việc học từ điển không giám sát và có
giám sát dựa vào việc nhãn của lớp được khai thác trong quá trình học để lựa chọn từ
điển hay không.
Một số phương pháp học từ điển không giám sát như method of directions (MOD) hay
K-means Singular Value Decomposition (K-SVD) [4].
K-SVD là phương pháp học từ điển dựa trên cụm từ, có thể xem như sự khái quát hóa
của phương pháp K-means. K-SVD là một phương pháp cải tiến của thuật toán MOD.
16
Hàm mục tiêu của K-SVD là:
arg min{‖𝑌 − 𝐷𝑋 ‖2𝐹 }
(16)
𝐷,𝑋
Với ‖𝑥𝑖 ‖0 ≤ 𝑇, 𝑖 = 1,2, … , 𝑁.
Vấn đề (16) là vấn đề tối ưu hóa với D và X được giải quyết bằng tối ưu hóa luân phiên.
Giải thuật K-SVD được trình bày chi tiết trong Giải thuật 1 [4,43].
17
Giải thuật 1. Giải thuật K-SVD cho học từ điển
Công việc: Học một từ điển D: arg min{‖𝑌 − 𝐷𝑋 ‖2𝐹 } với ‖𝑥𝑖 ‖0 ≤ 𝑇, 𝑖 = 1,2, … , 𝑁
𝐷,𝑋
Đầu vào: Ma trận mẫu 𝑌 = [𝑦1 , 𝑦2 , … , 𝑦𝑚 ]
Khởi tạo: Khởi tạo một từ điển 𝐷 ∈ 𝑅𝑛∗𝐾 với mỗi cột đều được chuẩn hóa theo
chuẩn 𝑙2 . Khởi tạo i = 1.
While chưa hội tụ (điều kiện dừng) do
Bước 1: Sử dụng giải thuật tham lam bất kỳ để tính tốn vecto biểu diễn x cho
mỗi mẫu 𝑦𝑖 để đạt giải pháp xấp xỉ:
min{‖𝑦𝑖 − 𝐷𝑥𝑖 ‖22 } với ‖𝑥𝑖 ‖0 ≤ 𝑇, 𝑖 = 1,2, … , 𝑁
𝑥𝑖
Khởi tạo t = 1
While 𝑡 ≠ 𝑇 do
Bước 2: Tính tốn 𝐸𝑡 = 𝑌 − ∑𝑗≠𝑡 𝑑𝑗 𝑥𝑗𝑇 (𝑥𝑗𝑇 là ma trận chuyển
vị của 𝑥𝑗 )
Bước 3: Lựa chọn các cột thành phần trong 𝐸𝑡 tương ứng với các
phần tử khác 0 của 𝑥𝑗𝑇 để tạo thành 𝐸𝑡𝑃 .
Bước 4: Sử dụng SVD cho 𝐸𝑡𝑃 : 𝐸𝑡𝑃 = 𝑈∑𝑉 𝑇
Bước 5: Cập nhật 𝑑𝑡 là cột đầu tiên của ma trận U và hệ số tương
ứng trong 𝑥𝑡𝑇 bởi ∑(1,1)* V(: ,1).
Bước 6: t = t+1
End while
Bước 7: i = i+1
End while
Đầu ra: Từ điển D
Cụ thể hơn, cố định D, ta sử dụng giải thuật tham lam như MP hoặc OMP để tính tốn
xấp xỉ hệ số biểu diễn 𝑥𝑖 .
Khi cố định X, vấn đề (16) trở thành một mô hình hồi quy đơn giản:
̂ = arg min{‖𝑌 − 𝐷𝑋 ‖2𝐹 }
𝐷
𝐷
(17)
18
̂ = 𝑌𝑋 𝑇 (𝑋𝑋 𝑇 )−1 và phương pháp này được gọi là MOD. Độ phức tạp tính
Trong đó 𝐷
toán của bài toán nghịch đảo trong giải quyết vấn đề (17) là O(𝑛3 ). Cải tiến của K-SVD
so với MOD là việc cập nhật từ điển D bằng cách cố định các thành phần khác. Chiến
lược của K-SVD được viết như sau:
2
𝑁
̂ = arg min{‖𝑌 − 𝐷𝑋 ‖2𝐹 } = arg min {‖𝑌 − ∑
𝐷
𝐷
𝑗=1
𝐷
𝑑𝑗 𝑥𝑗𝑇 ‖
}
𝐹
(18)
𝑁
= arg min {‖(𝑌 − ∑
𝐷
𝑗≠𝑡
2
𝑑𝑗 𝑥𝑗𝑇 )
−
𝑑𝑡 𝑥𝑡𝑇 ‖
}
𝐹
Giải thuật K-SVD rất dễ sử dụng và có thể làm việc với bất kỳ phương pháp tham lam
nào, từ đó có thể điều chỉnh từ điển cho các ứng dụng khác nhau. Đây là giải thuật mạnh
và được ưa chuộng trong việc cập nhật từ điển cho mơ hình học từ điển có giám sát với
ràng buộc thưa.
Với hướng tiếp cận học từ điển có giám sát có nhiều mơ hình được đề xuất, tiêu biểu
như mơ hình Label Consistent K-means Singular Value Decomposition (LC-KSVD) [23]
sẽ được trình bày ở phần nội dung tiếp theo.
1.3. Một số mơ hình học từ điển ứng dụng cho phân lớp
Ban đầu, mơ hình học từ điển thưa được ứng dụng trong việc biểu diễn [25,26] và khơi
phục dữ liệu vì vậy mã hóa thưa được thiết kế để giảm thiểu lỗi khôi phục trong các ràng
buộc thưa thớt và không được sử dụng như một sự mã hóa phân biệt cho việc phân loại.
Những năm gần đây, mơ hình học từ điển thưa đã được cải tiến như có thể kết hợp thêm
các nhãn lớp (học có giám sát) đưa vào cơng thức mã hóa thưa để thúc đẩy sự phân biệt
giữa các từ điển giúp cho bài toán phân lớp hiệu quả hơn [24]. Các kỹ thuật học từ điển
giám sát cho việc mã hóa thưa thớt đã thu hút được nhiều sự chú ý. Một số phương pháp
tiếp cận như học nhiều từ điển hoặc các từ điển chuyên biệt theo loại [16]. Ngoài ra, khi
quan tâm tới hệ số biểu diễn của mô hình học từ điển để tăng cường tính phân biệt của
mơ hình ứng dụng trong bài tốn phân lớp nhận dạng, các mơ hình đi theo hai hướng
tiếp cận bao gồm xây dựng mơ hình học từ điển đảm bảo thưa và mơ hình học từ điển
khơng cần đảm bảo thưa. Do thời gian có hạn, tơi chỉ tập trung vào tìm hiểu và trình bày
một mơ hình tiêu biểu cho từng hướng tiếp cận. Phần 1.3.1 và 1.3.2 mô tả chi tiết cách
thức xây dựng cũng như thực hiện phân lớp của mơ hình học từ điển tiêu biểu cho từng
hướng.
19
1.3.1. Mơ hình học từ điển có đảm bảo tính thưa
Một số mơ hình học từ điển theo đuổi việc đảm bảo thưa cho hệ số biểu diễn như KSVD, DKSVD (Discrimnative KSVD) [29], FDDL (Fisher discrimation dictionary
learning) [28],...
Trong luận văn này, tơi trình bày mơ hình LC-KSVD [23,43] là một mơ hình học từ điển
đảm bảo tính thưa áp dụng tốt cho mục đích phân loại ảnh. LC-KSVD khai thác thông
tin được giám sát để học từ điển và tích hợp q trình xây dựng từ điển và tối ưu hóa bộ
phân lớp tuyến tính thành một hàm mục tiêu tổng hợp của hàm tái tạo và hàm phân biệt,
và sau đó thu được từ điển đã học và một bộ phân loại hiệu quả. Mỗi cụm từ trong từ
điển sẽ được chọn sao cho nó đại diện tốt nhất cho tập các tín hiệu huấn luyện thuộc một
lớp duy nhất nên mỗi từ 𝑑𝑘 có thể được liên kết với một nhãn cụ thể. Do đó có một sự
tương ứng rõ ràng giữa các cụm từ điển và các nhãn lớp được mô tả trong hàm mục tiêu
của LC-KSVD1. Sau đó, LC-KSVD2 tập trung khai thác những ảnh hưởng của việc bổ
sung thành phần nhãn phù hợp bằng cách kết hợp thành phần nhãn phù hợp với thành
phần lỗi phân lớp vào hàm mục tiêu để học từ điển với mong muốn cân bằng khả năng
khôi phục và phân biệt của mơ hình học từ điển.
Hàm mục tiêu của LC-KSVD được xây dựng như sau:
LC-KSVD1:
〈𝐷, 𝐴, 𝑋 〉 = argmin‖𝑌 − 𝐷𝑋 ‖22 + µ ‖𝐿 − 𝐴𝑋 ‖22 với ‖𝑥𝑗 ‖ ≤ T
0
(19)
𝐷,𝐴,𝑋
LC-KSVD2:
〈𝐷, 𝐴, 𝑊, 𝑋 〉 = argmin‖𝑌 − 𝐷𝑋 ‖22 + µ ‖𝐿 − 𝐴𝑋 ‖22 + η ‖𝐻 − 𝑊𝑋 ‖22
(20)
𝐷,𝐴,𝑊,𝑋
với ‖𝑥𝑗 ‖0 ≤ T
trong đó thành phần đầu tiên biểu thị lỗi tái tạo, thành phần thứ hai biểu thị lỗi phân biệt
của mã thưa, và thành phần cuối cùng ở hàm mục tiêu (20) biểu thị lỗi phân loại. Y là
ma trận bao gồm tất cả dữ liệu đầu vào, D là từ điển đã học, X là bộ mã thưa, µ và η là
trọng số của các thành phần tương ứng, A là ma trận chuyển đổi tuyến tính, H là ma trận
bao gồm nhãn thông tin tương ứng với Y, W là tham số cho phân loại và L là ma trận
nhãn chung cho các nhãn của Y và D.