BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUY NHƠN
ĐẶNG HẢI TRIỀU
MỘT SỐ ÁP DỤNG CỦA GIẢI TÍCH
TỐN HỌC TRONG MACHINE LEARNING
VÀ DEEP LEARNING
LUẬN VĂN THẠC SĨ TỐN HỌC
Bình Định - Năm 2020
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC QUY NHƠN
ĐẶNG HẢI TRIỀU
MỘT SỐ ÁP DỤNG CỦA GIẢI TÍCH
TỐN HỌC TRONG MACHINE LEARNING
VÀ DEEP LEARNING
Chun ngành :
Mã số
:
Tốn Giải tích
8460102
Người hướng dẫn: TS. MAI THÀNH TẤN
Mục lục
Trang
Lời cam đoan . . .
Lời cảm ơn . . . .
Danh mục hình vẽ
Danh mục ký hiệu
. . . . . .
. . . . . .
và đồ thị
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
iii
iv
v
vi
Lời nói đầu
1
Chương 1 . Một số kiến thức chuẩn bị
1.1. Lý thuyết độ đo . . . . . . . . . . . . . . .
1.2. Giải tích hàm . . . . . . . . . . . . . . . . .
1.3. Lý thuyết tối ưu . . . . . . . . . . . . . . .
1.4. Một số thuật ngữ trong Machine learning .
.
.
.
.
3
3
5
6
8
.
.
.
.
.
11
11
18
19
23
27
.
.
.
.
29
30
31
32
34
.
.
.
.
37
38
39
41
44
Chương 2 Mạng nơ-ron
2.1. Nơ-ron . . . . . . . . . . . . . . . . . . . . .
2.2. Mạng nơ-ron . . . . . . . . . . . . . . . . .
2.3. Mạng nơ-ron như là xấp xỉ phổ quát . . .
2.4. Điều chỉnh trọng số bằng lan truyền ngược
2.5. Ví dụ minh họa . . . . . . . . . . . . . . . .
Chương 3 . Hồi quy tuyến tính
3.1. Đặt vấn đề . . . . . . . . .
3.2. Xây dựng hàm mất mát . .
3.3. Nghiệm của hàm mất mát
3.4. Ví dụ minh họa . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Chương 4 . Máy vector hỗ trợ
4.1. Tập dữ liệu có thể phân tách tuyến tính
4.2. Xây dựng bài tốn tối ưu cho SVM . . .
4.3. Bài toán đối ngẫu . . . . . . . . . . . . .
4.4. Ví dụ minh họa . . . . . . . . . . . . . . .
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
l
Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Trang ii
Lời cam đoan
Tôi xin cam đoan mọi kết quả của đề tài: “ Một số áp dụng của Giải tích
tốn học trong Machine learning và Deep learning ” là một cơng trình nghiên
cứu độc lập của tơi dưới sự hướng dẫn của giảng viên: TS. Mai Thành Tấn,
ngồi ra khơng có bất cứ sự sao chép nào của người khác.
Đề tài, nội dung luận văn này là kết quả nỗ lực nghiên cứu của bản thân
tơi trong q trình học tập tại trường và nơi làm việc. Các tài liệu được tham
khảo, kế thừa và trích dẫn đều được liệt kê trong danh mục Tài liệu tham khảo.
Tôi xin chịu hồn tồn trách nhiệm, kỷ luật của bộ mơn và nhà trường đề
ra nếu như có vấn đề xảy ra.
Quy Nhơn, tháng 7 năm 2020
Học viên
Đặng Hải Triều
Trang iii
Lời cảm ơn
Luận văn được hoàn thành nhờ sự hướng dẫn và giúp đỡ tận tình của thầy
hướng dẫn TS. Mai Thành Tấn, Trường Đại học Quy Nhơn. Nhân dịp này tơi
xin bày tỏ sự kính trọng và lịng biết ơn sâu sắc đến Thầy đã giúp đỡ tôi trong
suốt quá trình học tập và thực hiện luận văn.
Xin gửi lời cảm ơn đến quý Ban lãnh đạo Trường Đại học Quy Nhơn, Phịng
Đào tạo Sau Đại học, Khoa Tốn và Thống kê tạo điều kiện thuận lợi cho tôi
trong quá trình học tập và thực hiện đề tài.
Xin gửi cảm ơn đến FPT Software Quy Nhơn, team Trí Tuệ Nhân Tạo
FWI.AAA đã tạo điều kiện cho tôi được làm việc trong một mơi trường chun
nghiệp, bên cạnh đó đã hỗ trợ cho tôi được tiếp xúc gần hơn với ngành cơng
nghiệp AI. Nhờ đó đã giúp tơi hồn thiện tốt đề tài của mình.
Xin được bày tỏ lịng biết ơn của tôi đến quý thầy, cô giảng dạy lớp cao học
Tốn Giải Tích số khóa 21, những người đã dày công truyền đạt kiến thức cũng
như đạo đức sư phạm cho chúng tơi trong suốt khóa học.
Cuối cùng, xin gửi lời cảm ơn chân thành đến gia đình và bạn bè tôi, những
người đã tạo điều kiện thuận lợi để tơi hồn thành tốt khóa học và luận văn này.
Quy Nhơn, tháng 7 năm 2020
Đặng Hải Triều
Trang iv
Danh mục hình vẽ và đồ thị
Trang
1.1. Overfitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.
2.2.
2.3.
2.4.
2.5.
2.6.
Đồ thị hàm Logictis . . . . . . . . . . .
Đồ thị hàm tanh . . . . . . . . . . . . .
Đồ thị hàm ReLu . . . . . . . . . . . . .
Mạng nơ-ron đơn giản với n nơ-ron đầu
Mạng nơ-ron với một đầu ra . . . . . .
Mạng nơ-ron đa tầng . . . . . . . . . . .
. . . .
. . . .
. . . .
vào và
. . . .
. . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
m nơ-ron xử lý
. . . . . . . . . .
. . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
14
18
18
25
3.1. Biểu đồ dữ liệu về giá và diện tích . . . . . . . . . . . . . . . . . . . . . 35
3.2. Kết quả của model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.1. Tập dữ liệu có thể phân tách tuyến tính . . . . . . . . . . . . . . . . . 38
4.2. Siêu phẳng có thể phân tách tập dữ liệu . . . . . . . . . . . . . . . . . 39
4.3. Support Vector . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Trang v
Danh mục ký hiệu
Ký hiệu
A†
Ý nghĩa
Ma trận giả nghịch đảo của A
diag(λ1 , λ2 , ..., λr )
Ma trận đường chéo
domf
Miền xác định của f
A
Ma trận A nửa xác định dương
0
jump (f, xi )
Bước nhảy của f tại xi
sgn
Hàm dấu
inf
Cận dưới đúng
Seq(X)
NN
Tập các dãy trên X
Neural Network
ANN
Artificial Neural Network
SVM
Support Vector Machine
Trang vi
Lời nói đầu
Trong tất cả các ngành khoa học, tốn học đóng vai trị quan trọng trong
việc phát triển các ngành khoa học đặc thù. Ví dụ tốn học xác xuất thống kê
trong sinh học, toán học trong vật lý, tốn học trong hóa học, ... Đặc biệt trong
lĩnh vực cơng nghệ thơng tin, tốn học ln đi trước mở đường cho ngành công
nghệ thông tin. Một số lĩnh vực của toán học là tiền đề, xương sống trong sự
phát triển của cơng nghệ thơng tin.
Trí tuệ nhân tạo (Artificial Intelligence - AI) đã và đang trở thành thành
phần cốt lõi trong các hệ thống công nghệ cao. Trong xã hội hiện đại, chúng ta
bắt gặp AI ở khắp mọi nơi. AI ứng dụng trong kinh tế, y học, kỹ thuật qn sự,
khoa học máy móc, các thiết bị cơng nghệ phục vụ sinh hoạt và các ứng dụng
giải trí. Điển hình như trong các kĩnh vực chế tạo người máy, trị chơi điện tử,
trợ lý ảo, nhà ở thơng minh, công nghệ thực tế ảo VR, ...
Machine Learning và Deep Learning là một trong những lĩnh vực của Trí
tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kỹ thuật cho phép
hệ thống "tự học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể.
Hiện tại, tơi đã và đang có cơ hội được tiếp xúc cũng như làm về thuật tốn,
tìm hiểu về các thuật tốn thì càng thấy rằng ý nghĩa, tầm quan trọng của toán
học với tin học rất lớn và ngày càng lớn. Gần đây ta nghe thấy nhiều về lĩnh
vực Trí tuệ nhân tạo và từ ngữ này rất phổ biến hiện nay. Trí tuệ nhân tạo nổi
lên như một bằng chứng của cuộc cách mạng công nghiệp lần thứ tư.
Luận văn: “ Một số ứng dụng của giải tích trong machine learning và deep
learning ” nhằm tìm hiểu một số vấn đề về tốn học giải tích có ứng dụng trong
lĩnh vực Machine Learning và Deep Learning. Nội dung của luận văn gồm bốn
chương:
Chương 1. Một số kiến thức chuẩn bị
Chương này trình bày một số kiến thức cơ bản về giải tích lồi, tốn tối ưu,
giải tích ma trận.
Chương 2. Mạng nơ-ron
Chương này trình bày về Mạng nơ-ron, một thuật ngữ quan trọng trong AI,
Trang 1
kèm theo đó là giải quyết một số vấn đề của tốn giải tích có liên quan trực
tiếp.
Chương 3. Hồi quy tuyến tính
Chương này trình bày một số vấn đề của tốn về giải tích ma trận để giải
quyết một số bài toán hồi quy.
Chương 4. Support Vector Machine
Chương này trình bày một số vấn đề về tối ưu, đặc biệt là tối ưu lồi để giải
quyết bài toán phân chia 2 lớp dữ liệu.
Mặc dù luận văn được thực hiện với tinh thần nghiêm túc cùng với sự nỗ lực
và cố gắng hết sức của bản thân, nhưng bởi trình độ kiến thức và kinh nghiệm
nghiên cứu cịn hạn chế nên luận văn khó tránh khỏi những thiếu sót. Chình vì
thế, rất mong nhận được những góp ý của q thầy cơ để luận văn được hồn
thiện hơn.
Quy Nhơn, tháng 7 năm 2020
Tác giả
Trang 2
Chương 1
MỘT SỐ KIẾN THỨC CHUẨN BỊ
Chương này trình bày một số kiến thức cơ bản về Lý thuyết độ đo, giải tích
hàm, lý thuyết tối ưu, một số khái niệm trong Machine learning. Các kết quả
trong chương này chủ yếu được tham khảo từ các tài liệu [1], [3], [4] và [7] trong:
“ Danh mục tài liệu tham khảo ”.
1.1. Lý thuyết độ đo
1.1.1. Đại số
Định nghĩa 1.1.1. Cho X là một tập không rỗng. Một đại số là một lớp chứa
X ,∅ và đóng đối với mọi phép tốn hữu hạn về tập hợp.
Ví dụ 1.1.2 x
a) P(X) = {A : A ⊂ X} là một đại số.
b) Nếu A ⊂ X thì C = {X, A, Ac , ∅} là một đại số.
1.1.2. σ− đại số
Định nghĩa 1.1.3. Một σ− đại số là một lớp chứa X, ∅ và đóng đối với mọi
phép tốn hữu hạn hay đếm được về tập hợp.
Ví dụ 1.1.4 x
a) Nếu X = {a, b, c, d}, một σ - đại số trên X có thể là A = {∅, {a, b}, {c, d}, {a, b, c, d}}.
Nhìn chung, một đại số hữu hạn luôn là một σ - đại số.
b) Nếu {A1 , A2 , ..., An } là một phân hoạch đếm được trên X thì tập của hợp tất
cả các tập phân hoạch (bao gồm cả tập rỗng) là một σ− đại số.
Trang 3
1.1.3. σ− đại số Borel
Định nghĩa 1.1.5. Một σ− đại số nhỏ nhất bao hàm lớp các tập mở trong
không gian mêtric X được gọi là σ− đại số Borel của không gian X. Mỗi phần
tử của σ− đại số này được gọi là tập Borel.
1.1.4. Độ đo
Định nghĩa 1.1.6. Cho L là một đại số trên X. Hàm tập µ : L −→ R được gọi
là một độ đo trên L nếu
i) µ(A) ≥ 0 với mọi A ∈ L ;
ii) µ(∅) = 0 ;
iii) µ là σ− cộng tính. Tức là, với mọi dãy tập {Ai }i∈N ⊂ L thỏa mãn Ai ∩Aj = ∅
∞
Ai ∈ L thì
với mọi i = j và
i=1
∞
µ
∞
Ai
i=1
=
µ(Ai ).
i=1
Nếu µ là một độ đo trên (X, L) thì (X, L, µ) được gọi là khơng gian độ đo.
Ví dụ 1.1.7. Cho X là tập đếm được và µ : P(X) −→ R được xác định bởi
µ(A) =
nếu A có n phần tử
+∞ nếu A có vơ hạn phần tử
n
Khi đó µ là một độ đo. Ta gọi độ đo này là độ đo đếm.
1.1.5. Hàm đo được
Định nghĩa 1.1.8. Cho (X, M) và (Y, N ) là các không gian đo được. Một ánh
xạ f : X −→ Y được gọi là (M, N )− đo được nếu f −1 (E) ∈ M, ∀E ∈ N
Từ định nghĩa trên ta có hệ quả sau:
Hệ quả 1.1.9. Cho X và Y là các không gian metric, nếu f : X −→ Y là liên
tục thì (BX , BY ) - đo được
Chứng minh. Để chỉ ra rằng f là (BX , BY ) - đo được, ta cần chỉ ra rằng ∀E ∈ BY ,
f −1 (E) ∈ BX . Đặt E ∈ BY tùy ý. Trong đó, BY là σ - đại số của các tập mở.
Như vậy, E là tập mở. Vì f liên tục, theo định nghĩa của liên tục trong giải
tích cổ điển (f là liên tục nếu f −1 (U ) là mở trong X với mỗi mở U ⊆ Y ), ta có
f −1 (E) mở. Thì f −1 (E) ∈ BX .
Trang 4
1.2. Giải tích hàm
1.2.1. Tốn tử trong
Định nghĩa 1.2.1. Một toán tử trong trên tập S là ánh xạ I : P(S) −→ P(S)
với U, V ∈ P(S) thỏa mãn các điều kiện:
i) I (U ) ⊆ U ;
ii) V ⊆ U thì I (V ) ⊆ I (U ) ;
iii) I (I (U )) = I (U ) ,
Ví dụ 1.2.2. Cho S là một tập tùy ý. Khi đó ánh xạ đồng nhất I(U ) = U là
một tốn tử trong trên S.
1.2.2. Khơng gian định chuẩn
Định nghĩa 1.2.3. Cho X là một không gian vectơ trên trường K , với K là
trường số thực R hoặc trường số phức C. Ánh xạ p : X −→ R được gọi là một
chuẩn trên X nếu các điều kiện sau được thỏa mãn:
i) p(x) ≥ 0 với mọi x ∈ X ;
ii) p(λx) = |λ|.p(x) với mọi x ∈ X, λ ∈ K ;
iii) p(x + y) ≤ p(x) + p(y) với mọi x, y ∈ X.
Khi đó X cùng với chuẩn p được gọi là một không gian định chuẩn và ký
hiệu là (X, p).
Từ định nghĩa trên ta có ngay
p(0) = p(0 × 0) = |0|. p(0) = 0 .p(0) = 0.
Ví dụ 1.2.4. Ký hiệu C[a ;b] là không gian các hàm liên tục trên đoạn hữu hạn
[a ; b]. Khi đó ánh xạ p : C[a ;b] −→ R xác định bởi
p(f ) = sup{|f (x) : x ∈ [a ; b]}
là một chuẩn trên C[a ;b] và C[a ;b] , p là một không gian định chuẩn.
Trang 5
1.2.3. Định lý Haln Banach
Định nghĩa 1.2.5. Cho X là một không gian vector trên trường K . Ánh xạ
tuyến tính f : X −→ K được gọi là một phiếm hàm tuyến tính trên X.
Ví dụ 1.2.6. Ánh xạ f : C[a ;b] −→ R được xác định bởi
b
t(x) dx
f (t) =
a
là một phiếm hàm tuyến tính trên khơng gian C[a ;b] .
Định nghĩa 1.2.7. Cho X là không gian vector thực, một phiếm hàm dưới
tuyến tính trên X là một ánh xạ p : X −→ R thỏa mãn
p(x + y) ≤ p(x) + p(y) ; p(λx) = λp(x)
với mọi x, y ∈ X và 0 ≤ λ ∈ R.
Ví dụ 1.2.8. Ánh xạ f : C[a ;b] −→ R được xác định bởi
b
|t(x)| dx
f (t) =
a
là một phiếm hàm dưới tuyến tính trên khơng gian C[a ;b] .
Định nghĩa 1.2.9. Một phiếm hàm tuyến tính I trên Cc (X) là dương nếu
I(f ) ≥ 0 với mọi f ≥ 0
Định lí 1.2.10 (Định lý Haln Banach). Cho X là không gian vector thực,
p là một phiếm hàm dưới tuyến tính trên X , M là khơng gian con của X và f
là phiếm hàm tuyến tính trên M sao cho f (x) ≤ p(x) với mọi x ∈ M . Khi đó tồn
tại một phiếm hàm tuyến tính F trên X sao cho F (x) ≤ p(x) với mọi x ∈ X và
F|M = f .
1.3. Lý thuyết tối ưu
1.3.1. Hàm Lagrange của bài toán tối ưu
Xét bài toán tối ưu tổng quát
x∗ = argmin f (x)
x
Trang 6
với các ràng buộc
ci (x)
0, ∀ i = 1, 2, ..., m ; dj (x) = 0, ∀ j = 1, 2, ..., n
và giả sử rằng tập xác định
n
m
D = dom f
dom dj
dom ci
= ∅.
j=1
i=1
Định nghĩa 1.3.1. Hàm Lagrange của bài tốn chính là hàm
L : Rp × Rm × Rn −→ R
được xác định bởi
m
L(x, u, v) = f (x) +
n
ui ci (x) +
i=1
vj dj (x),
j=1
trong đó u = [u1 , u2 , ..., um ], v = [v1 , v2 , ..., vn ] được gọi là biến đối ngẫu hoặc nhân
tử Lagrange.
Hàm đối ngẫu Lagrange của bài tốn chính là một hàm của các biến đối ngẫu
u,v được xác định bởi
g(u, v) = inf L(x, u, v).
x∈D
1.3.2. Một số định lý
Định lí 1.3.2 (Định lý đối ngẫu yếu). Giả sử x∗ là điểm tối ưu của f với
f ∗ = f (x∗ ) và(u∗ , v∗ ) là điểm tối ưu của g với g ∗ = g(u∗ , v∗ ). Khi đó ta có g ∗ ≤ f ∗ .
Giá trị |f ∗ − g ∗ | được gọi là cách biệt đối ngẫu tối ưu. Khi giá trị này bằng 0 thì
đối ngẫu mạnh xảy ra.
Định nghĩa 1.3.3. Một điểm khả thi của bài toán tối ưu được gọi là khả thi
chặt nếu
ci (x) < 0, i = 1, 2, ..., m, Ax = b.
Mệnh đề 1.3.4 (Tiêu chuẩn Slater). Nếu bài tốn chính là một bài toán tối
ưu lồi và tồn tại một điểm khả thi chặt thì đối ngẫu mạnh xảy ra.
Trang 7
1.3.3. Điều kiện Karush-Kuhn-Tucker (KKT)
Điều kiện KKT đối với bài tốn khơng lồi.
Giả sử đối ngẫu mạnh xảy ra. Gọi x∗ và (u∗ , v∗ ) là một bộ điểm tối ưu chính
và tối ưu đối ngẫu. Vì x∗ tối ưu hàm khả vi L(x, u∗ , v∗ ), ta có đạo hàm hàm
Lagrange tại x∗ bằng 0.
Điều kiện Karush-Kuhn-Tucker (KKT) nói rằng x∗ , u∗ , v∗ phải thỏa mãn các
điều kiện sau:
i) ci (x∗ ) ≤ 0, i = 1, ..., m ;
ii) dj (x∗ = 0), j = 1, ..., n ;
iii) u∗i ≥ 0, i = 1, ..., m ;
iv) u∗i ci (x∗ ) = 0, i = 1, ..., m ;
m
∗
n
u∗i ∇x ci (x∗ ) +
v) ∇x f (x ) +
i=1
vj∗ ∇x dj (x∗ ) = 0.
j=1
1.4. Một số thuật ngữ trong Machine learning
1.4.1. Thuật toán Gradient Descent
Thuật toán Gradient Descent là thuật toán lặp nhằm tìm ra giá trị nhỏ nhất
của một hàm lồi khả vi
f : U −→ R , U ⊆ Rn ,
bởi cấu trúc một chuỗi các điểm (xk ). Thuật toán Gradient Descent gồm bốn
bước:
Bước 1. Chọn > 0, η > 0, x0 ∈ Rn và đặt k := 0 ;
Bước 2. Nếu ∇f (xk ) < thì dừng, ngược lại tiếp tục sang bước 3 ;
Bước 3. Tính xk+1 = xk − η∇f (xk ) ;
Bước 4. Đặt k := k + 1, sang bước 2.
Trong đó η được gọi là tốc độ học.
Thuật toán này tuy đơn giản nhưng thường được dùng bởi nó hội tụ khá
tốt. Chỉ lưu ý một điều là việc chọn tốc độ học η có ảnh hưởng rất lớn đến tốc
Trang 8
độ hội tụ. Nếu chọn q bé thì thuật tốn hội tụ chậm, cịn nếu chọn q lớn
thì có thể khơng hội tụ. Một nhược điểm khác của thuật tốn này là nó thường
hội tụ đến điểm cực tiểu địa phương thay vì điểm cực tiểu tồn cục.
1.4.2. Thuật tốn Perceptron
Thuật toán Perceptron (Perceptron Learning Algorithm - PLA) là một trong
những thuật toán phân lớp dữ liệu cơ bản trong các mơ hình mạng nơ-ron. Ý
tưởng cơ bản nhất của thuật toán là với các lớp dữ liệu khác nhau, hãy tìm các
mặt phân loại để chia cắt các lớp này thành những vùng tách biệt. Trường hợp
đơn giản nhất của thuật toán này là phân lớp nhị phân bằng một mặt phân loại
tuyến tính.
Cũng giống như các thuật tốn khác của Machine Learning, PLA đi tìm mặt
phân loại bằng cách tối thiểu hóa một hàm mất mát. Hàm mất mát của PLA
cần được xây dựng sao cho khả vi để có thể sử dụng các thuật tốn Gradient
Descent trong việc tìm cực tiểu tồn cục.
1.4.3. Phương pháp Flatten
Flatten (trải phẳng) là phương pháp chuyển đổi một ma trận thành 1 vector
cột. Sau đó được cung cấp cho mạng nơ-ron để xử lý. Kỹ thuật Flatten thường
được dùng để trải phẳng một hình ảnh 2D thành một vector cột để làm đầu vào
cho mạng nơ-ron.
1.4.4. Hiện tượng quá khớp (Overfitting)
Overfitting là hiện tượng mơ hình tìm được q khớp với dữ liệu training.
Việc quá khớp này có thể dẫn đến việc dự đốn nhầm nhiễu, và chất lượng mơ
hình khơng còn tốt trên dữ liệu test nữa (dữ liệu test được giả sử là không được
biết trước, và không được sử dụng để xây dựng các mơ hình Machine Learning).
Trang 9
Hình 1.1: Overfitting
Trang 10
Chương 2
MẠNG NƠ-RON
Mạng nơ-ron (Neural Network - NN), đúng hơn phải gọi là Mạng nơ-ron
nhân tạo (Artificial Neural Network - ANN) được định nghĩa đơn giản nhất là
một hệ thống máy tính được tạo thành từ một số yếu số xử lý đơn giản, có
tính kết nối cao, xử lý thông tin bằng phản ứng trạng thái động của chúng với
các đầu vào bên ngoài. Định nghĩa mạng nơ-ron này được cung cấp bởi một
trong những nhà phát minh đi đầu trong lĩnh vực mạng nơ-ron, Tiến sĩ Robert
Hecht-Nielen.
Giống như tên gọi, mạng nơ-ron được lấy cảm hứng từ bộ não. Mạng nơ-ron
nhân tạo (ANN) là một mơ hình tính toán dựa trên cấu trúc và chức năng của
mạng lưới thần kinh sinh học. Thông tin chảy qua mạng ảnh hưởng đến cấu
trúc của ANN vì mạng thần kinh thay đổi, hoặc học theo nghĩa dựa trên đầu
vào và đầu ra đó.
Trong chương này, tơi trình bày việc áp dụng các kỹ thuật phân tích tốn
học trong nghiên cứu về mạng nơ-ron (NN), các nơ-ron là gì và chúng được liên
kết với nhau như thế nào?
Việc sử dụng NN như một phần của mơ hình tổng qt hơn về điện tốn
thần kinh có các ứng dụng rộng rãi trong nhận dạng mẫu và trong các loại phân
tích dữ liệu khác nhau.
Các kết quả trong chương này chủ yếu được tham khảo từ các tài liệu [2],
[3], [6], [7], [9] trong: “ Danh mục tài liệu tham khảo ”.
2.1. Nơ-ron
Một đứa trẻ có thể phân biệt được các con vật, hay một con chó có thể phân
biệt được người thân trong gia đình và người lạ. Những việc tưởng chừng như
rất đơn giản nhưng lại cực kì khó để thực hiện bằng máy tính. Vậy sự khác biệt
nằm ở đâu? Câu trả lời nằm ở bộ não với lượng lớn các nơ-ron thần kinh liên
kết với nhau. Thế thì máy tính có nên mơ phỏng lại mơ hình ấy để giải quyết
Trang 11
bài toán trên.
Nơ-ron là đơn vị cơ bản cấu tạo hệ thống thần kinh và là một phần quan
trọng nhất của não. Não chúng ta gồm khoảng 10 triệu nơ-ron liên kết với 10.000
nơ-ron khác. Ở mỗi nơ-ron có phần thân (soma) chứa nhân, các tín hiệu đầu vào
qua sợi nhánh (dendrites) và các tín hiệu đầu ra qua sợi trục (axon) kết nối với
các nơ-ron khác. Hiểu đơn giản mỗi nơ-ron nhận dữ liệu đầu vào qua sợi nhánh
và truyền dữ liệu đầu ra qua sợi trục, đến các sợi nhánh của các nơ-ron khác.
Mỗi nơ-ron nhận xung điện từ các nơ-ron khác qua sợi nhánh. Nếu các xung
điện này đủ lớn để kích hoạt nơ-ron thì tín hiệu này đi qua sợi trục đến các sợi
nhánh của các nơ-ron khác. Ở mỗi nơ-ron cần quyết định có kích hoạt nơ-ron
đấy hay không.
Tuy nhiên NN chỉ là lấy cảm hứng từ bộ não và cách nó hoạt động chứ khơng
phải bắt chước tồn bộ các chức năng của nó. Việc chính của chúng ta là dùng
mơ hình đấy đi giải quyết các bài toán chúng ta cần.
Theo một cách hiểu khác, NN là một đồ thị có hướng gồm tập hợp N các
đỉnh (nơ-ron); các cạnh của đồ thị biểu thị các luồng thông tin giữa các nơ-ron.
Như chúng ta sẽ thấy, có một số loại NN tùy thuộc vào cấu trúc của đồ thị cơ
bản.
Một nơ-ron được định nghĩa bởi một hệ số điều chỉnh θ, một hàm kích hoạt
σ : R −→ R
và một vector trọng số w ∈ Rn .
Khi một vector đầu vào x ∈ Rn được đưa vào n đầu vào của nơ-ron, quá
trình xử lý sẽ tính tốn
y = σ wT x + θ ,
giá trị của y được lấy làm đơn vị đầu ra.
Hàm kích hoạt của một nút định nghĩa đầu ra của nút đó được cung cấp bởi
một đầu vào hoặc tập các đầu vào.
Hàm kích hoạt được sinh ra với mục đích bẻ gãy sự tuyến tính của mạng
nơ-ron. Các hàm này nên là hàm phi tuyến để mã hóa các mẫu phức tạp của dữ
liệu. Các hàm kích hoạt được sử dụng trong mạng nơ-ron là hàm kích hoạt đa
trạng thái. Các hàm này có thể hiểu đơn giản như một bộ lọc quyết định xem
thơng tin có đi qua mạng nơ-ron hay khơng.
Trong sinh học, hàm kích hoạt thường là một sự trừu tượng đại diện cho tốc
độ truyền của các nơ-ron.
Trang 12
Ví dụ 2.1.1. Một số hàm kích hoạt phổ biến thường dùng hiện nay:
(i) Hàm Logictis
σ(x) =
1
·
1 + e−x
Hàm Logictis (thường được gọi là hàm sigmoid) nhận đầu vào là một số
thực và chuyển thành một giá trị trong khoảng (0, 1).
(ii) Hàm tanh
tanh(x) =
ex − e−x
·
ex + e−x
Hàm tanh nhận đầu vào là một số thực và chuyển thành một giá trị
trong khoảng (−1 ; 1)
tanh(x) = 2σ(2x) − 1.
(iii) Hàm ReLU (Rectified Linear Unit)
R(x) = max(0, x).
(iv) Hàm softmax
s (xi ) =
exi
n
·
exj
j=1
Hàm softmax là trường hợp tổng quát của hàm Logistic. Hàm softmax
nén trong không gian n chiều.
Trang 13
Hình 2.1: Đồ thị hàm Logictis
Hình 2.2: Đồ thị hàm tanh
Hình 2.3: Đồ thị hàm ReLu
Trang 14
Định nghĩa 2.1.2. Hàm σ : R −→ R được gọi là một hàm sigmoid (hàm nén)
nếu hai điều kiện sau được thỏa mãn:
i) σ là một hàm tăng ;
ii) lim σ(x) = 1 và
x−→∞
lim
x−→−∞
σ(x) = 0.
Ví dụ 2.1.3. Một số hàm sigmoid phổ biến được liệt kê dưới đây:
(i) Hàm Logistic
L(x) =
1
·
1 + e−x
(ii) Hàm Fermi logistic
fT (x) =
1
x·
1−e T
−
(iii) Hàm ramp
f (x) =
0
x
1
nếu
nếu
nếu
x<0
0≤x≤1
x > 1.
Định nghĩa 2.1.4. Cho x0 là điểm gián đoạn của hàm số f . Khi đó
jump(f, x0 ) = lim + f (x) − lim − f (x)
x−→x0
x−→x0
được gọi là bước nhảy của f tại điểm x0 .
Định nghĩa 2.1.5. Một dãy có độ dài n trên tập X là hàm
x : {0, 1, ..., n − 1} −→ X.
Tập các dãy có độ dài n trên tập X được ký hiệu là Seqn (X).
Định lí 2.1.6. Cho f : X −→ R là hàm đơn điệu, trong đó X ⊆ R. Khi đó tất
cả các điểm gián đoạn của f đều là điểm gián đoạn loại I.
Chứng minh. Rõ ràng hàm đơn điệu có giới hạn một bên tại mỗi điểm trên
tập xác định. Ta cần chứng minh rằng các giới hạn một bên đó là hữu hạn.
Thật vậy, khơng giảm tổng quát, giả sử rằng hàm f là một hàm tăng. Khi
đó, với mọi u, v ∈ X thỏa mãn u < x < v , ta có
f (u) ≤ f (x) ≤ f (v)
Trang 15
tức là
f (u) ≤ lim − f (t) ≤ lim + f (t) ≤ f (v).
t−→x
t−→x
Định lý đã được chứng minh.
Định lí 2.1.7. Tập hợp các điểm gián đoạn của hàm đơn điệu là đếm được.
Chứng minh. Không giảm tổng quát, giả sử rằng hàm đơn điệu
f : X −→ R
là một hàm tăng trên X = [ a ; b ]. Khi đó, với mọi c ∈ (a ; b) ta có
f (a) ≤ lim + f (x)
x−→a
≤ lim f (x)
x−→c−
≤ lim f (x)
x−→c+
≤ lim − f (x)
x−→b
≤ f (b).
Điều này chứng tỏ bước nhảy của f tại điểm c là điểm gián đoạn loại I,
nhỏ hơn f (b) − f (a).
Giả sử c1 < c2 < ... < cn là n điểm gián đoạn của f trong (a, b) sao cho
jump (f, ci ) ≥ α,
trong đó α > 0. Khi đó ta có
f (b) − f (a) ≥ lim f (x) − lim f (x)
x−→c+
n
x−→c−
1
n
n−1
jump (f, xi ) +
=
i=1
n
≥
jump
i=1
lim
x−→x−
(i+1)
f (x) − lim + f (x)
x−→xi
jump (f, xi )
i=1
≥ nα.
Như vậy
α≤
f (b) − f (a)
,
n
Trang 16
tức là số lượng điểm gián đoạn mà bước nhảy lớn hơn α là hữu hạn.
Đặt C1 là tập hợp các điểm gián đoạn của f trong đó bước nhảy tối thiểu
bằng 1 và với n ≥ 2 ta gọi
Cn = c ∈ (a ; b)| c là điểm gián đoạn của f và
1
1
≤ jump (f, c) ≤
.
n
n−1
Lúc này, mỗi tập Cn là hữu hạn và tập
C=
Cn
n≥1
là đếm được.
Định lí 2.1.8. Cho J là một khoảng con của R và f : J −→ R là hàm đơn điệu
có tập các điểm gián đoạn loại I là đếm được trên J . Khi đó, f là hàm đo được
giữa các không gian đo được (J, B(J)) và (R, B(R)).
Chứng minh. Ta thấy rằng với mỗi c ∈ R, tập f −1 (−∞ ; c) là một tập Borel.
Thật vậy, đặt
V = f −1 (−∞, c) − U = f −1 (−∞, c) − I f −1 (−∞, c) ,
trong đó
U = I f −1 (−∞, c)
là một tập mở.
Với B(J) là đo được, ta sẽ chứng minh rằng với mỗi x ∈ V đều là điểm
gián đoạn loại I của f .
Thật vậy, từ x ∈ V suy ra
x∈
/ U = I f −1 (−∞, c) .
Chú ý rằng x ∈ V tức f (x) < c và thế thì, với mỗi r > 0 tồn tại y ∈ B(x, r)
sao cho
y∈
/ f −1 (−∞, c) , f (y) ≥ c.
Từ f (x < c), x là một điểm gián đoạn loại I của f suy ra V là đếm được
vì f có một tập các điểm gián đoạn loại I là đếm được.
Như vậy, V là tập Borel.
Vì f −1 (−∞, c) = U ∪ V suy ra f −1 (−∞, c) là tập Borel.
Do đó f là hàm đo được.
Trang 17