Tải bản đầy đủ (.pdf) (71 trang)

Nghiên cứu, ứng dụng học sâu trong nhận diện bất thường chuỗi sứ cách điện từ ảnh uav

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.73 MB, 71 trang )

BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC

VŨ VIỆT VƯƠNG

NGHIÊN CỨU, ỨNG DỤNG HỌC SÂU
TRONG NHẬN DIỆN BẤT THƯỜNG CHUỖI

SỨ CÁCH ĐIỆN TỪ ẢNH UAV

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI, 2019

BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC

VŨ VIỆT VƯƠNG

NGHIÊN CỨU, ỨNG DỤNG HỌC SÂU
TRONG NHẬN DIỆN BẤT THƯỜNG CHUỖI

SỨ CÁCH ĐIỆN TỪ ẢNH UAV

Chuyên ngành : Công nghệ Thông tin
Mã số : 7480102

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học: TS. Nguyễn Thị Thanh Tân

HÀ NỘI, 2019



LỜI CẢM ƠN

Sau một thời gian tiến hành thực nghiệm và nghiên cứu, em cũng đã hoàn
thành nội dung luận văn “Nghiên cứu, ứng dụng học sâu trong nhận diện bất
thường chuỗi sứ cách điện từ ảnh UAV”. Q trình hồn thành luận văn khơng
chỉ dựa trên cơng sức của bản thân mà cịn có sự giúp đỡ, hỗ trợ tích cực của
nhiều cá nhân và tập thể.

Em xin gửi lời cảm ơn chân thành và sự tri ân sâu sắc đối với các thầy cô
của trường Đại học Điện Lực, đặc biệt là các thầy cô khoa Công Nghệ Thông Tin
của trường đã tạo điều kiện cho em thực hiện luận văn thạc sĩ. Và em cũng xin
chân thành cảm ơn cơ Nguyễn Thị Thanh Tân đã nhiệt tình hướng dẫn em hồn
thành luận văn. Nhờ có cơ mà luận văn của em đã hoàn thiện hơn về mặt nội dung
và hình thức. Cơ đã ln quan tâm, động viên và nhắc nhở kịp thời, đúng thời
điểm để em có thể hoàn thành luận văn đúng tiến độ và nhận thức đúng về trách
nhiệm của bản thân tới đề tài của em.

Nhân dịp này, em cũng xin gửi lời cảm ơn tới gia đình, bạn bè đã động viên,
tạo điều kiện cho em trong quá trình học tập và quá trình thực hiện luận văn này.

Xin trân trọng cảm ơn đề tài nghiên cứu ứng dụng và phát triển công nghệ
cấp quốc gia, thuộc chương trình hỗ trợ nghiên cứu, phát triển và ứng dụng công
nghệ của công nghiệp 4.0 mã số: KC-4.0.31/19-25 đã hỗ trợ nghiên cứu, thực
nghiệm trong quá trình thực hiện luận văn.

Em xin chân thành cảm ơn!
Hà nội, ngày 16 tháng 05 năm 2023

Học viên thực hiện


Vũ Việt Vương

LỜI CAM ĐOAN

Em xin cam đoan đã sử dụng các tài liệu tham khảo của các tác giả, các nhà
khoa học và các luận văn được trích dẫn trong phụ lục “Tài liệu tham khảo” cho
việc nghiên cứu và viết luận văn của em.

Em cam đoan về các số liệu và kết quả tính tốn được trình bày trong luận
văn “Nghiên cứu, ứng dụng học sâu trong nhận diện bất thường chuỗi sứ cách
điện từ ảnh UAV” là hồn tồn do em tự tìm hiểu và thực hiện trong quá trình
nghiên cứu và viết luận văn, không sao chép và chưa được sử dụng cho đề tài
luận văn nào.

Em xin chân thành cảm ơn!
Hà nội, ngày 16 tháng 05 năm 2023
Học viên thực hiện

Vũ Việt Vương

MỤC LỤC
LỜI MỞ ĐẦU ............................................................................................................ 1

CHƯƠNG 1: TỔNG QUAN VỀ HỌC SÂU VÀ CÁC BÀI TOÁN ỨNG DỤNG... 3

1.1 Mạng nơ-ron nhân tạo........................................................................................3
1.2 Một số khái niệm cơ bản trong học sâu ............................................................ 11
1.3 Mạng nơ-ron tích chập (Convolutional Neural Network-CNN)........................16
1.4 Ứng dụng của học sâu trong bài toán phát hiện và nhận dạng bất thường từ hình

ảnh......................................................................................................................... 19
1.5 Kết luận chương .............................................................................................. 20
CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN VÀ NHẬN DẠNG BẤT THƯỜNG
DỰA TRÊN MƠ HÌNH HỌC SÂU ........................................................................ 22

2.1. Bài toán phát hiện và nhận dạng bất thường từ hình ảnh ................................. 22
2.2. Các hướng tiếp cận trong phát hiện và nhận dạng bất thường từ hình ảnh ....... 23
2.3. Phương pháp phát hiện đối tượng dựa trên kiến trúc mạng học sâu Yolo ........24
2.3. Các kiến trúc mạng Yolo ................................................................................ 28
2.4. Kết luận chương ............................................................................................. 43
CHƯƠNG 3: ỨNG DỤNG HỌC SÂU TRONG PHÁT HIỆN VÀ NHẬN DIỆN
BẤT THƯỜNG CHUỖI SỨ CÁCH ĐIỆN TỪ ẢNH UAV ................................... 45

3.1. Bài toán phát hiện và nhận diện bất thường chuỗi sứ cách điện ....................... 45
3.2. Xây dựng tập dữ liệu chuỗi cách điện ............................................................. 47
3.3. Các kỹ thuật làm giàu tập dữ liệu huấn luyện. ................................................. 50
3.4. Đề xuất mô hình phát hiện và nhận diện bất thường chuỗi cách điện dựa trên kiến
trúc mạng học sâu Yolo. ........................................................................................52
3.5 Đánh giá thực nghiệm ......................................................................................56
3.6 Kết luận chương .............................................................................................. 60
KẾT LUẬN .............................................................................................................. 61

DANH MỤC CÁC TÀI LIỆU THAM KHẢO ....................................................... 62

STT Từ viết tắt DANH MỤC TỪ VIẾT TẮT
1 AI
2 UAV Nguyên nghĩa
3 ANN Trí tuệ nhân tạo
4 MLP Thiết bị máy bay không người lái
5 CNN Mạng lưới nơ-ron nhân tạo

6 R-CNN Mạng nơ-ron truyền thẳng nhiều lớp
7 NN Mạng nơ-ron tích chập
8 DL Mạng nơ-ron tích chập dựa trên khu vực
9 RNN Mạng nơ-ron nhân tạo
10 FC Kỹ thuật học sâu
11 YOLO Mạng nơ-ron tái phát
12 SSD Kết nối đầy đủ
13 AP You Only Look Once
14 mAP Single Shot MultiBox Detector
15 NMS Độ chính xác trung bình
16 TP Độ chính xác trung bình trung bình
17 FP Loại bỏ không tối đa
18 FN Phát hiện chính xác do mơ hình thực hiện
19 TN Phát hiện khơng chính xác do mơ hình thực hiện
20 FPN Sự thật cơ bản bị mơ hình phát hiện đối tượng bỏ sót
Vùng nền khơng được mơ hình phát hiện chính xác
Mạng kim tự tháp đặc trưng

21 SPP Nhóm kim tự tháp không gian
22 PANet Mạng tổng hợp đường dẫn
23 SAM Mô-đun chú ý không gian đã sửa đổi
24 CSP Kết nối chéo giai đoạn một phần
25 CSPNet Kết nối từng phần xuyên giai đoạn
26 BoF Tập những kĩ thuật hoặc phương pháp không làm tăng chi
phí suy luận
27 BoS Tập những phương pháp tăng thêm chi phí xử lý
nhưng cải thiện được độ chính xác
28 SAT Huấn luyện tự đối đầu
29 CBL Khối gồm lớp tích chập với q trình chuẩn hóa hàng loạt
và hàm Leaky ReLU

30 UP Các kỹ thuật giúp tăng kích thước output trong mạng
CNN
31 CBM Khối gồm lớp tích chập với q trình chuẩn hóa hàng loạt
và hàm Mish
32 EMA Đường trung bình động hàm mũ
33 GA Giải thuật di truyền
34 E-ELAN Mạng tập hợp lớp hiệu quả mở rộng

DANH MỤC HÌNH VẼ
Hình 1. 1: Mơ hình nơ-ron sinh học.............................................................................3
Hình 1. 2: Kiến trúc mạng MLP...................................................................................6
Hình 1. 3: Multi Layer perceptron ...............................................................................6
Hình 1. 4: Gradient descent .........................................................................................6
Hình 1. 5: Learning rate ..............................................................................................7
Hình 1. 6: Dropout .................................................................................................... 12
Hình 1. 7: Batch Normalization ................................................................................ 13
Hình 1. 8: Filters ....................................................................................................... 14
Hình 1. 9: Convolutional neural network ...................................................................14
Hình 1. 10: Pooling ................................................................................................... 15
Hình 1. 11: Padding .................................................................................................. 15
Hình 1. 12: Convolutional Neural Network................................................................17
Hình 1. 13: Các lớp Convolutional Neural Network .................................................. 17
Hình 1. 14: Convolution Layer .................................................................................. 18
Hình 1. 15: Pooling layer .......................................................................................... 19
Hình 1. 16: Fully connected layer .............................................................................. 19
Hình 2. 1: Hình Dịng thời gian của các phiên bản YOLO ......................................... 24
Hình 2. 2: Ví dụ về ba giá trị IoU khác nhau cho các vị trí hộp khác nhau ................ 26
Hình 2. 3: Đầu ra khi áp dụng thuật tốn NMS..........................................................28
Hình 2. 4 Kiến trúc yolov1 ......................................................................................... 28
Hình 2. 5: Kết quả dự đốn của mơ hình Yolov1........................................................29

Hình 2. 6: Backbone Darknet-19 ............................................................................... 30
Hình 2. 7: Yolov2 xác định nhiều anchor box cho mỗi ô lưới ..................................... 31
Hình 2. 8: Dự đốn hộp giới hạn ............................................................................... 32
Hình 2. 9: Kiến trúc backbone Darknet 53.................................................................33
Hình 2. 10: Kiến trúc phát hiện đa quy mơ của Yolov3 .............................................. 34
Hình 2. 11: Mơ hình phát hiện đối tượng ................................................................... 35
Hình 2. 12: Kiến trúc Yolov4 để phát hiện đối tượng ................................................. 36

Hình 2. 13: CSPResBlock trong Yolov4 (trên) và C3 Module (dưới) .......................... 37
Hình 2. 14: Kiến trúc của module SPPF .................................................................... 37
Hình 2. 15: Xử lý Data: Mosaic Augmentation .......................................................... 38
Hình 2. 16: Xử lý Data: Copy-paste Augmentation .................................................... 38
Hình 2. 17: Xử lý Data: Random Affine transform ..................................................... 39
Hình 2. 18: Xử lý Data: MixUp Augmentation ........................................................... 39
Hình 2. 19: Lựa chọn nhiều Anchor Box cho một object ............................................ 40
Hình 2. 20: Kiến trúc Yolov6 ..................................................................................... 41
Hình 2. 21: Kỹ thuật channel-wise distillation ...........................................................41
Hình 2. 22: Trực quan hóa anchor box trong Yolo.....................................................42
Hình 2. 23: Khối detection head của Yolov8 .............................................................. 43

Hình 3. 1: Chuỗi cách điện được thu với góc camera từ trên xuống ........................... 48
Hình 3. 2: Chuỗi cách điện được thu với góc camera từ dưới lên...............................48
Hình 3. 3: Chuỗi cách điện được thu với góc camera nhìn thẳng ............................... 48
Hình 3. 4 Hình ảnh dữ liệu được gán nhãn bằng cơng cụ Labelme ............................49
Hình 3. 5 Tệp data hình ảnh....................................................................................... 49
Hình 3. 6 Ảnh sinh ra bằng thuật tốn zoom ảnh ....................................................... 51
Hình 3. 7 Ảnh sinh ra bằng thuật toán chỉnh kênh độ sáng ........................................ 51
Hình 3. 8 Ảnh sinh ra bằng thuật tốn lật ảnh ........................................................... 51
Hình 3. 9 Ảnh sinh bằng thuật tốn add ảnh .............................................................. 51
Hình 3. 10: Kiến trúc mơ hình mạng tổng thể của thuật tốn Yolov8 ......................... 52

Hình 3. 11: Minh họa chi tiết từng module trong kiến trúc thuật tốn Yolov8 ............ 53
Hình 3. 12: Bảng chỉ số mAP của box và mask của từng đối tượng............................56
Hình 3. 13: Bảng Confusion Matrix ........................................................................... 57
Hình 3. 14: Bảng Confusion Matrix Normalized ........................................................ 57
Hình 3. 15: Kết quả nhận dạng bất thường vỡ mất bát cách điện thủy tinh ................ 59
Hình 3. 16: Dữ liệu thu từ Camera UAV và Camera cố định ..................................... 59

LỜI MỞ ĐẦU

Hệ thống điện đóng vai trị quan trọng đối với sự phát triển kinh tế của mỗi quốc
gia vì nó là một trong những cơ sở hạ tầng quan trọng nhất của nền kinh tế quốc dân.
Vận hành hệ thống điện là tập hợp các thao tác nhằm duy trì chế độ làm việc bình thường
của hệ thống điện ứng các yêu cầu chất lượng, tin cậy và kinh tế. Quá trình vận hành hệ
thống điện được thực hiện với sự quán triệt chặt chẽ nhằm đáp ứng được những yêu cầu
cơ bản của hệ thống điện như: đảm bảo hiệu quả kinh tế cao, đảm bảo chất lượng điện,
độ tin cậy cung cấp điện liên tục, tính linh hoạt và đáp ứng đồ thị phụ tải.

Một hệ thống điện thường rộng lớn về quy mô, trải dài trong không gian với
nhiều thiết bị điện khác nhau từ phần phát điện, truyền tải và phân phối điện năng. Do
đó, trong bất cứ hệ thống điện nào cũng có thể phát sinh các hư hỏng và tình trạng làm
việc khơng bình thường đối với các phần tử trong hệ thống điện.

Trên thực tế quá trình vận hành hệ thống điện trên thế giới cũng như ở Việt Nam
cho thấy, mặc dù chế độ vận hành hệ thống điện được tính tốn và phân tích kỹ lưỡng
trong quá trình lập quy hoạch, báo cáo khả thi, thiết kế kỹ thuật, lập kế hoạch và xây
dưng cho phương thức vận hành hệ thống điện, các sự cố về đường dây cả trạm vẫn xảy
ra, thậm trí tương đối phức tạp có tính chất ngày càng gia tăng theo sự phát triển của hệ
thống đã gây ra thiệt hại trong hệ thống điện dẫn đến tổn thất kinh tế vô cùng lớn cho
đất nước.


Trong vài thập kỷ qua, các nước phát triển đã nghiên cứu và ứng dụng các cơng
nghệ lưới điện thơng minh để hiện đại hóa và nâng cấp lưới điện. Các công nghệ mới,
hiện đại đã được sử dụng trên lưới truyền tảu điện nhằm hướng điến các mục tiêu tự
động hóa q trình giám sát tình trạng chế độ vận hành, đảm bảo tính an tồn và hiệu
quả. Việc ứng dụng cơng nghệ tự động hóa và cơng nghệ thơng tin trong vận hành, quản
lý hệ thống lưới điện mặc dù đã có nhưng bước tiến lớn nhưng vẫn chưa thực sự làm
chủ đối với các cơng nghệ tự động hóa trạm và các cơng nghệ hiện đại.

Bên cạnh đó, trong một vài năm trở lại đây, hướng nghiên cứu ứng dụng nền tảng
cơng nghệ trí tuệ nhân tạo (AI) tích hợp với hệ thống camera giám sát và các thiết bị
máy bay không người lái (UAV) trong tự động kiểm tra, giám sát và cảnh báo sự cố sớm
trên lưới điện đang được các nhóm nghiên cứu và doanh nghiệp trên thế giới đặc biệt
quan tâm. Sự phát triển các loại cảm biến chuyên dụng như camera hồng ngoại và
camera có chất lượng tốt và mức độ zoom quang và zoom số cao cho phép UAV phát
hiện các sự cố phổ biến, bao gồm sự cố đường truyền, mất hoặc hỏng hóc thiết bị trên
đường dây truyền tải điện và hư hỏng của cột điện cao thế. Không bị giới hạn về vấn đề
địa lý, máy bay khơng người lái có thể thực hiện kiểm tra tự động dọc theo đường dây
điện, giúp giảm đáng kể thời gian và chi phí so với phương thức kiểm tra cổ điển. Hơn
nữa nhân viên kiểm tra đường dây sẽ không phải làm việc trực tiếp với môi trường phức

1

tạp hoặc thực hiện các hoạt động nguy hiểm. Tuy nhiện vấn đề được đặt ra là thiết bị
ghi, chụp lại một khối lượng rất lớn hình ảnh, việc phân loại, đánh giá tình trạng vận
hành thiết bị từ khối lượng lớn hình ảnh này mất rất nhiều cơng sức của đội ngũ quản lý
vận hành. Nên cần phải có một cơng cụ để tự động phân tích những hình ảnh thu nhận
được, trên cơ sở đó nhằm phát hiện, nhận diện và dự báo các sự cố, bất thường trên lưới
điện.

Do đó em chọn làm đề tài “Nghiên cứu, ứng dụng học sâu trong nhận diện bất

thường chuỗi sứ cách điện từ ảnh UAV” với mục đích để tìm hiểu nhằm trợ giúp cho
công tác giám sát, quản lý hệ thống điện nhận điện được các sự cố bất thường một cách
hiệu quả, dễ dàng và nhanh chóng hơn.

2

CHƯƠNG 1: TỔNG QUAN VỀ HỌC SÂU VÀ CÁC BÀI TOÁN ỨNG
DỤNG

1.1 Mạng nơ-ron nhân tạo
Mạng nơ-ron nhân tạo (ANN - Artificial Neural Network) được mơ phỏng theo

các nơ-ron trong não người (Hình 1. 1). ANN chứa các tế bào thần kinh nhân tạo (nơ-
ron) được gọi là đơn vị. Các đơn vị này được sắp xếp trong một loạt các lớp cùng nhau
tạo thành toàn bộ Mạng nơ-ron nhân tạo trong một hệ thống. Một lớp có thể chỉ có
hàng chục đơn vị hoặc hàng triệu đơn vị vì điều này phụ thuộc vào cách các mạng thần
kinh phức tạp sẽ được yêu cầu để tìm hiểu các mẫu ẩn trong tập dữ liệu.

Nơ-ron: Giống như tế bào thần kinh tạo thành phần tử cơ bản của bộ não của
chúng ta, tế bào thần kinh tạo thành cấu trúc cơ bản của mạng thần kinh. Một nơ-ron
nhận đầu vào, xử lý nó và tạo ra một đầu ra được gửi đến các nơ-ron khác để tiếp tục xử
hoặc đó là đầu ra cuối cùng.

Hình 1. 1: Mơ hình nơ-ron sinh học

Trọng số (weights) – Khi đầu vào đi vào nơ-ron, nó sẽ được nhân với trọng số.
Ví dụ: nếu một nơ-ron có hai đầu vào, thì mỗi đầu vào sẽ có một trọng số liên quan được
gán cho nó. Chúng tơi khởi tạo các trọng số một cách ngẫu nhiên và các trọng số này
được cập nhật trong q trình huấn luyện mơ hình. Mạng thần kinh sau khi huấn luyện
sẽ gán trọng số cao hơn cho đầu vào mà nó cho là quan trọng hơn so với những cái được

coi là ít quan trọng hơn. Trọng số bằng 0 biểu thị rằng đặc trưng cụ thể là không đáng
kể.

Giả sử đầu vào là a và trọng số tương ứng là W1. Sau đó, sau khi đi qua nút, đầu
vào trở thành a*W1

3

Độ lệch (bias) – Ngoài các trọng số, một thành phần tuyến tính khác được áp
dụng cho đầu vào, được gọi là độ lệch. Nó được thêm vào kết quả của phép nhân trọng
số với đầu vào. Độ lệch về cơ bản được thêm vào để thay đổi phạm vi của đầu vào được
nhân trọng số. Sau khi thêm độ lệch, kết quả sẽ là a *w1 + bias. Đây là thành phần tuyến
tính cuối cùng của phép biến đổi đầu vào.

Hàm kích hoạt (Activation Function) – Khi thành phần tuyến tính được áp dụng
cho đầu vào, một chức năng phi tuyến tính sẽ được áp dụng cho nó. Điều này được thực
hiện bằng cách áp dụng hàm kích hoạt cho tổ hợp tuyến tính. Hàm kích hoạt dịch tín
hiệu đầu vào thành tín hiệu đầu ra. Đầu ra sau khi áp dụng hàm kích hoạt sẽ giống như
f(a*W1+b) trong đó f() là hàm kích hoạt.

Trong sơ đồ bên dưới, chúng ta có “n” đầu vào được cho là X1 đến Xn và các
trọng số tương ứng từ Wk1 đến Wkn. tơi có một độ lệch được đưa ra là bk. Trước tiên,
các trọng số được nhân với đầu vào tương ứng của nó và sau đó được cộng cùng với độ
lệch. Điều này được gọi là u.
u=∑w*x+b

Hàm kích hoạt được áp dụng cho u tức là f(u) và chúng ta nhận được đầu ra cuối
cùng từ nơ-ron là yk = f(u)

Các hàm kích hoạt thường được áp dụng phổ biến nhất là – Sigmoid, ReLU và

softmax

a) Sigmoid – Một trong những chức năng kích hoạt phổ biến nhất được sử dụng
là Sigmoid. Nó được định nghĩa là: 𝑠𝑖𝑔𝑚𝑜𝑖𝑑 = (1+ 𝑒−𝑥 1 )

4

Phép biến đổi sigmoid tạo ra một dải giá trị mượt mà hơn trong khoảng từ 0 đến
1. Chúng ta có thể cần quan sát những thay đổi ở đầu ra với những thay đổi nhỏ ở các
giá trị đầu vào.

b) ReLU (Rectified Linear Units) – Thay vì sigmoids, các mạng gần đây thích sử
dụng các chức năng kích hoạt ReLu cho các lớp ẩn. Hàm được định nghĩa là:

f(x) = max(x,0).
Đầu ra của hàm là X khi X>0 và 0 cho X<=0. Chức năng trông như thế này:

Lợi ích chính của việc sử dụng ReLU là nó có giá trị đạo hàm không đổi cho tất
cả các đầu vào lớn hơn 0. Giá trị đạo hàm không đổi giúp mạng huấn luyện nhanh hơn.

c) Softmax – Các chức năng kích hoạt Softmax thường được sử dụng trong lớp
đầu ra cho các vấn đề phân loại. Nó tương tự như hàm sigmoid, với điểm khác biệt duy
nhất là các đầu ra được chuẩn hóa để có tổng bằng 1. Hàm sigmoid sẽ hoạt động trong
trường hợp chúng ta có đầu ra nhị phân, tuy nhiên trong trường hợp chúng ta gặp sự cố
phân loại đa lớp, softmax sẽ làm cho nó thực sự dễ dàng để gán các giá trị cho mỗi lớp
có thể dễ dàng hiểu là xác suất.

Mạng nơ-ron đa lớp (MLP – Multi Layer Perceptron): Là một kiến trúc bao
gốm lớp đầu vào (input layer), lớp đầu ra (output layer) và các lớp ẩn (hidden layers).
Lớp đầu vào là lớp nhận đầu vào và về cơ bản là lớp đầu tiên của mạng. Lớp đầu ra là

lớp tạo ra đầu ra hoặc là lớp cuối cùng của mạng. Các lớp ẩn này là những lớp thực hiện
các tác vụ cụ thể trên dữ liệu đến và chuyển đầu ra do chúng tạo ra sang lớp tiếp theo.

5

Các lớp đầu vào và đầu ra là những lớp hiển thị với chúng ta, trong khi các lớp trung
gian bị ẩn.

Hình 1. 2: Kiến trúc mạng MLP

MLP (Multi Layer perceptron) – Một nơ-ron đơn lẻ sẽ khơng thể thực hiện các
nhiệm vụ có độ phức tạp cao. Do đó, chúng tơi sử dụng các chồng nơ-ron để tạo ra các
đầu ra mong muốn. Trong mạng đơn giản nhất, chúng ta sẽ có lớp đầu vào, lớp ẩn và
lớp đầu ra. Mỗi lớp có nhiều nơ-ron và tất cả các nơ-ron trong mỗi lớp được kết nối với
tất cả các nơ-ron trong lớp tiếp theo. Các mạng này cũng có thể được gọi là mạng được
kết nối đầy đủ.

Hình 1. 3: Multi Layer perceptron

Lan truyền tiến (Forward propagation): Là q trình lan truyền tín hiệu từ lớp
đầu vào qua các lớp ẩn đến các lớp đầu ra.

Hình 1. 4: Gradient descent

6

Hàm chi phí (Cost function) – Khi chúng ta xây dựng mạng, mạng sẽ cố gắng
dự đoán đầu ra càng gần với giá trị thực tế càng tốt. Ta đo lường độ chính xác này của
mạng bằng cách sử dụng hàm chi phí/tổn thất. Hàm sai số bình phương trung bình (Mean
Squared Error - MSE) thường được sử dụng trong huấn luyện mạng.


Độ dốc (Gradient descent): Là một thuật tốn tối ưu hóa để giảm thiểu chi phí. Ý
tưởng của thuật tốn này xuất phát từ quan sát thực tế khi chúng ta leo xuống một ngọn
đồi, chúng ta nên bước từng bước nhỏ và đi bộ xuống thay vì nhảy xuống ngay lập tức.
Thuật toán thực hiện như sau: bắt đầu từ điểm x, di chuyển xuống một chút, tức là delta
h, và cập nhật lại vị trí thành x-delta h và tiếp tục làm như vậy cho đến khi chạm đáy.
Coi đáy là điểm chi phí tối thiểu.

Về mặt tốn học, để tìm mức tối thiểu cục bộ của một hàm, người ta thực hiện các
bước tỷ lệ với âm của độ dốc của hàm.

Hệ số học (Learning rate) – Hệ số học được định nghĩa là mức tối thiểu hóa trong
hàm chi phí trong mỗi lần lặp. Nói một cách đơn giản, tốc độ mà chúng ta đi xuống cực
tiểu của hàm chi phí là tốc độ học tập. Chúng ta nên chọn tốc độ học rất cẩn thận vì nó
khơng nên q lớn đến mức bỏ qua giải pháp tối ưu và cũng không nên quá thấp để
mạng hội tụ mãi mãi.

Hình 1. 5: Learning rate

Lan truyền ngược (Back propagation) – Khi chúng tôi xác định một mạng thần
kinh, chúng tôi chỉ định các trọng số và giá trị sai lệch ngẫu nhiên cho các nút của chúng
tôi. Khi chúng tôi đã nhận được đầu ra cho một lần lặp, chúng tơi có thể tính tốn lỗi
của mạng. Lỗi này sau đó được đưa trở lại mạng cùng với độ dốc của hàm chi phí để
cập nhật trọng số của mạng. Các trọng số này sau đó được cập nhật để giảm các lỗi trong
các lần lặp lại tiếp theo. Việc cập nhật trọng số này bằng cách sử dụng độ dốc của hàm
chi phí được gọi là lan truyền ngược. Trong lan truyền ngược, chuyển động của mạng
là ngược lại, lỗi cùng với độ dốc chảy ngược từ lớp ngoài qua các lớp ẩn và các trọng
số được cập nhật.

Trong một mạng MLP, ngoại trừ lớp đầu vào, tất cả các node tḥc các lớp cịn

lại đều kết nối đầy đủ (full-connected) v́ơi các node thuộc layer trứơc nó. Mỗi node

7

thuộc hidden layer nhận vào ma trận đầu vào t̀ư layer trứơc và kết hợp v́ơi trọng số để
ra được kết quả. Hàm Logistic Regression̉ ơ các node.

- Logistic Regression có activation function là hàm sigmoid:

𝑔(𝑧) = 1

−𝑧
1+ 𝑒

- Hàm hypothesys:
ℎ𝜃(𝑥) = 𝑔(𝜃𝑇𝑋) = 1 + 𝑒−(𝜃𝑇𝑋) 1

- Đồ thị có dạng:

- Cost function:

𝑚

𝐽(𝜃) = 1 ∑ 𝐶𝑜𝑠𝑡(ℎ𝜃(𝑥(𝑖)), 𝑦(𝑖))
𝑚 𝑖=1

Với:

𝐶𝑜𝑠𝑡(ℎ𝜃(𝑥), 𝑦) = { − log(ℎ𝜃(𝑥)) 𝑛ế𝑢 𝑦 = 1
− log(1 − ℎ𝜃(𝑥)) 𝑛ế𝑢 𝑦 = 0


<=> 𝐶𝑜𝑠𝑡(ℎ𝜃(𝑥), 𝑦) = −𝑦𝑙𝑜𝑔(ℎ𝜃(𝑥)) − (1 − 𝑦)log(1 − ℎ𝜃(𝑥))

- Cost function:

1 𝑚

𝐽(𝜃) = 𝑚 [∑ 𝑦(𝑖) log (ℎ𝜃(𝑥(𝑖))) + (1 − 𝑦(𝑖))log(1 − ℎ𝜃(𝑥(𝑖)))]

𝑖=1

- Kết hợp v́ơi Regurlarization:

8

𝑚 𝑛
𝐽(𝜃) = − 1𝑚 [∑ 𝑦(𝑖) log (ℎ𝜃(𝑥(𝑖))) + (1 − 𝑦(𝑖)) log (1 − ℎ𝜃(𝑥(𝑖)))] + 𝜆2𝑚 ∑ 𝜃𝑗2
𝑖= 𝑗=1

Trong mạng MLP v́ơi mỗi node thuộc layer khác input layer đều là một Logistic
Regression ta sẽ có:

1 𝑚𝑘

𝐽(𝜃) = (𝑖) (𝑖) (𝑖) ℎ𝜃 (𝑥 (𝑖) )𝑘 )]
− 𝑚 [∑ ∑ 𝑦𝑘 log (ℎ𝜃(𝑥 )𝑘) + (1 − 𝑦𝑘 ) log (1 −
𝑖=1 𝑘=1

𝜆 𝐿 𝑠𝑙 𝑠𝑙+1


(𝑙) 2
+ 2𝑚 ∑ ∑ ∑(𝜃𝑗 )
𝑙=1 𝑖=1 𝑗=1

Bây giờ tìm 𝜃 sao cho 𝐽(𝜃) min:

Để tìm cực tiểu 𝐽(𝜃) ta áp dụng thuật toán Gradient Descent.
𝜕

𝑅𝑒𝑝𝑒𝑎𝑡{𝜃𝑗 ≔ 𝜃𝑗 − 𝛼 𝐽(𝜃); }
𝜕𝜃𝑗

Với 𝛼 là learning rate. Để thực hiện phép tính trên thì phải tính đạo hàm của
𝜕 𝜕𝜃𝑗 𝐽(𝜃) bằng cách sử dụng thuật toán lan truyền ngược (backpropagation) để tính.

 Forward Propagation (Lan truyền tiến)

Để thuận tiện cho việc trình bày thuật toán, chúng ta xem xét một mạng MLP cụ
thể như sau:

Trong đó: 𝑥1 , 𝑥2 là các giá trị đầu vào; 𝑦1 , 𝑦2 là các giá trị đầu ra; 𝑏1 , 𝑏2 là các
giá trị độ lệch (bias); 𝑤1 , 𝑤2,…, 𝑤8 là các giá trị trọng số.

Quá trình truyền thẳng (forward propagation, ta sẽ tiến hành tính tốn 𝑎1 , 𝑎2 ,
𝑦1 , 𝑦2 từ trái qua phải.

𝑧1 = 𝑥1𝑤1 + 𝑥2𝑤3 + 𝑏1

𝑎1 = 𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝑧1) = 1+𝑒 1


𝑥1𝑤1+𝑥2𝑤3+𝑏1

9

Tương tự:

𝑧2 = 𝑥1𝑤2 + 𝑥2𝑤4 + 𝑏2
1

𝑎2 = 1 + 𝑒𝑥1𝑤2+𝑥2𝑤4+𝑏2
𝑧3 = 𝑎1𝑤5 + 𝑎2𝑤7 + 𝑏2

1
𝑦1 = 1 + 𝑒𝑎1𝑤5+𝑎2𝑤7+𝑏2
𝑧4 = 𝑎1𝑤6 + 𝑎2𝑤8 + 𝑏2

1
𝑦2 = 1 + 𝑒𝑎1𝑤6+𝑎2𝑤8+𝑏2

Forward propagation là một công đoạn tính toán giá trị tại t̀ưng node để phục vụ
việc tính toán trong Back propagation.

 Back Propagation

Như đã đề cập ở trên để tính 𝜕 𝐽(𝜃) ta dùng thuật tốn back propagation.

𝜕𝜃𝑗

Giả sử cần tính 𝜕 𝐽(𝜃) áp dụng chain rule ta tách thành:


𝜕𝜃5

𝜕 𝐽(𝑤) = 𝜕 𝐽(𝑤) ∗ 𝜕𝑦1 ∗ 𝜕𝑧3
𝜕𝑤5 𝜕𝑦1 𝜕𝑧3 𝜕𝑤5

Để cho dễ hiểu chúng ta bỏ qua regularization và giả sử m= 1 với kết quả trong
training set ứng với 𝑦1 , 𝑦2 là 𝑇1 = 1 , 𝑇2 = 0 :

𝑚𝑘

𝐽(𝑤) = − 1𝑚 [∑ ∑ 𝑦𝑘(𝑖) log (ℎ𝜃(𝑥(𝑖))𝑘) + (1 − 𝑦𝑘(𝑖)) log (1 − ℎ𝜃(𝑥(𝑖))𝑘)]

𝑖=1 𝑘=1

𝜕𝐽(𝑤) = [−(𝑇1 ∗ log(𝑦1) + 𝑇2 ∗ log(𝑦2))]′ = −𝑇1 ∗ 1
𝜕𝑦1 𝑦1 ∗ ln(10)

𝜕𝑦1 1′ (𝑒 −(𝑧3) )′ 𝑒−(𝑧3)(−(𝑧 ))′ 3 𝑒 −(𝑧3)
= (1 + 𝑒−(𝑧3) ) = − (1 + 𝑒−(𝑧3))2 = − (1 + 𝑒−(𝑧3))2 = (1 + 𝑒−(𝑧3))2
𝜕𝑧3

𝜕𝑧3 = (𝑎1𝑤5 + 𝑎2𝑤7 + 𝑏2)′ = 𝑎1
𝜕𝑤5

Tất cả các kết quả 𝜕𝐽(𝑤) , 𝜕𝑦1 , 𝜕𝑧3 đều có thể tính được thơng qua kết quả thu

𝜕𝑦1 𝜕𝑧3 𝜕𝑤5

được từ forward propagation. Vậy ta có thể tính 𝜕 𝐽(𝑤) .


𝜕𝑤5

Tương tự ta có thể tính được lần lượt giá trị 𝜕 𝐽(𝑤) với j = 1, 2, 3, …, 8.

𝜕𝑤𝑗

10

Như vậy nhờ vào back propagation ta đã có thể tính được 𝜕 𝐽(𝑤) từ đó giúp

𝜕𝑤𝑗

thuật tốn Gradient descent có thể hoạt động và ta có thể tìm ra tập 𝜃 sao cho Cost
function là nhỏ nhất.

1.2 Một số khái niệm cơ bản trong học sâu

Học sâu là một nhánh của học máy dựa trên kiến trúc mạng thần kinh nhân tạo.
Mạng thần kinh nhân tạo hoặc ANN sử dụng các lớp nút được kết nối với nhau được
gọi là nơ-ron hoạt động cùng nhau để xử lý và học hỏi từ dữ liệu đầu vào.

Trong một mạng học sâu được kết nối đầy đủ, có một lớp đầu vào và một hoặc
nhiều lớp ẩn được kết nối lần lượt với nhau. Mỗi nơ-ron nhận đầu vào từ các nơ-ron lớp
trước hoặc lớp đầu vào. Đầu ra của một nơ-ron trở thành đầu vào của các nơ-ron khác
trong lớp tiếp theo của mạng và quá trình này tiếp tục cho đến khi lớp cuối cùng tạo ra
đầu ra của mạng. Các lớp của mạng thần kinh biến đổi dữ liệu đầu vào thông qua một
loạt các phép biến đổi phi tuyến tính, cho phép mạng học các biểu diễn phức tạp của dữ
liệu đầu vào. Học sâu đã trở thành một trong những lĩnh vực phổ biến và dễ thấy nhất
của machine learning, nhờ sự thành cơng của nó trong nhiều ứng dụng, chẳng hạn như
thị giác máy tính, xử lý ngôn ngữ tự nhiên và Học tăng cường. Học sâu có thể được sử

dụng cho học máy có giám sát, khơng giám sát cũng như tăng cường. nó sử dụng nhiều
cách khác nhau để xử lý chúng.

+ Học máy có giám sát: Học máy có giám sát là kỹ thuật học máy trong đó mạng
thần kinh học cách đưa ra dự đoán hoặc phân loại dữ liệu dựa trên các bộ dữ liệu được
dán nhãn. Ở đây chúng tôi nhập cả hai đặc trưng đầu vào cùng với các biến mục tiêu.
mạng nơ-ron học cách đưa ra dự đoán dựa trên chi phí hoặc lỗi xuất phát từ sự khác biệt
giữa mục tiêu được dự đoán và mục tiêu thực tế, quá trình này được gọi là lan truyền
ngược. Các thuật toán học sâu như Mạng thần kinh chuyển đổi, Mạng thần kinh tái phát
được sử dụng cho nhiều tác vụ được giám sát như phân loại và nhận dạng hình ảnh, phân
tích tình cảm, dịch ngơn ngữ, v.v.

+ Học máy không giám sát: Học máy không giám sát là kỹ thuật học máy trong
đó mạng thần kinh học cách khám phá các mẫu hoặc phân cụm tập dữ liệu dựa trên các
tập dữ liệu khơng được gắn nhãn. Ở đây khơng có biến mục tiêu. trong khi máy phải tự
xác định các mẫu hoặc mối quan hệ ẩn trong bộ dữ liệu. Các thuật tốn học sâu như bộ
mã hóa tự động và mơ hình tổng qt được sử dụng cho các tác vụ khơng được giám sát
như phân cụm, giảm kích thước và phát hiện bất thường.

+ Học máy tăng cường: Học máy tăng cường là kỹ thuật học máy trong đó một
tác nhân học cách đưa ra quyết định trong một môi trường để tối đa hóa tín hiệu phần
thưởng. Tác nhân tương tác với môi trường bằng cách thực hiện hành động và quan sát
phần thưởng thu được. Học sâu có thể được sử dụng để tìm hiểu các chính sách hoặc

11


×