Tải bản đầy đủ (.pdf) (74 trang)

Nghiên cứu, ứng dụng học sâu trong phát hiện cột điện và các thiết bị trên đường dây truyền tải điện từ ảnh uav

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.64 MB, 74 trang )

BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC

PHẠM HỒNG LONG

NGHIÊN CỨU, ỨNG DỤNG HỌC SÂU
TRONG PHÁT HIỆN CỘT ĐIỆN VÀ CÁC
THIẾT BỊ TRÊN ĐƯỜNG DÂY TRUYỀN

TẢI ĐIỆN TỪ ẢNH UAV

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI, 2019

BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC

PHẠM HỒNG LONG

NGHIÊN CỨU, ỨNG DỤNG HỌC SÂU
TRONG PHÁT HIỆN CỘT ĐIỆN VÀ CÁC
THIẾT BỊ TRÊN ĐƯỜNG DÂY TRUYỀN

TẢI ĐIỆN TỪ ẢNH UAV

Chuyên ngành : Công nghệ Thông tin
Mã số : 7480102

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học: TS. Nguyễn Thị Thanh Tân



HÀ NỘI, 2019

LỜI CẢM ƠN

Sau một thời gian tiến hành thực nghiệm và nghiên cứu, em cũng đã hoàn
thành nội dung luận văn “Nghiên cứu, ứng dụng học sâu trong phát hiện cột điện
và các thiết bị trên đường dây truyền tải điện từ ảnh UAV”. Q trình hồn thành
luận văn không chỉ dựa trên công sức của bản thân nghiên cứu sinh mà cịn có sự
giúp đỡ, hỗ trợ tích cực của nhiều cá nhân và tập thể.

Trước hết, em xin gửi lời cảm ơn chân thành và sâu sắc đến TS. Nguyễn
Thị Thanh Tân, người trực tiếp hướng dẫn cho em hoàn thành luận văn. Cô đã
dành cho em nhiều thời gian, tâm huyết, cho em nhiều nhận xét đúng trọng tâm,
đúng thời điểm, giúp luận văn của em được hoàn thiện hơn về mặt nội dung và
hình thức. Cơ cũng đã luôn quan tâm, động viên, nhắc nhở kịp thời để em có thể
hồn thành luận văn đúng tiến độ. Với sự khích lệ và nguồn cổ vũ to lớn từ cơ, em
đã có nhận thức tốt hơn về trách nhiệm của bản thân với đề tài của mình.

Em cũng xin gửi lời cảm ơn đến Ban Giám hiệu, tập thể các thầy cô giáo
Khoa Công nghệ Thông tin trường Đại Học Điện lực đã tận tình dạy dỗ và giúp
đỡ em trong những năm trên giảng đường Cao học.

Nhân dịp này, em cũng xin gửi lời cảm ơn tới gia đình, bạn bè đã động
viên, tạo điều kiện cho em trong quá trình học tập và quá trình thực hiện luận văn
này.

Xin trân trọng cảm ơn đề tài nghiên cứu ứng dụng và phát triển công nghệ
cấp quốc gia, thuộc chương trình hỗ trợ nghiên cứu, phát triển và ứng dụng công
nghệ của công nghiệp 4.0 mã số: KC-4.0.31/19-25 đã hỗ trợ nghiên cứu, thực

nghiệm trong quá trình thực hiện luận văn.

Trân trọng!

Hà Nội, ngày 01 tháng 06 năm 2023
Học viên

Phạm Hồng Long

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn về đề tài “Nghiên cứu, ứng dụng học sâu trong
phát hiện cột điện và các thiết bị trên đường dây truyền tải điện từ ảnh UAV” là
cơng trình nghiên cứu cá nhân của tôi trong thời gian qua.
Mọi số liệu sử dụng phân tích trong luận văn và kết quả nghiên cứu là do
tơi tự tìm hiểu, phân tích một cách khách quan, trung thực, có nguồn gốc rõ ràng
và chưa được cơng bố dưới bất kỳ hình thức nào. Tơi xin chịu hồn tồn trách
nhiệm nếu có sự khơng trung thực trong thơng tin sử dụng trong cơng trình nghiên
cứu này.

Hà Nội, ngày 01 tháng 06 năm 2023
Học viên

Phạm Hồng Long

MỤC LỤC
MỞ ĐẦU................................................................................................................... 1
CHƯƠNG 1: TỔNG QUAN VỀ HỌC SÂU VÀ CÁC BÀI TOÁN ỨNG DỤNG
................................................................................................................................... 3

1.1. Mạng neural nhân tạo....................................................................................3

1.1.1. Perceptrons..............................................................................................3
1.1.2. Sigmoid Neurons .................................................................................... 4
1.1.3. Kiến trúc mạng MLP .............................................................................. 5
1.2. Kiến trúc mạng học sâu .................................................................................6
1.2.1. Tổng quan về kiến trúc của CNN ........................................................... 6
1.2.2. Chọn tham số cho CNN ........................................................................12
1.2.3. Đặc trưng chung của các mạng CNN ...................................................12
1.2.4. Một số kiến trúc các mạng CNN tiêu biểu ...........................................13
1.3. Kết luận chương ..........................................................................................20
CHƯƠNG 2. PHƯƠNG PHÁP PHÁT HIỆN ĐỐI TƯỢNG DỰA TRÊN MƠ
HÌNH HỌC SÂU ................................................................................................... 21
2.1. Bài tốn phát hiện đối tượng từ hình ảnh....................................................21
2.2. Các hướng triển khai trong phát hiện đối tượng từ hình ảnh.........................22
2.3. Phương pháp phát hiện đối tượng dựa trên kiến trúc mạng R-CNN .............24
2.3.1. Thuật toán R-CNN .....................................................................................24
2.3.2. Thuật toán Fast R-CNN .............................................................................27
2.3.3. Thuật toán Faster R-CNN ..........................................................................30
2.3.4. Phân loại bài tốn phân đoạn hình ảnh ......................................................32
2.3.5. Mask R-CNN..............................................................................................32
2.3.6. Phát hiện đối tượng dựa trên instance segmentation .................................36
2.4. Kiến trúc MaskRCNN-R50-FPN ...................................................................37
2.4.1. Tổng quan kiến trúc FPN ...........................................................................38
2.4.2. Data Flow ...................................................................................................38
2.4.3. Sử dụng FPN với Fast R-CNN, Faster R-CNN, Mask R-CNN.................40

2.5. Kết luận chương .............................................................................................41
CHƯƠNG 3: ỨNG DỤNG HỌC SÂU TRONG PHÁT HIỆN CỘT ĐIỆN VÀ
CÁC THIẾT BỊ TRÊN ĐƯỜNG DÂY TRUYỀN TẢI ĐIỆN CAO THẾ TỪ
ẢNH UAV............................................................................................................... 43


3.1 Bài toán phát hiện cột điện và các thiết bị trên đường dây truyền tải điện cao
thế từ ảnh UAV .....................................................................................................43
3.1.1. Quy trình kiểm tra lưới đường dây cao thế 110kV .....................................43
3.1.2. Những lợi ích và hạn chế trong cơng tác giám sát đường dây...................44
3.1.3 Áp dụng công nghệ cho công việc kiểm tra đường dây 110kV..................46
3.2 Nghiên cứu đặc trưng ảnh UAV .....................................................................47
3.3. Các kỹ thuật tiền xử lý ảnh UAV...................................................................47
3.3.1. Thu thập dữ liệu từ máy bay UAV.............................................................47
3.3.2. Trích xuất dữ liệu ảnh từ dữ liệu video giám sát trên máy bay UAV........48
3.3.3. Chuẩn hóa dữ liệu về kích thước mong muốn huấn luyện cho mơ hình ...49
3.3.4. Loại bỏ và tinh chỉnh ảnh nhiễu.................................................................52
3.4. Đánh giá thực nghiệm ....................................................................................54
3.4.1. Môi trường thực nghiệm ............................................................................54
3.4.2. Dữ liệu thực nghiệm...................................................................................54
3.4.3. Các độ đo đánh giá .....................................................................................55
3.4.4. Kết quả thực nghiệm ..................................................................................56
3.6. Kết luận chương .............................................................................................62
KẾT LUẬN ............................................................................................................ 63
TÀI LIỆU THAM KHẢO .................................................................................... 64

DANH MỤC CHỮ VIẾT TẮT

STT Ký hiệu chữ viết tắt Chữ viết đầy đủ

1 UAV Unmanned Aerial Vehicle

2 ANN Artificial Neural Network

2 DL Deep Learning


3 AI Artificial Intelligence

4 CNN Convolutional Neural Network

5 D-CNN Deep Convolutional Neural Network

6 CONV Convolutional

7 R-CNN Region-based Convolutional Neural Network

8 FC Fully Connected

9 FCN Fully Convolutional Network

10 FPN Feature Pyramid Network

11 IoU Intersection over Union

DANH MỤC HÌNH VẼ
Hình 1. 1: Mơ hình Nơ-ron sinh học ..........................................................................3
Hình 1. 2: Đồ thị hàm Sigmoid Neurons....................................................................5
Hình 1. 3: Mạng MLP ................................................................................................5
Hình 1. 4: Mơ hình MLP (trái) và kiến trúc mạng học sâu (phải) .............................6
Hình 1. 5: Kiến trúc mạng CNN.................................................................................7
Hình 1. 6: Pooling layer .............................................................................................9
Hình 1. 7: Max pooling và Average pooling............................................................10
Hình 1. 8: Fully Connected Layer ............................................................................11
Hình 1. 9: LeNet-5....................................................................................................13
Hình 1. 10: Kiến trúc mạng AlexNet .......................................................................14
Hình 1. 11: Hàm kích hoạt Hàm ReLU....................................................................14

Hình 1. 12: Kỹ thuật dropout....................................................................................15
Hình 1. 13: VGG-16 .................................................................................................16
Hình 1. 14: Kiến trúc một cell..................................................................................16
Hình 1. 15: Kiến trúc mạng Inception-V3................................................................17
Hình 1. 16: Kiến trúc mạng ResNet-50....................................................................18
Hình 1. 17: Kiến trúc DenseNet ...............................................................................19
Hình 2. 1: Phân biệt phát hiện đối tượng, phân đoạn hình ảnh, phân loại hình ảnh 21
Hình 2. 2: Phát hiện đối tượng trên ảnh ...................................................................23
Hình 2. 3: Mơ tả cách hoạt động của thuật tốn R-CNN .........................................24
Hình 2. 4: Mơ hình bounding box regression...........................................................25
Hình 2. 5: Thuật tốn non-max suppression ............................................................26
Hình 2. 6: Mơ tả cách hoạt động của thuật tốn Fast R-CNN .................................27
Hình 2. 7: Mơ tả cơ chế RoI Poling .........................................................................28
Hình 2. 8: Các giá trị của hàm Loss trong thuật toán Fast R-CNN..........................29
Hình 2. 9: Thuật tốn Faster R-CNN .......................................................................30
Hình 2. 10: Các giá trị hàm Loss mơ hình Faster R-CNN .......................................31
Hình 2. 11: Kỹ thuật phân vùng ảnh ........................................................................32

Hình 2. 12: Mơ hình thuật tốn Mask-RCNN..........................................................33
Hình 2. 13: Mơ tả cơ chế IoU...................................................................................34
Hình 2. 14: Kiến trúc Mask R-CNN dựa trên Faster R-CNN ..................................35
Hình 2. 15: Kết quả tách nền sau phân đoạn vật thể ................................................35
Hình 2. 16: Mơ tả thuật tốn Mask R-CNN .............................................................36
Hình 2. 17: Một vài kết quả của mơ hình Mask R-CNN ........................................36
Hình 2. 18: Ảnh biến đổi trong RoI Align ...............................................................37
Hình 2. 19: Mơ hình bottom-up FPN .......................................................................39
Hình 2. 20: Mơ hình top-down FPN ........................................................................39
Hình 2. 21: chi tiết đường đi theo bottom-up và top-down......................................40
Hình 2. 22: Áp dụng FPN tăng hiệu suất cho mơ hình Mask R-CNN.....................41
Hình 3. 1: Tiến hành kiểm tra lưới điện ...................................................................43

Hình 3. 2: Bảo trì thay thế đường dây cao thế 110kV..............................................45
Hình 3. 3: Áp dụng cơng nghệ UAV vào giám sát đường dây cao thế....................46
Hình 3. 4: Ảnh đầu vào (ảnh gốc) ............................................................................49
Hình 3. 5: Ảnh sau điều chỉnh kích thước (resize)...................................................50
Hình 3. 6: Quy trình cắt lấy trung tâm ảnh...............................................................51
Hình 3. 7: Ảnh bị mất chi tiết ngoài khi sử dụng phương pháp cắt lấy trung tâm ảnh
.................................................................................................................................. 52
Hình 3. 8: Quy trình tinh chỉnh ảnh nhiễu................................................................52
Hình 3. 9: Kết quả khử nhiễu ảnh ............................................................................53
Hình 3. 10: Đối tượng được nhãn bằng công cụ labelme ........................................55
Hình 3. 11: Kết quả phát hiện lớp dây điện sau training..........................................57
Hình 3. 12: Kết quả phát hiện lớp cách điện thủy tinh sau training.........................58
Hình 3. 13: Kết quả phát hiện các lớp thiết bị sau training......................................58
Hình 3. 14: Kết quả phát hiện lớp dây điện sau training..........................................59
Hình 3. 15: Kết quả phát hiện thiết bị đường dây ....................................................60
Hình 3. 16: Kết quả phát hiện cột thép hình.............................................................61
Hình 3. 17: Kết quả phát hiện thiết bị cách điện thủy tinh.......................................61

Hình 3. 18: Kết quả sử dụng instance segmentation để tách nền khỏi lớp thiết bị ..62

DANH MỤC BẢNG BIỂU
Bảng 3. 1: Tập dữ liệu thử nghiệm...........................................................................54
Bảng 3. 2: Đánh giá các độ đo TP, FP, FN ..............................................................56
Bảng 3. 3: Đánh giá các độ đo Precision, Recall .....................................................56

MỞ ĐẦU

Hệ thống điện đóng một vai trị quan trọng trong sự phát triển kinh tế của mỗi
quốc gia bởi vì nó là một trong những cơ sở hạ tầng quan trọng nhất của nền kinh tế
quốc dân. Một hệ thống điện bao gồm ba phần chính: phần phát điện (bao gồm các

nhà máy phát điện như nhà máy nhiệt điện, nhà máy thủy điện,…), phần truyền tải
(bao gồm hệ thống đường dây cao áp, máy biến áp truyền tải, …), và phần phân phối
(nơi điện áp được hạ thấp để cung cấp trực tiếp cho các phụ tải, giúp phân phối tới
nơi sử dụng tiêu thụ).

Hệ thống điện là tập hợp các phần tử nhằm đáp ứng các yêu cầu về chất lượng,
tin cậy và kinh tế của điện năng. Các phần tử này bao gồm phần phát điện, truyền tải
và phân phối điện năng, có quy mơ rộng lớn và trải dài trong không gian.

Dù đã được thiết kế và vận hành chặt chẽ, các sự cố về đường dây và trạm vẫn
có thể xảy ra trong bất kỳ hệ thống điện nào, gây ra tình trạng làm việc khơng bình
thường và hư hỏng cho các phần tử trong hệ thống điện.

Thực tế cho thấy, dù đã có chế độ vận hành được tính tốn và phân tích kỹ lưỡng
trong quá trình lập quy hoạch, báo cáo khả thi, thiết kế kỹ thuật và lập kế hoạch cho
phương thức vận hành hệ thống điện, các sự cố về đường dây và trạm vẫn xảy ra trên
thế giới cũng như tại Việt Nam. Những sự cố này thậm chí có tính chất tương đối
phức tạp và ngày càng gia tăng theo sự phát triển của hệ thống, gây ra tổn thất kinh
tế lớn cho đất nước.

Trong vài thập kỷ qua, các nước tiên tiến đã tìm hiểu và áp dụng các công nghệ
lưới điện thông minh để nâng cao hiệu quả và hiện đại hóa hệ thống lưới điện. Các
công nghệ mới và hiện đại đã được áp dụng trên lưới truyền tải điện để đạt được mục
tiêu tự động hóa q trình giám sát tình trạng và đảm bảo tính an tồn. Việc ứng dụng
tự động hóa và cơng nghệ thơng tin trong quản lý và vận hành hệ thống lưới điện đã
có bước tiến lớn nhưng vẫn chưa thực sự làm chủ các công nghệ tự động hóa trạm
và cơng nghệ hiện đại.

Bên cạnh đó, trong vài năm gần đây, các nhóm nghiên cứu và doanh nghiệp trên
tồn cầu đang quan tâm đặc biệt đến việc ứng dụng nền tảng trí tuệ nhân tạo (AI) tích

hợp với hệ thống camera giám sát và máy bay không người lái (UAV) để tự động
giám sát, kiểm tra và cảnh báo sớm các sự cố trên lưới điện [1], [2], [3], [4]. Việc
phát triển các loại cảm biến đặc biệt như camera hồng ngoại và camera với chất lượng
tốt và mức độ zoom quang và zoom số cao, giúp cho UAV phát hiện các sự cố phổ
biến như sự cố đường truyền, thiết bị trên đường dây bị mất hoặc hỏng hóc và các
cột điện cao thế bị hư hỏng. Với khả năng thực hiện kiểm tra tự động dọc theo đường
dây điện và không bị giới hạn về vấn đề địa lý, UAV giúp giảm đáng kể thời gian và

1

chi phí so với phương thức kiểm tra truyền thống. Hơn nữa, nhân viên kiểm tra đường
dây không cần phải làm việc trực tiếp với môi trường phức tạp hoặc thực hiện các
hoạt động nguy hiểm. Tuy nhiên, vấn đề phát sinh khi các thiết bị chuẩn bị ghi và
chụp lại một khối lượng lớn hình ảnh là việc phân loại và đánh giá tình trạng vận
hành thiết bị từ khối lượng hình ảnh lớn sẽ mất rất nhiều cơng sức của đội ngũ quản
lý vận hành. Do đó, cần có một cơng cụ tự động phân tích những hình ảnh thu được
để phát hiện, nhận diện và dự báo các sự cố và bất thường trên lưới điện.

Do đó em chọn làm đề tài “Nghiên cứu, ứng dụng học sâu trong phát hiện cột
điện và các thiết bị trên đường dây truyền tải điện cao thế từ ảnh UAV” với mục đích
để tìm hiểu nhằm trợ giúp cho công tác giám sát, quản lý hệ thống điện. Cấu trúc của
luận văn gồm 3 chương, cụ thể như sau:

Chương 1 - Tổng quan về học sâu và các bài toán ứng dụng: Chương này
trình bài các vấn đề tổng quan về học sâu và các bài toán ứng dụng, bao gồm các
khái niệm cơ bản về mạng neural nhân tạo, học sâu, mơ hình mạng tích chập và ứng
dụng của học sâu trong giám sát và kiểm tra lưới truyền tải điện cao thế.

Chương 2 - Phương pháp phát hiện đối tượng dựa trên mơ hình học sâu:
Chương này trình bày Bài tốn phát hiện đối tượng từ hình ảnh, Các hướng tiếp cận

trong phát hiện đối tượng từ hình ảnh, Phương pháp phát hiện đối tượng dựa trên
kiến trúc mạng R-CNN.

Chương 3 - Ứng dụng học sâu trong phát hiện cột điện và các thiết bị trên
đường dây truyền tải điện cao thế từ ảnh UAV: Chương này đề cập đến bài toán
phát hiện cột điện và các thiết bị trên đường dây truyền tải điện cao thế từ ảnh UAV,
các kỹ thuật tiền xử lý ảnh UAV, xây dựng tập dữ liệu cột điện và các thiết bị trên
đường dây truyền tải điện cao thế, đề xuất mơ hình phát hiện thiết bị và đường dây
dựa trên kiến trực mạng R-CNN và đánh giá thực nghiệm.

2

CHƯƠNG 1: TỔNG QUAN VỀ HỌC SÂU VÀ CÁC BÀI TOÁN ỨNG
DỤNG

1.1. Mạng neural nhân tạo.
Mạng neural nhân tạo (Artificial Neural Network - ANN) [5] là một mơ hình lập

trình được lấy cảm hứng từ cấu trúc mạng nơ-ron thần kinh. Khi kết hợp với các kĩ
thuật học sâu (Deep Learning - DL) [6], [7], [8], mạng neural nhân tạo trở thành một
cơng cụ hữu ích và mạnh mẽ trong việc giải quyết những bài tốn phức tạp, ví dụ
như nhận dạng ảnh, giọng nói hay xử lý ngơn ngữ tự nhiên, đem lại hiệu quả tối ưu
cho các ứng dụng thực tiễn.
1.1.1. Perceptrons

Một mạng nơ-ron bao gồm các nơ-ron đơn lẻ, được gọi là perceptron. Vì thế, để
hiểu mạng nơ-ron chúng ta cần phải tìm hiểu về perceptron trước. Perceptron được
lấy cảm hứng từ cấu trúc của nơ-ron sinh học, và nó là một trong những thành phần
cơ bản của nơ-ron nhân tạo. Để hình dung rõ hơn, hình dưới đây minh họa cho một
nơ-ron sinh học cùng với nơ-ron nhân tạo tương ứng.


Hình 1. 1: Mơ hình Nơ-ron sinh học

Như hình trên, ta có thể thấy một nơ-ron có thể nhận nhiều đầu vào và cho ra một

kết quả duy nhất. Mơ hình của perceptron cũng tương tự như vậy:

Một perceptron có chức năng nhận đầu vào là một hoặc nhiều giá trị nhị phân và
trả về một kết quả o đầu ra nhị phân duy nhất. Các giá trị đầu vào sẽ được ảnh hưởng

3

bởi các tham số trọng số tương ứng, còn kết quả đầu ra sẽ được quyết định dựa trên
ngưỡng quyết định b.

Đặt b=−threshold, ta có thể viết lại thành:

Nếu ta coi 4 yếu tố đầu vào là x1, x2, x3, x4 và kết quả đầu ra là o, trong đó o=0
nếu ta không đi nhậu và o=1 nếu ta đi nhậu. Giả sử mức độ quan trọng của 4 yếu tố
lần lượt là w1, w2, w3, w4 và ngưỡng quyết định b, ta có thể nhận thấy rằng việc trời
nắng chỉ ảnh hưởng đến 5% quyết định của ta trong việc đi nhậu, trong khi việc có
hẹn trước đó lại ảnh hưởng đến 50% quyết định đó.

Nếu gắn x0=1 và w0=b, ta cịn có thể viết gọn lại thành:

1.1.2. Sigmoid Neurons
Với đầu vào và đầu ra ở dạng nhị phân, rất khó để điều chỉnh một lượng nhỏ đầu

vào để đầu ra thay đổi một chút. Vì vậy, để đầu vào linh hoạt hơn, chúng ta có thể
mở rộng dải giá trị của chúng ra cả khoảng [0,1]. Khi đó, đầu ra sẽ được quyết định

bởi một hàm sigmoid σ(w⊺x). Như đã đề cập trong những bài trước, hàm sigmoid có
cơng thức:

Đồ thị của hàm này cũng cân xứng rất đẹp thể hiện được mức độ công bằng của
các tham số:

4

Hình 1. 2: Đồ thị hàm Sigmoid Neurons

1.1.3. Kiến trúc mạng MLP
Mạng MLP [5] là sự kết hợp của của các tầng perceptron hay còn được gọi là

perceptron đa tầng (multilayer perceptron):

Hình 1. 3: Mạng MLP

Một mạng MLP thường gồm 3 lớp chính:
+ Lớp đầu vào (input layer): Đây là tầng bên trái cùng của mạng, thể hiện cho
các đầu vào của mạng.
+ Lớp đầu ra (output layer): Đây là tầng bên phải cùng của mạng, thể hiện cho
các đầu ra của mạng.
+ Lớp ẩn (hidden layer): Đây là tầng nằm giữa lớp đầu vào và lớp đầu ra của
mạng, thể hiện cho quá trình suy luận logic của mạng.

5

Mỗi nút mạng trong mạng MLP là một sigmoid nơ-ron. Hàm kích hoạt của từng
nút có thể khác nhau, tuy nhiên thường thì trong thực tế chúng được sử dụng cùng
dạng để tính tốn dễ dàng hơn. Số lượng nơ-ron trong từng tầng có thể khác nhau tùy

thuộc vào bài toán và cách giải quyết, nhưng thơng thường, các tầng ẩn sẽ có số
lượng nơ-ron bằng nhau. Ngoài ra, các nơ-ron trong các tầng thường được kết nối
đôi một với nhau, tạo thành một mạng kết nối đầy đủ (full-connected network).
1.2. Kiến trúc mạng học sâu

CNN là một trong những mơ hình Deep Learning tiên tiến và ảnh hưởng rất nhiều
đến lĩnh vực Computer Vision. Nó cho phép chúng ta xây dựng các hệ thống thơng
minh với độ chính xác và đáp ứng cao. CNN được sử dụng rộng rãi trong các bài
toán nhận dạng và phân loại đối tượng trong ảnh kỹ thuật. Khi máy tính xử lý ảnh
đầu vào, nó sẽ chuyển ảnh thành một mảng pixel với kích thước H x W x D (H: Chiều
cao, W: Chiều rộng, D: Độ sâu). CNN cơ bản là giảm kích thước của ảnh mà khơng
làm mất đi đặc trưng của nó. Sau đó, ảnh sẽ được chuyển thành một vector một chiều
để đưa vào huấn luyện, tương tự như ANN được đề cập ở phần trên.
1.2.1. Tổng quan về kiến trúc của CNN

Kiến trúc của mạng CNN [6], [7], [8], [9] khác với mạng ANN thông thường.
Trong ANN, đầu vào được xử lý thông qua nhiều tầng ẩn. Mỗi tầng bao gồm một tập
các nơ-ron và các tầng được liên kết đầy đủ với các nơ-ron ở tầng trước đó. Tầng
cuối cùng sẽ đại diện cho kết quả dự đốn của mạng. Trong khi đó, kiến trúc của
mạng CNN lại khác với cách thức hoạt động này.

Hình 1. 4: Mơ hình MLP (trái) và kiến trúc mạng học sâu (phải)

Mạng Nơ-ron Tích Chập có kiến trúc khác biệt so với ANN. Đầu tiên, nó được
chia thành 3 chiều: chiều rộng, chiều cao, chiều sâu (width, height, depth). Thứ hai,
các nơ-ron trong mạng khơng liên kết hồn tồn với tất cả các nơ-ron kế tiếp, mà chỉ
kết nối với một vùng nhỏ. Cuối cùng, tầng đầu ra của mạng được tối giản thành một
vector giá trị xác suất.

• Feature: Feature có thể hiểu là đặc trưng của hình ảnh. Mạng CNN so sánh

từng mảnh hình ảnh, hay feature, để tìm ra sự tương đồng giữa chúng thay vì chỉ đơn

6

giản là khớp các bức ảnh lại với nhau. Mỗi feature được xem như là một hình ảnh
mini, tức là chúng là những mảng 2 chiều nhỏ. Những feature này được tìm kiếm
trong bức ảnh để khớp với các khía cạnh chung của nó. Từ đó, CNN có thể tìm ra
các kết quả phân loại chính xác hơn.

• Convolutional: Convolutional được hiểu đơn giản là tích chập. Khi một hình
ảnh mới được đưa vào mạng CNN, nó sẽ khơng biết được vị trí của hình ảnh đó trong
khơng gian, cũng như các feature khớp với nhau ở đâu. Do đó, mạng sẽ thử các khả
năng khớp tại tất cả các vị trí khác nhau trên hình ảnh. Trong q trình đó, các bộ
lọc, hay filter, được tạo ra để giúp mạng thực hiện tích chập. Để thực hiện việc này,
mạng sử dụng các nơ-ron tích chập.

Để tính tốn độ khớp của các feature với từng mảnh của hình ảnh, ta nhân kết
quả mỗi điểm ảnh trong feature với giá trị tương ứng của điểm ảnh trong hình ảnh.
Sau đó, ta cộng tất cả các kết quả này lại với nhau và chia cho số lượng tất cả các
điểm ảnh có trong feature đó. Kết quả của phép tính này được lưu trữ dưới dạng ma
trận. Nếu các điểm ảnh khớp với nhau, kết quả sẽ là 1, ngược lại sẽ là -1. Để hồn tất
q trình tích chập, ta cần lặp lại quá trình này cho tất cả các feature và tất cả các
mảnh của hình ảnh. Quá trình này được thực hiện theo từng lớp để tạo ra các hình
ảnh đã được lọc, mỗi hình ảnh sẽ có một filter tương ứng.

Hình 1. 5: Kiến trúc mạng CNN

• Các layer cơ bản trong CNN
CNN là viết tắt của Convolutional Neural Network, là một loại mạng nơ-ron
sử dụng để xử lý và phân tích hình ảnh. CNN được thiết kế với nhiều lớp khác

nhau, mỗi lớp đóng vai trị chuyển đổi một khối lượng dữ liệu đầu vào thành một
khối lượng dữ liệu đầu ra với các chức năng khác nhau. Các lớp này có thể được
cấu hình với hoặc khơng có các tham số để tối ưu hóa q trình học tập. Quá trình
này được lặp lại hàng trăm lớp để tạo ra các đặc trưng khác nhau và giúp mạng
nơ-ron xử lý hình ảnh một cách hiệu quả.

7

• Convolutional Layer (Lớp tích chập)
Tầng tích chập là một phần quan trọng trong kiến trúc của CNN. Nó được sử
dụng để trích xuất các đặc trưng từ hình ảnh đầu vào. Các phép tính tốn trong
tầng tích chập thực hiện phép tương quan chéo giữa hạt nhân và đầu vào, sau đó
thêm một hệ số điều chỉnh để tạo ra đầu ra. Hai tham số quan trọng của tầng tích
chập là hạt nhân và hệ số điều chỉnh. Khi huấn luyện mơ hình chứa các tầng tích
chập, thường sẽ khởi tạo hạt nhân ngẫu nhiên, tương tự như cách khởi tạo trong
tầng kết nối đầy đủ.
Trong ví dụ sau đây, ta xét ma trận hình ảnh đầu vào 5x5 có giá trị pixel là 0
và 1. Ma trận filter 3x3:

Ta nhận được kết quả lớp tích chập của ma trận hình ảnh 5x5 nhân với ma trận
filter 3x3 gọi là Feature map:

Stride là khoảng cách giữa các vị trí của hạt nhân khi thực hiện phép tính tích
chập trên ma trận đầu vào. Khi chạy các tầng tích chập, kích thước của feature map
sẽ giảm dần, do đó ta cần thêm các giá trị 0 vào các cạnh của hình ảnh ban đầu
(padding) để đảm bảo kích thước đầu ra sau mỗi tầng convolution không bị thay đổi.
Bằng cách kết hợp một hình ảnh với các bộ lọc khác nhau, ta có thể thực hiện nhiều
hoạt động khác nhau như phát hiện cạnh, làm mờ hoặc làm nét bức ảnh.

8


• ReLU Layer (Lớp ReLU)
Lớp ReLU là một hàm kích hoạt phổ biến trong mạng CNN. Nó được sử dụng
để mơ phỏng q trình truyền tín hiệu qua các nơ-ron trong não. Mặc dù có nhiều
hàm kích hoạt khác như Leaky, Sigmoid, Maxout,... nhưng hiện nay, hàm ReLU
được sử dụng rộng rãi nhất vì tính nhanh chóng và hiệu quả của nó trong quá trình
huấn luyện mạng neural.
Việc sử dụng lớp ReLU giúp tăng tốc q trình tính toán của mạng neural, nhưng
bạn cần lưu ý đến việc điều chỉnh các tham số như learning rate và dead unit để tối
ưu hóa hiệu suất của mơ hình. Lớp ReLU thường được áp dụng sau khi tính tốn
filter map và áp dụng hàm ReLU trên các giá trị của filter map.
• Pooling Layer
Lớp Pooling được sử dụng để giảm số lượng tham số khi xử lý các hình ảnh quá
lớn. Thường được đặt giữa các lớp tích chập, lớp này giúp giảm kích thước của dữ
liệu mà vẫn giữ được các thuộc tính quan trọng. Việc giảm kích thước của dữ liệu
cũng giúp giảm lượng tính tốn cần thiết trong mơ hình. Thơng thường, kích thước
Pooling được sử dụng là size=(2,2), stride=2, padding=0 để giảm kích thước của đầu
ra đi một nửa, trong khi độ sâu của dữ liệu được giữ nguyên.

Hình 1. 6: Pooling layer

Max pooling và average pooling (Hình 1. 7) là hai kỹ thuật thường được sử dụng
trong mạng CNN để giảm kích thước của đầu vào.

• Max pooling: Phương pháp Max Pooling được sử dụng để lấy giá trị lớn nhất
trong mỗi vùng của đầu vào và sử dụng nó làm giá trị đại diện cho vùng đó. Ví dụ,
nếu chia đầu vào thành các vùng 2x2 và thực hiện Max Pooling, thì giá trị lớn nhất
trong mỗi vùng 2x2 sẽ được lấy ra và sử dụng làm giá trị đại diện cho vùng đó.

9


Hình 1. 7: Max pooling và Average pooling

•Average pooling: Phương pháp Average Pooling tính trung bình cộng của các
giá trị trong mỗi vùng của đầu vào và sử dụng nó làm giá trị đại diện cho vùng đó.
Ví dụ, nếu chia đầu vào thành các vùng 2x2 và thực hiện Average Pooling, thì trung
bình cộng của các giá trị trong mỗi vùng 2x2 sẽ được tính tốn và sử dụng làm giá
trị đại diện cho vùng đó.

Cả hai kỹ thuật này đều giúp giảm kích thước của đầu vào và giảm số lượng tham
số trong mơ hình. Tuy nhiên, phương pháp Max Pooling thường được ưu tiên sử
dụng hơn trong các mạng CNN do nó giúp tăng tính nhận diện đặc trưng của mạng..

• Fully Connected Layer
Fully Connected Layer là một lớp kết nối đầy đủ trong kiến trúc mạng CNN. Lớp
này thường được sử dụng ở cuối mạng có tác dụng kết nối các đặc trưng đã được
trích xuất từ các lớp trước đó và dùng để phân loại.

Trong bài toán ứng dụng thực tế, sau khi ảnh được truyền qua nhiều
Convolutional Layer và Pooling Layer của Mạng CNN, mơ hình đã học được các
đặc điểm của ảnh. Khi đó, Tensor của Output Layer cuối cùng được chuyển về thành
một vector kích thước (H*W*D) và sau đó được sử dụng bởi các Fully Connected
Layer để kết hợp các đặc điểm của ảnh và tạo ra Output cho mơ hình. Nếu lớp này
có dữ liệu hình ảnh, nó sẽ chuyển chúng thành các batch chưa được phân loại để tìm
ra ảnh có chất lượng cao nhất.

10



×