Tải bản đầy đủ (.docx) (81 trang)

LUẬN văn THẠC sĩ NGHIÊN cứu ỨNG DỤNG học sâu CONVOLUTIONAL NEURAL NETWORK (CNN) TRONG NHẬN BIẾT THỜI kỳ TRÁI dứa CHÍN tại VÙNG TRỒNG dứa KHU vực MIỀN núi QUẢNG NAM – đà NẴNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.86 MB, 81 trang )

1
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DUY TÂN

NGUYỄN LÀO

NGHIÊN CỨU ỨNG DỤNG HỌC SÂU CONVOLUTIONAL
NEURAL NETWORK (CNN) TRONG NHẬN BIẾT THỜI KỲ
TRÁI DỨA CHÍN TẠI VÙNG TRỒNG DỨA KHU VỰC MIỀN
NÚI QUẢNG NAM – ĐÀ NẴNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

ĐÀ NẴNG – 2021
1


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DUY TÂN

NGUYỄN LÀO

NGHIÊN CỨU ỨNG DỤNG HỌC SÂU CONVOLUTIONAL
NEURAL NETWORK (CNN) TRONG NHẬN BIẾT THỜI
KỲ TRÁI DỨA CHÍN TẠI VÙNG TRỒNG DỨA KHU VỰC
MIỀN NÚI QUẢNG NAM – ĐÀ NẴNG

Chuyên ngành: Khoa học máy tính
Mã số: 8480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH



Người hướng dẫn khoa học: TS. Nguyễn Hà Huy Cường

ĐÀ NẴNG – 2020
2


3

LỜI CAM ĐOAN
Tên tôi là: Nguyễn Lào
Sinh ngày: 10/ 10/ 1978
Học viên lớp cao học MCS – K20, ngành Khoa học máy tính, – Trường Đại
học Duy Tân
Tơi xin cam đoan: Đề tài “ Nghiên cứu ứng dụng học sâu convolutional neural
network (CNN) trong nhận biết thời kỳ trái dứa chín tại vùng trồng dứa khu vực
miền núi Quảng Nam – Đà Nẵng” là do tơi nghiên cứu, tìm hiểu và phát triển dưới
sự hướng dẫn của TS. Nguyễn Hà Huy Cường, không phải sao chép từ các tài liệu,
công trình nghiên cứu của người khác mà khơng ghi rõ trong tài liệu tham khảo.
Tôi xin chịu trách nhiệm về lời cam đoan này.
Học viên thực hiện

Nguyễn Lào

3


4

LỜI CẢM ƠN

Để hoàn thành luận văn này, đầu tiên em gửi lời cảm ơn chân thành đến toàn
thể Quý Thầy, Cô giảng viên Trường Đại học Duy Tân đã tận tình giảng dạy, truyền
đạt những kiến thức quý báu và tạo điều kiện thuận lợi cho em trong suốt q trình
học tập, nghiên cứu.
Em bày tỏ lịng biết ơn đến TS. Nguyễn Hà Huy Cường đã tận tâm giảng dạy,
hướng dẫn và đưa ra những góp ý, điều chỉnh vô cùng xác thực cho luận văn, đồng
thời Quý thầy cũng cho em những lời động viên sâu sắc giúp em có những định
hướng đúng đắn để hồn thành luận văn.
Cuối cùng em gửi lời cảm ơn đến gia đình, các bạn cùng khóa, đồng nghiệp
cùng cơ quan đã nhiệt tình hỗ trợ những thơng tin, chia sẻ những kiến thức hay giúp
em trong quá trình thực hiện.
Trân trọng!

4


5

MỤC LỤC

DANH MỤC CHỮ VIẾT TẮT
Chữ viết tắt
SVM
CGA
Pixel
R
G
B
RBF
AI

ANN
CNN
ReLU
CDSL
GPU
CPU
CUDA

5

Ý nghĩa
Support Vector Machine
Color Graphic Adaptor
Picture Element
Red
Green
Blue
Radial Basis Function
Artificial Intelligence – Trí tuệ nhân tạo
Artificial Neural Network – Mạng thần kinh nhân tạo
Convolutional Neural Network – Mạng thần kinh tích chập
Rectified Linear Unit – Điều chỉnh đơn vị tuyến tính
Cơ sở dữ liệu
Graphics Processing Unit – Vi xử lý đồ hoạ
Central Processing Unit – Bộ xử lý trung tâm
Compute Unified Device Architecture – Kiến trúc tính tốn song
song do hãng NVDIA phát triển


6


IoT
API
YOLO
HOG
PCA

6

Internet of Thing – Vạn vật kết nối
Application Programming Interface – Giao diện lập trình
You only lock one – Một hệ thống mạng nơ ron nhân tạp phát hiện
đối tượng thời gian thực
Histogram of Oriented Gradients – Biểu đồ độ dốc định hướng
Principal Component Analysis – Phân tích thành phần chính


7

DANH MỤC BẢNG BIỂU

7


8

DANH MỤC HÌNH, ĐỒ THỊ

8



9

MỞ ĐẦU
1. Lý do chọn đề tài
Với sự phát triển nhanh chóng của các loại máy móc hiện đại như máy ảnh số,
máy quay phim kỹ thuật số, máy vi tính,… thì lượng thơng tin con người thu được
dưới dạng hình ảnh là rất dễ dàng. Xử lý ảnh là một trong những lĩnh vực ngày càng
được phổ biến trong đời sống xã hội. Các thiết bị ghi hình có thể thấy và hiểu được
thế giới xung quanh được xây dựng và phát triển ngày càng nhiều bởi sự tiến bộ
trong các thuật tốn phân tích, chọn lọc hình ảnh.
Nếu có tiếp cận phù hợp, ta ln nhận thấy nhu cầu áp dụng những thành tựu
của Khoa học, công nghệ vào giải quyết các vấn đề của cuộc sống. Nhận dạng các
đối tượng dựa trên ảnh không phải là vấn đề mới của ngành xử lý ảnh. Tuy nhiên,
áp dụng vào bài tốn nhận dạng phát hiện trái chín trong lĩnh vực nông nghiệp là
một đề xuất mới của tác giả.
Hiện nay, trên thế giới có các mơ hình đã nghiên cứu về nhận dạng hình ảnh
như: YOLO, CNN, R-CNN, Fast R-CNN, Faster R-CNN và mơ hình Mask R-CNN
[1,2,3,4,5]. Tuy nhiên, trong các mơ hình này chưa có nhiều nghiên cứu trực tiếp
liên quan đến nhận dạng thời kỳ trái chín, chủ yếu các nghiên cứu tập trung vào
nhận dạng văn bản, nhận dạng khuôn mặt, vân tay và một số nghiên cứu nhận dạng
con vật nuôi.
Trong nông nghiệp thông minh và nơng nghiệp chính xác, vấn đề ước tính kịp
thời và chính xác thời kỳ trái chín của vườn cây sẽ giúp cải thiện và nâng cao chất
lượng, đảm bảo sản lượng trái cây và kế hoạch thu hoạch. Ngồi ra, xác định kịp
thời và chính xác thời kỳ trái chín trong các giai đoạn trưởng thành cây quả sẽ cho
phép giảm chi phí canh tác, chi phí lưu trữ sau thu hoạch và làm tăng giá trị kinh tế,
đáp ứng yêu cầu thị trường. Đây là những vấn đề rất được quan tâm trong định
hướng phát triển nông nghiệp tận dụng lợi thế của công nghệ cao trong thời gian tới
ở Việt Nam.

Cho đến năm 2020, diện tích trồng cây ăn quả chủ lực của Việt Nam là
9


10

257.000 ha, chiếm 52% tổng diện tích quy hoạch cây ăn quả ở Nam bộ, trong đó
vùng Đồng bằng sơng Cửu Long (ĐBSCL) 185.100 ha, vùng Đông Nam bộ 71.900
ha. Trong khu vực này, hiện nay chú trọng trồng 12 loại cây ăn quả chủ lực gồm:
Thanh long, xồi, chơm chôm, sầu riêng, vú sữa, bưởi, nhãn, chuối, dứa, cam, mãng
cầu và quýt. Trong bảng dữ liệu 1 và 2 đưa ra thống kê diện tích trồng cây ăn quả và
sản lượng thu hoạch cây ăn từ năm 2015 đến năm 2018. Có thể nhận thấy diện tích
trồng và sản lượng thu hoạch tăng lên đáng kể, mang hiệu quả kinh tế xã hội. Đặc
biệt, khi ngày càng có nhiều nơng dân và trang trại nơng nghiệp có diện tích trồng
lớn tham gia chuỗi sản xuất và xuất khẩu.
Ở Việt Nam cây dứa được trồng khá phổ biến, phân bố từ Phú Thọ đến Kiên
Giang. Tiền Giang là tỉnh có sản lượng dứa đứng đầu cả nước.
Năm 2019, sản lượng dứa của tỉnh Tiền Giang đạt 211.300 tấn. Tiếp theo là
Kiên Giang (185.000 tấn), Ninh Bình (150.400 tấn), Nghệ An (130.600 tấn), Long
An (127.000 tấn), Hà Nam (123.400 tấn), Thanh Hoá (120.500 tấn), Quảng Nam
(112.000 tấn); Đà Nẵng (30.000 tấn). Tổng sản lượng cả nước năm 2019 đạt
12.229.100 tấn. Nhiều địa phương đã xây dựng thương hiệu đặc sản trái dứa như
dứa Đồng Giao (Tam Điệp - Ninh Bình), hoặc ở Kiên Giang, Tiền Giang đều có
những nhà máy chuyên sản xuất, chế biến các thực phẩm từ trái dứa.
Bảng 1. Bảng số liệu thống kê diện tích đất trồng cây ăn trái
(Đơn vị tính: 1.000 m2)

Chuối

Xồi


Nhã

133
138,6
140,2
140

83,7
86,7
92,7
95

73,3
73,3
75,6
71

10


11

Bảng 2. Bảng số liệu thống sản lượng cây ăn trái
(Đơn vị tính: 1.000 tấn)
STT
theo
năm

Cam,

qt

Dứa

Chuối

Xồi

Nhãn

Vải, Chơm
chơm

Bưởi,
Bịng

1.943,
702,9
513
715,1
471,4
4
1.958,
2016
799,5 560,4
728
504,1
648,9
500,3
5

2.066,
2017
948,1 567,1
788,2
492,5
563,9
533,3
2
2018
976
610
2.100
795
520
650
525
Hiện nay, Dứa đã trở thành một trong những loại cây ăn trái phổ biến nhất trên
2015

566,1

578,2

thế giới. Được xác định là cây trồng chủ lực của các xã vùng núi huyện Đại Lộc
(Quảng Nam) huyện Hòa Vang thành phố Đà Nẵng, từ năm 2009, cây dứa (thơm)
đã trở thành nguồn thu nhập chính của hầu hết các hộ gia đình nơi đây.
Tuy nhiên, trong bối cảnh hội nhập, cạnh tranh về giá cả và chất lượng xuất
khẩu sang thị trường Châu Âu, Mỹ, Nhật Bản và cả Trung Quốc, cần phải đưa các
công nghệ hỗ trợ cho việc nâng cao chất lượng nhờ xác định đúng, trúng và sát với
thực tế thời kỳ trái chín, nhờ vậy giảm chi phí bảo quản trái cây sau thu hoạch, góp

phần luân canh tăng vụ. Ngồi ra, nhận biết trái chín cũng giúp giảm chi phí sản
xuất, nhờ xác định lượng nước, lượng phân bón cho giai đoạn cuối mùa phù hợp.
Đây là một bài tốn rất quan trọng và cần thiết cho ngành nơng nghiệp ở Việt Nam.
Qua khảo sát thực tế tại các trang trại nông nghiệp, công việc nhận biết thời kỳ
trái Dứa chín và trái Dứa chưa chín cần tiếp tục được chăm sóc, hồn tồn làm bằng
thủ cơng, theo kinh nghiệm dân gian truyền thống. Do vậy, tốn công sức và nếu
khơng nhận biết trái chín kịp thời, tỷ lệ tổn thất sản lượng thu hoạch sẽ rất lớn.
Xuất phát từ nhưng đặc điểm trên đề tài “Nghiên cứu ứng dụng mơ hình học
sâu trong nhận biết thời kỳ trái Dứa chín cho các vùng trồng dứa khu vực
miền núi Quảng Nam – Đà Nẵng” sẽ góp một phần giải quyết bài tốn này. Việc
nhận biết thời kỳ trái chín dựa vào xử lý và nhận dạng hình ảnh camera quan sát
vùng canh tác cây ăn quả. Từ hình ảnh sẽ trích ra các phần ảnh quả. Phần mềm học

11


12

sâu sẽ nhận dạng phân loại mức độ chín của quả hiện đang xét. Để đạt độ chính xác
nhận dạng, phần mềm cần phải được huấn luyện với một tập mẫu ảnh quả đủ lớn,
đa dạng về kích thước, màu sắc, góc nhìn với các điều kiện thực tế thu thập ảnh (độ
sáng, độ chói,…) khác nhau.
2. Mục tiêu nghiên cứu (mục tiêu chung, mục tiêu cụ thể)
2.1. Mục tiêu chung:
- Luận văn của tôi hướng tới việc nghiên cứu một mơ hình có chức năng nhận
dạng, chọn lọc đối tượng thơng qua hình ảnh thu được và từ đó khuyến nghị nhận
dạng các đối tượng, từ vùng trồng dứa, hay các đại lý thu mua nông sản, hay áp
dụng tại các siêu thị bán trái cây nông sản.
2.2. Mục tiêu cụ thể:
- Nghiên cứu xác định mơ hình học sâu phù hợp nhận dạng hình ảnh giải

quyết bài tốn nhận biết thời kỳ trái dứa chín.
-

Tìm hiểu các cơng đoạn xử lý nhận dạng hình ảnh camera.
Nghiên cứu các mơ hình học sâu (YOLO,CNN, R-CNN, Fast R-CNN, Faster R-

-

CNN, Mask-R-CNN)
Phân tích lựa chọn mơ hình học sâu phù hợp nhận dạng hình ảnh giải quyết bài tốn
nhận biết thời kỳ trái Dứa chín.
Nghiên cứu các giống dứa phổ biến khu vực Quảng Nam - Đà Nẵng và đặc
điểm sinh hóa của trái dứa thời kỳ chín

-

Tình hình các loại dứa được trồng trên thế giới và Việt Nam; tình hình trái dứa được

-

trồng tại các vùng canh tác thuộc tỉnh Quảng Nam – thành phố Đà Nẵng;
Nghiên cứu đặc điểm sinh học của cây dứa; trái dứa: đặc điểm phân loại; đặc điểm
về hình trái; giải phẫu; đặc điểm về sinh lý; sinh hóa của trái dứa; đặc điểm sinh

-

trưởng và phát triển; đặc điểm các thành phần dinh dưỡng;
Quá trình biến đổi của trái dứa: Thời điểm ra hoa và kết quả; Quá trình biến đổi từ
trái xanh tới trái chín; Nghiên cứu đặc điểm mùi vị và màu sắc của trái dứa khi biến


-

đổi; chất lượng của trái khi biến đổi.
Việc áp dụng các giải pháp kỹ thuật, độ chính xác của mơ hình nhận dạng phụ thuộc
vào đề xuất giải pháp phù hợp với đặc điểm của đề tài. Do đó, tơi đã áp dụng các kỹ
thuật mạng nơ ron tích chập (CNN), cài đặt, thực nghiệm và so sánh đánh giá.
12


13

Trong đó, các mơ hình có độ phức tạp tăng dần theo thứ tự như sau:
Mơ hình 1: Áp dụng bộ lọc Gauss 3 chiều để giữ lại điểm ảnh có màu lân cận
với màu của thời kỳ trái chín để nhận dạng. Thực hiện phép đếm các đối tượng cịn
lại trên ảnh.
Mơ hình 2: Lọc tách các điểm ảnh có màu đặc trưng của trái dứa dựa trên
mạng nơ-ron (Neural networks) truyền thẳng. Thực hiện phép đếm các đối tượng
cịn lại trên ảnh.
Mơ hình 3: Áp dụng phương pháp phân loại đối tượng bằng Support Vector
Machine (SVM) để lọc màu. Thực hiện phép đếm các đối tượng còn lại trên ảnh.
3. Tổng quan nghiên cứu của đề tài
Để đạt được mục tiêu trên, đề tài cần thực hiện các nội dung sau:
- Tìm hiểu các kỹ thuật xử lý ảnh, áp dụng các phương pháp vào đề tài như:
Một số tiêu chuẩn lưu trữ ảnh số, phân tách đối tượng bằng các phương pháp lọc
màu (Gauss 3 chiều, huấn luyện mạng nơ-ron truyền thẳng, phân loại đối tượng
bằng SVM).
- Tìm hiểu và phân tích các bài báo, cơng trình nghiên cứu liên quan gần hoặc
tương đương.
- Đề xuất các kỹ thuật, phương pháp đếm số lượng thẻ biểu quyết trong cuộc
họp dựa qua hình ảnh.

- Thực hiện và so sánh kết quả đạt được với các nghiên cứu khác.
4. Đối tượng và phạm vi nghiên cứu
4.1. Đối tượng nghiên cứu:
Đối tượng nghiên cứu của đề tài là các công trình nghiên cứu, các bài báo, tài
liệu liên quan đến mơ hình học sâu đã có hiện nay như: CNN, R-CNN, Fast RCNN, Faster R-CNN, Mask – R -CNN, có thể nói trên thế giới hiện nay cũng có
khá nhiều mơ hình học sâu trong nhận dạng và xử lý ảnh, vì thế nhóm nghiên phải
có một hướng tiếp cận tồn diện, mang tính tổng hợp và có hệ thống các nghiên cứu
đã có. Nhóm nghiên cứu cần có sự phân tích cụ thể về điểm mạnh cũng như điểm
yếu từ các giải pháp hiện tại để đề xuất giải pháp mới phù hợp với mục tiêu của đề

13


14

tài.
- Nghiên cứu các bước trong quy trình nhận dạng của các mơ hình học sâu.
- Phân tích đánh giá ưu nhược điểm của từng mơ hình.
- Sử dụng ngơn ngữ lập trình, xây dựng phần mềm dự báo (mơ phỏng) để đánh
giá các mơ hình đã đề xuất
4.2. Phạm vi nghiên cứu
- Phạm vi không gian: Đề tài thực hiện trong phạm vi khu vực Quảng Nam –
Đà Nẵng
5. Phương pháp nghiên cứu
Để thực hiện đề tài này, tác giả sử dụng các phương pháp nghiên cứu sau:
- Phương pháp phân tích và tổng hợp lý thuyết: Tìm kiếm, tổng hợp và nghiên
cứu các tài liệu về xử lý ảnh; các thuật tốn chọn lọc hình ảnh, kiến thức liên quan
kỹ thuật lập trình.
- Phương pháp thực nghiệm: Sau khi nghiên cứu phương pháp lý thuyết, xác
định vấn đề bài tốn, đề xuất mơ hình; tiến hành xây dựng và đề xuất các mơ hình;

cài đặt thử nghiệm chương trình với ngơn ngữ lập trình Python.
- Phương pháp so sánh và đánh giá: để phân tích đánh giá các mơ hình đề
xuất.
6. Đóng góp của đề tài
Đối với mục tiêu nghiên cứu của luận văn, tác giả đã đề xuất thực hiện những
giải pháp như sau:
- Phân tách bài toán nhận dạng trái dứa thành bài toán lọc màu và bài toán
nhận dạng đối tượng.
- Đề xuất áp dụng các phương pháp như: Lọc Gauss, mạng nơ-ron tích chập
CNN, SVM cho bài tốn lọc màu. Tiến hành lập trình, thực nghiệm để đánh giá, lựa
chọn giải pháp phù hợp.
- Lập trình, áp dụng phương pháp đếm đối tượng trên ảnh.

14


15

7. Cấu trúc của đề tài
Ngoài phần mở đầu, kết luận, tài liệu tham khảo, luận văn có kết cấu gồm 03
chương như sau:
Chương 1: Tổng quan nhận dạng dựa trên mạng Nơ Ron tích chập
Bài tốn đặt ra cho việc nhận dạng dứa chín tại vùng trồng dứa.
Chương 2: Nhận dạng trái dứa chín dựa vào mạng Nơ Ron tích chập
Dựa vào đặc trưng của thẻ, tác giả đề xuất phương pháp lọc màu và phương
pháp đếm thẻ.
Chương 3: Kết quả thực nghiệm
- Mô tả thực nghiệm.
- Tiến hành thực nghiệm.
- Đánh giá kết quả.


15


16

CHƯƠNG 1
TỔNG QUAN VỀ NHẬN DẠNG DỰA
TRÊN MẠNG NƠ RON TÍCH CHẬP (CNN)
1.1.

KHÁI NIỆM CƠ BẢN TRONG XỬ LÝ ẢNH

1.1.1. Điểm ảnh
Điểm ảnh (Pixel) là một phần tử của ảnh số tại toạ độ (x, y) với độ xám hoặc
màu nhất định. Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích
hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu)
của ảnh số gần như ảnh thật. Mỗi phần tử trong ma trận được gọi là một phần tử
ảnh.
Ảnh trong thực tế là ảnh liên tục về không gian và độ sáng. Để xử lý bằng máy
tính, ảnh cần phải được số hố. Trong q trình số hóa, người ta biến đổi gần đúng
một ảnh liên tục thành một tập điểm phù hợp với ảnh thật về vị trí (không gian) và
độ sáng (mức xám). Khoảng cách giữa các điểm ảnh đó được thiết lập sao cho mắt
người khơng phân biệt được ranh giới giữa chúng. Mỗi một điểm như vậy gọi là
điểm ảnh (PEL: Picture Element) hay gọi tắt là Pixel.
1.1.2. Độ phân giải của ảnh (Resolution)
Là mật độ điểm ảnh được ấn định trên một ảnh số được hiển thị. Theo định
nghĩa, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt người vẫn thấy
được sự liên tục của ảnh. Việc lựa chọn khoảng cách thích hợp tạo nên một mật độ
phân bổ, đó chính là độ phân giải và được phân bố theo trục x và y trong khơng gian

hai chiều.
Ví dụ: Độ phân giải của ảnh trên màn hình CGA là một lưới điểm theo chiều
ngang màn hình: 320 điểm chiều dọc * 200 điểm ảnh (320*200). Rõ ràng, cùng màn
hình CGA 12” ta nhận thấy mịn hơn màn hình CGA 17” độ phân giải 320*200. Lý
do: cùng một mật độ (độ phân giải) nhưng diện tích màn hình rộng hơn thì độ mịn
(liên tục của các điểm) kém hơn.

16


17

A. Độ phân giải cao

B. Độ phân giải thấp

Hình 1.1: So sánh ảnh với độ phân giải khác nhau
1.1.3. Mức xám của ảnh
Mức xám là kết quả sự mã hóa tương ứng một cường độ sáng của mỗi điểm
ảnh với một giá trị số - kết quả của quá trình lượng hóa được gán bằng giá trị số tại
điểm đó. Dưới đây chúng ta xem xét một số khái niệm và thuật ngữ thường dùng
trong xử lý ảnh.
a) Định nghĩa: Mức xám của điểm ảnh là cường độ sáng của nó được gán bằng
giá trị số tại điểm đó.
b) Các thang giá trị mức xám thông thường: 16, 32, 64, 128, 256 (Mức 256 là
mức phổ dụng. Lý do: từ kỹ thuật máy tính dùng 1 byte (8 bit) để biểu diễn mức
xám: Mức xám dùng 1 byte biểu diễn: 28 = 256 mức, tức là từ 0 đến 255).
1.1.4. Các kiểu ảnh
1.1.4.1.


Ảnh đen trắng
Ảnh đen trắng chỉ bao gồm 2 màu: màu đen và màu trắng. Người ta phân mức
đen trắng đó thành L mức Nếu sử dụng số bit B=8 bít để mã hóa mức đen trắng (hay
mức xám) thì L được xác định:
L=2B (trong ví dụ của ta L=28 = 256 mức)
Nếu L bằng 2, B=1, nghĩa là chỉ có 2 mức: mức 0 và mức 1, còn gọi là ảnh nhị
phân. Mức 1 ứng với màu sáng, còn mức 0 ứng với màu tối. Nếu L lớn hơn 2 ta có
ảnh đa cấp xám. Nói cách khác, với ảnh nhị phân mỗi điểm ảnh được mã hóa trên 1
17


18

bit, còn với ảnh 256 mức, mỗi điểm ảnh được mã hóa trên 8 bit. Như vậy, với ảnh
đen trắng: nếu dùng 8 bit (1 byte) để biểu diễn mức xám, số các mức xám có thể
biểu diễn được là 256. Mỗi mức xám được biểu diễn dưới dạng là một số nguyên
nằm trong khoảng từ 0 đến 255, với mức 0 biểu diễn cho mức cường độ đen nhất và
255 biểu diễn cho mức cường độ sáng nhất.
1.1.4.2.

Ảnh nhị phân
Ảnh chỉ có 2 mức đen trắng phân biệt tức dùng 1 bit mơ tả 21 mức khác nhau.
Nói cách khác: mỗi điểm ảnh của ảnh nhị phân chỉ có thể là 0 hoặc 1. Ảnh nhị phân
khá đơn giản, các phần tử ảnh có thể coi như các phần tử logic. Ứng dụng chính của
nó được dùng theo tính logic để phân biệt đối tượng ảnh với nền hay để phân biệt
điểm biên với điểm khác.

1.1.4.3.

Ảnh màu

Lý thuyết ba màu cho phép dùng màu R = Red (đỏ), G = Green (xanh lá), B =
Blue (xanh dương) để tạo nên thế giới màu. Do đó, người ta thường dùng 3 byte để
mơ tả mức màu, khi đó các giá trị màu: 2(8*3) = 224 ≈ 16,7 triệu màu.
Đối với một số thiết bị hiển thị màu sắc như màn hình tivi, màn hình máy tính,
camera kỹ thuật số,… thường sử dụng hệ màu RGB để hiển thị màu sắc. Nguyên lý
làm việc của hệ màu RGB là phát xạ ánh sáng, hay cịn gọi là mơ hình ánh sáng bổ
sung. Các màu được sinh ra từ 3 màu RGB sẽ sáng hơn các màu gốc.

Hình 1.2: Hệ màu cơ bản RGB
18


19

• Khơng gian màu RGB:
Là tập các màu thành phần sắp xếp theo hình lập phương của hệ trục toạ độ X,
Y, Z. Giá trị của mỗi thành phần màu biến thiên từ 0 - 255. Đường chéo chính của
hình lập phương với sự cân bằng về số lượng từng màu gốc tương ứng với mức độ
xám đen là (0, 0, 0) – (255, 255, 255).

Hình 1.3: Khơng gian màu RGB
• Hệ tọa độ cho khơng gian màu hình trụ:
Giá trị màu thuần khiết (Hue) chạy từ 0 đến 360°.
Độ bão hòa màu (Saturation) là mức độ của thuần khiết của màu, có thể hiểu
là có bao nhiêu màu trắng được thêm vào màu thuần khiết này. Giá trị của S nằm
trong đoạn [0, 1], trong đó S = 1 là màu tinh khiết nhất, hồn tồn khơng pha trắng.
Nói cách khác, S càng lớn thì màu càng tinh khiết, nguyên chất.
Độ sáng của màu (Value), có khi được gọi là Intensity, Lightness, cũng có giá
trị dao động trong đoạn [0, 1], trong đó V = 0 là hồn tồn tối (đen), V = 1 là hồn
tồn sáng. Nói cách khác, V càng lớn thì màu càng sáng.


19


20

Hình 1.4: Ảnh màu
1.1.5. Biểu diễn ảnh
Ảnh trên máy tính là kết quả thu nhận theo các phương pháp số hoá được
nhúng trong các thiết bị kỹ thuật khác nhau. Q trình lưu trữ ảnh nhằm hai mục
đích:
- Tiết kiệm bộ nhớ.
- Giảm thời gian xử lý
Việc lưu trữ thông tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in
ấn và xử lý ảnh được xem như là một tập hợp các điểm với cùng kích thước nếu sử
dụng càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn
chi tiết của ảnh người ta gọi đặc điểm này là độ phân giải.
1.1.6. Khử nhiễu
Có hai loại nhiễu cơ bản trong quá trình thu nhận ảnh:
- Nhiều hệ thống: là nhiễu có quy luật có thể khử bằng các phép biến đổi
- Nhiễu ngẫu nhiên: vết bẩn không rõ nguyên nhân, cách khắc phục bằng các
phép lọc.
1.1.7. Nhận dạng ảnh
Nhận dạng ảnh là q trình liên quan đến mơ tả đối tượng mà người ta muốn
20


21

đặc tả nó. Thường đi sau q trình trích chọn các đặc tính của đối tượng

Có hai kiểu mơ tả đối tượng:
- Mô tả theo tham số (nhận dạng theo tham số)
- Mô tả theo cấu trúc (nhận dạng theo cấu trúc)
Ứng dụng dung để nhận dạng đối tượng, mặt, vân tay, văn bản
Nhận dạng chữ in hoặc đánh máy phục vụ cho việc tự động hoá việc đọc tài
liệu, tăng nhanh tốc độ và chất lượng thu nhật thông tin từ máy tính.
Nhận dạng chữ viết tay (với một số ràng buộc)
Ngoài ra, mạng nơron là một kỹ thuật mới đang được áp dụng vào nhận dạng
và cho kết quả khả quan.
1.2.

NHẬN DẠNG TRÁI CHÍN TRONG VÙNG TRỒNG DỨA DỰA
TRÊN MẠNG NƠ RON TÍCH CHẬP
Các mơ hình học sâu (Deep Learning) tiêu biểu như mơ hình mạng Neural tích
chập (Convolutional Neural Networks – CNNs) được ứng dụng thành công trong
các bài toán phân lớp ảnh, văn bản, nhận dạng tiếng nói.
Ưu điểm của các mơ hình học sâu là tự động học các đặc trưng của dữ liệu để
thiết lập các đặc trưng mới và phân lớp dữ liệu. Vấn đề phân lớp khi gặp số chiều
lớn thường gặp rất nhiều khó khăn. Mơ hình phân lớp cho kết quả tốt trên tập huấn
luyện nhưng có kết quả thấp trên tập kiểm tra. Vấn đề khó khăn thường gặp chính là
dữ liệu có số chiều q lớn lên đến hàng nghìn chiều và dữ liệu tách rời nhau trong
khơng gian có số chiều lớn nên việc tìm mơ hình phân lớp tốt là khó khăn do có quá
nhiều khả năng lựa chọn mơ hình. Hiện nay, đã có nhiều giải thuật học tự động
được nghiên cứu để giải quyết bài tốn phân lớp dữ liệu khi có số chiều lớn như:
kNN (Fix & Hodges Jr, 1952), cây quyết định CART (Breiman et al, 1984), máy
học vector hỗ trợ SVM (Vapnik, 1995).
Những năm qua, mơ hình học sâu đặc biệt là mạng Neural tích chập CNNs là
mơ hình được sử dụng phổ biến, cho kết quả cao trong các bài tốn phân loại hình
ảnh (Krizhevky et al.,2012), phân loại văn bản (Kim, 2014) và gần đây đã công bố
nhiều nghiên cứu sử dụng mạng Neural tích chập trong lĩnh vực tin sinh học (Min et


21


22

al., 2016), nghiên cứu của Li et al., 2014 phân tích ảnh y khoa. Có thể thấy rằng
CNNs cho phép khả năng trích chọn đặc trưng của lớp tích chập và bộ phân lớp
được các huấn luyện đồng thời. Đến thời điểm này, có thể nói rằng chưa có nhiều
hướng nghiên cứu sử dụng CNNs trong phân lớp và nhận dạng trái chín tại Việt
Nam.
Trong những năm gần đây, chúng ta chứng kiến được nhiều thành tựu vượt
bậc trong ngành Thị giác máy tính (Computer Vision). Các hệ thống xử lý ảnh lớn
như Facebook, Google hay Amazon đã đưa vào sản phẩm của mình có những chức
năng thơng minh như nhận diện khuôn mặt người dùng, phát triển xe hơi tự lái hay
giao hàng tự động.
Ở Việt Nam thời gian gần đây đang chú trọng đến lĩnh vực hẹp của cơng nghệ
Trí tuệ nhân tạo (AI), Machine Learning là phương pháp phân tích dữ liệu từ đó tự
động hóa việc xây dựng mơ hình phân tích. Có thể nói đây là công nghệ rất hứa hẹn
mang lại những hỗ trợ tối ưu cho các doanh nghiệp với nhiều ứng dụng trong thế
giới thực, ví dụ như: nhận dạng giọng nói và nhận diện hình ảnh.
Với nhận diện hình ảnh, có rất nhiều tình huống hệ thống phân loại hình ảnh
các đối tượng như một ảnh kỹ thuật số. Đối với hình ảnh số, các phép đo mơ tả các
kết quả đầu ra của mỗi pixel trong hình ảnh. Với ảnh đen trắng, mật độ của mỗi
pixel được tính như 1 đơn vị đo. Vì thế, nếu một hình ảnh đen trắng có N * N
pixels, tổng số pixel và các phép đo là N2. Với ảnh màu, mỗi pixel được tính như
cung cấp 3 phép đo với mật độ của 3 thành phần màu chính là RGB. Vì vậy ảnh
màu N * N có 3 phép đo N2.
Trước đây, để dự đốn các chấn thương hay để có được thơng tin bên trong cơ
thể của người bệnh, bác sỹ chỉ có thể dựa vào các thơng số xét nghiệm hay các triệu

chứng ở người bệnh hoặc phát hiện ra trong quá trình phẫu thuật. Kỹ thuật dựng ảnh
y khoa phát triển đã cho bác sỹ một công cụ hữu dụng để “nhìn thấy” được những
thơng tin bên trong cơ thể của người bệnh, các vết nứt xương có thể được nhìn thấy
thơng qua một bức ảnh chụp X-quang hay các khối u, các vết thương, tế bào ung
thư trên nội tạng của người bệnh có thể được nhìn thấy thơng qua ảnh chụp CT.

22


23

Trước khi phẫu thuật, ảnh chụp CT còn hỗ trợ như một bản đồ giúp bác sỹ có thể
nhìn thấy vị trí các khối máu vón cục trong mạch máu, những vùng tổn thương
trong não. Với lợi thế to lớn này, việc thu ảnh để chẩn đoán bệnh đã trở thành một
bước gần như không thể thiếu ở hầu hết các bệnh viện. Tuy nhiên, điều này cũng tạo
nên một lượng dữ liệu y học to lớn mà con người khó có thể tự mình thống kê và sử
dụng trong thời gian ngắn.
1.3.

SƠ LƯỢC VỀ ÁP DỤNG MẠNG NƠ RON TÍCH CHẬP VÀO
CÁC GIẢI PHÁP THƠNG MINH TRONG THỰC TẾ
Hiện nay, xã hội đang tiến dần đến kỷ nguyên cách mạng công nghiệp 4.0. Với
cách mạng công nghiệp 4.0, các mức tự động hóa, cũng như học máy đều ở mức
cao, có thể thay thế con người khỏi nhiều việc, nhằm góp phần giải phóng sức lao
động. Ngồi ra, việc khai phá dữ liệu cũng đem lại nhiều tối ưu cho các mơ hình
kinh doanh, cũng như cho xã hội. Để hướng đến cách mạng công nghiệp 4.0, rất cần
các giải pháp tự động hóa cho các mơ hình cơng hoặc mơ hình kinh doanh như bệnh
viện, cửa hàng hoặc siêu thị. Ở các giải pháp này, hệ thống thông minh sẽ tự động
phân tích số lượng người ra/vào, hay nhận diện thời điểm xuất hiện của khách hàng
thân thiết.

Ở phạm vi của đề tài, luận văn áp dụng hai giải pháp về nhận diện người và
nhận diện khuôn mặt sử dụng CNN để áp dụng xây dựng các hệ thống thực tế. Các
phương pháp nhận diện người cũng như khn mặt qua thực tế đã có độ chính xác
và có khả năng thương mại hóa cao.

1.4.

ÁP DỤNG MẠNG NƠ RON TÍCH CHẬP ĐỂ XÂY DỰNG HỆ
THỐNG NHẬN DIỆN NGƯỜI VÀO/RA VÀ ĐÁNH GIÁ THỰC
NGHIỆM, SO SÁNH VỚI PHƯƠNG PHÁP HOG

1.4.1. Giới thiệu hệ thống nhận diện và đếm lượt người vào/ra sử dụng
mạng nơ ron tích chập
Mơ tả bài tốn: Hiện nay, camera rất thơng dụng và được lắp ở mọi nơi. Tuy
nhiên, camera dân dụng thông thường chỉ có chức năng chụp ảnh hoặc ghi hình mà
khơng có chức năng thơng minh nào khác. Do đó, giải pháp hướng đến là lập nên

23


24

một hệ thống có chức năng thống kê người vào/ra. Hệ thống có thể áp dụng cho
nhiều địa điểm như các cổng ra vào ở bệnh viện, trường học, siêu thị, ... Dựa trên
kết quả thống kê, người dùng có thể nắm được các thông tin về trạng thái hiện tại
của khu vực đặt camera. Hệ thống này được xây dựng theo kiến trúc như trong
hình. Trong đó:
Hệ thống camera: hệ thống camera nhận dạng đối tượng được lắp đặt ở các
khu vực cần đếm người ra/vào. Hoặc dữ liệu video do người dùng tải lên.
Máy chủ xử lý nhận diện và đếm lượng người: máy chủ có cấu hình mạnh, tốc

độ xử lý cao, có thể xử lý tồn bộ dữ liệu của hệ thống camera, tạo thành báo cáo để
đẩy vào hệ thống trích xuất dữ liệu.
Hệ thống trích xuất dữ liệu và hình ảnh đối chiếu: sau khi được xử lý qua máy
chủ xử lý, dữ liệu được gom nhóm kèm video, và được lưu trữ ở đây trước khi được
đẩy về máy chủ trung tâm.
Cơ sở dữ liệu chứa thông tin nhận diện đối tượng: đây là dữ liệu bao gồm số
liệu và hình ảnh và video của hệ thống nhận diện đối tượng.
Quản trị viên: quản trị viên là người kết nối lên máy chủ tổng, là người xem
xét dữ liệu để nắm được thông tin số lượng người ra/vào theo khung giờ, và lập các
báo cáo cần thiết.

Hình 1.5: Hình ảnh thiết kế của hệ thống nhận diện đối tượng
1.4.2. Giới thiệu kiến trúc của máy chủ xử lý nhận diện và đếm lượng
người
Máy chủ xử lý nhận diện và đếm lượng người được sử dụng trong hệ thống là
24


25

mơ hình YOLO sử dụng kiến trúc mạng nơ ron tích chập. Mơ hình YOLO là một
cách tiếp cận mới để phát hiện đối tượng. Với phương pháp này, ta có thể huấn
luyện mạng với bộ dữ liệu được gán nhãn. Sau đó, khi sử dụng để nhận diện,
phương pháp này xác định và đóng khung đối tượng qua một cửa sổ phân tách trong
hình ảnh, kèm theo xác suất của các đối tượng liên quan được phát hiện.
Mơ hình mạng YOLO sử dụng một mạng thần kinh duy nhất để dự đoán các
hộp giới hạn và xác suất nhãn trực tiếp từ tồn bộ hình ảnh trong một lần chạy. Vì
tồn bộ hệ thống phát hiện là một mạng duy nhất, nên nó được tối ưu hóa từ đầu
đến cuối, dựa trên hiệu suất phát hiện. Kiến trúc đơn của YOLO rất nhanh, với mơ
hình thường, mạng có thể xử lý được trong thời gian thực với 45 khung hình trên

giây, cịn với mơ hình nhỏ hơn là FastYOLO, hệ thống có thể xử lý tới 155 khung
hình trên giây.

Hình 1.6: Phương pháp mạng YOLO sử dụng để nhận diện đối tượng
Mơ hình YOLO được thiết kế với 24 tầng nơ ron tích chập và 2 tầng nơ ron
được kết nối đầy đủ. Các lớp chập 1x1 xen kẽ làm giảm dữ liệu từ các tầng trước.
Các lớp tích chập được sử dụng để trích xuất các đặc điểm từ hình ảnh, các lớp kết
nối đầy đủ được sử dụng để dự đoán xác suất và tọa độ đầu ra. Kiến trúc YOLO
được lấy cảm hứng từ mơ hình GoogLeNet cho phân loại hình ảnh.
25


×