Tải bản đầy đủ (.pdf) (10 trang)

Nhận dạng và xác định vị trí cỏ dại trên luống hoa màu dùng máy véc tơ hỗ trợ và mạng nơ ron

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.19 MB, 10 trang )

TRƯỜNG ĐẠI HỌC SÀI GÒN
SAIGON UNIVERSITY
TẠP CHÍ KHOA HỌC
SCIENTIFIC JOURNAL
ĐẠI HỌC SÀI GÒN
OF SAIGON UNIVERSITY
Số 65 (5/2019)
No. 65 (5/2019)
Email: ; Website:

NHẬN DẠNG VÀ XÁC ĐỊNH VỊ TRÍ CỎ DẠI TRÊN LUỐNG HOA
MÀU DÙNG MÁY VÉC TƠ HỖ TRỢ VÀ MẠNG NƠ-RON
Weed detection in vegetable garden using support-vector
machine and neural networks
TS. Nguyễn Tất Bảo Thiện(1), Nguyễn Thị Cẩm Tú(2)
Học viện Công nghệ Bưu chính Viễn thông, Cơ sở tại TP.HCM
Trường Đại học Công nghệ Thông tin – ĐHQG TP.HCM

(1)
(2)

TÓM TẮT
Ngày nay, trí tuệ nhân tạo được ứng dụng trong hầu hết trên mọi lĩnh vực. Nông nghiệp công nghệ cao
ứng dụng hệ thần kinh nhân tạo cũng theo xu thế đó, đây là hệ thống sản xuất nhằm đáp ứng chính xác
yêu cầu của cây trồng, ngăn việc sử dụng phân bón hữu cơ, phân bón hóa học, thuốc diệt cỏ một cách
lãng phí, qua đó không những góp phần bảo vệ môi trường, tiết kiệm được sức lao động của con người
mà còn làm tăng năng suất của cây trồng. Trong nghiên cứu này, các mô hình máy học như vectơ hỗ trợ
và mạng nơ-ron được ứng dụng nhằm huấn luyện, nhận dạng và phân loại đồng thời định vị cỏ dại trên
ảnh màu. Kết quả của quá trình phân loại và định vị cỏ dại sẽ được dùng làm thông tin đầu vào cho thiết
bị điều khiển phun thuốc diệt cỏ phù hợp cho từng loại cỏ mà không gây ảnh hưởng đến cây trồng.
Từ khóa: máy học, mạng nơ-ron nhiều lớp, nông nghiệp công nghệ cao, nhận dạng lá cây, supportvector machine - SVM


ABSTRACT
Nowadays, artificial intelligence is present in almost every fields. Precision agriculture is following the
trend, which is a production system that accurately meets the requirements of plants and prevents
excessive use of organic fertilizers, chemical fertilizers or herbicides. Thereby, it does not only
contribute to protect the environment and save the human labor but also increase the crop productivity.
In this study, the machine learning models i.e. support vector machine and neural networks were applied
to identify, classify weeds and locate its positions on color images. The results of the identification
process could be used as the input information for the potential automatic equipment to suitably spray
herbicides for each type of grasses without affecting the crop.
Keywords: machine learning, multi-layer perceptron, precision agriculture, object recognization,
support vector machine

trồng và phải xác định được vị trí của cỏ
dại nhằm làm dữ liệu cho hệ thống tự động
phun thuốc diệt cỏ hoặc hệ thống bón phân
tự động tại vị trí cây trồng.
Đến thời điểm hiện tại, đã có một số
sản phẩm nghiên cứu có thể nhận dạng và

1. Đặt vấn đề
Để hạn chế tình trạng phun thuốc diệt
cỏ một cách tràn lan, thiếu chính xác,
không hiệu quả và có thể gây tác hại cho
môi trường cần phải xây dựng được một hệ
thống phân biệt đâu là cỏ dại, đâu là cây
Email:

56



NGUYỄN TẤT BẢO THIỆN - NGUYỄN THỊ CẨM TÚ

TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN

cho biết định danh của một số loại cỏ dại
thường gặp, hoặc ở mức độ cao hơn là xác
định được vị trí của cây trồng, chẳng hạn,
một nghiên cứu được thực hiện vào năm
2013, [2], bằng việc phát triển hệ thống thị
giác máy tính, hệ thống đã xác định được
vị trí của cây trồng, tính toán được vùng là
che phủ để thẩm định chất lượng cây trồng.
Một phương pháp nghiên cứu khác
cũng được đánh giá cao đó là phương pháp
Chain code. Phương pháp này sử dụng kỹ
thuật Computer-Aided Plant Species
Identification Technique (CAPSI) để đối
sánh hình dạng của lá [8]. Đầu tiên, ảnh
tiền xử lý được chuyển từ ảnh màu sang
ảnh xám. Thao tác Sobel được áp dụng trên
ảnh nhị phân để xác định các cạnh trên ảnh
trước khi làm mỏng các cạnh. Quá trình rút
trích các tính năng của lá gồm hình dạng,
kích thước, kết cấu và cách sắp xếp của lá
trên 1 cành dựa trên phương pháp Chain
code. Cuối cùng là nhận dạng tính năng
của lá bằng cách áp dụng kỹ thuật so sánh
tuyến tính. Tuy tỷ lệ nhận dạng cao nhưng
lại có một số khó khăn trong quá trình thực
hiện như độ sáng, độ nét của ảnh. Do nhận

dạng cỏ dại dựa trên các đặc trưng của lá
nên có một số nghiên cứu gặp khó khăn
trong trường hợp các lá xếp chồng lên
nhau.
Trên thế giới đã có rất nhiều tài liệu
nghiên cứu về vấn đề “Nông nghiệp công
nghệ cao”. Mỗi tài liệu trình bày một khía
cạnh khác nhau của vấn đề. Năm 2000, các
nhà nghiên cứu [1] đã phát triển hệ thống
mạng nơ-ron lan truyền ngược để nhận
dạng cỏ dại trong luống bắp non. Một ảnh
kích thước 756x504 pixel được chụp trên
luống bắp, sau đó ảnh được cắt ra thành các
ảnh có kích thước 100x100 pixel sao cho
trên ảnh chỉ còn 1 đối tượng hoặc là cây

bắp non hoặc là cây cỏ dại. Tập huấn luyện
gồm 40 ảnh về cây bắp non, 40 ảnh vể cây
cỏ dại và 20 ảnh mẫu được dùng để kiểm
tra. Kết quả thực nghiệm cho thấy, ANN
nhận dạng cây bắp non đạt đến tỷ lệ cao
nhất 100% và cỏ dại là 80%. Điều này chấp
nhận được do lượng dữ liệu cho việc huấn
luyện ANN là ít và do hạn chế của phần
cứng máy tính trong thời gian đó.
Việc nhận dạng lá tập trung vào 2
nhóm đặc trưng là vân lá và hình dạng lá
với phương pháp Fast Fourier Transform
(FFT) cũng đã được sử dụng và cho kết
quả khá tốt [3]. Có tất cả 21 đặc trưng của

lá được rút trích cho việc nhận dạng bao
gồm 10 đặc trưng đầu tiên được rút trích
dựa vào khoảng cách giữa đường viền và
đường gân chính của lá, 10 đặc trưng tiếp
theo được rút trích bằng cách sử dụng các
hình thái kỹ thuật số với 4 dạng hình học
cơ bản, 5 dạng vân lá và 1 đặc trưng cuối
cùng được rút trích bằng cách sử dụng kỹ
thuật Convex hull. Kết quả thực nghiệm
của việc sử dụng 1907 ảnh lá cho 32 loại
cây trồng cho thấy tỷ lệ nhận dạng trung
bình 97.19%
Từ thực tế đó, chúng tôi đề xuất thực
hiện đề tài “Nhận dạng và xác định vị trí cỏ
dại lẫn trên luống hoa màu”. Đề tài tuy chỉ
dừng lại ở việc nhận dạng và xác định vị trí
của cây cỏ dại nhưng đầu ra của hệ thống
nhận dạng của chúng tôi sẽ là dữ liệu cho
các hệ thống tự động với các hoạt động tiếp
theo như phun thuốc diệt cỏ chính xác tại vị
trí đã được xác định hoặc bón phân tại gốc
cây trồng.
2. Máy học véc tơ hỗ trợ và mạng
nơ-ron nhân tạo
2.1. Máy học véc tơ hỗ trợ
SVM – Support Vectors Machine là
một mô hình học có giám sát, trong lĩnh
57



SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY

No. 65 (5/2019)

vực máy học [6]. SVM thường được sử
dụng để phân lớp dữ liệu (classification),
hoặc phân tích hồi quy (regression
annalysis). Ý tưởng chính của phương
pháp SVM là cho trước một tập huấn
luyện, được biểu diễn trong không gian
vector, trong đó mỗi mẫu là một điểm.
Phương pháp này tìm ra một siêu phẳng
quyết định tốt nhất có thể chia các điểm
trên không gian này thành hai lớp riêng
biệt tương ứng là lớp (+) và lớp (-). Chất
lượng của siêu phẳng này được quyết định
bởi khoảng cách của điểm dữ liệu gần nhất
của mỗi lớp đến mặt phẳng này. Khi đó,
khoảng cách biên càng lớn thì mặt phẳng
có chất lượng càng tốt, đồng thời việc phân
loại sẽ càng chính xác. Kiến trúc phân loại
SVM được định nghĩa như sau:
f(x) = sign(wTx + b)
Trong đó sign(z) = +1 nếu z ≥ 0,
sign(z) = -1 nếu z < 0. Nếu f(x) = +1 thì x
thuộc về lớp dương (lĩnh vực được quan
tâm), và ngược lại, nếu f(x) = -1 thì x thuộc
về lớp âm (các lĩnh vực khác). Điều này
được minh họa trong Hình 1.


nghiên cứu về trí tuệ nhân tạo [9]. Khi các
hệ thống máy tính được kết nối lại với
nhau, chúng có thể giải quyết những vấn đề
khó khăn hơn. Và quan trọng nhất, khi áp
dụng đúng thuật toán, người ta có thể “dạy
học” cho máy tính. Về bản chất, “học”
chính là quá trình hiệu chỉnh trọng số liên
kết giữa các nơ-ron sao cho giá trị hàm lỗi
là nhỏ nhất. Có ba phương pháp học phổ
biến là học có giám sát, học không giám
sát và học tăng cường.
Đơn vị xử lý của mạng nơ-ron gọi là
một nơ-ron hay một nút (node) thực hiện
một công việc rất đơn giản; nó nhận tín
hiệu vào từ các đơn vị phía trước hay một
nguồn bên ngoài và sử dụng chúng để tính
tín hiệu ra sẽ được lan truyền sang các đơn
vị khác.

Hình 2: Minh họa dữ liệu đầu vào
và đầu ra của một nơ-ron
Trong đó:
xi: các đầu vào
wji: các trọng số tương ứng các đầu vào
θj: độ lệch (bias)
aj: đầu vào mạng (net-input)
zj: đầu ra của nơ-ron
g(x) : hàm chuyển (hàm kích hoạt)
Kiến trúc mạng nơ-ron tích chập được
sử dụng vào năm 2012 được cộng đồng

nghiên cứu gọi với tên gọi là AlexNet do
tác giả chính của nhóm nghiên cứu là Alex
Krizhevsky [5]. Vào năm 2017, Nhóm
SuperVision gồm các thành viên Alex
Krizhevsky, Ilya Sutskever và Geoff

Hình 1: Minh họa việc xác định siêu
phẳng phân chia 2 lớp đối tượng
2.2. Mạng nơ-ron nhân tạo
Khái niệm về mạng nơ-ron đã có từ
những năm 1950 với sự ra đời của ngành
58


NGUYỄN TẤT BẢO THIỆN - NGUYỄN THỊ CẨM TÚ

TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN

Hinton cùng mạng AlexNet của họ đã đạt
được kết quả đáng kinh ngạc với độ chính
xác chênh lệch đến hơn 10% (15,31% và
26,17%) [5]. Điều đặc biệt là mạng huấn
luyện này chỉ nhận dữ liệu đầu vào là các
giá trị điểm ảnh thô và không hề áp dụng
bất kỳ phương pháp trích chọn đặc trưng
nào. Thiết kế kiến trúc mạng huấn luyện
gần như một hộp đen với khả năng tự học
thông qua các lớp ẩn, đã khiến CNN nói
riêng cùng học sâu nói chung trở thành giải
pháp mạnh mẽ nhất cho bài toán nhận dạng

và phân loại. Đó cũng chính là lý do, chúng
tôi chọn mạng huấn luyện AlexNet đảm
nhận vai trò nhận dạng loại cỏ có trong ảnh
đầu vào.
3. Tập dữ liệu
Đối tượng hoa màu trong nghiên cứu
này là cây bắp non 2 - 3 tuần tuổi. Chúng
tôi thu thập dữ liệu gồm có:
- 100 ảnh cây bắp non
- 100 ảnh cây cỏ mần trầu
- 100 ảnh cây cỏ rau sam
- 100 ảnh cây bắp có lẫn 1 hoặc 2 loại
cỏ trên.
Việc thu thập dữ liệu ảnh được thực
hiện trên các thửa ruộng bắp ở miền Đông
Nam Bộ bằng camera điện thoại với ảnh ở
chế độ phân giải 3264x2448. Với mục đích
mô phỏng hệ thống và kiểm tra các giải
thuật nhận dạng, đầu tiên chúng tôi thu
thập và xử lý trên ảnh tĩnh. Trong trường
hợp triển khai hệ thống thực tế, trên diện
tích lớn, chúng tôi dự định sẽ tiến hành lắp
đặt 1 dãy các camera trên 1 thanh ngang,
khoảng cách giữa 2 camera bằng khoảng
cách giữa 2 luống bắp, mỗi camera sẽ làm
nhiệm vụ quét 1 luống. Thanh ngang này
sẽ tích hợp thêm đầu phun thuốc và được
gắn cố định vào robot; robot sẽ di chuyển
giữa 2 luống bắp.


4. Mô hình nhận dạng và xác định vị
trí cỏ dại trên luống hoa màu
Mô hình nhận dạng và định vị cỏ dại
trên luống hoa màu được mô phỏng dựa
trên sự kết hợp của Máy học véc tơ hỗ trợ
và Mạng nơ-ron nhân tạo (Hình 3).
- Dữ liệu đầu vào là tập ảnh màu có độ
phân giải 3264x2448.
- Dữ liệu đầu ra là kết quả nhận dạng
loại cỏ và vị trí của các cây cỏ có trên ảnh.

Hình 3: Mô hình phân loại và xác định vị
trí cỏ dại trên luống hoa màu
- Thế mạnh của SVM là một thuật toán
phân loại nhị phân [9], rất thích hợp cho
việc phân lớp bước đầu để biết ảnh đưa vào
là ảnh có cỏ dại hay không.
- Đối với mạng nơ-ron nhân tạo, sau
khi được huấn luyện bằng phương pháp
học có giám sát với tập đặc trưng về lá của
nhiều loại cỏ dại khác nhau, việc nhận
dạng loại cỏ dại sẽ đạt hiệu quả cao hơn.
- Việc kết hợp SVM và mạng nơ-ron
nhân tạo làm cho hệ thống đạt hiệu quả
cao, góp phần giúp cho sản xuất nông
nghiệp tiến đến gần khái niệm “nông
nghiệp công nghệ cao”.
4.1. Tiền xử lý ảnh
Quá trình tiền xử lý ảnh nhằm mục
59



SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY

No. 65 (5/2019)

đích rút trích các đặc trưng của các đối
tượng được thực hiện qua các bước sau:
- Hiệu chỉnh kích thước: ảnh được
hiệu chỉnh về kích thước 1306x980.

Hình 6: Ảnh sau khi đã loại bỏ nhiễu và
các đối tượng cắt biên ảnh
- Dùng hàm imfill để làm “mịn” đối
tượng trong ảnh bằng cách tô trắng các
“holes” có trên đối tượng nhằm hỗ trợ cho
việc nhận dạng đối tượng.

Hình 4: Ảnh cây bắp non trước và sau khi
hiệu chỉnh kích thước
- Sau khi tách các kênh màu trên ảnh,
chúng tôi chuyển ảnh màu thành ảnh nhị
phân với ngưỡng Ostu [11], [12].

Hình 7: Ảnh nhị phân sau khi làm “mịn”
4.2. Rút trích đặc trưng
Để đạt được tỷ lệ nhận dạng chính xác
cao thì bước quan trọng nhất là rút trích
đặc trưng và đây là kỹ thuật sử dụng các
thuật toán để lấy ra những thông tin mang

những đặc điểm riêng biệt của đối tượng có
trong ảnh.
Để xây dựng tập đặc trưng huấn luyện
cho kiến trúc SVM, chúng tôi sử dụng kỹ
thuật SURF (Speed Up Robust Feature)

Hình 5: Ảnh cây bắp sau khi phân đoạn
ảnh dựa trên ngưỡng Ostu
- Dùng thuật toán mở, xóa nền của ảnh
và loại bỏ các đối tượng cắt biên ảnh nhằm
thu được trọn vẹn đối tượng cần xét. Thực
hiện xóa nhiễu trên ảnh bằng cách loại bỏ
các đối tượng ảnh có diện tích nhỏ hơn 1
ngưỡng diện tích xác định.
60


NGUYỄN TẤT BẢO THIỆN - NGUYỄN THỊ CẨM TÚ

TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN

[7], sau đó sử dụng kỹ thuật
K-Mean [4] để phân nhóm đối tượng có
trong ảnh.
Đối với mạng AlexNet, tập đặc trưng
để huấn luyện cho mạng này được xây
dựng trực tiếp một cách tự động dựa trên
ảnh màu.

4.3. Kiến trúc SVM - Support Vector

Machine
Vì SVM là một mô hình học có giám
sát nên ta cần xây phân loại ảnh đầu vào
thành 2 nhóm cơ bản: nhóm 1: ảnh là cây
bắp non; nhóm 2: ảnh là cây cỏ và ảnh là
cây bắp non lẫn cỏ.

Bảng 1: Phân loại dữ liệu thành 2 nhóm

Hình chỉ có cây bắp

Hình có cả bắp lẫn cỏ

Việc rút trích đặc trưng trên một ảnh
xám được thực hiện dựa trên thuật toán
SURF. Chúng tôi xây dựng tập đặc trưng
cho 1 đối tượng trên ảnh. Với tập dữ liệu
thu được, chúng tôi sử dụng thuật toán KMean để gom nhóm phân loại đối tượng
trong ảnh.
Khi một ảnh màu được đưa vào, ảnh sẽ
được tiền xử lý để thu được ảnh nhị phân
để chuyển vào kiến trúc SVM. Tại đây ảnh
được phân loại: nếu là cây bắp thì hệ thống
sẽ xuất ra thông báo; ngược lại ảnh sẽ được
chuyển sang kiến trúc AlexNet.
4.4. Kiến trúc mạng AlexNet
AlexNet bao gồm 5 lớp tích chập và 3
lớp kết nối đầy đủ:
- Lớp 1 (Tích chập):
 Đầu vào: Ảnh với kích thước 224 x

224 x 3 (3 là con số tương ứng với 3 màu
đỏ, xanh lục, xanh lam trong hệ màu RGB
thông thường)

Số bộ lọc: 96
 Kích thước bộ lọc: 11 x 11 x 3
 Bước trượt (Stride): 4
 Đầu ra: (224/4) x (224/4) x 96 = 55
x 55 x 96, chia đều cho hai GPU
 Lớp chuyển tiếp sang lớp 2 (Lấy
mẫu tối đa).
 Đầu vào: 55 x 55 x 96
 Đầu ra: (55/2) x (55/2) x 96 = 27 x
27 x 96
- Lớp 2 (Tích chập):
 Đầu vào: 27 x 27 x 96
 Số bộ lọc: 256
 Kích thước bộ lọc: 5 x 5 x 48
 Đầu ra: 27 x 27 x 256, chia đều cho
hai GPU.
- Lớp 3, 4, 5:
Tương tự như với lớp 1 và lớp 2 với
các kích thước bộ lọc lần lượt là 3 x 3 x
256, 3 x 3 x 384 và 3 x 3 x 384. Toàn bộ các
lớp tính toán này đều được chia đều cho hai


61



SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY

No. 65 (5/2019)

GPU để tăng tốc độ xử lý. Đầu ra cuối cùng
qua lớp Tích chập thứ 5 là dữ liệu với kích
thước 13 x 13 x 128, dữ liệu này sau khi đi
qua một lớp lấy mẫu cuối cùng sẽ được
dùng làm đầu vào cho các lớp sau đó là các
lớp Kết nối đầy đủ.
- Lớp 6 (Kết nối đầy đủ):
 Đầu vào: 6 x 6 x 256

Số nơ-rôn: 4096
- Lớp 7 (Kết nối đầy đủ): tương tự lớp


6.
- Lớp 8 (Kết nối đầy đủ): là lớp cuối
cùng trong mạng AlexNet này có 1000
nơron, tương ứng với 1000 lớp khác nhau
mà bộ huấn luyện cần nhận dạng.

Hình 8: Mô phỏng cấu trúc mạng AlexNet [13]
Mỗi lớp tích chập đều có Feature Map,
ReLU, LRN (Local Response Normalized)
và Overlap max pooling.
Với tập ảnh gồm 3 thư mục con (cây
bắp non lẫn cỏ, cỏ rau sam và cỏ mần trầu),
với số ảnh màu trong mỗi thư mục là tùy ý,

ở đây, chúng tôi sử dụng:
- Thư mục cây bắp non lẫn cỏ: 37 ảnh
- Thư mục Cỏ mần trầu: 55 ảnh
- Thư mục Cỏ rau sam: 93 ảnh
Mạng huấn luyện AlexNet sẽ chia
ngẫu nhiên thành 2 tập: ở đây, chúng tôi
chọn ngẫu nhiên 70% số ảnh cho tập huấn
luyện và 30% số ảnh cho tập
đánh giá.
Với mô hình AlexNet, ảnh màu được
chuẩn hóa kích thước 227x227x3 trước khi
đưa vào mạng AlexNet. Sau khi đi qua các
lớp tích chập, mỗi ảnh màu sẽ được trích ra
4096 đặc trưng làm đầu vào cho lớp kết nối
đầy đủ đầu tiên.

Dựa vào kết quả đánh giá sau khi huấn
luyện trên tập ảnh thu thập được, chúng tôi
nhận được tỷ lệ nhận dạng cao. Mặc dù,
mỗi lần hệ thống thực thi thì số ảnh được
chọn làm tập huấn luyện và tập đánh giá là
ngẫu nhiên nhưng tỷ lệ chính xác chúng tôi
thu được luôn cao hơn 90%.
5. Kết quả thực nghiệm
Hệ thống thực nghiệm được mô phỏng
trong môi trường Matlab 2018a
Ảnh sau khi được tiền xử lý sẽ được
rút trích đặc trưng và tiến hành so sánh với
các đặc trưng có trong tập huấn luyện của
SVM để đưa ra kết quả là ảnh của bắp hay

không.
- Nếu là ảnh của bắp sẽ xuất ra thông
báo.
- Nếu không, ảnh sẽ được sử dụng lại
tên để tìm lại ảnh gốc ban đầu và chuyển
sang mạng AlexNet để phân loại. Mạng
AlexNet phân loại chính xác các đối tượng
62


NGUYỄN TẤT BẢO THIỆN - NGUYỄN THỊ CẨM TÚ

TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN

có trong ảnh sau đó chuyển đối tượng ảnh
vào đúng khung phân loại nếu trên ảnh là 1
trong 2 loại cỏ trên hoặc ảnh có cả bắp lẫn
cỏ. Đối với trường hợp trong ảnh có cả bắp
lẫn cỏ thì chúng tôi cũng gán nhãn chính
xác được cho các đối tượng có trong ảnh.
- Với tập ảnh gồm 35 ảnh nhị phân là
cây bắp non và 35 ảnh nhị phân gồm có
ảnh của 2 loại cỏ và ảnh có cả bắp lẫn cỏ.
Để huấn luyện cho SVM, trong bài toán
này, chúng tôi chọn ra ngẫu nhiên 40% ảnh
trong mỗi tập và 60% ảnh còn lại để đánh
giá. Việc rút trích đặc trưng dựa trên thuật
toán SURF và trích ra 20 đặc trưng mạnh
nhất có trên mỗi ảnh để huấn luyện. Sau
đó, thuật toán gom nhóm K-Mean có vai

trò trả về kết quả ảnh đầu ra là bắp hoặc
không. Trên cùng một tập huấn luyện
nhưng mỗi lần thực thi hệ thống chọn ra
một tập ảnh ngẫu nhiên nên độ chính xác
của thuật toán luôn biến động, song qua
nhiều lần thực thi chúng tôi nhận được kết
quả nhận dạng của kiến trúc SVM là đáng
tin cậy trên 80%.
Với mạng AlexNet, chúng tôi có 3 loại
nhãn để lựa chọn gán cho 1 ảnh: 1, ảnh cỏ
mần trầu; 2, ảnh cỏ rau sam; 3, ảnh có cả
bắp lẫn cỏ. Ảnh để huấn luyện cho mạng
AlexNet là ảnh màu chưa qua bất kỳ giai
đoạn tiền xử lý nào. Các kết quả có thể thu
được khi có 1 ảnh đưa vào kiểm tra:
Nếu ảnh đầu vào là bắp: xuất ra thông
báo:

Nếu ảnh đầu vào là 1 trong 2 loại cỏ:

Hình 10: Thông báo của hệ thống nếu ảnh
chỉ có cây cỏ mần trầu
Nếu ảnh đầu vào là ảnh có cả cỏ lẫn
bắp: ảnh sẽ được phân vùng các đối tượng
và tiến hành gán nhãn cho từng đối tượng
sau khi được tách ra riêng biệt.

Hình 11: Ảnh được phân vùng các đối
tượng trên ảnh
Các đối tượng trong ảnh ở trường hợp

có cả bắp lẫn cỏ sau khi phân vùng sẽ được
cắt thành các đối tượng riêng biệt và một
lần nữa đưa vào AlexNet để được gán
nhãn:

Hình 12: Các đối tượng riêng biệt đã được
gán nhãn

Hình 9: Thông báo của hệ thống nếu ảnh
chỉ có cây bắp
63


SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY

No. 65 (5/2019)

6. Kết luận và hướng nghiên cứu
tiếp theo
Với tập ảnh thu thập được, sau tiền xử
lý tập ảnh để xây dựng tập đặc trưng huấn
luyện cho SVM, chúng tôi có được kết quả
nhận dạng với tỷ lệ chính xác chấp nhận
được:

Hình 13: Kết quả tỷ lệ nhận dạng chính
xác của kiến trúc SVM

Hình 14: Tiến trình huấn luyện và tỷ lệ chính xác của mạng AlexNet
Đối với ảnh chỉ có 1 loại cỏ, hệ thống

đã nhận dạng đúng và xác định được vị trí
của cỏ trên ảnh. Riêng với ảnh có cả bắp
lẫn cỏ trong trường hợp không chồng lắp
thì hệ thống đã tách ra và gán nhãn đúng
cho các đối tượng có trong ảnh nhưng vẫn
chưa xác định vị trí của cỏ có trong ảnh.
Riêng trường hợp ảnh có bắp lẫn cỏ
dại bị chồng lắp lên nhau việc cắt rời các
đối tượng gặp lỗi nên dẫn đến việc gán

nhãn cũng không thực hiện được.
Hướng nghiên cứu sắp tới:
- Xử lý tốt trường hợp ảnh có bắp và
cỏ chồng lắp lên nhau.
- Xác định được vị trí của các đối
tượng trong trường hợp trên ảnh có cả bắp
lẫn cỏ.
- Xây dựng hệ thống tự động phun
thuốc diệt cỏ dựa và xử lý vấn đề thời
gian thực.

LỜI CẢM ƠN
Chúng tôi xin chân thành cám ơn Học Viện Công Nghệ Bưu Chính Viễn Thông và Trường
Đại Học Công Nghệ Thông Tin tạo điều kiện cho chúng tôi hoàn thành bài báo này.

64


NGUYỄN TẤT BẢO THIỆN - NGUYỄN THỊ CẨM TÚ


TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN

TÀI LIỆU THAM KHẢO
[1] C.-C. Yang, S.O. Prasher, J.-A. Landry, H.S. Ramaswamy, A. Ditommaso,
“Application of artificial neural networks in image recognition and classification of crop
and weeds”, Canadian Agricultural Engineering, Vol. 42., No.3, pp 147-152, 2000.
[2] Michael Weyrich, Yongheng Wang, Matthias Scharf, “Quality assessment of row
Crop plants by using a machine vision system”, IECON 2013 - 39th Annual
Conference of the IEEE Industrial Electronics Society, pp 2466-2471, 2013.
[3] Kue-Bum Lee and Kwang-Seok Hong, “An Implementation of Leaf Recognition
System using Leaf Vein And Shape”, International Journal of Bio-Science and BioTechnology, Vol. 5, No. 2, April 2013.
[4] Oyelade, O. J, Oladipupo, O. O, Obagbuwa, I. C, “Application of k-Means Clustering
algorithm for prediction of Students’ Academic Performance”, International Journal
of Computer Science and Information Security, Vol. 7, No.1, 2010.
[5] Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, “ImageNet classification with deep
convolutional neural networks”, Communications of the ACM, Vol.60, No.6, June 2017.
[6] Chih-Wei Hsu, Chih-Chung Chang, and Chih-Jen Lin, “A Practical Guide to Support
Vector Classification”, Technical report, Department of Computer Science, National
Taiwan University. July, 2003.
[7] Herbert Bay, Tinne Tuytelaars, and Luc Van Gool1, “SURF: Speeded Up Robust
Features”, Computer Vision – ECCV 2006: 9th European Conference on Computer
Vision, Graz, Austria, May 7-13, 2006. Proceedings, Part I (pp.404-417).
[8] Miss. Pande Ankita V. , Prof. Shandilya V.K, “Digital Image Processing Approach for
Fruit and Flower Leaf Identification and Recognition”, International Journal Of
Engineering And Computer Science, Vol. 2, No. 4, pp. 1280-1285, 2013.
[9] Awad M., Khanna R, “Support Vector Machines for Classification”, Efficient
Learning Machines, pp 39-66, 2015, Apress, Berkeley, CA
[10] “A Comprehensive Study of Artificial Neural Networks”, International Journal of
Advanced Research in Computer Science and Software Engineering, Vol. 2, No. 10,
pp.278-284, 2012.

[11] Hongzhi Wang, Ying Dong “An Improved Ostu Method for Image Segmentation”,
Proceedings of SPIE - The International Society for Optical Engineering, Beijing,
March 2008.
[12] Ostu N., “A threshold selection method from gray-level histogram”, IEEE
Transaction on Systems, Man, and Cybernetics, Vol. 9, No. 1, pp 62-66, 1979.
[13] Rakshith Vasudev. (2019, Feb). [Online] HYPERLINK />understanding-and-calculating-the-number-of-parameters-in-convolution-neural-networks
-cnns-fc88790d530d
Ngày nhận bài: 07/4/2019

Biên tập xong: 15/5/2019
65

Duyệt đăng: 20/5/2019



×