Tải bản đầy đủ (.pdf) (27 trang)

Nghiên cứu và phát triển các phương pháp nhận dạng cây dựa trên nhiều ảnh bộ phận của cây, có tương tác với người sử dụng (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.2 MB, 27 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGUYỄN THỊ THANH NHÀN

NGHIÊN CỨU VÀ PHÁT TRIỂN CÁC PHƯƠNG
PHÁP NHẬN DẠNG CÂY DỰA TRÊN NHIỀU ẢNH
BỘ PHẬN CỦA CÂY, CÓ TƯƠNG TÁC VỚI NGƯỜI
SỬ DỤNG

Ngành: Khoa học máy tính
Mã số: 9480101

TÓM TẮT LUẬN ÁN TIẾN SĨ
KHOA HỌC MÁY TÍNH

Hà Nội −2020


Công trình được hoàn thành tại:
Trường Đại học Bách khoa Hà Nội

Người hướng dẫn khoa học:
1. PGS. TS. Lê Thị Lan
2. PGS. TS. Hoàng Văn Sâm

Phản biện 1:
Phản biện 2:
Phản biện 3:

Luận án sẽ được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ


cấp Trường họp tại Trường Đại học Bách khoa Hà Nội:

Vào hồi giờ, ngày tháng năm

Có thể tìm hiểu luận án tại thư viện:
1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội
2. Thư viện Quốc gia Việt Nam


GIỚI THIỆU
Động cơ
Thực vật có một vai trò quan trọng trong hệ sinh thái. Ngày nay, sự đa dạng của
hệ sinh thái nói chung và hệ thực vật nói riêng đang đứng trước nguy cơ bị suy giảm
do sự khai thác không hợp lý của con người. Nhiều giải pháp đã được đề xuất nhằm
bảo vệ đa dạng sinh học của hệ thực vật trong đó việc nâng cao hiểu biết của người
dân là được đánh giá là một trong những giải pháp hữu hiệu trong đó tên của thực
vật là chìa khóa quan trọng cho phép truy nhập đến các thông tin khác. Tuy nhiên, số
cây mà một người bình thường có khả năng nhận biết thường rất thấp so với số lượng
cây có trong hệ thực vật.
Sự phát triển và phổ dụng của các thiết bị thu nhận và lưu trữ như máy ảnh, điện
thoại cho phép xây dựng được một cơ sở dữ liệu hình ảnh lớn về các loài cây trong hệ
thực vật. Cùng với đó, các tiến bộ trong các kỹ thuật xử lý hình ảnh và nhận dạng
cho phép thực tiễn hóa ước mơ xây dựng các hệ thống nhận dạng cây tự động.
Trong những năm vừa qua, các nghiên cứu về nhận dạng cây dựa trên hình ảnh
của cây đã nhận được sự quan tâm của các nhà nghiên cứu liên lĩnh vực: thị giác máy
tính, học máy và thực vật học. Nhiều cải tiến đáng kể về chất lượng nhận dạng đã
được ghi nhận [4]. Một số hệ thống nhận dạng và tìm kiếm cây cũng đã được triển
khai trên thực tế.
Tuy vậy, nhận dạng cây hiện vẫn chưa được sử dụng rộng rãi do hai hạn chế chính.
Hạn chế thứ nhất là số loài cây có thể nhận dạng được vẫn còn rất thấp so với số lượng

cây có trong hệ thực vật. Cơ sở dữ liệu hình ảnh cây lớn nhất là LifeCLEF 2017 với
10,000 [2]) so với số lượng hơn 400,000 cây tồn tại trên trái đất [3]). Hạn chế thứ hai
là độ chính xác của nhận dạng tự động vẫn còn thấp đặc biệt là khi làm việc trên dữ
liệu đa dạng với số lớp lớn.

Mục tiêu
Luận án NCS hướng đến xây dựng các phương pháp hiệu quả cho phép nâng cao
độ chính xác của nhận dạng cây dựa vào hình ảnh.
Để đạt được mục tiêu này, trước tiên luận án tập trung vào cải thiện độ chính
xác của nhận dạng cây dựa trên ảnh của một bộ phận. Có nhiều bộ phận trên cây có
thể được dùng để xác định cây. Tuy nhiên, trong các bộ phận khác nhau của cây, lá
là bộ phận được lựa chọn nhiều nhất. Tuy nhiên các nghiên cứu trước đó thường dựa
trên giả thuyết là lá được chụp trên nền đồng nhất. Giả thuyết này thường không thỏa
mãn trong các điều kiện làm việc thực tế, do đó trong luận án này, chúng tôi tập trung

1


nghiên cứu và phát triển phương pháp nhận dạng lá trên nền phức tạp.
Thứ hai, xuất phát từ quan sát là việc sử dụng hình ảnh của một bộ phận để nhận
dạng không phải lúc nào cũng phù hợp. Nhiều cây rất dễ bị nhận nhầm nếu sử dụng
lá nhưng lại có khả năng phân biệt rất cao nếu dựa trên hoa. Nhận dạng cây dựa trên
nhiều bộ phận có thể được mô hình hóa thành bài toán kết hợp muộn: các kết quả của
nhận dạng cây nhiều bộ phận có thể được xác định dựa trên kết quả nhận dạng đơn
bộ phận qua các chiến lược kết hợp. Do đó, mục tiêu thứ hai của luận án là đề xuất
các phương pháp kết hợp hiệu quả cho bài toán nhận dạng cây dựa trên các bộ phận.
Mục tiêu cuối cùng của luận án liên quan đến ứng dụng của các kết quả nghiên
cứu trong việc quảng bá thông tin của một tập các loài cây tương đối đặc thù: cây
thuốc Việt Nam thông qua việc phát triển chức năng tìm kiếm dựa trên hình ảnh trong
hệ thống tra cứu cây thuốc Việt Nam VnMed. Các mục tiêu của luận án được tóm tắt

lại như sau:
❼ Phát triển phương pháp nhận dạng cây dựa trên ảnh lá với nền phức tạp;
❼ Đề xuất kỹ thuật kết hợp cho nhận dạng cây dựa trên nhiều bộ phận;
❼ Phát triển chức năng tìm kiếm cây dựa trên hình ảnh tích hợp trong ứng dụng

hệ thống tìm kiếm cây thuốc Việt Nam.

Các đóng góp
Luận án có ba đóng góp chính như sau:
❼ Đóng góp 1: Một phương pháp nhận dạng cây dựa trên ảnh lá có nền phức tạp

được đề xuất. Phương pháp đề xuất kết hợp đồng thời phân đoạn tương tác và
bộ mô tả đặc trưng nhân (KDES).
❼ Đóng góp 2: Một kỹ thuật kết hợp cho nhận dạng cây dựa trên hai bộ phận.

Kỹ thuật kết hợp này là tích hợp giữa luật kết hợp nhân và kỹ thuật kết hợp dựa
trên phân lớp.
❼ Đóng góp 3: Cuối cùng, một mô đun tìm kiếm cây dựa trên hình ảnh được phát

triển và tích hợp trong ứng dụng tìm kiếm cây thuốc Việt Nam.

Cấu trúc luận án
❼ Giới thiệu: Phần này trình bày động cơ và mục tiêu của luận án, cũng như ngữ

cảnh, hạn chế và thách thức gặp phải trong bài toán nhận dạng cây. Phần cuối
của phần này trình bày một khung làm việc chung và các đóng góp chính của
luận án.
❼ Chương 1: Các nghiên cứu liên quan: Chương này hệ thống lại các nghiên cứu

liên quan và các cách tiếp cận đề xuất cho nhận dạng cây tự động.


2


❼ Chương 2: Trong chương này, một phương pháp cho nhận dạng cây dựa trên ảnh

lá được đề xuất. Trong phương pháp đề xuất, để trích chọn vùng lá từ ảnh, chúng
tôi đề xuất áp dụng phân đoạn tương tác. Sau đó, đặc trưng nhân KDES cải tiến
được áp dụng để trích chọn các đặc trưng của lá.
❼ Chương 3: Chương này tập trung vào nhận dạng cây dựa trên nhiều bộ phận của

cây. Chúng tôi đề xuất một phương pháp kết hợp cho nhận dạng cây nhiều bộ
phận dựa trên các kết quả một bộ phận.
❼ Chương 4: Trong chương này, chúng tôi đề xuất một cách tiếp cận mới để xây

dựng hệ thống nhận dạng cây tự động khi cơ sở dữ liệu không có sẵn và ứng dụng
của cách tiếp cận đề xuất trong việc xây dựng chức năng tìm kiếm cây thuốc
Việt Nam dựa trên hình ảnh.
❼ Kết luận: Chương này đưa ra các kết luận và các hướng nghiên cứu tiếp theo.

CHƯƠNG 1

CÁC NGHIÊN CỨU LIÊN QUAN
1.1

Nhận dạng cây từ các ảnh của một bộ phận

Các nghiên cứu trước đây thường tập trung nhận dạng cây dựa trên ảnh của một
bộ phận cây. Giữa các bộ phận của cây thì bộ phận lá được sử dụng rộng rãi nhất [4]
bởi vì lá thường tồn tại trong thời gian dài, có số lượng lớn, có cấu trúc phẳng nên

dễ thu thập hơn so với các bộ phận khác. Các nghiên cứu thường tập trung nhiều cho
ảnh lá trên nền đơn giản do tính đơn giản của ảnh. Sau bộ phận lá thì hoa là bộ phận
phổ biến tiếp theo [5] vì ảnh hoa rất dễ phân biệt các loài cây do các đặc điểm rất đặc
trưng của hoa như màu sắc, hình dạng, sắp xếp cánh hoa,..Các bộ phận khác cũng
được sử dụng để nhận dạng cây như bộ phận quả, thân, cành, toàn bộ.
Hiện nay có hai cách tiếp cận cho bài toán nhận dạng cây. Đối với cách tiếp cận
thứ nhất, các phương pháp nhận dạng dựa trên các đặc trưng được thiết kế thủ công.
Các đặc trưng bao gồm đặc trưng toàn cục (đặc trưng màu sắc, kết cấu, hình dạng) và
đặc trưng bộ phận. Các nghiên cứu thường kết hợp hai hay nhiều đặc trưng cho mỗi
bộ phận bởi vì không có một đặc trưng nào đủ mạnh để phân biệt được tất cả các lớp.
Đối với cách tiếp cận thứ hai là áp dụng các phương pháp học sâu. Mạng nơ ron
tích chập (CNN) là một phương pháp học sâu, gần đây đã đạt được rất nhiều thành
công trong các bài toán thị giác máy tính như phát hiện đối tượng, phân đoạn, và phân
lớp ảnh [6]. CNN có thể học tự động các đặc trưng từ các ảnh đầu vào mà không phải
thực hiện trích chọn thủ công. Các CNN phổ biến như AlexNet, VGG, GoogLeNet và
ResNet.
3


1.2

Nhận dạng cây từ ảnh nhiều bộ phận

Nhận dạng cây dựa trên một bộ phận là không đủ thông tin để nhận dạng một
loài do tính tương tự cao giữa các loài và sự khác biệt lớn trong cùng một loài. Một
vấn đề đặt ra để giải quyết điều này là thực hiện nhận dạng cây dựa trên nhiều bộ
phận. Hiện nay các nghiên cứu nhận dạng cây đã có xu hướng chuyển từ nhận dạng
một bộ phận sang nhiều bộ phận.
Nhận dạng cây dựa trên ảnh nhiều bộ phận cây có thể chia thành hai nhóm: Nhóm
đầu tiên là quan tâm đến loại bộ phận của cây, như phân loại ảnh đầu vào là ảnh lá

hay ảnh hoa..., nhóm thứ hai là không quan tâm ảnh thuộc vào bộ phận nào của cây.
Trong nhóm đầu tiên, mỗi bộ phận sẽ được huấn luyện bởi một bộ phân lớp riêng biệt.
Trong nhóm thứ hai, tất cả các ảnh sẽ được huấn luyện bởi cùng một bộ phân lớp. Các
kỹ thuật kết hợp được sử dụng để kết hợp các kết quả lại với nhau thường sử dụng là
kỹ thuật kết hợp sớm và kỹ thuật kết hợp muộn.

1.3

Các hệ thống nhận dạng và thu thập dữ liệu cây

Hiện nay có một số các ứng dụng nhận dạng cây dựa trên ảnh được triển khai
trên các thiết bị di động như Pl@ntNet, iNaturalist, iSpot, Leafsnap, FlowerChecker,
PlantSnapp, Plantifier,...[7, 8]. Các ứng dụng này thường cung cấp ba chức năng chính
tới người dùng đó là chức năng khám phá, nhận dạng và thu thập dữ liệu. Trong đó
chức năng nhận dạng cây và chức năng thu thập dữ liệu cây là hai chức năng hỗ trợ
cho nhau. Khi chức năng nhận dạng cây đạt được độ chính xác cao, hệ thống sẽ thu
hút được nhiều người dùng sử dụng hệ thống từ đó sẽ thu thập được nhiều dữ liệu từ
người dùng. Sau đó dữ liệu thu thập sẽ được sử dụng để huấn luyện lại hệ thống, khi
càng có nhiều dữ liệu huấn luyện thì độ chính xác đạt được càng cao. Dữ liệu thu thập
càng nhiều và đa dạng sẽ giải quyết được vấn đề học quá khớp trong nhận dạng. Điều
này chỉ ra vai trò quan trọng của hệ thống thu thập dữ liệu dựa trên cộng đồng.

CHƯƠNG 2

PHƯƠNG PHÁP NHẬN DẠNG LÁ CÂY DỰA TRÊN
BỘ MÔ TẢ NHÂN
2.1

Phương pháp nhận dạng cây dựa trên ảnh lá trên nền phức
tạp


Chương này trình bày phương pháp nhận dạng cây dựa trên hình ảnh lá. Như đã
phân tích ở Chương 1, lá là bộ phận thường được sử dụng nhất. Tuy vậy, các nghiên
cứu thường làm việc trên ảnh lá có nền đơn giản. Trong luận án, một phương pháp
nhận dạng cây dựa trên ảnh lá trên nền phức tạp được đề xuất (xem Hình 2.1). Phương
pháp bao gồm 3 mô đun chính đó là tiền xử lý ảnh, trích chọn đặc trưng và phân lớp.
4


Hình 2.1 Sơ đồ của phương pháp đề xuất nhận dạng cây dựa trên ảnh lá trên nền phức tạp

2.2

Phân đoạn tương tác

Khi làm việc với lá trên nền phức tạp, bước xử lý đầu tiên cần phải tách lá ra khỏi
nền. Trong phương pháp đề xuất, chúng tôi áp dụng phương pháp phân đoạn tương
tác. Ngoài ra, để đánh giá hiệu quả của phương pháp phân đoạn tương tác, chúng tôi
so sánh hiệu quả của phương pháp này với phương pháp phân đoạn tự động.
Ý tưởng chính của phân đoạn tương tác là dựa trên các chỉ dẫn của người dùng
để thực hiện phân đoạn. Phương pháp này thực hiện qua 4 bước (Hình 2.2). Ở bước
1, người dùng sẽ đánh dấu thủ công các vùng thuộc vào đối tượng (inner marker) và
các vùng ngoài đối tượng (outer marker) bằng cách vẽ các đường thuộc vào 2 vùng
này. Trong bước 2, thuật toán Watershed [9] sẽ được dùng để phân đoạn ảnh. Sau đó
ở bước 3, người dùng sẽ lựa chọn vùng chứa lá quan tâm. Cuối cùng, trong bước 4,
vùng chứa lá sẽ được chuẩn hóa về hướng.

Hình 2.2 Sơ đồ phân đoạn tương tác đề xuất

2.3


Trích chọn đặc trưng

Trong luận án này, bộ mô tả nhân (KDES) được đề xuất sử dụng. KDES đầu tiên
được đề xuất bởi Liefeng Bo [10] sử dụng các đặc trưng của điểm ảnh (gradient, màu
và hình dạng) và học các đặc trưng kết hợp thông qua các nhân đối sánh. KDES gốc
được sử dụng cho phát hiện đối tượng và đạt được các kết quả ấn tượng trên các cơ sở
dữ liệu tiêu chuẩn như CIFAR-10, Caltech-101, ImageNet. KDES gốc có hai giới hạn
là không bất biến với phép tỷ lệ và nhạy cảm với phép quay. Trong nghiên cứu [11],
5


Hình 2.5 Một ví dụ của vùng kích thước cố định trong KDES gốc và vùng kích thước
thay đổi trong phương pháp KDES cải tiến. (a,b) hai ảnh của cùng một lá với các kích
thước khác nhau được phân chia sử dụng vùng kích thước cố định; (b,c): hai ảnh của
cùng một lá với kích thước khác nhau được phân chia sử dụng vùng kích thước thay đổi.

Nguyễn Văn Tới và các công sự đã đề xuất ba cải tiến KDES gốc cho nhận dạng cử chỉ
tay, chúng tôi gọi là KDES cải tiến. Trong công việc này, chúng tôi đề xuất sử dụng
KDES cải tiến cho việc trích chọn đặc trưng ảnh lá. KDES cải tiến được trích chọn
thông qua ba bước: trích chọn đặc trưng mức điểm, mức vùng và mức ảnh.
a) Trích chọn các đặc trưng mức điểm
Ở bước này, một véc tơ gradient được tính tại mỗi điểm ảnh. Véc tơ gradient tại
điểm z được định nghĩa bởi độ lớn của nó m(z) và θ(z) là góc của véc tơ gradient tại
˜
điểm z. Theo [10], hướng θ(z)
được định nghĩa như sau:
˜ = [sin(θ(z))cos(θ(z))]
θ(z)


(2.8)

b) Trích chọn các đặc trưng mức vùng
Tạo ra các vùng ảnh với kích thước thích nghi
Trong phần này, chúng tôi sử dụng các vùng ảnh có kích thước thay đổi thay vì
sử dụng kích thước cố định để nhận được cùng số vùng theo chiều ngang và chiều dọc
khi kích thước ảnh thay đổi. Hình 2.5 miêu tả một ví dụ của vùng kích thước cố định
trong KDES gốc và vùng kích thước thay đổi trong phương pháp KDES cải tiến.
Tính đặc trưng mức vùng
Các đặc trưng mức vùng được tính dựa trên ý tưởng của phương pháp nhân. Xuất
phát từ việc đối sánh nhân biểu diễn sự tương tự của hai vùng, chúng tôi có thể trích
chọn véc tơ đặc trưng cho vùng sử dụng xấp xỉ bản đồ đặc trưng mức vùng cho một

6


Hình 2.7 Cấu trúc đặc trưng mức ảnh là kết nối các véc tơ đặc trưng của các ô
trong các lớp của cấu trúc kim tự tháp.
hàm đối sánh nhân. Đặc trưng xấp xỉ qua vùng ảnh P được cấu trúc như sau:
m(z)φ
˜
ω (z)) ⊗ φp (z)
o (˜

F gradient (P ) =

(2.17)

z∈P


c) Trích chọn các đặc trưng mức ảnh
Khi các đặc trưng mức vùng được tính cho mỗi vùng, công việc còn lại là tính
véc tơ đặc trưng biểu diễn cho toàn bộ ảnh. Để làm điều này, chúng tôi phân chia ảnh
thành các vùng nhỏ hơn sử dụng các đường ngang và các đường dọc. Số vùng được
chia trong một ảnh là theo cấu trúc kim tự tháp, tại mức k chúng ta có 2k−1 vùng theo
chiều ngang và 2k−1 vùng theo chiều dọc (Hình 2.7). Sau đó chúng tôi tính véc tơ đặc
trưng cho mỗi vùng của ảnh và nối chúng vào trong một véc tơ chúng tôi gọi đó véc tơ
đặc trưng mức ảnh, véc tơ đặc trưng này được biểu diễn như dưới đây. Véc tơ này sẽ
là đầu vào của bộ phân lớp SVM cho pha huấn luyện và kiểm thử.
φ¯P (X) = w(1) φ¯S (X (1,1) ); ...; w(l) φ¯S (X (l,t) ); ...; w(L) φ¯S (X (L,nL ) )

2.4

(2.20)

Các kết quả thực nghiệm

2.4.1

Các cơ sở dữ liệu

Cơ sở dữ liệu ImageCLEF 2013: bao gồm 5,540 ảnh huấn luyện và 1,660 ảnh
kiểm thử của 80 loài được trích rút.
Cơ sở dữ liệu Flavia: bao gồm 1,907 ảnh lá trên nền đơn giản của 32 loài.
Cơ sở dữ liệu LifeCLEF 2015: Bảng 2.1 chỉ ra chi tiết cơ sở dữ liệu.
2.4.2 Các kết quả thực nghiệm
Các kết quả trên cơ sở dữ liệu ImageCLEF 2013

7



Bảng 2.1 Cơ sở dữ liệu lá/lá nền đơn giản của LifeCLEF 2015
Leaf
Training
13,367
Testing
2,690
Number of species 899

Leafscan
12,605
221
351

Các kết quả được chỉ ra trong Bảng 2.2 cho thấy trên cùng tập dữ liệu, KDES
cải tiến cho kết quả tốt hơn trên KDES gốc. Với cùng bộ đặc trưng KDES, phân đoạn
tương tác cho kết quả nhận dạng tốt hơn so với phân đoạn tự động và không phân
đoạn. Cuối cùng, phương pháp đề xuất kết hợp đồng thời KDES cải tiến và dữ liệu
phân đoạn tương tác thì kết quả đạt được là tốt nhất với độ chính xác là 71.5%.
Bảng 2.2 Độ chính xác thu được trong 6 thực nghiệm trên cơ sở dữ liệu ImageCLEF2013
Phương pháp
Độ chính xác (%)
KDES cải tiến với phân đoạn tương tác 71.5
KDES gốc với phân đoạn tương tác
63.4
KDES cải tiến với dữ liệu gốc
43.68
KDES gốc với dữ liệu gốc
43.25
KDES cải tiến với phân đoạn tự động

42.3
KDES gốc với phân đoạn tự động
35.5
Các kết quả trên cơ sở dữ liệu Flavia
Phương pháp đề xuất thực hiện trên cơ sở dữ liệu Flavia đạt được độ chính xác
là 99.06%. Để đánh giá hiệu năng của phương pháp chúng tôi so sánh phương pháp đề
xuất với các phương pháp khác trên cùng cơ sở dữ liệu Flavia. Các kết quả được cho
như trong Bảng 2.3 cho thấy phương pháp đề xuất cao hơn các phương pháp dựa trên
đặc trưng thiết kế trước đó. Độ chính xác được cải thiện từ 0.36 đến 6.86% so với các
kết quả khác.
Bảng 2.3 Độ chính xác thu được trên cơ sở dữ liệu Flavia
Phương pháp
Đặc trưng, Phương pháp phân lớp
Độ chính xác(%)
Phương pháp
KDES cải tiến; SVM
99.06
đề xuất
[12]
SMSD ; NFC
97.5
[13]
CT,HU, moments, GF, GLCM; NFC
97.6
[14]
EnS, CDS; SVM
97.8
[15]
GIST features (486), (PCA=40%); cosine KNN
98.7

[16]
Zernike moments, HOG; SVM
96.4
[17]
Geometrical features, invariant moments; RBPNN 94.1
[18]
Geometrical features, vein features; SVM
92.2

Các kết quả trên cơ sở dữ liệu LifeCLEF 2015
8


Đối với dữ liệu này, độ đo đánh giá được sử dụng là score ở mức ảnh được định
nghĩa bởi cuộc thi. Kết quả nhận dạng của phương pháp được đề xuất trong chương này
được gửi cho cuộc thi với tên lần lượt là Mica Run 1, Mica Run 2 và Mica Run 3. Hình
2.12 biểu diễn kết quả của các đội tham gia cuộc thi. Kết quả phương pháp đề xuất
của chúng tôi trên tập ảnh lá nền đơn giản đứng thứ hai trong cuộc thi LifeCLEF2015
sau đội đứng đầu sử dụng phương pháp CNN, và cao hơn một số đội khác cũng sử
dụng mạng CNN. Kết quả này cho phép minh chứng hiệu quả của phương pháp tiền
xử lý cũng như đặc trưng sử dụng để mô tả ảnh lá.

Hình 2.12 Chi tiết score đạt được cho Leaf Scan [1], đội chúng tôi có tên là Mica

2.5

Kết luận

Trong chương này, một phương pháp nhận dạng cây dựa trên ảnh lá trên nền phức
tạp đã được đề xuất. Các kết quả thử nghiệm chỉ ra rằng việc kết hợp giữa KDES cải

tiến và phân đoạn tương tác trong phương pháp đề xuất đã vượt qua KDES gốc và các
phương pháp dựa trên đặc trưng được thiết kế khác cho các cơ sở dữ liệu ImageCLEF
2013, Flavia và LifeCLEF 2015. Tuy nhiên, phương pháp đề xuất vẫn cần sự thao tác
của người dùng trong bước phân đoạn. Trong ứng dụng thực tế, ràng buộc này là chấp
nhận được do số lượng thao tác ít (trong các thực nghiệm của chúng tôi, số lần đánh
dấu từ 1 đến 3) và dễ dàng thực hiện với các điện thoại có màn hình cảm ứng.

9


CHƯƠNG 3

KỸ THUẬT KẾT HỢP SAU CHO NHẬN DẠNG
CÂY DỰA TRÊN NHIỀU BỘ PHẬN
3.1

Giới thiệu

Theo quan điểm của các nhà thực vật học nhận dạng loài cây chỉ dựa vào các ảnh
của một bộ phận là không đủ thông tin do sự tương tự lớn giữa các loài khác nhau
và sự biến đổi lớn trong cùng một loài. Do đó hiện nay đã có nhiều nghiên cứu thực
hiện nhận dạng cây dựa trên nhiều bộ phận. Chương này chúng tôi đề xuất một kỹ
thuật kết hợp nhiều bộ phận. Không mất tính tổng quát, chúng tôi thực hiện và đánh
giá các kỹ thuật kết hợp cho mỗi cặp bộ phận của cây. Sơ đồ đề xuất được miêu tả
trong Hình 3.2. Chúng tôi đề xuất một phương pháp gọi là phương pháp kết hợp lai
bền vững (RHF), phương pháp này thực hiện kết hợp phương pháp kết hợp dựa trên
biến đổi và kết hợp dựa trên phân lớp (CBF).

Hình 3.2 Sơ đồ làm việc cho nhận dạng cây đa bộ phận


3.2

Phương pháp kết hợp lai bền vững RHF
Trong chương này, chúng tôi sử dụng một số ký hiệu sau:

❼ q = {I1 , I2 , .., IN }: là câu truy vấn chứa các ảnh của N bộ phận (trong công việc

này chúng tôi chọn N = 2);
❼ C: số loài trong cơ sở dữ liệu;
❼ si (Ik ) là độ tin cậy của loài thứ i khi sử dụng ảnh Ik như là câu truy vấn của

nhận dạng đơn bộ phận, ở đó 1 ≤ i ≤ C, 1 ≤ k ≤ N ;
❼ c: lớp dự báo cho câu truy vấn q.

10


Kỹ thuật kết hợp dựa trên sự biến đổi
Câu truy vấn q được dự đoán vào lớp c định nghĩa như sau:
Luật lớn nhất Trong các độ tin cậy cùng một lớp, giá trị lớn nhất được lựa chọn.
c = arg max max si (Ik )
k=1..N

i

(3.1)

Luật tổng Cộng tổng các độ tin cậy cùng một lớp lại.
N


c = arg max
i

si (Ik )

(3.2)

k=1

Luật nhân Nhân các độ tin cậy cùng một lớp lại.
N

c = arg max
i

si (Ik )

(3.3)

k=1

Các phương pháp kết hợp dựa trên biến đổi không phải luôn luôn đạt được kết
quả tốt. Tuy nhiên các phương pháp này là đơn giản và không yêu cầu quá trình huấn
luyện, hầu hết các phương pháp nhận dạng cây dựa trên nhiều bộ phận đều sử dụng
các phương pháp này.
Kỹ thuật kết hợp dựa trên phân lớp (CBF)
Ý tưởng chính của kỹ thuật kết hợp dựa trên phân lớp là nhiều độ tin cậy được
đưa vào một véc tơ đặc trưng và sử dụng một bộ phân lớp để phân tách các lớp dựa
trên không gian các véc tơ đặc trưng thu được. Chúng tôi thực hiện ý tưởng này cho
nhận dạng cây từ ảnh của hai bộ phận. Chúng tôi sử dụng máy véc tơ hỗ trợ (SVM)

làm bộ phân lớp do đây là một bộ phân lớp mạnh. CBF được tiến hành như sau: Với
mỗi một ảnh, chúng tôi cho đi qua bộ phân lớp tương ứng, chúng tôi thu được một
danh sách C độ tin cậy tương ứng cho C lớp. Với mỗi cặp ảnh chúng tôi có C cặp độ
tin cậy tương ứng cho C lớp, chúng tôi có một mẫu dương tại vị trí lớp đúng và C − 1
mẫu âm còn lại. Các mẫu dương và mẫu âm được mô tả trong hình 3.3. Sau đó chúng
tôi sử dụng bộ phân lớp SVM để huấn luyện các mẫu này.
Trong pha kiểm thử, cho câu truy vấn q, phương pháp CBF trả về kết quả hai xác
suất dự báo cho loài thứ i: một cho lớp dương ký hiệu Ppos (i, q) và một cho lớp âm ký
hiệu Pneg (i, q). Danh sách các loài được xếp hạng bởi si (q), ở đó si (q) là độ tin cậy của
loài thứ i thu được cho câu truy vấn q thuộc về lớp dương:
si (q) = Ppos (i, q)
11

(3.4)


Hình 3.3 Giải thích về các mẫu âm và mẫu dương
Lớp c là lớp dự báo được xác định như sau, ở đó 1 ≤ i ≤ C
c = arg max si (q)

(3.5)

i

Kỹ thuật kết hợp lai bền vững (RHF)
Kỹ thuật kết hợp dựa trên phân lớp có thể làm mất đi sự phân bố các đặc điểm
của mỗi loài bởi vì tất cả các mẫu dương và mẫu âm của tất cả các loài được huấn
luyện cùng nhau. Do đó để phát huy sự phân bố các đặc điểm của mỗi loài, chúng tôi
xây dựng mỗi loài một mô hình SVM dựa trên các mẫu dương và mẫu âm của mỗi
loài. Với mỗi câu truy vấn q, chúng tôi thu được C mẫu âm/dương tương ứng cho C

lớp. Mỗi mẫu tương ứng cho lớp i chúng tôi sẽ cho qua bộ phân lớp SVM cho lớp i thu
được xác suất tương ứng si (q). Sau đó chúng tôi thực hiện nhân giá trị si (q) với các
giá trị trong mẫu đang xét. Mô hình lai đề xuất được tiến hành như sau:
2

c = arg max si (q).
i

si (Ik )

(3.6)

k=1

Mô hình này là tích hợp giữa luật nhân và kỹ thuật kết hợp dựa trên phân lớp.
Chúng tôi mong đợi rằng xác suất của câu truy vấn q vào lớp dương ảnh hưởng đến
kết quả kết hợp. Nếu xác suất của câu truy vấn q vào lớp dương là cao thì xác suất
của câu truy vấn q thuộc vào lớp thứ i cũng cao.

12


3.3

Lựa chọn mô hình phân lớp cho nhận dạng cây đơn bộ phận

Để nhận dạng cây dựa trên nhiều bộ phận đạt kết quả cao, ngoài việc sử dụng
các kỹ thuật kết hợp hiệu quả, một nhân tố quan trọng góp phần để nâng cao kết quả
này là kết quả nhận dạng trên một bộ phận phải đạt kết quả cao. Với sự thành công
của các mạng CNN cho các bài toán nhận dạng đối tượng trong những năm gần đây,

trong phần này chúng tôi triển khai một số mạng phổ biến là AlexNet[19], ResNet[20]
và GoogLeNet [21] cho nhận dạng một bộ phận cây.
Chúng tôi đề xuất hai chiến lược nhận dạng đơn bộ phận được miêu tả trong Hình
3.9: (1) Trong chiến lược thứ nhất, một mạng CNN sẽ được huấn luyện cho mỗi bộ
phận; (2) Với chiến lược thứ hai, một mạng CNN được huấn luyện cho tất cả các ảnh
bộ phận. Chiến lược thứ nhất cho phép kết hợp tường minh cho mỗi bộ phận trong
khi chiến lược thứ hai không yêu cầu biết của bộ phận cây và thực hiện tính toán ít
hơn do chỉ có một mạng CNN.

Hình 3.9 Hai chiến lược nhận dạng cây dựa trên một bộ phận.
Khi thực hiện huấn luyện, chúng tôi sử dụng bộ trọng số đã được tiền huấn luyện
trên cơ sở dữ liệu ImageNet và tinh chỉnh mạng với cơ sở dữ liệu thử nghiệm.

3.4

Các kết quả thực nghiệm

Để triển khai các thực nghiệm, chúng tôi cài đặt trên cấu hình máy là GHzCPU
2.20, RAM 16 GB, GPU GeForce GTX 1080 Ti với Tensorflow. Chúng tôi tối ưu mô
hình cho nhận dạng cây với việc tối ưu các tham số được sử dụng trong AlexNet ,
ResNet và GoogLeNet.
3.4.1 Cơ sở dữ liệu
Chúng tôi trích xuất từ LifeCLEF 2015, 50 loài cây có đầy đủ các ảnh của các bộ
phận. Ngoài ra với mong muốn tăng số lượng ảnh cho cơ sở dữ liệu này chúng tôi thực
hiện thu thập từ internet. Cơ sở dữ liệu này được hiển thị trong Bảng 3.2. Dữ liệu chia
thành 3 phần: CNN training là dữ liệu huấn luyện của mạng CNN cho nhận dạng một

13



bộ phận; SVM input được sử dụng làm tập dữ liệu huấn luyện cho bộ phân lớp SVM;
testing được sử dụng để đánh giá hiệu suất của các phương pháp kết hợp đã trình bày.
Bảng 3.2 Cơ sở dữ liệu thu thập của 50 loài với 4 bộ phận
Flower Leaf Entire Branch Total
CNN Training

1650

1930

825

1388

5793

SVM Input

986

1164

495

833

3478

Testing


673

776

341

553

2343

Tổng

3309

3870

1661

2774

11614

Số loài = 50
3.4.2

Các kết quả thử nghiệm

Kết quả nhận dạng đơn bộ phận
Các kết quả thu được cho hai chiến lược đề xuất được hiển thị trong Bảng 3.3.
Chúng tôi quan sát thấy rằng GoogLeNet thu được kết quả tốt hơn so với AlexNet,

ResNet ở cả hai phương pháp và cho hầu hết các bộ phận ngoại trừ ảnh toàn bộ của
cây trong chiến lược 1. Một điểm thú vị là chiến lược 1 phù hợp với bộ phận lá và hoa
trong khi chiến lược 2 là lựa chọn tốt cho các bộ phận khác như cành và ảnh toàn bộ
cây. Điểm thuận lợi của chiến lược 2 cho nhận dạng đơn bộ phận là không yêu cầu biết
loại bộ phận. Các kết quả cũng chỉ ra rằng hoa là bộ phận cho kết quả tốt nhất, trong
khi ảnh toàn bộ cây cho kết quả thấp nhất.
Bảng 3.3 Độ chính xác nhận dạng cây dựa trên một bộ phận với hai chiến lược:
(1) Một mạng cho mỗi bộ phận; (2) Một mạng cho tất cả các bộ phận.
Bộ phận
Leaf (Le)
Flower (Fl)
Branch (Br)
Entire (En)

AlexNet
Chiến lược 1
66.2
73.0
43.2
32.4

Chiến lược 2
63.8
72.2
47.4
33.8

ResNet
Chiến lược 1
73.4

75.6
48.6
32.4

Chiến lược 2
70.6
75.4
54.6
39.0

GoogLeNet
Chiến lược 1
75.0
82.2
53.2
36.4

Chiến lược 2
76.6
78.4
54.8
35.2

Đánh giá chiến lược kết hợp đề xuất RHF
Bảng 3.4, Bảng 3.5 và Bảng 3.6 cho thấy kết quả đạt được khi kết hợp từng cặp
bộ phận. Các kết quả chỉ ra rằng hầu như kết quả kết hợp hai bộ phận đều cao hơn
kết của mỗi bộ phận tương ứng. Trong trường hợp áp dụng chiến lược 1 cho nhận dạng
đơn bộ phận, đối với mạng AlexNet, kết quả tốt nhất cho một bộ phận là 73.0 % cho
bộ phận hoa, trong khi bằng cách áp dụng phương pháp RHF đề xuất, độ chính xác
của sự kết hợp lá và hoa tăng đáng kể là 16.8 % lên 89.8 %. Khi áp dụng ResNet, sự

kết hợp giữa lá và hoa (Le-Fl) tăng lên 17 % so với một bộ phận và 13.6% khi áp dụng
mạng GoogLeNet. Không chỉ đối với hoa và lá mà trong tất cả sáu cặp bộ phận kết
hợp, phương pháp đề xuất RHF đạt được kết quả cao nhất.
So sánh phương pháp đề xuất với phương pháp MCDCNN[22]
14


Bảng 3.4 Độ chính xác đạt được ở hạng 1 khi kết hợp mỗi cặp bộ phận với các phương pháp
kết hợp khác nhau trong trường hợp sử dụng mạng AlexNet.
Độ chính xác (%)
En - Le
En - Fl
Le - Fl
Br - Le
Br - Fl
Br - En

R1
R5
R1
R5
R1
R5
R1
R5
R1
R5
R1
R5


Phương pháp 1 cho nhận dạng đơn
Max Sum Product
CBF
rule
rule
rule
66.2
67.2
75.6
74.0
88.6
88.8
93.2
81.8
73.8
74.4
78.8
77.2
92.6
92.8
94.2
84.2
81.6
82.0
88.6
86.2
96.8
96.8
98.2
90.4

70.2
71.0
76.8
73.8
89.6
90.0
93.4
79.6
74.2
75.4
80.8
79.0
90.8
91.4
95.2
83.0
51.6
52.2
58.0
58.0
76.8
77.6
83.6
81.4

bộ phận
RHF
76.6
94.6
81.2

94.4
89.8
98.4
78.4
93.8
81.4
95.4
58.6
83.8

Phương pháp 2 cho nhận dạng đơn
Max Sum Product
CBF
rule
rule
rule
66.8
67.2
77.4
71.4
88.4
88.2
93.6
80.2
73.84 73.6
78.8
76.24
88.8
89.2
94.8

83.6
78.8
81.2
89.6
83.2
95.6
96.0
99.2
88.8
66.4
68.2
78.2
73.6
92.0
93.0
95.6
81.6
70.2
70.6
80.6
76.6
90.4
90.6
95.4
84.6
52.4
52.8
60.6
60.6
78.2

78.6
83.6
83.4

bộ phận
RHF
78.6
94.4
80.4
95.6
89.6
99.2
78.2
96.0
81.4
95.6
61.6
84.9

Bảng 3.5 Độ chính xác đạt được ở hạng 1 khi kết hợp mỗi cặp bộ phận với các phương pháp
kết hợp khác nhau trong trường hợp sử dụng mạng ResNet.
Độ chính xác (%)
En - Le
En - Fl
Le - Fl
Br - Le
Br - Fl
Br - En

R1

R5
R1
R5
R1
R5
R1
R5
R1
R5
R1
R5

Phương pháp 1 cho nhận dạng đơn
Max Sum Product
CBF
rule
rule
rule
70.4
72.2
75.2
73.2
91.8
92.6
92.8
90.6
73.8
75.4
80.0
76.4

93.2
93.6
95.0
89.2
90.0
91.4
92.4
91.4
98.0
98.8
99.0
96.0
77.8
79.2
82.0
79.4
91.8
92.2
94.0
90.4
80.0
81.0
84.4
82.0
93.6
94.4
97.6
91.4
52.4
54.4

62.2
55.0
82.0
83.4
86.6
80.4

bộ phận
RHF
78.0
93.2
83.2
95.4
92.6
99.2
83.2
94.6
86.4
97.8
60.6
87.4

Phương pháp 2 cho nhận dạng đơn
Max Sum Product
CBF
rule
rule
rule
73.6
75.4

80.8
73.2
94.2
94.4
94.8
90.6
74.6
76.0
80.2
76.4
94.4
95.0
95.8
89.2
85.8
87.6
89.2
91.4
98.4
98.4
99.0
96.0
79.8
81.4
83.6
79.4
94.4
94.4
96.4
90.4

78.8
80.4
85.6
81.0
95.6
96.0
96.2
91.4
60.4
66.2
69.0
55.0
84.8
85.6
89.6
80.4

bộ phận
RHF
80.8
95.2
83.2
95.2
92.6
99.2
83.2
94.6
86.0
97.6
69.0

87.6

Bảng 3.6 Độ chính xác đạt được ở hạng 1 khi kết hợp mỗi cặp bộ phận với các phương pháp
kết hợp khác nhau trong trường hợp sử dụng mạng GoogLeNet.
Accuracy (%)
En - Le
En - Fl
Le - Fl
Br - Le
Br - Fl
Br - En

R1
R5
R1
R5
R1
R5
R1
R5
R1
R5
R1
R5

Phương pháp 1 cho nhận dạng đơn
Max Sum Product
CBF
rule
rule

rule
74.6
75.0
79.2
79.4
94.0
93.8
93.6
84.0
79.2
79.8
83.4
83.8
95.8
96.0
97.0
89.2
91.4
92.0
95.4
93.8
99.6
99.6
99.6
96.0
79.8
81.0
84.6
80.2
94.4

94.6
97.4
84.8
85.0
86.0
90.2
87.2
97.0
97.4
99.2
90.2
58.0
58.8
61.8
60.2
81.4
81.8
86.8
70.4

bộ phận
RHF
80.6
94.4
84.2
96.8
95.8
99.8
84.6
97.4

91.6
99.0
64.2
87.0

Phương pháp 2 cho nhận dạng đơn
Max Sum Product
CBF
rule
rule
rule
77.8
78.0
79.4
81.2
91.4
91.4
96.2
85.6
77.6
78.0
81.0
80.2
93.6
93.8
95.8
84.4
90.6
90.2
92.6

91.8
98.6
98.8
99.0
93.8
81.2
81.8
85.6
81.6
96.8
96.8
96.8
86.0
80.0
80.4
86.8
83.2
96.0
96.0
97.6
86.8
57.8
58.4
65.6
59.2
82.2
82.0
87.0
68.4


bộ phận
RHF
82.0
95.8
81.0
96.2
92.8
99.0
86.6
97.0
87.2
97.0
66.4
87.0

Để cho thấy hiệu quả của kỹ thuật kết hợp đề xuất, chúng tôi so sánh phương
pháp RHF với MCDCNN[22]. Các kết quả đạt được trên cùng cơ sở dữ liệu được cho
trong Bảng 3.8 cho thấy phương pháp đề xuất vượt trội hơn MCDCNN trong tất cả

15


Bảng 3.8 So sánh phương pháp đề xuất với MCDCNN [22]
Accuracy (%)
En - Le
En - Fl
Le - Fl
Br - Le
Br - Fl
Br - En


R1
R5
R1
R5
R1
R5
R1
R5
R1
R5
R1
R5

Phương pháp 1 cho
nhận dạng đơn bộ phận
RHF
RHF
RHF
(AlexNet) (ResNet) (GoogLeNet)
76.6
78.0
80.6
94.6
93.2
94.4
81.2
83.2
84.2
94.4

95.4
96.8
89.8
92.6
95.8
98.4
99.2
99.8
78.4
83.2
84.6
93.8
94.6
97.4
81.4
86.4
91.6
95.4
97.8
99.0
58.6
60.6
64.2
83.8
87.4
87.0

Phương pháp 2 cho
nhận dạng đơn bộ phận
RHF

RHF
RHF
(AlexNet) (ResNet) (GoogLeNet)
78.6
80.8
82.0
94.4
95.2
95.8
80.4
83.2
81.0
95.6
95.2
96.2
89.6
92.6
92.8
99.2
99.2
99.0
78.2
83.2
86.6
96.0
94.6
97.0
81.4
86.0
87.2

95.6
97.6
97.0
61.6
69.0
66.4
84.0
87.6
87.0

MCDCNN
[22]
70.0
91.0
75.6
94.2
86.6
98.4
72.2
93.0
76.8
93.0
55.2
80.6

các cặp bộ phận kết hợp. Sự cải thiện lên tới 14.4 % cho sự kết hợp giữa cành và lá.

3.5

Kết luận


Chương này chúng tôi đã đề xuất một phương pháp kết hợp muộn RHF cho bài
toán nhận dạng cây dựa trên hai bộ phận. Đối với nhận dạng đơn bộ phận, chúng tôi
áp dụng một số mạng CNN tiêu biểu. Kỹ thuật đề xuất RHF cho kết quả tốt nhất so
với các kỹ thuật kết hợp khác với độ chính xác tăng từ 3.2% đến 14.8% tại hạng 1.

CHƯƠNG 4

CÁCH TIẾP CẬN ĐỀ XUẤT CHO NHẬN DẠNG
CÂY TỰ ĐỘNG KHÔNG CÓ SẴN DỮ LIỆU VÀ ÁP
DỤNG CHO HỆ THỐNG TÌM KIẾM DỰA TRÊN
HÌNH ẢNH
4.1

Cách tiếp cận đề xuất cho hệ thống nhận dạng cây tự động
khi không có sẵn dữ liệu

Mặc dù đã có rất nhiều đề xuất cũng như những kết quả đáng ghi nhận cho bài
toán nhận dạng cây. Tuy nhiên, các nghiên cứu trước đó thường dựa trên giả thuyết
là cơ sở dữ liệu đã có sẵn. Trong chương này chúng tôi đề xuất một cách tiếp cận cho
phép xây dựng các hệ thống nhận dạng cây với dữ liệu không có sẵn. Ý tưởng chính
của các tiếp cận này là các loài cây có thể có phân bố rất khác nhau trên hành tinh,
tuy nhiên các loài cây thường chia sẻ đặc điểm chung: có các bộ phận lá, hoa...Xuất
phát từ quan sát này, chúng tôi sẽ xây dựng một bộ phát hiện tự động các bộ phận
dựa trên các cơ sở dữ liệu đã có từ trước. Bộ phát hiện tự động này sẽ được xem như
là bước lọc để xử lý tự động dữ liệu thu thập từ các nguồn với sự tham gia của nhiều
người dùng (crowdsourcing). Cách tiếp cận được đề xuất bao gồm 4 bước và được biểu
diễn ở Hình 4.3.
16



Hình 4.3 Sơ đồ đề xuất
❼ Thu thập dữ liệu cây: Bước đầu tiên là thu thập dữ liệu từ nhiều nguồn khác

nhau.
❼ Phát hiện bộ phận cây Chúng tôi đề xuất xây dựng bộ phát hiện bộ phận cây

(lá, hoa, quả, thân, cành, không phải cây) dựa trên bộ dữ liệu LifeCLEF 2015 và
được sử dụng làm bộ lọc dữ liệu tự động để đánh giá dữ liệu.
❼ Đánh giá dữ liệu: Mục đích chính của công việc này là loại bỏ các hình ảnh

không phải là cây.
❼ Nhận dạng cây: Chúng tôi áp dụng các kỹ thuật nhận dạng cây dựa trên một

bộ phận hoặc nhiều bộ phận.
Trong các mục sau, chúng tôi sẽ tập trung trình bày bộ phát hiện bộ phận cây và ứng
dụng của cách tiếp cận đề xuất trong việc xây dựng chức năng tìm kiếm theo hình ảnh
của hệ thống tra cứu cây thuốc Việt Nam VnMed.

4.2

Phát hiện bộ phận cây

Phát hiện bộ phận cây tự động nhằm xác định bộ phận của cây có mặt trong
một hình ảnh cho trước. Chúng tôi đề xuất áp dụng mạng GoogLeNet và kỹ thuật học
chuyển giao để xây dựng bộ phát hiện bộ phận.
Để huấn luyện và đánh giá mạng đề xuất, chúng tôi lấy cơ sở dữ liệu LifeCLEF
2015 và dữ liệu thu thập từ internet. Chúng tôi sử dụng 5 lớp trong LifeCLEF 2015
đó là lá (bao gồm lá + lá nền đơn giản), hoa, quả, thân, cành (bao gồm cành + toàn
bộ). Với mục đích phân loại một ảnh đầu vào là cây hay không phải là cây, chúng tôi

cần tạo một lớp chứa các ảnh không phải là cây. Với các ảnh không phải là cây, chúng
17


tôi thu thập từ Internet.
Thực nghiệm: Chúng tôi tinh chỉnh mạng và điều chỉnh một số tham số như
kích thước bó: 32, tốc độ học khởi tạo: 0.001, momentum: 0.9. Bảng 4.4 trình bày kết
quả tương ứng với hai chiến lược khởi tạo trọng số. Kết quả cho thấy rằng việc sử dụng
trọng số tiền huấn luyện trên một cơ sở dữ liệu lớn như ImageNet cho phép đạt được
sự cải thiện +5.08 % ở hạng 1 và +2.54 % ở hạng 2 so với trường hợp sử dụng bộ
trọng số khởi tạo ngẫu nhiên. Độ chính xác của phương pháp được đề xuất ở hạng 1
và hạng 2 tương ứng là 87.18 % và 97.46 %. Kết quả này là rất hứa hẹn vì các hình
ảnh chủ yếu là có nền phức tạp. Điều này chứng tỏ rằng phương pháp học sâu có khả
năng học tốt với các hình ảnh tự nhiên.
Bảng 4.4 Kết quả bộ phát hiện bộ phận của mạng đề xuất OrganNet với hai bộ trọng
số khởi tạo khác nhau.
Bộ trọng số khởi tạo
Thứ hạng 1 (%) Thứ hạng 2 (%)
Khởi tạo ngẫu nhiên
82.10
94.92
Tiền huấn luyện trên ImageNet 87.18
97.46

4.3

Phát triển hệ thống tra cứu cây thuốc Việt Nam (VnMed)

Hệ thống tra cứu cây thuốc Việt Nam VnMed đã được phát triển bởi Viện MICA,
Trường đại học Bách Khoa Hà Nội cho phép tìm kiếm thông tin của 600 cây thuốc

thường được sử dụng ở Việt Nam dựa trên từ khóa và mô tả sinh học. Việc phát triển
chức năng tìm kiếm dựa trên hình ảnh là quan trọng tuy nhiên việc này khó thực hiện
do sự khó khăn trong việc thu thập hình ảnh của các cây thuốc. Trong nghiên cứu này,
chúng tôi đề xuất áp dụng cách tiếp cận ở trên trong việc phát triển chức năng tìm
kiếm cây thuốc dựa trên hình ảnh.
Để đánh giá sự khả thi cũng như vai trò của các bước trong cách tiếp cận đề xuất,
chúng tôi thu thập dữ liệu 100 cây thuốc Việt Nam theo 2 phương pháp: thủ công, dựa
trên cộng đồng. Chúng tôi tổ chức các ảnh thu thập được thành 4 cơ sở dữ liệu như
sau:
❼ VnDataset1 chứa các ảnh thu được theo phương pháp thủ công;
❼ VnDataset2 chứa các ảnh của VnDataset1 và các ảnh thu thập theo phương

pháp dựa trên cộng đồng. Trong cơ sở dữ liệu này, số ảnh cho mỗi loài biến đổi
từ 57 tới 379. Trung bình mỗi loài có 206 ảnh. VnDataset2 chứa nhiễu (như các
ảnh không phải là cây) do quá trình thu thập ảnh tự động trên internet.
❼ VnDataset3 chứa các ảnh còn lại của VnDataset2 sau khi áp dụng bộ phát hiện

bộ phận xây dựng ở phần trước để loại bỏ những ảnh không hợp lệ.
❼ VnDataset4 chứa những ảnh của VnDataset3 sau khi loại bỏ thủ công những

ảnh không hợp lệ của VnDataset3;
18


Các cơ sở dữ liệu huấn luyện được trình bày chi tiết trong Bảng 4.7. Chúng tôi tiến
hành trên 2 tập đánh giá evaluation 1 và evaluation 2. Tập evaluation 1 chứa 972 ảnh
tự chụp trong khi evaluation 2 gồm 3,163 ảnh là những ảnh của tập evaluation 1 và
những ảnh được thu thập dựa trên cộng đồng.
Bảng 4.7 Bốn cơ sở dữ liệu cây thuốc Việt Nam
VnDataset1 VnDataset2 VnDataset3 VnDataset4

Tập huấn luyện 3,901
16,513
15,652
15,150
Chúng tôi xây dựng bộ nhận dạng cây thuốc bằng cách áp dụng mạng GoogLeNet
dựa trên việc sử dụng bộ trọng số được tiền huấn luyện trên ImageNet và sử dụng các
tham số huấn luyện sau: tốc độ học cơ bản: 0.001, kích thước lô: 32. Bốn mô hình huấn
luyện được tạo cho bốn cơ sở dữ liệu tương ứng (ký hiệu mô hình Mi ). Aij là độ chính
xác của mô hình Mi trong tập kiểm thử j. Các kết quả được hiển thị trong Bảng 4.8.
Bảng 4.8 Các kết quả nhận dạng cây thuốc Việt nam
Tập kiểm thử từ Độ chính xác (%) M1
M2
M3
rank 1
81.58 76.03 78.70
evaluation1
rank 5
90.64 88.48 83.54
rank 5
33.27 65.00 75.77
rank 1
29.62 56.50 57.73
evaluation2
rank 5
34.62 66.42 67.31

M4
79.63
84.77
66.45

58.46
79.48

Ba kết luận thú vị có thể được rút ra từ các kết quả thực nghiệm. Thứ nhất, dữ
liệu huấn luyện đóng vai trò quan trọng trong hiệu năng của mạng. Dữ liệu huấn luyện
càng không đồng nhất, mô hình càng mạnh mẽ. Trong số 4 mô hình, M1 vượt trội so
với các mô hình khác trên VnDataset1 (độ chính xác ở hạng 1 là 81.58 %). Tuy nhiên,
khi thử nghiệm với các bộ dữ liệu khác, hiệu năng của mô hình này giảm đáng kể. Các
mô hình khác thu được kết quả tương đối thấp hơn mô hình M1 trên VnDataset1.
Độ chính xác ở hạng 1 của M2 , M3 và M4 lần lượt là 76.03%, 78.70% và 79.63%. Tuy
nhiên, các mô hình này vẫn giữ độ chính xác cao khi làm việc với các bộ dữ liệu khác
(VnDataset1, VnDataset2, VnDataset3). Thứ hai, xác thực dữ liệu là một bước
quan trọng trong việc xây dựng bộ dữ liệu dựa trên nguồn dữ liệu cung cấp từ cộng
đồng. Cuối cùng, phương pháp đề xuất có thể giúp xây dựng chức năng tìm kiếm hình
ảnh trong ứng dụng VnMed cho phép tìm kiếm các cây quan tâm bằng cách sử dụng
hình ảnh các bộ phận khác nhau của cây.
Đến thời điểm viết luận án này, dựa trên phương pháp đề xuất, một cơ sở dữ liệu
chứa 75,405 hình ảnh của 596 cây thuốc Việt Nam đã được thu thập. Bộ nhận dạng
cây VnPlantNet cho kết quả nhận dạng ở thứ hạng 1 là 66.61 % và ở thứ hạng 10 là
87.52 % trên bộ cơ sở dữ liệu này. Bộ nhận dạng này được tích hợp để xây dựng chức
năng tìm kiếm dựa trên hình ảnh trong trong ứng dụng tra cứu cây thuốc Việt Nam
VnMed.
19


4.4

Kết luận

Trong chương này, một cách tiếp cận cho bài toán nhận dạng cây khi không có

sẵn cơ sở dữ liệu được đề xuất. Bước quan trọng của phương pháp này là đánh giá dữ
liệu với mạng phát hiện bộ phận cây đề xuất. Các kết quả thực nghiệm đã chỉ ra rằng
OrganNet đã vượt qua các phương pháp hiện đại dựa trên GIST và SVM là 19.91%.
Chúng tôi cũng đánh giá phương pháp đề xuất cho việc xây dựng chức năng tìm kiếm
dựa trên hình ảnh của VnMed. Kết quả, một cơ sở dữ liệu 596 loài cây thuốc Việt Nam
được thu thập và được gán nhãn cẩn thận với sự trợ giúp của các nhà thực vật học.
Hơn nữa mô hình huấn luyện nhận dạng trên cơ sở dữ liệu này đã được tích hợp trong
ứng dụng VnMed.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Các kết luận
Luận án này có ba đóng góp: (1) đề xuất một phương pháp nhận dạng cây dựa
trên ảnh lá nền phức tạp, (2) một phương pháp kết hợp cho nhận dạng cây dựa trên
hai bộ phận (có tên RHF), (3) một sơ đồ cho nhận dạng cây tự động khi không có sẵn
nguồn dữ liệu và áp dụng sơ đồ này cho hệ thống tìm kiếm cây thuốc Việt Nam.
Đối với nhận dạng cây dựa trên ảnh lá nền phức tạp, chúng tôi đề xuất một
phương pháp kết hợp phân đoạn có tương tác và KDES cải tiến. Để đánh giá hiệu quả
của phương pháp đề xuất, chúng tôi tiến hành thực nghiệm trên các cơ sở dữ liệu khác
nhau. Các kết quả thu được chỉ ra việc kết hợp của phân đoạn tương tác và KDES cải
tiến trong phương pháp đề xuất là vượt trội hơn KDES gốc và các phương pháp dựa
trên việc trích chọn đặc trưng thủ công tốt hiện nay trên cả hai dữ liệu ImageCLEF
2013 và Flavia. Khi làm việc với các dữ liệu lớn và đa dạng như LifeCLEF 2015, các
kết quả thu được vẫn rất cạnh tranh với các phương pháp dựa trên các kỹ thuật học
sâu tiên tiến.
Chúng tôi đề xuất một kỹ thuật kết hợp RHF cho nhận dạng cây dựa trên nhiều
bộ phận cho phép kết hợp các kết quả của nhận dạng đơn bộ phận. Đối với nhận dạng
cây dựa trên đơn bộ phận chúng tôi đề xuất hai chiến lược: chiến lược 1 áp dụng một
mạng CNN cho mỗi bộ phận, và chiến lược 2 áp dụng một mạng CNN cho tất cả các
bộ phận, với hai mạng cơ sở là AlexNet và ResNet. Các kết quả đạt được chỉ ra rằng
phương pháp đề xuất là vượt trội hơn so với các phương pháp kết hợp cơ bản là kỹ

thuật dựa trên biến đổi và kỹ thuật dựa trên phân lớp. Phương pháp đề xuất cũng
vượt trội hơn so với phương pháp kết hợp MCDCNN trên tập con LifeCLEF 2015 với
50 loài. Các kết quả cũng chỉ ra rằng việc kết hợp hai bộ phận cho phép cải thiện độ
chính xác hơn là việc chỉ sử dụng một bộ phận. Giữa các cách kết hợp các bộ phận
khác nhau, kết hợp bộ phận lá và hoa cho kết quả tốt nhất. Khi áp dụng phương pháp
20


1 cho nhận dạng một bộ phận, đối với mạng AlexNet, kết quả tốt nhất cho nhận dạng
một bộ phận là bộ phận hoa đạt độ chính xác 73.0%, và khi áp dụng phương pháp kết
hợp đề xuất RHF, kết quả độ chính xác giữa bộ phận lá và hoa đã tăng lên 16.8%.
Khi triển khai hệ thống nhận dạng cây trong thực tế, một vấn đề chúng tôi gặp
phải là thiếu cơ sở dữ liệu hình ảnh của cây. Trong luận án này, chúng tôi giới thiệu
một cách tiếp cận cho nhận dạng cây khi không có sẵn nguồn dữ liệu bao gồm 4 bước
chính: thu thập dữ liệu, phát hiện tự động bộ phận cây, lọc dữ liệu và nhận dạng cây.
Bước quan trọng của phương pháp đề xuất là bộ lọc dữ liệu với sự trợ giúp của bộ
phận phát hiện bộ phận cây được đề xuất có tên OrganNet. Các thực nghiệm chỉ ra
rằng OrganNet vượt trội hơn so với phương pháp dựa trên đặc trưng GIST và bộ phân
lớp SVM là 19.91%. Chúng tôi cũng áp dụng phương pháp đề xuất cho chức năng tìm
kiếm dựa trên hình ảnh của ứng dụng VnMed. Các thực nghiệm trên cơ sở dữ liệu 100
cây thuốc Việt Nam chỉ ra vai trò của việc lọc dữ liệu từ nhiều nguồn khác nhau là
rất quan trọng, nó giúp cho các mô hình huấn luyện dữ liệu trở nên bền vững hơn.
Dựa trên cách tiếp cận đề xuất, một cơ sở dữ liệu ảnh bao gồm 75,405 ảnh của 596
cây thuốc Việt Nam được xây dựng. Chức năng tìm kiếm cây thuốc dựa trên mô hình
huấn luyện trên cơ sở dữ liệu thu thập đã được tích hợp trong ứng dụng VnMed.

Hướng phát triển
Trong luận án này, chúng tôi đã đề xuất một vài cải tiến cho nhận dạng cây. Tuy
nhiên những cải tiến này chỉ là một phần nhỏ trong quá trình phát triển hệ thống
nhận dạng cây tự động trong môi trường thực. Trong tương lai, chúng tôi muốn tiếp

tục thực hiện một số công việc nghiên cứu dựa trên kết quả của luận án này. Trong
phần này, chúng tôi tóm tắt các công việc chúng tôi muốn làm trong tương lai được
chia thành 2 nhóm: tương lai gần, tương lai xa.
❼ Trong tương lai gần:

– Đánh giá phương pháp đề xuất cho nhận dạng cây nhiều bộ phận: Trong
luận án này, chúng tôi mới thực hiện phương pháp đề xuất RHF cho nhận
dạng cây dựa trên hai bộ phận. Về mặt lý thuyết, phương pháp đề xuất có
thể áp dụng cho nhận dạng cây nhiều bộ phận. Do đó trong thời gian tới,
chúng tôi sẽ mở rộng đề xuất cho nhận dạng cây dựa trên nhiều bộ phận.
– Triển khai mô đun tìm kiếm cho VnMed: Trong triển khai hiện tại, chức
năng tìm kiếm dựa trên hình ảnh mới chỉ lấy một hình ảnh trong câu truy
vấn. Chúng tôi muốn triển khai truy tìm ảnh dựa trên hai bộ phận trong
giai đoạn đầu tiên và sau đó triển khai cho nhiều bộ phận trong ứng dụng
này. Để thực hiện mục đích này, một giao diện cho phép lựa chọn một vài
ảnh cũng như phương pháp kết hợp cần được thiết kế và cài đặt.
❼ Trong tương lai xa:

21


Mặc dù đã có nhiều cải tiến về độ chính xác của bài toán nhận dạng cây nhưng
độ chính xác hiện tại vẫn còn thấp đặc biệt khi làm việc với cơ sở dữ liệu không
đồng nhất và có số lượng loài lớn. Ví dụ, độ chính xác tại hạng 1 của cơ sở dữ
liệu 596 loài thuốc Việt Nam là 66.61%. Do đó, công việc đầu tiên trong kế hoạch
lâu dài là cải thiện độ chính xác theo các hướng sau:
– Làm giàu cơ sở dữ liệu thông qua việc sử dụng hệ thống bởi những người
sử dụng cuối: Chúng tôi sẽ thu thập các ảnh cây từ những người dùng hệ
thống, các ảnh này sẽ được đánh giá bởi hệ thống đề xuất và gán nhãn bởi
hệ thống nhận dạng cây tự động, sau đó sẽ được xác thực bởi các chuyên

gia. Những ảnh này sẽ được sử dụng để làm giàu dữ liệu huấn luyện. Các
kết quả thực nghiệm của chúng tôi chỉ ra độ chính xác của phương pháp đề
xuất có thể được cải tiến khi cơ sở dữ liệu huấn luyện được làm giàu.
– Thiết kế các kiến trúc mạng CNN/hàm mất mát phù hợp cho bài toán nhận
dạng cây: Một phần của luận án này là kỹ thuật kết hợp, với nhận dạng
một bộ phận, chúng tôi đơn giản áp dụng các chiến lược học chuyển giao
trên các mạng CNN sẵn có. Trong tương lai chúng tôi sẽ xem xét và thiết
kế các kiến trúc mạng CNN với hàm mất mát phù cho bài toán nhận dạng
cây.
– Phát triển hệ thống nhận dạng cây dựa trên đa phương thức: Hình ảnh là
một thông tin rất quan trọng để nhận dạng cây. Tuy nhiên việc chỉ sử dụng
hình ảnh cho nhận dạng cây trong nhiều trường hợp là không đầy đủ. Bên
cạnh hình ảnh, các chuyên gia và các nhà thực vật học còn xem xét các yếu
tố khác (như mùi hương, độ sần sùi,..). Trong tương lai, chúng tôi sẽ nghiên
cứu và phát triển nhận dạng cây dựa trên đa phương thức.
Thứ hai, chúng tôi sẽ mở rộng công việc nghiên cứu này cho các loài cây khác
của Việt Nam như các loài cây có giá trị quan trọng về mặt kinh tế xã hội.
Cuối cùng, với mục đích quảng bá kiến thức các loài cây trong ứng dụng của
mình tới đông đảo cộng đồng đặc biệt là các thế hệ trẻ, chúng tôi mong muốn
phát triển ứng dụng trò chơi nhận dạng cây và dựa trên các công nghệ thực tại
hiện thực ảo và hiện thực tăng cường.

22


TÀI LIỆU THAM KHẢO
[1] Go¨eau H., Bonnet P., and Joly A. (September 2015). Lifeclef plant identification
task 2015 . In CEUR-WS, editor, CLEF: Conference and Labs of the Evaluation
forum, volume 1391 of CLEF2015 Working notes. Toulouse, France.
[2] Go¨eau H., Bonnet P., and Joly A. (2017). Plant identification based on noisy web

data: the amazing performance of deep learning (lifeclef 2017). CLEF working
notes, 2017.
[3] Govaerts R. (2001). How many species of seed plants are there? . Taxon, 50(4):pp.
1085–1090.
[4] W¨aldchen J. and M¨ader P. (2018). Plant species identification using computer vision techniques: A systematic literature review . Archives of Computational Methods in Engineering, 25(2):pp. 507–543.
[5] Nilsback M.E. and Zisserman A. (2009). An automatic visual flora-segmentation
and classification of flower images. Ph.D. thesis, Oxford University.
[6] Yoo H.J. (2015). Deep convolution neural networks in computer vision. IEIE
Transactions on Smart Processing & Computing, 4(1):pp. 35–43.
[7] Joly A., Go¨eau H., Bonnet P., Baki´c V., Barbe J., Selmi S., Yahiaoui I., Carré J.,
Mouysset E., Molino J.F., et al. (2014). Interactive plant identification based on
social image data. Ecological Informatics, 23:pp. 22–34.
[8] 15/january/2017).
[9] Meyer F. and Beucher S. (1990). Morphological segmentation. Journal of visual
communication and image representation, 1(1):pp. 21–46.
[10] Bo L., Ren X., and Fox D. (2010). Kernel descriptors for visual recognition. In
Advances in neural information processing systems, pp. 244–252.
[11] NGUYEN V.T. (2015). Visual interpretation of hand postures for human-machine
interaction. Ph.D. thesis, Université de La Rochelle.
[12] Chaki J., Parekh R., and Bhattacharya S. (2015). Recognition of whole and deformed plant leaves using statistical shape features and neuro-fuzzy classifier . In
2015 IEEE 2nd international conference on recent trends in information systems
(ReTIS), pp. 189–194.
[13] Chaki J., Parekh R., and Bhattacharya S. (2015). Plant leaf recognition using
texture and shape features with neural classifiers. Pattern Recognition Letters,
58:pp. 61–68.

23



×