Tải bản đầy đủ (.pdf) (27 trang)

Tóm tắt luận án: Nghiên cứu và phát triển các phương pháp nhận dạng cây dựa trên nhiều ảnh bộ phận của cây, có tương tác với người sử dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.2 MB, 27 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGUYỄN THỊ THANH NHÀN

NGHIÊN CỨU VÀ PHÁT TRIỂN CÁC PHƯƠNG
PHÁP NHẬN DẠNG CÂY DỰA TRÊN NHIỀU ẢNH
BỘ PHẬN CỦA CÂY, CÓ TƯƠNG TÁC VỚI NGƯỜI
SỬ DỤNG

Ngành: Khoa học máy tính
Mã số: 9480101

TÓM TẮT LUẬN ÁN TIẾN SĨ
KHOA HỌC MÁY TÍNH

Hà Nội −2020


Công trình được hoàn thành tại:
Trường Đại học Bách khoa Hà Nội

Người hướng dẫn khoa học:
1. PGS. TS. Lê Thị Lan
2. PGS. TS. Hoàng Văn Sâm

Phản biện 1: PGS. TS. Nguyễn Thị Thủy
Phản biện 2: PGS. TS. Trần Quang Bảo
Phản biện 3: PGS. TS. Phạm Văn Cường

Luận án sẽ được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ


cấp Trường họp tại Trường Đại học Bách khoa Hà Nội:

Vào hồi giờ, ngày tháng năm

Có thể tìm hiểu luận án tại thư viện:
1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội
2. Thư viện Quốc gia Việt Nam


GIỚI THIỆU
Động cơ
Thực vật có một vai trò quan trọng trong hệ sinh thái. Ngày nay, sự đa dạng của
hệ sinh thái nói chung và hệ thực vật nói riêng đang đứng trước nguy cơ bị suy giảm
do sự khai thác không hợp lý của con người. Nhiều giải pháp đã được đề xuất nhằm
bảo vệ đa dạng sinh học của hệ thực vật trong đó việc nâng cao hiểu biết của người
dân là được đánh giá là một trong những giải pháp hữu hiệu trong đó tên của thực
vật là chìa khóa quan trọng cho phép truy nhập đến các thông tin khác. Tuy nhiên, số
cây mà một người bình thường có khả năng nhận biết thường rất thấp so với số lượng
cây có trong hệ thực vật.
Sự phát triển và phổ dụng của các thiết bị thu nhận và lưu trữ như máy ảnh, điện
thoại cho phép xây dựng được một cơ sở dữ liệu hình ảnh lớn về các loài cây trong hệ
thực vật. Cùng với đó, các tiến bộ trong các kỹ thuật xử lý hình ảnh và nhận dạng
cho phép thực tiễn hóa ước mơ xây dựng các hệ thống nhận dạng cây tự động.
Trong những năm vừa qua, các nghiên cứu về nhận dạng cây dựa trên hình ảnh
của cây đã nhận được sự quan tâm của các nhà nghiên cứu liên lĩnh vực: thị giác máy
tính, học máy và thực vật học. Nhiều cải tiến đáng kể về chất lượng nhận dạng đã
được ghi nhận [4]. Một số hệ thống nhận dạng và tìm kiếm cây cũng đã được triển
khai trên thực tế.
Tuy vậy, nhận dạng cây hiện vẫn chưa được sử dụng rộng rãi do hai hạn chế chính.
Hạn chế thứ nhất là số loài cây có thể nhận dạng được vẫn còn rất thấp so với số lượng

cây có trong hệ thực vật. Cơ sở dữ liệu hình ảnh cây lớn nhất là LifeCLEF 2017 với
10,000 loài cây [2]) so với số lượng hơn 400,000 loài cây tồn tại trên trái đất [3]). Hạn
chế thứ hai là độ chính xác của nhận dạng cây tự động vẫn còn thấp đặc biệt là khi
làm việc trên dữ liệu đa dạng với số lớp lớn.

Mục tiêu
Luận án NCS hướng đến xây dựng các phương pháp hiệu quả cho phép nâng cao
độ chính xác của nhận dạng cây dựa vào hình ảnh.
Để đạt được mục tiêu này, trước tiên luận án tập trung vào cải thiện độ chính xác
của nhận dạng cây dựa trên ảnh của một bộ phận. Có nhiều bộ phận trên cây có thể
được dùng để xác định cây. Tuy nhiên, trong các bộ phận khác nhau của cây, lá là bộ
phận được lựa chọn nhiều nhất. Các nghiên cứu trước đó thường dựa trên giả thuyết
là lá được chụp trên nền đồng nhất. Giả thuyết này thường không thỏa mãn trong các
điều kiện làm việc thực tế, do đó trong luận án này, chúng tôi tập trung nghiên cứu và

1


phát triển phương pháp nhận dạng lá trên nền phức tạp.
Thứ hai, xuất phát từ quan sát là việc sử dụng hình ảnh của một bộ phận để
nhận dạng không phải lúc nào cũng phù hợp. Nhiều cây rất dễ bị nhận nhầm nếu sử
dụng lá nhưng lại có khả năng phân biệt rất cao nếu dựa trên hoa. Nhận dạng cây dựa
trên nhiều bộ phận có thể được mô hình hóa thành bài toán kết hợp muộn: các kết
quả của nhận dạng cây dựa trên nhiều ảnh bộ phận có thể được xác định dựa trên kết
quả nhận dạng đơn bộ phận qua các chiến lược kết hợp. Do đó, mục tiêu thứ hai của
luận án là đề xuất các phương pháp kết hợp hiệu quả cho bài toán nhận dạng cây dựa
trên các bộ phận.
Mục tiêu cuối cùng của luận án liên quan đến ứng dụng của các kết quả nghiên
cứu trong việc quảng bá thông tin của một tập các loài cây tương đối đặc thù: cây
thuốc Việt Nam thông qua việc phát triển chức năng tìm kiếm dựa trên hình ảnh trong

hệ thống tra cứu cây thuốc Việt Nam VnMed. Các mục tiêu của luận án được tóm tắt
lại như sau:
❼ Phát triển phương pháp nhận dạng cây dựa trên ảnh lá với nền phức tạp;
❼ Đề xuất kỹ thuật kết hợp cho nhận dạng cây dựa trên nhiều bộ phận;
❼ Phát triển chức năng tìm kiếm cây dựa trên hình ảnh tích hợp trong ứng dụng

hệ thống tìm kiếm cây thuốc Việt Nam.

Các đóng góp
Luận án có ba đóng góp chính như sau:
❼ Đóng góp 1: Một phương pháp nhận dạng cây dựa trên ảnh lá có nền phức tạp

được đề xuất. Phương pháp đề xuất kết hợp đồng thời phân đoạn tương tác và
bộ mô tả đặc trưng nhân (KDES) cải tiến.
❼ Đóng góp 2: Một kỹ thuật kết hợp cho nhận dạng cây dựa trên hai bộ phận.

Kỹ thuật kết hợp này là tích hợp giữa luật kết hợp nhân và kỹ thuật kết hợp dựa
trên phân lớp.
❼ Đóng góp 3: Cuối cùng, một mô đun tìm kiếm cây dựa trên hình ảnh được phát

triển và tích hợp trong ứng dụng tìm kiếm cây thuốc Việt Nam.

Cấu trúc luận án
❼ Giới thiệu: Phần này trình bày động cơ và mục tiêu của luận án, cũng như ngữ

cảnh, hạn chế và thách thức gặp phải trong bài toán nhận dạng cây. Phần cuối
của phần này trình bày một sơ đồ làm việc chung và các đóng góp chính của luận
án.
❼ Chương 1: Các nghiên cứu liên quan: Chương này hệ thống lại các nghiên cứu


liên quan và các cách tiếp cận đề xuất cho nhận dạng cây tự động.
2


❼ Chương 2: Trong chương này, một phương pháp cho nhận dạng cây dựa trên ảnh

lá nền phức tạp được đề xuất. Trong phương pháp đề xuất, để trích chọn vùng
lá từ ảnh, chúng tôi đề xuất áp dụng phân đoạn tương tác. Sau đó, đặc trưng
nhân KDES cải tiến được áp dụng để trích chọn các đặc trưng của lá.
❼ Chương 3: Chương này tập trung vào nhận dạng cây dựa trên nhiều bộ phận của

cây. Chúng tôi đề xuất một phương pháp kết hợp cho nhận dạng cây nhiều bộ
phận dựa trên các kết quả một bộ phận.
❼ Chương 4: Trong chương này, chúng tôi đề xuất một cách tiếp cận mới để xây

dựng hệ thống nhận dạng cây tự động khi cơ sở dữ liệu không có sẵn và ứng dụng
của cách tiếp cận đề xuất trong việc xây dựng chức năng tìm kiếm cây thuốc
Việt Nam dựa trên hình ảnh.
❼ Kết luận: Chương này đưa ra các kết luận và các hướng nghiên cứu tiếp theo.

CHƯƠNG 1

CÁC NGHIÊN CỨU LIÊN QUAN
1.1

Nhận dạng cây từ các ảnh của một bộ phận

Các nghiên cứu trước đây thường tập trung nhận dạng cây dựa trên ảnh của một
bộ phận cây. Giữa các bộ phận của cây thì bộ phận lá được sử dụng rộng rãi nhất [4]
bởi vì lá thường tồn tại trong thời gian dài, có số lượng lớn, có cấu trúc phẳng nên

dễ thu thập hơn so với các bộ phận khác. Các nghiên cứu thường tập trung nhiều cho
ảnh lá trên nền đơn giản do tính đơn giản của ảnh. Sau bộ phận lá thì hoa là bộ phận
phổ biến tiếp theo [5] vì ảnh hoa rất dễ phân biệt các loài cây do các đặc điểm rất đặc
trưng của hoa như màu sắc, hình dạng, sắp xếp cánh hoa,..Các bộ phận khác cũng
được sử dụng để nhận dạng cây như bộ phận quả, thân, cành, toàn bộ.
Hiện nay có hai cách tiếp cận cho bài toán nhận dạng cây. Đối với cách tiếp cận
thứ nhất, các phương pháp nhận dạng dựa trên các đặc trưng được thiết kế thủ công
[4]. Các đặc trưng bao gồm đặc trưng toàn cục (đặc trưng màu sắc, kết cấu, hình dạng)
và đặc trưng bộ phận. Các nghiên cứu thường kết hợp hai hay nhiều đặc trưng cho
mỗi bộ phận bởi vì không có một đặc trưng nào đủ mạnh để phân biệt được tất cả các
lớp.
Đối với cách tiếp cận thứ hai là áp dụng các phương pháp học sâu [2]. Mạng nơ
ron tích chập (CNN) là một phương pháp học sâu, gần đây đã đạt được rất nhiều
thành công trong các bài toán thị giác máy tính như phát hiện đối tượng, phân đoạn,
và phân lớp ảnh [6]. CNN có thể học tự động các đặc trưng từ các ảnh đầu vào mà
không phải thực hiện trích chọn thủ công. Các CNN phổ biến như AlexNet, VGG,
3


GoogLeNet và ResNet.

1.2

Nhận dạng cây từ ảnh nhiều bộ phận

Nhận dạng cây dựa trên một bộ phận là không luôn luôn đạt được kết quả tốt do
sự tương tự cao giữa các loài và sự khác biệt lớn của các hình ảnh trong cùng một loài.
Một cách thức được đề xuất ra để giải quyết điều này là thực hiện nhận dạng cây dựa
trên nhiều bộ phận. Hiện nay các nghiên cứu nhận dạng cây đã có xu hướng chuyển
từ nhận dạng một bộ phận sang nhiều bộ phận.

Nhận dạng cây dựa trên ảnh nhiều bộ phận cây có thể chia thành hai nhóm: Nhóm
đầu tiên là quan tâm đến loại bộ phận của cây, như phân loại ảnh đầu vào là ảnh lá
hay ảnh hoa..., nhóm thứ hai là không quan tâm ảnh thuộc vào bộ phận nào của cây
[1]. Trong nhóm đầu tiên, mỗi bộ phận sẽ được huấn luyện bởi một bộ phân lớp riêng
biệt. Trong nhóm thứ hai, tất cả các ảnh sẽ được huấn luyện bởi cùng một bộ phân
lớp. Các kỹ thuật kết hợp được sử dụng để kết hợp các kết quả lại với nhau thường sử
dụng là kỹ thuật kết hợp sớm và kỹ thuật kết hợp muộn.

1.3

Các hệ thống nhận dạng và thu thập dữ liệu cây

Hiện nay có một số các ứng dụng nhận dạng cây dựa trên ảnh được triển khai
trên các thiết bị di động như Pl@ntNet, iNaturalist, iSpot, Leafsnap, FlowerChecker,
PlantSnapp, Plantifier,...[7, 8]. Các ứng dụng này thường cung cấp ba chức năng chính
cho người dùng là chức năng khám phá, nhận dạng và thu thập dữ liệu. Trong đó chức
năng nhận dạng cây và chức năng thu thập dữ liệu cây là hai chức năng hỗ trợ cho
nhau. Khi chức năng nhận dạng cây đạt được độ chính xác cao, hệ thống sẽ thu hút
được nhiều người dùng sử dụng hệ thống từ đó sẽ thu thập được nhiều dữ liệu từ người
dùng. Sau đó dữ liệu thu thập này sẽ được sử dụng để huấn luyện và cải tiến hệ thống.
Dữ liệu thu thập nhiều và đa dạng giúp giải quyết được vấn đề học quá khớp trong
nhận dạng. Điều này chỉ ra vai trò quan trọng của hệ thống thu thập dữ liệu dựa trên
cộng đồng.

CHƯƠNG 2

PHƯƠNG PHÁP NHẬN DẠNG LÁ CÂY DỰA TRÊN
BỘ MÔ TẢ NHÂN
2.1


Phương pháp nhận dạng cây dựa trên ảnh lá nền phức tạp

Như đã phân tích ở chương 1, lá là bộ phận thường được sử dụng nhất. Tuy nhiên,
các nghiên cứu thường làm việc trên ảnh lá có nền đơn giản. Trong luận án này, một
phương pháp nhận dạng cây dựa trên ảnh lá trên nền phức tạp được đề xuất (xem
Hình 2.1). Phương pháp bao gồm 3 mô đun chính đó là tiền xử lý ảnh, trích chọn đặc

4


trưng và phân lớp. Ở mô đun phân lớp chúng tôi áp dụng bộ phân lớp máy véc tơ hỗ
trợ (SVM).

Hình 2.1 Sơ đồ của phương pháp đề xuất nhận dạng cây dựa trên ảnh lá trên nền
phức tạp

2.2

Phân đoạn tương tác

Khi làm việc với lá trên nền phức tạp, bước xử lý đầu tiên cần phải làm là tách
lá ra khỏi nền. Trong phương pháp đề xuất, chúng tôi áp dụng phương pháp phân
đoạn tương tác. Ngoài ra, để đánh giá hiệu quả của phương pháp phân đoạn tương
tác, chúng tôi so sánh hiệu quả của phương pháp này với phương pháp phân đoạn tự
động và với phương pháp khi không thực hiện phân đoạn.
Ý tưởng chính của phân đoạn tương tác là dựa trên các chỉ dẫn của người dùng
để thực hiện phân đoạn. Phương pháp này thực hiện qua 4 bước (Hình 2.2). Ở bước
1, người dùng sẽ đánh dấu thủ công các vùng thuộc vào đối tượng (inner marker) và
các vùng ngoài đối tượng (outer marker) bằng cách vẽ các đường thuộc vào 2 vùng
này. Trong bước 2, thuật toán Watershed [9] sẽ được dùng để phân đoạn ảnh. Sau đó

ở bước 3, người dùng sẽ lựa chọn vùng chứa lá quan tâm. Cuối cùng, trong bước 4,
vùng chứa lá sẽ được chuẩn hóa về hướng.

Hình 2.2 Sơ đồ phân đoạn tương tác đề xuất

2.3

Trích chọn đặc trưng

Trong luận án này, bộ mô tả nhân (KDES) được đề xuất sử dụng để trích chọn đặc
trưng cho lá. KDES đầu tiên được đề xuất bởi Liefeng Bo [10] sử dụng các đặc trưng
của điểm ảnh (gradient, màu sắc và hình dạng) và các đặc trưng mức vùng thông qua
5


Hình 2.5 Một ví dụ của vùng kích thước cố định trong KDES gốc và vùng kích thước
thay đổi trong phương pháp KDES cải tiến. (a,b) hai ảnh của cùng một lá với các kích
thước khác nhau được phân chia sử dụng vùng kích thước cố định; (b,c): hai ảnh của
cùng một lá với kích thước khác nhau được phân chia sử dụng vùng kích thước thay đổi.

việc đối sánh các nhân. KDES gốc được sử dụng cho phát hiện đối tượng và đạt được
các kết quả ấn tượng trên các cơ sở dữ liệu tiêu chuẩn như CIFAR-10, Caltech-101,
ImageNet. KDES gốc có hai hạn chế là không bất biến với phép tỷ lệ và nhạy cảm với
phép quay. Trong nghiên cứu [11], Nguyễn Văn Tới và các công sự đã đề xuất ba cải
tiến KDES gốc cho nhận dạng cử chỉ tay, chúng tôi gọi là KDES cải tiến. Trong công
việc này, chúng tôi đề xuất sử dụng KDES cải tiến cho việc trích chọn đặc trưng ảnh
lá. KDES cải tiến được trích chọn thông qua ba bước: trích chọn đặc trưng mức điểm,
mức vùng và mức ảnh.
a) Trích chọn các đặc trưng mức điểm
Ở bước này, một véc tơ gradient được tính tại mỗi điểm ảnh. Véc tơ gradient tại

điểm z được định nghĩa bởi độ lớn của nó m(z) và θ(z) là góc của véc tơ gradient tại
˜
điểm z. Theo [10], hướng θ(z)
được định nghĩa như sau:
˜ = [sin(θ(z))cos(θ(z))]
θ(z)

(2.8)

b) Trích chọn các đặc trưng mức vùng
Tạo ra các vùng ảnh với kích thước thích nghi
Trong phần này, chúng tôi sử dụng các vùng ảnh có kích thước thay đổi thay vì
sử dụng kích thước cố định để nhận được cùng số vùng theo chiều ngang và chiều dọc
khi kích thước ảnh thay đổi. Hình 2.5 miêu tả một ví dụ của vùng kích thước cố định
trong KDES gốc và vùng kích thước thay đổi trong phương pháp KDES cải tiến.
Tính đặc trưng mức vùng
6


Hình 2.7 Cấu trúc đặc trưng mức ảnh là kết nối các véc tơ đặc trưng của các ô
trong các lớp của cấu trúc kim tự tháp.
Các đặc trưng mức vùng được tính dựa trên ý tưởng của phương pháp nhân (kernel
method). Xuất phát từ việc đối sánh nhân biểu diễn sự tương tự của hai vùng, chúng
tôi có thể trích chọn véc tơ đặc trưng cho vùng sử dụng xấp xỉ bản đồ đặc trưng mức
vùng cho một hàm đối sánh nhân. Đặc trưng xấp xỉ qua vùng ảnh P được cấu trúc
như sau [11]:
m(z)φ
˜
ω (z)) ⊗ φp (z)
(2.17)

F gradient (P ) =
o (˜
z∈P

trong đó m(z)
˜
là véc tơ gradient chuẩn hóa, φo (˜
ω (z)) và φp (z) là các bản đồ đặc
trưng xấp xỉ cho các nhân hướng (orientation kernel) và nhân vị trí (position kernel)
tương ứng, ⊗ là tích Kronecker.
c) Trích chọn các đặc trưng mức ảnh
Khi các đặc trưng mức vùng được tính cho mỗi vùng, công việc còn lại là tính
véc tơ đặc trưng biểu diễn cho toàn bộ ảnh. Để làm điều này, chúng tôi phân chia ảnh
thành các vùng nhỏ hơn. Số vùng được chia trong một ảnh là theo cấu trúc kim tự
tháp, tại mức k chúng tôi có 2k−1 vùng theo chiều ngang và 2k−1 vùng theo chiều dọc
(Hình 2.7). Sau đó chúng tôi tính véc tơ đặc trưng cho mỗi vùng của ảnh và nối chúng
vào trong một véc tơ được gọi là véc tơ đặc trưng mức ảnh được biểu diễn như dưới
đây. Véc tơ này sẽ là đầu vào của bộ phân lớp SVM cho pha huấn luyện và kiểm thử.
φ¯P (X) = w(1) φ¯S (X (1,1) ); ...; w(l) φ¯S (X (l,t) ); ...; w(L) φ¯S (X (L,nL ) )

(2.20)

Trong đó w(l) là trọng số kết hợp ở mức l, φ¯S (X (l,t) ) là giá trị trung bình của các
đặc trưng mức vùng trong ô thứ t tại mức l.

7


2.4


Các kết quả thực nghiệm

2.4.1

Các cơ sở dữ liệu

Để thử nghiệm phương pháp đề xuất, chúng tôi sử dụng ba cơ sở dữ liệu:
Cơ sở dữ liệu ImageCLEF 2013: bao gồm 5,540 ảnh huấn luyện và 1,660 ảnh
kiểm thử của 80 loài được trích ra từ cơ sở dữ liệu ImageCLEF 2013.
Cơ sở dữ liệu Flavia: bao gồm 1,907 ảnh lá trên nền đơn giản của 32 loài.
Cơ sở dữ liệu LifeCLEF 2015: Bảng 2.1 chỉ ra chi tiết cơ sở dữ liệu.
Bảng 2.1 Cơ sở dữ liệu lá/lá nền đơn giản của LifeCLEF 2015
Leaf
13,367
2,690
899

Training
Testing
Number of species

2.4.2

Leafscan
12,605
221
351

Các kết quả thực nghiệm


Các kết quả trên cơ sở dữ liệu ImageCLEF 2013
Các kết quả được chỉ ra trong Bảng 2.2 cho thấy trên cùng tập dữ liệu, KDES
cải tiến cho kết quả tốt hơn trên KDES gốc. Với cùng bộ đặc trưng KDES, phân đoạn
tương tác cho kết quả nhận dạng tốt hơn so với phân đoạn tự động và không phân
đoạn. Cuối cùng, phương pháp đề xuất kết hợp đồng thời KDES cải tiến và dữ liệu
phân đoạn tương tác thì kết quả đạt được là tốt nhất với độ chính xác là 71.5%.
Bảng 2.2 Độ chính xác thu được trong 6 thực nghiệm trên cơ sở dữ liệu ImageCLEF2013
Phương pháp
Độ chính xác (%)
KDES cải tiến với phân đoạn tương tác 71.5
KDES gốc với phân đoạn tương tác
63.4
KDES cải tiến với dữ liệu gốc
43.68
KDES gốc với dữ liệu gốc
43.25
KDES cải tiến với phân đoạn tự động
42.3
KDES gốc với phân đoạn tự động
35.5
Các kết quả trên cơ sở dữ liệu Flavia
Phương pháp đề xuất thực hiện trên cơ sở dữ liệu Flavia đạt được độ chính xác là
99.06%. Chúng tôi so sánh phương pháp đề xuất với các phương pháp khác trên cùng
cơ sở dữ liệu Flavia. Các kết quả được cho như trong Bảng 2.4 cho thấy phương pháp
đề xuất cao hơn các phương pháp dựa trên đặc trưng thiết kế trước đó. Độ chính xác
được cải thiện từ 0.36 đến 6.86% so với các kết quả khác.
Các kết quả trên cơ sở dữ liệu LifeCLEF 2015
8



Bảng 2.4 So sánh phương pháp đề xuất với các phương pháp dựa trên thiết kế đặc
trưng trên cơ sở dữ liệu Flavia
Phương pháp
Đặc trưng, Phương pháp phân lớp
Độ chính xác(%)
Phương pháp
KDES cải tiến; SVM
99.06
đề xuất
[12]
SMSD; NFC
97.5
[13]
CT,HU, moments, GF, GLCM; NFC
97.6
[14]
EnS, CDS; SVM
97.8
[15]
GIST features (486), (PCA=40%); cosine KNN
98.7
[16]
Zernike moments, HOG; SVM
96.4
[17]
Geometrical features, invariant moments; RBPNN 94.1
[18]
Geometrical features, vein features; SVM
92.2
Đối với dữ liệu này, độ đo đánh giá được sử dụng là score ở mức ảnh được định

nghĩa bởi cuộc thi LifeCLEF2015 [1]. Kết quả nhận dạng của phương pháp được đề
xuất trong chương này được gửi cho cuộc thi với tên lần lượt là Mica Run 1, Mica Run
2 và Mica Run 3. Hình 2.12 biểu diễn kết quả của các đội tham gia cuộc thi. Kết quả
phương pháp đề xuất của chúng tôi trên tập ảnh lá nền đơn giản đứng thứ hai trong
cuộc thi LifeCLEF2015 sau đội đứng đầu sử dụng phương pháp CNN, và cao hơn một
số đội khác cũng sử dụng mạng CNN. Kết quả này cho phép minh chứng hiệu quả của
phương pháp tiền xử lý cũng như đặc trưng sử dụng để mô tả ảnh lá.

Hình 2.12 Chi tiết score đạt được cho Leaf Scan [1], đội chúng tôi có tên là Mica

2.5

Kết luận

Trong chương này, một phương pháp nhận dạng cây dựa trên ảnh lá trên nền phức
tạp đã được đề xuất. Các kết quả thử nghiệm chỉ ra rằng việc kết hợp giữa KDES cải
tiến và phân đoạn tương tác trong phương pháp đề xuất đã vượt qua KDES gốc và các
phương pháp dựa trên đặc trưng được thiết kế khác cho các cơ sở dữ liệu ImageCLEF
2013, Flavia và LifeCLEF 2015.
9


CHƯƠNG 3

KỸ THUẬT KẾT HỢP SAU CHO NHẬN DẠNG
CÂY DỰA TRÊN NHIỀU BỘ PHẬN
3.1

Giới thiệu


Theo quan điểm của các nhà thực vật học nhận dạng loài cây chỉ dựa vào các ảnh
của một bộ phận là không đủ thông tin do sự tương tự lớn giữa các loài khác nhau và
sự biến đổi lớn trong cùng một loài. Do đó hiện nay đã có nhiều nghiên cứu thực hiện
nhận dạng cây dựa trên nhiều bộ phận. Chương này chúng tôi đề xuất một kỹ thuật
kết hợp nhiều bộ phận. Không mất tính tổng quát, chúng tôi thực hiện và đánh giá các
kỹ thuật kết hợp cho mỗi cặp bộ phận của cây. Chúng tôi đề xuất một phương pháp
gọi là phương pháp kết hợp lai bền vững (RHF), phương pháp này thực hiện kết hợp
phương pháp kết hợp dựa trên biến đổi và kết hợp dựa trên phân lớp (CBF). Cách kết
hợp đề xuất được miêu tả trong Hình 3.2.

Hình 3.2 Cách kết hợp đề xuất cho nhận dạng cây đa bộ phận

3.2

Phương pháp kết hợp lai bền vững RHF
Trong chương này, chúng tôi sử dụng một số ký hiệu sau:

❼ q = {I1 , I2 , .., IN }: là câu truy vấn chứa các ảnh của N bộ phận (trong công việc

này chúng tôi chọn N = 2);
❼ C: số loài trong cơ sở dữ liệu;
❼ si (Ik ) là độ tin cậy của loài thứ i khi sử dụng ảnh của bộ phận k được gọi là Ik

như là câu truy vấn của nhận dạng đơn bộ phận với 1 ≤ i ≤ C, 1 ≤ k ≤ N ;
❼ c: lớp dự báo cho câu truy vấn q.

10


Kỹ thuật kết hợp dựa trên sự biến đổi: bao gồm 3 luật chính sau:

Khi áp dụng 3 luật này, các ảnh trong câu truy vấn q được dự đoán vào lớp c định
nghĩa như sau:
Luật lớn nhất (Max rule):
c = arg max max si (Ik )
k=1..N

i

(3.1)

Luật tổng (Sum rule):
N

c = arg max
i

si (Ik )

(3.2)

si (Ik )

(3.3)

k=1

Luật nhân (Product rule):
N

c = arg max

i

k=1

Các phương pháp kết hợp dựa trên biến đổi không phải luôn luôn đạt được kết
quả tốt. Tuy nhiên các phương pháp này là đơn giản và không yêu cầu quá trình huấn
luyện, hầu hết các phương pháp nhận dạng cây dựa trên nhiều bộ phận đều sử dụng
các phương pháp này.
Kỹ thuật kết hợp dựa trên phân lớp (CBF)
Ý tưởng chính của kỹ thuật kết hợp dựa trên phân lớp là nhiều độ tin cậy được
đưa vào một véc tơ đặc trưng và sử dụng một bộ phân lớp để phân tách các lớp dựa
trên không gian các véc tơ đặc trưng thu được. Chúng tôi áp dụng ý tưởng này cho
nhận dạng cây từ ảnh của hai bộ phận. Trong đó, máy véc tơ hỗ trợ (SVM) được sử
dụng do đây là một bộ phân lớp mạnh. CBF được tiến hành như sau: Với mỗi một
ảnh, chúng tôi cho đi qua bộ phân lớp tương ứng, chúng tôi thu được một danh sách
C độ tin cậy tương ứng cho C lớp. Với mỗi cặp ảnh, C cặp độ tin cậy tương ứng cho
C lớp được tạo ra bao gồm một mẫu dương tại vị trí lớp đúng và C − 1 mẫu âm còn
lại. Các mẫu dương và mẫu âm được mô tả trong hình 3.3. Sau đó bộ phân lớp SVM
được sử dụng để huấn luyện các mẫu này.
Trong pha kiểm thử, cho câu truy vấn q, phương pháp CBF trả về kết quả hai xác
suất dự báo cho loài thứ i: một cho lớp dương ký hiệu Ppos (i, q) và một cho lớp âm ký
hiệu Pneg (i, q). Danh sách các loài được xếp hạng bởi si (q), ở đó si (q) là độ tin cậy của

11


Hình 3.3 Giải thích về các mẫu âm và mẫu dương
loài thứ i thu được cho câu truy vấn q thuộc về lớp dương:
si (q) = Ppos (i, q)


(3.4)

Lớp c là lớp dự báo được xác định như sau, ở đó 1 ≤ i ≤ C
c = arg max si (q)

(3.5)

i

Kỹ thuật kết hợp lai bền vững (RHF)
Kỹ thuật kết hợp dựa trên phân lớp có thể làm mất đi sự phân bố các đặc điểm
của mỗi loài bởi vì tất cả các mẫu dương và mẫu âm của tất cả các loài được huấn
luyện cùng nhau. Do đó để phát huy sự phân bố các đặc điểm của mỗi loài, chúng tôi
xây dựng mỗi loài một mô hình SVM dựa trên các mẫu dương và mẫu âm của mỗi
loài. Với mỗi câu truy vấn q, chúng tôi thu được C mẫu âm/dương tương ứng cho C
lớp. Mỗi mẫu tương ứng cho lớp i chúng tôi sẽ cho qua bộ phân lớp SVM cho lớp i thu
được xác suất tương ứng si (q). Sau đó chúng tôi thực hiện nhân giá trị si (q) với các
giá trị trong mẫu đang xét. Mô hình lai đề xuất được tiến hành như sau:
2

c = arg max si (q).
i

si (Ik )

(3.6)

k=1

Mô hình này là tích hợp giữa luật nhân và kỹ thuật kết hợp dựa trên phân lớp.

Chúng tôi mong đợi rằng xác suất của câu truy vấn q vào lớp dương ảnh hưởng đến
12


kết quả kết hợp. Nếu xác suất của câu truy vấn q vào lớp dương là cao thì xác suất
của câu truy vấn q thuộc vào lớp thứ i cũng cao.

3.3

Lựa chọn mô hình phân lớp cho nhận dạng cây đơn bộ phận

Để nhận dạng cây dựa trên nhiều bộ phận đạt kết quả cao, ngoài việc sử dụng
các kỹ thuật kết hợp hiệu quả, một nhân tố quan trọng góp phần để nâng cao kết quả
này là kết quả nhận dạng trên một bộ phận phải đạt kết quả cao. Với sự thành công
của các mạng CNN cho các bài toán nhận dạng đối tượng trong những năm gần đây,
trong phần này chúng tôi triển khai một số mạng phổ biến là AlexNet[19], ResNet[20]
và GoogLeNet [21] cho nhận dạng một bộ phận cây.
Chúng tôi đề xuất hai chiến lược nhận dạng đơn bộ phận được miêu tả trong Hình
3.10: (1) Trong chiến lược thứ nhất, một mạng CNN sẽ được huấn luyện cho mỗi bộ
phận; (2) Với chiến lược thứ hai, một mạng CNN được huấn luyện cho tất cả các ảnh
bộ phận. Chiến lược thứ nhất cho phép kết hợp tường minh cho mỗi bộ phận trong
khi chiến lược thứ hai không yêu cầu biết của bộ phận cây và thực hiện tính toán ít
hơn do chỉ có một mạng CNN.

Hình 3.10 Hai chiến lược nhận dạng cây dựa trên một bộ phận.
Khi thực hiện huấn luyện, chúng tôi sử dụng bộ trọng số đã được tiền huấn luyện
trên cơ sở dữ liệu ImageNet và tinh chỉnh mạng với cơ sở dữ liệu thử nghiệm.

3.4


Các kết quả thực nghiệm

Để triển khai các thực nghiệm, chúng tôi cài đặt trên cấu hình máy là GHzCPU
2.20, RAM 16 GB, GPU GeForce GTX 1080 Ti với Tensorflow và tối ưu mô hình cho
nhận dạng cây với việc tối ưu các tham số được sử dụng trong AlexNet , ResNet và
GoogLeNet.
3.4.1 Cơ sở dữ liệu
Chúng tôi trích xuất từ LifeCLEF 2015, 50 loài cây có đầy đủ các ảnh của các bộ
phận. Ngoài ra với mong muốn tăng số lượng ảnh cho cơ sở dữ liệu các ảnh được thu
thập thêm từ Internet. Cơ sở dữ liệu này được hiển thị trong Bảng 3.2. Dữ liệu chia
13


thành 3 phần: CNN training là dữ liệu huấn luyện của mạng CNN cho nhận dạng một
bộ phận; SVM input được sử dụng làm tập dữ liệu huấn luyện cho bộ phân lớp SVM;
testing được sử dụng để đánh giá hiệu suất của các phương pháp kết hợp đã trình bày.
Bảng 3.2 Cơ sở dữ liệu thu thập của 50 loài với 4 bộ phận
Flower Leaf Entire Branch Total
CNN Training

1650

1930

825

1388

5793


SVM Input

986

1164

495

833

3478

Testing

673

776

341

553

2343

Tổng

3309

3870


1661

2774

11614

Số loài = 50
3.4.2

Các kết quả thử nghiệm

Kết quả nhận dạng đơn bộ phận
Các kết quả thu được cho hai chiến lược đề xuất được hiển thị trong Bảng 3.3.
Chúng tôi quan sát thấy rằng GoogLeNet thu được kết quả tốt hơn so với AlexNet,
ResNet ở cả hai phương pháp và cho hầu hết các bộ phận ngoại trừ ảnh toàn bộ của
cây trong chiến lược 2. Một điểm thú vị là chiến lược 1 phù hợp với bộ phận lá và hoa
trong khi chiến lược 2 là lựa chọn tốt cho các bộ phận khác như cành và ảnh toàn bộ
cây. Điểm thuận lợi của chiến lược 2 cho nhận dạng đơn bộ phận là không yêu cầu biết
loại bộ phận. Các kết quả cũng chỉ ra rằng hoa là bộ phận cho kết quả tốt nhất, trong
khi ảnh toàn bộ cây cho kết quả thấp nhất.
Bảng 3.3 Độ chính xác nhận dạng cây dựa trên một bộ phận với hai chiến lược:
(1) Một mạng cho mỗi bộ phận; (2) Một mạng cho tất cả các bộ phận.
Bộ phận
Leaf (Le)
Flower (Fl)
Branch (Br)
Entire (En)

AlexNet
Chiến lược 1

66.2
73.0
43.2
32.4

Chiến lược 2
63.8
72.2
47.4
33.8

ResNet
Chiến lược 1
73.4
75.6
48.6
32.4

Chiến lược 2
70.6
75.4
54.6
39.0

GoogLeNet
Chiến lược 1
75.0
82.2
53.2
36.4


Chiến lược 2
76.6
78.4
54.8
35.2

Đánh giá chiến lược kết hợp đề xuất RHF
Bảng 3.4, Bảng 3.5 và Bảng 3.6 cho thấy kết quả đạt được khi kết hợp từng cặp
bộ phận. Các kết quả chỉ ra rằng hầu như kết quả kết hợp hai bộ phận đều cao hơn
kết của mỗi bộ phận tương ứng. Trong trường hợp áp dụng chiến lược 1 cho nhận dạng
đơn bộ phận, đối với mạng AlexNet, kết quả tốt nhất cho một bộ phận là 73.0 % cho
bộ phận hoa, trong khi bằng cách áp dụng phương pháp RHF đề xuất, độ chính xác
của sự kết hợp lá và hoa tăng đáng kể là 16.8 % lên 89.8 %. Khi áp dụng ResNet, sự
kết hợp giữa lá và hoa (Le-Fl) tăng lên 17 % so với một bộ phận và 13.6% khi áp dụng
mạng GoogLeNet. Không chỉ đối với cặp hoa và lá mà trong tất cả sáu cặp bộ phận
kết hợp, phương pháp đề xuất RHF đạt được kết quả cao nhất.
14


Bảng 3.4 Độ chính xác đạt được ở hạng 1 khi kết hợp mỗi cặp bộ phận với các phương pháp
kết hợp khác nhau trong trường hợp sử dụng mạng AlexNet.
Độ chính xác (%)
En - Le
En - Fl
Le - Fl
Br - Le
Br - Fl
Br - En


R1
R5
R1
R5
R1
R5
R1
R5
R1
R5
R1
R5

Chiến
Max
rule
66.2
88.6
73.8
92.6
81.6
96.8
70.2
89.6
74.2
90.8
51.6
76.8

lược 1 cho nhận dạng đơn bộ phận

Sum Product
CBF RHF
rule
rule
67.2
75.6
74.0
76.6
88.8
93.2
81.8
94.6
74.4
78.8
77.2
81.2
92.8
94.2
84.2
94.4
82.0
88.6
86.2
89.8
96.8
98.2
90.4
98.4
71.0
76.8

73.8
78.4
90.0
93.4
79.6
93.8
75.4
80.8
79.0
81.4
91.4
95.2
83.0
95.4
52.2
58.0
58.0
58.6
77.6
83.6
81.4
83.8

Chiến
Max
rule
66.8
88.4
73.84
88.8

78.8
95.6
66.4
92.0
70.2
90.4
52.4
78.2

lược 2 cho nhận dạng đơn bộ phận
Sum Product
CBF RHF
rule
rule
67.2
77.4
71.4
78.6
88.2
93.6
80.2
94.4
73.6
78.8
76.24 80.4
89.2
94.8
83.6
95.6
81.2

89.6
83.2
89.6
96.0
99.2
88.8
99.2
68.2
78.2
73.6
78.2
93.0
95.6
81.6
96.0
70.6
80.6
76.6
81.4
90.6
95.4
84.6
95.6
52.8
60.6
60.6
61.6
78.6
83.6
83.4

84.9

Bảng 3.5 Độ chính xác đạt được ở hạng 1 khi kết hợp mỗi cặp bộ phận với các phương pháp
kết hợp khác nhau trong trường hợp sử dụng mạng ResNet.
Độ chính xác (%)
En - Le
En - Fl
Le - Fl
Br - Le
Br - Fl
Br - En

R1
R5
R1
R5
R1
R5
R1
R5
R1
R5
R1
R5

Chiến
Max
rule
70.4
91.8

73.8
93.2
90.0
98.0
77.8
91.8
80.0
93.6
52.4
82.0

lược 1 cho nhận dạng đơn bộ phận
Sum Product
CBF RHF
rule
rule
72.2
75.2
73.2
78.0
92.6
92.8
90.6
93.2
75.4
80.0
76.4
83.2
93.6
95.0

89.2
95.4
91.4
92.4
91.4
92.6
98.8
99.0
96.0
99.2
79.2
82.0
79.4
83.2
92.2
94.0
90.4
94.6
81.0
84.4
82.0
86.4
94.4
97.6
91.4
97.8
54.4
62.2
55.0
60.6

83.4
86.6
80.4
87.4

Chiến
Max
rule
73.6
94.2
74.6
94.4
85.8
98.4
79.8
94.4
78.8
95.6
60.4
84.8

lược 2 cho nhận dạng đơn bộ phận
Sum Product
CBF RHF
rule
rule
75.4
80.8
73.2
80.8

94.4
94.8
90.6
95.2
76.0
80.2
76.4
83.2
95.0
95.8
89.2
95.2
87.6
89.2
91.4
92.6
98.4
99.0
96.0
99.2
81.4
83.6
79.4
83.2
94.4
96.4
90.4
94.6
80.4
85.6

81.0
86.0
96.0
96.2
91.4
97.6
66.2
69.0
55.0
69.0
85.6
89.6
80.4
87.6

Bảng 3.6 Độ chính xác đạt được ở hạng 1 khi kết hợp mỗi cặp bộ phận với các phương pháp
kết hợp khác nhau trong trường hợp sử dụng mạng GoogLeNet.
Accuracy (%)
En - Le
En - Fl
Le - Fl
Br - Le
Br - Fl
Br - En

R1
R5
R1
R5
R1

R5
R1
R5
R1
R5
R1
R5

Chiến
Max
rule
74.6
94.0
79.2
95.8
91.4
99.6
79.8
94.4
85.0
97.0
58.0
81.4

lược 1 cho nhận dạng đơn bộ phận
Sum Product
CBF RHF
rule
rule
75.0

79.2
79.4
80.6
93.8
93.6
84.0
94.4
79.8
83.4
83.8
84.2
96.0
97.0
89.2
96.8
92.0
95.4
93.8
95.8
99.6
99.6
96.0
99.8
81.0
84.6
80.2
84.6
94.6
97.4
84.8

97.4
86.0
90.2
87.2
91.6
97.4
99.2
90.2
99.0
58.8
61.8
60.2
64.2
81.8
86.8
70.4
87.0

Chiến
Max
rule
77.8
91.4
77.6
93.6
90.6
98.6
81.2
96.8
80.0

96.0
57.8
82.2

lược 2 cho nhận dạng đơn bộ phận
Sum Product
CBF RHF
rule
rule
78.0
79.4
81.2
82.0
91.4
96.2
85.6
95.8
78.0
81.0
80.2
81.0
93.8
95.8
84.4
96.2
90.2
92.6
91.8
92.8
98.8

99.0
93.8
99.0
81.8
85.6
81.6
86.6
96.8
96.8
86.0
97.0
80.4
86.8
83.2
87.2
96.0
97.6
86.8
97.0
58.4
65.6
59.2
66.4
82.0
87.0
68.4
87.0

So sánh phương pháp đề xuất với phương pháp MCDCNN[22]
Để cho thấy hiệu quả của kỹ thuật kết hợp đề xuất, chúng tôi so sánh phương

pháp RHF với MCDCNN[22]. Các kết quả đạt được trên cùng cơ sở dữ liệu được cho
15


Bảng 3.7 So sánh phương pháp đề xuất với MCDCNN [22]
Accuracy (%)
En - Le
En - Fl
Le - Fl
Br - Le
Br - Fl
Br - En

R1
R5
R1
R5
R1
R5
R1
R5
R1
R5
R1
R5

Chiến lược 1 cho
nhận dạng đơn bộ phận
RHF
RHF

RHF
(AlexNet) (ResNet) (GoogLeNet)
76.6
78.0
80.6
94.6
93.2
94.4
81.2
83.2
84.2
94.4
95.4
96.8
89.8
92.6
95.8
98.4
99.2
99.8
78.4
83.2
84.6
93.8
94.6
97.4
81.4
86.4
91.6
95.4

97.8
99.0
58.6
60.6
64.2
83.8
87.4
87.0

Chiến lược 2 cho
nhận dạng đơn bộ phận
RHF
RHF
RHF
(AlexNet) (ResNet) (GoogLeNet)
78.6
80.8
82.0
94.4
95.2
95.8
80.4
83.2
81.0
95.6
95.2
96.2
89.6
92.6
92.8

99.2
99.2
99.0
78.2
83.2
86.6
96.0
94.6
97.0
81.4
86.0
87.2
95.6
97.6
97.0
61.6
69.0
66.4
84.0
87.6
87.0

MCDCNN
[22]
70.0
91.0
75.6
94.2
86.6
98.4

72.2
93.0
76.8
93.0
55.2
80.6

trong Bảng 3.7 cho thấy phương pháp đề xuất vượt trội hơn MCDCNN trong tất cả
các cặp bộ phận kết hợp. Sự cải thiện lên tới 14.4 % cho sự kết hợp giữa cành và lá.

3.5

Kết luận

Chương này chúng tôi đã đề xuất một phương pháp kết hợp muộn RHF cho bài
toán nhận dạng cây dựa trên hai bộ phận. Đối với nhận dạng đơn bộ phận, chúng tôi
áp dụng một số mạng CNN tiêu biểu. Kỹ thuật đề xuất RHF cho kết quả tốt nhất so
với các kỹ thuật kết hợp khác với độ chính xác tăng từ 3.2% đến 14.8% tại hạng 1.

CHƯƠNG 4

CÁCH TIẾP CẬN ĐỀ XUẤT CHO NHẬN DẠNG
CÂY TỰ ĐỘNG KHÔNG CÓ SẴN DỮ LIỆU VÀ ÁP
DỤNG CHO HỆ THỐNG TÌM KIẾM DỰA TRÊN
HÌNH ẢNH
4.1

Cách tiếp cận đề xuất cho hệ thống nhận dạng cây tự động
khi không có sẵn dữ liệu


Mặc dù đã có rất nhiều đề xuất cũng như những kết quả đáng ghi nhận cho bài
toán nhận dạng cây. Tuy nhiên, các nghiên cứu trước đó thường dựa trên giả thuyết
là cơ sở dữ liệu đã có sẵn. Trong chương này chúng tôi đề xuất một cách tiếp cận cho
phép xây dựng các hệ thống nhận dạng cây với dữ liệu không có sẵn. Ý tưởng chính
của các tiếp cận này là các loài cây có thể có phân bố rất khác nhau trên trái đất, tuy
nhiên các loài cây thường chia sẻ đặc điểm chung: có các bộ phận lá, hoa...Xuất phát
từ quan sát này, chúng tôi sẽ xây dựng một bộ phát hiện tự động các bộ phận dựa trên
các cơ sở dữ liệu đã có từ trước. Bộ phát hiện tự động này sẽ được xem như là bước
lọc để xử lý tự động dữ liệu thu thập từ các nguồn với sự tham gia của nhiều người
dùng (crowdsourcing). Cách tiếp cận được đề xuất bao gồm 4 bước và được biểu diễn
16


ở Hình 4.3.

Hình 4.3 Sơ đồ đề xuất cho xây dựng hệ thống nhận dạng cây tự động khi không có
sẵn cơ sở dữ liệu
❼ Thu thập dữ liệu cây: Bước đầu tiên là thu thập dữ liệu từ nhiều nguồn khác

nhau.
❼ Phát hiện bộ phận cây Chúng tôi đề xuất xây dựng bộ phát hiện bộ phận cây

(lá, hoa, quả, thân, cành, không phải cây) dựa trên bộ dữ liệu LifeCLEF 2015 và
sử dụng làm bộ lọc dữ liệu tự động để đánh giá dữ liệu.
❼ Đánh giá dữ liệu: Mục đích chính của bước này là loại bỏ các hình ảnh không

phải là cây.
❼ Nhận dạng cây: Chúng tôi áp dụng các kỹ thuật nhận dạng cây dựa trên một

bộ phận hoặc nhiều bộ phận.

Trong các mục sau, chúng tôi sẽ tập trung trình bày bộ phát hiện bộ phận cây và ứng
dụng của cách tiếp cận đề xuất trong việc xây dựng chức năng tìm kiếm theo hình ảnh
của hệ thống tra cứu cây thuốc Việt Nam VnMed.

4.2

Phát hiện bộ phận cây

Phát hiện bộ phận cây tự động nhằm xác định bộ phận của cây có mặt trong
một hình ảnh cho trước. Chúng tôi đề xuất áp dụng mạng GoogLeNet và kỹ thuật học
chuyển giao để xây dựng bộ phát hiện bộ phận.
Để huấn luyện và đánh giá mạng đề xuất, chúng tôi lấy cơ sở dữ liệu LifeCLEF
2015 và dữ liệu thu thập từ Internet. 5 bộ phận trong LifeCLEF 2015 đó là lá (bao
gồm lá + lá nền đơn giản), hoa, quả, thân, cành (bao gồm cành + toàn bộ). Với mục
17


đích phân loại một ảnh đầu vào là cây hay không phải là cây, chúng tôi cần tạo một
lớp chứa các ảnh không phải là cây. Với các ảnh không phải là cây được thu thập từ
Internet.
Thực nghiệm: Các tham số của mạng được tinh chỉnh như sau: kích thước bó:
32, tốc độ học khởi tạo: 0.001, momentum: 0.9. Bảng 4.4 trình bày kết quả tương ứng
với hai chiến lược khởi tạo trọng số. Kết quả cho thấy rằng việc sử dụng trọng số tiền
huấn luyện trên một cơ sở dữ liệu lớn như ImageNet cho phép đạt được sự cải thiện
+5.08 % ở hạng 1 và +2.54 % ở hạng 2 so với trường hợp sử dụng bộ trọng số khởi
tạo ngẫu nhiên. Độ chính xác của phương pháp được đề xuất ở hạng 1 và hạng 2 tương
ứng là 87.18 % và 97.46 %. Kết quả này là rất hứa hẹn vì các hình ảnh chủ yếu là
có nền phức tạp. Điều này chứng tỏ rằng phương pháp học sâu có khả năng học tốt
với các hình ảnh tự nhiên.
Bảng 4.4 Kết quả bộ phát hiện bộ phận tự động với

số khởi tạo khác nhau.
Bộ trọng số khởi tạo
Thứ hạng 1 (%)
Khởi tạo ngẫu nhiên
82.10
Tiền huấn luyện trên ImageNet 87.18

4.3

hai bộ trọng
Thứ hạng 2 (%)
94.92
97.46

Phát triển hệ thống tra cứu cây thuốc Việt Nam (VnMed)

Hệ thống tra cứu cây thuốc Việt Nam (VnMed) đã được phát triển bởi Viện MICA,
Trường đại học Bách Khoa Hà Nội cho phép tìm kiếm thông tin của 600 cây thuốc
thường được sử dụng ở Việt Nam dựa trên từ khóa và mô tả sinh học. Việc phát triển
chức năng tìm kiếm dựa trên hình ảnh là quan trọng tuy nhiên việc này khó thực hiện
do sự khó khăn trong việc thu thập hình ảnh của các cây thuốc. Trong nghiên cứu này,
chúng tôi đề xuất áp dụng cách tiếp cận ở trên trong việc phát triển chức năng tìm
kiếm cây thuốc dựa trên hình ảnh.
Để đánh giá sự khả thi cũng như vai trò của các bước trong cách tiếp cận đề xuất,
chúng tôi thu thập dữ liệu 100 cây thuốc Việt Nam theo 2 phương pháp: thủ công, dựa
trên cộng đồng. Chúng tôi tổ chức các ảnh thu thập được thành 4 cơ sở dữ liệu như
sau:
❼ VnDataset1 chứa các ảnh thu được theo phương pháp thủ công;
❼ VnDataset2 chứa các ảnh của VnDataset1 và các ảnh thu thập theo phương


pháp dựa trên cộng đồng. Trong cơ sở dữ liệu này, số ảnh cho mỗi loài biến đổi
từ 57 tới 379. Trung bình mỗi loài có 206 ảnh. VnDataset2 chứa nhiễu (như các
ảnh không phải là cây) do quá trình thu thập ảnh tự động trên internet.
❼ VnDataset3 chứa các ảnh còn lại của VnDataset2 sau khi áp dụng bộ phát hiện

bộ phận xây dựng ở phần trước để loại bỏ những ảnh không hợp lệ.

18


❼ VnDataset4 chứa những ảnh của VnDataset3 sau khi loại bỏ thủ công những

ảnh không hợp lệ của VnDataset3;
Các cơ sở dữ liệu huấn luyện được trình bày chi tiết trong Bảng 4.8. Chúng tôi tiến
hành trên 2 tập đánh giá evaluation 1 và evaluation 2. Tập evaluation 1 chứa 972 ảnh
tự chụp trong khi evaluation 2 gồm 3,163 ảnh là những ảnh của tập evaluation 1 và
những ảnh được thu thập dựa trên cộng đồng.
Bảng 4.8 Bốn cơ sở dữ liệu cây thuốc Việt Nam
VnDataset1 VnDataset2 VnDataset3 VnDataset4
Tập huấn luyện 3,901
16,513
15,652
15,150
Chúng tôi xây dựng bộ nhận dạng cây thuốc bằng cách áp dụng mạng GoogLeNet
dựa trên việc sử dụng bộ trọng số được tiền huấn luyện trên ImageNet và sử dụng các
tham số huấn luyện sau: tốc độ học cơ bản: 0.001, kích thước lô: 32. Bốn mô hình huấn
luyện được tạo cho bốn cơ sở dữ liệu tương ứng (ký hiệu mô hình Mi ). Aij là độ chính
xác của mô hình Mi trong tập kiểm thử j. Các kết quả được hiển thị trong Bảng 4.9.
Bảng 4.9 Các kết quả nhận dạng cây thuốc Việt nam
Tập kiểm thử từ Độ chính xác (%) M1

M2
M3
rank 1
81.58 76.03 78.70
evaluation1
rank 5
90.64 88.48 83.54
rank 5
33.27 65.00 75.77
rank 1
29.62 56.50 57.73
evaluation2
rank 5
34.62 66.42 67.31

M4
79.63
84.77
66.45
58.46
79.48

Dữ liệu huấn luyện đóng vai trò quan trọng trong hiệu năng của mạng. Dữ liệu
huấn luyện càng không đồng nhất, mô hình càng mạnh mẽ. Trong số 4 mô hình, M1
vượt trội so với các mô hình khác trên tập evaluation1 (độ chính xác ở hạng 1 là 81.58
%). Tuy nhiên, khi thử nghiệm với các ảnh trong tập evaluation 2, hiệu năng của mô
hình này giảm đáng kể. Các mô hình khác thu được kết quả tương đối thấp hơn mô
hình M1 trên tập evaluation 1. Tuy nhiên, các mô hình này vẫn đạt được độ chính xác
cao khi làm việc với các ảnh của evaluation 2. Mô hình M1 không thích hợp với dữ liệu
thu thập từ cộng đồng. Giữa 3 mô hình M2 , M3 và M4 , các kết quả đạt được trên cả

hai tập đánh giá được xếp hạng từ cao xuống thấp là M4 , M3 và M2 . Điều này chỉ ra
vai trò quan trọng của việc xác thực dữ liệu. Phương pháp đề xuất xác thực dữ liệu
tự động dựa trên bộ phát hiện các bộ phận cây cho phép loai bỏ đáng kể các ảnh cây
không hợp lệ.
Tại thời điểm viết luận án này, dựa trên phương pháp đề xuất, một cơ sở dữ liệu
chứa 75,405 hình ảnh của 596 cây thuốc Việt Nam đã được thu thập. Bộ nhận dạng
cây cho kết quả nhận dạng ở thứ hạng 1 là 66.61 % và ở thứ hạng 10 là 87.52 % trên
bộ cơ sở dữ liệu này. Bộ nhận dạng này được tích hợp để xây dựng chức năng tìm kiếm
dựa trên hình ảnh trong trong ứng dụng tra cứu cây thuốc Việt Nam VnMed.
19


4.4

Kết luận

Trong chương này, một cách tiếp cận cho bài toán nhận dạng cây khi không có
sẵn cơ sở dữ liệu được đề xuất. Bước quan trọng của phương pháp này là đánh giá
dữ liệu với mô hình phát hiện bộ phận cây đề xuất. Chúng tôi cũng đánh giá phương
pháp đề xuất cho việc xây dựng chức năng tìm kiếm dựa trên hình ảnh của VnMed.
Kết quả, một cơ sở dữ liệu 596 loài cây thuốc Việt Nam được thu thập và được gán
nhãn cẩn thận với sự trợ giúp của các nhà thực vật học. Hơn nữa mô hình huấn luyện
nhận dạng trên cơ sở dữ liệu này đã được tích hợp trong ứng dụng VnMed.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Các kết luận
Luận án này có ba đóng góp: (1) đề xuất một phương pháp nhận dạng cây dựa
trên ảnh lá nền phức tạp, (2) một phương pháp kết hợp cho nhận dạng cây dựa trên
hai bộ phận (có tên RHF), (3) một sơ đồ cho nhận dạng cây tự động khi không có sẵn
nguồn dữ liệu và áp dụng sơ đồ này cho hệ thống tìm kiếm cây thuốc Việt Nam.

Đối với nhận dạng cây dựa trên ảnh lá nền phức tạp, chúng tôi đề xuất một
phương pháp kết hợp phân đoạn có tương tác và KDES cải tiến. Để đánh giá hiệu quả
của phương pháp đề xuất, chúng tôi tiến hành thực nghiệm trên các cơ sở dữ liệu khác
nhau. Các kết quả thu được chỉ ra việc kết hợp của phân đoạn tương tác và KDES cải
tiến trong phương pháp đề xuất là vượt trội hơn KDES gốc và các phương pháp dựa
trên việc trích chọn đặc trưng thủ công tốt hiện nay trên cả hai dữ liệu ImageCLEF
2013 và Flavia. Khi làm việc với các dữ liệu lớn và đa dạng như LifeCLEF 2015, các
kết quả thu được vẫn rất cạnh tranh với các phương pháp dựa trên các kỹ thuật học
sâu tiên tiến.
Chúng tôi đề xuất một kỹ thuật kết hợp RHF cho nhận dạng cây dựa trên nhiều
bộ phận cho phép kết hợp các kết quả của nhận dạng đơn bộ phận. Đối với nhận dạng
cây dựa trên đơn bộ phận chúng tôi đề xuất hai chiến lược: chiến lược 1 áp dụng một
mạng CNN cho mỗi bộ phận, và chiến lược 2 áp dụng một mạng CNN cho tất cả các
bộ phận, với ba mạng cơ sở là AlexNet, ResNet và GoogLeNet. Các kết quả đạt được
chỉ ra rằng phương pháp đề xuất là vượt trội hơn so với các phương pháp kết hợp cơ
bản là kỹ thuật dựa trên biến đổi và kỹ thuật dựa trên phân lớp. Phương pháp đề xuất
cũng vượt trội hơn so với phương pháp kết hợp MCDCNN trên tập con LifeCLEF 2015
với 50 loài. Các kết quả cũng chỉ ra rằng việc kết hợp hai bộ phận cho phép cải thiện
độ chính xác hơn là việc chỉ sử dụng một bộ phận. Giữa các cách kết hợp các bộ phận
khác nhau, kết hợp bộ phận lá và hoa cho kết quả tốt nhất. Khi áp dụng phương pháp
1 cho nhận dạng một bộ phận, đối với mạng AlexNet, kết quả tốt nhất cho nhận dạng
một bộ phận là bộ phận hoa đạt độ chính xác 73.0%, và khi áp dụng phương pháp kết
20


hợp đề xuất RHF, kết quả độ chính xác giữa bộ phận lá và hoa đã tăng lên 16.8%.
Khi triển khai hệ thống nhận dạng cây trong thực tế, một vấn đề chúng tôi gặp
phải là thiếu cơ sở dữ liệu hình ảnh của cây. Trong luận án này, chúng tôi giới thiệu
một cách tiếp cận cho nhận dạng cây khi không có sẵn nguồn dữ liệu bao gồm 4 bước
chính: thu thập dữ liệu, phát hiện tự động bộ phận cây, lọc dữ liệu và nhận dạng

cây. Bước quan trọng của phương pháp đề xuất là bộ lọc dữ liệu với sự trợ giúp của
bộ phận phát hiện bộ phận cây được đề xuất. Chúng tôi cũng áp dụng phương pháp
đề xuất cho chức năng tìm kiếm dựa trên hình ảnh của ứng dụng VnMed. Các thực
nghiệm trên cơ sở dữ liệu 100 cây thuốc Việt Nam chỉ ra vai trò của việc lọc dữ liệu
từ nhiều nguồn khác nhau là rất quan trọng, nó giúp cho các mô hình huấn luyện dữ
liệu trở nên bền vững hơn. Dựa trên cách tiếp cận đề xuất, một cơ sở dữ liệu ảnh bao
gồm 75,405 ảnh của 596 cây thuốc Việt Nam được xây dựng. Chức năng tìm kiếm cây
thuốc dựa trên mô hình huấn luyện trên cơ sở dữ liệu thu thập đã được tích hợp trong
ứng dụng VnMed.

Hướng phát triển
Trong luận án này, chúng tôi đã đề xuất một vài cải tiến cho nhận dạng cây. Tuy
nhiên những cải tiến này chỉ là một phần nhỏ trong quá trình phát triển hệ thống
nhận dạng cây tự động trong môi trường thực. Trong tương lai, chúng tôi muốn tiếp
tục thực hiện một số công việc nghiên cứu dựa trên kết quả của luận án này. Trong
phần này, chúng tôi tóm tắt các công việc chúng tôi muốn làm trong tương lai được
chia thành 2 nhóm: ngắn hạn và dài hạn.
❼ Hướng phát triển ngắn hạn:

– Đánh giá phương pháp đề xuất cho nhận dạng cây nhiều bộ phận: Trong
luận án này, chúng tôi mới thực hiện phương pháp đề xuất RHF cho nhận
dạng cây dựa trên hai bộ phận. Về mặt lý thuyết, phương pháp đề xuất có
thể áp dụng cho nhận dạng cây nhiều bộ phận. Do đó trong thời gian tới,
chúng tôi sẽ mở rộng đề xuất cho nhận dạng cây dựa trên nhiều bộ phận.
– Triển khai mô đun tìm kiếm cho VnMed: Trong triển khai hiện tại, chức
năng tìm kiếm dựa trên hình ảnh mới chỉ lấy một hình ảnh trong câu truy
vấn. Chúng tôi muốn triển khai truy tìm ảnh dựa trên hai bộ phận trong
giai đoạn đầu tiên và sau đó triển khai cho nhiều bộ phận trong ứng dụng
này. Để thực hiện mục đích này, một giao diện cho phép lựa chọn một vài
ảnh cũng như phương pháp kết hợp cần được thiết kế và cài đặt.

❼ Hướng phát triển dài hạn:

Mặc dù đã có nhiều cải tiến về độ chính xác của bài toán nhận dạng cây nhưng
độ chính xác hiện tại vẫn còn thấp đặc biệt khi làm việc với cơ sở dữ liệu không

21


đồng nhất và có số lượng loài lớn. Ví dụ, độ chính xác tại hạng 1 của cơ sở dữ
liệu 596 loài thuốc Việt Nam là 66.61%. Do đó, có thể cải tiến theo cách sau:
– Làm giàu cơ sở dữ liệu thông qua việc sử dụng hệ thống bởi những người
sử dụng cuối: Chúng tôi sẽ thu thập các ảnh cây từ những người dùng hệ
thống, các ảnh này sẽ được đánh giá bởi hệ thống đề xuất và gán nhãn bởi
hệ thống nhận dạng cây tự động, sau đó sẽ được xác thực bởi các chuyên
gia. Những ảnh này sẽ được sử dụng để làm giàu dữ liệu huấn luyện. Các
kết quả thực nghiệm trước đó của chúng tôi chỉ ra độ chính xác của phương
pháp đề xuất có thể được cải tiến khi cơ sở dữ liệu huấn luyện được làm
giàu.
– Thiết kế các kiến trúc mạng CNN/hàm mất mát phù hợp cho bài toán nhận
dạng cây: Một phần của luận án này là kỹ thuật kết hợp, với nhận dạng
một bộ phận, chúng tôi đơn giản áp dụng các chiến lược học chuyển giao
trên các mạng CNN sẵn có. Trong tương lai chúng tôi sẽ xem xét và thiết
kế các kiến trúc mạng CNN với hàm mất mát phù cho bài toán nhận dạng
cây.
– Phát triển hệ thống nhận dạng cây dựa trên đa phương thức: Hình ảnh là
một thông tin rất quan trọng để nhận dạng cây. Tuy nhiên việc chỉ sử dụng
hình ảnh cho nhận dạng cây trong nhiều trường hợp là không đầy đủ. Bên
cạnh hình ảnh, các chuyên gia và các nhà thực vật học còn xem xét các yếu
tố khác (như mùi hương, độ sần sùi,..). Trong tương lai, chúng tôi sẽ nghiên
cứu và phát triển nhận dạng cây dựa trên đa phương thức.

Thứ hai, chúng tôi sẽ mở rộng công việc nghiên cứu này cho các loài cây khác
của Việt Nam như các loài cây có giá trị quan trọng về mặt kinh tế xã hội.
Cuối cùng, với mục đích quảng bá kiến thức các loài cây trong ứng dụng của
mình tới đông đảo cộng đồng đặc biệt là các thế hệ trẻ, chúng tôi mong muốn
phát triển ứng dụng trò chơi nhận dạng cây và dựa trên các công nghệ thực tại
hiện thực ảo và hiện thực tăng cường.

22


TÀI LIỆU THAM KHẢO
[1] Go¨eau H., Bonnet P., and Joly A. (September 2015). Lifeclef plant identification
task 2015 . In CEUR-WS, editor, CLEF: Conference and Labs of the Evaluation
forum, volume 1391 of CLEF2015 Working notes. Toulouse, France.
[2] Go¨eau H., Bonnet P., and Joly A. (2017). Plant identification based on noisy web
data: the amazing performance of deep learning (lifeclef 2017). CLEF working
notes, 2017.
[3] Govaerts R. (2001). How many species of seed plants are there? . Taxon, 50(4):pp.
1085–1090.
[4] W¨aldchen J. and M¨ader P. (2018). Plant species identification using computer vision techniques: A systematic literature review . Archives of Computational Methods in Engineering, 25(2):pp. 507–543.
[5] Nilsback M.E. and Zisserman A. (2009). An automatic visual flora-segmentation
and classification of flower images. Ph.D. thesis, Oxford University.
[6] Yoo H.J. (2015). Deep convolution neural networks in computer vision. IEIE
Transactions on Smart Processing & Computing, 4(1):pp. 35–43.
[7] Joly A., Go¨eau H., Bonnet P., Baki´c V., Barbe J., Selmi S., Yahiaoui I., Carré J.,
Mouysset E., Molino J.F., et al. (2014). Interactive plant identification based on
social image data. Ecological Informatics, 23:pp. 22–34.
[8] 15/january/2017).
[9] Meyer F. and Beucher S. (1990). Morphological segmentation. Journal of visual
communication and image representation, 1(1):pp. 21–46.

[10] Bo L., Ren X., and Fox D. (2010). Kernel descriptors for visual recognition. In
Advances in neural information processing systems, pp. 244–252.
[11] NGUYEN V.T. (2015). Visual interpretation of hand postures for human-machine
interaction. Ph.D. thesis, Université de La Rochelle.
[12] Chaki J., Parekh R., and Bhattacharya S. (2015). Recognition of whole and deformed plant leaves using statistical shape features and neuro-fuzzy classifier . In
2015 IEEE 2nd international conference on recent trends in information systems
(ReTIS), pp. 189–194.
[13] Chaki J., Parekh R., and Bhattacharya S. (2015). Plant leaf recognition using
texture and shape features with neural classifiers. Pattern Recognition Letters,
58:pp. 61–68.

23


×