Tải bản đầy đủ (.docx) (80 trang)

Luận văn thạc sĩ nghiên cứu kỹ thuật nhận dạng ảnh lá cây dược liệu sử dụng mạng nơ ron

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.56 MB, 80 trang )

i
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN XUÂN CƢỜNG

NGHIÊN CỨU KỸ THUẬT NHẬN DẠNG ẢNH
LÁ CÂY DƢỢC LIỆU SỬ DỤNG MẠNG NƠ RON

Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01

TĨM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUN, 2016

Số hóa bởi Trung tâm Học liệu – ĐHTN


ii
Cơng trình đƣợc hồn thành tại:
Trƣờng Đại học Cơng nghệ Thông tin và Truyền thông
Đại học Thái Nguyên

Ngƣời hƣớng dẫn khoa học: TS. Nguyễn Văn Tảo

Phản biện 1: TS. Phạm Đức Long
Phản biện 2: PGS. TS. Ngô Quốc Tạo

Luận văn đƣợc bảo vệ trƣớc hội đồng chấm luận văn họp tại:
Trƣờng Đại học Công nghệ Thông tin và Truyền thông


Đại học Thái Nguyên, ngày 17 tháng 9 năm 2016

Có thể tìm hiểu luận văn tại:
Trung tâm học liệu Đại học Thái Nguyên
Thƣ viện trƣờng Đại học Công nghệ Thông tin và Truyền
thơng

Số hóa bởi Trung tâm Học liệu – ĐHTN


iii
LỜI CAM ĐOAN
Tôi xin cam đoan những nghiên cứu của tôi về nhận dạng ảnh lá cây dƣợc
liệu sử dụng mạng nơ ron là những gì tơi viết ra khơng sao chép từ các tài
liệu, không sử dụng các kết quả của ngƣời khác mà khơng trích dẫn cụ thể.
Tơi xin cam đoan ứng dụng này tơi trình bày trong khố luận là do tơi tự phát
triển dƣới sự hƣớng dẫn của thầy Nguyễn Văn Tảo không sao chép ứng dụng
của ngƣời khác. Nếu sai tơi hồn tồn chịu trách nhiệm theo quy định của
trƣờng Đại Học Công Nghệ Thông tin và Truyền thông- Đại Học Thái Nguyên.

Thái Nguyên, ngày

tháng năm 2016

Học viên

Nguyễn Xuân Cƣờng

Số hóa bởi Trung tâm Học liệu – ĐHTN



iv
LỜI CẢM ƠN
Trong thời gian qua, tôi đã nhận đƣợc rất nhiều sự hƣớng dẫn giúp đỡ
và động viên tận tình từ nhiều phía. Tất cả những điều đó đã trở thành một
nguồn động lực lớn giúp tơi có thể thực hiện đƣợc đề tài nghiên cứu đƣợc
giao. Với tất cả sự cảm kích và trân trọng, tơi xin đƣợc gửi lời cảm ơn đến tất
cả mọi ngƣời.
Trƣớc hết tôi xin chân thành cảm ơn thầy hƣớng dẫn – Tiến sĩ Nguyễn Văn
Tảo ngƣời đã hết sức nhiệt tình bảo ban hƣớng dẫn, đóng góp những ý kiến quý
báu cho tơi để có thể học tập và hồn thành khóa luận tốt nghiệp này.

Xin gửi lời cảm ơn chân thành nhất đến Ban giám hiệu trƣờng Đại học
Công Nghệ Thông Tin và truyền thông – Đại học Thái Nguyên đã tạo điều
kiện giúp đỡ tơi có thể thực hiện đề tài. Cảm ơn các thầy cô công tác tại
trƣờng Đại học Công Nghệ Thông Tin và truyền thông – Đại học Thái
Nguyên đã dạy dỗ và truyền đạt những kiến thức q báu cho tơi trong suốt
thời gian học tập và rèn luyện tại trƣờng.
Tôi xin đƣợc gửi lời biết ơn vô hạn tới cha mẹ, ngƣời thân đã nuôi
dƣỡng và tạo điều kiện tốt nhất cho tôi học tập sinh hoạt, ở bên tơi những lúc
khó khăn nhất để chuyên tâm thực hiện khóa luận.
Cuối cùng, xin cảm ơn tập thể lớp cao học CNTT K13E và đặc biệt
những ngƣời bạn tốt đã ở bên tơi, khuyến khích, động viên tôi và cho tôi
những lời khuyên chân thành trong cuộc sống và học tập. Xin trân trọng cảm
ơn!
Thái Nguyên, ngày tháng năm 2016
Học viên

Nguyễn Xuân Cƣờng
Số hóa bởi Trung tâm Học liệu – ĐHTN



v
MỤC LỤC
LỜI CAM ĐOAN......................................................................................................i
LỜI CẢM ƠN..........................................................................................................iii
MỤC LỤC.................................................................................................................v
DANH MỤC CÁC HÌNH VẼ.................................................................................vii
TÓM TẮT NỘI DUNG.............................................................................................x
MỞ ĐẦU...................................................................................................................1

1. Đặt vấn đề................................................................................................. 1
2. Đối tƣợng và phạm vi nghiên cứu............................................................3
3. Hƣớng nghiên cứu của đề tài....................................................................4
4. Những nội dung nghiên cứu chính............................................................4
5. Phƣơng pháp nghiên cứu..........................................................................4
6. Ý nghĩa khoa học của đề tài......................................................................5
CHƢƠNG 1: GIỚI THIỆU VỀ MẠNG NƠ RON VÀ XỬ LÝ ẢNH SỐ................6

1.1. Giới thiệu về mạng nơ ron..................................................................... 6
1.1.1. Giới thiệu về mạng nơron nhân tạo.................................................6
1.1.2. Nơron sinh học và nơron nhân tạo................................................10
1.2. Tổng quan về cây dƣợc liệu.................................................................19
1.3. Giới thiệu về xử lý ảnh số....................................................................20
CHƢƠNG 2: KỸ THUẬT NHẬN DẠNG SỬ DỤNG MẠNG NƠ RON..............22

2.1. Kỹ thuật trích chọn đặc trƣng ảnh.......................................................22
2.1.1. Kỹ thuật phát hiện đặc trƣng biên................................................ 22
2.1.2. Một số kỹ thuật phát hiện biên trực tiếp....................................... 23
2.1.3. Kỹ thuật xây dựng đặc trƣng ảnh từ biên..................................... 25

2.2. Mạng nơ-ron lan truyền thẳng nhiều lớp............................................. 30
2.2.1. Mạng perceptron một lớp..............................................................30
2.2.2. Mạng perceptron nhiều lớp...........................................................32
2.2.3 Một số vấn đề cần chú ý khi sử dụng mạng MLP..........................43
Số hóa bởi Trung tâm Học liệu – ĐHTN


vi
CHƢƠNG 3: THỬ NGHIỆM NHẬN DẠNG ẢNH LÁ CÂY DƢỢC LIỆU........47

3.1. Giới thiệu............................................................................................. 47
3.2. Thu thập, phân tích và xử lý dữ liệu.................................................... 48
3.2.1. Thu thập dữ liệu............................................................................ 48
3.2.2. Xử lý dữ liệu................................................................................. 51
3.2.3. Hậu xử lý.......................................................................................51
3.3. Mạng nơron trong hệ thống nhận dạng lá cây dƣợc liệu.....................51
3.4. Một số kết quả thƣƣ̉ nghiêṃ vàđánh giáhệ thống nhận dạng lá cây
dƣợc liệu.....................................................................................................53
3.4.1. Thử nghiệm hệ thống nhận dạng lá cây dƣợc liệu........................53
3.4.2. Đánh giá kết quả nhận dạng..........................................................61
3.4.3. Hƣớng phát triển trong tƣơng lai.................................................64
KẾT LUẬN CHUNG.............................................................................................. 65
DANH MỤC TÀI LIỆU THAM KHẢO................................................................. 67

Số hóa bởi Trung tâm Học liệu – ĐHTN


vii
DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Cấu trúc của một nơron sinh học điển hình.....................................11

Hình 1.2: Nơron nhân tạo................................................................................12
Hình 1.3: Mạng tự kết hợp.............................................................................. 15
Hình 1.4: Mạng kết hợp khác kiểu..................................................................16
Hình 1.5: Mạng truyền thẳng.......................................................................... 16
Hình 1.6: Mạng phản hồi.................................................................................17
Hình 1.7: Perceptron....................................................................................... 17
Hình 1.8: Mạng MLP tổng quát...................................................................... 18
Hình 2.1: Lƣu đồ kỹ thuật Prewitt Edge Detection........................................ 26
Hình 2.2: Ảnh lá cây dƣợc liệu áp dụng thuật toán tách biên trực tiếp..........27
Hình 2.3: Lƣới phủ lên tập biên ảnh khi xác định tập đặc trƣng điểm rút gọn27

Hình 2.4: Lƣới phủ lên tập biên ảnh khi xác định tập đặc trƣng điểm rút gọn
với kích thƣớc khác nhau................................................................................28
Hình 2.5: Đặc trƣng ảnh lá cây dƣợc liệu...................................................... 28
Hình 2.6: Tam giác vng biểu diễn góc đặc trƣng........................................29
Hình 2.7: Mạng perceptron một lớp................................................................31
Hình 2.8 Thực hiện hàm XOR bằng mạng MLP.............................................33
Hình 2.9: Lan truyền tín hiệu trong q trình học theo phƣơng pháp lan truyền

ngƣợc sai số.................................................................................................... 34
Hình 2.10. Sai số E đƣợc xét là hàm của trọng số W..................................... 36
Hình 2.11. Minh họa về ý nghĩa của quán tính trong thực tế..........................42
Hình 2.12. Hàm sigmoid g(x) = 1/(1+e-x)......................................................43
Hình 2.13. Nội suy hàm y = sin(x/3) + v, 0≤ x ≤ 20 sử dụng MLP................45
Hình 3.1: Các loại lá cây dƣợc liệu dùng để nhận dạng................................. 49
Hình 3.2: Một phần của tập ảnh huấn luyện....................................................50
Số hóa bởi Trung tâm Học liệu – ĐHTN


viii

Hình 3.3: Một phần của tập ảnh thử nghiệm...................................................50
Hình 3.4: Mơ hình Noron trong bài tốn nhận dạng mẫu............................... 52
Hình 3.5: Giao diện hệ thống nhận dạng lá cây dƣợc liệu..............................53
Hình 3.6: Giao diện nhận dạng đặc trƣng của ảnh cây...................................54
Hình 3.7: Giao diện chức năng huấn luyện mạng nơron.................................55
Hình 3.8: Giao diện chức năng nhận dạng ảnh lá cây dƣợc liệu....................56
Hình 3.9: Kết quả nhận dạng khi tham số khoảng cách giữa các điểm lớn....62

Số hóa bởi Trung tâm Học liệu – ĐHTN


ix
DANH MỤC CÁC BẢNG

Bảng 1.1: Một số hàm truyền thông dụng.......................................................14
Bảng 3.1: Số lƣợng ảnh trong tập huấn luyện và tập thử nghiệm của mỗi loài57

Bảng 3.2: Kết quả thử nghiệm nhận dạng ảnh lá cây dƣợc liệu.....................58
Bảng 3.3: Một số kết quả thử nghiệm nhận dạng lá cây dƣợc liệu.................59

Số hóa bởi Trung tâm Học liệu – ĐHTN


x
TĨM TẮT NỘI DUNG
Tóm tắt
Hiện nay nhu cầu tìm kiếm và hiểu biết thêm về thông tin các loại lá
thuốc của con ngƣời là rất lớn, đòi hỏi sự phát triển của các ứng dụng nhận
dạng để phục vụ nhu cầu đó cũng ngày càng cao.
Việc sử dụng các hệ thống nhận dạng có một ý nghĩa hết sức quan trọng

trọng và vơ cùng hữu ích cho con ngƣời. Các hệ thống nhận dạng giúp nâng
cao khả năng tự động cũng nhƣ phân loại các đối tƣợng trong đời sống thực
tế. Chính vì vai trị quan trọng của nó , lṇ văn đã tìm hiểu và trinh̀ bày mơṭ
phƣơng pháp nhâṇ diêṇ với đối tƣợng là lácây sƣƣ̉ dungg̣ mangg̣ nơron truyền
thẳng nhiều lớp lan truyền ngƣơcg̣ đồng thời xây dƣngg̣ hê g̣thốn g nhâṇ diêṇ lá
cây. Kết quả đạt đƣợc bao gồm hai phần chính:
Trình bày tổng quan về nhận dạng mẫu và bài toán nhận dạng lá cây
dƣợc liệu dùng mạng nơ ron lan truyền ngƣợc.
Hệ thống hóa một số vấn đề về nhận dạng mẫu sử dụng mạng nơron.
Thực nghiệm: Xây dựng thành công hệ thống nhận dạng mẫu lá cây
dƣợc liệu, hệ thống đã giải quyết thành cơng các u cầu bài tốn đặt ra nhƣ
khả năng tìm đặc trƣng ảnh, nhận dạng đƣợc các mẫu lá cây dƣợc liệu đã
đƣợc huấn luyện.
Tuy hệ thống còn đơn giản nhƣng đã phần nào giải quyết đƣợc bài tốn
nhận dạng lá cây dƣợc liệu với độ chính xác tƣơng đối.

Số hóa bởi Trung tâm Học liệu – ĐHTN


1
MỞ ĐẦU
1.

Đặt vấn đề
Cây dƣợc liệu có những vai trị hết sức quan trọng đối với mỗi quốc gia,

đặc biệt là trong chăm sóc sức khỏe cho con ngƣời. Việt Nam là một quốc gia
nằm trong vùng khí hậu nhiệt đới gió mùa nóng ẩm, có nguồn tài nguyên
động thực vật phong phú và đa dạng với khoảng 10.350 loài thực vật bậc cao,
800 loài rêu, 600 loài nấm và hơn 2.000 loài tảo. Theo kết quả điều tra của

Viện Dƣợc liệu, cả nƣớc ghi nhận đƣợc 3.948 loài thực vật và nấm lớn, 52
loài tảo biển, 408 loài động vật và 75 loại khống sản có cơng dụng làm
thuốc. Trong tổng số 3.948 loài cây thuốc, gần 90% là cây thuốc mọc tự nhiên
tập trung chủ yếu trong các quần xã rừng, chỉ có gần 10% là cây thuốc trồng.
Trong những năm qua, công tác quản lý dƣợc liệu đã đạt đƣợc những
thành tựu nhƣ: tiến hành khảo sát, đánh giá sự phân bố của dƣợc liệu, tạo tiền
đề xây dựng Danh mục cây thuốc Việt Nam, Danh mục động vật làm thuốc,
Danh mục khoáng vật làm thuốc, Danh mục các lồi cây thuốc có khả năng
khai thác, Danh mục cây thuốc bị đe doạ cần bảo vệ ở Việt Nam. Điều này đã
đƣợc kết luận tại Hội nghị toàn quốc về Quản lý và phát triển cây dƣợc liệu
của Việt Nam đƣợc tổ chức tại TP. Hạ Long tỉnh Quảng Ninh diễn ra ngày
27/12/2013.
Việt Nam có 3/4 diện tích là đồi núi, rừng, điều nay cho thấy chúng ta có
một lƣợng lớn các lồi cây dƣợc liệu tự nhiên, hiện nay chúng ta mới phát
hiện và khai thác đƣợc khoảng 3000 loài cây. Trong khi theo dự báo thì chúng
ta có khoảng hàng trăm nghìn loại cây dƣợc liệu khác nhau. Nhƣ vậy, cả
nƣớc chúng ta mới phát hiện và khai thác đƣợc khoảng 30% theo trữ lƣợng
dự báo và do đó cịn khoảng 70% cây dƣợc liệu chƣa đƣợc phát hiện và khai
thác. Đây là một bài tốn ln đƣợc đặt ra cho các nhà quản lý, nhà dƣợc liệu
và các nhà khoa học.

Số hóa bởi Trung tâm Học liệu – ĐHTN


2
Để khắc phục đƣợc những hạn chế trên, trong nƣớc và thế giới đã
nghiên cứu và ứng dụng các tiến bộ khoa học kỹ thuật của công nghệ thông
tin, cụ thể là công nghệ xử lý ảnh vào hỗ trợ nhận dạng và phát hiện các cây
dƣợc liệu để phục vụ cho việc khai thác, vì một thực tế là khi bà con chúng ta
lên rừng, hay đi đâu đó gặp những cây thuốc mà chúng ta lại không biết đó là

cây gì, tác dụng của các loại cây đó, nên việc nghiên cứu đề xuất các kỹ thuật
xử lý ảnh và nhận dạng ra các cây dƣợc liệu là việc làm rất cần thiết.
Ngày nay, trên thế giới đã có nhiều nhà khoa học quan tâm nghiên cứu
và đề xuất những kỹ thuật nhận dạng ảnh các cây dƣợc liệu [19], cụ thể:
Nhóm tác giả Lee và Hong [15], đề xuất phƣơng pháp nhận dạng ảnh cây
dƣợc liệu dựa vào đặc trƣng của đƣờng viền của lá cây dƣợc liệu. Patil và
Kumar [16,18], nhận dạng cây dƣợc liệu, tác dụng của cây dựa vào trích xuất
các đặc trƣng của lá từ đó tiến hành cung cấp những thơng tin về thuộc tính
của cây và phân loại cây theo đặc trƣng tác dụng của cây [17]. Nhóm tác Du,
Wang và Zhang [19]; Sari, Burak và Sankur [5,9,10,11], đề xuất kỹ thuật nhận
dạng cây dƣợc liệu dựa vào hình dạng, các vùng đặc trƣng của lá, đặc trƣng
kết cấu của lá cây dƣợc liệu, với đề xuất này giúp chúng ta có thể xây dựng
các hệ thống nhận dạng dữ liệu cây dƣợc liệu cho kết quả tỷ lệ nhận dạng và
phát hiện cao.

Số hóa bởi Trung tâm Học liệu – ĐHTN


3
Hình ảnh về lá cây dƣợc liệu đƣợc phân loại thành 3 lớp [4]
Tuy nhiên, những đề xuất của các tác giả trên đều có một số hạn chế, đó
là tốc độ chậm khi tập cơ sở dữ liệu về cây, lá cây dƣợc liệu lớn, điều này
cũng dẫn đến độ tin cậy giảm. Để khắc phục những hạn chế trên thì nhiều
cơng trình khác cũng đƣợc đề xuất nhƣ các kỹ thuật xử lý ảnh và nhận dạng
ảnh cây dƣợc liệu dựa vào trích chọn đặc trƣng của ảnh cây, ảnh lá cây dƣợc
liệu sử dụng mạng Noron tế bào [4].


Việt Nam, việc nghiên cứu đề xuất các kỹ thuật xử lý ảnh vào nhận


dạng ảnh cây dƣợc liệu còn rất khiêm tốn, mới chỉ tập trung vào một số nhóm
tác giả [1,2,3,4]. Tuy nhiên, các đề xuất mới chỉ dừng lại ở việc nghiên cứu đề
mô mà chƣa đánh giá, khắc phục đƣợc những hạn chế trên, chƣa so sánh
đƣợc tốc độ nhận dạng và độ tin cậy của ảnh cây dƣợc liệu.
Xuất phát từ thực tế, đề tài luận văn đƣợc chọn là “Nghiên cứu kỹ thuật
nhận dạng ảnh lá cây dược liệu sử dụng mạng Noron” dựa vào trích chọn đặc
trƣng về màu sắc, hình dạng, gân lá,… của lá cây dƣợc liệu.
2.

Đối tƣợng và phạm vi nghiên cứu
Đối tƣợng nghiên cứu
-Một số loại cây dƣợc liệu

-

Đặc trƣng của cây dƣợc liệu, lá cây dƣợc liệu, kết cấu, màu sắc, hình

dạng, gân lá cây dƣợc liệu,…
-Một số thuật toán và ứng dụng
+

Nghiên cứu lý thuyết về mạng nơ ron tế bào, xử lý ảnh số

+
Nghiên cứu các kỹ thuật xử lý ảnh và nhận dạng ảnh lá cây
dƣợc liệu
+

Biểu diễn, trích xuất và mơ tả ảnh cây dƣợc liệu, các đặc trƣng của lá


cây dƣợc liệu.

Số hóa bởi Trung tâm Học liệu – ĐHTN


4
+

Xây dựng chƣơng trình thực nghiệm về nhận dạng ảnh lá cây dƣợc

liệu
3.
-

Hƣớng nghiên cứu của đề tài
Nghiên cứu lý thuyết, thu thập, phân tích các tài liệu có liên quan đến

đối tƣợng của đề tài.
-

Nghiên cứu các kỹ thuật xử lý ảnh và nhận dạng ảnh lá cây dƣợc liệu

sử dụng mạng nơ ron tế bào dựa vào các đặc trƣng của lá cây dƣợc liệu nhƣ
màu sắc, kết cấu, hình dạng, gân lá,…
-

Cài đặt thử nghiệm, đánh giá, quan sát và hiệu chỉnh ảnh, kết xuất

đƣợc các thành phần, thuộc tính, cơng dụng của các cây dƣợc liệu ra file định
dạng nhằm phục vụ cho các yêu cầu thực tế.

4.

Những nội dung nghiên cứu chính
Dự kiến luận văn gồm: Phần mở đầu, ba chƣơng chính, phần kết luận,

tài liệu tham khảo và phụ lục. Bố cục nhƣ sau:
Phần mở đầu: Nêu lý do chọn đề tài và bố cục luận văn
Chương 1: GIỚI THIỆU VỀ MẠNG NƠ RON VÀ XỬ LÝ ẢNH SỐ
Chương 2: KỸ THUẬT NHẬN DẠNG ẢNH SỬ DỤNG MẠNG NƠ RON
Chương 3: THỬ NGHIỆM NHẬN DẠNG ẢNH LÁ CÂY DƢỢC LIỆU

Phần kết luận: Tóm tắt các kết quả đạt đƣợc, hƣớng phát triển tiếp
Tài liệu tham khảo
5. Phƣơng pháp nghiên cứu
Phƣơng pháp nghiên cứu của đề tài luận văn đƣợc sử dụng là kết hợp
giữa nghiên cứu lý thuyết với nghiên cứu thực nghiệm, cụ thể:
-

Phương pháp nghiên cứu lý thuyết: Thu thập tài liệu, đọc hiểu các kiến

thức cơ bản về xử lý ảnh số; Nghiên cứu một số kỹ thuật xử lý ảnh và nhận
dạng ảnh lá cây dƣợc liệu dựa vào các đặc trƣng về màu sắc, hình dạng, gân
lá,… So sánh, phân tích và đánh giá các kết quả nghiên cứu với những cơng
Số hóa bởi Trung tâm Học liệu – ĐHTN


5
trình của các tác giả khác đã cơng bố và đƣa ra những phƣơng pháp, kỹ thuật
đề xuất mới và đề xuất cải tiến.
Tìm hiểu một số cơng cụ hỗ trợ lập trình.

-Phương pháp nghiên cứu thực nghiệm:
+

Nghiên cứu xây dựng cơ sở dữ liệu ảnh huấn luyện (thu nhận ảnh lá

cây dƣợc liệu, các mẫu lá cây dƣợc liệu, hình dạng,…)
+

Nghiên cứu, đánh giá và lựa chọn phƣơng pháp, giải pháp công nghệ

cài đặt thử nghiệm với một số mẫu dữ liệu và đánh giá kết quả.
-

Phương pháp trao đổi khoa học: Công bố, trao đổi, thảo luận và báo

cáo tại các hội thảo, hội nghị khoa học,…
6.

Ý nghĩa khoa học của đề tài
Nghiên cứu mạng nơ ron tế bào và các ứng dụng.
Nghiên cứu các kỹ thuật xử lý ảnh và nhận dạng ảnh mẫu lá cây dƣợc liệu.
Nghiên cứu một số giải thuật, phƣơng pháp để đánh giá độ tin cậy của

ảnh đƣợc nhận dạng.
Ứng dụng công nghệ xử lý ảnh và mạng nơ ron tế bào vào bài toán thực tế.
Giải quyết bài toán: Phát hiện, khai thác cây dƣợc liệu của Việt Nam dựa vào
nhận dạng ảnh lá cây dƣợc liệu. Kết quả là nhận dạng đƣợc cây dƣợc
liệu, công dụng của cây đối với việc chăm sóc sức khỏe, chữa trị bệnh cho
con ngƣời.
Là cơ sở khoa học nhằm hỗ trợ nâng cao hiệu quả phát hiện, khai thác

các cây dƣợc liệu của Việt Nam. Đồng thời, các kết quả của đề tài sẽ còn làm
cơ sở khoa học cho việc đề xuất và xây dựng các chƣơng trình ứng dụng cho
nhiều ứng dụng thực tế trong lĩnh vực y học.

Số hóa bởi Trung tâm Học liệu – ĐHTN


6
CHƢƠNG 1: GIỚI THIỆU VỀ MẠNG NƠ RON VÀ XỬ LÝ ẢNH SỐ
1.1. Giới thiệu về mạng nơ ron
1.1.1. Giới thiệu về mạng nơron nhân tạo
1.1.1.1. Mạng nơron nhân tạo là gì?
Định nghĩa: Mạng nơron nhân tạo, Artificial Neural Network (ANN) gọi
tắt là mạng nơron, neural network, là một mô hình xử lý thơng tin phỏng theo
cách thức xử lý thơng tin của các hệ nơron sinh học. Nó đƣợc tạo lên từ một
số lƣợng lớn các phần tử (gọi là phần tử xử lý hay nơron) kết nối với nhau
thông qua các liên kết (gọi là trọng số liên kết) làm việc nhƣ một thể thống
nhất để giải quyết một vấn đề cụ thể nào đó.
Một mạng nơron nhân tạo đƣợc cấu hình cho một ứng dụng cụ thể
(nhận dạng mẫu, phân loại dữ liệu, ...) thông qua một quá trình học từ tập các
mẫu huấn luyện. Về bản chất học chính là q trình hiệu chỉnh trọng số liên
kết giữa các nơron.
1.1.1.2. Lịch sử phát triển mạng nơron
Các nghiên cứu về bộ não con ngƣời đã đƣợc tiến hành từ hàng nghìn
năm nay. Cùng với sự phát triển của khoa học kĩ thuật đặc biệt là những tiến
bộ trong ngành điện tử hiện đại, việc con ngƣời bắt đầu nghiên cứu các nơron
nhân tạo là hoàn toàn tự nhiên. Sự kiện đầu tiên đánh dấu sự ra đời của mạng
nơron nhân tạo diễn ra vào năm 1943 khi nhà thần kinh học Warren
McCulloch và nhà toán học Walter Pitts viết bài báo mô tả cách thức các
nơron hoạt động. Họ cũng đã tiến hành xây dựng một mạng nơron đơn giản

bằng các mạch điện. Các nơron của họ đƣợc xem nhƣ là các thiết bị nhị phân
với ngƣỡng cố định. Kết quả của các mơ hình này là các hàm logic đơn giản
chẳng hạn nhƣ “ a OR b” hay “a AND b”.

Số hóa bởi Trung tâm Học liệu – ĐHTN


7
Tiếp bƣớc các nghiên cứu này, năm 1949 Donald Hebb cho xuất bản
cuốn sách Organization of Behavior. Cuốn sách đã chỉ ra rằng các nơron nhân
tạo sẽ trở lên hiệu quả hơn sau mỗi lần chúng đƣợc sử dụng.
Những tiến bộ của máy tính đầu những năm 1950 giúp cho việc mơ hình
hóa các ngun lý của những lý thuyết liên quan tới cách thức con ngƣời suy
nghĩ đã trở thành hiện thực. Nathanial Rochester sau nhiều năm làm việc tại
các phịng thí nghiệm nghiên cứu của IBM đã có những nỗ lực đầu tiên để mô
phỏng một mạng nơron. Trong thời kì này tính tốn truyền thống đã đạt đƣợc
những thành cơng rực rỡ trong khi đó những nghiên cứu về nơron còn ở giai
đoạn sơ khai. Mặc dù vậy những ngƣời ủng hộ triết lý “thinking machines”
(các máy biết suy nghĩ) vẫn tiếp tục bảo vệ cho lập trƣờng của mình.
Năm 1956 dự án Dartmouth nghiên cứu về trí tuệ nhân tạo (Artificial
Intelligence) đã mở ra thời kỳ phát triển mới cả trong lĩnh vực trí tuệ nhân tạo
lẫn mạng nơron. Tác động tích cực của nó là thúc đẩy hơn nữa sự quan tâm
của các nhà khoa học về trí tuệ nhân tạo và q trình xử lý ở mức đơn giản
của mạng nơron trong bộ não con ngƣời.
Những năm tiếp theo của dự án Dartmouth, John von Neumann đã đề
xuất việc mô phỏng các nơron đơn giản bằng cách sử dụng rơle điện áp hoặc
đèn chân không. Nhà sinh học chuyên nghiên cứu về nơron Frank Rosenblatt
cũng bắt đầu nghiên cứu về Perceptron. Sau thời gian nghiên cứu này
Perceptron đã đƣợc cài đặt trong phần cứng máy tính và đƣợc xem nhƣ là
mạng nơron lâu đời nhất còn đƣợc sử dụng đến ngày nay. Perceptron một

tầng rất hữu ích trong việc phân loại một tập các đầu vào có giá trị liên tục
vào một trong hai lớp. Perceptron tính tổng có trọng số các đầu vào, rồi trừ
tổng này cho một ngƣỡng và cho ra một trong hai giá trị mong muốn có thể.
Tuy nhiên Perceptron còn rất nhiều hạn chế, những hạn chế này đã đƣợc chỉ

Số hóa bởi Trung tâm Học liệu – ĐHTN


8
ra trong cuốn sách về Perceptron của Marvin Minsky và Seymour Papert viết
năm 1969.
Năm 1959, Bernard Widrow và Marcian Hoff thuộc trƣờng đại học
Stanford đã xây dựng mơ hình ADALINE (ADAptive LINear Elements) và
MADALINE. (Multiple ADAptive LINear Elements). Các mô hình này sử
dụng quy tắc học Least-Mean-Squares (LMS: Tối thiểu bình phƣơng trung
bình). MADALINE là mạng nơron đầu tiên đƣợc áp dụng để giải quyết một
bài tốn thực tế. Nó là một bộ lọc thích ứng có khả năng loại bỏ tín hiệu dội
lại trên đƣờng dây điện thoại. Ngày nay mạng nơron này vẫn đƣợc sử dụng
trong các ứng dụng thƣơng mại.
Năm 1974 Paul Werbos đã phát triển và ứng dụng phƣơng pháp học lan
truyền ngƣợc (back-propagation). Tuy nhiên phải mất một vài năm thì
phƣơng pháp này mới trở lên phổ biến. Các mạng lan truyền ngƣợc đƣợc biết
đến nhiều nhất và đƣợc áp dụng rộng dãi nhất nhất cho đến ngày nay.
Thật không may, những thành công ban đầu này khiến cho con ngƣời
nghĩ quá lên về khả năng của các mạng nơron. Chính sự cƣờng điệu quá mức
đã có những tác động khơng tốt đến sự phát triển của khoa học và kỹ thuật
thời bấy giờ khi ngƣời ta lo sợ rằng đã đến lúc máy móc có thể làm mọi việc
của con ngƣời. Những lo lắng này khiến ngƣời ta bắt đầu phản đối các
nghiên cứu về mạng nơ ron. Thời kì tạm lắng này kéo dài đến năm 1981.
Năm 1982 trong bài báo gửi tới viện khoa học quốc gia, John Hopfield

bằng sự phân tích tốn học rõ ràng, mạch lạc, ơng đã chỉ ra cách thức các
mạng nơron làm việc và những công việc chúng có thể thực hiện đƣợc. Cống
hiến của Hopfield khơng chỉ ở giá trị của những nghiên cứu khoa học mà còn
ở sự thúc đẩy trở lại các nghiên cứu về mạng neuron.
Cũng trong thời gian này, một hội nghị với sự tham gia của Hoa Kỳ và
Nhật Bản bàn về việc hợp tác/cạnh tranh trong lĩnh vực mạng nơron đã đƣợc
Số hóa bởi Trung tâm Học liệu – ĐHTN


9
tổ chức tại Kyoto, Nhật Bản. Sau hội nghị, Nhật Bản đã công bố những nỗ lực
của họ trong việc tạo ra máy tính thế hệ thứ 5. Tiếp nhận điều đó, các tạp chí
định kỳ của Hoa Kỳ bày tỏ sự lo lắng rằng nƣớc nhà có thể bị tụt hậu trong
lĩnh vực này. Vì thế, ngay sau đó, Hoa Kỳ nhanh chóng huy động quỹ tài trợ
cho các nghiên cứu và ứng dụng mạng nơ ron.
Năm 1985, viện vật lý Hoa Kỳ bắt đầu tổ chức các cuộc họp hàng năm
về mạng nơ ron ứng dụng trong tin học (Neural Networks for Computing).
Năm 1987, hội thảo quốc tế đầu tiên về mạng nơ ron của Viện các kỹ sƣ
điện và điện tử IEEE (Institute of Electrical and Electronic Engineer) đã thu
hút hơn 1800 ngƣời tham gia.
Ngày nay, không chỉ dừng lại ở mức nghiên cứu lý thuyết, các nghiên
cứu ứng dụng mạng nơron để giải quyết các bài toán thực tế đƣợc diễn ra ở
khắp mọi nơi. Các ứng dụng mạng nơron ra đời ngày càng nhiều và ngày càng
hồn thiện hơn. Điển hình là các ứng dụng: xử lý ngơn ngữ (Language
Processing), nhận dạng kí tự (Character Recognition), nhận dạng tiếng nói
(Voice Recognition), nhận dạng mẫu (Pattern Recognition), xử lý tín hiệu
(Signal Processing), Lọc dữ liệu (Data Filtering),…..
1.1.1.3. So sánh mạng nơron với máy tính truyền thống
Các mạng nơron có cách tiếp cận khác trong giải quyết vấn đề so với
máy tính truyền thống. Các máy tính truyền thống sử dụng cách tiếp cận theo

hƣớng giải thuật, tức là máy tính thực hiện một tập các chỉ lệnh để giải quyết
một vấn đề. Vấn đề đƣợc giải quyết phải đƣợc biết và phát biểu dƣới dạng
một tập chỉ lệnh không nhập nhằng. Những chỉ lệnh này sau đó phải đƣợc
chuyển sang một chƣơng trình ngơn ngữ bậc cao và chuyển sang mã máy để
máy tính có thể hiểu đƣợc.
Trừ khi các bƣớc cụ thể mà máy tính cần tuân theo đƣợc chỉ ra rõ ràng,
máy tính sẽ khơng làm đƣợc gì cả. Điều đó giới hạn khả năng của các máy
Số hóa bởi Trung tâm Học liệu – ĐHTN


10
tính truyền thống ở phạm vi giải quyết các vấn đề mà chúng ta đã hiểu và biết
chính xác cách thực hiện. Các máy tính sẽ trở lên hữu ích hơn nếu chúng có
thể thực hiện đƣợc những việc mà bản thân con ngƣời khơng biết chính xác
là phải làm nhƣ thế nào.
Các mạng nơron xử lý thông tin theo cách thức giống nhƣ bộ não con
ngƣời. Mạng đƣợc tạo nên từ một số lƣợng lớn các phần tử xử lý đƣợc kết nối
với nhau làm việc song song để giải quyết một vấn đề cụ thể. Các mạng nơron
học theo mơ hình, chúng khơng thể đƣợc lập trình để thực hiện một nhiệm vụ cụ
thể. Các mẫu phải đƣợc chọn lựa cẩn thận nếu không sẽ rất mất thời gian, thậm
chí mạng sẽ hoạt động khơng đúng. Điều hạn chế này là bởi vì mạng tự tìm ra
cách giải quyết vấn đề, thao tác của nó khơng thể dự đốn đƣợc.

Các mạng nơron và các máy tính truyền thống khơng cạnh tranh nhau
mà bổ sung cho nhau. Có những nhiệm vụ thích hợp hơn với máy tính truyền
thống, ngƣợc lại có những nhiệm vụ lại thích hợp hơn với các mạng nơron.
Thậm chí rất nhiều nhiệm vụ địi hỏi các hệ thống sử dụng tổ hợp cả hai cách
tiếp cận để thực hiện đƣợc hiệu quả cao nhất (thông thƣờng một máy tính
truyền thống đƣợc sử dụng để giám sát mạng nơron).
1.1.2. Nơron sinh học và nơron nhân tạo

1.1.2.1. Nơron sinh học
Qua quá trình nghiên cứu về bộ não, ngƣời ta thấy rằng: bộ não con
ngƣời bao gồm khoảng 1011 nơron tham gia vào khoảng 1015 kết nối trên các
đƣờng truyền. Mỗi đƣờng truyền này dài khoảng hơn một mét. Các nơron có
nhiều đặc điểm chung với các tế bào khác trong cơ thể, ngồi ra chúng cịn có
những khả năng mà các tế bào khác khơng có đƣợc, đó là khả năng nhận, xử
lý và truyền các tín hiệu điện hóa trên các đƣờng mịn nơron, các con đƣờng
này tạo nên hệ thống giao tiếp của bộ não.

Số hóa bởi Trung tâm Học liệu – ĐHTN


11

Hình 1.1: Cấu trúc của một nơron sinh học điển hình
Mỗi nơron sinh học có 3 thành phần cơ bản:
•Các nhánh vào hình cây ( dendrites)
•Thân tế bào (cell body)
•Sợi trục ra (axon)
Các nhánh hình cây truyền tín hiệu vào đến thân tế bào. Thân tế bào
tổng hợp và xử lý cho tín hiệu đi ra. Sợi trục truyền tín hiệu ra từ thân tế bào
này sang nơron khác. Điểm liên kết giữa sợi trục của nơron này với nhánh
hình cây của nơron khác gọi là synapse. Liên kết giữa các nơron và độ nhạy
của mỗi synapse đƣợc xác định bởi q trình hóa học phức tạp. Một số cấu
trúc của nơron đƣợc xác định trƣớc lúc sinh ra. Một số cấu trúc đƣợc phát
triển thơng qua q trình học. Trong cuộc đời cá thể, một số liên kết mới
đƣợc hình thành, một số khác bị hủy bỏ.

Số hóa bởi Trung tâm Học liệu – ĐHTN



12
Nhƣ vậy nơron sinh học hoạt động theo cách thức sau: nhận tín hiệu đầu
vào, xử lý các tín hiệu này và cho ra một tín hiệu output. Tín hiệu output này
sau đó đƣợc truyền đi làm tín hiệu đầu vào cho các nơron khác.
Dựa trên những hiểu biết về nơron sinh học, con ngƣời xây dựng nơron
nhân tạo với hy vọng tạo nên một mơ hình có sức mạnh nhƣ bộ não.
1.1.2.2. Nơron nhân tạo
Một nơron là một đơn vị xử lý thông tin và là thành phần cơ bản của
một mạng nơron. Cấu trúc của một nơron đƣợc mơ tả trên hình dƣới.

Hình 1.2: Nơron nhân tạo
Các thành phần cơ bản của một nơron nhân tạo bao gồm:


Tập các đầu vào: Là các tín hiệu vào (input signals) của nơron, các tín

hiệu này thƣờng đƣợc đƣa vào dƣới dạng một vector N chiều.


Tập các liên kết: Mỗi liên kết đƣợc thể hiện bởi một trọng số (gọi là

trọng số liên kết – Synaptic weight). Trọng số liên kết giữa tín hiệu vào thứ j với
nơron k thƣờng đƣợc kí hiệu là wkj. Thơng thƣờng, các trọng số này đƣợc

khởi tạo một cách ngẫu nhiên ở thời điểm khởi tạo mạng và đƣợc cập nhật
liên tục trong quá trình học mạng.


Bộ tổng (Summing function): Thƣờng dùng để tính tổng của tích các


đầu vào với trọng số liên kết của nó.

Số hóa bởi Trung tâm Học liệu – ĐHTN


13


Ngƣỡng (còn gọi là một độ lệch - bias): Ngƣỡng này thƣờng đƣợc

đƣa vào nhƣ một thành phần của hàm truyền.


Hàm truyền (Transfer function) : Hàm này đƣợc dùng để giới hạn

phạm vi đầu ra của mỗi nơron. Nó nhận đầu vào là kết quả của hàm tổng và
ngƣỡng đã cho. Thông thƣờng, phạm vi đầu ra của mỗi nơron đƣợc giới hạn
trong đoạn [0,1] hoặc [-1, 1]. Các hàm truyền rất đa dạng, có thể là các hàm
tuyến tính hoặc phi tuyến. Việc lựa chọn hàm truyền nào là tuỳ thuộc vào từng
bài toán và kinh nghiệm của ngƣời thiết kế mạng. Một số hàm truyền thƣờng
sử dụng trong các mơ hình mạng nơron đƣợc đƣa ra trong bảng 1 .


Đầu ra: Là tín hiệu đầu ra của một nơron, với mỗi nơron sẽ có tối đa là

một đầu ra.
Xét về mặt toán học, cấu trúc của một nơron k, đƣợc mô tả bằng cặp
biểu thức sau: [cong thuc] trong đó: x 1, x2, ..., xp: là các tín hiệu vào; (wk1,
wk2, ..., wkp) là các trọng số liên kết của nơron thứ k; u k là hàm tổng; bk là một

ngƣỡng; f là hàm truyền và yk là tín hiệu đầu ra của nơron.
Nhƣ vậy tƣơng tự nhƣ nơron sinh học, nơron nhân tạo cũng nhận các
tín hiệu đầu vào, xử lý ( nhân các tín hiệu này với trọng số liên kết, tính tổng
các tích thu đƣợc rồi gửi kết quả tới hàm truyền), và cho một tín hiệu đầu ra
(là kết quả của hàm truyền).

Số hóa bởi Trung tâm Học liệu – ĐHTN


14
Bảng 1.1: Một số hàm truyền thông dụng
Hàm truyền
Symmetrical Hard
Limit (hardlims)

Linear (purelin)

Saturating
(satlin)

Log-Sigmoid
(logsig)

1.1.2.3. Mơ hình mạng nơron
Mặc dù mỗi nơron đơn lẻ có thể thực hiện những chức năng xử lý thơng
tin nhất định, sức mạnh của tính tốn nơron chủ yếu có đƣợc nhờ sự kết hợp
các nơron trong một kiến trúc thống nhất. Một mạng nơron là một mô hình
tính tốn đƣợc xác định qua các tham số: kiểu nơron (nhƣ là các nút nếu ta
coi cả mạng nơron là một đồ thị), kiến trúc kết nối (sự tổ chức kết nối giữa
các nơron) và thuật toán học (thuật tốn dùng để học cho mạng).


Số hóa bởi Trung tâm Học liệu – ĐHTN


15

Về bản chất một mạng nơ ron có chức năng nhƣ là một hàm anh xạ F: X
→ Y, trong đó X là khơng gian trạng thái đầu vào (input state space) và Y là
không gian trạng thái đầu ra (output state space) của mạng. Các mạng chỉ đơn
giản là nhiệm vụ anh xạ các vector đầu vào x X sang các vector đầu ra y
Y thong qua “bộ lọc” (filter) các trọng số. Tức là y = F(x) = s(W,x), trong đó

W là ma trận trọng số lien kết. Hoạt động của mạng thƣờng là các tính tốn
số thực trên các ma trận.
1.1.2.4. Các kiểu mơ hình mạng nơron
Cách thức kết nối các nơron trong mạng xác định kiến trúc (topology)
của mạng. Các nơron trong mạng có thể kết nối đầy đủ (fully connected) tức
là mỗi nơron đều đƣợc kết nối với tất cả các nơron khác, hoặc kết nối cục bộ
(partially connected) chẳng hạn chỉ kết nối giữa các nơron trong các tầng
khác nhau. Ngƣời ta chia ra hai loại kiến trúc mạng chính:


Tự kết hợp (autoassociative): là mạng có các nơron đầu vào cũng là

các nơron đầu ra. Mạng Hopfield là một kiểu mạng tự kết hợp.

Hình 1.3: Mạng tự kết hợp


Kết hợp khác kiểu (heteroassociative): là mạng có tập nơron đầu vào


và đầu ra riêng biệt. Perceptron, các mạng Perceptron nhiều tầng (MLP:
MultiLayer Perceptron), mạng Kohonen, … thuộc loại này.

Số hóa bởi Trung tâm Học liệu – ĐHTN


×