Tải bản đầy đủ (.doc) (53 trang)

Khoá luận tốt nghiệp: Tình hình nghiên cứu và ứng dụng mạng thần kinh nhân tạo

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.21 MB, 53 trang )

Chơng 1: tổng quan
1.1

Tình hình nghiên cứu và ứng dụng mạng thần kinh nhân tạo

(TKNT)
Các công nghệ mới trong kỹ thuật, vật lý, đặc biệt là vật lý
khí quyển, sinh học... đà làm nảy sinh một loạt các vấn đề phi
tuyến, bất ổn định và phức tạp. Để giải đợc các bài toán đó đòi hỏi
phải có các công cụ xử lý, tính toán phi tuyến, trong số các công cụ
đó, mạng thần kinh nhân tạo (TKNT) tỏ ra có u thế vợt trội. Mạng
TKNT đáp ứng đợc nhu cầu vì nó đợc luyện trên các mẫu, sử dụng
các công cụ thống kê và giả thuyết tối u. Có nhiều loại mạng TKNT
khác nhau, trong đó có mạng truy hồi, mạng nhận thức đa lớp và
mạng thời gian trễ. Việc sử dụng mạng truy hồi nh một công cụ dự
báo ngày càng thể hiện nhiều u điểm trên nhiều lĩnh vực nhờ vào
khả năng liên kết giữa các lớp, các phần tử hoạt động trong mạng.
Quá trình phát triển của mạng TKNT trải qua nhiều giai đoạn
khác nhau, đợc đánh dấu bằng các mốc quan trọng: những năm 40
của thế kỷ 20 đánh dấu những phát triển đỉnh cao đầu tiên với các
nghiên cứu của McCulloch và Pitts (1943); nhng mÃi đến năm 1949,
Hebb đa ra thuật toán học đầu tiên của mạng, gọi là thuật toán
Hebb, mạng TKNT chính thức ra đời và khẳng định khả năng tính
toán trong các bài toán phi tuyến. Dấu mốc thứ hai xuất hiện những
năm 60 với giả thuyết hội tụ của mạng nhận thức của Rosenbatt
(1960), thành công đầu tiên trong lĩnh vực mạng TKNT là nơron
thích ứng tuyến tính ADALINE và nơron thích ứng tuyến tính đa
biến - MADALINE do Widrow và Hoff (1960) phát triển; sau đó,
Minsky cùng Papert chỉ ra hạn chế của mạng nhận thức đơn giản
(1969). Kết quả của Minsky và Papert đà làm thất vọng nhiều nhà
khoa học, đặc biệt là các nhà khoa học trong ngành khoa học tính


toán lúc bấy giờ. Chính những công bố này đà làm chậm tiến trình
phát triển của mạng TKNT gần 20 năm. MÃi đến những năm 80,
mạng TKNT mới có đợc những thành tựu đáng chú ý mới. Đó là công

4


trình của Hopfield với cách tiếp cận dới khía cạnh năng lợng và thuật
toán học lan truyền ngợc cho mạng nhận thức đa lớp. Nhiều ngời
nhắc đến công trình này của Hopfield nh một sự khởi đầu thứ hai
cho mạng TKNT. Sau đó công trình đợc tiếp tục phát triển và công
bố rộng rÃi năm 1986 trong bài viết của Rumelhart và cộng sự. Từ đó
đến nay, cùng với sự phát triển của công nghệ thông tin và truyền
thông, cộng đồng ngời sử dụng mạng TKNT tăng lên đáng kể và đợc
mở rộng trên nhiều lĩnh vực. Trong khí tợng học, đà có nhiều nhà
khí tợng học trên thế giới và Việt Nam sử dụng mạng TKNT nh những
công cụ thống kê cho các bài toán phức tạp giúp hiệu chỉnh sản
phẩm mô hình số, tái tạo và bổ xung số liệu, tính toán tổng lợng
ozon trong khí quyển ...
1.2. Nhiệt độ tối cao.
Nhiệt độ nói chung và nhiệt độ tối cao nói riêng đợc sử dụng
nhiều trong các mô hình thủy văn và mô hình khí tợng nông
nghiệp. Gần đây, dự báo nhiệt độ và đặc biệt là nhiệt ®é tèi cao
rÊt cã ý nghÜa trong viƯc ®¸nh gi¸ sự nóng lên của khí hậu toàn
cầu.
Cùng với bức xạ, nhiệt độ tối cao còn có ý nghĩa quan trọng đối
với các ngành nh: nông nghiệp, công nghiệp năng lợng, công nghiệp
máy móc và xây dựng... Nhiệt độ có ảnh hởng rất lớn đến hoạt
động của các công trình thủy điện, các công trình giao thông, vận
tải, công nghiệp chế biến thực phẩm, ...

Trên thế giới đà có nhiều nghiên cứu dự báo nhiệt độ tối cao sử
dụng đầu ra của các mô hình số trị nh trong các tài liƯu tham kh¶o
cđa Bin Li, Darel R. Massie, Eric J. Alfaro,...
Khu vực đồng bằng phía bắc bao gồm các tỉnh thuộc vùng
đồng bằng Bắc Bộ và 3 tỉnh Thanh Hóa, Nghệ An, Hà Tĩnh (đồng
bằng Thanh Nghệ Tĩnh). Chế độ nhiệt ở các tỉnh thuộc khu vực
này không hoàn toàn đồng nhất. Tiêu biểu cho chế độ nhiệt mùa
lạnh là nhiệt độ tháng I và cho mùa nóng là nhiệt ®é th¸ng VII. Khu

5


vực đồng bằng Bắc Bộ chịu ảnh hởng nhiều hơn của hệ thống gió
mùa đông bắc nên có mùa đông lạnh hơn (Hà Nội: 16.6 0C so với
Thanh Hóa: 17.30C, Vinh: 17.90C), dao động nhiệt trong mùa đông
cũng lớn hơn so víi khu vùc Thanh NghƯ TÜnh. Vµo mïa hÌ, dới tác
động của vị trí địa lý, địa hình, do hiệu ứng phơn cùng với gió
mùa tây nam hoạt động mạnh nên khu vực Thanh Nghệ Tĩnh có nền
nhiệt độ cao hơn rõ rệt. Các tháng có khả năng xuất hiện nhiệt độ
lạnh nhất có thể rơi vào các tháng từ tháng XII năm trớc đến tháng II
năm sau trong đó lớn nhất là tháng I với xác suất 60%; còn xác suất
xuất hiện nhiệt độ tối cao cực đại lớn nhất là vào tháng VII (45%) và
tháng VI (40%), còn lại có thể xuất hiện vào các tháng V, và tháng
VIII. Mùa đông trên khu vực đồng bằng Thanh Nghệ Tĩnh cũng rất
ẩm ớt do không khí cực đới đà đợc bổ xung ẩm từ bề mặt biển và
do front lạnh thờng dừng lại và mờ dần trên khu vực này. Tình trạng
thời tiết nồm ẩm, ma phùn cũng xuất hiện ở khu vực đồng bằng Bắc
Bộ vào cuối mùa đông (khoảng tháng II, tháng III).
Những đặc điểm quan trọng nhất của khu vực diễn ra vào
mùa hè đó là sự xuất hiện của thời kỳ gió Tây khô nóng. Dạng thời

tiết này ảnh hởng rõ rệt hơn đối với khu vực Thanh Nghệ Tĩnh.
Tháng VII là tháng nóng nhất đồng thời cũng là tháng khô nhất đối
với khu vực Thanh Nghệ Tĩnh. Nhiệt độ tối cao cực đại trên khu vực
này có thể đạt tới 42 43 0C, cao hơn khu vực đồng bằng Bắc Bộ
(khoảng 400C).
Một vài đặc trng về nhiệt độ của khu vực nghiên cứu có thể
đợc tóm tắt nh sau: Đối với khu vực đồng bằng Bắc Bộ, nhiệt độ
trung bình năm vào khoảng 23 24 0C. Hàng năm có 4 tháng nhiệt
độ trung bình dới 200C (rét) là từ tháng XII đến tháng III. Tháng lạnh
nhất là tháng I có nhiệt độ trung bình vào khoảng 16 17 0C và tối
thấp trung bình là 13 14 0C. Trừ các tháng chuyển tiếp, còn lại 5
tháng từ tháng V đến tháng IX nhiệt độ trung bình vợt quá 270C và
tối cao trung bình trên 30 0C. Hai tháng nóng nhất là VII và tháng VI.

6


Nhiệt độ tối cao tuyệt đối phần lớn các nơi vợt quá 400C, riêng ven
biển không quá 37 38 0C. Biên độ dao động ngày đêm của nhiệt
độ trung bình vào khoảng 6 7 0C, tổng số giờ nắng cả năm thờng
vào khoảng 1600-1700 giờ. Đối với khu vực đồng bằng Thanh Nghệ
Tĩnh, nhiệt độ trung bình năm cũng khoảng 23 24 0C, tổng nhiệt
độ cả năm vào khoảng 8600-87000C. Khu vực phía bắc (khu vực
Thanh Hóa) có 4 tháng nhiệt độ trung bình dới 200C (từ tháng XII
đến III), ở phần phía nam (Nghệ An Hà Tĩnh) chỉ còn 3 tháng (từ
tháng XII đến tháng II). Tháng lạnh nhất là tháng I có nhiệt độ trung
bình khoảng 17 180C và nhiệt độ tối thấp trung bình khoảng
150C. Trong 4 tháng đầu và giữa mùa hè (từ tháng V đến tháng VIII),
nhiệt độ trung bình trên 270C và tối cao trung bình trên 33 0C.
nhiệt ®é tèi cao tut ®èi cã thĨ lªn tíi 42 - 43 0C. Biên độ dao

động nhiệt ngày đêm vào khoảng 6 70C, tổng số giờ nắng cả
năm thờng vào khoảng 1600 - 1700 giờ; vào mùa đông là mùa ít
nắng.
1.3. Nhiệt độ tối thấp.
Đối với nhiệt độ tối thấp, vai trò nổi bật của điều kiện địa lý
là vị trí và địa hình thuận lợi đối với các quá trình xâm nhập, lan
tràn và tích tụ của không khí lạnh. Không vùng thấp nào có nhiệt độ
thấp nh Lạng Sơn, một trong những cửa ngõ đón gió lạnh vào nớc ta.
Các vùng thấp nhất ở Lai Châu, phía tây của Hoàng Liên Sơn, không
lạnh bằng các vùng thấp ở Lào Cai, phía đông Hoàng Liên Sơn, cũng
với lý do đó. Cũng có thể nhận định là ở các hải đảo, nhiệt độ
không thấp nh các vùng đất liền kế cận.
Ta có bảng đặc trng về nhiệt độ tối thấp ở một số trạm nh dới
đây:

7


Bảng 1.1. Một số đặc trng về nhiệt độ thấp nhÊt tut ®èi
(00C)

NhiƯt ®é thÊp nhÊt

NhiƯt ®é thÊp nhÊt íc

quan trắc đợc

lợng

Trạm


cho các chu kỳ (năm)
5 1 2 3 5 10

Trị số

Ngày

2.7

12 - I 55

5.

0
4.

0
3.

0
3.

0
2.

0
1.

14 II 68


2
5.

3
5.

5
5.

1
4.

5
3.

7
3.

24 XII 99

9
6.

2
5.

1
5.


2
4.

7
4.

0
3.

7

8

1

6

1

3

Hà Nội
Phủ
Liễn
Vinh

4.5
5.2

Vùng đồng bằng phía Bắc có mùa đông lạnh, ít nắng, có năm

có sơng muối, có nhiều ma phùn. Mùa hè nóng, ít gió tây khô nóng,
chịu ảnh hởng trực tiếp của xoáy thuận nhiệt đới, mùa ma gần nh
trùng với mùa nóng.
Nhiệt độ tối thấp trung bình tháng thấp nhất là tháng I: 14 0C,
Mùa đông, tiểu vùng đồng bằng xa biển có lạnh hơn ven biển, trung
bình hàng năm đến gần 10 ngày có nhiệt độ dới 100C và xấp xỉ
70 ngày nhiệt độ thấp dới 150C.
Những giá trị nhiệt độ tối thấp tuyệt đối bé hơn ven biển 1
40C. Trị số nhiệt ®é tèi thÊp tut ®èi ë tiĨu vïng nµy ®· quan sát
đợc trung bình năm 1 4 0C. Do đó khả năng an toàn sơng muối ở
đây kém hơn duyên hải một ít, ở một và nơi có mức ®é rÊt nhÑ.

8


Chơng 2: cơ sở lý thuyết mạng thần kinh nhân tạo
(TKNT)
2.1. Các khái niệm cơ bản về mạng thần kinh nhân tạo
Các loại mạng thần kinh nhân tạo (TKNT) là mét trong sè nh÷ng
kü tht xư lý tÝn hiƯu míi nhất hiện nay, và đà đợc ứng dụng trên
rất nhiều lĩnh vực khác nhau. Trong khoa học kỹ thuật, mạng TKNT
phục vụ hai chức năng quan trọng chính, đó là bài toán phân loại và
bài toán xấp xỉ hàm phi tuyến. ĐÃ có rất nhiều công trình trong
lĩnh vực khí tợng thủy văn có sử dụng mạng TKNT, trong số các công
trình đó phải kể đến hai công trình của Ricardo và Bin Li. Công
trình của Ricardo tập chung vào dự báo tổng xạ cho nam Brazil sử
dụng mạng TKNT và đầu ra của mô hình quy mô vừa Êta. Luận văn
thạc sỹ khoa học của Bin Li lại đa ra mét øng dơng míi cđa m¹ng
TKNT trong viƯc thay thế các công cụ nội suy truyền thống nhằm đa
các biến khí tợng của mô hình khí hậu về trạm. Kết quả từ cả hai

công trình trên đều cho thấy mạng TKNT đà cho kết quả tốt hơn
các dự báo của mô hình khí hậu đợc nội suy về trạm theo các phơng pháp truyền thống.
Về bản chất, mạng TKNT lµ mét hƯ thèng thÝch øng, vµ thêng
lµ phi tun (trừ mạng có hai lớp, một nhập và một xuất), mạng đợc
học để xấp xỉ một hàm từ tập số liệu nguồn (nhân tố dự báo) đến
tập số liệu đích (yếu tố dự báo). Thích ứng có nghĩa là các tham số
của mạng đợc thay đổi trong suốt quá trình vận hành, và thờng đợc
gọi là pha luyện mạng. Sau khi luyện, các tham số của mạng đợc cố
định và hệ thống đợc kiểm nghiệm giải một vấn đề sắp xảy ra
(pha kiểm tra). Mạng TKNT đợc thiết kế từng bớc sao cho tối u hóa
những điều kiện cho trớc hoặc theo một trình tự xác định trớc, đợc biết đến nh những quy tắc học. Số liệu đầu vào và đầu ra của
tập mẫu luyện rất quan trọng đối với các phơng pháp dự báo nói
chung và mạng TKNT nó riêng, bởi chúng bao gồm những thông tin
cần thiết để "khám phá" ra các quy luật, và đối với mạng TKNT là

9


điểm "tối u". Bản chất phi tuyến của các nhân tố mạng thần kinh
đà cung cấp cho hệ thống nhiều khả năng để biểu diễn đợc chính
xác bất kỳ ánh xạ nào.

10


Một trong những loại mạng TKNT đợc mô phỏng trong hình vẽ
dới đây:

Hình 2.1. Mô phỏng tính toán của mạng TKNT


Mạng bao gồm một tập hợp các giá trị nhập (input xi) đợc nối
với mạng và một tập hợp các kết quả mong muốn (desired di) để so
sánh, tính sai số (e) giữa các giá trị đầu ra của mạng (yi) và giá trị
thực (do đó loại mạng này đợc gọi là mạng học có điều kiện). Sai số
này đợc truyền lại mạng để điều chỉnh các tham số theo một quy
tắc thống nhất (quy tắc học). Quá trình này đợc lặp lại cho đến
khi kết xuất của mạng là chấp nhận đợc. Từ đây ta có thể thấy,
hiệu quả của mạng phụ thuộc rất nhiều vào số liệu, nếu số liệu có
nhiễu hoặc không phủ đợc vùng giá trị cần thiết thì mạng sẽ cho
kết xuất sai. Mặt khác, nếu có nhiều số liệu và bài toán không rõ đợc xác định nh thế nào thì mạng TKNT là một lựa chọn thích hợp.
Vấn đề cốt lõi của mạng TKNT là phải có nhiều số liệu, phải
lựa chọn đợc thuật toán, hàm tác động, quy tắc học và các điều
kiện ngừng quá trình luyện thích hợp.
2.2. Các thành phần của mạng thần kinh nhân tạo (TKNT)
Mạng lan trun lµ mét hµm phi tun cã thĨ xÊp xØ gần
đúng nhất một hàm đích đợc cho qua một số mẫu trong tập mẫu.
Hình dới đây minh hoạ một mạng lan truyÒn.

11


Lớp nhập

Lớp ẩn

Lớp xuất

Hình 2.2. Sơ đồ mạng thần kinh nhân tạo với 3 lớp

Trong hình 2.2, mạng gồm 3 lớp: lớp nhập, lớp ẩn và lớp xuất. Mỗi

nút trong lớp nhập nhận giá trị của một biến độc lập và chuyển vào
mạng (Do đó, số lợng nút nhập bị quy định bởi số lợng biến đầu
vào). Dữ liệu từ tất cả các nút trong lớp nhập đợc tích hợp - hay còn
gọi là tổng trọng hoá - và chuyển kết quả cho các nút trong lớp ẩn.
Gọi là lớp ẩn vì các nút trong lớp này chỉ liên lạc với các nút trong lớp
nhập và xuất; và chỉ ngời thiÕt kÕ m¹ng míi biÕt sù tån t¹i cđa
chóng (Èn đối với ngời sử dụng mạng). Tơng tự, các nút trong líp xt
cịng nhËn tÝn hiƯu tỉng träng ho¸ tõ các nút ẩn. Mỗi nút trong lớp
xuất tơng đơng với một biến phụ thuộc.
Phần lớn các bài toán chỉ có mét biÕn phơ thc (nh biĨu diƠn
trong h×nh 2), nhng với mô tả nh trên, mạng nơron cho phép số biến
phụ thuộc là tuỳ ý. Ví dụ, nếu ta xây dựng mạng với mục đích nhận
biết các chữ số thì ta dùng 10 nút xuất, dùng để nhận biết chữ viết
thì dùng 26 nút xuất (tơng ứng với 26 ký tự chữ cái), và dĩ nhiên, ta
vẫn có thể sử dụng mạng một nút xuất cho 2 bài toán này nhng hiệu
quả sẽ thấp hơn.
Một mạng lan truyền tổng quát có n (n2) lớp; lớp đầu là lớp
nhập, lớp thứ n lµ líp xt, vµ n-2 líp trung gian lµ c¸c líp Èn. Cịng

12


trong mạng lan truyền, mỗi nút của lớp thứ i liªn kÕt víi mäi nót cđa
líp thø i + 1, các nút trong cùng một lớp không liên kết với nhau. Ngoài
ra cũng có thể xuất hiện các cung liên kết trực tiếp giữa lớp nhập và
lớp xuất, ta gọi mạng loại này là mạng lan truyền có nối trực tiếp
(mạng có 2 lớp (nhập và xuất) thuộc loại này).
Mạng lan trun chØ cã thĨ ë mét trong hai tr¹ng thái: trạng thái
ánh xạ và trạng thái học. Trong trạng thái ánh xạ, thông tin lan truyền
từ lớp nhập đến lớp xuất và mạng thực hiện ánh xạ để tính giá trị

các biến phụ thuộc dựa vào các giá trị biến độc lập đợc cho:
Y = f(X).
Trong trạng thái học, thông tin lan truyền theo hai chiều nhiều
lần để học các trọng số còn trong trạng thái ánh xạ, mạng xử lý mỗi
lần một mẫu để tính Y = f(X). Trớc tiên, giá trị của các biến độc lập
đợc chuyển cho lớp nhập của mạng. Các nút nhập không tính toán gì
cả. Mỗi nút nhập chuyển giá trị của nó cho tất cả nút ẩn thứ nhất.
Mỗi nút ẩn tính tổng trọng hoá của tất cả các dữ liệu nhập bằng
cách cộng dồn tất cả các tích giữa giá trị nút ẩn (vừa nhận đợc từ
nút nhập) với trọng số của cung liên kết giữa nút nhập và nút ẩn. Kế
tiếp, một hàm truyền đợc áp dụng trên tổng trọng hoá này cùng với
một ngỡng của nút ẩn để cho ra giá trị thực của nút ẩn. Hàm truyền
đơn giản chỉ nén giá trị vào một miền giới hạn nào đó, nh minh
hoạ trong hình dới đây với hàm truyền tang hypebol (tanh).

13


Hình 2.3. Hàm truyền tanh

Sau khi nén tổng trọng hoá của nó, đến lợt nó, mỗi nút ẩn sẽ
gửi kết quả đến tất cả các nút ẩn trong lớp ẩn tiếp theo (nếu có) và
mỗi nút ẩn trong lớp ẩn cuối cùng sẽ truyền kết quả cho tất cả các nút
xuất trong lớp xuất.
Mỗi nút xuất thực hiện thao tác tơng tự nh đà thực hiện ở nút
ẩn để cho ra giá trị kết xuất của nút xuất. Giá trị của nút xuất
chính là giá trị thực, hay giá trị của biến phụ thuộc.
Bản chất ánh xạ do mạng thực hiện tuỳ thuộc vào giá trị trọng
số trong mạng. Lan truyền ngợc là một phơng pháp cho phép xác
định tập trọng số tốt nhất của mạng để giải bài toán đà cho. Việc

áp dụng phơng pháp lan truyền ngợc là quá trình lặp đi lặp lại
nhiều lần hai tiến trình chính: ánh xạ và lan truyền ngợc sai số.
Quá trình luyện mạng đợc bắt đầu với các giá trị trọng số
tuỳ ý và tiến hành lặp đi lặp lại. Mỗi lần lặp đợc gọi là một thế hệ.
Trong mỗi thế hệ, mạng hiệu chỉnh các trọng số sao cho sai số giảm
dần. Tiến trình điều chỉnh nhiều lần giúp cho trọng dần dần đạt
đợc tập hợp các giá trị tối u.
Đối với từng mẫu, mạng thực hiện các bớc sau đây: trớc tiên,
mạng thực hiện lan truyền tiến, nghĩa là mạng ánh xạ các biến nhập

14


hiện hành thành các giá trị xuất, sử dụng giá trị các trọng hiện thời.
Kế tiếp, sai số của bớc lặp lần trớc sẽ đợc truyền cho bớc lặp lần sau
nh mét tham sè, cã nhiỊu tht to¸n kh¸c nhau giúp xử lý những
thông tin này nh: quy tắc giảm gradient, quy tắc giảm dốc nhất
(delta), quy tắc quán tính (hay mômen)...
Quá trình luyện mạng kết thúc khi mạng có dấu hiệu "quá
khớp", hoặc mạng đạt đợc một giá trị sai số xác định trớc... Mạng
nơron có sức mạnh đáng kĨ, theo Rumelhart, McClelland (1986),
Haykin (1994), Bishop (1995)... th× víi một mạng hai lớp ẩn và số nút
ẩn thích hợp cho từng lớp (tùy thuộc bài toán cụ thể) có khả năng xấp
xỉ một hàm đích bất kỳ. Nhng cùng với khả năng tuyệt vời đó, nó
cũng chứa những nguy cơ tiềm ẩn: nếu nhiễu trong số liệu nhiều,
mạng càng phức tạp sẽ mô phỏng toàn bộ dữ liệu nhiễu đó và mất
đi khả năng tổng quát hóa, điều luôn cần cho các bài toán thống kê,
đặc biệt là bài toán dự báo. Để hạn chế điều này, ta có thể bắt
đầu luyện mạng với số nút ẩn nhỏ, sau đó tăng dần. Cách thứ hai là
ngừng quá trình luyện khi xuất hiện dấu hiệu "quá khớp".

Trong phần trên, ta đà biết là giá trị các nút (phần tử hoạt
động) trong lớp ẩn và trong lớp xuất là giá trị của hàm truyền với
tham số là tổng trọng hoá. Về mặt hình học, đồ thị của hàm
truyền có dạng chữ S - còn đợc gọi là hàm dạng S. Một hàm s(u) là
một hàm truyền dạng S nếu nó thoả mÃn:
- s(u) là hàm bị chặn. Nghĩa là các giá trị của s(u) không bao
giờ vợt quá chặn trên cũng nh thấp hơn chặn dới với giá trị của u bất
kỳ;
- s(u) là hàm đơn điệu tăng. Giá trị của s(u) luôn tăng khi giá
trị của u tăng. Kết hợp víi tÝnh chÊt thø nhÊt, cã thĨ nãi, s(u) tiƯm
cËn với giới hạn trên và giới hạn dới;
- s(u) là hàm liên tục và trơn. Vì hàm s(u) liên tục nên nó không
có khe và góc cạnh, có đạo hàm (độ dốc) rõ ràng và phân biệt tại
mọi điểm.

15


Mọi hàm thoả mÃn 3 tính chất trên đều có thể sử dụng là hàm
truyền trong mạng. Một số hàm đợc sử dụng phổ biến nhất gồm:
Hàm sigma g(u)
1
g (u )
1
1 u
e

(2.2.1)
Trong đó e là cơ số của logarit tự nhiên (e 1.7183). Khi u tăng,
e tăng. Do vậy 1/eu giảm và g(u) tăng. Nhng tốc độ tăng của g(u) sẽ

u

giảm khi u lớn. Khi u tiến đến +, 1/eu tiến về 0, g(u) tiệm cận 1 và
ngợc lại.
Hàm hyperbol h(u)
1 e u
h(u )
1 e u

(2.2.2)
Hµm tang-hyperbol tanh(u)
tanh(u ) 

eu  e u
eu  e u

(2.2.3)
Tất cả các hàm truyền này đều phục vụ khá tốt cho các mục
đích của mạng nơron và chúng có thể thay thế cho nhau vì giữa
chúng tồn tại các mối liên hệ :
h(u)

=

2*g(u)



1


(2.2.4)
Hàm tanh(u) tiến đến các giới hạn của nó nhanh hơn hàm h(u).
Đó chính là lý do chọn hàm tanh cho mọi loại mạng đợc xây dựng
trong luận văn này. Đồ thị biểu diễn hàm tanh đợc cho trong h×nh
2.3.

16


2.3. Các quy tắc và phơng pháp xây dựng mạng TKNT
a.

Các quy tắc luyện mạng

Quy tắc giảm gradien - giảm dốc nhất - quy tắc delta
Trớc hết phải nói, cả ba tên gọi trên đều ám chỉ cùng một phơng pháp luyện. Đây là một trong những quy tắc nguyên thủy nhất
của lan truyền ngợc. Phơng pháp đợc Rumelhart, Hilton và Williams
giới thiệu năm 1986.
Khi hoàn thành một bớc lặp qua toàn bộ tập mẫu, tất cả các
trọng số của mạng sẽ đợc cập nhật dựa trên các thông tin đạo hàm
riêng theo từng trọng số. Đúng nh tên đợc đặt cho phơng pháp, giảm
dốc nhất, các trọng số sẽ đợc cập nhật theo hớng mà hàm lỗi E giảm
mạnh nhất.
Để hiểu phơng pháp, các bạn hÃy tởng tợng mạng lỗi di chuyển
trên một chuỗi các điểm trong không gian lỗi. Để dễ hình dung, cắt
mặt lỗi này theo một mặt phẳng song song với một trọng số nào
đó. Trong mặt cắt này, ta có một đờng cong lỗi, và tại bất kỳ điểm
nào trên đờng cong này ta sẽ có tơng ứng giá trị một trọng số. Trong
suốt tiến trình luyện, mạng sẽ di chuyển qua một chuỗi các điểm
trên đờng (mặt) cong lỗi nh thế.

Tại một điểm cho trớc trong không gian trọng số, có hai vấn đề
ta quan tâm: thứ nhất là xác định hớng nào để lỗi giảm nhanh
nhất; và vấn đề thứ hai là quyết ®Þnh ®é lín cđa "bíc" chun
träng sè theo híng ®ã (Nh đề cập trong phần 2.1).
Có thể hình dung tóm tắt các bớc của quy tắc giảm gradient
nh sau:
-

Chọn ngẫu nhiên một điểm x0 trong không gian trọng số; (1)

-

Tính độ dốc của mặt lỗi tại x0;(2)

-

Chọn "bớc" và cập nhật các trọng số theo hớng dốc nhất của
mặt lỗi theo công thức .d

17

(3)


-

Xem điểm này nh điểm x0 mới.(4)
Lặp đi lặp lại quá trình từ (2) đến (4) thì đến một lúc nào

đó các giá trị của bộ trọng số sẽ tiếp cận đợc điểm thấp nhất trong

mặt lỗi.
Vấn đề nảy sinh ở đây là sau khi xác định đợc hớng dốc nhất
của mặt lỗi, ta sẽ phải cập nhật các trọng số nh thế nào? Độ lớn của
bớc chuyển trọng số (hệ số học) sẽ là bao nhiêu? Hiện nay cha có
lý thuyết cho việc xác định giá trị tối u, do đó, cách tốt nhất là
bằng phơng pháp thực nghiệm. Đây là hạn chế của quy tắc giảm
gradien, quá trình học rất chậm và ít hiệu quả.
Quy tắc mômen - quy tắc quán tính
Để khắc phục những hạn chế của quy tắc giảm gradien trong
việc chọn hệ số học (và hệ số này đợc cố định trong mọi bớc học),
quy tắc mômen ra đời. Quy tắc mômen là một cải tiến của quy tắc
giảm gradien theo hớng thay đổi giá trị hệ số học cho thích hợp với
từng bớc học.
Quy tắc đợc diễn tả nh sau: nếu các bớc học trớc đang giảm
mạnh thì theo đà, bớc tới cũng giảm mạnh tăng hệ số học để biến
thiên trọng tăng lên, ngợc lại, giảm hệ số học. Vì thế, quy tắc này
còn đợc gọi là quy tắc quán tính. Công thức biến thiên trọng số của
quy tắc m«men nh sau :
cm = cm-1 – (1-)dm , 01
(2.3.1)
trong đó, cm và cm-1 là các hệ số học,
tham số quyết định vai trò của thông tin trong quá khứ
Thông tin bớc trớc đợc sử dụng lại ở bớc sau (đợc thể hiện trong
số hạng đầu của vế phải); khi = 0 thì công thức trên chính là
công thức của quy tắc giảm gradien và thông tin trong quá khứ
không ảnh hởng đến lựa chọn hiện tại. Bằng cách thêm một tham số

18



cho hệ số học nh thế, hệ thống không còn quá nhạy cảm với hệ số
học nh trong trờng hợp quy tắc giảm gradien nữa. Trong thực hành,
thờng đợc cho giá trị từ 0.5 đến 0.9.
Khi kết hợp với phơng pháp học từng mẫu, quy tắc mômen thúc
đẩy nhanh việc giảm lỗi mà thời gian tính chỉ chậm đi chút ít. Nhng cũng có những hạn chế nhất định. Nếu thứ tự các mẫu không tốt
có thể đa đến những kết quả ngoài ý muốn. Ví dụ, nếu có mét sè
mÉu cã kÕt xt ®Ých cao xt hiƯn trong một dÃy liên tục, mạng có
thể tạo ra mômen đủ để đa nó ra xa trên nhánh kia của mặt lỗi; ở
đây, nó có thể mắc kẹt với những đạo hàm rất nhỏ làm cho việc
học về sau sẽ bị chậm lại. Điều tơng tự nh vậy cũng có thể xảy ra
nếu trọng số ban đầu tạo các kết xuất quá cao (hay quá thấp) cho
tất cả các mẫu; vào lúc các kết xuất có thể đạt đợc giá trị thích hợp
thì mạng lại tạo ra mômen đủ để đa nã ra khái d·y vỊ phÝa bªn kia.
ViƯc sư dơng quy tắc mômen sẽ thích hợp nếu mạng gặp phải
một khe rÃnh trong mặt lỗi.

Hình 2.4. Khe trong mặt lỗi

Trong hình 2.4, ta thấy một khe rÃnh trong mặt lỗi trên không
gian 2 trọng số. Dù hai bên khe rÃnh rất dốc, thế nhng đáy của nó
hầu nh không phẳng. Khi mạng đi xuống một phần của một bên rÃnh
khe rÃnh, hớng của điểm giảm tốc độ sẽ băng qua khe rÃnh, nhng lỗi
cực tiểu của bộ trọng số lại nằm đâu đó theo hớng dọc khe rÃnh, tại
vị trí vuông góc với gradient. Và kết quả là mạng không tìm đợc giá
trị cực tiểu chính xác trên mặt lỗi. Ngay cả khi sử dụng phơng pháp
học toàn mẫu, không sử dụng quy tắc mômen thì mạng có khe rÃnh

19



dạng này cũng mất nhiều thời gian nhảy qua nhảy lại hai bên khe rÃnh
và chỉ có thể tiến rất chậm đến các trọng số tối u.
Quy tắc mômen giúp giải quyết vấn đề này. Khi mạng nhảy
qua nhảy lại liên tục hai bên khe rÃnh, có nghĩa là biến thiên trọng số
sẽ đổi dấu liên tục và nh vậy sẽ cho ta số trung bình cho một thay
đổi đủ nhỏ chính xác. Nh vậy, mạng có thể ổn định ở đáy của
khe rÃnh. ở đó, nó bắt đầu di chuyển đúng hớng - ban đầu chậm
rồi sau đó theo mômen. Nói chung, những bài toán có mặt lỗi nh
trong hình 2.4 rất ít gặp trong thực tế, thông thờng các bài toán có
mặt lỗi dốc thoai thoải và phẳng hơn.

Hình 2. 5. Hớng giảm trong không gian trọng số. a) Tốc độ học
nhỏ; b) Tốc độ học lớn và c) Tốc độ học có thêm yếu tố quán tính

b. Thuật toán lan truyền ngợc
Học (hay luyện mạng) là quá trình tìm các trọng số của mạng
sao cho ánh xạ f(x) khớp nhất với bộ dữ liệu chứa các mẫu (tập mẫu)
của hàm đích.
Sai số trung bình bình phơng thờng đợc sử dụng để đo lờng
sự trùng khớp giữa ánh xạ cần xây dựng với hàm đích cho trớc (qua
tập mÉu).
Gi¶ sư cã tËp mÉu
   X k , Z k   xk1 ,..., x kM ; z k1 ,..., z kN ; x ki , z ki  R; i 1,..., M ; j 1,..., N ; k 1,..., K 

(2.3.2)

20


Gọi Tk = f(x)= (tk1,..,tkn) là kết quả của ánh xạ do mạng xây

dựng.
Khi đó, hàm lỗi (sai số trung bình bình phơng) giữa kết xuất
zk và kết xuất đích tk. Hàm lỗi E là hàm trọng số:
1 m
2
E      t k  z k
2 k 1

(2.3.4)
Với là véc tơ các trọng số, ứng với mỗi vecto ta có một giá
trị sai số và các gái trị này lập thành một mặt lỗi trong không gian.
Để dễ hình dung ta giả sử cã hai träng sè w 1,w2 vµ ta cã thĨ biểu
diễn hàm E là một hàm lỗi theo 2 biến này.

Hình 2.6. Hình dạng của mặt lỗi với 2 trọng số w1 và w2

Mục tiêu của mạng là tìm đợc điểm trũng nhất trên mặt lỗi,
nơi đó zk và tk gần nhau nhất. Ban đầu, khi chọn một cặp trọng số
bất kỳ ta đợc một điểm trên mặt lỗi và mạng phải đi theo một con
đờng nào đó để tìm đợc điểm trũng nhất. Hớng đi của mạng qua
từng bớc là hớng làm giảm sai số của bớc trớc đó.
Các trọng số aji, bik đợc cập nhật sao cho gradient tỉng céng
cđa sai sè theo mäi träng sè trªn tÊt cả các mẫu giảm đi. Gọi d là
gradient sai số theo mäi träng sè (nót Èn vµ nót xt ký hiƯu chung
lµ  ) cđa bíc tríc nã:

21


n

 E 
d  

i 1    i

(2.3.5)
Víi E / là đạo hàm riêng của tổng cộng E theo träng sè cđa
mÉu thø i, n lµ sè lợng mẫu. Hớng giảm dốc nhất là hớng ngợc lại của hớng d. Nh vậy, mỗi trọng số sau một bớc sẽ đợc cập nhật mới:
k 1 k

(2.3.6)
Với:
.d

(2.3.7)
Trong đó là hệ số häc, lµ hƯ sè thù nghiƯm do ngêi sư dơng
lùa chọn. Đây chính là nguyên tắc của thuật toán lan truyền ngợc,
sự điều chỉnh trọng số dựa trên đạo hàm của hàm lỗi ở bớc trớc.
Theo dõi sự biến thiên cđa sai sè E theo thêi gian cho ®Õn khi
E giảm ít hoặc hầu nh không giảm nữa thì dừng lại và chọn số thế
hệ luyện phù hợp. Quá trình luyện đợc thực hiện nhiều lần để tránh
rơi vào cực tiểu địa phơng trên mặt lỗi hay còn gọi là bị rơi vào
bẫy.
Trong công thức (2.3.7), biến thiên trọng số tỷ lệ với đạo hàm
hàm lỗi d và hệ số häc . Trong thùc nghiÖm, viÖc chän hÖ sè häc
là rất quan trọng, nếu quá lớn, sai số của mạng có thể "nhảy qua lại"
giá trị cực tiểu, nếu quá nhỏ, quá trình luyện mạng sẽ rất lâu. Để
khắc phục nhợc điểm này, ta có thể áp dụng phơng pháp học quán
tính (mômen) nh trình bày trong mục 2.3a ở trên.
c.


Vấn đề quá khớp

Nh ta đà biết, việc xây dựng mạng nhằm mục đích tìm đợc
một hàm biểu diễn chính xác nhất hàm đích (đợc cho bởi tập

22


mẫu), hay nói cách khác, ta tìm cách biểu diễn "khớp nhất" tập mẫu
đà cho.
Tuy nhiên, điều ta không mong muốn thờng xảy ra, đó là trong
tập số liệu có chứa sai số (nhiễu), mà đa phần đó là các sai số
ngẫu nhiên, chính những sai số đó đà dẫn đến việc: khi sai số
bình phơng trung bình trên tập số liệu luyện là nhỏ nhất không
đồng nghĩa với khả năng tổng quát hoá của mạng khi đi vào sử
dụng là tốt nhất. Và nguyên nhân chính là việc mạng đà biểu diễn
"quá khớp" với dữ liệu luyện, kể cả nhiễu.
Mạng quá khớp đợc đặc biệt quan tâm vì lan truyền ngợc là
một kỹ thuật tạo mô hình rất mạnh. Hình thức của hàm ánh xạ linh
động, còn quá trình học giảm gradien luôn tiềm ẩn nguy cơ "quá
khớp".
Một số ít kỹ thuật mô hình hoá khác nh hồi quy tuyến tính
cũng có khả năng quá khớp. Nhng vì hồi quy tuyến tính chỉ có thể
khớp giữa đờng thẳng và dữ liệu và không thể tự biến dạng thành
các dạng phức tạp nh mạng nơron có khả năng làm, nên vấn đề quá
khớp không trở thành trầm trọng. Tính linh động của lan truyền ngợc
là lý do khiến nó có thể thực hiện tạo mô hình tốt hơn hồi quy
tuyến tính, nhng sức mạnh đó cũng chính là điểm yếu của mạng:
năng lực của lan truyền ngợc cũng có thể dẫn đến vấn đề quá khớp.

Lấy ví dụ mạng nhận thøc ®a líp, theo lý thut (Rumelhart,
McClelland (1986), Haykin (1994), Bishop (1995)...) thì mạng 4 lớp có
khả năng xấp xỉ hàm với bất kỳ độ phức tạp nào, với số líp Èn vµ sè
nót Èn trong líp Èn chÝnh lµ nhân tố làm nên sức mạnh đó. Số nút
trong lớp nhập và đặc biệt là nút xuất thờng đợc quy định bởi yêu
cầu và mục đích của bài toán. Vấn đề còn lại chính là xác định số
lớp và số nút ẩn. Câu hỏi đặt ra là: Liệu chúng ta có thể lựa chọn
đợc đúng độ phức tạp của mạng? Một mạng lớn thậm chí luôn luôn
cho ta sai số nhỏ, nhng điều này tiềm ẩn sự "quá khớp" nhiều hơn là
một kết quả tốt. Câu trả lời này sẽ ®ỵc kiĨm tra víi mét tËp sè liƯu

23


độc lập. Điều này quan trọng đến mức, ngày nay, trong các thuật
toán của mạng TKNT đều có tùy chọn chia tập mẫu ra thành 2 phần,
và quá trình luyện mạng sẽ đợc tiến hành đồng thời với quá trình
kiểm chứng trên tập số liệu độc lập, (một số tác giả gọi là quá trình
kiểm chứng chéo).
Trong quá trình luyện mạng, sai số luyện sẽ giảm, nhiệm vụ
của quá trình lun chÝnh lµ cùc tiĨu hãa hµm sai sè nµy, sai số
kiểm chứng cũng giảm. Tuy nhiên, nếu sai số kiểm chứng ngừng
giảm, hoặc thậm chí bắt đầu tăng, thì có nghĩa rằng mạng đÃ
bắt đầu có dấu hiệu "quá khớp" và quá trình luyện nên dừng lại.
Trong trờng hợp này, chúng ta nên giảm số nút ẩn hoặc số lớp ẩn vì
mạng của chúng ta quá mạnh để giải bài toán đà đợc yêu cầu. Ngợc
lại, nếu mạng là phù hợp với bài toán đặt ra, sai số của cả tập mẫu
luyện và kiểm chứng đều giảm và đạt đến giá trị thích hợp.
Vấn đề liên quan đến cực tiểu địa phơng và những quyết
định đối với kích thớc của mạng cho thấy việc sử dụng mạng nơron

thờng liên quan đến việc thử nghiệm các mạng với kích thớc lớn nhỏ
khác nhau, sau đó cần biết phân tích các kết quả nhằm đánh giá
năng lực của mạng dựa trên sự biến đổi của sai số, nhất là trên tập
số liệu kiểm chứng. Nhng theo khuyến cáo của các nhà nghiên cứu
về mạng TKNT, mạng đơn giản thờng thích hợp hơn so với mạng
phức tạp, mạng nhỏ thờng thích hợp hơn so với mạng lớn...
Và để củng cố thêm độ tin cậy của mạng, trong thực hành, ngời ta thờng sử dụng thêm một tập số liệu thứ ba, đó là tập số liệu
kiểm tra. Mô hình mạng sau cũng sẽ đợc kiểm tra trên tập số liệu
này để chắc chắn rằng kết quả đạt đợc trong quá trình luyện
mạng là tốt. Tất nhiên, để hoàn thành tốt công việc này, tập số liệu
kiểm tra chỉ đợc sử dụng một lần (trong giai đoạn cuối cùng).
Vậy vấn đề đặt ra là làm sao để đảm bảo đợc tính tổng
quát hóa của mạng? Nghĩa là đảm bảo rằng mạng vẫn thi hành tốt
đối với những dữ liệu mới? Lấy ví dụ bài toán dự báo số ngời đến dự

24


tiƯc khi biÕt sè ngêi b¸o tríc. Trong hai trêng hợp bất kỳ, ta cùng có số
ngời báo trớc là 50 nhng trờng hợp 1 có 40 ngời đến dự, trờng hợp 2
chỉ có 30 ngời đến dự. Do đó, theo quy tắc thông thờng, mạng sẽ
học đợc cách cho ra một con số dự báo là trung bình của hai con số
trên. Điều này là tốt, đặc biệt là trong mét tËp mÉu cã chøa nhiƠu,
trung b×nh cđa hai mẫu giúp ớc lợng tốt hơn giá trị của chỉ một
mẫu. Và nếu có nhiều dữ liệu tơng tự nh thế (cùng có 50 ngời báo
trớc) thì kết xuất của mạng sẽ đi qua giá trị trung bình của tất cả
các mẫu đó. Điều này là một ràng buộc cần thiết giúp mạng không
bị "quá khớp" khi "quá tin" vào một mẫu nào đó.
Nh vậy, về mặt lý thuyết, cách giải bài toán nhiễu là phải tăng
kích thớc mẫu. Bất chấp hàm phức tạp cỡ nào, mạng cũng có khả năng

tổng quát hóa. Có thể ngăn nó không bị quá khớp bằng cách tạo mẫu
luyện đủ lớn để bù cho mức nhiễu trong dữ liệu.
Về mặt thực hành, có nhiều hạn chế khi tăng kích thớc mẫu.
Trớc hết, số mẫu có đợc hầu nh luôn ít hơn số mẫu thống kê cần.
Điều này có thể xảy ra ngay cả trong những trờng hợp đơn giản nh
bài toán về buổi tiệc họp thờng niên câu lạc bộ đà đề cập ở trên.
Ví dụ, câu lạc bộ mới tổ chức hoạt động đợc 10 năm trở lại đây,
kích thớc tập mẫu không thể đảm bảo.
Thứ hai, ngay cả khi buổi tiệc đà đợc tổ chức hàng năm trong
suốt thế kỷ qua, thì kinh nghiệm của những năm trớc đây cũng
không thể đại diƯn cho thÕ giíi h«m nay.
Ci cïng, kÝch thíc mÉu có thể có những giới hạn về mặt thực
hành, do các thiết bị cần có để tập hợp và lu trữ dữ liệu. Nhng chú
ý là việc tăng kích thớc mẫu không làm tăng thời gian luyện mạng.
Nếu kích thớc luyện đợc tăng gấp đôi, số thế hệ luyện sẽ giảm
chừng một nửa.
Với nội dung bài toán dự báo nhiệt độ tối cao và nhiệt độ tối
thấp ngày thì chuỗi số liệu xây dựng mô hình gồm trên 3000 mẫu
(9 năm) không phải là quá lớn nhng khá phù hợp. Trong quá trình xây

25


dựng kết hợp thêm với các bớc tiền xử lý sè liƯu nh»m läc nhiƠu, h¹n
chÕ sè bíc häc… sÏ giúp hạn chế nguy cơ "quá khớp" của mạng.
2.4. Các loại mạng TKNT và ứng dụng
Mạng TKNT là một hệ thống thích ứng để xấp xỉ một hàm
(một ánh xạ) từ tập số liệu (tập nhân tố dự báo) tới mét tËp sè liƯu
kh¸c (tËp u tè dù b¸o). ThÝch ứng có nghĩa là các tham số của
mạng đợc thay đổi trong suốt quá trình vận hành, và thờng đợc gọi

là pha luyện mạng. Sau khi luyện, các tham số của mạng đợc cố
định và hệ thống đợc kiểm nghiệm với một vấn đề sắp xảy ra
(pha kiểm tra).
Mạng TKNT ®ỵc thiÕt kÕ tõng bíc sao cho tèi u hãa những điều
kiện cho trớc hoặc theo một trình tự xác định trớc, đợc biết đến
nh những quy tắc học. Số liệu đầu và và đầu ra của tập mẫu
luyện rất quan trọng đối với kỹ thuật mạng thần kinh bởi chúng bao
gồm những thông tin cần thiết để "khám phá" ra điểm "tối u". Bản
chất phi tuyến của các nhân tố mạng TKNT cung cấp cho hệ thống
nhiều khả năng để biểu diễn đợc chính xác bất kỳ ánh xạ nào (toàn
ánh).
Ngoài quy tắc học, một thành phần quan trọng nữa của mạng
TKNT đó là các phần tử hoạt động. Bản chất của các phần tử hoạt
động chính là hàm ánh xạ trong nó. Đó có thể làm hàm logic với chỉ
hai giá trị đúng hoặc sai, cũng có thể đó là hàm tang hypebol
(tanh) hoặc là hàm giới hạn với chỉ ba giá trị -1, 0 và 1...
Dới đây là minh họa cho một vài loại hàm ánh xạ và toán tử phi
tuyến trong các phần tử hoạt động th«ng dơng:

26


Hình 2.7. Phần tử hoạt động và các toán tử phi tuyến dạng S
thông dụng

Có thể nhận thấy: mạng nhận thức đa lớp, mạng truy hồi, kỹ
thuật lan truyền ngợc và phần mở rộng của nó, mạng thời gian trễ,
mạng thời gian trễ theo thời gian... là những thành viên nổi bật
trong đại gia đình mạng TKNT. Trong luận văn này, tôi sẽ trình bày
lý thuyết cũng nh có một vài nhận xét về u nhợc điểm của mạng

nhận thức đa lớp cũng nh yêu cầu cần đáp ứng khi luyện mạng.
a.

Mạng nhận thức đa lớp

Mạng nhận thức đa lớp là một sự sắp xếp theo lớp của các phần
tử hoạt động nh trong hình dới đây

Hình 2.8. Mạng nhận thức đa lớp với một lớp ẩn

Lớp nhận các giá trị đầu vào đợc gọi là lớp nhập, lớp tạo ra các
giá trị đầu ra gọi là lớp xuất. Các lớp không có liên hệ trực tiếp đối

27


với thế giới bên ngoài gọi là các lớp ẩn. Một mạng chỉ bao gồm lớp
nhập và lớp xuất đợc gọi là mạng nhận thức. Khi mạng có thêm các lớp
ẩn, chúng đợc gọi là mạng nhận thức đa lớp. Mỗi kết nối giữa các
phần tử hoạt động đợc định lợng bởi giá trị wi, gọi là trọng số, và đợc điều chỉnh trong suốt quá trình luyện mạng.
Các phần tử hoạt động trong mạng nhận thức đa lớp bao gồm
một toán tử tổng và một toán tử phi tuyến làm trơn dạng S (hình
2.7). Các toán tử phi tuyến làm trơn dạng S thông dụng nhất bao
gồm: hàm logic, hàm tang hypebol, và đôi khi là hàm giới hạn.
Sức mạnh của mạng nhận thức đa lớp thể hiện ở chỗ, nó là một
ánh xạ phổ dụng (thực hiện một ánh xạ bất kỳ giữa lớp nhập và lớp
xuất) khi nó đợc cấu tạo với ít nhất hai lớp ẩn và số phần tử hoạt
động thích hợp trong từng lớp ẩn đó. Thậm chí, mạng nhận thức đa
lớp với một lớp ẩn cũng có thể xấp xỉ các ánh xạ liên tục giữa lớp nhập
và lớp xuất. Điều này có nghĩa là chúng ta hiếm khi phải chọn một

mạng nhận thức đa lớp với nhiều hơn hai lớp ẩn. Điều nµy thùc sù cã ý
nghÜa trong thùc tÕ, do nhu cầu về thời gian tính toán, khối lợng
tính toán... nên một mạng nhỏ, đơn giản... sẽ là rất hữu ích. Tuy
nhiên, khó khăn đối với mạng nhận thức đa lớp lại là việc chọn số lớp
(0, 1 hoặc 2) và số phần tử hoạt động trong mỗi lớp nếu muốn đạt
đợc một kết quả tốt nhất.
Rất nhiều bài toán kỹ thuật có thể đợc hình dung theo cách
chuyển đổi thông tin tõ kh«ng gian nhËp sang th«ng tin trong
kh«ng gian xuất. Ví dụ, chia số liệu thành các lớp, các pha khác nhau;
tìm trạng thái của lớp xuất khi biết trạng thái của các phần tử nhập; tơng tự, việc xác định một hệ thống cha biết cũng có thể coi là một
xấp xỉ hàm (ánh xạ) từ lớp nhập đến lớp xuất. Mạng nhận thức đa lớp
rất thích hợp cho các ứng dụng dạng này.
Để đánh giá xem mạng nhận thức đa lớp tốt đến mức nào, ta
sử dụng sai số sau bình phơng trung bình (MSE):

28


×