Tải bản đầy đủ (.doc) (45 trang)

Mạng nơron nhân tạo và mạng RBF

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (452.81 KB, 45 trang )

Tiểu luận : Trí tuện nhân tạo

LỜI MỞ ĐẦU
Các mô hình tính toán mô phỏng bộ não người đã được nghiên cứu trong nửa
đầu thế kỷ 20. Mặc dù có nhiều mô hình khác nhau được đề xuất, song tất cả đều
dùng một cấu trúc mạng gọi là các nơron. Các nơron này xử lý các tín hiệu số gửi
tới từ môi trường bên ngoài hoặc từ các nơron khác trong mạng thông qua các kết
nối và sau đó gửi tín hiệu đến các nơron khác hoặc ra môi trường. Mạng nơron nhân
tạo, gọi tắt là mạng nơron là một lớp các mô hình tính toán như vậy .
Cách tiếp cận mạng nơron nhân tạo có ý nghĩa thực tiễn rất lớn cho phép tạo
ra các thiết bị có thể kết hợp khả năng song song cao của bộ não với tốc độ tính
toán cao của máy tính. Trong những năm gần đây mạng nơron nhân tạo đã được
nghiên cứu và ứng dụng trong lĩnh vực như y học, điều khiển,… và đặc biệt được
ứng dụng nhiều trong lĩnh vực công nghệ thông tin.
Hàm cơ bản xuyên tâm nổi lên như một dạng của mạng nơron nhân tạo vào
cuối những năm 80.Tuy nhiên, nguồn gốc của chúng bắt nguồn từ những kỹ thuật
nhận dạng mẫu lâu đời hơn nhiều như hàm tiềm năng, chuỗi, ước lượng hàm, trục
liên cực và các mô hình hỗn hợp. Mạng nơron sử dụng hàm cơ sở xuyên tâm
(Radial Basic Function Neural Network – RBFNN) đã được nghiên cứu rất nhiều
trong những năm gần đây. Các nhà nghiên cứu đã thu được những kết quả lý thuyết
nhất định, cùng với nhiều ứng dụng và nhiều cải thiện cho RBFNN. RBFNN được
sử dụng nhiều để giải bài toán nội suy do loại mạng này có khả năng xáp xỉ toàn
cục rất tốt.
Nhận thức được vấn đề trên, tôi đã mạnh dạn chọn đề tài :” Mạng nơron
nhân tạo và Mạng RBF ” .
Nội dung đề tài gồm 2 chương:
Chương 1: NƠRON SINH HỌC VÀ MẠNG NƠRON NHÂN TẠO
Chương 2: MÔ HÌNH MẠNG RBF VÀ THUẬT TOÁN LAI CHO MẠNG BRF
Em xin chân thành cảm ơn PGS.TS Nguyễn Thanh Thuỷ đã tận tình giúp đỡ
cho em và tạo điều kiện tốt nhất cho em học tập và hoàn thiện tiểu luận này.


Lớp CHCNTT - K0810

1


Tiểu luận : Trí tuện nhân tạo
Chương 1

NƠRON SINH HỌC VÀ MẠNG NƠRON NHÂN TẠO
1.1 Nơron sinh hoc và bộ não người.
1.1.1 Cấu tạo và hạt động của một Nơron
Các nhà nghiên cứu sinh học về bộ não cho ta thấy rằng các tế bào thần
kinh (nơron) là cơ sở đảm nhiệm những chức năng xử lý nhất định trong hệ
thần kinh, bao gồm não, tuỷ sống và các dây thần kinh. Mỗi nơron có phần
thân và nhân bên trong (gọi là soma), một đầu thần kinh ra (gọi là sợi trục
axon) và một hệ thống dạng cây các dây thần kinh vào (gọi là dendrite). Các
dây thần kinh vào tạo thành một lưới dày đặc xung quanh thân tế bào, chiếm
diện tích khoảng 0,25mm2, còn dây thần kinh ra tạo thành trục dài có thể từ
1cm cho đến hàng mét.Đường kính của nhân tế bào thường chỉ là 10 -4m. Trục
dây thần kinh ra cũng có thể phân nhánh theo dạng cây để nối với các dây
thần kinh vào hoặc trực tiếp với nhân tế bào của các nơron khác thông qua
các khớp nối (gọi là synapse). Thông thường , mỗi nơron có thể gồm vài chục
cho tới hàng trăm ngàn khớp nối để nối với các nởon khác. Người ta ước
lượng rằng các dây thần kinh ra cùng với các khớp nối bao phủ diện tích
khoảng 90% bề mặt nơron.

Thân tế bào

Khớp nối


Nhân tế bào

Dây thần
kinh vào

Trục

Hình 1.1 Hình ảnh tế bào nơron trong não người
Lớp CHCNTT - K0810

2


Tiểu luận : Trí tuện nhân tạo
Một số cấu trúc nơron thần kinh được hình thành từ lúc bẩm sinh, một
số khác được phát triển thông qua quá trình học. Đây là sự liên kết, tạo ra và
mất đi. Quá trình phát triển này là điều đáng chú ý nhất trong thời kỳ đầu tiên
của cuộc sống. Cấu trúc nơron được liên tục thay đổi hoàn thiện theo xu
hướng thích nghi với điều kiện sống.
Các tín hiệu truyền trong các dây thần kinh vào và dây thần kinh ra của
các nơron là tín hiệu điện và được thực hiện thông qua các quá trình phản ứng
và giải phóng các chất hữu cơ. Các chất này được phát ra từ các khớp nối dẫn
tới các dây thần kinh vào sẽ làm tăng hay giảm điện thế của nhân tế bào. Khi
điện thế này đạt tới một ngưỡng nào đó, sẽ tạo ra một xung điện dẫn tới trục
dây thần kinh ra. Xung này được truyền theo trục, tới các nhánh rẽ khi chạm
tới các khớp nối với các nơron khác sẽ giải phóng các chất truyền điện.
Người ta chia làm hai loại khớp nối: khớp nối kích thích (excitatory) hoặc
khớp nối ức chế (inhibitory).
1.1.2 Cấu tạo và một số khả năng của não
Não là tổ chức vật lý cao cấp, có cấu tạo vô cùng phức tạp, dày đặc các

mối liên kết giữa các nơron nhưng xử lý thông tin rất linh hoạt trong một môi
trường bất định.
Trong bộ não có khoảng 1011 – 1012 nơron và mỗi nơron có thể liên kết
với 104 nơron khác qua các khớp nối. Những kích hoạt hoặc ức chế này được
truyền qua trục nơron (axon) đến các nơron khác.

Hình 1.2: Hình ảnh của tế bào nơron trong não người.
Lớp CHCNTT - K0810

3


Tiểu luận : Trí tuện nhân tạo
Phát hiện quan trọng nhất trong ngành nghiên cứu về bộ não là các liên
kết khớp thần kinh khá mềm dẻo, có thể biến động và chỉnh đổi theo thời gian
tuỳ thuộc vào các dạng kích thích. Hơn nữa, các nơron có thể sản sinh các
liên kết mới với các nơron khác và đôi khi lưới các nơron có thể chuyển từ
vùng này sang vùng khác trong bộ não. Các nhà khoa học cho rằng đây chính
là cơ sở quan trọng để giải thích cơ chế học của bộ não.
Phần lớn các quá trình xử lý thông tin đều xảy ra trên vỏ não. Toàn bộ
vỏ não được bao phủ bởi mạng các tổ chức cơ sở có dạng hình trụ tròn với
đường kính khoảng 0,5 mm, độ cao 4 mm. Mỗi đơn vị cơ sở này chứa khoảng
2000 nơron. Các nơron trong não rất đơn giản trong cơ chế làm việc, chúng
có thể liên kết với nhau, có khả năng tính toán, suy nghĩ, ghi nhớ và điều
khiển. Có thể điểm qua những chức năng cơ bản của bộ não như sau:
-Bộ nhớ được tổ chức theo các bó thông tin và truy nhập theo nội dung
(Có thể truy xuất thông tin dựa theo giá trị các thuộc tính của đối tượng).
- Bộ não có khả năng tổng quát hoá, có thể truy xuất các tri thức hay
các mối liên kết chung của các đối tượng tương ứng với một khái niệm chung
nào đó.

- Bộ não có khả năng phán đoán theo nghĩa có thể điều chỉnh hoặc tiếp
tục thực hiện ngay khi có những sai lệch do thông tin bị thiếu hay không
chính xác. Ngoài ra, bộ não còn có thể phát hiện và phục hồi các thông tin bị
mất dựa trên sự tương tự giữa các đối tượng.
- Bộ não có thể bị xuống cấp nhưng lại có khả năng thay thế dần dần.
Khi có những trục trặc tại các vùng não (do bệnh, chấn thương) hoặc bắt gặp
những thông tin hoàn toàn mới lạ, bộ não vẫn có thể tiếp tục làm việc.
- Bộ não có khả năng học.
1.1.3 Mô hình Nơron sinh học
Các nơron sinh học có nhiều dạng khác nhau như dạng hình tháp ở đại
não, dạng tổ ong ở tiểu não, dạng rễ cây ở cột sống. Tuy nhiên, chúng có cấu

Lớp CHCNTT - K0810

4


Tiểu luận : Trí tuện nhân tạo
trúc và nguyên lý hoạt động chung. Từ mô hình chung nhất, người ta có thể
mô tả chúng như một nơron chuẩn gồm 4 phần cơ bản:

Hình 1.3: Mô hình nơron sinh học
+ Các nhánh và rễ: là các bộ phận nhận thông tin. Các đầu nhạy hay các
đầu ra của các nơron khác bám vào rễ hoặc nhánh của một nơron.
+ Thân thần kinh (Soma) chứa các nhân và cơ quan tổng hợp prôtêin.
Các iôn vào được tổng hợp và biến đổi. Khi nồng độ các iôn đạt đến một giá
trị nhất định, xẩy ra quá trình phát xung (hay kích thích). Xung đó được phát
ở các đầu ra của nơron. Dây dẫn đầu ra xung được gọi là thần kinh (axon).
+ Dây thần kinh (axon): là đầu ra. Đó là phương tiện truyền dẫn tín hiệu.
Dây thần kinh được cấu tạo gồm các đốt và có thể dài từ vài micro mét đến

vài mét tùy từng kết cấu cụ thể. Đầu ra này có thể truyền tín hiệu đến các
nơron khác.
+ Khớp thần kinh (synape): là bộ phận tiếp xúc của các đầu ra nơron với
rễ, nhánh của các nơron khác. Chúng có cấu trúc màng đặc biệt để tiếp nhận
các tín hiệu.

Lớp CHCNTT - K0810

5


Tiểu luận : Trí tuện nhân tạo
1.1.4 So sánh khả năng làm việc của bộ não và máy tính.
Người ta thấy rằng bộ não con người có thể lưu giữ nhiều thông tin hơn
các máy tính hiện đại. Tuy nhiên điều này không thể đúng mãi mãi, bởi lẽ sự
tiến hoá của bộ não chậm, trong khi đó nhờ những tiến bộ trong công nghệ vi
điện tử, bộ nhớ máy tính được nâng cấp rất nhanh. Hơn nữa sự hơn kém về bộ
nhớ là không quan trọng so với sự khác biệt về tốc độ tính toán và khả năng
xử lý song song. Các bộ vi xử lý có thể tính 10 8 lệnh/s, trong khi đó mạng
nơron xử lý chậm hơn, cần khoảng vài miligiây để kích hoạt. Tuy nhiên, bộ
não có thể kích hoạt hầu như cùng một lúc tại rất nhiều nơron và khớp nối,
trong khi đó ngay cả máy tính hiện đại cũng chỉ có một số lượng hạn chế các
bộ vi xử lý song song. Nếu chạy một mạng nơron nhân tạo trên máy tính phải
tốn hàng trăm lệnh để máy kiểm tra một nơron có được kích hoạt hay không
(tiêu phí khoảng 10-8 × 102 giây/nơron). Do đó, dù bộ vi xử lý có thể tính toán
nhanh hơn hàng triệu lần so với các nơron bộ não, nhưng xét tổng thể bộ não
lại tính toán nhanh hơn hàng tỷ lần.
Khi người ta nhìn não từ góc độ tính toán, chúng ta dễ dàng phát hiện
cách thức tính toán của não khác xa với tính toán trong thuật toán và chương
trình chúng ta thường làm với sự trợ giúp của máy tính.

Sự khác biệt cơ bản trước tiên là ở hai điểm rất quan trọng sau:
- Quá trình tính toán được tiến hành song song và gần hư đồng thời
được phân tán trên nhiều nơron.
- Tính toán thực chất là quá trình học chứ không phải theo sơ đồ định
sẵn từ trước.
Cách tiếp cận mạng nơron nhân tạo có ý nghĩa thực tiễn rất lớn cho
phép tạo ra các thiết bị có thể kết hợp khả năng song song cao của bộ não với
tốc độ tính toán cao của máy tính. Tuy vậy, cần phải có một khoảng thời gian
dài nữa để các mạng nơron nhân tạo có thể mô phỏng được các hành vi sáng
tạo của bộ não con người. Chẳng hạn, bộ não có thể thực hiện một nhiệm vụ
khá phức tạp như nhận ra khuôn mặt người quen sau không quá một giây,
Lớp CHCNTT - K0810

6


Tiểu luận : Trí tuện nhân tạo
trong khi đó một máy tính tuần tự phải thực hiện hàng tỷ phép tính (khoảng
10 giây) để thực hiện cùng thao tác đó nhưng với chất lượng kém hơn nhiều,
đặc biệt trong trường hợp thông tin không chính xác, không đầy đủ.
1.2 Mạng Nơron nhân tạo
1.2.1 Mạng Nơron nhân tạo và một số khái niệm
Mạng nơron nhân tạo là mô phỏng xử lý thông tin, được nghiên cứu ra từ
hệ thống thần kinh của sinh vật, giống như bộ não để xử lý thông tin. Nó bao
gồm số lượng lớn các mối gắn kết cấp cao để xử lý các yếu tố làm việc trong
mối liên hệ giải quyết vấn đề rõ ràng. Mạng nơron nhân tạo giống như con
người, được học bởi kinh nghiệm, lưu những kinh nghiệm hiểu biết và sử
dụng trong những tình huống phù hợp. Để có cái nhìn tổng quát về mạng
nơron nhân tạo, trước hết chúng ta tìm hiểu qua về mạng nơron sinh học.
1.2.1.1 Mô hình mạng Nơron nhân tạo

Từ những cơ sở nghiên cứu về nơron sinh học, chúng ta có thể xây dựng
mô hình nơron nhân tạo theo ngôn ngữ và ký hiệu chung nhất như (hình 1.4).
Mô hình một nơron nhân tạo được xây dựng từ ba thành phần chính: tổng các
liên kết đầu vào, động học tuyến tính, phi tuyến không động học.

Hình 1.4: Mô hình mạng Noron nhân tạo

Lớp CHCNTT - K0810

7


Tiểu luận : Trí tuện nhân tạo
+ Bộ tổng liên kết: Bộ tổng liên kết đầu vào phần tử nơron có thể mô tả
như sau:
m

V (t ) =WY (t ) +∑
b x u x (t ) +I
k =1

(1.1)

Trong đó:
V(t) là tổng tất cả các đầu vào mô tả toàn bộ thế năng tác động ở thân
nơron.
ux (t) là các đầu vào ngoài mô tả tín hiệu vào từ các khớp nơron ngoài
tới nơron hiện tại, m là số đầu vào, k= 1,…,m;
Y(t) là đầu ra nơron (còn dung làm đầu vào phản hồi, đầu vào cho
nơron khác) mô tả tín hiệu ra.

bx là trọng liên kết các đầu vào ngoài, là hệ số mô tả mức độ liên kết
giữa các đầu vào ngoài với nơron hiện tại.
W là trọng liên kết các đầu vào trong, là hệ số mô tả mức độ liên kết
giữa nơron trong mạng nơron, liên kết phản hồi, tự liên kết.
I là ngưỡng, xác định ngưỡng kích thích hay ức chế (hằng số).
+ Phần động học tuyến tính: Đầu vào của phần động học tuyến tính là
đầu ra của bộ tổng liên kết v(t). Đầu ra của nó u(t) là tìn hiệu dạng tương tự.
Có nhiều hàm để mô tả phần động học tuyến tính. Dùng toán tử Laplace mô
tả hàm truyền của phần động học tuyến tính ta được dạng:

X (s) =
H ( s ).V ( s )

(1.2)

Trong miền thời gian phương trình (1.2) có thể viết:


X (t ) = ∫h(t −t ' )v (t ' ) dt

(1.3)

−∞

+ Phần phi tuyến: Phần phi tuyền là phần sử dụng hàm g(.) cho đầu ra y
với đầu vào x(t):

y =g ( x (t ))

Lớp CHCNTT - K0810


(1.4)

8


Tiểu luận : Trí tuện nhân tạo
1.2.1.2 Mạng Nơron nhân tạo
Cũng như nơron sinh học, các nơron nhân tạo có thể liên kết với nhau để
tạo thành mạng. Có nhiều cách để kết hợp nơron thành mạng, mỗi cách kết
hợp sẽ tạo thành một lớp mạng khác nhau. Với mạng nơron nhân tạo, chúng
ta có ba lớp kiến trúc cơ bản sau:
a. Các mạng tiến (feedforward) đơn mức
Trong một mạng nơron phân mức, các nơron được tổ chức dưới dạng các
mức. Với dạng đơn giản nhất của mạng phân mức, chúng ta có một mức đầu
vào gồm các nút nguồn chiếu trực tiếp tới mức đầu ra gồm các nơron. Như
vậy, mạng thực sự không có chu trình. Được minh họa như (hình 1.9) trong
trường hợp ba nút với cả mức đầu ra và đâu vào. Một mạng như vậy được gọi
là một mạng đơn mức.

Mức đầu vào
gồm các nút
nguồn

Mức đầu ra
gồm các
nơron

Hình 1.5: Mạng tiến với một mức Nơron
b. Các mạng tiến (feedforward) đa mức

Lớp thứ hai của một mạng nơron tiến được phân biệt bởi sự có mặt của
một hay nhiều mức ẩn, mà các nút tính toán của chúng được gọi là các nơron
ẩn hay đơn vị ẩn (thuật ngữ ẩn ở đây mang ý nghĩa không tiếp xúc với môi
trường). Chức năng của các nơron ẩn là can thiệp vào giữa đầu vào và đầu ra
của mạng một cách hữu hiệu. Bằng việc thêm một vài mức ẩn, mạng có khả
năng rút ra được các thống kê bậc cao của tín hiệu đầu vào. Khả năng các

Lớp CHCNTT - K0810

9


Tiểu luận : Trí tuện nhân tạo
nơron ẩn rút ra được các thống kê bậc cao đặc biệt có giá trị khi mức đầu vào
có kích thước lớn.
Các nút nguồn trong mức đầu vào của mạng cung cấp các phần tử của
các vectơ đầu vào, chúng tạo nên những tín hiệu đầu vào cho các nơron (các
nút tính toán ) trong mức thứ hai (mức ẩn thứ nhất). Các tín hiệu đầu ra của
mức thứ hai được sử dụng như các đầu vào cho mức thứ ba, và cứ như vậy
phần còn lại của mạng. Về cơ bản, các nơron trong mỗi mức của mạng có các
đầu vào của chúng là các tín hiệu đầu ra của chỉ mức đứng liền trước nó (điều
này có thể khác trong thực tế cài đặt). Tập hợp các tín hiệu đầu ra của các
nơron trong mức đầu ra của mạng tạo nên đáp ứng toàn cục của mạng đối với
các vectơ đầu vào được cung cấp bởi các nút nguồn của mức đầu vào. Đồ thị
trong (hình 1.6) minh họa cấu trúc của một mạng nơron tiến đa mức cho
trường hợp một mức ẩn.
Mạng nơron trong (hình 1.6) được gọi là kết nối đầy đủ với ý nghĩa là
tất cả các nút trong mỗi mức của mạng được nối với tất cả các nút trong mức
tiếp sau. Nếu một số kết nối synapse không tồn tại trong mạng, chúng ta nói
rằng mạng là kết nối không đầy đủ.


Mức đầu vào gồm
các nút nguồn

Mức ẩn gồm các
nơron ẩn

Mức đầu ra gồm
các nơron đầu ra

Hình 1.6: Mạng tiến kết nối đầy đủ với một mức ẩn và một mức đầu ra

Lớp CHCNTT - K0810

10


Tiểu luận : Trí tuện nhân tạo
c. Các mạng hồi quy (recurrent network)
Một mạng nơron hồi quy được phân biệt với các mạng nơron không hồi
quy ở chỗ là nó có ít nhất một vòng lặp phản hồi. Ví dụ, một mạng nơron hồi
quy có thể bao gồm một mức đơn các nơron với mỗi nơron đưa tín hiệu đầu
ra của nó quay trở lại các đầu vào của tất cả các nơron khác, như được minh
họa trong (hình 1.7). Trong cấu trúc được mô tả trong hình này, không có một
vòng lặp tự phản hồi nào trong mạng; tự phản hồi là trường hợp đầu ra của
một nơron được phản hồi lại chính đầu vào của nơron đó. Mạng hồi quy trong
(hình 1.6) cũng không có các nơron ẩn. Trong (hình 1.7), chúng ta minh họa
một lớp mạng hồi quy nữa với các nơron ẩn. Các kết nối phản hồi được vẽ
trong (hình 1.7) được bắt nguồn từ các nơron ẩn cũng như từ các nơron đầu
ra.


z-1

z-1

z-1

Các
toán tử
đơn vị
trễ

Hình 1.7: Mạng hồi quy không có nơron ẩn và không có vòng lặp tự phản
hồi
Sự có mặt của vòng lặp phản hồi, trong cả cấu trúc hồi quy của (hình1.6)
và (hình 1.7), có một ảnh hưởng sâu sắc tới khả năng học của mạng và đến
tính năng của nó. Hơn nữa, các vòng lặp phản hồi bao hàm việc sử dụng các
Lớp CHCNTT - K0810

11


Tiểu luận : Trí tuện nhân tạo
nhánh đặc biệt gồm các phần tử đơn vị trễ (ký hiệu là z -1), thể hiện một hành
vi phi tuyến động theo thời gian (cùng với giả sử rằng mạng nơron bao gồm
các đơn vị phi tuyến).

z-1
Đầu
ra


z-1

z-1
Các toán tử
đơn vị trễ

Đầu
vào

Hình 1.8: Mạng hồi quy có các nơron ẩn
1.2.2 Phương pháp học của mạng nơron nhân tạo
1.2.2.1 Định nghĩa học
Học là một quá trình mà nhờ nó các tham số tự do của một mạng nơron
được điều chỉnh lại cho phù hợp thông qua một quá trình kích thích bởi môi
trường.
Định nghĩa này bao hàm những ý nghĩa quan trọng sau:
• Mạng nơron được kích thích bởi một môi trường.
• Mạng nơron trải qua những sự thay đổi về các tham số tự do của
nó như là kết quả của sự kích thích này.
• Mạng nơron đáp ứng lại theo một cách hoàn toàn với môi trường
do sự thay đổi về cấu trúc bên trong của nó.
Một tập hợp các quy tắc được xác định cho lời giải của bài toán học được
gọi là thuật toán học. Không có một thuật toán học duy nhất cho việc thiết kế
các mạng nơron, mà chúng ta có một “bộ công cụ” bao gồm nhiều thuật toán
học rất đa dạng, mỗi thuật toán đều có những ưu điểm riêng. Nói chung, các
Lớp CHCNTT - K0810

12



Tiểu luận : Trí tuện nhân tạo
thuật toán học khác nhau chủ yếu trong cách thức điều chỉnh trọng số synapse
của một nơron.
1.2.2.2 Tiến trình học
Tiến trình học là tiến trình quan trọng của con người, nhờ học mà bộ não
ngày càng tích lũy những kinh nghiệm để thích nghi với môi trường và xử lý
tình huống tốt hơn. Mạng nơron xây dựng lại cấu trúc của bộ não thì cần phải
có khả năng nhận biết dữ liệu thông qua tiến trình học, với các thông số tự do
của mạng có thể thay đổi liên tục bởi những thay đổi của môi trường và mạng
nơron ghi nhớ giá trị đó.
Trong quá trình học, giá trị đầu vào được đưa vào mạng theo dòng chảy
trong mạng tạo thành giá trị ở đầu ra.
Tiếp đến là quá trình so sánh giá trị tạo ra bởi mạng nơron với giá trị ra
mong muốn. Nếu hai giá trị này giống nhau thì không thay đổi gì cả. Tuy
nhiên, nếu có một sai lệch giữa hai giá trị này vượt quá giá trị sai số mong
muốn thì đi ngược mạng từ đầu ra về đầu vào để thay đổi một số kết nối.

Hình 1.9: Tiến trình học
Đây là một quá trình lặp liên tục và có thể không dừng khi không tìm các
giá trị w sao cho đầu ra tạo bởi mạng nơron bằng đúng đầu ra mong muốn.
Do đó trong thực tế người ta phải thiết lập tiêu chuẩn dựa trên một giá trị sai
số nào đó của hai giá trị này, hay dựa trên một số lần lặp xác định.
Lớp CHCNTT - K0810

13


Tiểu luận : Trí tuện nhân tạo
Vậy học là quá trình xác định cấu trúc hoặc tham số của mạng nơron,

như vậy ta có:
- Học tham số: Các thủ tục học này nhằm tìm kiếm ma trận trọng số
sao cho mạng có khả khăng đưa ra dự báo sát với thực tế. Dạng chung của
luật học tham số có thể được mô tả như sau:
∆Wij = ηrx j , i = 1, N , j = 1, M ,

(1.5)

Trong đó:
EMBED Equation.3

∆Wij là sự thay đổi trọng số liên kết từ nơ-

ron j đến nơ-ron i.
xj là tín hiệu vào của nơ-ron thứ j.
EMBED Equation.3 η là tốc độ học , nằm trong khoảng (0,1).
r là hằng số học.
Vẫn đề đặt ra ỏ đây là tín hiệu học r được sinh ra như thế nào để hiệu
chỉnh trọng số của mạng.
Có thể chia thủ tục học tham số ra thành ba lớp nhỏ hơn: Học có chỉ
đạo, học tăng cường và học không chỉ đạo. Việc xác định r phụ thuộc vào
từng kiểu học .
+ Học có tín hiệu chỉ đạo: là quá trình mạng học dựa vào sai số giữa
đầu ra thực và đầu ra mong muốn để làm cơ sở cho việc hiệu chỉnh trọng số.
Sai số này chính là trọng số r. Luật học điển hình của nhóm này chính là luật
học Delta của Widrow (1962) nêu ra đầu tiên dùng để xấp xỉ trọng của
Adaline dựa trên nguyên tắc giảm gradient.

Lớp CHCNTT - K0810


14


Tiểu luận : Trí tuện nhân tạo
Trong nhóm luật học này cũng cần phải kể đến luật học Perceptron của
Rosenblatt (1958). Về cơ bản luật học này thay đổi các giá trị trọng trong thời
gian học còn luật Perceptron thì thêm hoặc bỏ trọng tùy theo giá trị số là
dương hay âm.
Một loạt các luật học khác cũng được dựa trên tư tưởng này. Luật oja
là cải tiến và nâng cấp của luật Delta. Luật truyền ngược là mỏ rộng của luật
Delta cho mạng nhiều lớp. Đối với mạng truyền thẳng thường sử dụng luật
truyền ngược để chỉnh trọng với tín hiệu chỉ đạo từ bên ngoài và người ta gọi
mạng này là mạng truyền ngược.
+ Học không có tín hiệu chỉ đạo: Luật học này sử dụng đầu ra của
mạng làm cơ sở để hiệu chỉnh các trọng số liên kết. Hay trong luật này chính
là tín hiệu ra của mạng. Điển hình là mạng Hebb (1949) thường dùng cho các
mạng tự liên kết, Luật LVQ (Learning Vector Quantization) dùng cho mạng
tự tổ chức một lớp thuộc lớp mạng ánh xạ đặc trưng của Kohonen.
Luật học Hebb là luật sinh học xuất phát từ tiêu đề Hebb cho rằng:
Giữa hai nơ-ron có quan hệ và có thay đổi thế năng màng thì giữa chúng có
sự thay đổi trọng số liên kết. Nói cách khác, trọng số được điều chỉnh theo
mỗi tương quan trước và sau nghĩa là:
EMBED Equation.3 ∆Wij = η yi x j , i = 1, N , j = 1, M ,

(1.6)

trong đó
EMBED Equation.3 ∆Wij : Là sự thay đổi trọng số liên kết từ
nơ-ron j đến nơ-ron i
EMBED Equation.3 x j: là tín hiệu vào nơ-ron j.

EMBED Equation.3 y i là tín hiệu ra của nơ-ron i.
EMBED Equation.3 η là tốc độ học nằm trong khoảng (0,1).
Luật Hebb giải thích việc chỉnh trọng trong phạm vi cục bộ của mạng
mà không cần tín hiệu chỉ đạo từ bên ngoài. Hopfield cũng cải tiễn luật Hebb
Lớp CHCNTT - K0810

15


Tiểu luận : Trí tuện nhân tạo
cho các mạng tự liên kết thành 16 dạng khác nhau theo kiểu luật Hebb, luật
Hopfield...
Như vậy, ứng với mỗi nhóm mạng thường áp dụng một luật học nhất
định. Nếu tồn tại hàng chục loại khác nhau thì các luật học dùng trong mạng
nơ-ron có thể tăng lên rất nhiều lần.
Đối với mạng phản hồi thường sử dụng luật Hebb vào các luật cải tiến
của nó để chỉnh trọng mà không cần tín hiệu chỉ đạo từ bên ngoài.
+ Học tăng cường: Trong một số trường hợp, thông tin phản hồi chỉ là
tín hiệu bao gồm hai trạng thái cho biết tín hiệu đầu ra của mạng là đúng hay
sai. Quá trình học dựa trên thông tin hướng dẫn như vậy được gọi là học có
củng cố (học tăng cường) và tín hiệu mang thông tin phản hồi được gọi là tín
hiệu củng cố cho quá trình học. Ta có thể thấy rằng quá trình học này là một
dạng của quá trình học có tín hiệu chỉ đạo bởi vì mạng nhận được một số
thông tin phản hồi từ bên ngoài.
- Học cấu trúc: tìm kiếm các tham số của cấu trúc mạng để tìm ra một
cấu trúc mạng hoạt động tốt nhất. Trong thực tế, việc học cấu trúc là tìm ra số
lớp ẩn và tìm ra số nơ-ron trên mỗi lớp đó. Giải thuật di truyền thường được
sử dụng trong cấu trúc nhưng thường chạy rất lâu, thậm chí ngay cả đói với
mạng có kích thước trung bình. Ngoài ra kỹ thuật gọt tỉa mạng hay mạng tăng
dần cũng được áp dụng trong việc học cấu trúc của mạng có kích thước tương

đối nhỏ.
1.2.3 Đặc trưng của mô hình mạng nơron
Những mô hình mạng nơron có tiềm năng tạo nên một cuộc cách mạng
trong công nghệ máy tính và các quá trình xử lý thông tin. Những mong muốn
và hy vọng đó chủ yếu bắt nguồn từ các đặc trưng sau:
- Khả năng của các quá trình xử lý song song và phân tán: Có thể đưa
vào mạng một lượng lớn các nơron liên kết với nhau theo những lược đồ với
những kiến trúc khác nhau.
Lớp CHCNTT - K0810

16


Tiểu luận : Trí tuện nhân tạo
- Khả năng thích nghi và tự tổ chức : Về đặc trưng này người ta đề cập
đến khả năng xử lý thích nghi và điều chỉnh bền vững dựa vào các thuật toán
học thích nghhi và các quy tắc tự tổ chức.
- Khả năng dung thứ lỗi: Cố gắng bắt chước khả năng dung thứ lỗi của
não theo nghĩa hệ thông có thể tiếp tục làm việc và điều chỉnh khi nhận tín
hiệu vào một phần thông tin bị sai lệch hoặc bị thiếu.
- Xử lý các quá trình phi tuyến : Đặc trưng này rất quan trọng, ví dụ
trong xấp xỉ mạng , miễn nhiễu (chấp nhận nhiễu) và có khả năng phân lớp.

1.3 Kết luận
Như vậy trong chương I này chúng ta đã trình bày một số kiến thức cơ
bản về lý thuyết về mạng nơron nhân tạo – lĩnh vực này đã và đang được
nghiên cứu và ứng dụng rộng rãi trong thực tế.
Ngày nay, chính mạng nơron đã tạo nên một cuộc cách mạng về công
nghệ máy tính và xử lý thông tin nhờ vào khả năng tính toán song song và
phân tán, khả năng thích nghi và tự tổ chức, khả năng dung thứ lỗi…, không

đòi hỏi các dặc trưng mở rộng của bài toán.
Mặc dù có nhiều ưu điểm và được áp dụng nhiều trong thực tế song
mạng nơron cũng có những hạn chế nhất định. Chính vì vậy mà một cách tiếp
cận mới hứa hẹn đem lại nhiều kết quả đó là việc tích hợp giữa hệ mờ và
mạng nơron này với nhau (trình bày ở chương II). Bởi cách tích hợp này sẽ
khắc phục được những nhược điểm vốn có của hệ mờ cũng như mạng nơron
đồng thời nó cũng phát huy được hết những ưu điểm của chúng. Cụ thể những
nhược điểm của mạng nơron đó là:
- Không có các quy tắc và các hướng dẫn thiết kế một cách rõ ràng đối
với một ứng dụng nhất định.
- Không có cách tổng quát để đánh giá hoạt động bên trong của mạng.
- Việc tập hấn đối với mạng có thể khó thực hiện.
Lớp CHCNTT - K0810

17


Tiểu luận : Trí tuện nhân tạo
- Khó có thể dự đoán trước được hiệu quả của mạng trong tương lai.

Chương 2

MÔ HÌNH MẠNG RBF VÀ THUẬT TOÁN LAI
CHO MẠNG BRF
2.1. Hàm cơ sở xuyên tâm
Trong không gian Euclidean Rn, RBF là một hàm có dạng:
n

x → ∑ c jφ ( x − x j )


(2.1)

j =1

Trong đó x1, x2, …, xN là các điểm rời rạc, và |x-x j| là khoảng cách giữa
x và xj, c1, c2, …, cN là các hằng số, và Ф là hàm một biến Trong thực tế:

φ : [ 0, ∞ ) → R
Ф được gọi là hàm tiêu chuẩn (cơ sở)
Ví dụ: Ta có φ (t )

2

= exp(−t 2 ) , từ đó ta có ∑ c j exp( x − x j ) và được gọi

là hàm RBF Gaussian
2.2. Mô hình mạng RBF
Mạng sử dụng hàm cơ sở xuyên tâm (Radial Basic Function Networrk RBFN) hay còn gọi là mạng sử dụng hàm điều hòa, có thể được sử dụng để
thay thế cho các mạng truyền thẳng đa lớp (Multilayered Feedforward Neural
Lớp CHCNTT - K0810

18


Tiểu luận : Trí tuện nhân tạo
Networks - MFNNs) đã được nghiên cứu rất nhiều. Một hàm cơ sở xuyên tâm
(Radial Basic Function - RBF) là một ánh xạ hàm phi tuyến đa chiều, nó phụ
thuộc vào khoảng cách giữa véc tơ vào và véc tơ tâm. Một mạng RBF với
một véc tơ đầu vào n chiều x∈ Rn và một đầu ra y ∈R có thể biểu diễn bởi
tổng có trọng số của một số hữu hạn các hàm cơ sở xuyên tâm như sau:


C1

|| .
||
x

C2

φ (.)

w
1

|| .
||

φ (.)

w

y=
f(x)

2

Cn

|| .
||


φ (.)

w
n

Hình 2.1: Sơ đồ biểu diễn mạng RBF với véc tơ đầu vào x є Rn và
một đầu ra y є R

Mô hình toán học:

n

y = f ( x) = ∑ wi Φ i ( x − ci ) (2.2)
i =1

Trong đó Φ i ( x − ci ) là hàm cơ sở xuyên tâm của x, thu được bởi dịch
chuyển Φ i ( x ) một khoảng ci. Để đơn giản, có thể chọn hàm cơ sở xuyên
tâm cùng kiểu Φ cho tất cả các tổng trọng số ở trên, khi đó phương trình
(2.2) có thể được viết lại:
Lớp CHCNTT - K0810

19


Tiểu luận : Trí tuện nhân tạo
n

y = f ( x) = ∑ wi Φ( x − ci )


(2.3)

i =1

Trong phương trình này Φ (.) là một hàm phi tuyến tùy ý, . biểu thị
cho một chuẩn thường là chuẩn Euclidean, các véc tơ ci∈ Rn biết trước được
gọi là các tâm của các hàm cơ sở xuyên tâm, và ω i là tham số trọng số. Thuật
ngữ hàm cơ sở xuyên tâm được gọi như vậy vì các hàm này đối xứng qua
tâm, có nghĩa là mỗi nút sinh ra đầu ra giống hệt nhau với các đầu vào nằm ở
các vị trí có khoảng cách bán kính cố định bằng nhau tính từ tâm. Nói cách
khác, một hàm cơ sở xuyên tâm Φ ( x − ci ) có cùng giá trị cho tất cả các nơ
rron đầu vào x nằm trên một siêu cầu với tâm ci.
Nếu như các thành phần đơn lẻ của các véc tơ vào x thuộc về những
lớp khác nhau, thì việc sử dụng một chuẩn trọng số (weighted norm) (Poggio
và Girosi 1900) ở trong hàm cơ sở xuyên tâm sẽ phù hợp hơn, khi đó RBFN
có thể được biểu diễn:
n

y = f ( x) = ∑ wi Φ ( x − ci
i =1

Ki

)

(2.4)

n×n
K


R
i
Trong đó
là ma trận trọng số và chuẩn tắc có trọng số Euclidean

được cho bởi:

x − ci

2
Ki

= ( x − ci )T K iT K i ( x − ci ) (2.5)

Trong trường hợp đơn giản thì Ki là một ma trận chéo, Ki = diag[ki1, ki2,
…, kin] và các thành phần chéo k ij được gán cho những trọng số cụ thể tương
ứng với mỗi tọa độ vào, và chuẩn Eucliean mẫu thu được khi mà K i được đưa
về ma trận đơn vị. Tuy nhiên thuộc tính đối xứng xuyên tâm không còn khi
sử dụng các dạng chuẩn có trọng số (weighed norms). RBF cho ra cùng giá trị
với tất các véc tơ đầu vào x nằm trên một siêu ellipsoid với tâm c i và trục
được xác định bởi ma trận trọng số Ki. Việc đưa vào khái niệm chuẩn trọng số
đóng vai trò hết sức quan trọng bất kì khi nào sử dụng các đầu vào có các kiểu
khác nhau.
Lớp CHCNTT - K0810

20


Tiu lun : Trớ tun nhõn to
Vi trng hp nhiu u ra, RBFN c cho bi (2.2) cú th c m

rng nh sau:

y = f j ( x) = ij ( x ci ) ; j = 1, 2, , m
Hay dng vộc t nh sau: y = f(x) = W
Trong ú:

11 22

22

W = 21



n1 n 2

1n

21



nn

v



=





x c1
x c2


x cn

* So sánh mạng RBF và perceptrons nhiều tầng
Mạng (RBF) và perceptron nhiều tầng là ví dụ về phi tuyến tính sắp
thành từng lớp những mạng truyền thẳng. Cả hai đều gần nh nhau. Tuy nhiên
hai mạng khác nhau ở vài điểm quan trọng nh là vài nét ở dới đây:
1. Một mạng RBF ( trong nó có hình thức cơ bản nhất ) có một tầng ẩn
khi đó một MLP có một hoặc nhiều tầng ẩn .
2. Điển hình, sự tính toán những nút của một MLP, chúng xác định một
tầng ẩn hoặc tầng ra chia sẻ một nơron mẫu chung. Mặt khác, sự tính toán
những nút trong tầng ẩn của một mạng RBF là khác nhau và phục vụ cho mục
đích từ tầng ra của mạng
3. Tầng ẩn của một mạng RBF là phi tuyến tính, ở đó tầng ra là tuyến
tính. Theo cách khác, tầng ẩn và ra của một MLP đợc sử dụng nh là phân loại
thông thờng tất cả là phi tuyến. Tuy nhiên khi MLP đợc dùng để giải thích vấn
đề về hồi quy phi tuyến tính, một tầng tuyến tính cho đầu ra thờng là đợc lựa
chọn .
4. Đối số của hàm kích hoạt của mỗi đơn vị ẩn của một mạng RBF tính
toán theo tiên đề Euclide giữa vectơ vào và tâm của đơn vị đó. Mặt khác,
hàm kích hoạt của mỗi đơn vị ẩn trong mạng MLP tính toán tích vô hớng của
vectơ vào và vectơ trọng số Synaptic của đơn vị đó.
5. Những MLP đợc xây dựng toàn bộ xấp xỉ ánh xạ vào ra phi tuyến
tính. Vậy thì, chúng có khả năng khái quát trong vùng của không gian vào nơi

Lp CHCNTT - K0810

21


Tiu lun : Trớ tun nhõn to
ít hoặc không dữ liệu huấn luyện là sẵn có. Mặt khác, mạng RBF dùng lũy
thừa địa phơng hoá phi tuyến (hàm Gausss) xây dựng toàn bộ xấp xỉ ánh xạ
vào ra phi tuyến tính với kết quả là những mạng có khả năng tự học nhanh và
giảm bớt tính nhạy cảm tới sự biểu diễn của việc huấn luyện dữ liệu. Trong
những trờng hợp, tuy nhiên, chúng ta tim cái đó để đại diện một ánh xạ đạt tới
độ mong muốn nào đó của sự nhịp nhàng. Số lợng của RBF yêu cầu mở rộng
không gian đầu vào đầy đủ có thể phải rất lớn
Đặc điểm tuyến tính của tầng ra của mạng RBF nghĩa là một mạng là
có mối quan hệ gần gũi với perceptron(bộ nhận thức ) của Rosenblatt hơn
perceptron nhiều tầng. Tuy nhiên mạng RBF khác với pereptron là nó có khả
năng tự thực hiện sự biến đổi phi tuyến tính của không gian đầu vào. Đây là
minh hoạ tốt nhất của vấn đề XOR, chúng không thể đợc giải thích bằng
perceptron tuyến tính nhng có thể giải thích bởi một mạng RBF.
* Khi s dng hm c s trong mng nron, cn to ra cỏc s thay i
sau:
- S cỏc hm c s khụng cn thit phi bng vi s vộc t hun luyn,
thng l ớt hn nhiu.
- Cỏc hm c s khụng cn phi c t xung quanh cỏc vect hun
luyn
- Cỏc hm c s cú th cú cỏc tham s hiu chnh c trong quỏ trỡnh
hun luyn.
- Cú th cú cỏc tham s bias.
Quan h gia mng c s xuyờn tõm v cỏc phng phỏp thng kờ
khỏc cho thy rng cỏc hm c s nờn biu din phõn phi xỏc sut ca cỏc

vec t vo. Sau ú s dng mt phng phỏp hc khụng giỏm sỏt tỡm cỏc
tham s ca cỏc hm c s.
Cú nhiu lp hm c s xuyờn tõm khỏc nhau c s dng cho nhng
bi toỏn khỏc nhau. Mt s loi hm c s xuyờn tõm thng gp:

RBF Gaussian: (r) = e-(r/e)2

(2.6)

RBF a ton phng (multiquadratic RBF):

( r ) = (c 2 + r 2 )
Lp CHCNTT - K0810

0 < <0

(2.7)
22


Tiểu luận : Trí tuện nhân tạo

RBF đa toàn phương đảo:

φ (r ) =

1
(c 2 + r 2 ) α

α >0


(2.8)

RBF Thin-plate splin:

φ (r ) = r 2 log(r )

(2.9)

RBF splin cầu:

φ (r ) = r 3
RBF splin tuyến tính: φ ( r ) = r

(2.10)

* Khả năng xấp xỉ vạn năng của mạng nơron:
Định lý cơ bản (Stone - Weirstoass)
Giả sử S là một tập compact trong không gian Rn, C(S) là không gian
các hàm số liên tục trên S, Ω

⊂ C(S) thỏ mãn các điều kiện:

1. Là bao đống đại số theo nghĩa

∀f , g ∈ Ω, fg ∈ Ω, αf + βg ∈ Ω
ii. Khả tách

∀ x1, x2є S, ∃ f є Ω
f(x1) ≠ f(x2)


iii. Không triệt tiêu tại điểm nào của S, nghĩa là:

∀x ∈ S , ∃f ∈ Ω, f ( x) ≠ 0
Kết luận: Ω trù mật trong C(S)

∀ε > 0, ∀g ∈ C ( S ), ∃f ∈ Ω, f − g < ε

* Khả năng xấp xỉ vạn năng của mạng với hàm cơ sở xuyên tâm được đẩm
bảo bởi định lý sau:
Định lý: Giả sử Ω là tập hợp tất cả các hàm có thể tính bởi mạng Gauss trên
tập compact

S ⊂ Rn


Ω =  ΩN ,
N =1

Lớp CHCNTT - K0810

23


Tiểu luận : Trí tuện nhân tạo



 1 N  x − c 2 
N

k
ik
  : wi , cik , σ ik ∈ R, x ∈ S 
Ω N =  f ( x) = ∑ wi exp − ∑ 
i =1
k =1
2
σ


 

ik

Khi đó Ω trù mật trong C(S)
2.3. Mô hình mạng RBF Gaussian
Một hàm cơ sở xuyên tâm Gaussian là một dạng không chuẩn tắc của
hàm phân phối Gaussian, nó có tính phi tuyến cao, cung cấp một số đặc trưng
tốt cho học tăng cường và có rât nhiều đặc tính quan trọng. Gaussian NN đã
được chứng minh là có khả năng học từ ánh xạ vào ra phức tạp và đã được sử
dụng trong nhiều lĩnh vực như: Học tập, nhận dạng và điều khiển trong các hệ
thống phi tuyến động.
Một mạng RBF Gaussian, hay được gọi đơn giản là mạng Gaussian,
chứa một hàm phân phối Gaussian dạng không chuẩn tắc cho bởi:

  r 2 
φ (r ) = exp −   
 c 

(2.11)


Đây là lớp mạng quan trọng nhất của mạng RBF. Như trình bày ở hình
2.2, một hàm Gaussian bị giới hạn, dương và liên tục trong R n, có một đỉnh ở
tâm r = 0 và đơn điệu giảm khi mà khoảng cách tính từ tâm tăng.

Lớp CHCNTT - K0810

24


Tiểu luận : Trí tuện nhân tạo
Hình 2.2: Hàm cơ sở xuyên tâm Gaussian
Chú ý rằng RBF Gaussian cũng có tính chất phi tuyến có thể tách được,
có nghĩa là:

φ ( x − c ) = φ ( x1 − c1 )φ ( x2 − c2 )...φ ( xn − cn ) = ∏ φ ( xi − ci )
n

i =1

(2.12)

Vì vậy thay vì tính một biến đổi phi tuyến đơn lẻ của toàn bộ véc tơ
vào, các không gian con độc lập của R n có thể được biến đổi tách rời nhau, và
rồi nhân với nhau để được biểu thức cuối cùng. Người ta đã chứng minh rằng
mạng Gaussian có nhiều đặc tính toán học tốt và có thể sử dụng để học, điều
khiển các hệ thống động phi tuyến, và nhiều lĩnh vực khác. Hơn thế nữa,
những đặc tính này làm cho mạng Gaussian đặc biệt thuận tiện để thực thi
trong phần cứng tương tự song song.
Một mạng Gaussian điển hình là một mạng có 3 tầng: tầng vào, tầng

trung gian (hay còn gọi là tầng ẩn) chứa các đơn vị Gaussian và tầng ra như
hình 2.3, Và một biểu đồ khối trình bày đầu vào – ra của RBF Gaussian được
trình bày ở hình 2.4:

x1
x2

Ci1




1/σi1

(.)2

1/σi2

(.)2

1/σin

(.)2

Ci2

Exp(-)




di

ui

Cin

xn



Lớp CHCNTT - K0810

25


×