Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 1
PHẦN MỞ ĐẦU
Khả năng học, ghi nhớ và khái quát hoá từ các dữ liệu huấn luyện làm
cho mạng neural nhân tạo trở thành một phát minh đầy hứa hẹn trong hệ
thống xử lý thông tin. Các tính toán neural cho phép giải quyết tốt những bài
toán đặc trưng bởi một số hoặc tất cả các tính chất như: sử dụng không
gian nhiều chiều, các tương tác phức tạp, chưa biết hoặc không thể theo dõi
về mặt toán học giữa các biến. Ngoài ra phương pháp này còn cho phép
tìm ra nghiệm của những bài toán mà đầu vào là các cảm nhận của con
người như: tiếng nói, nhìn và nhận dạng
Cùng với sự phát triển của mô hình kho dữ liệu (data warehouse), ngày
càng có nhiều kho dữ liệu với lượng dữ liệu rất lớn. Để khai thác có hiệu
quả những dữ liệu khổng lồ này đã có nhiều công cụ được xây dựng để thỏa
mãn nhu cầu khai thác dữ liệu mức cao. Việc xây dựng các hệ chuyên gia,
các hệ thống dựa trên một cơ sở tri thức của các chuyên gia để có thể dự báo
được khuynh hướng phát triển của dữ liệu, thực hiện các phân tích trên các
dữ liệu của tổ chức. Mặc dù các công cụ, các hệ thống trên hoàn toàn có thể
thực hiện được phần lớn các công việc nêu trên, chúng vẫn yêu cầu một độ
chính xác, đầy đủ nhất định về mặt dữ liệu để có thể đưa ra được các câu
trả lời chính xác nhất.
Mạng neural có thể được huấn luyện và ánh xạ từ các dữ liệu vào tới các
dữ liệu ra mà không yêu cầu các dữ liệu đó phải đầy đủ. Các mạng neural có
khả năng biểu diễn các ánh xạ phi tuyến giữa đầu vào và đầu ra, chúng được
coi như là các “bộ xấp xỉ đa năng”. Phương pháp ứng dụng mạng neural trong
bài toán phân lớp dữ liệu là một trong những hướng tiếp cận mới và hiện đại
và là một công cụ rất mạnh để giải quyết các bài toán trong lĩnh vực này.
Qua bài thu hoạch này, tôi xin chân thành cảm ơn Giáo sư, Tiến sĩ khoa
học Hoàng Văn Kiếm, giảng viên môn học “Công nghệ tri thức và ứng dụng”
đã tận tình giúp đỡ, hướng dẫn và định hướng để hoàn thành chuyên đề
nghiên cứu rất bổ ích và lý thú này.
Nội dung của bài thu hoạch ngoài phần mở đầu và kết luận, có ba
chương như sau:
Chương 1: Tổng quan về mạng neural nhân tạo.
Chương 2: Mạng truyền thẳng nhiều lớp.
Chương 3: Phân lớp dữ liệu bằng mạng neural.
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 2
CHƢƠNG 1
TỔNG QUAN VỀ MẠNG NEURAL NHÂN TẠO
1. Giới thiệu về mạng neural
1.1. Lịch sử phát triển
Mạng neural nhân tạo được xây dựng từ những năm 1940 nhằm mô phỏng
một số chức năng của bộ não người. Mạng neural nhân tạo được thiết kế tương tự
như
neural sinh học sẽ có khả năng giải quyết hàng loạt các bài toán như tính toán
tối ưu, điều khiển, công nghệ robot…
Quá trình nghiên cứu và phát triển neural nhân tạo có thể chia thành 4 giai
đoạn như sau:
- Giai đoạn 1: Có thể tính từ nghiên cứu của William (1890) về tâm lý học với
sự liên kết các neural thần kinh. Năm 1940, McCulloch và Pitts đã cho biết neural
có thể mô hình hoá như thiết bị ngưỡng để thực hiện các phép tính logic và mô hình
mạng neural của McCulloch – Pitts cùng với giải thuật huấn luyện mạng của Hebb
ra đời năm 1943.
- Giai đoạn 2: Những năm 1960, một số mô hình neural hoàn thiện hơn đã
được đưa ra như: Mô hình Perceptron của Rosenblatt (1958), Adalile của Widrow
(1962). Trong đó mô hình Perceptron rất được quan tâm vì nguyên lý đơn giản,
nhưng nó cũng có nhiều hạn chế.
- Giai đoạn 3: Đầu thập niên 1980, những đóng góp lớn cho mạng neural trong
giai đoạn này phải kể đến Grossberg, Kohonen, Rumelhart và Hopfield. Trong đó
đóng góp lớn của Hopfield gồm hai mạng phản hồi: mạng rời rạc năm 1982 và
mạng liên tục năm 1984. Đặc biệt, ông đã dự kiến nhiều khả năng tính toán lớn của
mạng mà một neural không có khả năng đó. Cảm nhận của Hopfield đã được
Rumelhart, Hinton và Williams đề xuất thuật toán sai số truyền ngược nổi tiếng để
huấn luyện mạng neural nhiều lớp nhằm giải bài toán mà mạng khác không thực
hiện được. Nhiều ứng dụng mạnh mẽ của mạng neural ra đời cùng với các mạng
theo kiểu máy Boltzmann và mạng Neocognition của Fukushima.
- Giai đoạn 4: Tính từ năm 1987 đến nay, hàng năm thế giới đều mở hội nghị
toàn cầu chuyên ngành neural IJCNN (International Joint Conference on Neural
Networks). Rất nhiều công trình được nghiên cứu để ứng dụng mạng neural vào các
lĩnh vực như: kỹ thuật tính toán, điều khiển, tối ưu, y học, sinh học, thống kê, giao
thông, hoá học, Cho đến nay mạng neural đã khẳng định được vị trí ứng dụng của
mình trong nhiều ngành khác nhau.
1.2. Neural sinh học
Hệ thần kinh gồm hai lớp tế bào: neural (tế bào thần kinh) và glia (tế bào glia).
Neural là thành phần cơ bản của hệ thần kinh, chúng có chức năng xử lý thông tin.
Glia thực hiện chức năng hỗ trợ. Neural sinh học có nhiều loại, chúng khác nhau về
kích thước và khả năng thu phát tín hiệu. Tuy nhiên chúng có cấu trúc và nguyên lý
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 3
hoạt động chung như sau:
Mỗi neural sinh học gồm có 3 thành phần: Thân neural với nhân ở bên trong
(soma), một đầu dây thần kinh ra (axon) và một hệ thống phân nhánh hình cây
(dendrite) để nhận các thông tin vào. Trong thực tế có rất nhiều dây thần kinh vào
và chúng bao phủ một diện tích rất lớn (0,25mm
2
). Đầu dây thần kinh ra được rẽ
nhánh nhằm chuyển giao tín hiệu từ thân neural tới neural khác. Các nhánh của đầu
dây thần kinh được nối với các khớp thần kinh (synapse). Các khớp thần kinh này
được nối với thần kinh vào của các neural khác. Các neural có thể sửa đổi tín hiệu
tại các khớp. Hình ảnh đơn giản của một neural thể hiện trong hình 1.1.
Hình 1.1. Mô hình neural sinh học
Hoạt động của neural sinh học có thể được mô tả như sau:
- Mỗi neural nhận tín hiệu vào từ các tế bào thần kinh khác. Chúng tích hợp
các tín hiệu vào, khi tổng tín hiệu vượt quá một ngưỡng nào đó chúng tạo tín hiệu ra
và gửi tín hiệu này tới các neural khác thông qua dây thần kinh.
- Các neural liên kết với nhau thành mạng. Mức độ bền vững của các liên kết
này xác định một hệ số gọi là trọng số liên kết.
1.3. Neural nhân tạo
Mô phỏng neural sinh học, ta có neural nhân tạo. Mỗi neural có rất nhiều dây
thần kinh vào, nghĩa là mỗi neural có thể tiếp nhận đồng thời nhiều dữ liệu.
Mạng neural nhân tạo (Artificial Neural Network) là một cấu trúc mạng được
hình thành nên bởi một số lượng lớn các neural nhân tạo liên kết với nhau. Mỗi
neural có các đặc tính đầu vào, đầu ra và thực hiện một chức năng tính toán cục bộ.
Với việc giả lập hệ thống sinh học, các cấu trúc tính toán mạng neural có thể
giải quyết được lớp các bài toán nhất định như: lập lịch, tìm kiếm, nhận dạng mẫu,
xếp loại, Mạng neural còn giải quyết được lớp các bài toán sử dụng dữ liệu không
đầy đủ, xung đột mờ hoặc xác suất. Những bài toán này được đặc trưng bởi một số
hoặc tất cả các tính chất sau: sử dụng không gian nhiều chiều, các tương tác phức
tạp, chưa biết hoặc không thể theo dõi về mặt toán học giữa các biến; không gian
nghiệm có thể rỗng, có nghiệm duy nhất hoặc có một số nghiệm bình đẳng như
nhau. Tuy nhiên việc ánh xạ từ một bài toán bất kỳ sang một giải pháp mạng neural
lại là một việc không đơn giản.
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 4
1.4. Các thành phần của một neural nhân tạo
Thành phần 1. Các nhân tố trọng số: Một neural thường nhận nhiều đầu vào
cùng lúc. Mỗi đầu vào có trọng số liên quan của riêng nó, trọng số này giúp cho đầu
vào có ảnh hưởng cần thiết lên hàm tổng của đơn vị xử lý. Những trọng số này có
chức năng giống như sức mạnh của các synapes khác nhau trong neural sinh học.
Trong cả hai trường hợp (nhân tạo và sinh học), một số đầu vào quan trọng hơn
những đầu vào khác do vậy chúng có ảnh hưởng lớn hơn tới đơn vị xử lý để rồi
chúng kết hợp lại để tạo ra sự phản ứng của neural (neural response).
Các trọng số là những hệ số thích nghi bên trong một mạng, chúng xác định
cường độ (sức mạnh hay sức ảnh hưởng) của tín hiệu vào lên nơron nhân tạo.
Những sức mạnh này có thể được điều chỉnh theo những tập đào tạo đa dạng khác
nhau và theo một kiến trúc mạng cụ thể hay là qua các luật học của nó.
Thành phần 2. Hàm tổng: Bước đầu tiên trong hoạt động của một thành phần
xử lý là tính toán tổng có trọng số của tất cả các đầu vào. Về mặt toán học, những
đầu vào và các trọng số tương ứng là những vector có thể được biểu diễn:
I = (i
1
,i
2
, , i
n
) và W = (w
1
, w
2
, …, w
n
). Tín hiệu vào tổng là tích vô hướng của
mỗi thành phần trong vector I với thành phần tương ứng trong vector W và cộng lại
tất cả các tích. Input
1
= i
1
.w
1
, input
2
= i
2
.w
2
… Cuối cùng được cộng lại:
input
1
+input
2
+…+input
n
. Kết quả là một số duy nhất, không phải là một vector.
Hàm tổng có thể phức tạp hơn nhiều so với mô tả ở trên. Đầu vào và các hệ số
trọng số có thể được kết hợp theo nhiều cách khác nhau trước khi được đưa vào
hàm chuyển đổi. Bên cạnh việc tính tổng các tích đơn giản, hàm tổng có thể chọn
max, min, tích … nhờ một số thuật toán chuẩn tắc. Thuật toán cụ thể để kết hợp các
đầu vào của neural được xác định bởi việc chọn kiến trúc và mô hình mạng.
Thành phần 3. Hàm chuyển đổi: Kết quả của hàm tổng, hầu như luôn là tổng
có trọng số, được chuyển đổi thành một đầu ra có ý nghĩa nhờ một quá trình xử lý
có thuật toán gọi là hàm chuyển đổi. Trong hàm chuyển đổi tổng có thể được so
sánh với một ngưỡng nào đó để quyết định đầu ra của mạng. Nếu như tổng lớn hơn
giá trị ngưỡng thì thành phần xử lý đưa ra đầu ra một tín hiệu. Nếu như tổng của
đầu vào và các tích có trọng số nhỏ hơn ngưỡng thì không có tín hiệu ở đầu ra. Cả
hai kiểu phản ứng đều quan trọng.
Giá trị ngưỡng, còn gọi hàm chuyển đổi, thường là phi tuyến. Các hàm tuyến
tính bị giới hạn vì đầu ra chỉ đơn giản là tỷ lệ của đầu vào.
Hàm chuyển đổi có thể chỉ đơn giản là cho biết hàm tổng là dương hay âm.
Mạng có thể cho ra đầu ra 0 và 1, 1 và -1, hay con số kết hợp nào đó.
Thành phần 4. Hàm ra: Mỗi thành phần xử lý cho phép một tín hiệu đầu ra
mà đầu ra này có thể đi tới hàng trăm neural khác. Điều này giống với neural sinh
học trong đó có rất nhiều đầu vào và chỉ có một hành động ra. Thường thì đầu ra
tương đương với kết quả của hàm chuyển đổi. Tuy nhiên, một số kiến trúc mạng
chỉnh sửa kết quả của hàm chuyển đổi để kết hợp với những thành phần xử lý lân
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 5
cận. Các neural cho phép cạnh tranh với những neural khác, khi này chúng hạn chế
các thành phần xử lý khác trừ các thành phần xử lý có sức mạnh rất lớn. Sự cạnh
tranh có thể xảy ra ở một hay là cả hai mức. Đầu tiên sự cạnh tranh quyết định xem
neural nhân tạo nào sẽ là tích cực hay là cung cấp một đầu ra. Tiếp theo các đầu ra
cạnh tranh giúp xác định thành phần xử lý nào sẽ tham gia và quá trình học hay là
quá trình thích nghi.
Thành phần 5. Giá trị truyền ngƣợc và hàm lỗi: Trong hầu hết các mạng
học sự khác biệt giữa đầu ra hiện tại và đầu ra mong muốn được tính toán, sự khác
biệt có thể được gọi là lỗi thô. Sau khi được tính toán, lỗi thô được chuyển đổi bởi
hàm lỗi để làm cho phù hợp với một kiến trúc mạng cụ thể nào đó. Các kiến trúc
mạng cơ sở nhất sử dụng lỗi này một cách trực tiếp nhưng một số khác bình phương
lỗi đó trong khi vẫn giữ lại dấu của nó, một số tính bậc ba của lỗi, một số khác lại
hiệu chỉnh lỗi thô đó để đạt được mục đích cụ thể nào đó. Lỗi của neural nhân tạo
thường được truyền vào hàm học của một thành phần xử lý khác. Số hạng lỗi này
đôi khi còn được gọi là lỗi hiện thời.
Lỗi hiện thời thường được truyền ngược về một tầng trước đó. Nhưng giá trị
này có thể là lỗi hiện thời hay là lỗi hiện thời đã được điều chỉnh theo một cách nào
đó (thường sử dụng đạo hàm của hàm chuyển đổi), hay là một đầu ra mong muốn
nào đó, điều này phụ thuộc vào kiểu mạng neural được sử dụng. Thường thì giá trị
truyền ngược này sau khi được điều chỉnh bởi hàm học được nhân với mỗi trọng số
kết nối vào để thay đổi chúng trước khi bước vào chu kỳ học mới.
Thành phần 6. Hàm học: Mục đích của hàm học là để thay đổi giá trị của
biến trọng số kết nối ở các đầu vào của mỗi thành phần xử lý theo một thuật toán
nào đó. Quá trình thay đổi các trọng số của các kết nối đầu vào nhằm thu được một
số kết quả mong muốn cũng có thể được gọi là hàm thích nghi, hay còn gọi là chế
độ học. Có hai kiểu học chính là học có giám sát và học không có giám sát. Học có
giám sát đòi hỏi có một “giáo viên”. Người “giáo viên” này có thể là một tập dữ liệu
đào tạo hay là một “người quan sát”. “Người quan sát” đánh giá kết quả hoạt động
của mạng. Trong khi không có “giáo viên” bên ngoài nào, hệ thống sẽ phải tự sắp
xếp nhờ một tiêu chuẩn được thiết kế sẵn trong mạng.
2. Đơn vị xử lý
Một đơn vị xử lý (hình 1.2), cũng được gọi là một neural hay một nút (node),
thực hiện một công việc rất đơn giản: nó nhận tín hiệu vào từ các đơn vị phía trước
hay một nguồn bên ngoài và sử dụng chúng để tính tín hiệu ra sẽ được lan truyền
sang các đơn vị khác.
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 6
Hình 1.2: Đơn vị xử lý (Processing unit)
Trong đó:
x
j
: các đầu vào
w
ji
: các trọng số tương ứng với các đầu vào
θ
j
: độ lệch (bias)
a
j
: đầu vào mạng (net-input)
z
j
: đầu ra của neural
g(x): hàm chuyển (hàm kích hoạt)
Trong một mạng neural có ba kiểu đơn vị:
1) Các đơn vị đầu vào (input units), nhận tín hiệu từ bên ngoài;
2) Các đơn vị đầu ra (output units), gửi dữ liệu ra bên ngoài;
3) Các đơn vị ẩn (hidden units), tín hiệu vào (input) và ra (output) của nó nằm
trong mạng.
Mỗi đơn vị j có thể có một hoặc nhiều đầu vào: x
0
, x
1
, x
2
, … x
n
nhưng chỉ có
một đầu ra z
j
.
Một đầu vào tới một đơn vị có thể là dữ liệu từ bên ngoài mạng, hoặc đầu ra
của một đơn vị khác, hoặc là đầu ra của chính nó.
3. Hàm xử lý
3.1. Hàm kết hợp
Mỗi một đơn vị trong một mạng kết hợp các giá trị đưa vào nó thông qua các
liên kết với các đơn vị khác, sinh ra một giá trị gọi là net input. Hàm thực hiện
nhiệm vụ này gọi là hàm kết hợp, được định nghĩa bởi một luật lan truyền cụ thể.
Trong phần lớn các mạng neural, giả sử mỗi một đơn vị cung cấp một bộ cộng như
là đầu vào cho đơn vị mà nó có liên kết. Tổng đầu vào đơn vị j đơn giản chỉ là
tổng trọng số của các đầu ra riêng lẻ từ các đơn vị kết nối cộng thêm ngưỡng hay
độ lệch (bias)
j
:
n
a
j
w
ji
x
i
j
i
1
Trường hợp
w
ji
> 0, neural được coi là đang ở trong trạng thái kích thích.
Tương tự, nếu như
w
ji
< 0, neural ở trạng thái kiềm chế. Chúng ta gọi các đơn vị
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 7
với luật lan truyền như trên là các sigma units. Trong một vài trường hợp người ta
cũng có thể sử dụng các luật lan truyền phức tạp hơn. Một trong số đó là luật
sigma-pi, có dạng như sau:
Rất nhiều hàm kết hợp sử dụng một "độ lệch" hay "ngưỡng" để tính net input
tới đơn vị. Đối với một đơn vị đầu ra tuyến tính, thông thường,
j
được chọn là
hằng số và trong bài toán xấp xỉ đa thức
j
= 1.
3.2. Hàm kích hoạt (hàm chuyển)
Phần lớn các đơn vị trong mạng neural chuyển net input bằng cách sử dụng
một hàm vô hướng (scalar-to-scalar function) gọi là hàm kích hoạt, kết quả của
hàm này là một giá trị gọi là mức độ kích hoạt của đơn vị (unit's activation). Các
hàm kích hoạt thường bị ép vào một khoảng giá trị xác định, do đó thường được
gọi là các hàm bẹp (squashing). Các hàm kích hoạt hay được sử dụng là:
1) Hàm đồng nhất (Linear function, Identity function): g(x) = x.
Nếu coi các đầu vào là một đơn vị thì chúng sẽ sử dụng hàm này. Đôi khi một
hằng số được nhân với net input để tạo ra một hàm đồng nhất.
Hình 1.3.1 Hàm đồng nhất (Identity function)
2) Hàm bước nhị phân (Binary step function, Hard limit function)
Hàm này cũng được biết đến với tên "hàm ngưỡng" (Threshold function hay
Heaviside function). Đầu ra của hàm này được giới hạn vào một trong hai giá trị:
Dạng hàm này được sử dụng trong các mạng chỉ có một lớp. Trong hình vẽ
sau,
được chọn bằng 1.
Hình 1.3.2 Hàm bước nhị phân (Binary step function)
3) Hàm sigmoid (Sigmoid function (logsig))
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 8
Hàm này đặc biệt thuận lợi khi sử dụng cho các mạng được huấn luyện bởi
thuật toán Lan truyền ngược (back-propagation) do dễ lấy đạo hàm, nên có thể
giảm đáng kể tính toán trong quá trình huấn luyện. Hàm này được ứng dụng cho
các chương trình ứng dụng mà các đầu ra mong muốn rơi vào khoảng [0,1].
Hình 1.3.3 Hàm Sigmoid
4) Hàm sigmoid lưỡng cực (Bipolar sigmoid function (tansig))
Hàm này có các thuộc tính tương tự hàm sigmoid. Nó làm việc tốt đối với các
ứng dụng có đầu ra yêu cầu trong khoảng [-1,1].
Hình 1.3.4 Hàm sigmoid lưỡng cực
Các hàm chuyển của các đơn vị ẩn (hidden units) là cần thiết để biểu diễn sự
phi tuyến vào trong mạng. Lý do là hợp thành của các hàm đồng nhất là một hàm
đồng nhất. Mặc dù vậy nhưng nó mang tính chất phi tuyến (nghĩa là, khả năng biểu
diễn các hàm phi tuyến) làm cho các mạng nhiều tầng có khả năng rất tốt trong biểu
diễn các ánh xạ phi tuyến. Tuy nhiên, đối với luật học lan truyền ngược, hàm phải
khả vi (differentiable) và sẽ có ích nếu như hàm được gắn trong một khoảng nào
đó. Do vậy, hàm sigmoid là lựa chọn thông dụng nhất.
Đối với các đơn vị đầu ra (output units), các hàm chuyển cần được chọn sao
cho phù hợp với sự phân phối của các giá trị đích mong muốn. Chúng ta đã thấy
rằng đối với các giá trị ra trong khoảng [0,1], hàm sigmoid là có ích; đối với các
giá trị đích mong muốn là liên tục trong khoảng đó thì hàm này cũng vẫn có ích,
nó có thể cho ta các giá trị ra hay giá trị đích được căn trong một khoảng của hàm
kích hoạt đầu ra. Nhưng nếu các giá trị đích không được biết trước khoảng xác
định thì hàm hay được sử dụng nhất là hàm đồng nhất. Nếu giá trị mong muốn là
dương nhưng không biết cận trên thì nên sử dụng một hàm kích hoạt dạng mũ.
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 9
4. Các kiến trúc mạng
4.1. Mạng một tầng
Mạng một tầng với S neural được minh họa trong hình 1.4. Chú ý rằng với
mỗi một đầu vào trọng số R đầu vào sẽ được nối với từng neural và ma trận trọng số
bây giờ sẽ có S hàng.
Hình 1.4. Cấu trúc mạng neural một tầng
Một tầng bao gồm ma trận trọng số, các bộ cộng, vector ngưỡng b, hàm
chuyển và vector đầu ra a.
Mỗi phần tử của vector đầu vào p được nối với từng neural thông qua ma trận
trọng số W. Mỗi neural có một ngưỡng b
i
, một bộ cộng, một hàm chuyển f và một
đầu ra a
i
. Cùng với nhau, các đầu ra tạo thành một vector đầu ra a.
Thông thường thì số lượng đầu vào của tầng khác với số lượng neural (R#S).
Tất cả các neural trong cùng một tầng không có hàm chuyển giống nhau. Có
thể định nghĩa các neural trong một tầng có hàm chuyển khác nhau bằng cách kết
hợp song song hai mạng neural giống ở trên. Cả hai sẽ có đầu vào giống nhau và
mỗi mạng sản xuất ra vài đầu ra.
Ma trận trọng số cho các phần tử trong vector đầu vào W:
W =
RSSS
R
R
www
www
www
,2,1,
,22,21,2
,12,11,1
Các chỉ số hàng của các phần tử trong ma trận W chỉ ra neural đích đã kết hợp
với trọng số, trong khi chỉ số cột cho biết đầu vào cho trọng số đó. Ví dụ, các chỉ số
trong w
32
nói rằng đây là trọng số của đầu vào thứ 2 nối với neural thứ 3.
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 10
Trong hình trên, những kí hiệu ở dưới các biến cho biết các thông số về tầng
này, p là một vector có độ dài R, W là ma trận SxR, a và b là những vector có độ
dài S. Như đã định nghĩa trước, một tầng bao gồm ma trận trọng số, bộ cộng và các
phép toán nhân, vector ngưỡng b, hàm chuyển và vector đầu ra.
4.2. Mạng đa tầng
Mỗi tầng có ma trận trọng số W của riêng nó, vector b, vector đầu vào n và
một vector đầu ra. Khi đó cần phải khai báo thêm vài ký hiệu để phân biệt giữa các
tầng này. Ta sẽ sử dụng cách viết lên trên đầu để nhận biết ký hiệu đó thuộc tầng
nào. Chính xác là chúng ta gắn thêm chỉ số của tầng trên đầu mỗi biến. Như vậy, ma
trận trọng số của tầng thứ 2 được viết W
2
. Cách ký hiệu này được dùng trong mạng
neural 3 tầng như hình 1.6.
Hình 1.6. Cấu trúc mạng neural 3 lớp
Như đã thấy, có R đầu vào, S
1
neural ở tầng thứ nhất, S
2
neural ở tầng thứ hai,
S
3
neural ở tầng thứ ba… Như đã chú ý, những tầng khác nhau có thể có số lượng
neural khác nhau.
W
b
f
+
1R
1
RS
1S
n
a
1S
S
R
Input Layer of S Neurons
a = f(Wp+b)
Hình 1.5. Mạng mộ t tầ ng vẽ rú t gọ n
1S
p
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 11
Đầu ra của các tầng 1 và 2 là đầu vào của tầng 2 và tầng 3. Vì vậy tầng 2 có
thể được xem như mạng neural một tầng với đầu vào R= S
1
, nơron S= S
2
và ma trận
trọng số W = S
1
xS
2
. Đầu vào của tầng 2 là a
1
, và đầu ra là a
2
.
Đầu ra của một tầng chính là đầu ra của mạng thì ta gọi đó là tầng ra. Các tầng
còn lại gọi là tầng ẩn. Mạng neural như ở trên có một tầng ra (tầng 3) và hai tầng ẩn
(tầng 1 và tầng 2).
Một mạng có ba tầng giống nhau như trên có thể được vẽ gọn lại như sau:
Hình 1.7 Mạng neural 3 tầng, vẽ rút gọn
Mạng đa tầng có ứng dụng mạnh hơn mạng một tầng. Ví dụ, một mạng hai
tầng có tầng thứ nhất là tầng zichma và tầng thứ hai là tầng tuyến tính có thể được
huấn luyện để xấp xỉ mọi hàm toán học tùy ý khá chuẩn. Mạng một tầng không làm
được điều này.
Nếu có bốn yếu tố bên ngoài được dùng như các kích thích đầu vào, thì mạng
sẽ có bốn đầu vào. Tương tự như vậy nếu mạng có bảy đầu ra thì phải có bảy neural
ở tầng ra. Cuối cùng, các đặc điểm mong muốn có được ở tín hiệu đầu ra cũng giúp
ta chọn lựa hàm chuyển hợp lý hơn cho tầng ra. Giả sử một đầu ra là một trong hai
giá trị -1 hoặc 1, thì khi đó hàm chuyển giới hạn ngặt đối xứng sẽ được lựa chọn.
Như vậy, kiến trúc mạng một tầng hầu như được xác định hoàn toàn bởi các yếu tố
kỹ thuật, bao gồm số đầu vào, đầu ra và các thuộc tính của tín hiệu ra.
Khi mạng có nhiều hơn hai tầng. Các yếu tố bên ngoài không cho biết số
lượng các neural yêu cầu bao nhiêu ở các tầng ẩn. Thực tế, có một vài vấn đề cho
việc dự đoán số lượng neural tối ưu ở tầng ẩn. Vấn đề này là một lĩnh vực còn nhiều
nghiên cứu.
Về số lượng tầng trong mạng thì hầu hết những mạng neural thực tế chỉ có hai
hay ba tầng. Bốn tầng hoặc nhiều hơn rất ít khi được sử dụng.
Một mạng có thể chọn lựa việc các neural có hay không có các giá trị ngưỡng.
Giá trị ngưỡng là một biến phụ cho mạng. Lưu ý, có một neural không có giá trị
ngưỡng khi đó đầu vào của hàm chuyển sẽ luôn là 0 khi đầu vào của mạng p là 0.
Đây là điều không mong muốn và chúng ta có thể loại bỏ vấn đề này bằng
việc sử dụng giá trị ngưỡng. Giá trị ngưỡng có thể bỏ đi, trong một số trường hợp
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 12
điều này được làm đơn giản là để giảm số lượng tham số của mạng. Chỉ với hai
biến, chúng ta có thể vẽ được đồ thị cho hệ mặt phẳng hai chiều. Ba hay nhiều biến
hơn sẽ khó hiển thị.
5. Các hình trạng mạng
Hình trạng của mạng được định nghĩa bởi: số lớp, số đơn vị trên mỗi lớp và sự
liên kết giữa các lớp như thế nào. Các mạng về tổng thể được chia thành hai loại
dựa trên cách thức liên kết các đơn vị.
5.1. Mạng truyền thẳng
- Mạng truyền thẳng một lớp: Là mô hình liên kết cơ bản và đơn giản nhất.
Các neural tổ chức lại với nhau tạo thành một lớp, tín hiệu được truyền theo một
hướng nhất định nào đó. Các đầu vào được nối với các neural theo trọng số khác
nhau, sau quá trình xử lý cho ra một chuỗi các tín hiệu ra. Nếu mạng là mô hình
LTU thì nó được gọi là mạng Perception, còn mạng neural theo mô hình LGU thì
được gọi là Adaline.
x
1
y
1
x
2
y
2
x
m
y
n
Hình 1.8. Mô hình mạng truyền thẳng một lớp
Với mỗi giá trị đầu vào x =[x
1
, x
2
, , x
m
]
T
qua quá trình xử lý của mạng sẽ thu
được một bộ đầu ra tương ứng y =[y
1
, y
2
, , y
n
]
T
.
- Mạng truyền thẳng nhiều lớp: Với cấu trúc đơn giản như trên, khi giải
quyết các bài toán phức tạp mạng truyền thẳng một lớp sẽ gặp rất nhiều khó khăn.
Để khắc phục nhược điểm này, người ta đưa ra mạng truyền thẳng nhiều lớp. Đây là
mạng truyền thẳng gồm nhiều lớp kết hợp với nhau. Lớp nhận tín hiệu gọi là lớp
đầu vào (input layer), lớp đưa các tín hiệu ra gọi là lớp đầu ra (output layer), các
lớp ở giữa lớp vào và lớp ra gọi là lớp ẩn (hidden layers). Cấu trúc của mạng neural
truyền thẳng nhiều lớp được mô tả như sau:
Hình 1.9. Mạng neural truyền thẳng nhiều lớp
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 13
5.2. Mạng hồi quy
Bên cạnh mạng truyền thẳng còn có những dạng mạng khác như các mạng hồi
quy. Các mạng hồi quy thường có các liên kết ngược từ các lớp phía sau đến các lớp
phía trước hay giữa các neural trong bản thân một lớp.
Mạng hồi quy một lớp có nối ngược.
Hình 1.10. Mạng hồi quy một lớp có nối ngược
Mạng hồi quy nhiều lớp có nối ngược.
Hình 1.11. Mạng hồi quy nhiều lớp có nối ngược
6. Tiếp cận neural cho tính toán
6.1. Luật học
Các luật học đóng vai trò quan trọng trong việc xác định một mạng neural
nhân tạo. Một cách đơn giản về khái niệm học của mạng neural là cập nhật các
trọng số trên cơ sở các mẫu.
Chức năng của một mạng neural được quyết định bởi các nhân tố như: hình
trạng mạng (số lớp, số đơn vị trên mỗi tầng và cách mà các lớp được liên kết với
nhau) và các trọng số của các liên kết bên trong mạng. Hình trạng của mạng thường
là cố định và các trọng số được quyết định bởi một thuật toán huấn luyện (training
algorithm). Tiến trình điều chỉnh các trọng số để mạng “nhận biết” được quan hệ
giữa đầu vào và đích mong muốn được gọi là học (learning) hay huấn luyện
(training). Rất nhiều thuật toán học đã được phát minh để tìm ra tập trọng số tối ưu
làm giải pháp cho các bài toán. Các thuật toán đó có thể chia làm hai nhóm chính:
Học có giám sát (supervised learning) và Học không có giám sát (unsupervised
learning).
a. Học có giám sát
Đây là phương pháp phổ biến nhất để đào tạo một mạng neural nhân tạo
nhằm tìm ra lời giải phù hợp cho bài toán. Theo cơ chế này, đầu ra thực sự của
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 14
mạng được so sánh với đầu ra mong muốn. Các trọng số thường được gán ngẫu
nhiên trước khi bắt đầu đào tạo sau đó được hiệu chỉnh bởi mạng đó để trong lần lặp
tiếp theo hay chu kỳ tiếp theo, sẽ tạo ra một kết quả gần với kết quả mong muốn
hơn. Các phương pháp học nhìn chung đều cố gắng giảm thiểu các lỗi hiện thời của
các thành phần xử lý, để từ đó giảm lỗi toàn cục cho mạng. Việc giảm lỗi toàn cục
này diễn ra liên tục nhằm thay đổi các trọng số vào cho tới khi đạt được độ chính
xác chấp nhận được.
Với học có giám sát, mạng neural nhân tạo phải được đào tạo trước khi có thể
sử dụng. Việc đào tạo bao gồm đưa dữ liệu đầu vào và đầu ra vào mạng. Dữ liệu
này thường được gọi là tập đào tạo. Có nghĩa là với mỗi tập đào vào được cung cấp
cho hệ thống có một tập đầu ra mong muốn tương ứng. Trong hầu hết các ứng dụng,
dữ liệu thực sự thu thập từ thế giới thực được sử dụng. Giai đoạn đào tạo này
thường mất khá nhiều thời gian.
Trong các hệ thống bản mẫu, với sức mạnh xử lý không đáp ứng yêu cầu, việc
học có thể diễn ra trong nhiều tuần. Việc đào tạo được coi là hoàn thành khi mà
mạng neural đạt đến mức độ chính xác do người sử dụng đề ra. Mức độ này có ý
nghĩa là mạng đã đạt được độ chính xác thống kê mong muốn, nó sinh ra kết quả
đầu ra do người sử dụng đặt ra với một tập đầu vào cho trước. Khi không cần học
thêm nữa, các trọng số thường được duy trì cố định cho ứng dụng đó. Một số kiểu
mạng cho phép tiếp tục học sau khi đã được đưa vào hoạt động, nhưng ở tốc độ thấp
hơn nhiều. Điều này giúp cho mạng thích nghi dần dần với những điều kiện thay đổi
trong thế giới thực sau khi đã được đưa vào sử dụng.
Tập đào tạo thường phải khá lớn để đạt được tất cả các thông tin cần thiết, để
mạng có thể học được các đặc tính và những mối quan hệ quan trọng từ tập đó.
Không chỉ tập đào tạo phải lớn mà các phiên đào tạo phải thực hiện với những dữ
liệu đa dạng khác nhau. Nếu như mạng được đào tạo chỉ một ví dụ một lần thì có
thể tất cả các trọng số được điều chỉnh cố định một cách tỉ mỉ tương ứng với một
nhân tố điển hình trong ví dụ đó, nhưng nhân tố này có thể bị thay đổi rất nhiều
trong lần học tiếp theo (khi mạng học về một nhân tố khác, sử dụng một ví dụ
khác). Các nhân tố trước có thể bị quên đi khi mà học về một nhân tố mới. Do vậy
mà hệ thống phải học mọi thứ cùng lúc, tìm ra sự sắp đặt trọng số tốt nhất với tất cả
các nhân tố của dữ liệu. Ví dụ để dạy hệ thống nhận dạng các mẫu pixel của 10 số,
nếu như có 20 ví dụ cho mỗi số, toàn bộ các ví dụ về số 7 nên được đưa vào mạng ở
cùng thời điểm.
Dữ liệu được đưa vào mạng như thế nào (hay được mã hóa như thế nào) là
một yếu tố rất quan trọng để giúp cho mạng làm việc thành công. Mạng neural nhân
tạo chỉ giải quyết được dữ liệu vào dạng số. Vậy nên, dữ liệu thô từ môi trường bên
ngoài phải được chuyển đổi. Cần phải phân phạm vi cho dữ liệu hay là chuẩn hóa
nó cho phù hợp với kiểu mạng. Quá trình tiền xử lý này đã khá phổ biến với máy
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 15
tính truyền thống như thông qua camera, cảm biến (sensors), hay là máy đọc
(readable machines)…
Sau khi đã đào tạo có giám sát xong cần phải kiểm tra xem mạng có thể làm gì
với dữ liệu mà nó chưa hề gặp trước đó. Nếu như hệ thống cho một đầu ra không đủ
tốt với tập dữ liệu kiểm tra, thì quá trình đào tạo chưa thể kết thúc được. Thực sự
việc kiểm tra này là rất quan trọng nhằm đảm bảo là mạng không chỉ đơn giản nhớ
một tập dữ liệu cho trước mà đã học được những mẫu chung, phát hiện các đặc tính
xuất hiện bên trong ứng dụng.
b. Học không có giám sát
Với cách học không có giám sát, không có phản hồi từ môi trường để chỉ ra
rằng đầu ra của mạng là đúng. Mạng sẽ phải khám phá các đặc trưng, các điều
chỉnh, các mối tương quan hay các lớp trong dữ liệu vào một cách tự động. Trong
thực tế, đối với phần lớn các biến thể của học không có giám sát, các đích trùng với
đầu vào. Nói một cách khác, học không có giám sát luôn thực hiện một công việc
tương tự như một mạng tự liên hợp, cô đọng thông tin từ dữ liệu vào.
Học không có giám sát là một hứa hẹn lớn trong tương lai. Máy tính nên tự
học như một robot thực sự. Hiện nay phương pháp này vẫn còn nhiều hạn chế với
cấu trúc mạng neural đã biết đến gọi là các ánh xạ tự sắp xếp. Loại mạng neural này
vẫn chưa được sử dụng rộng rãi. Tuy nhiên người ta đã chứng minh được rằng
chúng cung cấp một giải pháp cho một số dạng bài toán nhất định.
6.2. Tốc độ học
Tốc độ học của một mạng neural nhân tạo phụ thuộc vào một số nhân tố có thể
điều khiển. Việc lựa chọn cách tiếp cận vấn đề có rất nhiều yếu tố cần phải xem xét.
Rõ ràng tốc độ học thấp hơn đồng nghĩa với việc phải tiêu tốn nhiều thời gian đào
tạo mạng hơn để thu được một mạng được đào tạo đủ tốt. Tuy nhiên với tốc độ học
nhanh thì mạng có thể không đủ khả năng tạo ra kết quả tốt như là một mạng học
chậm. Chúng ta vẫn đang nghiên cứu để dung hòa hai vấn đề này.
Cần phải xem xét một số nhân tố bên cạnh nhân tố thời gian trong khi đề cập
đến nhiệm vụ đào tạo, điều này rất phức tạp. Tất cả các yếu tố như: độ phức tạp,
kích cỡ, việc chọn mô hình, kiến trúc, kiểu luật học, các luật được sử dụng và độ
chính xác mong muốn của mạng cần phải được xem xét. Những nhân tố này đóng
vai trò hết sức quan trọng trong việc mất bao lâu để đào tạo mạng. Việc thay đổi
một trong những nhân tố này có thể kéo dài thời gian đào tạo tới một độ đài quá lớn
hay thậm chí thu được kết quả có độ chính xác không thể chấp nhận được.
Hầu hết các hàm học đều có tốc độ học hay gọi là hằng học. Thường thì số
hạng này là dương và nằm trong khoảng (0, 1). Nếu như tốc độ lớn hơn 1 thì thuật
toán học điều chỉnh các trọng số của mạng quá dễ dàng và khi đó mạng làm việc
không ổn định. Các giá trị tốc độ học nhỏ sẽ không điều chỉnh lỗi hiện thời nhanh,
nhưng nếu chỉ cần thực hiện một số bước nhỏ để điều chỉnh lỗi thì không khó khăn
lắm để đạt được độ hội tụ tốt nhất.
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 16
6.3. Các luật học
Có rất nhiều luật học khác nhau được sử dụng. Hầu hết những luật này là dạng
biến đổi của luật học cổ điển nổi tiếng Hebb.
Luật học Hebb: Luật học đầu tiên và cũng là luật học được biết đến nhiều
nhất là luật học được giới thiệu bởi Donald Hebb. Ý tưởng chính là nếu như một
neural nhận một đầu vào từ một neural khác và nếu như cả hai đều hoạt động ở mức
độ tích cực cao (về toán học có nghĩa là có cùng dấu) thì trọng số giữa hai neural
nên được làm mạnh lên.
Luật học Hopfield: Giống như luật Hebb với điều khác biệt là chỉ rõ độ lớn
của việc làm mạnh hay làm yếu. Được phát biểu như sau: “Nếu như đầu ra mong
muốn và đầu vào đều tích cực (active) hay là đều không tích cực (inactive) thì tăng
trọng số kết nối một lượng bằng tốc độ học, ngược lại giảm trọng số đó một lượng
bằng tốc độ học.”
Luật học Delta: Luật này biến đổi luật học Hebb nhiều hơn nữa. Là một trong
những luật được sử dụng nhiều nhất. Luật này được dựa trên ý tưởng đơn giản là
tiếp tục hiệu chỉnh sức mạnh của các kết nối vào để giảm sự khác biệt (giá trị delta)
giữa giá trị đầu ra mong muốn và đầu ra thực sự của thành phần xử lý. Luật này
thay đổi trọng số sao cho nó giảm thiểu lỗi bình phương trung bình của mạng. Luật
này cũng còn được gọi là luật học Widrow-Hoff hay là luật học bình phương trung
bình tối thiểu.
Cách mà luật Delta hoạt động là lỗi delta trong tầng ra được biến đổi bởi đạo
hàm của hàm chuyển đổi và sau đó được sử dụng trong tầng neural trước đó để điều
chỉnh các trọng số kết nối. Nói cách khác lỗi này được truyền ngược về trước nó
một tầng. Quá trình truyền ngược lỗi của mạng tiếp tục cho tới khi tới truyền tới
tầng đầu tiên. Khi sử dụng luật Delta cần phải đảm bảo rằng tập dữ liệu vào được
chọn với tính ngẫu nhiên cao. Nếu như tập đào tạo được biểu diễn (đưa vào mạng)
có thứ tự hay cấu trúc rõ ràng thì có thể dẫn tới một mạng neural không thể hội tụ
tới độ chính xác mong muốn. Nếu như điều này xảy ra thì mạng không còn khả
năng học nữa.
Luật học giảm gradient: Luật này giống với luật Delta là đạo hàm của hàm
chuyển đổi vẫn được dùng để hiệu chỉnh giá trị lỗi delta trước khi nó được dùng để
tính toán các trọng số kết nối. Tuy nhiên luật này sử dụng thêm một hằng tỷ lệ, hằng
này được kết hợp với tốc độ học, sau đó được thêm vào nhân tố hiệu chỉnh cuối
cùng ảnh hưởng tới trọng số. Luật này cũng được dùng phổ biến, mặc dù tốc độ hội
tụ của nó về một điểm ổn định là khá chậm.
Khi sử dụng những tốc độ học khác nhau cho những tầng khác nhau của mạng
giúp cho quá trình học của mạng hội tụ nhanh hơn. Trong thực tế các tốc độ học cho
những tầng gần đầu vào là chậm hơn so với tốc độ học của những tầng gần đầu ra.
Điều này là rất quan trọng với những ứng dụng mà dữ liệu vào thu được từ những
mô hình không được mô hình hóa tốt.
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 17
Luật học Kohonen: Thủ tục này được phát triển bởi Teuvo Kohonen, xuất
phát từ việc học của các hệ thống sinh học. Trong thủ tục này các thành phần xử lý
cạnh tranh để có cơ hội được học hay là cập nhật các trọng số của chúng. Thành
phần xử lý với đầu ra lớn nhất được gọi là “người chiến thắng” và khi đó có khả
năng cản trở các đối thủ của nó và kích hoạt các neural lân cận nó. Chỉ có “người
chiến thắng” được phép đưa ra đầu ra. Chỉ có nó và những neural lân cận được phép
điều chỉnh các trọng số kết nối của chúng.
Kích thước của khu vực lân cận chỉ có thể được thay đổi trong thời gian đào
tạo. Mô hình thường gặp là bắt đầu với một khu vực lân cận khá lớn và thu hẹp dần
trong quá trình đạo tạo mạng. Bởi vì thành phần chiến thắng được xác định là neural
có kết quả gần với mẫu vào nhất. Phương pháp này phù hợp với mô hình hóa dữ
liệu thống kê và thường được gọi là các ánh xạ tự sắp xếp hay kiến trúc tự sắp xếp.
7. Một số nhận xét về mạng neural
Mạng truyền thẳng và mạng hồi quy là hai mô hình tiêu biểu của mạng neural
nhân tạo, mỗi loại mạng có những ưu nhược điểm riêng. Nắm vững những ưu
nhược điểm của chúng sẽ giúp ta lựa chọn mô hình mạng thích hợp cho từng ứng
dụng sẽ thiết kế. Có một số nhận xét về ưu nhược điểm của từng mô hình mạng
như sau:
- Mạng truyền thẳng một lớp dễ phân tích nhưng không mô tả được mọi hàm.
Mạng nhiều lớp khắc phục được nhược điểm trên nhưng lại rất khó phân tích và gặp
khó khăn trong quá trình xây dựng mạng. Mặt khác, mạng truyền thẳng nhiều lớp
có thể gây sai số tích lũy qua các lớp.
- Mạng phản hồi một lớp (tiêu biểu là mạng Hopfield) có cấu trúc đơn giản vì
thế dễ phân tích, không chứa sai số tích lũy.
- Mạng neural truyền thẳng chỉ đơn thuần tính toán các tín hiệu ra dựa trên các
tín hiệu vào và trọng số liên kết giữa các neural đã xác định sẵn ở trong mạng. Do
đó chúng không có trạng thái bên trong nào khác ngoài trọng số W. Đối với mạng
hồi quy, trạng thái bên trong của mạng được lưu trữ tại các ngưỡng của neural. Nói
chung các mạng hồi quy không ổn định, mạng cần phải tính toán rất lâu, thậm chí
có thể lặp vô hạn trước khi đưa ra kết quả mong muốn. Quá trình học của mạng hồi
quy cũng phức tạp hơn mạng truyền thẳng rất nhiều. Tuy vậy các mạng hồi quy có
thể cho phép mô phỏng các hệ thống tương đối phức tạp trong thực tế.
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 18
CHƢƠNG 2
MẠNG TRUYỀN THẲNG NHIỀU LỚP
1. Khái niệm
Một mạng truyền thẳng nhiều lớp bao gồm một lớp vào, một lớp ra và một
hoặc nhiều lớp ẩn. Các neural đầu vào thực chất không phải các neural theo đúng
nghĩa bởi vì chúng không thực hiện bất kỳ một tính toán nào trên dữ liệu vào, đơn
giản nó chỉ tiếp nhận các dữ liệu vào và chuyển cho các lớp kế tiếp. Các neural ở
lớp ẩn và lớp ra mới thực sự thực hiện các tính toán, kết quả được định dạng bởi
hàm đầu ra (hàm chuyển). Cụm từ “truyền thẳng” (feed forward) thực tế là tất cả
các neural chỉ có thể được kết nối với nhau theo một hướng: tới một hay nhiều các
neural khác trong lớp kế tiếp (loại trừ các neural ở lớp ra). Hình sau ở dạng tóm tắt
biểu diễn mạng neural truyền thẳng nhiều lớp.
Hình 2.1: Mạng nơron truyền thẳng nhiều lớp
Trong đó:
P: Vector đầu vào (vector cột).
W
i
: Ma trận trọng số của các nơron lớp thứ i.
(S
i
xR
i
: S hàng (neural) - R cột (số đầu vào))
b
i
: Vector độ lệch (bias) của lớp thứ i (S
i
x1: cho S neural)
n
i
: net input (S
i
x1)
f
i
: Hàm chuyển (hàm kích hoạt)
a
i
: net output (S
i
x1)
: Hàm tổng thông thường.
Mỗi liên kết gắn với một trọng số, trọng số này được thêm vào trong quá trình
tín hiệu đi qua liên kết đó. Các trọng số có thể dương, thể hiện trạng thái kích thích
hay âm, thể hiện trạng thái kiềm chế. Mỗi neural tính toán mức kích hoạt của chúng
bằng cách cộng tổng các đầu vào và đưa ra hàm chuyển. Một khi đầu ra của tất cả
các neural trong một lớp mạng cụ thể đã thực hiện xong tính toán thì lớp kế tiếp có
thể bắt đầu thực hiện tính toán của mình bởi vì đầu ra của lớp hiện tại tạo ra đầu vào
của lớp kế tiếp. Khi tất cả các neural đã thực hiện tính toán thì kết quả được trả lại
bởi các neural đầu ra. Tuy nhiên, có thể là chưa đúng yêu cầu, khi đó một thuật toán
huấn luyện cần được áp dụng để điều chỉnh các tham số của mạng.
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 19
Trong hình 2.1, số neural ở lớp thứ nhất và lớp thứ hai tương ứng là S
1
và S
2
.
Ma trận trọng số đối với các lớp tương ứng là W
1
và W
2
. Có thể thấy sự liên kết
giữa các lớp mạng thể hiện trong hình vẽ 2.1: ở lớp thứ 2, vector đầu vào chính là
net output của lớp thứ nhất. Tương tự như vậy, nếu thêm vào các lớp khác nữa vào
trong cấu trúc này thì lớp mạng cuối cùng thường là lớp cho ra kết quả của toàn bộ
mạng, lớp đó gọi là lớp ra (output layer).
Mạng có nhiều lớp có khả năng tốt hơn là các mạng chỉ có một lớp, chẳng hạn
như mạng hai lớp với lớp thứ nhất sử dụng hàm sigmoid và lớp thứ hai dùng hàm
đồng nhất có thể áp dụng để xấp xỉ các hàm toán học khá tốt, trong khi các mạng
chỉ có một lớp không có khả năng này.
2. Khả năng thể hiện
Các mạng truyền thẳng cho ta một kiến trúc tổng quát thể hiện khả năng ánh
xạ hàm phi tuyến tính giữa một tập các biến đầu vào và tập các đầu ra. Khả năng thể
hiện của một mạng có thể được định nghĩa là khoảng mà nó có thể thực hiện ánh xạ
khi các trọng số biến thiên.
- Các mạng một lớp chỉ có khả năng thể hiện các hàm khả phân tuyến tính hay
các miền phân chia được (như hàm logic AND có miền giá trị có thể phân chia
được bằng một đường thẳng trong khi miền giá trị của hàm XOR thì không).
- Các mạng có hai lớp ẩn có khả năng thể hiện một đường biên phân chia tùy ý
với một độ chính xác bất kỳ với các hàm chuyển phân ngưỡng và có thể xấp xỉ bất
kỳ ánh xạ nào với độ chính xác bất kỳ với các hàm chuyển có dạng sigmoid.
- Một mạng có một lớp ẩn có thể xấp xỉ tốt bất kỳ một ánh xạ liên tục nào từ
một không gian hữu hạn sang một không gian hữu hạn khác, chỉ cần cung cấp số
neural đủ lớn cho lớp ẩn. Chính xác hơn, các mạng truyền thẳng với một lớp ẩn
được luyện bởi các phương pháp bình phương tối thiểu (least-squares) là các bộ xấp
xỉ chính xác cho các hàm hồi quy nếu như các giả thiết về mẫu, độ nhiễu, số đơn vị
trong lớp ẩn và các nhân tố khác thỏa mãn. Các mạng neural truyền thẳng với một
lớp ẩn sử dụng các hàm chuyển hay hàm phân ngưỡng là các bộ xấp xỉ đa năng cho
bài toán phân lớp nhị phân với các giả thiết tương tự.
3. Thiết kế cấu trúc mạng
Về lý thuyết có thể tồn tại một mạng mô phỏng được một bài toán với độ
chính xác bất kỳ. Nhưng để tìm ra mạng này không phải là điều đơn giản. Để định
nghĩa chính xác một kiến trúc mạng như: cần sử dụng bao nhiêu lớp ẩn, mỗi lớp ẩn
cần có bao nhiêu đơn vị xử lý cho một bài toán cụ thể là một công việc hết sức khó
khăn. Dưới đây trình bày một số vấn đề cần quan tâm khi ta thiết kế một mạng.
3.1 Số lớp ẩn
Vì các mạng có hai lớp ẩn có thể thể hiện các hàm với dáng điệu bất kỳ, nên
về lý thuyết, không có lý do nào sử dụng các mạng có nhiều hơn hai lớp ẩn. Đối với
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 20
phần lớn các bài toán cụ thể, chỉ cần sử dụng một lớp ẩn cho mạng là đủ. Các bài
toán sử dụng hai lớp ẩn hiếm khi xảy ra trong thực tế. Đối với các bài toán cần sử
dụng nhiều hơn một lớp ẩn thì trong phần lớn các trường hợp trong thực tế, sử dụng
chỉ một lớp ẩn cho ta hiệu năng tốt hơn là sử dụng nhiều hơn một lớp. Việc huấn
luyện mạng thường rất chậm khi mà số lớp ẩn sử dụng càng nhiều. Lý do sau đây
giải thích cho việc sử dụng càng ít các lớp ẩn càng tốt là:
- Phần lớn các thuật toán huấn luyện cho các mạng neural truyền thẳng đều
dựa trên phương pháp gradient. Các lớp thêm vào sẽ thêm việc phải lan truyền các
lỗi làm cho vector gradient không ổn định. Sự thành công của bất kỳ một thuật toán
tối ưu theo gradient phụ thuộc vào độ không thay đổi của hướng khi mà các tham số
thay đổi.
- Số các cực trị địa phương tăng lên rất lớn khi có nhiều lớp ẩn. Phần lớn các
thuật toán tối ưu dựa trên gradient chỉ có thể tìm ra các cực trị địa phương, do vậy
chúng có thể không tìm ra cực trị toàn cục. Mặc dù thuật toán huấn luyện mạng có
thể tìm ra cực trị toàn cục, nhưng xác suất khá cao là chúng sẽ bị tắc trong một cực
trị địa phương sau rất nhiều thời gian lặp và khi đó, phải bắt đầu lại.
- Đối với một bài toán cụ thể, sử dụng nhiều hơn một lớp ẩn với chỉ một vài
đơn vị thì tốt hơn là sử dụng ít lớp ẩn với số đơn vị là lớn, đặc biệt đối với các mạng
cần phải học các hàm không liên tục. Nên xem xét khả năng sử dụng mạng chỉ có
một lớp ẩn. Nếu dùng một lớp ẩn với một số lượng lớn các đơn vị mà không có hiệu
quả thì nên sử dụng thêm một lớp ẩn nữa với một số ít các đơn vị.
3.2 Số đơn vị trong lớp ẩn
Một vấn đề quan trọng trong việc thiết kế một mạng là cần có bao nhiêu đơn
vị trong mỗi lớp. Sử dụng quá ít đơn vị có thể dẫn đến việc không thể nhận dạng
được các tín hiệu đầy đủ trong một tập dữ liệu phức tạp hay thiếu ăn khớp. Sử dụng
quá nhiều đơn vị sẽ tăng thời gian huấn luyện mạng, sẽ là quá nhiều khi mà không
thể huấn luyện mạng trong một khoảng thời gian hợp lý. Số lượng lớn các đơn vị có
thể dẫn đến tình trạng thừa ăn khớp, trong trường hợp này mạng có quá nhiều thông
tin, hoặc lượng thông tin trong tập dữ liệu mẫu (training set) không đủ các dữ liệu
đặc trưng để huấn luyện mạng.
Số lượng tốt nhất của các đơn vị ẩn phụ thuộc vào rất nhiều yếu tố - số đầu
vào, đầu ra của mạng, số trường hợp trong tập mẫu, độ nhiễu của dữ liệu đích, độ
phức tạp của hàm lỗi, kiến trúc mạng và thuật toán huấn luyện mạng.
Trong phần lớn các trường hợp, không có một cách để có thể dễ dàng xác
định được số tối ưu các đơn vị trong lớp ẩn mà không phải huấn luyện mạng sử
dụng số các đơn vị trong lớp ẩn khác nhau và dự báo lỗi tổng quát hóa của từng
lựa chọn. Cách tốt nhất là sử dụng phương pháp thử-sai (trial-and-error). Trong
thực tế, có thể sử dụng phương pháp lựa chọn tiến (forward selection) hay lựa chọn
lùi (backward selection) để xác định số đơn vị trong lớp ẩn.
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 21
4. Thuật toán lan truyền ngƣợc (Back propagation)
Cần có một sự phân biệt giữa kiến trúc của một mạng và thuật toán học của
nó, các mô tả trong các mục trên mục đích là nhằm làm rõ các yếu tố về kiến trúc
của mạng và cách mà mạng tính toán các đầu ra từ tập các đầu vào. Sau đây là mô
tả của thuật toán học sử dụng để điều chỉnh hiệu năng của mạng sao cho mạng
có khả năng sinh ra được các kết quả mong muốn.
Cơ bản có hai dạng thuật toán để huấn luyện mạng: học có giám sát và học
không có giám sát. Các mạng neural truyền thẳng nhiều lớp được luyện bằng
phương pháp học có giám sát. Phương pháp này căn bản dựa trên việc yêu cầu
mạng thực hiện chức năng của nó và sau đó trả lại kết quả, kết hợp kết quả này với
các đầu ra mong muốn để điều chỉnh các tham số của mạng, nghĩa là mạng sẽ học
thông qua những sai sót của nó.
Thuật toán lan truyền ngược là dạng tổng quát của thuật toán trung bình
bình phương tối thiểu (Least Means Square - LMS). Thuật toán này thuộc dạng
thuật toán xấp xỉ để tìm các điểm mà tại đó hiệu năng của mạng là tối ưu. Chỉ số
tối ưu thường được xác định bởi một hàm số của ma trận trọng số và các đầu vào
nào đó mà trong quá trình tìm hiểu bài toán đặt ra.
4.1 Mô tả thuật toán
Ta sẽ sử dụng dạng tổng quát của mạng neural truyền thẳng nhiều lớp như
trong hình vẽ 2.1 của phần trước. Khi đó, đầu ra của một lớp trở thành đầu vào của
lớp kế tiếp. Phương trình thể hiện hoạt động này như sau:
a
m+1
= f
m+1
(W
m+1
a
m
+ b
m+1
) với m = 0, 1, , M – 1,
Trong đó M là số lớp trong mạng. Các neural trong lớp thứ nhất nhận các
tín hiệu từ bên ngoài: a
0
= p, chính là điểm bắt đầu của phương trình phía trên.
Đầu ra của lớp cuối cùng được xem là đầu ra của mạng: a = a
M
.
Ban đầu {p
k
, a
k
} k = 1 Q
Đầu ra a
k
so sánh với t
k
.
Chỉ số hiệu năng
Thuật toán lan truyền ngược sử dụng chỉ số hiệu năng là trung bình bình
phương lỗi của đầu ra so với giá trị đích. Đầu vào của thuật toán chính là tập các
cặp mô tả hoạt động đúng của mạng: {(p
1
, t
1
), (p
2
, t
2
), , (p
Q
, t
Q
)},
Trong đó p
k
là một đầu vào và t
k
là đầu ra mong muốn tương ứng, với k =
1 Q. Mỗi đầu vào đưa vào mạng, đầu ra của mạng đối với nó được đem so sánh với
đầu ra mong muốn.
Thuật toán sẽ điều chỉnh các tham số của mạng để tối thiểu hóa trung bình
bình phương lỗi: F(x) = E[e
2
] = E[(t - a)
2
] ,
Trong đó: x là biến được tạo thành bởi các trọng số và độ lệch, E là ký hiệu
kỳ vọng toán học.
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 22
Thuật toán giảm theo hướng cho trung bình bình phương lỗi xấp xỉ là:
Trong đó : là hệ số học, b: ngưỡng
Trong đó hạng thức thứ hai của các phương trình trên có thể dễ dàng tính
toán bởi vì đầu vào của mạng tới lớp m là một hàm của trọng số và độ lệch:
Trong đó S
m-1
là số đầu ra của lớp (m – 1). Do vậy ta có:
Ký hiệu
là độ nhạy cảm của F đối với các thay đổi của phần tử thứ i của đầu vào của
mạng tại lớp thứ m. Khi đó ta có:
Ta có thể phát biểu thuật toán giảm theo hướng (gradient descent) như sau:
Tính ma trận độ nhạy cảm s
m
ta sử dụng ma trận Jacobi sau:
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 23
ma trận Jacobi có thể viết lại như sau:
Trong đó:
Như vậy:
S
m
F
m
n
m
W
m1
T
s
m1
.
Đến đây có thể thấy độ nhạy cảm được lan truyền ngược qua mạng từ lớp
cuối cùng trở về lớp đầu tiên:
Ở đây thuật toán lan truyền ngược lỗi sử dụng cùng một kỹ thuật giảm theo
hướng như thuật toán LMS. Sự phức tạp duy nhất là ở chỗ để tính gradient ta cần
phải lan truyền ngược độ nhạy cảm từ các lớp sau về các lớp trước như đã nêu trên.
Bây giờ ta cần biết điểm bắt đầu lan truyền ngược, xét độ nhạy cảm s
M
tại lớp cuối:
Bởi vì:
Nên ta có thể viết:
Ở dạng ma trận : S
M
= -2F
M
(n
M
)(t-a).
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 24
Tóm lại, thuật toán lan truyền ngược có thể phát biểu như sau:
4.2 Sự hội tụ
Các trường hợp mạng neural không trả lại kết quả chính xác mặc dù thuật toán
lan truyền ngược đã thực hiện tối thiểu hóa trung bình bình phương lỗi. Điều đó là
do khả năng của mạng bị giới hạn bởi số neural trong lớp ẩn. Tuy nhiên, cũng có
trường hợp mà thuật toán lan truyền ngược không cho ta các tham số có thể dẫn
đến kết quả chính xác nhưng mạng vẫn có thể xấp xỉ được hàm số. Điều này xảy ra
là do trạng thái khởi đầu của mạng, sau khi huấn luyện, mạng có thể rơi vào điểm
cực tiểu toàn cục hoặc rơi vào điểm cực tiểu địa phương.
Có một chú ý là trong thuật toán trung bình bình phương tối thiểu, điểm cực trị
toàn cục luôn tồn tại, bởi lẽ hàm trung bình bình phương lỗi của thuật toán trung
bình bình phương tối thiểu là một hàm bậc hai, nên đạo hàm bậc hai của hàm lỗi sẽ
là hằng số, do vậy mà độ cong của hàm theo một hướng cho trước là không đổi.
Trong khi đó, thuật toán lan truyền ngược áp dụng cho các mạng nhiều lớp sử
dụng các hàm chuyển phi tuyến sẽ có nhiều điểm cực trị địa phương và độ cong
của hàm lỗi có thể không cố định theo một hướng cho trước.
4.3 Tổng quát hóa
Trong phần lớn các trường hợp, mạng neural truyền thẳng nhiều lớp được
huấn luyện bởi một số cố định các mẫu xác định sự hoạt động đúng của mạng: {(p
1
,
t
1
), (p
2
, t
2
), , (p
Q
, t
Q
)}; trong đó, p
i
là các đầu vào, tương ứng với nó là các đầu ra
mong muốn t
i
. Tập huấn luyện này thông thường là thể hiện của số lớn nhất các
Mạng neural và ứng dụng vào bài toán phân lớp
Công nghệ tri thức và Ứng dụng Trang 25
lớp có thể trong các cặp. Một điều rất quan trọng là mạng neural có khả năng
tổng quát hóa được từ những cái nó đã học. Nếu có được điều đó, mặc dù dữ liệu
có nhiễu thì mạng vẫn có khả năng hoạt động tốt (trả lại kết quả gần với đích
mong muốn).
Để một mạng có khả năng tổng quát hóa tốt, nó cần có số tham số ít hơn số
dữ liệu có trong tập huấn luyện. Trong các mạng neural, cũng như các bài toán mô
hình hóa, ta thường mong muốn sử dụng một mạng đơn giản nhất có thể cho kết
quả tốt trên tập huấn luyện. Một cách khác đó là dừng huấn luyện mạng trước khi
mạng xảy ra tình trạng thừa ăn khớp. Kỹ thuật này liên quan đến việc chia tập dữ
liệu thu được thành ba tập: tập huấn luyện sử dụng để tính toán gradient và cập nhật
các trọng số của mạng, tập kiểm định được dùng để kiểm tra điều kiện dừng của
mạng và tập kiểm tra được sử dụng để so sánh khả năng tổng quát hóa của mạng
đối với các bộ tham số của mạng sau các lần huấn luyện.
4.4 Nhận xét
Lan truyền ngược thực chất là một kỹ thuật toán học sử dụng để tính toán lỗi
trong các hệ thống toán học phức tạp, chẳng hạn như một mạng neural. Nó là một
trong các thuật toán gradient tương tự như là các thuật toán gradient theo các
cách tiếp cận của trí tuệ nhân tạo. Các thuật toán đó ánh xạ hàm vào bề mặt ba
chiều, với các mặt lồi, lõm. Phụ thuộc vào bài toán cụ thể, điểm lõm (cực tiểu) của
một bề mặt thể hiện hiệu năng tốt hơn cho đầu ra.
Việc huấn luyện mạng theo phương pháp học có giám sát liên quan đến cách
thức đưa các mẫu học từ miền của bài toán vào mạng, các mẫu này sẽ được phân
chia thành các tập huấn luyện và tập kiểm định. Mạng được khởi tạo các trọng số
là các số ngẫu nhiên, sau đó các trọng số này sẽ được điều chỉnh cho phù hợp với
tập huấn luyện. Tập kiểm định sẽ được dùng để xác định xem liệu mạng có thành
công trong việc xác định đầu ra từ đầu vào mà nó chưa được huấn luyện. Mạng sẽ
được đưa vào một tập con các mẫu, mỗi mẫu một lần, sau khi nó đã được “nhìn”
tất cả các mẫu, nó sẽ phải thực hiện điều chỉnh các trọng số bằng cách tính toán
các lỗi xảy ra. Quá trình này được lặp lại cho đến khi mạng được luyện đủ. Kích
thước của tập con được giới hạn bởi số lần lặp, có thể là trùng với kích thước của
tập mẫu học, nếu không như vậy thì cần phải xác định thứ tự đưa các mẫu vào
cho mạng học một cách ngẫu nhiên.
Nhược điểm lớn nhất của thuật toán lan truyền ngược truyền thống đó là nó
bị ảnh hưởng rất lớn của gradient địa phương, không cần thiết phải đi đường
thẳng. Ví dụ, nếu như cực trị toàn cục nằm ở cuối vùng lõm và điểm hiện tại là
bên cạnh, phía trên điểm lõm, khi đó thuật toán lan truyền ngược sẽ thực hiện một
bước theo hướng mà gradient lớn nhất, vượt qua vùng lõm. Một khi nó phát hiện
các cạnh khác của vùng lõm, nó sẽ chạy theo đường ziczac tiến, lùi tạo ra các bước
nhỏ tới đích. Đường này sẽ lớn gấp hàng nghìn lần so với đường ngắn nhất, và do
đó thời gian học cũng sẽ lớn gấp rất nhiều lần. Thuật toán lan truyền ngược chuẩn