Tải bản đầy đủ (.pdf) (89 trang)

Nghiên cứu mạng Nơron và ứng dụng trong thẩm định vay vốn ngân hàng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.03 MB, 89 trang )

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG







TRẦN ĐỨC CƢỜNG






NGHIÊN CỨU MẠNG NƠRON VÀ ỨNG DỤNG
TRONG THẨM ĐỊNH VAY VỐN NGÂN HÀNG









LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH











Thái Nguyên - 2012

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-ii-

LỜI CẢM ƠN
Luận văn đƣợc thực hiện tại trƣờng Đại học Công nghệ Thông tin và
Truyền Thông – Đại học Thái Nguyên dƣới sự hƣớng dẫn của PGS. TS Ngô
Quốc Tạo.
Trƣớc hết em xin bày tỏ lòng biết ơn sâu sắc tới thầy Ngô Quốc Tạo,
ngƣời đã có những định hƣớng, những kiến thức quý báu, những lời động
viên và chỉ bảo giúp em vƣợt qua những khó khăn để tôi hoàn thành tốt luận
văn của mình.
Em xin đƣợc bày tỏ lòng cảm ơn và sự kính trọng của mình đến các
thầy cô giáo Trƣờng Đại học Công nghệ Thông tin và Truyền Thông, Đại học
Thái Nguyên, đặc biệt là các thầy cô giáo đã giảng dạy và giúp đỡ em trong
suốt quá trình học tập tại trƣờng.
Em cũng đặc biệt cảm ơn tới bạn bè lớp Cao học K9, các đồng nghiệp
đã luôn động viên, giúp đỡ em trong quá trình học tập và công tác, để em
hoàn thành nhiệm vụ đƣợc giao.

Bên cạnh đây em cũng xin cảm ơn em Hoàng Thị Thu Hiền và chị Trần
Thị Vân Thanh – cán bộ thẩm định tại ngân hàng MaritimeBank đã đã giúp
em hoàn thành luận văn này.
Nhân dịp này, em cũng xin gửi lời cảm ơn đến gia đình, ngƣời thân, đã
tạo điều kiện giúp đỡ, động viên, trợ giúp em về tinh thần trong suốt quá trình
học tập.
Thái Nguyên, tháng 9 năm 2012
Tác giả


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-iii-
Trần Đức Cƣờng
LỜI CAM ĐOAN
Em xin cam đoan luận văn “Nghiên cứu mạng nơron và ứng dụng trong
thẩm định vay vốn Ngân hàng” này là công trình nghiên cứu của riêng em.
Các số liệu sử dụng trong luận văn là trung thực. Các kết quả nghiên cứu
đƣợc trình bày trong luận văn chƣa từng đƣợc công bố tại bất kỳ công trình
nghiên cứu nào khác.



Trần Đức Cƣờng

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-iv-
MỤC LỤC
LỜI CẢM ƠN 1

LỜI CAM ĐOAN iii
MỤC LỤC iv
DANH MỤC CÁC HÌNH VẼ vii
DANH MỤC CÁC BẢNG viii
DANH MỤC CÁC BẢNG viii
DANH MỤC CÁC TỪ VIẾT TẮT ix
MỞ ĐẦU 1
1. Lý do chọn đề tài 1
2. Đối tƣợng và phạm vi nghiên cứu 2
3. Hƣớng nghiên cứu của đề tài 2
4. Phƣơng pháp nghiên cứu 2
5. Ý nghĩa khoa học của đề tài 2
6. Cấu trúc của luận văn 3
CHƢƠNG I:TỔNG QUAN VỀ MẠNG NƠRON 4
1.1. Sơ lƣợc về mạng nơron 4
1.1.1. Lịch sử phát triển 4
1.1.2. Ứng dụng 5
1.1.3. Căn nguyên sinh học 6
1.2. Đơn vị xử lý 8
1.3. Hàm xử lý 9
1.3.1. Hàm kết hợp 9
1.3.2. Hàm kích hoạt (hàm chuyển) 10
1.4. Các hình trạng của mạng 13
1.4.1. Mạng truyền thẳng 13
1.4.2. Mạng hồi quy 13
1.5. Mạng học 14
1.5.1. Học có thầy 14

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


-v-
1.5.2. Học không có thầy 15
1.6. Hàm mục tiêu 15
1.7. Mạng nơron truyền thẳng và giải thuật lan truyền ngƣợc 16
1.7.1. Kiến trúc cơ bản 16
1.7.1.1. Mạng truyền thẳng 16
1.7.1.2. Mạng hồi quy 18
1.7.2. Khả năng thể hiện 18
1.7.3. Vấn đề thiết kế cấu trúc mạng 19
1.7.3.1. Số lớp ẩn 19
1.7.3.2. Số đơn vị trong lớp ẩn 20
1.7.4. Thuật toán lan truyền ngƣợc (Back-Propagation) 22
1.7.4.1. Mô tả thuật toán 23
1.7.4.2. Sử dụng thuật toán lan truyền ngƣợc 28
1.7.4.3. Một số biến thể của giải thuật 32
1.7.4.4. Nhận xét 34
CHƢƠNG 2: ỨNG DỤNG MẠNG NƠRON TRONG DỰ BÁO DỮ LIỆU VÀ
BÀI TOÁN THẨM ĐỊNH VAY VỐN NGÂN HÀNG 37
2.1. Lý thuyết thẩm định vay vốn ngân hàng 37
2.1.1. Một số khái niệm cơ bản 37
2.1.2. Nguyên tắc vay vốn 37
2.1.3. Điều kiện vay vốn 37
2.1.4. Tầm quan trọng của thẩm định tín dụng 38
2.1.5. Quy trình thẩm định tín dụng 39
2.1.6. Nội dung thẩm định vay vốn tại ngân hàng 39
2.1.6.1. Thẩm định khách hàng vay vốn 40
2.1.6.2. Thẩm định dự án vay vốn 46
2.1.6.3. Thẩm định các biện pháp bảo đảm tiền vay 49
2.2. Sơ lƣợc về lĩnh vực dự báo dữ liệu 51
2.3. Xây dựng chƣơng trình dự báo dữ liệu 52

2.3.1. Lựa chọn các biến 53

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-vi-
2.3.2. Thu thập, phân tích và xử lý dữ liệu 53
2.3.2.1. Kiểu của các biến 54
2.3.2.2. Thu thập dữ liệu 55
2.3.2.3. Phân tích dữ liệu 56
2.3.2.4. Xử lý dữ liệu 57
2.3.3. Phân chia tập dữ liệu 60
2.3.4. Xác định cấu trúc mạng 60
2.3.5. Xác định các tiêu chuẩn đánh giá 61
2.3.6. Huấn luyện mạng 61
2.3.7. Thực thi 62
2.4. Sự cần thiết phải sử dụng mạng nơron 63
CHƢƠNG 3: XÂY DỰNG CHƢƠNG TRÌNH HỖ TRỢ QUYẾT ĐỊNH CHO
VAY VỐN TẠI NGÂN HÀNG 65
3.1. Lựa chọn các biến 66
3.2. Thu thập và tiền xử lý dữ liệu 66
3.2.1. Thu thập dữ liệu 66
3.2.2. Tiền xử lý dữ liệu 67
3.3. Phân chia tập dữ liệu 68
3.4. Xác định cấu trúc mạng 68
3.5. Xác định tiêu chuẩn đánh giá và huấn luyện mạng 69
3.5.1. Xác định tiêu chuẩn đánh giá 69
3.5.2. Huấn luyện mạng 69
3.6. Thực thi 71
3.7. Xây dụng chƣơng trình 71
3.8. Một số nhận xét 75

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 78


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-vii-
DANH MỤC CÁC HÌNH VẼ

Hình 1.1. Đơn vị xử lý (Processing unit) 8
Hình 1.2. Hàm đồng nhất (Identity function) 10
Hình 1.3. Hàm bƣớc nhị phân (Binary step function) 11
Hình 1.4. Hàm Sigmoid 11
Hình 1.5. Hàm sigmoid lƣỡng cực 12
Hình 1.6. Mạng nơron truyền thẳng nhiều lớp 13
(Feed-forward neural network) 13
Hình 1.7. Mạng nơron hồi quy (Recurrent neural network) 14
Hình 1.8. Mạng nơron truyền thẳng nhiều lớp (MLP) 16
Hình 1.9. Một ví dụ của mạng hồi quy 18
Hình 1.10. Xấp xỉ hàm với –2 ≤ x ≤ 2 30
Hình 1.11. Xấp xỉ hàm với –2 ≤ x ≤ 2 30
Hình 2.1. Quy trình thẩm định vay vốn 39
Hình 2.2. Nội dung thẩm định vay vốn 40
Bảng 2.1. Thẩm định vay ngắn hạn 50
Hình 2.3. Xử lý dữ liệu 54
Bảng 3.1. Các dữ liệu đầu vào dạng thô 66
Bảng 3.2. Các dữ liệu đầu vào sau khi tiền xử lý 68
Hình 3.1. Mô hình cấu trúc mạng 69
Hình 3.2 Giao diện chính của chƣơng trình 72
Hình 3.3. Giao diện tạo mạng 72
Hình 3.4. Giao diện huấn luyện mạng 73

Hình 3.5. Giao diện bảng giới thiệu khách hàng 74
Hình 3.6. Giao diện bảng cân đối tài sản 74
Hình 3.7. Giao diện bảng báo cáo kết quả kinh doanh 75
Hình 3.8. Giao diện điều kiện vay vốn của khách hàng 75


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-viii-
DANH MỤC CÁC BẢNG

Bảng 2.1. Thẩm định vay ngắn hạn 50
Bảng 3.1. Các dữ liệu đầu vào dạng thô 66
Bảng 3.2. Các dữ liệu đầu vào sau khi tiền xử lý 68


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-ix-
DANH MỤC CÁC TỪ VIẾT TẮT
VLSI: Very Large Scale Integrated-circuit
SXKD: Sản xuất kinh doanh
HĐKD: Hợp đồng kinh doanh
MLP: Multilayer Perceptron
LMS: Least Means Square


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-1-



MỞ ĐẦU
1. Lý do chọn đề tài
Ngân hàng là một trung gian tài chính, một kênh dẫn vốn quan trọng
cho toàn bộ nền kinh tế. Hoạt động cho vay là một trong những hoạt động
quan trọng nhất không những đối với Ngân hàng, mà còn đối với các doanh
nghiệp, tổ chức, cá nhân, hộ gia đình. Các doanh nghiệp cần vốn đầu tƣ để mở
rộng sản xuất kinh doanh, các hộ gia đình, các tổ chức cần vốn để phục vụ các
nhu cầu cần thiết cho công việc, cuộc sống. Cho vay vốn là một trong những
hoạt động mang tính chiến lƣợc, mang lại hiệu quả kinh tế quan trọng nhất
đối với các Ngân hàng. Đồng thời, đây cũng là một hoạt động mang tính rủi
ro cao. Công tác thẩm định các dự án vay vốn là một trong những hoạt động
quyết định công tác cho vay vốn đối với các doanh nghiệp nhằm giảm thiểu
các rủi ro một cách tối đa. Chất lƣợng công tác thẩm định dự án vay vốn
quyết định công tác cho vay vốn đối với các doanh nghiệp trong các Ngân
hàng thƣơng mại. Việc nâng cao chất lƣợng công tác thẩm định dự án vay vốn
giúp Ngân hàng tăng cƣờng hiệu quả hoạt động kinh doanh và hội nhập với
nền tài chính trong khu vực là vô cùng quan trọng.
Hiện nay, với sự phát triển nhƣ vũ bão của ngành Công nghệ thông tin,
việc ứng dụng các thành tựu đó vào các hoạt động trong Ngân hàng ngày càng
phát triển mạnh mẽ và thu hút đƣợc sự quan tâm của các nhà kinh tế, các nhà
phát triển phần mềm, …Các ứng dụng của mạng nơron, đặc biệt là mạng
nơron truyền thẳng đa lớp đƣợc chứng minh là khá mạnh và hiệu quả trong
các bài toán dự báo, phân tích dữ liệu. Qua quá trình tìm hiểu công tác thẩm
định dự án vay đối với các doanh nghiệp tại Ngân hàng Hàng Hải Việt Nam
MaritimeBank, em đã quyết định chọn đề tài “Nghiên cứu mạng nơron và ứng
dụng trong thẩm định vay vốn Ngân hàng”. Luận văn này với mục đích làm
sáng tỏ một số khía cạnh về mạng nơron truyền thẳng đa lớp, thuật toán lan


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-2-


truyền ngƣợc và ứng dụng chúng trong việc giải quyết bài toán quyết định cho
vay vốn đối với doanh nghiệp tại Ngân hàng thƣơng mại.
2. Đối tƣợng và phạm vi nghiên cứu
 Cách thức thẩm định cho vay vốn của Ngân hàng thƣơng mại cổ phần
Hàng Hải Việt Nam Maritime Bank.
 Mạng nơron là một lĩnh vực rộng lớn và phát triển rất mạnh mẽ, do đó
phạm vi nghiên cứu của luận văn tập trung vào việc tìm hiểu mạng
nơron truyền thẳng và thuật toán lan truyền ngƣợc.
3. Hƣớng nghiên cứu của đề tài
 Tìm hiểu mô hình của bài toán thẩm định cho vay vốn tại Ngân hàng.
 Tìm hiểu và nghiên cứu mạng nơron truyền thẳng và thuật toán lan
truyền ngƣợc.
 Tìm hiểu về ngôn ngữ lập trình VB.net ứng dụng mạng nơron truyền
thẳng trong dự báo dữ liệu.
4. Phƣơng pháp nghiên cứu
 Phƣơng pháp liệt kê, đối sánh.
 Phƣơng pháp phân tích - tổng hợp lý thuyết.
 Phƣơng pháp thực nghiệm.
5. Ý nghĩa khoa học của đề tài
Hiện nay, với sự phát triển nhƣ vũ bão của ngành Công nghệ thông tin,
các ứng dụng của mạng nơron đƣợc sử dụng rất rộng rãi, đặc biệt là mạng
nơron truyền thẳng đa lớp đƣợc chứng minh là khá mạnh và hiệu quả trong
các bài toán dự báo, phân tích dữ liệu. Chính vì thế mà việc nghiên vấn đề này
giúp cho Ngân hàng có thể hỗ trợ các cán bộ tín dụng thẩm định đƣợc rủi ro
trong bài toán cho khách hàng vay vốn, thẩm định đƣợc khả năng có thể trả

nợ của các khách hàng nhằm tránh rủi ro lớn về vốn cho ngân hàng.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-3-


6. Cấu trúc của luận văn
Luận văn bao gồm 3 chƣơng, với những nội dung sau:
Chƣơng 1: Tìm hiểu và giới thiệu tổng quan về mạng nơron, mô hình
mạng nơron truyền thẳng đa lớp, thuật toán lan truyền ngƣợc.
Chƣơng 2: Giới thiệu sơ lƣợc các khái niệm và các khâu trong quy trình
thẩm định cho vay vốn tại Ngân Hàng Hàng Hải Việt Nam (MaritimeBank)
nhƣ cho vay, tín dụng ngân hàng, các loại hình vay vốn… Tìm hiều về bài
toán dự báo dữ liệu, cách thức và các bƣớc xây dụng một bài toán dự báo dữ
liệu và ứng dụng mạng nơron truyền thẳng đa lớp, giải thuật lan truyền ngƣợc
vào bài toán. Từ đó đƣa ra đƣợc tầm quan trọng và sự cần thiết của việc sử
dụng mạng nơron.
Chƣơng 3: Đƣa ra các bƣớc xây dụng bài toán thẩm định cho vay vốn
ngân hàng áp dụng kỹ thuật mạng nơron truyền thẳng đa lớp và giải thuật lan
truyền ngƣợc. Giới thiệu chƣơng trình minh họa bài toán.


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-4-



CHƢƠNG I:TỔNG QUAN VỀ MẠNG NƠRON

1.1. Sơ lƣợc về mạng nơron
1.1.1. Lịch sử phát triển
Sự phát triển của mạng nơron trải qua cả quá trình đƣa ra các khái niệm
mới lẫn thực thi những khái niệm này. Dƣới đây là các mốc đáng chú ý trong
lịch sử phát triển của mạng nơron:
- Cuối thế kỉ 19, đầu thế kỉ 20, sự phát triển chủ yếu chỉ là những công
việc có sự tham gia của cả ba ngành Vật lý học, Tâm lý học và Thần kinh học,
bởi các nhà khoa học nhƣ Hermann von Hemholtz, Ernst Mach, Ivan Pavlov.
Các công trình nghiên cứu của họ chủ yếu đi sâu vào các lý thuyết tổng quát
về HỌC (Learning), NHÌN (vision) và LẬP LUẬN (conditioning), và
không hề đƣa ra những mô hình toán học cụ thể mô tả hoạt động của các
nơron.
- Mọi chuyện thực sự bắt đầu vào những năm 1940 với công trình của
Warren McCulloch và Walter Pitts. Họ chỉ ra rằng về nguyên tắc, mạng của
các nơron nhân tạo có thể tính toán bất kỳ một hàm số học hay logic nào.
- Tiếp theo hai ngƣời là Donald Hebb, ông đã phát biểu rằng việc
thuyết lập luận cổ điển (classical conditioning) (nhƣ Pavlov đƣa ra) là hiện
thực bởi do các thuộc tính của từng nơron riêng biệt. Ông cũng nêu ra một
phƣơng pháp học của các nơron nhân tạo.
- Ứng dụng thực nghiệm đầu tiên của các nơron nhân tạo có đƣợc vào
cuối những năm 50 cùng với phát minh của mạng nhận thức (perceptron
network) và luật học tƣơng ứng bởi Frank Rosenblatt. Mạng này có khả năng
nhận dạng các mẫu. Điều này đã mở ra rất nhiều hy vọng cho việc nghiên cứu
mạng nơron. Tuy nhiên nó có hạn chế là chỉ có thể giải quyết một số lớp hữu
hạn các bài toán.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-5-



- Cùng thời gian đó, Bernard Widrow và Ted Hoff đã đƣa ra một thuật
toán học mới và sử dụng nó để huấn luyện cho các mạng nơron tuyến tính
thích nghi, mạng có cấu trúc và chức năng tƣơng tự nhƣ mạng của Rosenblatt.
Luật học Widrow-Hoff vẫn còn đƣợc sử dụng cho đến nay.
- Tuy nhiên cả Rosenblatt và Widrow-Hoff đều cùng vấp phải một vấn
đề do Marvin Minsky và Seymour Papert phát hiện ra, đó là các mạng nhận
thức chỉ có khả năng giải quyết các bài toán khả phân tuyến tính. Họ cố gắng
cải tiến luật học và mạng để có thể vƣợt qua đƣợc hạn chế này nhƣng họ đã
không thành công trong việc cải tiến luật học để có thể huấn luyện đƣợc các
mạng có cấu trúc phức tạp hơn.
- Do những kết quả của Minsky-Papert nên việc nghiên cứu về mạng
nơron gần nhƣ bị đình lại trong suốt một thập kỷ do nguyên nhân là không có
đƣợc các máy tính đủ mạnh để có thể thực nghiệm.
- Mặc dù vậy, cũng có một vài phát kiến quan trọng vào những năm 70.
Năm 1972, Teuvo Kohonen và James Anderson độc lập nhau phát triển một
loại mạng mới có thể hoạt động nhƣ một bộ nhớ. Stephen Grossberg cũng rất
tích cực trong việc khảo sát các mạng tự tổ chức (Self organizing networks).
- Vào những năm 80, việc nghiên cứu mạng nơron phát triển rất mạnh
mẽ cùng với sự ra đời của PC. Có hai khái niệm mới liên quan đến sự hồi sinh
này, đó là:
- Việc sử dụng các phƣơng pháp thống kê để giải thích hoạt động của
một lớp các mạng hồi quy (recurrent networks) có thể đƣợc dùng nhƣ bộ nhớ
liên hợp (associative memory) trong công trình của nhà vật lý học Johh
Hopfield.
- Sự ra đời của thuật toán lan truyền ngƣợc (back-propagation) để luyện
các mạng nhiều lớp đƣợc một vài nhà nghiên cứu độc lập tìm ra nhƣ: David
Rumelhart, James McCelland, Đó cũng là câu trả lời cho Minsky-Papert.
1.1.2. Ứng dụng


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-6-


Trong quá trình phát triển, mạng nơron đã đƣợc ứng dụng thành công
trong rất nhiều lĩnh vực. Dƣới đây liệt kê ra một số ứng dụng chính của mạng
nơron:
- Aerospace: Phi công tự động, giả lập đƣờng bay, các hệ thống điều
khiển lái máy bay, bộ phát hiện lỗi.
- Automotive: Các hệ thống dẫn đƣờng tự động cho ô tô, các bộ phân
tích hoạt động của xe.
- Banking: Bộ đọc séc và các tài liệu, tính tiền của thẻ tín dụng.
- Defense: Định vị - phát hiện vũ khí, dò mục tiêu, phát hiện đối tƣợng,
nhận dạng nét mặt, các bộ cảm biến thế hệ mới, xử lý ảnh radar,
- Electronics: Dự đoán mã tuần tự, sơ đồ chip IC, điều khiển tiến trình,
phân tích nguyên nhân hỏng chip, nhận dạng tiếng nói, mô hình phi
tuyến.
- Entertainment: Hoạt hình, các hiệu ứng đặc biệt, dự báo thị trƣờng.
- Financial: Định giá bất động sản, cho vay, kiểm tra tài sản cầm cố,
đánh giá mức độ hợp tác, phân tích đƣờng tín dụng, chƣơng trình
thƣơng mại qua giấy tờ, phân tích tài chính liên doanh, dự báo tỷ giá
tiền tệ.
- Insurance: Đánh giá việc áp dụng chính sách, tối ƣu hóa sản phẩm.
1.1.3. Căn nguyên sinh học
Bộ não con ngƣời chứa khoảng 10
10
các phần tử liên kết chặt chẽ với
nhau (khoảng 10
4

liên kết đối với mỗi phần tử) gọi là các nơron. Dƣới con
mắt của những ngƣời làm tin học, một nơron đƣợc cấu tạo bởi các thành
phần: tế bào hình cây (dendrite) - tế bào thân (cell body) – và sợi trục thần
kinh (axon). Tế bào hình cây có nhiệm vụ mang các tín hiệu điện tới tế bào
thân, tế bào thân sẽ thực hiện gộp (Sum) và phân ngƣỡng (Thresholds) các tín
hiệu đến. Sợi trục thần kinh làm nhiệm vụ đƣa tín hiệu từ tế bào thân ra ngoài.
Điểm tiếp xúc giữa một sợi trục thần kinh của nơron này và tế bào hình cây

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-7-


của một nơron khác đƣợc gọi là khớp thần kinh (synapse). Sự sắp xếp của các
nơron và mức độ mạnh yếu của các khớp thần kinh đƣợc quyết định bởi các
quá trình hóa học phức tạp, sẽ thiết lập chức năng của mạng nơron. Một vài
nơron có sẵn từ khi sinh ra, các phần khác đƣợc phát triển thông qua việc học,
ở đó có sự thiết lập các liên kết mới và loại bỏ các liên kết cũ.
Cấu trúc của mạng nơron luôn luôn phát triển và thay đổi. Các thay đổi
sau này có khuynh hƣớng bao gồm chủ yếu là việc làm tăng hay giảm độ
mạnh của các mối liên kết thông qua các khớp thần kinh.
Mạng nơron nhân tạo không tiếp cận đến sự phức tạp của bộ não. Mặc
dù vậy, có hai sự tƣơng quan cơ bản giữa mạng nơron nhân tạo và sinh học.
Thứ nhất, cấu trúc khối tạo thành chúng đều là các thiết bị tính toán đơn giản
(mạng nơron nhân tạo đơn giản hơn nhiều) đƣợc liên kết chặt chẽ với nhau.
Thứ hai, các liên kết giữa các nơron quyết định chức năng của mạng.
Cần chú ý rằng mặc dù mạng nơron sinh học hoạt động rất chậm so với
các linh kiện điện tử (10
-3
giây so với 10

-9
giây), nhƣng bộ não có khả năng
thực hiện nhiều công việc nhanh hơn nhiều so với các máy tính thông thƣờng.
Đó một phần là do cấu trúc song song của mạng nơron sinh học: toàn bộ các
nơron hoạt động một cách đồng thời tại một thời điểm.
Mạng nơron nhân tạo cũng chia sẻ đặc điểm này. Mặc dù hiện nay, các
mạng nơron chủ yếu đƣợc thực nghiệm trên các máy tính số, nhƣng cấu trúc
song song của chúng khiến chúng ta có thể thấy cấu trúc phù hợp nhất là thực
nghiệm chúng trên các vi mạch tích hợp lớn (VLSI: Very Large Scale
Integrated-circuit), các thiết bị quang và các bộ xử lý song song.
Mạng nơron, đôi khi đƣợc xem nhƣ là các mô hình liên kết
(connectionist models), là các mô hình phân bố song song (parallel -
distributed models) có các đặc trƣng phân biệt sau:
- Tập các đơn vị xử lý.
- Trạng thái kích hoạt hay là đầu ra của đơn vị xử lý.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-8-


- Liên kết giữa các đơn vị. Xét tổng quát, mỗi liên kết đƣợc định nghĩa
bởi một trọng số w
jk
cho ta biết hiệu ứng mà tín hiệu của đơn vị j có
trên đơn vị k.
- Một luật lan truyền quyết định cách tính tín hiệu ra của từng đơn vị từ
đầu vào của nó.
- Một hàm kích hoạt, hay hàm chuyển (activation function, transfer
function), xác định mức độ kích hoạt khác dựa trên mức độ kích hoạt

hiện tại.
- Một đơn vị điều chỉnh (độ lệch) (bias, offset) của mỗi đơn vị.
- Phƣơng pháp thu thập thông tin (luật học - learning rule).
- Môi trƣờng hệ thống có thể hoạt động.
1.2. Đơn vị xử lý
Một đơn vị xử lý (Hình 1.1), cũng đƣợc gọi là một nơron hay một nút
(node), thực hiện một công việc rất đơn giản: nó nhận tín hiệu vào từ các đơn
vị phía trƣớc hay một nguồn bên ngoài và sử dụng chúng để tính tín hiệu ra sẽ
đƣợc lan truyền sang các đơn vị khác.







Hình 1.1. Đơn vị xử lý (Processing unit)
Trong đó:
x
i
: các đầu vào.
w
ji
: các trọng số tƣơng ứng với các đầu vào.
θ
j
: độ lệch (bias).

X
0

X
1
X
n
W
j0
W
j1
W
jn

j

g(a
j
)
z
j
a
j
=  w
ji
x
i
+ 
j

n

i=1


z
j
= g(a
j
)

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-9-


a
j
: đầu vào mạng (net-input).
z
j
: đầu ra của nơron.
g(x): hàm chuyển (hàm kích hoạt).
Trong một mạng nơron có ba kiểu đơn vị:
- Các đơn vị đầu vào (Input units), nhận tín hiệu từ bên ngoài.
- Các đơn vị đầu ra (Output units), gửi dữ liệu ra bên ngoài.
- Các đơn vị ẩn (Hidden units), tín hiệu vào (input) và ra (output) của
nó nằm trong mạng.
Mỗi đơn vị j có thể có một hoặc nhiều đầu vào: x
0
, x
1
, x
2

, … x
n
, nhƣng
chỉ có một đầu ra z
j
. Một đầu vào tới một đơn vị có thể là dữ liệu từ bên ngoài
mạng, hoặc đầu ra của một đơn vị khác, hoặc là đầu ra của chính nó.
1.3. Hàm xử lý
1.3.1. Hàm kết hợp
Mỗi một đơn vị trong một mạng kết hợp các giá trị đƣa vào nó thông
qua các liên kết với các đơn vị khác, sinh ra một giá trị gọi là net input. Hàm
thực hiện nhiệm vụ này gọi là hàm kết hợp (combination function), đƣợc định
nghĩa bởi một luật lan truyền cụ thể. Trong phần lớn các mạng nơron, chúng
ta giả sử rằng mỗi một đơn vị cung cấp một bộ cộng nhƣ là đầu vào cho đơn
vị mà nó có liên kết. Tổng đầu vào đơn vị j đơn giản chỉ là tổng trọng số của
các đầu ra riêng lẻ từ các đơn vị kết nối cộng thêm ngƣỡng hay độ lệch (bias)
θ
j
:
a
j
=
ji
n
i
ji
xW




1

Trƣờng hợp w
ji
> 0, nơron đƣợc coi là đang ở trong trạng thái kích
thích. Tƣơng tự, nếu nhƣ w
ji
< 0, nơron ở trạng thái kiềm chế. Chúng ta gọi
các đơn vị với luật lan truyền nhƣ trên là các sigma units.
Trong một vài trƣờng hợp ngƣời ta cũng có thể sử dụng các luật lan
truyền phức tạp hơn. Một trong số đó là luật sigma-pi, có dạng nhƣ sau:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-10-


j
n
i
m
k
kj
xa







1
1
ji
W

Rất nhiều hàm kết hợp sử dụng một "độ lệch" hay "ngƣỡng" để tính net
input tới đơn vị. Đối với một đơn vị đầu ra tuyến tính, thông thƣờng, θ
j
đƣợc
chọn là hằng số và trong bài toán xấp xỉ đa thức θ
j
= 1.
1.3.2. Hàm kích hoạt (hàm chuyển)
Phần lớn các đơn vị trong mạng nơron chuyển net input bằng cách sử
dụng một hàm vô hƣớng (scalar-to-scalar function) gọi là hàm kích hoạt, kết
quả của hàm này là một giá trị gọi là mức độ kích hoạt của đơn vị (unit's
activation). Loại trừ khả năng đơn vị đó thuộc lớp ra, giá trị kích hoạt đƣợc
đƣa vào một hay nhiều đơn vị khác. Các hàm kích hoạt thƣờng bị ép vào một
khoảng giá trị xác định, do đó thƣờng đƣợc gọi là các hàm bẹp (squashing).
Các hàm kích hoạt hay đƣợc sử dụng là:
* Hàm đồng nhất (Linear function, Identity function )
g(x) = x
Nếu coi các đầu vào là một đơn vị thì chúng sẽ sử dụng hàm này. Đôi
khi một hằng số đƣợc nhân với net-input để tạo ra một hàm đồng nhất.

Hình 1.2. Hàm đồng nhất (Identity function)
* Hàm bƣớc nhị phân (Binary step function, Hard limit function)
Hàm này cũng đƣợc biết đến với tên "Hàm ngƣỡng" (Threshold
function hay Heaviside function). Đầu ra của hàm này đƣợc giới hạn vào một
trong hai giá trị:


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-11-


 








θxkhi0
θxkhi1
xg

Dạng hàm này đƣợc sử dụng trong các mạng chỉ có một lớp. Trong
hình vẽ sau, θ đƣợc chọn bằng 1.

Hình 1.3. Hàm bƣớc nhị phân (Binary step function)
* Hàm sigmoid (Sigmoid function (logsig))
x
e
xg





1
1
)(

Hàm này đặc biệt thuận lợi khi sử dụng cho các mạng đƣợc huấn luyện
(trained) bởi thuật toán Lan truyền ngƣợc (back-propagation), bởi vì nó dễ lấy
đạo hàm, do đó có thể giảm đáng kể tính toán trong quá trình huấn luyện.
Hàm này đƣợc ứng dụng cho các chƣơng trình ứng dụng mà các đầu ra mong
muốn rơi vào khoảng [0,1].

Hình 1.4. Hàm Sigmoid
* Hàm sigmoid lƣỡng cực (Bipolar sigmoid function (tansig))
x
x
e
e
xg







1
1
)(



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-12-


Hàm này có các thuộc tính tƣơng tự hàm sigmoid. Nó làm việc tốt đối
với các ứng dụng có đầu ra yêu cầu trong khoảng [-1,1].

Hình 1.5. Hàm sigmoid lƣỡng cực
Các hàm chuyển của các đơn vị ẩn (hidden units) là cần thiết để biểu
diễn sự phi tuyến vào trong mạng. Lý do là hợp thành của các hàm đồng nhất
là một hàm đồng nhất. Mặc dù vậy nhƣng nó mang tính chất phi tuyến (nghĩa
là, khả năng biểu diễn các hàm phi tuyến) làm cho các mạng nhiều tầng có
khả năng rất tốt trong biểu diễn các ánh xạ phi tuyến. Tuy nhiên, đối với luật
học lan truyền ngƣợc, hàm phải khả vi (differentiable) và sẽ có ích nếu nhƣ
hàm đƣợc gắn trong một khoảng nào đó. Do vậy, hàm sigmoid là lựa chọn
thông dụng nhất.
Đối với các đơn vị đầu ra (output units), các hàm chuyển cần đƣợc
chọn sao cho phù hợp với sự phân phối của các giá trị đích mong muốn.
Chúng ta đã thấy rằng đối với các giá trị ra trong khoảng [0,1], hàm sigmoid
là có ích; đối với các giá trị đích mong muốn là liên tục trong khoảng đó thì
hàm này cũng vẫn có ích, nó có thể cho ta các giá trị ra hay giá trị đích đƣợc
căn trong một khoảng của hàm kích hoạt đầu ra. Nhƣng nếu các giá trị đích
không đƣợc biết trƣớc khoảng xác định thì hàm hay đƣợc sử dụng nhất là hàm
đồng nhất (identity function). Nếu giá trị mong muốn là dƣơng nhƣng không
biết cận trên thì nên sử dụng một hàm kích hoạt dạng mũ (exponential output
activation function).

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


-13-


1.4. Các hình trạng của mạng
Hình trạng của mạng đƣợc định nghĩa bởi: số lớp (layers), số đơn vị
trên mỗi lớp, và sự liên kết giữa các lớp nhƣ thế nào. Các mạng về tổng thể
đƣợc chia thành hai loại dựa trên cách thức liên kết các đơn vị:
1.4.1. Mạng truyền thẳng
Dòng dữ liệu từ đơn vị đầu vào đến đơn vị đầu ra chỉ đƣợc truyền
thẳng. Việc xử lý dữ liệu có thể mở rộng ra nhiều lớp, nhƣng không có các
liên kết phản hồi. Nghĩa là, các liên kết mở rộng từ các đơn vị đầu ra tới các
đơn vị đầu vào trong cùng một lớp hay các lớp trƣớc đó là không cho phép.

Hình 1.6. Mạng nơron truyền thẳng nhiều lớp
(Feed-forward neural network)
1.4.2. Mạng hồi quy
Có chứa các liên kết ngƣợc. Khác với mạng truyền thẳng, các thuộc
tính động của mạng mới quan trọng. Trong một số trƣờng hợp, các giá trị kích
hoạt của các đơn vị trải qua quá trình nới lỏng (tăng giảm số đơn vị và thay
đổi các liên kết) cho đến khi mạng đạt đến một trạng thái ổn định và các giá
trị kích hoạt không thay đổi nữa. Trong các ứng dụng khác mà cách chạy
động tạo thành đầu ra của mạng thì những sự thay đổi các giá trị kích hoạt là
đáng quan tâm.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-14-




Hình 1.7. Mạng nơron hồi quy (Recurrent neural network)
1.5. Mạng học
Chức năng của một mạng nơron đƣợc quyết định bởi các nhân tố nhƣ:
hình trạng mạng (số lớp, số đơn vị trên mỗi tầng, và cách mà các lớp đƣợc
liên kết với nhau) và các trọng số của các liên kết bên trong mạng. Hình trạng
của mạng thƣờng là cố định, và các trọng số đƣợc quyết định bởi một thuật
toán huấn luyện (training algorithm). Tiến trình điều chỉnh các trọng số để
mạng “nhận biết” đƣợc quan hệ giữa đầu vào và đích mong muốn đƣợc gọi là
học (learning) hay huấn luyện (training). Rất nhiều thuật toán học đã đƣợc
phát minh để tìm ra tập trọng số tối ƣu làm giải pháp cho các bài toán. Các
thuật toán đó có thể chia làm hai nhóm chính: Học có thầy (Supervised
learning) và Học không có thầy (Unsupervised Learning).
1.5.1. Học có thầy
Mạng đƣợc huấn luyện bằng cách cung cấp cho nó các cặp mẫu đầu
vào và các đầu ra mong muốn (target values). Các cặp đƣợc cung cấp bởi
"thầy giáo", hay bởi hệ thống trên đó mạng hoạt động. Sự khác biệt giữa các
đầu ra thực tế so với các đầu ra mong muốn đƣợc thuật toán sử dụng để thích
ứng các trọng số trong mạng. Điều này thƣờng đƣợc đƣa ra nhƣ một bài toán
xấp xỉ hàm số - cho dữ liệu huấn luyện bao gồm các cặp mẫu đầu vào x, và

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-15-


một đích tƣơng ứng t, mục đích là tìm ra hàm f(x) thoả mãn tất cả các mẫu
học đầu vào.
1.5.2. Học không có thầy
Với cách học không có thầy, không có phản hồi từ môi trƣờng để chỉ ra
rằng đầu ra của mạng là đúng. Mạng sẽ phải khám phá các đặc trƣng, các điều

chỉnh, các mối tƣơng quan, hay các lớp trong dữ liệu vào một cách tự động.
Trong thực tế, đối với phần lớn các biến thể của học không có thầy, các đích
trùng với đầu vào. Nói một cách khác, học không có thầy luôn thực hiện một
công việc tƣơng tự nhƣ một mạng tự liên hợp, cô đọng thông tin từ dữ liệu
vào.
1.6. Hàm mục tiêu
Để huấn luyện một mạng và xét xem nó thực hiện tốt đến đâu, ta cần
xây dựng một hàm mục tiêu (hay hàm giá) để cung cấp cách thức đánh giá
khả năng hệ thống một cách không nhập nhằng. Việc chọn hàm mục tiêu là
rất quan trọng bởi vì hàm này thể hiện các mục tiêu thiết kế và quyết định
thuật toán huấn luyện nào có thể đƣợc áp dụng. Để phát triển một hàm mục
tiêu đo đƣợc chính xác cái chúng ta muốn không phải là việc dễ dàng. Một vài
hàm cơ bản đƣợc sử dụng rất rộng rãi. Một trong số chúng là hàm tổng bình
phƣơng lỗi (sum of squares error function):
 

 

P
p
N
i
pipi
yt
NP
E
1 1
2
1


Trong đó:
p: số thứ tự mẫu trong tập huấn luyện.
i: số thứ tự của đơn vị đầu ra.
t
pi
và y
pi
: tƣơng ứng là đầu ra mong muốn và đầu ra thực tế của mạng
cho đơn vị đầu ra thứ i trên mẫu thứ p.
Trong các ứng dụng thực tế, nếu cần thiết có thể làm phức tạp hàm số
với một vài yếu tố khác để có thể kiểm soát đƣợc sự phức tạp của mô hình.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

-16-


1.7. Mạng nơron truyền thẳng và giải thuật lan truyền ngƣợc
1.7.1. Kiến trúc cơ bản
Để đơn giản và tránh hiểu nhầm, mạng truyền thẳng xét trong chƣơng
này là các mạng truyền thẳng có nhiều lớp. Kiến trúc mạng truyền thẳng
nhiều lớp là kiến trúc chủ đạo của các mạng nơron hiện tại. Mặc dù có khá
nhiều biến thể nhƣng đặc trƣng của kiến trúc này là cấu trúc và thuật toán học
là đơn giản và nhanh (Masters 1993).
1.7.1.1. Mạng truyền thẳng
Một mạng truyền thẳng nhiều lớp bao gồm một lớp vào, một lớp ra và
một hoặc nhiều lớp ẩn. Các nơron đầu vào thực chất không phải các nơron
theo đúng nghĩa, bởi lẽ chúng không thực hiện bất kỳ một tính toán nào trên
dữ liệu vào, đơn giản nó chỉ tiếp nhận các dữ liệu vào và chuyển cho các lớp
kế tiếp. Các nơron ở lớp ẩn và lớp ra mới thực sự thực hiện các tính toán, kết

quả đƣợc định dạng bởi hàm đầu ra (hàm chuyển). Cụm từ “truyền thẳng”
(feed forward) (không phải là trái nghĩa của lan truyền ngƣợc) liên quan đến
một thực tế là tất cả các nơron chỉ có thể đƣợc kết nối với nhau theo một
hƣớng: tới một hay nhiều các nơron khác trong lớp kế tiếp (loại trừ các nơron
ở lớp ra).
Hình sau ở dạng tóm tắt biểu diễn mạng nơron:

Hình 1.8. Mạng nơron truyền thẳng nhiều lớp (MLP)
Trong đó:

×