Nguyễn Thị Phương Thủy - CH1101046
LỜI CẢM ƠN
Tôi xin chân thành cảm ơn thầy Giáo sư Tiến sĩ Khoa học Hoàng Kiếm đã
tận tình hướng dẫn tôi trong suốt quá trình học tập và thực hiện bài thu
hoạch.
1
Nguyễn Thị Phương Thủy - CH1101046
♦ MỤC LỤC
C. PHẦN MỞ ĐẦU 5
D. PHẦN NỘI DUNG 6
I. BẢN ĐỒ TỰ TỔ CHỨC ( SOM – SELF-ORGANIZING MAP) 6
1. Định nghĩa 6
2. Kiến trúc của SOM 6
3. Cấu trúc liên kết ( Topology) 7
4. Đào tạo 7
5. Nhận xét 10
6. Ứng dụng 10
II. ỨNG DỤNG CỦA SOM TRONG PHÂN LOẠI HẠNG TÍN DỤNG
( CREDIT RATING): 10
1. Giới thiệu 10
2. Phương pháp 12
E. PHẦN KẾT LUẬN 16
F. PHẦN TÀI LIỆU THAM KHẢO 17
2
Nguyễn Thị Phương Thủy - CH1101046
MỤC LỤC BẢNG
Bảng 1 : Phân hạng S&P 11
Bảng 2: So sánh khả năng thực hiện của các mô hình 15
3
Nguyễn Thị Phương Thủy - CH1101046
MỤC LỤC HÌNH
Hình 1 : Kiến trúc SOM 6
Hình 2 : Cấu trúc liên kết hình chữ nhật và hình lục giác 7
Hình 3 : Vùng lân cận của một node 7
Hình 4 : Hàm Gaussian bell, cone, cylinder và mexican hat 9
Hình 5 : Bản đồ đánh giá các công ty 13
Hình 6 : Dán nhãn phân hạng rating của S&P vào từng nhóm 14
B.
4
Nguyễn Thị Phương Thủy - CH1101046
C. PHẦN MỞ ĐẦU
Mạng neural nhân tạo có các mô hình học như: học giám sát, học không
giám sát và học tăng cường
Bài thu hoạch này, tôi xin trình bày và phân tích, theo ý kiến chủ quan của
mình, về một loại mô hình học không giám sát của mạng neural nhân tạo. Đó là
Bản đồ tự tổ chức SOM và trình bày một ứng dụng của SOM trong phân loại
hạng tín dụng.
5
Nguyễn Thị Phương Thủy - CH1101046
D. PHẦN NỘI DUNG
I. BẢN ĐỒ TỰ TỔ CHỨC ( SOM – SELF-ORGANIZING MAP)
1. Định nghĩa
Bản đồ tự tổ chức (SOM – Self-Organizing Map) hay bản đồ tự tổ chức tính
năng (SOFM – Self-Organizing Feature Map) hay Kohonen Map là một loại
mạng thần kinh nhân tạo được đào tạo học không giám sát, và không cần biết tới
đặc tính, kết quả của dữ liệu đầu vào, không tính toán kết quả đầu ra, trực quan
hóa số lượng không giới hạn dữ liệu đầu vào chiều cao vào không gian chiều
thấp, thường là một hoặc hai chiều, như tập hữu hạn của các node bố trí trong
một lưới với các nút láng giềng với nhau tương ứng với dữ liệu đầu vào tương tự
nhau.
2. Kiến trúc của SOM
Hình 1 : Kiến trúc SOM
- Output layer: bao gồm các node (neurons) bố trí trên một lưới XxY. Node
là một tế bào thần kinh, có vị trí xác định trên lưới, lưu giữ một vector
trọng số (codebook vector) với số chiều bằng số chiều của dữ liệu đầu
vào.
- Input vector: là các mẫu dữ liệu đào tạo có kích thước số chiều n.
6
Nguyễn Thị Phương Thủy - CH1101046
3. Cấu trúc liên kết ( Topology)
SOM thường là mảng 1 chiều hay mảng 2 chiều, ở dạng mảng 2 chiều, các
node được sắp xếp ở dạng liên kết hình chữ nhật hoặc liên kết hình lục giác như
hình 2. Cấu trúc liên kết cho phép định nghĩa các phần tử lân cận như hình 3
Hình 2 : Cấu trúc liên kết hình chữ nhật và hình lục giác
Hình 3 : Vùng lân cận của một node
4. Đào tạo
Đạo tào mạng SOM sử dụng học tập cạnh tranh. Khi một mẫu dữ liệu đưa
vào mạng, sẽ được tính khoảng cách Euclid (Euclidean distance) của nó với tất
cả các vector trọng lượng của mạng. Các tế bào thần kinh gần với đầu vào nhất
được gọi là đơn vị phù hợp tốt nhất hay phần tử chiến thắng (BMU - Best
Matching Unit). Vector trọng lượng của BMU, và các nút lân cận nó sẽ được
điều chỉnh lại. Tốc độ học và khoảng cách các nút lân cận sẽ giảm dần theo các
lần lặp.
Thuật toán đào tạo SOM:
7
Nguyễn Thị Phương Thủy - CH1101046
- Bước 1: Chuẩn hóa dữ liệu mẫu. Khởi tạo vector trọng lượng ban đầu cho
mạng.
- Bước 2: Chọn ngẫu nhiên một vector x trong tập dữ liệu mẫu
- Bước 3: Tính khoảng cách từ x tới tất cả các node j trên mạng
- Bước 4: Tìm node chiến thắng BMU i với khoảng cách d nhỏ nhất
d
i <=
d
j
(∀j≠i)
- Bước 5: Cập nhật trọng số cho node chiến thắng và các node lân cận ở lần
lặp t
Hàm lân cận ( Neighborhood function) có thể được tính theo
nhiều cách như sau: (hình 4)
• Gaussian Bell
• Mexican Hat
p là khoảng cách của node ij tới node chiến thắng, và hàm co nội suy σ(t)
được tính như sau:
8
Nguyễn Thị Phương Thủy - CH1101046
λ: hằng số thời gian
σ
0:
là chiều rộng khoảng cách lân cận tại thời điểm t
0,
thường bằng với
bán kính của lưới, được tính như sau:
σ
0
= max(Width, Height)/2
Hàm tốc độ học có thể là hàm nội suy tương tự hàm co nội suy σ(t)
- Bước 6: Duyệt hết các vector trong tập dữ liệu mẫu tương tự như từ bước
2 tới bước 5
- Bước 7: Giảm tốc độ học ( hàm tốc độ học ), giảm khoảng cách phần
tử lận cận ( hàm co nội suy σ(t)). Lặp từ bước 2 tới bước 6 cho tới khi hội
tụ hoặc đạt được số lần lặp N
Hình 4 : Hàm Gaussian bell, cone, cylinder và mexican hat
Có thể tham khảo một ví dụ đơn giản về đào tạo mạng neural đơn giản 2
neural với dữ liệu nhập 4 chiều ở tài liệu tham khảo [8]
9
Nguyễn Thị Phương Thủy - CH1101046
5. Nhận xét
- Việc lựa chọn số lượng tế bào thần kinh, mô hình liên kết ( kích thước
khuyến cáo là 10x15), số lần lặp, các giá trị khởi tạo cần phải qua quá
trình thử sai để tìm giá trị thích hợp cho dữ liệu đầu vào mẫu.
- Ưu điểm: dữ liệu đầu vào không cần có đặc tính kết quả hay phân nhóm
mà SOM sẽ phân nhóm chúng, bản đồ thành phần cho phép quan sát trực
quan theo từng biến của tập dữ liệu đa chiều.
- Nhược điểm: chi phí tính toán sẽ tăng cao khi số chiều của dữ liệu tăng
lên.
6. Ứng dụng
Ứng dụng chính của SOM là phân loại, phân nhóm, trực quan hóa số lượng
lớn dữ liệu mà có thể không có đặc tính kết quả hay phân lớp, ngoài ra có thể tự
động phân loại đầu vào mới. Ví dụ: nhận dạng hình ảnh ( chữ, số, khuôn mặt,
hình ảnh với nhiễu ), nhận dạng âm thanh, phân khúc thị trường, giám sát phát
hiện lỗi của máy, điều khiển robot,
Một số ứng dụng, như các mạng neural khác, sử dụng kết quả phân nhóm từ
SOM của tập dữ liệu mẫu chưa được phân loại, phân nhóm như dữ liệu đầu vào.
II. ỨNG DỤNG CỦA SOM TRONG PHÂN LOẠI HẠNG TÍN DỤNG (
CREDIT RATING):
1. Giới thiệu
Các nhà đầu tư cần những thông tin đánh giá về khả năng của các doanh
nghiệp để quyết định đầu tư. Nó tốn nhiều nguồn lực và thời gian để thực hiện.
Do đó, cần có mô hình đánh giá sâu sắc nhưng chi phí thấp hơn, tốn kém ít thời
gian hơn.
Theo công ty Standard & Poor’s sử dụng 2 cách tiếp cận để đánh giá:
10
Nguyễn Thị Phương Thủy - CH1101046
- Phân tích định tính ( dựa trên chiến lược của công ty, triển vọng kinh
tế, )
- Phân tích định lượng ( dựa trên các báo cáo tài chính)
Quy mô đánh giá phân hạng và mã phân hạng theo S&P như sau:
Phân hạng S&P Mã phân hạng Giải thích
AAA
22
Chất lượng cao nhất, nguy cơ
đầu tư tối thiểu
AA+ 21
Chất lượng cao, rủi ro đầu tư ítAA 20
AA- 19
A+ 18
Khả năng thanh toán mạnh, đầu
tư thuận lợi
A 17
A- 16
BBB+ 15
Khả năng thanh toán đầy đủ, có
một số đặc tính đầu tư
BBB 14
BBB- 13
BB+ 12
Có đặc tính đầu tưBB 11
BB- 10
B+ 9
Rủi ro caoB 8
B- 7
CCC+ 6
Hiện tại mặc định dễ bị tổn
thương
CCC 5
CCC- 4
CC 3
C 2 Phá sản
D 1 Mặc định
Bảng 1 : Phân hạng S&P
Bài toán là xây dựng một công cụ để đánh giá các công ty vào các phân hạng
của S&P. Công cụ này sử dụng SOM để gom nhóm từ dữ liệu đầu vào là các báo
cáo tài chính, sau đó tương ứng các nhóm này với các phân hạng của S&P, từ đó
đưa ra mô hình để đánh giá phân hạng tín dụng của công ty.
11
Nguyễn Thị Phương Thủy - CH1101046
2. Phương pháp
a. Dữ liệu:
Dữ liệu mẫu là 18 hạng mục tài chính ( financial ratios) khác nhau (như thu
nhập trước thuế và lãi, tổng nợ, nợ dài hạn, nợ ngắn hạn, nợ phải trả, tổng vốn )
của các báo cáo tài chính của hơn 300 công ty trong cùng một khu vực lấy ra từ
các phân hạng của S&P. Chúng mô tả đặc tính tài chính của công ty.
b. Phương pháp
Kỹ thuật SOM là công cụ cơ bản để xây dựng mô hình, sử dụng phần mềm
Viscovery SOMine software package (Eudaptics, 1999).
Các bước thực hiện như sau:
(1) Tiền xử lý dữ liệu đầu vào:
Xử lý các giá trị thiếu, ngoại lai của dữ liệu, chuyển đổi kích thước biến và
chuẩn hóa.
(2) Sử dụng SOM để gom nhóm ( Clustering) và trực quan hóa
( Visualization):
♦ Khi áp dụng thuật toán SOM, cần chú ý trong việc lựa chọn các thông số
như số lượng tế bào thần kinh, các biến
Khởi tạo luyện SOM với 500 tế bào thần kinh. Lặp đi lặp lại nhiều lần quá
trình loại bỏ biến, luyện SOM và đánh giá các phân nhóm, cho tới khi các lựa
chọn được cho là đúng và các phân nhóm không thay đổi, hoặc được cải thiện.
♦ Bản đồ cuối cùng như trong hình 5. Các công ty được gom thành 8
nhóm, mỗi nhóm có đặc điểm tài chính tương tự nhau. Dựa trên dữ liệu các công
ty của từng nhóm, và tham khảo các ý kiến của các chuyên gia, tương ứng từng
nhóm với mức độ tín dụng như sau:
12
Nguyễn Thị Phương Thủy - CH1101046
Nhóm 2 Healthy – Khỏe mạnh: lãi xuất bảo hiểm cao, ít đòn bẩy tài chính,
lợi nhuận cao, tăng trưởng cao, rủi ro thấp, không phải luôn là công ty lớn nhất
Nhóm 4 Large, stable – Lớn, ổn định: công ty lớn, ổn định với mức lợi nhuận
cao, mức lãi xuất bảo hiểm thấp hơn
Nhóm 1, 3, 8 Average – Trung bình: các công ty trung bình không có tính
năng nổi bật
Nhóm 5 Small – Nhỏ: lãi xuất bảo hiểm thấp, các công ty này phát triển
không nhiều
Nhóm 6 Underperformers – Dưới mức chuẩn: lãi xuất bảo hiểm rất thấp
thậm chí không có lợi nhuận, dự báo lợi nhuận tiêu cực
Nhóm 7 Unstable – Không ổn định: tăng trưởng không ổn định, thị trường
nhận định rủi ro rất cao.
Hình 5 : Bản đồ đánh giá các công ty
♦ Kiểm tra mô hình SOM vừa tìm được với đánh giá của S&P bằng cách
dán nhãn tương ứng với mỗi công ty trên bản đồ bằng phân hạng đánh giá của
13
Nguyễn Thị Phương Thủy - CH1101046
S&P như trong hình 6, với màu sáng là xếp hạng cao hơn, và màu tối là xếp hạng
thấp hơn.
Hình 6 : Dán nhãn phân hạng rating của S&P vào từng nhóm
Nhận thấy phù hợp, những công ty thuộc nhóm 2 khỏe mạnh, nhóm 4 lớn-ổn
định được xếp hạng tín dụng cao nhất trên bản đồ và ngược lại. Trên hình, có
một số công ty xếp hạng tốt nhưng được đánh giá thấp hơn. Tuy nhiên S&P đánh
giá theo cả định lượng và định tính, mà trong khi nghiên cứu này chỉ đánh giá
theo định lượng.
(3) Tạo ra mô hình phân loại SOM
Bằng cách đào tạo với nhiều tập dữ liệu và tập kiểm tra riêng biệt, để tìm ra
một mô hình phân loại tối ưu dựa trên tiêu chuẩn đánh giá hiệu suất lỗi trung
bình Mean Absolute Error (MAE), có thể kết hợp với phương pháp học bán giám
sát (Semi- supervised learning) để cho ra mô hình tốt hơn.
Để phân hạng một công ty mới thực hiện các bước sau:
- Tính vị trí tương ứng của công ty trên bản đồ.
14
Nguyễn Thị Phương Thủy - CH1101046
- Vị trí đó tương ứng với phân nhóm nào.
(4) So sánh với các mô hình khác
Mô hình MAE R2
SOM 1.48 0.64
Liner regression 1.48 0.65
Ordered logit 1.38 0.66
Bảng 2: So sánh khả năng thực hiện của các mô hình
15
Nguyễn Thị Phương Thủy - CH1101046
E. PHẦN KẾT LUẬN
Bản đồ tự tổ chức SOM được đánh giá sử dụng tốt hơn các phương pháp
khác trong khá nhiều ứng dụng kỹ thuật, công nghệ, y tế, kinh doanh SOM cho
phép phân nhóm, trực quan hóa số lượng lớn dữ liệu đầu vào đa chiều, từ đó lập
mô hình phân nhóm Trong phần trình bày cho thấy được sự phù hợp của
phương pháp SOM trong ứng dụng phân hạng tín dụng.
SOM còn được mở rộng thành rất nhiều biến thể khác như bản đồ sinh địa
hình ( GTM - Generative topographic map), bản đồ tự tổ chức thích nghi thời
gian ( TASOM - The time adaptive self-organizing), bản đồ tổ chức tự phát triển
( GSOM - Growing self-organizing map)
16
Nguyễn Thị Phương Thủy - CH1101046
F. PHẦN TÀI LIỆU THAM KHẢO
[1] GS.TS Hoàng Kiếm, bài giảng Powerpoint môn Công Nghệ Tri Thức và Ứng
dụng (cao học), 2012
[2] WikiPedia, Artificial neural network, Unsupervised learning, Self-organizing
map,
/>[3] Jaakko Hollmen, SOM, />[4] David Kriesel, A Brief Introduction to Neural Networks,
/>[5] Kate Smith, Jatinder Gupta, Neural Networks in Bussiness: Techniques and
Applications, Idea Group Publishing, 2002
[6] MediaWiki, Introduction to Neural Networks Course, Session 12:
Programming a Self Organizing Map,
/>[7] Bashir Magomedov, Self-Organizing Feature Maps (Kohonen maps),
/>Kohonen-maps
[8] BIS, chucnv, Giới thiệu kỹ thuật Self Organizing Map (SOM),
/>[9] Cao Thắng, Một số ví dụ phân loại dùng SOM và MLP Neural Network,
/>17