ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ THẢO
TÌM HIỂU MỘT SỐ MÔ HÌNH KHAI PHÁ DỮ LIỆU THỜI
GIAN THỰC ÁP DỤNG VÀO BÀI TOÁN DỰ BÁO ỨNG
DỤNG TRONG PHÂN TÍCH SỐ LIỆU TÀI CHÍNH
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
HÀ NỘI - 2015
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ THẢO
TÌM HIỂU MỘT SỐ MÔ HÌNH KHAI PHÁ DỮ LIỆU THỜI
GIAN THỰC ÁP DỤNG VÀO BÀI TOÁN DỰ BÁO ỨNG
DỤNG TRONG PHÂN TÍCH SỐ LIỆU TÀI CHÍNH
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN HÀ NAM
HÀ NỘI – 2015
1
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Tìm hiểu một số mô hình khai phá dữ liệu thời gian
thực áp dụng vào bài toán dự báo ứng dụng trong phân tích số liệu tài chính" là công
trình nghiên cứu của riêng tôi. Các số liệu, kết quả được trình bày trong luận văn là
hoàn toàn trung thực và chưa được công bố trên bất cứ công trình nào khác. Tôi đã
trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan. Ngoại trừ các
tài liệu tham khảo này, luận văn hoàn toàn là nghiên cứu của riêng tôi.
Luận văn được hoàn thành trong thời gian tôi là học viên tại Khoa Công nghệ
Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội.
Hà Nội, ngày 25 tháng 05 năm 2015
Học viên
Phạm Thị Thảo
2
LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS.
Nguyễn Hà Nam đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện luận văn tốt
nghiệp.
Tôi xin trân trọng cảm ơn các Thầy, Cô giáo đã tận tình chỉ dạy, cung cấp cho tôi
những kiến thức quý báu và luôn nhiệt tình giúp đỡ, tạo điều kiện thuận lợi nhất trong
suốt quá trình tôi học tập tại trường Đại học Công nghệ.
Tôi xin gửi lời cảm ơn tới các bạn trong nhóm do thầy Nguyễn Hà Nam hướng
dẫn đã luôn sát cánh và hỗ trợ cho tôi trong suốt quá trình học tập cũng như quá trình
làm luận văn.
Cuối cùng, tôi muốn được gửi lời cảm ơn tới gia đình, đồng nghiệp và bạn bè,
những người luôn bên cạnh, động viên và tạo điều kiện tốt nhất cho tôi trong suốt quá
trình học tập và thực hiện luận văn tốt nghiệp.
Tôi xin chân thành cảm ơn!
3
MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... 5
LỜI CẢM ƠN ............................................................................................................ 2
MỤC LỤC .................................................................................................................. 3
BẢNG CÁC TỪ VIẾT TẮT...................................................................................... 5
DANH MỤC BẢNG BIỂU ........................................................................................ 6
DANH MỤC CÁC HÌNH VẼ, BIỂU ĐỒ ................................................................. 7
MỞ ĐẦU .................................................................................................................... 8
Chương 1. MỘT SỐ KIẾN THỨC CƠ BẢN VỀ TÀI CHÍNH ............................. 10
1.1
Một số khái niệm về tài chính ....................................................................... 10
1.1.1
Phân tích tài chính .................................................................................. 10
1.1.2
Phương pháp phân tích tài chính ............................................................ 10
1.1.3
Dự báo tình hình tài chính ...................................................................... 12
1.2
Phân tích kỹ thuật trong dự báo thị trường chứng khoán ............................... 12
1.2.1
Thị trường chứng khoán ......................................................................... 12
1.2.2
Phân tích kỹ thuật................................................................................... 13
1.3
Kết luận ........................................................................................................ 16
Chương 2. MỘT SỐ MÔ HÌNH TRONG BÀI TOÁN DỰ BÁO .......................... 17
2.1
Tổng quan về khai phá dữ liệu thời gian thực ............................................... 17
2.2
Phân lớp dữ liệu............................................................................................ 19
2.3
Một số mô hình dùng trong khai phá dữ liệu thời gian thực .......................... 20
2.3.1
Mô hình mạng nơ-ron nhân tạo (ANN – Artificial Neural Network) ...... 20
2.3.2
Mô hình máy vector hỗ trợ (SVM) ......................................................... 34
2.4
Mô hình ARIMA .......................................................................................... 38
2.4.1
Hàm tự tương quan ACF ........................................................................ 38
2.4.2
Hàm tự tương quan từng phần PACF ..................................................... 39
2.4.3
Quá trình tự hồi quy AR(p) .................................................................... 42
2.4.4
Quá trình trung bình trượt MA(q)........................................................... 42
2.5
Kết luận ........................................................................................................ 43
Chương 3. PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN....................................... 44
4
3.1
Giới thiệu bài toán ........................................................................................ 44
3.2
Xây dựng mô hình ........................................................................................ 44
3.3
Thu thập và tiền xử lý dữ liệu ....................................................................... 46
3.3.1
Thu thập dữ liệu ..................................................................................... 46
3.3.2
Tiền xử lý dữ liệu ................................................................................... 47
3.4
Tổ chức dữ liệu............................................................................................. 49
3.5
Huấn luyện mạng.......................................................................................... 49
3.6
Đánh giá mô hình và dự báo kết quả ............................................................. 51
3.7
Kết luận ........................................................................................................ 52
Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ........................................................ 53
4.1
Môi trường thực nghiệm ............................................................................... 53
4.2
Dữ liệu dùng trong thực nghiệm ................................................................... 53
4.3
Kết quả thực nghiệm..................................................................................... 57
4.3.1
Kết quả chạy với mô hình ANN ............................................................. 57
4.3.2
Kết quả chạy với mô hình máy vector hỗ trợ (SVM) .............................. 60
4.3.3
Kết quả chạy với mô hình ARIMA ........................................................ 65
4.4
So sánh và đánh giá kết quả .......................................................................... 66
4.5
Kết luận ........................................................................................................ 69
KẾT LUẬN .............................................................................................................. 70
TÀI LIỆU THAM KHẢO ....................................................................................... 71
5
BẢNG CÁC TỪ VIẾT TẮT
Viết tắt
MA
EMA
Tên đầyđủ
Moving Average
Exponential Moving Average
RSI
Relative Strength Index
NN
Neural Network
ANN
Artificial Neural Network
SVM
Support Vector Machine
KDD
Knowledge Discorvery and Data Mining
PTKT
Phân tích kỹ thuật
DM
Data mining
MLP
Multi-Layer Perceptron
ARIMA
Autoregressive integrated moving average
DN
Doanh nghiệp
CK
Chứng khoán
PTKT
Phân tích kỹ thuật
6
DANH MỤC BẢNG BIỂU
Bảng 2.1 Các hàm chuyển ......................................................................................... 25
Bảng 3.1 Tổ chức dữ liệu IBM .................................................................................. 46
Bảng 3.2 Tổ chức dữ liệu của mô hình ....................................................................... 48
Bảng 4.1 Các trường hợp của tham số đầu vào mạng nơ-ron ..................................... 59
Bảng 4.2 Kết quả độ chính xác đối với mô hình ANN ............................................... 67
Bảng 4.3 Kết quả độ chính xác đối với mô hình SVM ............................................... 68
Bảng 4.4 So sánh kết quả trung bình giữa mô hình ANN và SVM ............................. 68
Bảng 4.5 Kết quả đưa ra lời khuyên cho người dùng.................................................. 68
7
DANH MỤC CÁC HÌNH VẼ, BIỂU ĐỒ
Hình 1.1 Biểu đồ dạng đường .................................................................................... 14
Hình 1.2 Biểu đồ dạng then chắn ............................................................................... 15
Hình 1.3 Kí tự trong biểu đồ dạng then chắn .............................................................. 15
Hình 1.4 Biểu đồ dạng cây nến .................................................................................. 16
Hình 2.1 Mô hình khai phá dữ liệu............................................................................. 17
Hình 2.2 Mô hình nơ-ron sinh học ............................................................................. 20
Hình 2.3 Cấu trúc của một nơ-ron .............................................................................. 22
Hình 2.4 Cách tính hàm tổng ..................................................................................... 23
Hình 2.5 Cấu trúc của mạng nơ-ron ........................................................................... 24
Hình 2.6 Hàm sigmoid ............................................................................................... 32
Hình 2.7 Siêu phẳng phân chia dữ liệu theo phương pháp SVM ................................ 35
Hình 2.8 Minh họa bài toán phân lớp nhị phân bằng phương pháp SVM ................... 36
Hình 2.9 Ví dụ về chiều hướng giảm đều khác nhau [2]............................................. 41
Hình 3.1 Mô hình dự báo đề xuất............................................................................... 45
Hình 3.2 Tạo tập huấn luyện trong mạng nơ-ron ........................................................ 50
Hình 3.3 Quá trình dự đoán trong mô hình mạng nơ-ron ............................................ 52
Hình 4.1 Giá đóng cửa và số lượng giao dịch............................................................. 54
Hình 4.2 Biểu đồ thể hiện tính mùa vụ của close và volume ...................................... 54
Hình 4.3 Đồ thị giá đóng cửa và MA10, MA20 ......................................................... 55
Hình 4.4 Đồ thị biểu diễn giá đóng cửa, MA10 và EMA............................................ 55
Hình 4.5 Kết quả dự đoán của mô hình mạng nơ-ron ................................................. 58
Hình 4.6 Kết quả dự đoán mô hình mạng nơ-ron với bộ tham số tối ưu ..................... 59
Hình 4.7 Mô hình mạng nơ-ron với bộ tham số tối ưu theo phương pháp vét cạn....... 60
Hình 4.8 Kết quả dự đoán của mô hình SVM............................................................. 61
Hình 4.9 Mô hình dự đoán SVM tối ưu theo phương pháp vét cạn............................. 62
Hình 4.10 Sơ đồ quá trình kết hợp giải thuật GA –SVM ............................................ 63
Hình 4.11 Kết quả mô hình dự đoán SVM tối ưu theo phương pháp GA ................... 64
Hình 4.12 Kết quả dự đoán bằng mô hình ARIMA kết hợp phương pháp vét cạn ...... 66
8
MỞ ĐẦU
Dữ liệu tài chính luôn là nguồn dữ liệu vô cùng phong phú trong giai đoạn hiện
nay. Đặc biệt, sự phát triển mạnh mẽ của công nghệ thông tin cùng mạng internet đã
giúp con người có thể dễ dàng tiếp cận với kho dữ liệu khổng lồ đó. Tuy nhiên, trên
thực tế, con người cần phải biết chắt lọc, chọn lựa những thông tin có ích nhằm phân
tích, khai thác, phát hiện tri thức bên trong dữ liệu đó một cách hiệu quả. Các phương
pháp quản trị và khai thác dữ liệu thủ công, truyền thống tỏ ra kém hiệu quả trước nhu
cầu khai thác và phát hiện thông tin trong giai đoạn hiện nay. Từ đó, kỹ thuật phát hiện
tri thức và khai phá dữ liệu (KDD – Knowledge Discorvery and Data Mining) ra đời
đã đem lại hiệu quả cao trong vấn đề khai thác và phát hiện tri thức, áp dụng trên nhiều
lĩnh vực khác nhau, đặc biệt là trong quản lý vĩ mô và kinh doanh mà cụ thể hơn nữa
là trong thị trường chứng khoán.
Việc dự đoán thị trường chứng khoán là một bài toán đang được nhiều người
quan tâm. Sự không tuyến tính của thị trường kèm theo đó là tác động của nhiều yếu tố
bên ngoài cũng làm ảnh hưởng tới quá trình thay đổi của thị trường chứng khoán. Vì
vậy, làm thế nào để dự đoán chính xác được sự lên xuống của thị trường là một bài
toán mà mọi nhà đầu tư đều quan tâm, tìm hiểu, nghiên cứu và phân tích.
Đã có rất nhiều nghiên cứu trên thế giới (trong đó có Việt Nam) về bài toán dự
báo thị trường chứng khoán sử dụng các mô hình khai phá dữ liệu khác nhau. Năm
2001, Efstathios Kalyvas đã phân tích thị trường chứng khoán sử dụng mô hình mạng
nơ-ron và đạt được những kết quả nhất định. Và mới đây, năm 2007 trong luận văn
thạc sĩ của học viên Phạm Thị Hoàng Nhung (ĐHQGHN) cũng đã nghiên cứu về
mạng nơ-ron ứng dụng vào dự báo lưu lượng nước đến hồ Hòa Bình với kết quả dự
báo chính xác lớn trên 80%.
Trong khuôn khổ của luận văn, tác giả tập trung tìm hiểu nghiên cứu về một số
mô hình khai phá dữ liệu thời gian thực áp dụng cho bài toán phân tích thị trường
chứng khoán, cụ thể là mô hình mạng nơ-ron nhân tạo, mô hình máy vector hỗ trợ và
mô hình arima. Mục tiêu của luận văn là áp dụng giải thuật gen di truyền để tối ưu mô
hình mạng nơ-ron và mô hình máy vector hỗ trợ, từ đó so sánh, đánh giá để tìm ra mô
hình phù hợp hơn với bộ dữ liệu ban đầu. Sau đó, luận văn sẽ đưa ra lời khuyên cho
người chơi là nên mua, bán hay giữ nguyên cổ phiếu trong phiên tiếp theo.
Luận văn được trình bày trong 4 chương như sau:
Chương 1: Một số khái niệm cơ bản về tài chính
Trong chương này, tác giả sẽ giới thiệu một số khái niệm cơ bản về tài chính và
thị trường chứng khoán. Chương 1 của luận văn tập trung đi nghiên cứu về các chỉ số
cơ bản trong chứng khoán và phân tích kỹ thuật ứng dụng trong dự báo chứng khoán.
Chương 2: Tổng quan về khai phá dữ liệu thời gian thực
9
Chương này giới thiệu tổng quan về khai phá dữ liệu thời gian thực và một số mô
hình dùng trong khai phá dữ liệu như mô hình mạng nơ-ron nhân tạo (ANN), mô hình
máy vector hỗ trợ (SVM) và mô hình Arima.
Chương 3: Mô hình dự báo thị trường chứng khoán
Chương 3 tập trung vào tìm hiểu về mô hình dự báo trong thị trường chứng
khoán. Nội dung chủ yếu là lý thuyết tìm hiểu về quy trình trong bài toán khai phá dữ
liệu áp dụng cho dự báo thị trường chứng khoán như: giới thiệu về bài toán, xây dựng
mô hình, thu thập và tiền xử lý dữ liệu, đánh giá mô hình.
Chương 4: Thực nghiệm và đánh giá
Nội dung chủ yếu của chương 4 là ứng dụng 3 mô hình đã nghiên cứu để dự báo
thị trường chứng khoán. Mỗi mô hình lần lượt được chạy trên bộ tham số ngẫu nhiên,
bộ tham số tối ưu sử dụng phương pháp vét cạn và bộ tham số sau khi đã tối ưu sử
dụng phương pháp học máy (cụ thể là phương pháp gen di truyền). Từ đó so sánh,
đánh giá kết quả và đưa ra lựa chọn mô hình phù hợp với bộ dữ liệu cũng như lời
khuyên cho người dùng.
10
Chương 1. MỘT SỐ KIẾN THỨC CƠ BẢN VỀ TÀI CHÍNH
1.1 Một số khái niệm về tài chính
1.1.1 Phân tích tài chính
Các hệ thống tài chính chứa đựng một kho dữ liệu khổng lồ, phức tạp. Việc phân
tích tài chính là một nghiệp vụ cần thiết nhằm đánh giá tình hình kinh tế của đất nước,
của từng ngành, từng địa phương và trên cơ sở đó xác định được nhu cầu cần thiết của
xã hội và có những định hướng thỏa đáng. Đối với doanh nghiệp và các nhà đầu tư thì
việc đánh giá, phân tích hoạt động kinh doanh nhằm nắm bắt tình hình tài chính, kinh
doanh của doanh nghiệp, giúp họ đưa ra những phương hướng, quyết định đúng đắn
trong hoạt động kinh doanh, giúp doanh nghiệp tồn tại và phát triển theo một hướng đi
tốt.
Vậy Phân tích hoạt động tài chính doanh nghiệp là quá trình thu thập, xử lý các
thông tin kế toán, nhằm xem xét, kiểm tra, đối chiếu, so sánh tài chính hiện hành với
quá khứ, giúp người sử dụng thông tin có thể đánh giá tình hình tài chính DN, đánh giá
về tiềm năng, hiệu quả kinh doanh cũng như rủi ro trong tương lai.
Ý nghĩa của việc phân tích tài chính có giá trị khác nhau tùy thuộc vào mục đích,
nhu cầu của người sử dụng. Đối với chủ doanh nghiệp và các nhà quản trị doanh
nghiệp, mối quan tâm hàng đầu của họ là tìm kiếm lợi nhuận và khả năng tài trợ. Đối
với các nhà đầu tư thì mối quan tâm của họ là các yếu tố rủi ro, thời gian hoàn vốn,
mức sinh lãi và khả năng thanh toán vốn. Một điều chung ở đây ta nhận ra là họ đều
quan tâm đến khả năng tạo ra dòng tiền, khả năng sinh lời, khả năng thanh toán và
mức sinh lời tối đa.
Tuy nhiên, để phân tích được chính xác thì cần có một thông tin đầy đủ, chính
xác để giúp họ có quyết định đúng đắn khi ra quyết định đầu tư, cho vay, sản xuất...
Đây là ý nghĩa quan trọng nhất của việc phân tích tài chính doanh nghiệp nói riêng và
phân tích tình hình tài chính của một quốc gia nói chung.
1.1.2 Phương pháp phân tích tài chính
Để tiến hành phân tích tài chính, thông thường người ta sử dụng kết hợp nhiều
phương pháp phân tích để đánh giá tình hình doanh nghiệp một cách xác thực và tối
ưu.
Phương pháp chủ yếu hiện nay là phương pháp so sánh và phân tích tỉ lệ [1].
Phương pháp so sánh:
So sánh là phương pháp được sử dụng phổ biến trong phân tích để xác định xu
hướng, mức độ biến động của chỉ tiêu phân tích. Vì vậy để tiến hành so sánh phải giải
quyết những vấn đề cơ bản, cần phải đảm bảo các điều kiện đồng bộ để có thể so sánh
11
được các chỉ tiêu tài chính. Như sự thống nhất về không gian, thời gian, nội dung, tính
chất và đơn vị tính toán. Đồng thời theo mục đích phân tích mà xác định gốc so sánh.
Khi nghiên cứu nhịp độ biến động, tốc độ tăng trưởng của các chỉ tiêu số gốc để
so sánh là trị số của chỉ tiêu kỳ trước (nghĩa là năm nay so với năm trước ) và có thể
được lựa chọn bằng số tuyệt đối, số tương đối hoặc số bình quân.
Kỳ phân tích được lựa chọn là kỳ báo cáo, kỳ kế hoạch.
Gốc so sánh được chọn là gốc về thời gian hoặc không gian. Trên cơ sở đó, nội
dung của phương pháp so sánh bao gồm:
- So sánh kỳ thực hiện này với kỳ thực hiện trước để đánh giá sự tăng hay giảm
trong hoạt động kinh doanh của doanh nghiệp và từ đó có nhận xét về xu hướng thay
đổi về tài chính của doanh nghiệp.
- So sánh số liệu thực hiện với số liệu kế hoạch, số liệu của doanh nghiệp với số
liệu trung bình của ngành, của doanh nghiệp khác để thấy mức độ phấn đấu của doanh
nghiệp được hay chưa được.
- So sánh theo chiều dọc để xem tỷ trọng của từng chỉ tiêu so với tổng thể, so sánh
theo chiều ngang của nhiều kỳ để thấy được sự thay đổi về lượng và về tỷ lệ của các
khoản mục theo thời gian.
Phương pháp phân tích tỷ lệ.
Phương pháp này được áp dụng phổ biến trong phân tích tài chính vì nó dựa trên
ý nghĩa chuẩn mực các tỷ lệ của đại lượng tài chính trong các quan hệ tài chính.
Phương pháp tỷ lệ giúp các nhà phân tích khai thác có hiệu quả những số liệu và
phân tích một cách có hệ thống hàng loạt tỷ lệ theo chuỗi thời gian liên tục hoặc theo
từng giai đoạn. Qua đó nguồn thông tin kinh tế và tài chính được cải tiến và cung cấp
đầy đủ hơn. Từ đó cho phép tích lũy dữ liệu và thúc đẩy quá trình tính toán hàng loạt
các tỷ lệ như:
- Tỷ lệ về khả năng thanh toán: Được sử dụng để đánh giá khả năng đáp ứng các
khoản nợ ngắn hạn của doanh nghiệp.
- Tỷ lệ và khả năng cân đối vốn, cơ cấu vốn và nguồn vốn: Qua chỉ tiêu này
phản ánh mức độ ổn định và tự chủ tài chính.
- Tỷ lệ về khả năng hoạt động kinh doanh: Đây là nhóm chỉ tiêu đặc trưng cho
việc sử dụng nguồn lực của doanh nghiệp.
- Tỷ lệ về khả năng sinh lời: Phản ánh hiệu quả sản xuất kinh doanh tổng hợp
nhất của doanh nghiệp.
Kết luận: Các phương pháp trên nhằm tăng hiệu quả phân tích. Chúng ta sẽ sử
dụng kết hợp và sử dụng thêm một số phương pháp bổ trợ khác như phương pháp liên
12
hệ, phương pháp loại trừ nhằm tận dụng đầy đủ các ưu điểm của chúng để thực hiện
mục đích nghiên cứu một cách tốt nhất.
1.1.3 Dự báo tình hình tài chính
Dự báo tình hình tài chính là một yêu cầu cần thiết để kế hoạch hoá tài chính
ngắn hạn có hiệu quả. Thay cho việc phán quyết, các dự báo được dựa vào các nguồn
dữ liệu và các phương pháp dự báo khác nhau. Nhưng nhìn chung, chủ yếu vẫn sử
dụng các mô hình kinh tế lượng, các tính toán qua lại của các biến số kinh tế. Trong
các trường hợp khác, nhà dự báo tài chính có thể sử dụng các phương pháp thống kê
trong việc phân tích và dự tính các chuỗi thời gian.
Nội dung dự kiến bao gồm:
- Phân tích các lựa chọn về tài trợ và đầu tư của DN
- Dự tính các hiệu ứng tương lai của của các quyết định hiện tại.
- Quyết định thực hiện phương án nào.
- So sánh các kết quả hoạt động và các mục tiêu lập ra ban đầu.
Để làm được điều này, cần phải sử dụng các nhóm chỉ tiêu tài chính đặc trưng
của DN trong quá khứ để làm căn cứ, cơ sở khoa học cho việc xây dựng một hệ thống
các báo cáo tài chính dự kiến.
Các dự báo tổng hợp có tính nhất quán về doanh thu, luồng tiền, thu nhập và các
dự báo khác là rất phức tạp và tốn nhiều thời gian. Tuy nhiên, nhiều tính toán cần thiết
có thể được thực hiện một cách tự động bởi mô hình kế hoạch. Bằng cách đó, sản
phẩm của nhà phân tích tài chính trong hoạch định tài chính sẽ là một hệ thống các
bảng cân đối tài sản, báo cáo thu nhập và báo cáo luồng tiền dự tính. Số liệu trong dự
báo có thể là con số trung gian nào đó giữa số dự báo thực và số thực tế kỳ vọng đạt
tới.
1.2
Phân tích kỹ thuật trong dự báo thị trường chứng khoán
1.2.1 Thị trường chứng khoán
Thị trường chứng khoán là một bộ phận quan trọng của Thị trường vốn, hoạt
động của nó nhằm huy động những nguồn vốn tiết kiệm nhỏ trong xã hội tập trung
thành nguồn vốn lớn tài trợ cho doanh nghiệp, các tổ chức kinh tế và Chính phủ để
phát triển sản xuất, tăng trưởng kinh tế hay cho các dự án đầu tư.
Thị trường chứng khoán là nơi diễn ra các hoạt động giao dịch mua bán các loại
chứng khoán. Việc mua bán được tiến hành ở hai thị trường sơ cấp và thứ cấp, do vậy
thị trường chứng khoán là nơi chứng khoán được phát hành và trao đổi.
Các hình thức của thị trường chứng khoán bao gồm: thị trường tập trung, thị
trường phi tập trung và thị trường chợ đen.
13
Với mỗi một mã chứng khoán trên sàn giao dịch đều bao gồm các chỉ số cơ bản
như:
- Cột giá tham chiếu: Là giá đóng cửa của ngày giao dịch trước đó và là cơ sở để
xác định giá trần, giá sàn của ngày giao dịch hiện tại.
- Cột giá trần: Là mức giá cao nhất mà nhà đầu tư có thể đặt lệnh mua, lệnh bán
chứng khoán.
- Cột giá mở cửa: Là mức giá thực hiện đầu tiên trong ngày giao dịch.
- Cột giá đóng cửa: Là mức giá thực hiện cuối cùng trong ngày giao dịch.
- Cột giá khớp lệnh: Là mức giá tại đó khối lượng CK được giao dịch nhiều nhất.
- Cột khối lượng khớp lệnh: Là khối lượng CK được thực hiện tại giá khớp lệnh.
- Cột chênh lệch (+/-): Là thay đổi của mức giá hiện tại so với giá tham chiếu trong
ngày giao dịch (= giá hiện tại – giá tham chiếu).
- Cột mua: Gồm 6 cột biểu thị cho 3 mức giá đặt mua cao nhất tương ứng với các
khối lượng đặt mua tại các mức giá cao nhất đó. Khi kết thúc phiên giao dịch Bảng
điện tử sẽ hiện thị các thông tin về khối lượng CK tương ứng với các mức giá chưa
được khớp lệnh (dư mua).
- Cột bán: Gồm 6 cột biểu thị cho 3 mức giá đặt bán thấp nhất tương ứng với các
khối lượng đặt bán tại các mức giá thấp nhất đó. Khi kết thúc phiên giao dịch Bảng
điện tử sẽ hiện thị các thông tin về khối lượng CK tương ứng với các mức giá chưa
được khớp lệnh (dư bán và dư mua).
1.2.2 Phân tích kỹ thuật
Khái niệm:
Phân tích kỹ thuật (PTKT) là việc nghiên cứu giá, với công cụ cơ bản là biểu đồ,
nhằm nâng cao hiệu quả của hoạt động đầu tư. PTKT nghiên cứu các hành vi của các
bên tham gia thị trường thông qua sự biến động của giá, khối lượng chứng khoán giao
dịch nhằm xác định được xu thế biến động giá và thời điểm đầu tư.
Phân tích kỹ thuật dựa trên giả định rằng lịch sử lặp lại và hướng thị trường trong
tương lai có thể được xác định bằng cách kiểm tra giá vừa qua. Do đó, phân tích kỹ
thuật là chủ quan và mâu thuẫn với giả thuyết thị trường hiệu quả. Tuy nhiên, nó vẫn
được sử dụng khoảng 90% khi thực hiện đánh giá để giao dịch các cổ phiếu [8].
PTKT sử dụng ba giả thiết sau:
Giá trị thị trường của bất kỳ sản phẩm hay dịch vụ nào đều được xác lập thông
qua cung cầu của thị trường.
14
- Cung cầu của thị trường được xác lập dựa trên một hệ thống các yếu tố hợp
nhất hoặc đôi khi phi hợp nhất và thị trường sẽ cân đối các trọng số này liên tục và tự
động.
- Loại bỏ những dao động bất thường, giá cả của một chứng khoán đơn lẻ hay
toàn bộ giá cả của thị trường có xu thế thay đổi theo một khuynh hướng (trend), và nó
tồn tại trong một khoảng thời gian nhất định.
- Sự thay đổi trong khuynh hướng đang thịnh hành là do sự thay đổi trong mối
quan hệ cung cầu. Và sự thay đổi của quan hệ cung cầu sẽ được nhận diện sớm hay
muộn thông qua các phản ứng của chính thị trường.
Các công cụ cơ bản sử dụng trong phân tích kỹ thuật:
Phân tích kỹ thuật trong thị trường chứng khoán người ta sử dụng biểu đồ làm
công cụ để giúp cho việc quan sát, phân tích và nhận định một cách trực quan. Có
nhiều loại biểu đồ khác nhau, tuy nhiên có ba loại biểu đồ chính được dùng phổ biến
đó là: biểu đồ dạng đường (Line chart), biểu đồ dạng then chắn (Bar chart), biểu đồ
dạng cây nến (Candlestick chart).
Biểu đồ dạng đường (Line chart)
Đây là loại biểu đồ thường được dùng phổ biến dùng để mô phỏng các hiện
tượng kinh tế và xã hội. Nhưng hiện nay do khoa học kỹ thuật phát triển, diễn biến của
thị trường chứng khoán ngày càng phức tạp cho nên loại biểu đồ này ngày càng ít
được sử dụng nhất là trên các thị trường chứng khoán hiện đại. Hiện nay nó chủ yếu
được sử dụng trên các Thị trường chứng khoán mới đi vào hoạt động trong thời gian
ngắn, khớp lệnh theo phương pháp khớp lệnh định kỳ theo từng phiên hoặc nhiều lần
trong một phiên nhưng mức độ giao dịch chưa thể đạt được như Thị trường chứng
khoán dùng phương pháp khớp lệnh liên tục. Ưu điểm của loại biểu đồ này là dễ sử
dụng, lý do chính là vì nó được sử dụng trên tất cả các Thị trường chứng khoán trên
khắp thế giới từ trước tới nay.
Hình 1.1 Biểu đồ dạng đường
15
Biểu đồ dạng then chắn (Bar chart)
Các Thị trường chứng khoán hiện đại trên thế giới hiện nay chuyên viên phân
tích thường dùng loại biểu đồ này trong phân tích là chủ yếu lý do chính. Do tính ưu
việt của nó đó là sự phản ánh rõ nét sự biến động của giá chứng khoán.
Hình 1.2 Biểu đồ dạng then chắn
Hai kí tự mà dạng biểu đồ này sử dụng đó là:
Hình 1.3 Kí tự trong biểu đồ dạng then chắn
Loại biểu đồ này thường được áp dụng để phân tích trên các Thị trường chứng
khoán hiện đại khớp lệnh theo hình thức khớp lệnh liên tục, độ dao động của giá
chứng khoán trong một phiên giao dịch là tương đối lớn.
Biểu đồ cây nến (Candlestick chart)
Đây là dạng biểu đồ cải tiến của biểu đồ dạng then chắn (Bar chart), nó
được người Nhật Bản khám phá và áp dụng trên thị trường chứng khoán của họ đầu
tiên. Giờ đây nó đang dần được phổ biến hầu hết trên các thị trường chứng khoán hiện
16
đại trên toàn thế giới. Dạng biểu đồ này phản ánh rõ nét nhất về sự biến động của giá
chứng khoán trên thị trường chứng khoán khớp lệnh theo hình thức khớp lệnh định kỳ.
Hình 1.4 Biểu đồ dạng cây nến
Ở biểu đồ này nếu giá đóng cửa cao hơn giá mở cửa, nến sẽ màu xanh, và giá
đóng cửa thấp hơn giá mở cửa, nến sẽ màu đỏ.
1.3
Kết luận
Trong chương 1 của luận văn đã trình bày được một số khái niệm cũng như
phương pháp phân tích và dự báo tài chính. Đồng thời trong nội dung của chương còn
giới thiệu những kiến thức cơ bản về thị trường chứng khoán và các phương pháp phân
tích kỹ thuật trong thị trường chứng khoán.
17
Chương 2. MỘT SỐ MÔ HÌNH TRONG BÀI TOÁN DỰ BÁO
2.1 Tổng quan về khai phá dữ liệu thời gian thực
Cùng với sự bùng nổ của công nghệ thông tin làm cho kho dữ liệu của chúng ta
ngày càng tăng lên một cách nhanh chóng. Hàng ngày, chúng ta tiếp nhận nhiều thông
tin từ nhiều nguồn khác nhau. Vậy làm sao để người dùng có thể chắt lọc ra những
thông tin hữu ích, hiệu quả nhất trong kho dữ liệu khổng lồ đó? Khai phá tri thức từ cơ
sở dữ liệu (Knowledge Discovery in Database - KDD) và khai phá dữ liệu (Data
Mining- DM) được xem như một cách tiếp cận mới trong việc tìm kiếm tri thức từ các
nguồn dữ liệu có sẵn. Nhờ nó mà từ những tập dữ liệu khổng lồ và hỗn tạp có thể tìm
ra những tri thức hữu ích.
Ngày nay, khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh
vực kinh doanh và đời sống khác nhau [12]: marketing, tài chính, ngân hàng và bảo
hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức và công ty lớn trên thế giới
đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình
và thu được những lợi ích to lớn.
Hình 2.1 Mô hình khai phá dữ liệu
Khai phá dữ liệu là một công nghệ mạnh mẽ có tiềm năng rất lớn để giúp người
dùng tập trung vào các thông tin quan trọng nhất trong kho dữ liệu của họ. Nhờ việc
khai phá dữ liệu dự đoán xu hướng và hành vi trong tương lai, cho phép các doanh
nghiệp đưa ra những quyết định trong tương lai theo huđể thực hiện, quyết định kiến
thức theo hướng chủ động. Việc phân tích, đưa ra những quyết định nhờ quá trình
khai phá dữ liệu dựa vào phân tích dữ liệu trong quá khứ của hệ thống hỗ trợ ra quyết
định. Khai phá dữ liệu giúp cho người dùng tiết kiệm thời gian trong quá trình đưa ra
quyết định của mình.
18
Vậy, Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai
thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng
lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó.
Khai phá dữ liệu là một bước trong bảy bước của quá trình khai phá tri thức từ
CSDL. Quá trình này bao gồm [3]:
1. Làm sạch dữ liệu (data cleaning): Loại bỏ nhiễu và các dữ liệu không cần
thiết.
2. Tích hợp dữ liệu: (data integration): Tích hợp dữ liệu từ các nguồn khác nhau
như: CSDL, Kho dữ liệu, file text…
3. Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu và
sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá trình này
bao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ
(incomplete data)....v.v.
4. Chuyển đổi dữ liệu (data transformation): Các dữ liệu được chuyển đổi sang
các dạng phù hợp cho quá trình xử lý.
5. Khai phá dữ liệu(data mining): Là một trong các bước quan trọng nhất, trong
đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu.
6. Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm
được thông qua các độ đo nào đó.
7. Biểu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ
thuật để biểu diễn và thể hiện trực quan cho người dùng.
Khai phá dữ liệu thường có 2 nhiệm vụ chính:
Mô tả (Descriptive): có nhiệm vụ mô tả về các tính chất hoặc các đặc tính
chung của dữ liệu trong CSDL hiện có.
Dự đoán (Predictive): có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn
trên dữ liệu hiện thời.
Để thực hiện nhiệm vụ trên, trong khai phá dữ liệu ta có các phương pháp thông
dụng là: Phân cụm dữ liệu, Phân lớp dữ liệu, Hồi quy và Khai phá luật kết hợp.
Phân cụm (Clustering): Nhằm nhóm các đối tượng tương tự nhau trong tập dữ
liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng còn các đối
tượng thuộc các cụm khác nhau sẽ không tương đồng.
Phân lớp dữ liệu và hồi quy ( Classification &Regression): Nhằm dự báo nhãn
lớp cho các mẫu dữ liệu trong tương lai thông qua các thuộc tính của lớp.
19
Khai phá luật kết hợp (Association Rule Discovery): Phương pháp này nhằm
phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong CSDL. Mẫu đầu ra
của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được.
Một chuỗi thời gian (Time Series) là một chuỗi các quan sát theo trật tự thời
gian. Chủ yếu những quan sát này được thu thập ở những khoảng thời gian rời rạc,
cách đều nhau. Các mô hình chuỗi thời gian được đặc biệt áp dụng trong dự báo ngắn
hạn. Trong các bài toán dự báo nói chung và các bài toán dự báo tài chính và chứng
khoán nói riêng, dữ liệu thường được biểu diễn dưới dạng chuỗi thời gian. Trong các
dạng dữ liệu được phân tích thì dữ liệu chuỗi thời gian luôn thuộc tốp đầu về tính phổ
biến.
Khai phá dữ liệu thời gian thực ở đây được hiểu là việc khai phá dữ liệu dựa trên
dữ liệu chuỗi thời gian.
2.2 Phân lớp dữ liệu
Phân lớp (Classification) là việc phân loại các mẫu thành một tập rời rạc của
các nhóm có thể.
Phân lớp là một quá trình gồm hai bước.
Bước thứ nhất (huấn luyện - learning)
Quá trình học nhằm xây dựng một mô hình mô tả một tập các lớp dữ liệu hay
các khái niệm định trước. Mô hình này được xây dựng bằng cách phân tích các thuộc
tính của dữ liệu. Mỗi dữ liệu được giả thiết rằng thuộc một lớp đã định nghĩa trước, và
được xác định bởi nhãn của lớp (class lable). Trong phân lớp, dữ liệu được phân tích
để xây dựng một mô hình tập hợp từ tập dữ liệu huấn luyện (training data set). Dữ liệu
riêng lẻ tạo ra tập huấn luyện còn được gọi là mẫu huấn luyện (training examples) và
được chọn ngẫu nhiên. Nếu các mẫu huấn luyện được đánh nhãn, bước này còn được
gọi là học có giám sát (Supervised learning). Nó đối lập với học không giám sát
(unsupervised learning), thường được gọi là phân cụm, trong đó nhãn cho mẫu huấn
luyện là không biết và số lượng tập hợp của các lớp được học có thể không biết. Một
số mô hình học thông dụng được sử dụng nhiều trong thực tế là luật kết hợp, cây quyết
định (Decision tree), mạng nơ-ron, SVM…
Bước thứ hai (phân lớp - classification)
Bước thứ hai là sử dụng mô hình đã được xây dựng ở bước một để phân loại
các mẫu dữ liệu chưa có nhãn vào lớp tương ứng. Đầu tiên sẽ đánh giá sự chính xác
khi dự đoán. Có một số cách để đánh giá sự chính xác. Cách thường được dùng là
phương pháp tiếp cận holdout, nó đánh giá sự chính xác dự báo của mô hình bằng việc
đo độ chính xác trên một tập các mẫu mà tập này không được phép dùng khi xây dựng
mô hình. Tập như vậy được gọi là tập thử (test data set). Những mẫu này được chọn
ngẫu nhiên và độc lập với tập huấn luyện. Sự chính xác của mô hình dựa trên tập dữ
liệu kiểm tra là phần trăm của tập mẫu test mà phân loại chính xác bởi mô hình. Với
20
mỗi mẫu thử, nhãn đã biết của lớp được so sánh với sự dự đoán của mô hình học của
lớp. Để mô hình cho kết quả phân lớp tốt thì quá trình huấn luyện cũng phải đạt kết
quả tốt và điều quan trọng là tập huấn luyện phải đủ lớn để dữ liệu có thể phân bổ tốt
nhất có thể.
Một số phương pháp phân lớp cơ bản
- Phương pháp cây quyết định.
- Phương pháp Naïve Bayes.
- Phương pháp k láng giềng.
- Phương pháp mạng nơ-ron.
- Phương pháp máy vector hỗ trợ.
2.3 Một số mô hình dùng trong khai phá dữ liệu thời gian thực
2.3.1 Mô hình mạng nơ-ron nhân tạo (ANN – Artificial Neural Network)
a. Giới thiệu sơ lược về mô hình mạng nơ-ron
Mạng nơ-ron sinh học
Hệ thống thần kinh con người (hình 2.2) được tạo nên từ các tế bào thần kinh,
thường được gọi là các nơ-ron. Mỗi nơ-ron bao gồm bốn phần:
- Thân nơ-ron với nhân bên trong (gọi là soma), là nơi tiếp nhận hay phát ra
các xung thần kinh.
- Một hệ thống dạng cây các dây thần kinh vào (gọi là dendrite) để đưa tín
hiệu tới nhân nơ-ron (cụ thể là soma) xử lý. Bên trong soma các dữ liệu đó được tổng
hợp lại (có thể xem như lấy tổng của tất cả các dữ liệu mà nơ-ron nhận được).
- Đầu dây thần kinh ra được gọi là sợi trục axon. Khác với dendrites, axon có
khả năng phát các xung điện thế, chúng là các dây dẫn tín hiệu từ nơ-ron đi các nơi
khác. Chỉ khi nào điện thế trong soma vượt quá một giá trị ngưỡng nào đó (threshold)
thì axon mới phát một xung điện thế, còn nếu không thì nó ở trạng thái nghỉ.
- Synapse là các mối nối đặc biệt để liên kết axon với các dendrites hoặc trực
tiếp với nhân của các nơ-ron khác. Thông thường mỗi nơ-ron có thể có từ vài chục cho
tới hàng trăm ngàn khớp nối để nối với các nơ-ron khác. Người ta ước tính mỗi nơ-ron
trong bộ não của con người có khoảng 104 khớp nối.
Hình 2.2 Mô hình nơ-ron sinh học
21
Chức năng cơ bản của các tế bào nơ-ron là liên kết với nhau để tạo nên hệ thống
thần kinh điều khiển hoạt động của cơ thể sống. Các tế bào nơ-ron truyền tín hiệu cho
nhau thông qua các dây thần kinh vào và ra, các tín hiệu đó có dạng xung điện và được
tạo ra từ các quá trình phản ứng hoá học phức tạp. Tại nhân tế bào, khi điện thế của tín
hiệu vào đạt tới một ngưỡng nào đó thì nó sẽ tạo ra một xung điện dẫn tới trục dây
thần kinh ra. Xung này truyền theo trục ra tới các nhánh rẽ và tiếp tục truyền tới các
nơ-ron khác.
Mạng nơ-ron nhân tạo
Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) ra đời xuất phát từ ý
tưởng mô phỏng hoạt động của hệ thần kinh con người[13].
Mạng nơ-ron nhân tạo là mạng các phần tử (gọi là nơ-ron) kết nối với nhau thông
qua các liên kết (gọi là trọng số liên kết) để thực hiện một công việc cụ thể nào đó.
Khả năng xử lý của mạng nơ-ron được hình thành thông qua quá trình hiệu chỉnh trọng
số liên kết giữa các nơ-ron, nói cách khác là học từ tập hợp các mẫu huấn luyện.
Mạng nơ-ron nhân tạo là sự tái tạo bằng kỹ thuật những chức năng của hệ thần kinh
con người với vô số các nơ-ron được liên kết với nhau tạo thành hệ thống mạng. Giống
như bộ não con người, ANN được học bởi kinh nghiệm, lưu giữ những kinh nghiệm
đó và sau đó áp dụng những kinh nghiệm đó để giải quyết các bài toán cụ thể.
Mô hình mạng nơ-ron nhân tạo hiện nay đã được nhiều người quan tâm và đã áp
dụng rộng rãi trong nhiều lĩnh vực khác nhau như tài chính, y tế, địa chất và vật lý.
Thật vậy, bất cứ ở đâu có vấn đề về dự báo, phân loại và điều khiển, mạng nơ-ron đều
có thể ứng dụng được. Ví dụ như khả năng nhận dạng mặt người trong các hệ thống
quản lý thông tin liên quan đến con người (quản lý nhân sự ở các công sở, doanh
nghiệp; quản lý học sinh, sinh viên trong các trường trung học, đại học và cao đẳng;…
); các ngành khoa học hình sự, tội phạm; khoa học tướng số, tử vi,…
Kết hợp với giải thuật di truyền, mạng nơ-ron nhân tạo đã đem lại hiệu quả cao
trong bài toán dự báo, đặc biệt là trong bài toán dự báo tài chính.
b. Cấu trúc và hoạt động của mạng nơ-ron
Cấu trúc và hoạt động của một nơ-ron
Từ khái niệm về mạng nơ-ron ta thấy đơn vị hình thành lên mạng nơ-ron là từ
các nơ-ron. Chức năng của mạng nơ-ron nhân tạo tương tự như chức năng đơn giản
nhất của các nơ-ron sinh học đó là tích luỹ (ghi nhớ) những tri thức đã được học về các
sự vật để nhận biết, phân biệt chúng mỗi khi gặp lại. Chức năng này được hình thành
thông qua một chuỗi liên tiếp các quá trình xử lý thông tin của các nơ-ron trong mạng.
Về cơ bản, mỗi nơ-ron sinh học thực hiện nhiệm vụ của mình thông qua các
bước: nhận đầu vào, xử lý đầu vào đó, đưa dữ liệu đã được xử lý ra output và liên lạc
22
với các nơ-ron khác để gửi output này đi. Với bản chất là mô hình mô phỏng đơn giản
của nơ-ron sinh học, nơ-ron nhân tạo cũng thực hiện nhiệm vụ của mình thông qua các
thao tác: nhận đầu vào từ các nơ-ron trước nó, xử lý đầu vào bằng cách nhân mỗi đầu
vào này với trọng số liên kết tương ứng và tính tổng các tích thu được rồi đưa qua một
hàm truyền, sau đó gửi kết quả cuối cùng cho các nơ-ron tiếp theo hoặc đưa ra output.
Cứ như vậy các nơ-ron này hoạt động phối hợp với nhau tạo thành hoạt động chính
của mạng nơ-ron.
Quá trình xử lý thông tin của một nơ-ron được thể hiện rất rõ trong cấu trúc của
một nơ-ron trong hình 2.3 như sau:
Hình 2.3 Cấu trúc của một nơ-ron
Trong đó:
(x1, x2, …, xp), với p 1: là các tín hiệu đầu vào của nơ-ron. Các tín hiệu
này có thể là đầu ra của các nơ-ron trước nó hoặc đầu vào ban đầu của mạng và
thường được đưa vào dưới dạng một vector p chiều.
(wk1, wk2, …, wkp) là tập các trọng số liên kết của nơ-ron k với p đầu vào
tương ứng (x1, x2, …, xp). Thông thường, các trọng số này được khởi tạo một cách
ngẫu nhiên ở thời điểm khởi tạo mạng và được cập nhật liên tục trong quá trình học
của mạng. Đây là thành phần rất quan trọng của nơ-ron, nó thể hiện mức độ quan
trọng (độ mạnh) của dữ liệu đầu vào đối với quá trình xử lý thông tin (quá trình
chuyển đổi dữ liệu từ Layer này sang layer khác). Quá trình học của một mạng nơ-ron
thực ra là quá trình điều chỉnh các trọng số (weight) của dữ liệu đầu vào để được kết
quả như mong muốn.
∑ là hàm tổng trên một nơ-ron, dùng để tính tổng các giá trị kích hoạt lên
nơ-ron đó. Thông thường, đây là tổng của các tích giữa đầu vào với trọng số liên kết
tương ứng của nơ-ron.
23
Hình 2.4 Cách tính hàm tổng
Hình 2.4a: Hàm tổng của một nơ-ron đối với n input được tính theo công thức:
Hình 2.4b: Hàm tổng đối với nhiều nơ-ron trong cùng một Layer được tính
theo công thức:
uk là tổng các giá trị kích hoạt lên nơ-ron thứ k, giá trị này chính là đầu ra
của hàm tổng.
bk là ngưỡng (còn gọi là hệ số bias) của nơ-ron thứ k, giá trị này được dùng
như một thành phần phân ngưỡng trên hàm truyền và cũng được cập nhật liên tục
trong quá trình học của mạng.
(.) là hàm chuyển, còn gọi là hàm kích hoạt (activation function). Hàm
chuyển được dùng để giới hạn phạm vi đầu ra của mỗi nơ-ron. Đối số của hàm là giá
trị hàm tổng và ngưỡng bk. Thông thường, phạm vi đầu ra của mỗi nơ-ron được giới
hạn trong đoạn [0,1] hoặc [-1,1]. Như vậy miền giá trị của các hàm kích hoạt cũng là
một trong hai đoạn trên. Có rất nhiều hàm chuyển thường được dùng, việc lựa chọn
hàm chuyển nào cho phù hợp tuỳ thuộc vào từng bài toán.