Tải bản đầy đủ (.pdf) (14 trang)

DSpace at VNU: Tìm hiểu một số mô hình khai phá dữ liệu thời gian thực ápdụng vào bài toán dự báo ứng dụng trong phân tích số liệu tài chính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (440.96 KB, 14 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM THỊ THẢO

TÌM HIỂU MỘT SỐ MÔ HÌNH KHAI PHÁ DỮ LIỆU THỜI
GIAN THỰC ÁP DỤNG VÀO BÀI TOÁN DỰ BÁO ỨNG
DỤNG TRONG PHÂN TÍCH SỐ LIỆU TÀI CHÍNH

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM THỊ THẢO

TÌM HIỂU MỘT SỐ MÔ HÌNH KHAI PHÁ DỮ LIỆU THỜI
GIAN THỰC ÁP DỤNG VÀO BÀI TOÁN DỰ BÁO ỨNG
DỤNG TRONG PHÂN TÍCH SỐ LIỆU TÀI CHÍNH

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN HÀ NAM


HÀ NỘI – 2015


1

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Tìm hiểu một số mô hình khai phá dữ liệu thời gian
thực áp dụng vào bài toán dự báo ứng dụng trong phân tích số liệu tài chính" là công
trình nghiên cứu của riêng tôi. Các số liệu, kết quả được trình bày trong luận văn là
hoàn toàn trung thực và chưa được công bố trên bất cứ công trình nào khác. Tôi đã
trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan. Ngoại trừ các
tài liệu tham khảo này, luận văn hoàn toàn là nghiên cứu của riêng tôi.
Luận văn được hoàn thành trong thời gian tôi là học viên tại Khoa Công nghệ
Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội.
Hà Nội, ngày 25 tháng 05 năm 2015
Học viên

Phạm Thị Thảo


2

LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS.
Nguyễn Hà Nam đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện luận văn tốt
nghiệp.
Tôi xin trân trọng cảm ơn các Thầy, Cô giáo đã tận tình chỉ dạy, cung cấp cho tôi
những kiến thức quý báu và luôn nhiệt tình giúp đỡ, tạo điều kiện thuận lợi nhất trong
suốt quá trình tôi học tập tại trường Đại học Công nghệ.
Tôi xin gửi lời cảm ơn tới các bạn trong nhóm do thầy Nguyễn Hà Nam hướng

dẫn đã luôn sát cánh và hỗ trợ cho tôi trong suốt quá trình học tập cũng như quá trình
làm luận văn.
Cuối cùng, tôi muốn được gửi lời cảm ơn tới gia đình, đồng nghiệp và bạn bè,
những người luôn bên cạnh, động viên và tạo điều kiện tốt nhất cho tôi trong suốt quá
trình học tập và thực hiện luận văn tốt nghiệp.
Tôi xin chân thành cảm ơn!


3

MỤC LỤC
LỜI CAM ĐOAN .......................................................................................................... 5
LỜI CẢM ƠN ................................................................................................................ 2
MỤC LỤC ...................................................................................................................... 3
BẢNG CÁC TỪ VIẾT TẮT ......................................................................................... 5
DANH MỤC BẢNG BIỂU ........................................................................................... 6
DANH MỤC CÁC HÌNH VẼ, BIỂU ĐỒ .................................................................... 7
MỞ ĐẦU......................................................................................................................... 8
Chƣơng 1. MỘT SỐ KIẾN THỨC CƠ BẢN VỀ TÀI CHÍNH .............................. 10
1.1

Một số khái niệm về tài chính ..........................................................................10

1.1.1

Phân tích tài chính ..................................................................................... 10

1.1.2

Phương pháp phân tích tài chính ............................................................... 10


1.1.3

Dự báo tình hình tài chính ......................... Error! Bookmark not defined.

1.2 Phân tích kỹ thuật trong dự báo thị trường chứng khoánError!
not defined.

Bookmark

1.2.1

Thị trường chứng khoán ............................ Error! Bookmark not defined.

1.2.2

Phân tích kỹ thuật ...................................... Error! Bookmark not defined.

1.3

Kết luận ............................................................ Error! Bookmark not defined.

Chƣơng 2. MỘT SỐ MÔ HÌNH TRONG BÀI TOÁN DỰ BÁO ... Error! Bookmark
not defined.
2.1

Tổng quan về khai phá dữ liệu thời gian thực . Error! Bookmark not defined.

2.2


Phân lớp dữ liệu ............................................... Error! Bookmark not defined.

2.3 Một số mô hình dùng trong khai phá dữ liệu thời gian thựcError! Bookmark
not defined.
2.3.1 Mô hình mạng nơ-ron nhân tạo (ANN – Artificial Neural Network)Error!
Bookmark not defined.
2.3.2
2.4

Mô hình máy vector hỗ trợ (SVM) ........... Error! Bookmark not defined.

Mô hình ARIMA .............................................. Error! Bookmark not defined.

2.4.1

Hàm tự tương quan ACF ........................... Error! Bookmark not defined.

2.4.2

Hàm tự tương quan từng phần PACF ....... Error! Bookmark not defined.

2.4.3

Quá trình tự hồi quy AR(p) ....................... Error! Bookmark not defined.


4
2.4.4
2.5


Quá trình trung bình trượt MA(q) ............. Error! Bookmark not defined.

Kết luận ............................................................ Error! Bookmark not defined.

Chƣơng 3. PHƢƠNG PHÁP GIẢI QUYẾT BÀI TOÁN .......... Error! Bookmark not
defined.
3.1

Giới thiệu bài toán............................................ Error! Bookmark not defined.

3.2

Xây dựng mô hình............................................ Error! Bookmark not defined.

3.3

Thu thập và tiền xử lý dữ liệu .......................... Error! Bookmark not defined.

3.3.1

Thu thập dữ liệu ........................................ Error! Bookmark not defined.

3.3.2

Tiền xử lý dữ liệu ...................................... Error! Bookmark not defined.

3.4

Tổ chức dữ liệu ................................................ Error! Bookmark not defined.


3.5

Huấn luyện mạng ............................................. Error! Bookmark not defined.

3.6

Đánh giá mô hình và dự báo kết quả ............... Error! Bookmark not defined.

3.7

Kết luận ............................................................ Error! Bookmark not defined.

Chƣơng 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ .............. Error! Bookmark not defined.
4.1

Môi trường thực nghiệm .................................. Error! Bookmark not defined.

4.2

Dữ liệu dùng trong thực nghiệm ...................... Error! Bookmark not defined.

4.3

Kết quả thực nghiệm ........................................ Error! Bookmark not defined.

4.3.1

Kết quả chạy với mô hình ANN................ Error! Bookmark not defined.

4.3.2 Kết quả chạy với mô hình máy vector hỗ trợ (SVM)Error!

not defined.
4.3.3

Bookmark

Kết quả chạy với mô hình ARIMA ........... Error! Bookmark not defined.

4.4

So sánh và đánh giá kết quả ............................. Error! Bookmark not defined.

4.5

Kết luận ............................................................ Error! Bookmark not defined.

KẾT LUẬN ...................................................................... Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO .......................................................................................... 11


5


6

BẢNG CÁC TỪ VIẾT TẮT
Tên đầyđủ

Viết tắt
MA
EMA


Moving Average
Exponential Moving Average

RSI

Relative Strength Index

NN

Neural Network

ANN

Artificial Neural Network

SVM

Support Vector Machine

KDD

Knowledge Discorvery and Data Mining

PTKT

Phân tích kỹ thuật

DM


Data mining

MLP

Multi-Layer Perceptron

ARIMA

Autoregressive integrated moving average

DN

Doanh nghiệp

CK

Chứng khoán

PTKT

Phân tích kỹ thuật


7

DANH MỤC BẢNG BIỂU
Bảng 2.1 Các hàm chuyển ............................................. Error! Bookmark not defined.
Bảng 3.1 Tổ chức dữ liệu IBM ...................................... Error! Bookmark not defined.
Bảng 3.2 Tổ chức dữ liệu của mô hình.......................... Error! Bookmark not defined.
Bảng 4.1 Các trường hợp của tham số đầu vào mạng nơ-ronError!

defined.

Bookmark

not

Bảng 4.2 Kết quả độ chính xác đối với mô hình ANN . Error! Bookmark not defined.
Bảng 4.3 Kết quả độ chính xác đối với mô hình SVM . Error! Bookmark not defined.
Bảng 4.4 So sánh kết quả trung bình giữa mô hình ANN và SVMError!
not defined.

Bookmark

Bảng 4.5 Kết quả đưa ra lời khuyên cho người dùng .... Error! Bookmark not defined.


8

DANH MỤC CÁC HÌNH VẼ, BIỂU ĐỒ
Hình 1.1 Biểu đồ dạng đường ....................................... Error! Bookmark not defined.
Hình 1.2 Biểu đồ dạng then chắn .................................. Error! Bookmark not defined.
Hình 1.3 Kí tự trong biểu đồ dạng then chắn ................ Error! Bookmark not defined.
Hình 1.4 Biểu đồ dạng cây nến ..................................... Error! Bookmark not defined.
Hình 2.1 Mô hình khai phá dữ liệu................................ Error! Bookmark not defined.
Hình 2.2 Mô hình nơ-ron sinh học ................................ Error! Bookmark not defined.
Hình 2.3 Cấu trúc của một nơ-ron ................................. Error! Bookmark not defined.
Hình 2.4 Cách tính hàm tổng ......................................... Error! Bookmark not defined.
Hình 2.5 Cấu trúc của mạng nơ-ron .............................. Error! Bookmark not defined.
Hình 2.6 Hàm sigmoid .................................................. Error! Bookmark not defined.
Hình 2.7 Siêu phẳng phân chia dữ liệu theo phương pháp SVMError! Bookmark not

defined.
Hình 2.8 Minh họa bài toán phân lớp nhị phân bằng phương pháp SVM ............ Error!
Bookmark not defined.
Hình 2.9 Ví dụ về chiều hướng giảm đều khác nhau [2]Error!
defined.

Bookmark

not

Hình 3.1 Mô hình dự báo đề xuất .................................. Error! Bookmark not defined.
Hình 3.2 Tạo tập huấn luyện trong mạng nơ-ron .......... Error! Bookmark not defined.
Hình 3.3 Quá trình dự đoán trong mô hình mạng nơ-ronError!
defined.

Bookmark

not

Hình 4.1 Giá đóng cửa và số lượng giao dịch ............... Error! Bookmark not defined.
Hình 4.2 Biểu đồ thể hiện tính mùa vụ của close và volumeError!
defined.

Bookmark

not

Hình 4.3 Đồ thị giá đóng cửa và MA10, MA20 ............ Error! Bookmark not defined.
Hình 4.4 Đồ thị biểu diễn giá đóng cửa, MA10 và EMAError!
defined.


Bookmark

not

Hình 4.5 Kết quả dự đoán của mô hình mạng nơ-ron ... Error! Bookmark not defined.
Hình 4.6 Kết quả dự đoán mô hình mạng nơ-ron với bộ tham số tối ưu .............. Error!
Bookmark not defined.
Hình 4.7 Mô hình mạng nơ-ron với bộ tham số tối ưu theo phương pháp vét cạn Error!
Bookmark not defined.


9
Hình 4.8 Kết quả dự đoán của mô hình SVM ............... Error! Bookmark not defined.
Hình 4.9 Mô hình dự đoán SVM tối ưu theo phương pháp vét cạnError!
not defined.
Hình 4.10 Sơ đồ quá trình kết hợp giải thuật GA –SVMError!
defined.

Bookmark

Bookmark

not

Hình 4.11 Kết quả mô hình dự đoán SVM tối ưu theo phương pháp GA ............ Error!
Bookmark not defined.
Hình 4.12 Kết quả dự đoán bằng mô hình ARIMA kết hợp phương pháp vét cạn
....................................................................................... Error! Bookmark not defined.


MỞ ĐẦU
Dữ liệu tài chính luôn là nguồn dữ liệu vô cùng phong phú trong giai đoạn hiện
nay. Đặc biệt, sự phát triển mạnh mẽ của công nghệ thông tin cùng mạng internet đã
giúp con người có thể dễ dàng tiếp cận với kho dữ liệu khổng lồ đó. Tuy nhiên, trên
thực tế, con người cần phải biết chắt lọc, chọn lựa những thông tin có ích nhằm phân
tích, khai thác, phát hiện tri thức bên trong dữ liệu đó một cách hiệu quả. Các phương
pháp quản trị và khai thác dữ liệu thủ công, truyền thống tỏ ra kém hiệu quả trước nhu
cầu khai thác và phát hiện thông tin trong giai đoạn hiện nay. Từ đó, kỹ thuật phát hiện
tri thức và khai phá dữ liệu (KDD – Knowledge Discorvery and Data Mining) ra đời
đã đem lại hiệu quả cao trong vấn đề khai thác và phát hiện tri thức, áp dụng trên nhiều
lĩnh vực khác nhau, đặc biệt là trong quản lý vĩ mô và kinh doanh mà cụ thể hơn nữa
là trong thị trường chứng khoán.
Việc dự đoán thị trường chứng khoán là một bài toán đang được nhiều người
quan tâm. Sự không tuyến tính của thị trường kèm theo đó là tác động của nhiều yếu tố
bên ngoài cũng làm ảnh hưởng tới quá trình thay đổi của thị trường chứng khoán. Vì
vậy, làm thế nào để dự đoán chính xác được sự lên xuống của thị trường là một bài
toán mà mọi nhà đầu tư đều quan tâm, tìm hiểu, nghiên cứu và phân tích.
Đã có rất nhiều nghiên cứu trên thế giới (trong đó có Việt Nam) về bài toán dự
báo thị trường chứng khoán sử dụng các mô hình khai phá dữ liệu khác nhau. Năm
2001, Efstathios Kalyvas đã phân tích thị trường chứng khoán sử dụng mô hình mạng
nơ-ron và đạt được những kết quả nhất định. Và mới đây, năm 2007 trong luận văn
thạc sĩ của học viên Phạm Thị Hoàng Nhung (ĐHQGHN) cũng đã nghiên cứu về
mạng nơ-ron ứng dụng vào dự báo lưu lượng nước đến hồ Hòa Bình với kết quả dự
báo chính xác lớn trên 80%.
Trong khuôn khổ của luận văn, tác giả tập trung tìm hiểu nghiên cứu về một số
mô hình khai phá dữ liệu thời gian thực áp dụng cho bài toán phân tích thị trường
chứng khoán, cụ thể là mô hình mạng nơ-ron nhân tạo, mô hình máy vector hỗ trợ và


10

mô hình arima. Mục tiêu của luận văn là áp dụng giải thuật gen di truyền để tối ưu mô
hình mạng nơ-ron và mô hình máy vector hỗ trợ, từ đó so sánh, đánh giá để tìm ra mô
hình phù hợp hơn với bộ dữ liệu ban đầu. Sau đó, luận văn sẽ đưa ra lời khuyên cho
người chơi là nên mua, bán hay giữ nguyên cổ phiếu trong phiên tiếp theo.
Luận văn được trình bày trong 4 chương như sau:
Chƣơng 1: Một số khái niệm cơ bản về tài chính
Trong chương này, tác giả sẽ giới thiệu một số khái niệm cơ bản về tài chính và
thị trường chứng khoán. Chương 1 của luận văn tập trung đi nghiên cứu về các chỉ số
cơ bản trong chứng khoán và phân tích kỹ thuật ứng dụng trong dự báo chứng khoán.
Chƣơng 2: Tổng quan về khai phá dữ liệu thời gian thực
Chương này giới thiệu tổng quan về khai phá dữ liệu thời gian thực và một số mô
hình dùng trong khai phá dữ liệu như mô hình mạng nơ-ron nhân tạo (ANN), mô hình
máy vector hỗ trợ (SVM) và mô hình Arima.
Chƣơng 3: Mô hình dự báo thị trƣờng chứng khoán
Chương 3 tập trung vào tìm hiểu về mô hình dự báo trong thị trường chứng
khoán. Nội dung chủ yếu là lý thuyết tìm hiểu về quy trình trong bài toán khai phá dữ
liệu áp dụng cho dự báo thị trường chứng khoán như: giới thiệu về bài toán, xây dựng
mô hình, thu thập và tiền xử lý dữ liệu, đánh giá mô hình.
Chƣơng 4: Thực nghiệm và đánh giá
Nội dung chủ yếu của chương 4 là ứng dụng 3 mô hình đã nghiên cứu để dự báo
thị trường chứng khoán. Mỗi mô hình lần lượt được chạy trên bộ tham số ngẫu nhiên,
bộ tham số tối ưu sử dụng phương pháp vét cạn và bộ tham số sau khi đã tối ưu sử
dụng phương pháp học máy (cụ thể là phương pháp gen di truyền). Từ đó so sánh,
đánh giá kết quả và đưa ra lựa chọn mô hình phù hợp với bộ dữ liệu cũng như lời
khuyên cho người dùng.


11

Chƣơng 1. MỘT SỐ KIẾN THỨC CƠ BẢN VỀ TÀI CHÍNH

1.1 Một số khái niệm về tài chính
1.1.1 Phân tích tài chính
Các hệ thống tài chính chứa đựng một kho dữ liệu khổng lồ, phức tạp. Việc phân
tích tài chính là một nghiệp vụ cần thiết nhằm đánh giá tình hình kinh tế của đất nước,
của từng ngành, từng địa phương và trên cơ sở đó xác định được nhu cầu cần thiết của
xã hội và có những định hướng thỏa đáng. Đối với doanh nghiệp và các nhà đầu tư thì
việc đánh giá, phân tích hoạt động kinh doanh nhằm nắm bắt tình hình tài chính, kinh
doanh của doanh nghiệp, giúp họ đưa ra những phương hướng, quyết định đúng đắn
trong hoạt động kinh doanh, giúp doanh nghiệp tồn tại và phát triển theo một hướng đi
tốt.
Vậy Phân tích hoạt động tài chính doanh nghiệp là quá trình thu thập, xử lý các
thông tin kế toán, nhằm xem xét, kiểm tra, đối chiếu, so sánh tài chính hiện hành với
quá khứ, giúp người sử dụng thông tin có thể đánh giá tình hình tài chính DN, đánh giá
về tiềm năng, hiệu quả kinh doanh cũng như rủi ro trong tương lai.
Ý nghĩa của việc phân tích tài chính có giá trị khác nhau tùy thuộc vào mục đích,
nhu cầu của người sử dụng. Đối với chủ doanh nghiệp và các nhà quản trị doanh
nghiệp, mối quan tâm hàng đầu của họ là tìm kiếm lợi nhuận và khả năng tài trợ. Đối
với các nhà đầu tư thì mối quan tâm của họ là các yếu tố rủi ro, thời gian hoàn vốn,
mức sinh lãi và khả năng thanh toán vốn. Một điều chung ở đây ta nhận ra là họ đều
quan tâm đến khả năng tạo ra dòng tiền, khả năng sinh lời, khả năng thanh toán và
mức sinh lời tối đa.
Tuy nhiên, để phân tích được chính xác thì cần có một thông tin đầy đủ, chính
xác để giúp họ có quyết định đúng đắn khi ra quyết định đầu tư, cho vay, sản xuất...
Đây là ý nghĩa quan trọng nhất của việc phân tích tài chính doanh nghiệp nói riêng và
phân tích tình hình tài chính của một quốc gia nói chung.
1.1.2 Phƣơng pháp phân tích tài chính
Để tiến hành phân tích tài chính, thông thường người ta sử dụng kết hợp nhiều
phương pháp phân tích để đánh giá tình hình doanh nghiệp một cách xác thực và tối
ưu.
Phương pháp chủ yếu hiện nay là phương pháp so sánh và phân tích tỉ lệ [1].

Phƣơng pháp so sánh:
So sánh là phương pháp được sử dụng phổ biến trong phân tích để xác định xu
hướng, mức độ biến động của chỉ tiêu phân tích. Vì vậy để tiến hành so sánh phải giải
quyết những vấn đề cơ bản, cần phải đảm bảo các điều kiện đồng bộ để có thể so sánh
được các chỉ tiêu tài chính. Như sự thống nhất về không gian, thời gian, nội dung, tính


12

TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Hoài, N.T., Bình, P.T & Duy, N.K. (2009), Dự Báo và Phân Tích Dữ Liệu trong
Kinh Tế và Tài Chính, NXB Thống Kê.
[2] Luận văn thạc sĩ Phạm Thị Hoàng Nhung, Ứng dụng mạng nơ-ron trong dự báo
lượng nước hồ Hòa Bình.
[3] TS. Lê Văn Phùng; ThS. Quách Xuân Trưởng (2012), Khai phá dữ liệu, NXB
Thông tin và Truyền thông.
Tiếng Anh
[4] Abhishek Kar (Y8021), Stock Prediction using Artificial Neural Networks
[5] D.E. Goldberg (1989), Genetic Algorithm in Search, Optimization and Machine
Learning, Addison Wesley, Reading, MA.
[6] Karl Nygren (2004), Stock Prediction – A Neural Network Approach
[7] M. TIM JONES, Artificial Intelligence- A Systems Approach
[8] Rob J Hyndman, 2008, Time series and forecasting in R
[9] Stuart J. Russell and Peter Norvig, Artificial Intelligence- A moderm Approach –
2nt Edition
[10] Vahid Khorani, Nafiseh Forouzideh, Ali Motie Nasrabadi (2011), Artificial
Neural Network Weights Optimization Using ICA, GA, ICA-GA and R-ICA-GA:
Comparing Performances
[11] Wolfgang Karl Härdle, Dedy Dwi Prastyo, Christian Hafner, Support Vectơr

Machines with Evolutionary Feature Selection for Default Prediction
[12] />[13] />[14] />[15] />[16] />[17] />[18] />


×