Tải bản đầy đủ (.docx) (76 trang)

Tìm hiểu một số mô hình khai phá dữ liệu thời gian thực áp dụng vào bài toán dự báo ứng dụng trong phân tích số liệu tài chính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.25 MB, 76 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM THỊ THẢO

TÌM HIỂU MỘT SỐ MÔ HÌNH KHAI PHÁ DỮ LIỆU THỜI
GIAN THỰC ÁP DỤNG VÀO BÀI TOÁN DỰ BÁO ỨNG
DỤNG TRONG PHÂN TÍCH SỐ LIỆU TÀI CHÍNH

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHẠM THỊ THẢO

TÌM HIỂU MỘT SỐ MÔ HÌNH KHAI PHÁ DỮ LIỆU THỜI
GIAN THỰC ÁP DỤNG VÀO BÀI TOÁN DỰ BÁO ỨNG
DỤNG TRONG PHÂN TÍCH SỐ LIỆU TÀI CHÍNH

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN HÀ NAM


HÀ NỘI – 2015


1

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Tìm hiểu một số mô hình khai phá dữ liệu thời gian
thực áp dụng vào bài toán dự báo ứng dụng trong phân tích số liệu tài chính" là công
trình nghiên cứu của riêng tôi. Các số liệu, kết quả được trình bày trong luận văn là hoàn
toàn trung thực và chưa được công bố trên bất cứ công trình nào khác. Tôi đã trích dẫn
đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan. Ngoại trừ các tài liệu
tham khảo này, luận văn hoàn toàn là nghiên cứu của riêng tôi.
Luận văn được hoàn thành trong thời gian tôi là học viên tại Khoa Công nghệ
Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội.
Hà Nội, ngày 25 tháng 05 năm 2015
Học viên

Phạm Thị Thảo


2

LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS.
Nguyễn Hà Nam đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện luận văn tốt
nghiệp.
Tôi xin trân trọng cảm ơn các Thầy, Cô giáo đã tận tình chỉ dạy, cung cấp cho tôi
những kiến thức quý báu và luôn nhiệt tình giúp đỡ, tạo điều kiện thuận lợi nhất trong
suốt quá trình tôi học tập tại trường Đại học Công nghệ.
Tôi xin gửi lời cảm ơn tới các bạn trong nhóm do thầy Nguyễn Hà Nam hướng dẫn

đã luôn sát cánh và hỗ trợ cho tôi trong suốt quá trình học tập cũng như quá trình làm
luận văn.
Cuối cùng, tôi muốn được gửi lời cảm ơn tới gia đình, đồng nghiệp và bạn bè,
những người luôn bên cạnh, động viên và tạo điều kiện tốt nhất cho tôi trong suốt quá
trình học tập và thực hiện luận văn tốt nghiệp.
Tôi xin chân thành cảm ơn!


3

MỤC LỤ
LỜI CAM ĐOAN ......................................................................................................
LỜI CẢM ƠN ............................................................................................................
MỤC LỤC

..................

BẢNG CÁC TỪ VIẾT TẮT......................................................................................
DANH MỤC BẢNG BIỂU........................................................................................
DANH MỤC CÁC HÌNH VẼ, BIỂU ĐỒ .................................................................
MỞ ĐẦU ....................................................................................................................
Chương 1. MỘT SỐ KIẾN THỨC CƠ BẢN VỀ TÀI CHÍNH .............................

1.1Một số khái niệm về tài chính .................................

1.1.1 Phân tích tà

1.1.2 Phương ph

1.1.3 Dự báo tình


1.2Phân tích kỹ thuật trong dự báo thị trường chứng kh
1.2.1 Thị trường

1.2.2 Phân tích k

1.3Kết luận ...................................................................
Chương 2. MỘT SỐ MÔ HÌNH TRONG BÀI TOÁN DỰ BÁO ..........................

2.1Tổng quan về khai phá dữ liệu thời gian thực .........

2.2Phân lớp dữ liệu .......................................................

2.3Một số mô hình dùng trong khai phá dữ liệu thời gi

2.3.1 Mô hình m

2.3.2 Mô hình m

2.4Mô hình ARIMA ......................................................

2.4.1 Hàm tự tươ

2.4.2 Hàm tự tươ

2.4.3 Quá trình tự

2.4.4 Quá trình tr

2.5Kết luận ...................................................................

Chương 3. PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN.......................................


4

3.1Giới thiệu bài toán ...................................................

3.2Xây dựng mô hình ...................................................

3.3Thu thập và tiền xử lý dữ liệu ..................................

3.3.1Thu thập dữ liệu

3.3.2Tiền xử lý dữ liệ

3.4Tổ chức dữ liệu ........................................................

3.5Huấn luyện mạng .....................................................

3.6Đánh giá mô hình và dự báo kết quả .......................

3.7Kết luận ...................................................................
Chương 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ ........................................................

4.1Môi trường thực nghiệm ..........................................

4.2Dữ liệu dùng trong thực nghiệm ..............................

4.3Kết quả thực nghiệm ...............................................


4.3.1Kết quả chạy vớ

4.3.2Kết quả chạy vớ

4.3.3Kết quả chạy vớ

4.4So sánh và đánh giá kết quả ....................................

4.5Kết luận ...................................................................
KẾT LUẬN..............................................................................................................
TÀI LIỆU THAM KHẢO.......................................................................................


Viết tắt
MA
EMA
RSI
NN
ANN
SVM
KDD
PTKT
DM
MLP
ARIMA
DN
CK
PTKT



6

DANH MỤC BẢNG BIỂU
Bảng 2.1 Các hàm chuyển .........................................................................................
Bảng 3.1 Tổ chức dữ liệu IBM ..................................................................................
Bảng 3.2 Tổ chức dữ liệu của mô hình .......................................................................
Bảng 4.1

Các trường hợp của tham số đầu

Bảng 4.2

Kết quả độ chính xác đối với mô

Bảng 4.3

Kết quả độ chính xác đối với mô

Bảng 4.4 So sánh kết quả trung bình giữa mô hình ANN và SVM .............................
Bảng 4.5

Kết quả đưa ra lời khuyên cho n


7

DANH MỤC CÁC HÌNH VẼ, BIỂU ĐỒ
Hình 1.1 Biểu đồ dạng đường ....................................................................................
Hình 1.2 Biểu đồ dạng then chắn ...............................................................................
Hình 1.3 Kí tự trong biểu đồ dạng then chắn ..............................................................

Hình 1.4 Biểu đồ dạng cây nến ..................................................................................
Hình 2.1 Mô hình khai phá dữ liệu.............................................................................
Hình 2.2 Mô hình nơ-ron sinh học .............................................................................
Hình 2.3 Cấu trúc của một nơ-ron ..............................................................................
Hình 2.4 Cách tính hàm tổng .....................................................................................
Hình 2.5 Cấu trúc của mạng nơ-ron ...........................................................................
Hình 2.6 Hàm sigmoid ...............................................................................................
Hình 2.7 Siêu phẳng phân chia dữ liệu theo phương pháp SVM ................................
Hình 2.8 Minh họa bài toán phân lớp nhị phân bằng phương pháp SVM ...................
Hình 2.9 Ví dụ về chiều hướng giảm đều khác nhau [2] .............................................
Hình 3.1 Mô hình dự báo đề xuất ...............................................................................
Hình 3.2 Tạo tập huấn luyện trong mạng nơ-ron ........................................................
Hình 3.3 Quá trình dự đoán trong mô hình mạng nơ-ron ............................................
Hình 4.1 Giá đóng cửa và số lượng giao dịch.............................................................
Hình 4.2 Biểu đồ thể hiện tính mùa vụ của close và volume ......................................
Hình 4.3 Đồ thị giá đóng cửa và MA10, MA20 .........................................................
Hình 4.4 Đồ thị biểu diễn giá đóng cửa, MA10 và EMA ............................................
Hình 4.5 Kết quả dự đoán của mô hình mạng nơ-ron .................................................
Hình 4.6 Kết quả dự đoán mô hình mạng nơ-ron với bộ tham số tối ưu .....................
Hình 4.7 Mô hình mạng nơ-ron với bộ tham số tối ưu theo phương pháp vét cạn.......
Hình 4.8 Kết quả dự đoán của mô hình SVM .............................................................
Hình 4.9 Mô hình dự đoán SVM tối ưu theo phương pháp vét cạn .............................
Hình 4.10 Sơ đồ quá trình kết hợp giải thuật GA –SVM ............................................
Hình 4.11 Kết quả mô hình dự đoán SVM tối ưu theo phương pháp GA ...................
Hình 4.12 Kết quả dự đoán bằng mô hình ARIMA kết hợp phương pháp vét cạn ......


8

MỞ ĐẦU

Dữ liệu tài chính luôn là nguồn dữ liệu vô cùng phong phú trong giai đoạn hiện
nay. Đặc biệt, sự phát triển mạnh mẽ của công nghệ thông tin cùng mạng internet đã
giúp con người có thể dễ dàng tiếp cận với kho dữ liệu khổng lồ đó. Tuy nhiên, trên thực
tế, con người cần phải biết chắt lọc, chọn lựa những thông tin có ích nhằm phân tích,
khai thác, phát hiện tri thức bên trong dữ liệu đó một cách hiệu quả. Các phương pháp
quản trị và khai thác dữ liệu thủ công, truyền thống tỏ ra kém hiệu quả trước nhu cầu
khai thác và phát hiện thông tin trong giai đoạn hiện nay. Từ đó, kỹ thuật phát hiện tri
thức và khai phá dữ liệu (KDD – Knowledge Discorvery and Data Mining) ra đời đã
đem lại hiệu quả cao trong vấn đề khai thác và phát hiện tri thức, áp dụng trên nhiều lĩnh
vực khác nhau, đặc biệt là trong quản lý vĩ mô và kinh doanh mà cụ thể hơn nữa là trong
thị trường chứng khoán.
Việc dự đoán thị trường chứng khoán là một bài toán đang được nhiều người quan
tâm. Sự không tuyến tính của thị trường kèm theo đó là tác động của nhiều yếu tố bên
ngoài cũng làm ảnh hưởng tới quá trình thay đổi của thị trường chứng khoán. Vì vậy,
làm thế nào để dự đoán chính xác được sự lên xuống của thị trường là một bài toán mà
mọi nhà đầu tư đều quan tâm, tìm hiểu, nghiên cứu và phân tích.
Đã có rất nhiều nghiên cứu trên thế giới (trong đó có Việt Nam) về bài toán dự báo
thị trường chứng khoán sử dụng các mô hình khai phá dữ liệu khác nhau. Năm 2001,
Efstathios Kalyvas đã phân tích thị trường chứng khoán sử dụng mô hình mạng nơ-ron
và đạt được những kết quả nhất định. Và mới đây, năm 2007 trong luận văn thạc sĩ của
học viên Phạm Thị Hoàng Nhung (ĐHQGHN) cũng đã nghiên cứu về mạng nơ-ron ứng
dụng vào dự báo lưu lượng nước đến hồ Hòa Bình với kết quả dự báo chính xác lớn trên
80%.
Trong khuôn khổ của luận văn, tác giả tập trung tìm hiểu nghiên cứu về một số mô
hình khai phá dữ liệu thời gian thực áp dụng cho bài toán phân tích thị trường chứng
khoán, cụ thể là mô hình mạng nơ-ron nhân tạo, mô hình máy vector hỗ trợ và mô hình
arima. Mục tiêu của luận văn là áp dụng giải thuật gen di truyền để tối ưu mô hình mạng
nơ-ron và mô hình máy vector hỗ trợ, từ đó so sánh, đánh giá để tìm ra mô hình phù hợp
hơn với bộ dữ liệu ban đầu. Sau đó, luận văn sẽ đưa ra lời khuyên cho người chơi là nên
mua, bán hay giữ nguyên cổ phiếu trong phiên tiếp theo.

Luận văn được trình bày trong 4 chương như sau:
Chương 1: Một số khái niệm cơ bản về tài chính
Trong chương này, tác giả sẽ giới thiệu một số khái niệm cơ bản về tài chính và thị
trường chứng khoán. Chương 1 của luận văn tập trung đi nghiên cứu về các chỉ số cơ
bản trong chứng khoán và phân tích kỹ thuật ứng dụng trong dự báo chứng khoán.
Chương 2: Tổng quan về khai phá dữ liệu thời gian thực


9
Chương này giới thiệu tổng quan về khai phá dữ liệu thời gian thực và một số mô
hình dùng trong khai phá dữ liệu như mô hình mạng nơ-ron nhân tạo (ANN), mô hình
máy vector hỗ trợ (SVM) và mô hình Arima.
Chương 3: Mô hình dự báo thị trường chứng khoán
Chương 3 tập trung vào tìm hiểu về mô hình dự báo trong thị trường chứng khoán.
Nội dung chủ yếu là lý thuyết tìm hiểu về quy trình trong bài toán khai phá dữ liệu áp
dụng cho dự báo thị trường chứng khoán như: giới thiệu về bài toán, xây dựng mô hình,
thu thập và tiền xử lý dữ liệu, đánh giá mô hình.
Chương 4: Thực nghiệm và đánh giá
Nội dung chủ yếu của chương 4 là ứng dụng 3 mô hình đã nghiên cứu để dự báo
thị trường chứng khoán. Mỗi mô hình lần lượt được chạy trên bộ tham số ngẫu nhiên, bộ
tham số tối ưu sử dụng phương pháp vét cạn và bộ tham số sau khi đã tối ưu sử dụng
phương pháp học máy (cụ thể là phương pháp gen di truyền). Từ đó so sánh, đánh giá
kết quả và đưa ra lựa chọn mô hình phù hợp với bộ dữ liệu cũng như lời khuyên cho
người dùng.


10

Chương 1. MỘT SỐ KIẾN THỨC CƠ BẢN VỀ TÀI CHÍNH
1.1 Một số khái niệm về tài chính

1.1.1 Phân tích tài chính
Các hệ thống tài chính chứa đựng một kho dữ liệu khổng lồ, phức tạp. Việc phân
tích tài chính là một nghiệp vụ cần thiết nhằm đánh giá tình hình kinh tế của đất nước,
của từng ngành, từng địa phương và trên cơ sở đó xác định được nhu cầu cần thiết của
xã hội và có những định hướng thỏa đáng. Đối với doanh nghiệp và các nhà đầu tư thì
việc đánh giá, phân tích hoạt động kinh doanh nhằm nắm bắt tình hình tài chính, kinh
doanh của doanh nghiệp, giúp họ đưa ra những phương hướng, quyết định đúng đắn
trong hoạt động kinh doanh, giúp doanh nghiệp tồn tại và phát triển theo một hướng đi
tốt.
Vậy Phân tích hoạt động tài chính doanh nghiệp là quá trình thu thập, xử lý các
thông tin kế toán, nhằm xem xét, kiểm tra, đối chiếu, so sánh tài chính hiện hành với quá
khứ, giúp người sử dụng thông tin có thể đánh giá tình hình tài chính DN, đánh giá về
tiềm năng, hiệu quả kinh doanh cũng như rủi ro trong tương lai.
Ý
nghĩa của việc phân tích tài chính có giá trị khác nhau tùy thuộc vào mục đích,
nhu cầu của người sử dụng. Đối với chủ doanh nghiệp và các nhà quản trị doanh nghiệp,
mối quan tâm hàng đầu của họ là tìm kiếm lợi nhuận và khả năng tài trợ. Đối với các
nhà đầu tư thì mối quan tâm của họ là các yếu tố rủi ro, thời gian hoàn vốn, mức sinh lãi
và khả năng thanh toán vốn. Một điều chung ở đây ta nhận ra là họ đều quan tâm đến
khả năng tạo ra dòng tiền, khả năng sinh lời, khả năng thanh toán và mức sinh lời tối đa.
Tuy nhiên, để phân tích được chính xác thì cần có một thông tin đầy đủ, chính xác
để giúp họ có quyết định đúng đắn khi ra quyết định đầu tư, cho vay, sản xuất...
Đây là ý nghĩa quan trọng nhất của việc phân tích tài chính doanh nghiệp nói riêng và
phân tích tình hình tài chính của một quốc gia nói chung.
1.1.2 Phương pháp phân tích tài chính
Để tiến hành phân tích tài chính, thông thường người ta sử dụng kết hợp nhiều
phương pháp phân tích để đánh giá tình hình doanh nghiệp một cách xác thực và tối ưu.
Phương pháp chủ yếu hiện nay là phương pháp so sánh và phân tích tỉ lệ [1].
Phương pháp so sánh:
So sánh là phương pháp được sử dụng phổ biến trong phân tích để xác định xu

hướng, mức độ biến động của chỉ tiêu phân tích. Vì vậy để tiến hành so sánh phải giải
quyết những vấn đề cơ bản, cần phải đảm bảo các điều kiện đồng bộ để có thể so sánh


11
được các chỉ tiêu tài chính. Như sự thống nhất về không gian, thời gian, nội dung, tính
chất và đơn vị tính toán. Đồng thời theo mục đích phân tích mà xác định gốc so sánh.
Khi nghiên cứu nhịp độ biến động, tốc độ tăng trưởng của các chỉ tiêu số gốc để so
sánh là trị số của chỉ tiêu kỳ trước (nghĩa là năm nay so với năm trước ) và có thể được
lựa chọn bằng số tuyệt đối, số tương đối hoặc số bình quân.
Kỳ phân tích được lựa chọn là kỳ báo cáo, kỳ kế hoạch.
Gốc so sánh được chọn là gốc về thời gian hoặc không gian. Trên cơ sở đó, nội
dung của phương pháp so sánh bao gồm:
So sánh kỳ thực hiện này với kỳ thực hiện trước để đánh giá sự tăng hay giảm
trong hoạt động kinh doanh của doanh nghiệp và từ đó có nhận xét về xu hướng thay đổi
về tài chính của doanh nghiệp.
So sánh số liệu thực hiện với số liệu kế hoạch, số liệu của doanh nghiệp với số liệu
trung bình của ngành, của doanh nghiệp khác để thấy mức độ phấn đấu của doanh
nghiệp được hay chưa được.
So sánh theo chiều dọc để xem tỷ trọng của từng chỉ tiêu so với tổng thể, so sánh
theo chiều ngang của nhiều kỳ để thấy được sự thay đổi về lượng và về tỷ lệ của các
khoản mục theo thời gian.
Phương pháp phân tích tỷ lệ.
Phương pháp này được áp dụng phổ biến trong phân tích tài chính vì nó dựa trên ý
nghĩa chuẩn mực các tỷ lệ của đại lượng tài chính trong các quan hệ tài chính.
Phương pháp tỷ lệ giúp các nhà phân tích khai thác có hiệu quả những số liệu và
phân tích một cách có hệ thống hàng loạt tỷ lệ theo chuỗi thời gian liên tục hoặc theo
từng giai đoạn. Qua đó nguồn thông tin kinh tế và tài chính được cải tiến và cung cấp
đầy đủ hơn. Từ đó cho phép tích lũy dữ liệu và thúc đẩy quá trình tính toán hàng loạt
các tỷ lệ như:

-

Tỷ lệ về khả năng thanh toán: Được sử dụng để đánh giá khả năng đáp ứng các

khoản nợ ngắn hạn của doanh nghiệp.
-

Tỷ lệ và khả năng cân đối vốn, cơ cấu vốn và nguồn vốn: Qua chỉ tiêu này phản

ánh mức độ ổn định và tự chủ tài chính.
-

Tỷ lệ về khả năng hoạt động kinh doanh: Đây là nhóm chỉ tiêu đặc trưng cho

việc sử dụng nguồn lực của doanh nghiệp.
-

Tỷ lệ về khả năng sinh lời: Phản ánh hiệu quả sản xuất kinh doanh tổng hợp

nhất của doanh nghiệp.
Kết luận: Các phương pháp trên nhằm tăng hiệu quả phân tích. Chúng ta sẽ sử
dụng kết hợp và sử dụng thêm một số phương pháp bổ trợ khác như phương pháp liên


12
hệ, phương pháp loại trừ nhằm tận dụng đầy đủ các ưu điểm của chúng để thực hiện
mục đích nghiên cứu một cách tốt nhất.
1.1.3 Dự báo tình hình tài chính
Dự báo tình hình tài chính là một yêu cầu cần thiết để kế hoạch hoá tài chính ngắn
hạn có hiệu quả. Thay cho việc phán quyết, các dự báo được dựa vào các nguồn dữ liệu

và các phương pháp dự báo khác nhau. Nhưng nhìn chung, chủ yếu vẫn sử dụng các mô
hình kinh tế lượng, các tính toán qua lại của các biến số kinh tế. Trong các trường hợp
khác, nhà dự báo tài chính có thể sử dụng các phương pháp thống kê trong việc phân
tích và dự tính các chuỗi thời gian.
Nội dung dự kiến bao gồm:
- Phân tích các lựa chọn về tài trợ và đầu tư của DN
- Dự tính các hiệu ứng tương lai của của các quyết định hiện tại.
- Quyết định thực hiện phương án nào.
- So sánh các kết quả hoạt động và các mục tiêu lập ra ban đầu.
Để làm được điều này, cần phải sử dụng các nhóm chỉ tiêu tài chính đặc trưng của
DN trong quá khứ để làm căn cứ, cơ sở khoa học cho việc xây dựng một hệ thống các
báo cáo tài chính dự kiến.
Các dự báo tổng hợp có tính nhất quán về doanh thu, luồng tiền, thu nhập và các
dự báo khác là rất phức tạp và tốn nhiều thời gian. Tuy nhiên, nhiều tính toán cần thiết
có thể được thực hiện một cách tự động bởi mô hình kế hoạch. Bằng cách đó, sản phẩm
của nhà phân tích tài chính trong hoạch định tài chính sẽ là một hệ thống các bảng cân
đối tài sản, báo cáo thu nhập và báo cáo luồng tiền dự tính. Số liệu trong dự báo có thể
là con số trung gian nào đó giữa số dự báo thực và số thực tế kỳ vọng đạt tới.
1.2

Phân tích kỹ thuật trong dự báo thị trường chứng khoán

1.2.1 Thị trường chứng khoán
Thị trường chứng khoán là một bộ phận quan trọng của Thị trường vốn, hoạt động
của nó nhằm huy động những nguồn vốn tiết kiệm nhỏ trong xã hội tập trung thành
nguồn vốn lớn tài trợ cho doanh nghiệp, các tổ chức kinh tế và Chính phủ để phát triển
sản xuất, tăng trưởng kinh tế hay cho các dự án đầu tư.
Thị trường chứng khoán là nơi diễn ra các hoạt động giao dịch mua bán các loại
chứng khoán. Việc mua bán được tiến hành ở hai thị trường sơ cấp và thứ cấp, do vậy
thị trường chứng khoán là nơi chứng khoán được phát hành và trao đổi.

Các hình thức của thị trường chứng khoán bao gồm: thị trường tập trung, thị
trường phi tập trung và thị trường chợ đen.


13
Với mỗi một mã chứng khoán trên sàn giao dịch đều bao gồm các chỉ số cơ bản
như:
-

Cột giá tham chiếu: Là giá đóng cửa của ngày giao dịch trước đó và là cơ sở để

xác định giá trần, giá sàn của ngày giao dịch hiện tại.
-

Cột giá trần: Là mức giá cao nhất mà nhà đầu tư có thể đặt lệnh mua, lệnh bán

chứng khoán.
- Cột giá mở cửa: Là mức giá thực hiện đầu tiên trong ngày giao dịch.
- Cột giá đóng cửa: Là mức giá thực hiện cuối cùng trong ngày giao dịch.
- Cột giá khớp lệnh: Là mức giá tại đó khối lượng CK được giao dịch nhiều nhất.
- Cột khối lượng khớp lệnh: Là khối lượng CK được thực hiện tại giá khớp lệnh.
-

Cột chênh lệch (+/-): Là thay đổi của mức giá hiện tại so với giá tham chiếu trong

ngày giao dịch (= giá hiện tại – giá tham chiếu).
Cột mua: Gồm 6 cột biểu thị cho 3 mức giá đặt mua cao nhất tương ứng với các
khối lượng đặt mua tại các mức giá cao nhất đó. Khi kết thúc phiên giao dịch Bảng điện
tử sẽ hiện thị các thông tin về khối lượng CK tương ứng với các mức giá chưa được
khớp lệnh (dư mua).

Cột bán: Gồm 6 cột biểu thị cho 3 mức giá đặt bán thấp nhất tương ứng với các
khối lượng đặt bán tại các mức giá thấp nhất đó. Khi kết thúc phiên giao dịch Bảng điện
tử sẽ hiện thị các thông tin về khối lượng CK tương ứng với các mức giá chưa được
khớp lệnh (dư bán và dư mua).
1.2.2 Phân tích kỹ thuật
Khái niệm:
Phân tích kỹ thuật (PTKT) là việc nghiên cứu giá, với công cụ cơ bản là biểu đồ,
nhằm nâng cao hiệu quả của hoạt động đầu tư. PTKT nghiên cứu các hành vi của các
bên tham gia thị trường thông qua sự biến động của giá, khối lượng chứng khoán giao
dịch nhằm xác định được xu thế biến động giá và thời điểm đầu tư.
Phân tích kỹ thuật dựa trên giả định rằng lịch sử lặp lại và hướng thị trường trong
tương lai có thể được xác định bằng cách kiểm tra giá vừa qua. Do đó, phân tích kỹ
thuật là chủ quan và mâu thuẫn với giả thuyết thị trường hiệu quả. Tuy nhiên, nó vẫn
được sử dụng khoảng 90% khi thực hiện đánh giá để giao dịch các cổ phiếu [8].
PTKT sử dụng ba giả thiết sau:
Giá trị thị trường của bất kỳ sản phẩm hay dịch vụ nào đều được xác lập thông qua
cung cầu của thị trường.


14
-

Cung cầu của thị trường được xác lập dựa trên một hệ thống các yếu tố hợp nhất

hoặc đôi khi phi hợp nhất và thị trường sẽ cân đối các trọng số này liên tục và tự động.
Loại bỏ những dao động bất thường, giá cả của một chứng khoán đơn lẻ hay toàn
bộ giá cả của thị trường có xu thế thay đổi theo một khuynh hướng (trend), và nó tồn tại
trong một khoảng thời gian nhất định.
Sự thay đổi trong khuynh hướng đang thịnh hành là do sự thay đổi trong mối
quan hệ cung cầu. Và sự thay đổi của quan hệ cung cầu sẽ được nhận diện sớm hay

muộn thông qua các phản ứng của chính thị trường.
Các công cụ cơ bản sử dụng trong phân tích kỹ thuật:
Phân tích kỹ thuật trong thị trường chứng khoán người ta sử dụng biểu đồ làm
công cụ để giúp cho việc quan sát, phân tích và nhận định một cách trực quan. Có nhiều
loại biểu đồ khác nhau, tuy nhiên có ba loại biểu đồ chính được dùng phổ biến đó là:
biểu đồ dạng đường (Line chart), biểu đồ dạng then chắn (Bar chart), biểu đồ dạng cây
nến (Candlestick chart).
Biểu đồ dạng đường (Line chart)
Đây là loại biểu đồ thường được dùng phổ biến dùng để mô phỏng các hiện tượng
kinh tế và xã hội. Nhưng hiện nay do khoa học kỹ thuật phát triển, diễn biến của thị
trường chứng khoán ngày càng phức tạp cho nên loại biểu đồ này ngày càng ít được sử
dụng nhất là trên các thị trường chứng khoán hiện đại. Hiện nay nó chủ yếu được sử
dụng trên các Thị trường chứng khoán mới đi vào hoạt động trong thời gian ngắn, khớp
lệnh theo phương pháp khớp lệnh định kỳ theo từng phiên hoặc nhiều lần trong một
phiên nhưng mức độ giao dịch chưa thể đạt được như Thị trường chứng khoán dùng
phương pháp khớp lệnh liên tục. Ưu điểm của loại biểu đồ này là dễ sử dụng, lý do
chính là vì nó được sử dụng trên tất cả các Thị trường chứng khoán trên khắp thế giới từ
trước tới nay.

Hình 1.1 Biểu đồ dạng đường


15
Biểu đồ dạng then chắn (Bar chart)
Các Thị trường chứng khoán hiện đại trên thế giới hiện nay chuyên viên phân tích
thường dùng loại biểu đồ này trong phân tích là chủ yếu lý do chính. Do tính ưu việt của
nó đó là sự phản ánh rõ nét sự biến động của giá chứng khoán.

Hình 1.2 Biểu đồ dạng then chắn
Hai kí tự mà dạng biểu đồ này sử dụng đó là:


Hình 1.3 Kí tự trong biểu đồ dạng then chắn
Loại biểu đồ này thường được áp dụng để phân tích trên các Thị trường chứng
khoán hiện đại khớp lệnh theo hình thức khớp lệnh liên tục, độ dao động của giá chứng
khoán trong một phiên giao dịch là tương đối lớn.
Biểu đồ cây nến (Candlestick chart)
Đây là dạng biểu đồ cải tiến của biểu đồ dạng then chắn (Bar chart), nó được
người Nhật Bản khám phá và áp dụng trên thị trường chứng khoán của họ đầu tiên. Giờ
đây nó đang dần được phổ biến hầu hết trên các thị trường chứng khoán hiện


16
đại trên toàn thế giới. Dạng biểu đồ này phản ánh rõ nét nhất về sự biến động của giá
chứng khoán trên thị trường chứng khoán khớp lệnh theo hình thức khớp lệnh định kỳ.

Hình 1.4 Biểu đồ dạng cây nến


biểu đồ này nếu giá đóng cửa cao hơn giá mở cửa, nến sẽ màu xanh, và giá

đóng cửa thấp hơn giá mở cửa, nến sẽ màu đỏ.

1.3 Kết luận
Trong chương 1 của luận văn đã trình bày được một số khái niệm cũng như
phương pháp phân tích và dự báo tài chính. Đồng thời trong nội dung của chương còn
giới thiệu những kiến thức cơ bản về thị trường chứng khoán và các phương pháp phân
tích kỹ thuật trong thị trường chứng khoán.


17

Chương 2. MỘT SỐ MÔ HÌNH TRONG BÀI TOÁN DỰ BÁO
2.1 Tổng quan về khai phá dữ liệu thời gian thực
Cùng với sự bùng nổ của công nghệ thông tin làm cho kho dữ liệu của chúng ta
ngày càng tăng lên một cách nhanh chóng. Hàng ngày, chúng ta tiếp nhận nhiều thông
tin từ nhiều nguồn khác nhau. Vậy làm sao để người dùng có thể chắt lọc ra những
thông tin hữu ích, hiệu quả nhất trong kho dữ liệu khổng lồ đó? Khai phá tri thức từ cơ
sở dữ liệu (Knowledge Discovery in Database - KDD) và khai phá dữ liệu (Data
Mining- DM) được xem như một cách tiếp cận mới trong việc tìm kiếm tri thức từ các
nguồn dữ liệu có sẵn. Nhờ nó mà từ những tập dữ liệu khổng lồ và hỗn tạp có thể tìm ra
những tri thức hữu ích.
Ngày nay, khai phá dữ liệu đang được áp dụng một cách rộng rãi trong nhiều lĩnh
vực kinh doanh và đời sống khác nhau [12]: marketing, tài chính, ngân hàng và bảo
hiểm, khoa học, y tế, an ninh, internet… Rất nhiều tổ chức và công ty lớn trên thế giới
đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh doanh của mình
và thu được những lợi ích to lớn.

Hình 2.1 Mô hình khai phá dữ liệu
Khai phá dữ liệu là một công nghệ mạnh mẽ có tiềm năng rất lớn để giúp người
dùng tập trung vào các thông tin quan trọng nhất trong kho dữ liệu của họ. Nhờ việc
khai phá dữ liệu dự đoán xu hướng và hành vi trong tương lai, cho phép các doanh
nghiệp đưa ra những quyết định trong tương lai theo huđể thực hiện, quyết định kiến
thức theo hướng chủ động. Việc phân tích, đưa ra những quyết định nhờ quá trình khai
phá dữ liệu dựa vào phân tích dữ liệu trong quá khứ của hệ thống hỗ trợ ra quyết định.
Khai phá dữ liệu giúp cho người dùng tiết kiệm thời gian trong quá trình đưa ra quyết
định của mình.


18
Vậy, Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai
thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ

và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó.
Khai phá dữ liệu là một bước trong bảy bước của quá trình khai phá tri thức từ
CSDL. Quá trình này bao gồm [3]:
1. Làm sạch dữ liệu (data cleaning): Loại bỏ nhiễu và các dữ liệu không cần
thiết.
2.
Tích hợp dữ liệu: (data integration): Tích hợp dữ liệu từ các nguồn khác
nhau
như: CSDL, Kho dữ liệu, file text…
3.
Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu và
sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức. Quá trình này bao
gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ (incomplete
data)....v.v.
4.

Chuyển đổi dữ liệu (data transformation): Các dữ liệu được chuyển đổi sang

các dạng phù hợp cho quá trình xử lý.
5.

Khai phá dữ liệu(data mining): Là một trong các bước quan trọng nhất, trong

đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu.
6.

Ước lượng mẫu (knowledge evaluation): Quá trình đánh giá các kết quả tìm

được thông qua các độ đo nào đó.
7.


Biểu diễn tri thức (knowledge presentation): Quá trình này sử dụng các kỹ thuật

để biểu diễn và thể hiện trực quan cho người dùng.
Khai phá dữ liệu thường có 2 nhiệm vụ chính:


Mô tả (Descriptive): có nhiệm vụ mô tả về các tính chất hoặc các đặc tính

chung của dữ liệu trong CSDL hiện có.


Dự đoán (Predictive): có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn

trên dữ liệu hiện thời.
Để thực hiện nhiệm vụ trên, trong khai phá dữ liệu ta có các phương pháp thông
dụng là: Phân cụm dữ liệu, Phân lớp dữ liệu, Hồi quy và Khai phá luật kết hợp.


Phân cụm (Clustering): Nhằm nhóm các đối tượng tương tự nhau trong tập dữ

liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng còn các đối
tượng thuộc các cụm khác nhau sẽ không tương đồng.


Phân lớp dữ liệu và hồi quy ( Classification &Regression): Nhằm dự báo nhãn

lớp cho các mẫu dữ liệu trong tương lai thông qua các thuộc tính của lớp.



19


Khai phá luật kết hợp (Association Rule Discovery): Phương pháp này nhằm

phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong CSDL. Mẫu đầu ra của
giải thuật khai phá dữ liệu là tập luật kết hợp tìm được.
Một chuỗi thời gian (Time Series) là một chuỗi các quan sát theo trật tự thời gian.
Chủ yếu những quan sát này được thu thập ở những khoảng thời gian rời rạc, cách đều
nhau. Các mô hình chuỗi thời gian được đặc biệt áp dụng trong dự báo ngắn hạn. Trong
các bài toán dự báo nói chung và các bài toán dự báo tài chính và chứng khoán nói
riêng, dữ liệu thường được biểu diễn dưới dạng chuỗi thời gian. Trong các dạng dữ liệu
được phân tích thì dữ liệu chuỗi thời gian luôn thuộc tốp đầu về tính phổ biến.
Khai phá dữ liệu thời gian thực ở đây được hiểu là việc khai phá dữ liệu dựa trên
dữ liệu chuỗi thời gian.
2.2 Phân lớp dữ liệu
Phân lớp (Classification) là việc phân loại các mẫu thành một tập rời rạc của các
nhóm có thể.
Phân lớp là một quá trình gồm hai bước.
Bước thứ nhất (huấn luyện - learning)
Quá trình học nhằm xây dựng một mô hình mô tả một tập các lớp dữ liệu hay các
khái niệm định trước. Mô hình này được xây dựng bằng cách phân tích các thuộc tính
của dữ liệu. Mỗi dữ liệu được giả thiết rằng thuộc một lớp đã định nghĩa trước, và được
xác định bởi nhãn của lớp (class lable). Trong phân lớp, dữ liệu được phân tích để xây
dựng một mô hình tập hợp từ tập dữ liệu huấn luyện (training data set). Dữ liệu riêng lẻ
tạo ra tập huấn luyện còn được gọi là mẫu huấn luyện (training examples) và được chọn
ngẫu nhiên. Nếu các mẫu huấn luyện được đánh nhãn, bước này còn được gọi là học có
giám sát (Supervised learning). Nó đối lập với học không giám sát (unsupervised
learning), thường được gọi là phân cụm, trong đó nhãn cho mẫu huấn luyện là không
biết và số lượng tập hợp của các lớp được học có thể không biết. Một số mô hình học

thông dụng được sử dụng nhiều trong thực tế là luật kết hợp, cây quyết định (Decision
tree), mạng nơ-ron, SVM…
Bước thứ hai (phân lớp - classification)
Bước thứ hai là sử dụng mô hình đã được xây dựng ở bước một để phân loại các
mẫu dữ liệu chưa có nhãn vào lớp tương ứng. Đầu tiên sẽ đánh giá sự chính xác khi dự
đoán. Có một số cách để đánh giá sự chính xác. Cách thường được dùng là phương pháp
tiếp cận holdout, nó đánh giá sự chính xác dự báo của mô hình bằng việc đo độ chính
xác trên một tập các mẫu mà tập này không được phép dùng khi xây dựng mô hình. Tập
như vậy được gọi là tập thử (test data set). Những mẫu này được chọn ngẫu nhiên và
độc lập với tập huấn luyện. Sự chính xác của mô hình dựa trên tập dữ liệu kiểm tra là
phần trăm của tập mẫu test mà phân loại chính xác bởi mô hình. Với


20
mỗi mẫu thử, nhãn đã biết của lớp được so sánh với sự dự đoán của mô hình học của
lớp. Để mô hình cho kết quả phân lớp tốt thì quá trình huấn luyện cũng phải đạt kết quả
tốt và điều quan trọng là tập huấn luyện phải đủ lớn để dữ liệu có thể phân bổ tốt nhất có
thể.
Một số phương pháp phân lớp cơ bản
- Phương pháp cây quyết định.
- Phương pháp Naïve Bayes.
- Phương pháp k láng giềng.
- Phương pháp mạng nơ-ron.
- Phương pháp máy vector hỗ trợ.
2.3 Một số mô hình dùng trong khai phá dữ liệu thời gian thực
2.3.1 Mô hình mạng nơ-ron nhân tạo (ANN – Artificial Neural Network) a.
Giới thiệu sơ lược về mô hình mạng nơ-ron


Mạng nơ-ron sinh học

Hệ thống thần kinh con người (hình 2.2) được tạo nên từ các tế bào thần kinh,

thường được gọi là các nơ-ron. Mỗi nơ-ron bao gồm bốn phần:
-

Thân nơ-ron với nhân bên trong (gọi là soma), là nơi tiếp nhận hay phát ra các

xung thần kinh.
Một hệ thống dạng cây các dây thần kinh vào (gọi là dendrite) để đưa tín hiệu
tới nhân nơ-ron (cụ thể là soma) xử lý. Bên trong soma các dữ liệu đó được tổng hợp lại
(có thể xem như lấy tổng của tất cả các dữ liệu mà nơ-ron nhận được).
Đầu dây thần kinh ra được gọi là sợi trục axon. Khác với dendrites, axon có
khả năng phát các xung điện thế, chúng là các dây dẫn tín hiệu từ nơ-ron đi các nơi
khác. Chỉ khi nào điện thế trong soma vượt quá một giá trị ngưỡng nào đó (threshold)
thì axon mới phát một xung điện thế, còn nếu không thì nó ở trạng thái nghỉ.
Synapse là các mối nối đặc biệt để liên kết axon với các dendrites hoặc trực
tiếp với nhân của các nơ-ron khác. Thông thường mỗi nơ-ron có thể có từ vài chục cho
tới hàng trăm ngàn khớp nối để nối với các nơ-ron khác. Người ta ước tính mỗi nơ-ron
trong bộ não của con người có khoảng 104 khớp nối.

Hình 2.2 Mô hình nơ-ron sinh học


21
Chức năng cơ bản của các tế bào nơ-ron là liên kết với nhau để tạo nên hệ thống
thần kinh điều khiển hoạt động của cơ thể sống. Các tế bào nơ-ron truyền tín hiệu cho
nhau thông qua các dây thần kinh vào và ra, các tín hiệu đó có dạng xung điện và được
tạo ra từ các quá trình phản ứng hoá học phức tạp. Tại nhân tế bào, khi điện thế của tín
hiệu vào đạt tới một ngưỡng nào đó thì nó sẽ tạo ra một xung điện dẫn tới trục dây thần
kinh ra. Xung này truyền theo trục ra tới các nhánh rẽ và tiếp tục truyền tới các nơ-ron

khác.


Mạng nơ-ron nhân tạo

Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) ra đời xuất phát từ ý tưởng
mô phỏng hoạt động của hệ thần kinh con người[13].
Mạng nơ-ron nhân tạo là mạng các phần tử (gọi là nơ-ron) kết nối với nhau thông
qua các liên kết (gọi là trọng số liên kết) để thực hiện một công việc cụ thể nào đó. Khả
năng xử lý của mạng nơ-ron được hình thành thông qua quá trình hiệu chỉnh trọng số
liên kết giữa các nơ-ron, nói cách khác là học từ tập hợp các mẫu huấn luyện.
Mạng nơ-ron nhân tạo là sự tái tạo bằng kỹ thuật những chức năng của hệ thần kinh
con người với vô số các nơ-ron được liên kết với nhau tạo thành hệ thống mạng. Giống
như bộ não con người, ANN được học bởi kinh nghiệm, lưu giữ những kinh nghiệm đó
và sau đó áp dụng những kinh nghiệm đó để giải quyết các bài toán cụ thể.
Mô hình mạng nơ-ron nhân tạo hiện nay đã được nhiều người quan tâm và đã áp
dụng rộng rãi trong nhiều lĩnh vực khác nhau như tài chính, y tế, địa chất và vật lý. Thật
vậy, bất cứ ở đâu có vấn đề về dự báo, phân loại và điều khiển, mạng nơ-ron đều có thể
ứng dụng được. Ví dụ như khả năng nhận dạng mặt người trong các hệ thống quản lý
thông tin liên quan đến con người (quản lý nhân sự ở các công sở, doanh nghiệp; quản
lý học sinh, sinh viên trong các trường trung học, đại học và cao đẳng;… ); các ngành
khoa học hình sự, tội phạm; khoa học tướng số, tử vi,…
Kết hợp với giải thuật di truyền, mạng nơ-ron nhân tạo đã đem lại hiệu quả cao trong
bài toán dự báo, đặc biệt là trong bài toán dự báo tài chính.
b. Cấu trúc và hoạt động của mạng nơ-ron


Cấu trúc và hoạt động của một nơ-ron

Từ khái niệm về mạng nơ-ron ta thấy đơn vị hình thành lên mạng nơ-ron là từ các

nơ-ron. Chức năng của mạng nơ-ron nhân tạo tương tự như chức năng đơn giản nhất của
các nơ-ron sinh học đó là tích luỹ (ghi nhớ) những tri thức đã được học về các sự vật để
nhận biết, phân biệt chúng mỗi khi gặp lại. Chức năng này được hình thành thông qua
một chuỗi liên tiếp các quá trình xử lý thông tin của các nơ-ron trong mạng.
Về cơ bản, mỗi nơ-ron sinh học thực hiện nhiệm vụ của mình thông qua các bước:
nhận đầu vào, xử lý đầu vào đó, đưa dữ liệu đã được xử lý ra output và liên lạc


22
với các nơ-ron khác để gửi output này đi. Với bản chất là mô hình mô phỏng đơn giản
của nơ-ron sinh học, nơ-ron nhân tạo cũng thực hiện nhiệm vụ của mình thông qua các
thao tác: nhận đầu vào từ các nơ-ron trước nó, xử lý đầu vào bằng cách nhân mỗi đầu
vào này với trọng số liên kết tương ứng và tính tổng các tích thu được rồi đưa qua một
hàm truyền, sau đó gửi kết quả cuối cùng cho các nơ-ron tiếp theo hoặc đưa ra output.
Cứ như vậy các nơ-ron này hoạt động phối hợp với nhau tạo thành hoạt động chính của
mạng nơ-ron.
Quá trình xử lý thông tin của một nơ-ron được thể hiện rất rõ trong cấu trúc của
một nơ-ron trong hình 2.3 như sau:

Hình 2.3 Cấu trúc của một nơ-ron
Trong đó:

(x1, x2, …, xp), với p 1: là các tín hiệu đầu vào của nơ-ron. Các tín hiệu này
có thể là đầu ra của các nơ-ron trước nó hoặc đầu vào ban đầu của mạng và thường được
đưa vào dưới dạng một vector p chiều.


(wk1, wk2, …, wkp) là tập các trọng số liên kết của nơ-ron k với p đầu vào

tương ứng (x1, x2, …, xp). Thông thường, các trọng số này được khởi tạo một cách ngẫu

nhiên ở thời điểm khởi tạo mạng và được cập nhật liên tục trong quá trình học của
mạng. Đây là thành phần rất quan trọng của nơ-ron, nó thể hiện mức độ quan trọng (độ
mạnh) của dữ liệu đầu vào đối với quá trình xử lý thông tin (quá trình chuyển đổi dữ
liệu từ Layer này sang layer khác). Quá trình học của một mạng nơ-ron thực ra là quá
trình điều chỉnh các trọng số (weight) của dữ liệu đầu vào để được kết quả như mong
muốn.

∑ là hàm tổng trên một nơ-ron, dùng để tính tổng các giá trị kích hoạt lên
nơ-ron đó. Thông thường, đây là tổng của các tích giữa đầu vào với trọng số liên kết
tương ứng của nơ-ron.


23

Hình 2.4 Cách tính hàm tổng

Hình 2.4a: Hàm tổng của một nơ-ron đối với n input được tính theo công
thức:



Hình 2.4b: Hàm tổng đối với nhiều nơ-ron trong cùng một Layer được

tính theo công thức:


uk là tổng các giá trị kích hoạt lên nơ-ron thứ k, giá trị này chính là đầu ra
của hàm tổng.

bk là ngưỡng (còn gọi là hệ số bias) của nơ-ron thứ k, giá trị này được dùng

như một thành phần phân ngưỡng trên hàm truyền và cũng được cập nhật liên tục trong
quá trình học của mạng.

(.) là hàm chuyển, còn gọi là hàm kích hoạt (activation function). Hàm
chuyển được dùng để giới hạn phạm vi đầu ra của mỗi nơ-ron. Đối số của hàm là giá trị
hàm tổng và ngưỡng bk. Thông thường, phạm vi đầu ra của mỗi nơ-ron được giới hạn
trong đoạn [0,1] hoặc [-1,1]. Như vậy miền giá trị của các hàm kích hoạt cũng là một
trong hai đoạn trên. Có rất nhiều hàm chuyển thường được dùng, việc lựa chọn hàm
chuyển nào cho phù hợp tuỳ thuộc vào từng bài toán.


×