Trong thời đại bùng nổ công nghệ thông tin, các công nghệ lưu trữ dữ liệu ngày càng phát
triển nhanh chóng tạo điều kiện cho các đơn vị thu thập dữ liệu nhiều hơn và tốt hơn. Đặc biệt trong
lĩnh vực kinh doanh, các doanh nghiệp đã nhận thức được tầm quan trọng cuả việc nắm bắt và xử lí
thông tin. Tất cả lí do đó khiến cho các cơ quan, đơn vị và các doanh nghiệp đã tạo ra một lượng dữ
liệu khổng lồ cỡ Gigabyte thậm chí là Terabyte cho riêng mình. Các kho dữ liệu ngày càng lớn và
tiềm ẩn nhiều thông tin có ích. Sự bùng nổ đó dẫn tới một yêu cầu cấp thiết là phải có những kĩ thuật
và công cụ mới để biến kho dữ liệu khổng lồ kia thành những thông tin cô đọng và có ích. Khám phá
tri thức – Khai phá dữ liệu ra đời như một kết quả tất yếu đáp ứng các nhu cầu đó.
SỰ CẦN THIẾT CỦA QUY TRÌNH NGHIÊN CỨU QUY TRÌNH KHÁM PHÁ TRI THỨC –KHAI PHÁ
DỮ LIỆU.
Hiện nay trên thế giới Khám phá tri thức – Khai phá giữ liệu đã và đang được áp dụng một
cách rộng rãi trong rất nhiều lĩnh vực khác nhau như : y tế , marketing , ngân hàng , viễn thông,
internet…, ở Việt nam hiện thuật ngữ Khám phá tri thức – Khai phá dữ liệu đang còn rất là mới mẻ, vì
vậy việc đầu tư nghiên cứu một cách tỷ mỷ nhằm nắm rõ được bản chất của kỹ thuật Khám phá tri
thức là gì, các bước chính trong quy trình khám phá tri thức được thực hiện như thế nào, thực chất của
việc khai phá dữ liệu cũng như các giải thuật cúa nó là rất cần thiết đối với các nhà phát triển công
nghệ thông tin Việt.
MỤC ĐÍCH NGHIÊN CỨU CỦA ĐỀ TÀI.
Vì kỹ thuật Khám phá tri thức – Khai phá dữ liệu là một lĩnh vực mới, do đó mục đích của đề
tài là nghiên cứu một cách tổng quan quy trình Khám phá tri thức – Khai phá dữ liệu, từ đó có thể
nắm bắt được những luận điểm, giải thuật cơ bản nhất của kỹ thuật này làm tiền đề cho việc nghiên
cứu phát triển các ứng dụng cụ thể nào đó.
PHẠM VI NGHIÊN CỨU CỦA ĐỀ TÀI.
Đề tài chỉ dừng ở phạm vi nghiên cứu các bước cơ bản nhất của quy trình Khám phá tri thức, áp
dụng vào việc phân tích CSDL chuỗi thời gian mà cụ thể là CSDL của thị trường chứng khoán. Giới
thiệu kỹ thuật làm sạch giữ liệu bằng việc áp dụng phương pháp trung bình trượt hàm mũ, đồng thời
đưa ra thuật toán phân loại trạng thái của hệ thống “nhiễu loạn” dựa trên cặp chỉ số xu hướng.
1
QUY TRÌNH KHÁM PHÁ TRI THỨC
CÁC KHAI NIỆM
• Khám phá tri thức - Knowledge Discovery: Khám phá tri thức trong CSDL là một quá
trình gồm một loạt các bước phân tích dữ liệu nhằm rút ra được các thông tin có ích, xác định
được các giá trị, quy luật tiềm ẩn trong các khuân mẫu hoặc mô hình dữ liệu.
• Khai phá dữ liệu – Data Minning: Khai phá dữ liệu là một bước trong quá trình Khám
phá tri thức bao gồm các thuật toán Khai phá đặc biệt nằm trong giới hạn khả năng của máy
tính để tìm ra các mẫu, mô hình dữ liệu hoặc các thông tin có ích.
CÁC GIAI ĐOẠN CỦA QUY TRÌNH KHÁM PHÁ TRI THỨC.
Có thể tổng quát hóa các giai đoạn của quy trình khám phá tri thức trên hính vè sau (Hình 2.1)
Hình 2.1: Các giai đoạn của quá trình khám phá tri thức
NHIỆM VỤ CỦA QUÁ TRÌNH KHÁM PHÁ TRI THỨC
Trên thực tế mỗi giai đoạn của quá trình khám phá tri thức là rất phức tạp. Để hiểu rõ hơn quá
trình Khám phá tri thức cần phải làm những việc gì, chúng ta hãy xem xét những nhiệm vụ mà một
quá trình Khám phá tri thức sẽ thực hiện qua hình sau (Hình 2.2):
2
Tỡm hiểu
lĩnh vực ứng
dụng
Thu thập và
tiền xử lý dữ
liệu
Khai phỏ
trớch rỳt tri
thức
Phân tích và kiểm
định kết quả
Sử dụng tri
thức phát hiện
được
CSDL
Dữ liệu đó được
tiền xử lý
Cỏc mẫu
/ mụ
hỡnh
Trực quan húa dữ
liệu
Hình 2.2: Các nhiệm vụ của quá trình Khám phá tri thức
Rõ ràng, nhiệm vụ của quá trình Khám phá tri thức là rất nặng nề và liên quan đến nhiều vấn
đề khác nhau nếu như lĩnh vực ứng dụng hay bài toán đặt ra được xác định trên các tập dữ liệu lớn
như kho dữ liệu, CSDL, ... cụ thể, thì một quy trình Khám phá tri thức (kết hợp cả việc Khai phá dữ
liệu) có thể được thực hiện theo 5 bước như hình sau (Hình 3.2):
Hình 2.3 Quy trình Khám phá tri thức
ỨNG DỤNG QUY TRÌNH KHÁM PHÁ TRI THỨC VÀO VIỆC PHÂN TÍCH CSDL
CHỨNG KHOÁN (CSDL CHUỖI THỜI GIAN)
CÁC ĐỊNH NGHĨA.
a. CSDL chuỗi thời gian - Time Series DataBase (TSDB): Cơ sở dữ liệu chuỗi thời gian là một
tập hợp các bản ghi
{ }
)(
1
tN
j
t
j
r
∆
=
∆
, trong đó mỗi một bản ghi chứa một tập các thuộc tính và giá trị thời
gian
{ }
t
jmk
t
j
tdddsssr
∆∆
=
,...,,,,...,,,
2121
. Mỗi một thuộc tính có thể nhận giá trị thực hoặc giá trị
rời rạc và có hoặc không có mối liên hệ với giá trị thời gian. Nếu thuộc tính có mối liên hệ với giá trị
3
Dữ liệu
(1)
Lựa chọn
dữ liệu
(2)
Tiền xử
lý dữ liệu
(3)
Biến đổi
dữ liệu
(4)
Khai phá
dữ liệu
(5)
Biểu
diễn/
Đánh giá
tri thức
Dữ liệu
đích
Dữ liệu đã được
tiền xử lý
Dữ liệu đã được
chuyển đổi
Các mẫu,
mô hình
Tri thức
thời gian thì nó được gọi là thuộc tính động, trong trong trường hợp ngược lại thì được gọi là thuộc
tính tĩnh. Còn giá trị thời gian
t
j
t
∆
được đưa ra trên thang chia thời gian ứng với mỗi khoảng thời
gian, ví dụ như là phút, ngày, tháng, năm.
b. Hàm thuộc tính: đó là hàm của thời gian mà các phần tử của nó là các giá trị của thuộc tính
i
trong bản ghi, ký hiệu là
)(ta
t
i
∆
.
t
j
t
j
tt
i
rtrata
∆∆∆∆
∈∋∈=
χχ
,)(
(3.1)
Trong đó
t
i
a
∆
– là thuộc tính
i
theo thời gian với khoảng (Interval) thời gian
t
∆
;
t
j
r
∆
– là
bản ghi thứ
j
trong CSDL chuỗi thời gian với interval thời gian
t
∆
;
χ
t
– là nhãn thời gian tương
ứng với bản ghi đó. Nếu như hàm thuộc tính
( )
ta
t
i
∆
có thể được sấp xỉ cũng bởi một hàm thời gian
khác
( )
t
t
∆
φ
trên khoảng thời gian
[ ]
21
,tt
thì người ta nói rằng
( )
t
t
∆
φ
và các tham số của nó chính là
đặc tínhg của
( )
ta
t
i
∆
trên khoảng thời gian
[ ]
21
,tt
. Ví dụ, nếu
( )
t
i
t
i
t
tt
∆∆∆
+=
βαφ
trên một khoảng
thời gian nào đó, thì có thể nói rằng trong khoảng thời gian đó hàm
( )
ta
t
i
∆
có độ lệch
t
i
∆
α
, ở đây độ
lệch chính là đặc tính được rút ra từ
( )
ta
t
i
∆
trên một khoảng thời gian nào đó.
ĐẶC ĐIỂM CỦA THỊ TRƯỜNG CHỨNG KHOÁN.
• Đây là một dạng điển hình của cơ sở dữ liệu chuỗi thời gian.
• Hệ thống phân tích là một hệ thống “nhiễu loạn”, bởi giá trị của chỉ số chứng khoán chịu ảnh
hưởng của rất nhiều yếu tố ngẫu nhiên, không xác đinh.
• Các thông tin có ích phản ánh sự biến đổi của xu hướng của các chỉ số chứng khoán không thể
hiện dưới dạng dữ liệu tường minh, mà nó tồn tại dưới dạng phi cấu trúc trong các trạng thái
tự do của hệ thống. Không gian giữ liệu cần phân tích là rất lớn, không đầy đủ và nhiều
“nhiễu” .
• Sự biến đổi xu hướng của chỉ số chứng khoán không chỉ được phản ánh trong giá trị của giá
đóng (Close), mà nó còn được thể hiện ở sự trênh lệch giữa giá đóng, giá Max (Hight) và giá
Min(Low) so với giá mở (Open).
TIỀN XỬ LÝ DỮ LIỆU CHUỖI THỜI GIAN
Thực chất của quá trình tiền xử lý dữ liệu chính là lọc dữ liệu nhằm nhận được các dữ liệu
“sạch” với càng ít các nhiễu hay tạp chất càng tốt. Giả sử dữ liệu thô
( )
na
raw
bao gồm tín hiệu của xu
hướng dài hạn
( )
na
và nhiễu
( )
ne
, tức là :
( ) ( ) ( )
nenana
raw
+=
(3.2)
4
Thủ thuật làm sạch thực chất là tìm ra
( )
na
∧
là sấp xỉ gần đúng của
( )
na
. Để làm được điều
đó chúng ta phải phân biệt được
( )
na
và
( )
ne
. Người ta thường sử dụng thủ thuật lọc tần số thấp
(Low Pass Filter - LPF) để làm sạch dữ liệu. Có rất nhiều phương pháp lọc tần số thấp trong lĩnh vực
thời gian và tần số, như: phương pháp trung bình trượt đơn giản, trung bình trượt có trọng số … Đại
đa số các nhà phân tích hiện nay lựa chọn phương pháp làm trơn hàm mũ, mà thực chất là việc tìm
trung bình trượt hàm mũ EMA (Exponential Moving Average) với công thức hồi quy như sau:
( ) ( ) ( )
)(1 ttYtXtY
∆−•−+•=
αα
(3.3)
Với,
[ ]
1;0∈
α
được gọi là hằng số làm trơn (hay trọng số),
( )
tY
là giá trị cần làm trơn tại thời
điểm
t
,
( )
ttY ∆−
là giá trị đã làm trơn ở thời điểm
( )
tt ∆−
,
( )
tX
là dữ liệu thô tại thời điểm
t
. Trong
bài toán chúng ta sẽ chọn
{ }
55,13,8,
1
∈=
T
T
α
. Và ta có thể chuyển về công thức lọc dữ liệu cụ thể
như sau:
( )
t)-EMA(t
1
)(
1
tEMA ∆
−
+=
T
T
tClose
T
(3.4)
Ở đây:
)(tClose
là giá đóng tại thời điểm
t
,
( )
tEMA
là giá trị trung bình trượt số mũ tại thời
điểm
t
,
t)-EMA(t ∆
là giá trị trung bình trượt số mũ tại thời điểm
tt
∆−
.
Khi áp dụng phương pháp này vào thì trường FOREX, ta nhận được kết quả như hình 3.1:
Hình 3.1: Trung bình trượt hàm mũ
CHỈ SỐ XU HƯỚNG TỔNG QUÁT.
5