Tải bản đầy đủ (.docx) (38 trang)

Nghiên cứu các mô hình phân tích và dự đoán thị trường chứng khoán

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (751.86 KB, 38 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH.
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN.
Nguyễn Hoàng Hạc – CH1101081.
NGHIÊN CỨU
CÁC MÔ HÌNH PHÂN TÍCH VÀ DỰ ĐOÁN
THỊ TRƯỜNG CHỨNG KHOÁN
Chuyên ngành: KHOA HỌC MÁY TÍNH.
Mã số: 60 48 01.
KHÓA LUẬN TỐT NGHIỆP THẠC SĨ
Thành phố Hồ Chí Minh – 2015
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH.
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN.
Chuyên Đề Công Nghệ Tri Thức
Nguyễn Hoàng Hạc – CH1101081.
NGHIÊN CỨU
CÁC MÔ HÌNH PHÂN TÍCH VÀ DỰ ĐOÁN
THỊ TRƯỜNG CHỨNG KHOÁN
Chuyên ngành: KHOA HỌC MÁY TÍNH.
Mã số: 60 48 01.
Giảng viên phụ trách: GS. TSKH Hoàng Văn Kiếm.
Thành phố Hồ Chí Minh, 2015
MỤC LỤC
Trang 2 |
Chuyên Đề Công Nghệ Tri Thức
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Chữ viết tắt Tên đầy đủ
MLP Multi Layer Perceptron
OTC Over The Counter market
DANH MỤC CÁC BẢNG
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Trang 3 |


Chuyên Đề Công Nghệ Tri Thức
MỞ ĐẦU
Ra đời vào đầu năm 2000, thị trường chứng khoán Việt Nam đã trở thành một
kênh đầu tư hết sức hấp dẫn đối với các nhà đầu tư, từ các tổ chức đầu tư chuyên nghiệp
cho đến các nhà đầu tư cá nhân nghiệp dư nhỏ lẻ. Tuy nhiên, bên cạnh mức sinh lợi cao,
đây cũng là hoạt động luôn tồn tại nhiều rủi ro tiềm ẩn bởi nhà đầu tư không phải lúc nào
cũng dự đoán được chính xác xu hướng của giá cổ phiếu trong tương lai.
Dự đoán giá cổ phiếu, biến động của thị trường là một chủ đề thú vị, thu hút được
sự quan tâm của nhiều nhà đầu tư, chuyên gia, nhà khoa học. Hiện nay, nhiều phương
pháp dự đoán đã được phát triển để dự đoán xu hướng biến động giá cổ phiếu, thị trường
hoặc tìm kiếm các cổ phiếu tiềm năng để đầu tư. Ở Việt Nam, phương pháp phân tích và
dự đoán được nhiều người biết đến nhất là phân tích kỹ thuật và phân tích cơ bản. Bên
cạnh đó, phương pháp phân tích và dự đoán bằng định lượng thông quá các mô hình toán
học đang dần được quan tâm.
Thị trường chứng khoán trên thế giới nói chung và ở Việt Nam nói riêng luôn là
nơi hấp dẫn các tổ chức và cá nhân đầu tư bởi mức sinh lợi cao của nó. Tuy nhiên, đây
cũng là một hoạt động tiềm ẩn rất nhiều rủi ro. Vì thế, việc đưa ra dự đoán xu hướng biến
động của chỉ số giá chứng khoán để có một sách lược phù hợp cho hoạt đầu tư thu hút rất
nhiều sự quan tâm. Trong chuyên đề Công nghệ tri thức này, tôi đề xuất một vài mô hình
sử dụng để dự đoán thị trường tài chính, chứng khoán Việt Nam. Báo cáo gồm các phần
chính như sau:
Chương 1: Giới thiệu thị trường chứng khoán, trong chương này giới thiệu tổng
quát về thị trường chứng khoán, cổ phiếu, trái phiếu trên thị trường chứng khoán.
Chương 2: Mô hình ARIMA, chương này trình bày mô hình ARIMA và sử dụng mô
hình ARIMA để dự đoán theo chuỗi thời gian.
Chương 3: Mô hình Neural Networks, trình bày mô hình mạng neural và sử dụng mạng
neural trong dự đoán cho thị trường tài chính chứng khoán.
Chương 4: Mô hình gom cụm tích hợp, trình bày mô hình gom cụm tích hợp và sử dụng
mạng mô hình gom cụm tích họp cho dự đoán chứng khoán.
Chương 5: Thử nghiệm và Kết luận, chương này trình thử nghiệm và đánh giá so sánh

giữa các mô hình.
Trang 4 |
Chuyên Đề Công Nghệ Tri Thức
CHƯƠNG 1 GIỚI THIỆU VỀ THỊ TRƯỜNG CHỨNG KHOÁN
1. Tổng quan về thị trường chứng khoán
Thị trường chứng khoán là thị trường trên đó giao dịch các loại chứng khoán như
cổ phiếu, trái phiếu, các công cụ phái sinh bao gồm cả chứng khoán niêm yết công khai
trên sàn giao dịch chứng khoán và chứng khoán giao dịch không công khai.
Hàng hoá chủ yếu trên các sàn giao dịch chứng khoán lớn thường là cổ phiếu, còn
trái phiếu và các công cụ phái sinh khác hay được mua bán trên thị trường OTC hơn. Qui
mô của thị trường trái phiếu toàn cầu được ước tính vào khoảng 45.000 tỷ USD, còn qui
mô của thị trường cổ phiếu vào khoảng phân nửa con số đó. Qui mô của thị trường các
chứng khoán phái sinh vào khoảng 300.000 tỷ USD [7], tuy nhiên người ta không so sánh
trực tiếp nó với 2 thị trường trên vì đó chỉ là giá trị danh nghĩa của chúng, trong khi các
con số nói trước đó là giá trị thực của cổ phiếu trái phiếu.
Những người tham gia vào thị trường chứng khoán vô cùng đa dạng, nhưng tựu
trung lại có thể chia ra làm 2 loại chính: nhà đầu tư cá nhân và các tổ chức đầu tư, trong
đó các tổ chức chiếm đa số tính theo khối lượng giao dịch. Giao dịch của các nhà đầu tư
này thường không được thực hiện một cách trực tiếp mà thông qua những người môi giới
chứng khoán chuyên nghiệp.
Phương thức giao dịch chủ yếu của thị trường chứng khoán là phương thức đấu
giá, những người tham gia sẽ tiến hành đặt lệnh, trong đó nêu rõ mức giá mong muốn của
mình. Phương thức này giúp đảm bảo tính công bằng cao nhất cho mọi đối tượng tham
gia. Khi giá chào mua phù hợp với giá chào bán thì giao dịch sẽ được thực hiện, hay nói
cách khác là được “khớp lệnh”. Mục đích của sàn giao dịch chứng khoán là tạo thuận lợi
cho việc giao dịch các loại chứng khoán giữa người mua với người bán, qua đó tạo lập
nên một thị trường cho thứ hàng hoá đặc biệt này.
2. Lịch sử hình thành
Theo nhà sử học nổi tiếng người Pháp Fernand Braudel, ngay từ thế kỉ 11, ở Cairo,
những thương nhân người Hồi giáo và Do Thái đã xây dựng nên những hiệp hội thương

nghiệp đầu tiên và có những hiểu biết về các phương thức tín dụng và thanh toán, là
những mầm mống cho thị trường chứng khoán sau này. Giữa thế kỉ 13 những nhà ngân
Trang 5 |
Chuyên Đề Công Nghệ Tri Thức
hàng ở Venetia bắt đầu tiến hành những giao dịch đối với các chứng khoán do Chính phủ
phát hành, tuy nhiên năm 1351, chính quyền Venetia đã ra lệnh nghiêm cấm việc phổ biến
những tin đồn có mục đích là giảm giá trị các quỹ do Chính quyền sở hữu. Những nhà
ngân hàng ở Pisa, Verona, Genoa và Florence thuộc Italy đã bắt đầu tiến hành mua bán
chứng khoán do Chính phủ phát hành từ thế kỷ 14, điều này thực hiện được là vì đây là
những thành bang độc lập, không nằm dưới quyền cai trị của một công tước nào mà bởi
một hội đồng những người có ảnh hưởng.
Sau đó, chính người Hà Lan khởi xướng ra các công ty cổ phần, mà cổ đông có thể
đầu tư vào để chia sẻ lợi nhuận cũng như thua lỗ. Năm 1602, Công ty Đông Ấn đã phát
hành những cổ phiếu đầu tiên ra Sàn giao dịch chứng khoán Amsterdam. Đó là công ty
đầu tiên trên thế giới phát hành cổ phiếu và trái phiếu. Sàn giao dịch chứng khoán
Amsterdam cũng được coi là sàn giao dịch đầu tiên trên thế giới hoạt động một cách liên
tục. Chính người Hà Lan là những người nghĩ ra những nghiệp vụ giao dịch chứng khoán
như “bán khống”, “giao dịch quyền chọn”, “nghiệp vụ swap nợ - cổ phần”, “nghiệp vụ
ngân hàng thương mại” và nhiều công cụ đầu cơ khác mà cho đến ngày nay người ta vẫn
còn sử dụng.
Ngày nay thì mọi quốc gia phát triển và hầu hết các nước đang phát triển đều có thị
trường chứng khoán, một thị trường không thể thiếu với mọi nền kinh tế muốn phát triển
vững mạnh vì các lý do sau:
Thứ nhất, thị trường chứng khoán là một trong những kênh huy động vốn quan
trọng nhất của các công ty, giúp các công ty có thể niêm yết công khai, tăng thêm vốn để
mở rộng hoạt động kinh doanh. Tính thanh khoản mà thị trường chứng khoán tạo ra cho
phép các nhà đầu tư nhanh chóng và dễ dàng bán các loại chứng khoán khi có nhu cầu.
Đó chính là một nét hấp dẫn của việc đầu tư vào cổ phiếu so với các hình thức đầu tư kém
thanh khoản khác như đầu tư vào bất động sản chẳng hạn.
Thứ hai, thị trường chứng khoán được coi là một chiếc phong vũ biểu của nền kinh

tế. Lịch sử đã chỉ ra rằng, giá cổ phiếu và các loại tài sản tài chính khác là một phần quan
trọng của hoạt động kinh tế và nó có thể gây ảnh hưởng hoặc là một thước đo đánh giá kỳ
vọng của xã hội. Giá cổ phiếu tăng thường liên quan đến việc tăng lượng vốn đầu tư vào
các hoạt động kinh doanh và ngược lại. Do đó, các ngân hàng trung ương luôn để mắt tới
Trang 6 |
Chuyên Đề Công Nghệ Tri Thức
việc kiểm soát và ứng xử của thị trường chứng khoán và đến sự hoạt động trơn tru của hệ
thống tài chính vì sự ổn định tài chính luôn là một trong những chức năng quan trọng nhất
của các ngân hàng trung ương.
3. Đầu tư chứng khoán là gì?
Chứng khoán (Security) là một công cụ tài chính giúp công ty có thể huy động vốn
ngoài thị trường vốn (capital market). Có 2 loại chứng khoán là: trái phiếu (Bond) và cổ
phiếu (Stock). Trái phiếu là công cụ nợ, mang lại lãi cố định, cũng có thể trao đổi trên thị
trường chứng khoán. Công cụ này thường được các tổ chúc tài chính dùng hơn nhà đầu tư
cá nhân vì tính phúc tạp của nó. Trong khi đó, cổ phiếu phổ biến, đơn giản và mang lại lợi
nhuận cao nên được các nhà đầu tư cá nhân lựa chọn nhiều. Cổ phiếu được phân ra 2 loại
nhỏ là cổ phiếu thường và cổ phiếu ưu đãi. Cổ phiếu ưu đãi không phổ biến vì chỉ phát
hành nội bộ hoặc cổ đông chiến lược và không được mua bán trên thị trường.
Lợi nhuận và rủi ro mà cổ phiếu đem lại cho nhà đầu tư. Lợi nhuận của cổ phiếu
bao gồm: cổ tức (dividend) và lợi nhuận chênh lệch từ việc bán cổ phiếu (capital gain).
Cổ tức là số tiền trích từ lợi nhuận hàng năm của công ty chia cho cổ đông dựa vào tỉ lệ
sở hữu cổ phần của nhà đầu tư. Số tiền này thường ít (khoảng 1000 – 2000 VNĐ/năm cho
mỗi cổ phiếu). Cái hấp dẫn nhà đầu tư là lợi nhuận chênh lệch vì cái này không có một
mức cố định nào cả. Do đặc trưng của cổ phiếu là không có thời hạn nhất định, khi nào
công ty còn niêm yết thì cổ phiếu đó còn giá trị, do vậy khả năng kiếm lợi nhuận từ cổ
phiếu có thể không bao giờ hết. Nếu đầu tư tốt thì một cổ phiếu có thể đem lại vài trăm
phần trăm lợi nhuận cho nhà đầu tư.
Dự đoán sự lên xuống của các chỉ số chứng khoán là một việc luôn diễn ra trên thị
trường chứng khoán. Bất kỳ ai tham gia thị trường chứng khoan đều có thể đưa ra dự
đoán dựa trên những cơ sở, lý lẽ của riêng mình. Nhưng để có thể trở thành chuyên gia

phân tích, dự đoán đúng nghĩa, bằng cấp là không đủ, mà cần phải có kinh nghiệm, có khả
năng phán đoán với độ chính xác cao. Đây thực sự là đỉnh mà không phải ai cố gắng cũng
đạt được.
Trang 7 |
Chuyên Đề Công Nghệ Tri Thức
CHƯƠNG 2 MÔ HÌNH ARIMA
1 Giới thiệu
Sự ra đời của cuốn sách Time Series Analysis: Forecasting and Control (Phân tích
chuỗi thời gian: dự đoán và kiểm soát) đã dẫn tới một kỷ nguyên mới của các công cụ dự
đoán [14] [15]. Được biết rộng rãi dưới cái tên phương pháp luận Box-Jenkins (BJ) [3],
nhưng về mặt kỹ thuật được gọi là phương pháp luận ARIMA, trọng tâm của các phương
pháp dự đoán mới này không phải là xây dựng các mô hình đơn phương trình hay phương
trình đồng thời mà là phân tích các tính chất xác suất hay ngẫu nhiên của bản thân các
chuỗi thời gian kinh tế theo triết lý “hãy để dữ liệu tự nói”. Không giống như các mô
hình hồi quy trong đó Y
t
được giải thích bởi k biến làm hồi quy X
1
, X
2
, X
3
, , X
k
, trong các
mô hình chuỗi thời gian kiểu BJ Y
t
có thể được giải thích bởi các giá trị trong quá khứ hay
giá trị trễ của bản thân biến Y và các sai số ngẫu nhiên. Vì lý do này, các mô hình ARIMA
đôi khi được gọi là mô hình lý thuyết a bởi vì các mô hình này không thể suy ra được từ

bất cứ lý thuyết kinh tế nào – và các lý thuyết kinh tế thường là cơ sở cho các mô hình
phương trình đồng thời.
2 Lập mô hình AR, MA và ARIMA với dữ liệu chuỗi thời gian
Nếu một chuỗi thời gian có tính dừng, ta có thể lập mô hình theo nhiều cách khác
nhau.
3.1. Quá trình tự hồi quy (AR)
Gọi Y
t
đại diện cho GDP vào thời gian t. Nếu ta lập mô hình Y
t
như sau:
Với là giá trị trung bình của Y và u
t
là một số hạng sai số ngẫu nhiên không tương
quan, có giá trị trung bình bằng 0 và phương sai không đổi (nó được gọi là yếu tố nhiễu
ngẫu nhiên thuần túy – white noise) thì ta nói rằng Y
t
tuân theo quá trình ngẫu nhiên tự
hồi quy bậc nhất hay AR(1). Ở đây, giá trị Y trong thời đoạn t phụ thuộc vào giá trị của
nó trong thời đoạn trước và vào một yếu tố ngẫu nhiên; các giá trị của Y được biểu diễn
dưới dạng độ lệch khỏi giá trị trung bình của nó. Nói một cách khác, mô hình này cho biết
giá trị dự đoán của Y trong thời đoạn t chỉ đơn giản là tỷ lệ () của giá trị của nó trong thời
Trang 8 |
Chuyên Đề Công Nghệ Tri Thức
đoạn (t – 1) cộng với yếu tố nhiễu ngẫu nhiên trong thời gian t; một lần nữa, các giá trị
của Y cũng được biểu diễn xung quanh giá trị trung bình của nó.
Nhưng nếu xem xét mô hình sau
thì ta có thể nói rằng Y
t
tuân theo quá trình tự hồi quy bậc hai hay AR(2). Tức là,

giá trị của Y trong thời đoạn t phụ thuộc vào giá trị của nó trong hai thời đoạn trước đó,
với các giá trị của Y được biểu diễn xung quanh giá trị trung bình .
Nói chung ta có thể viết
Trong trường hợp này, Y
t
là quá trình tự hồi quy bậc p hay AR(p).
Lưu ý rằng trong tất cả các mô hình trên, chỉ có các giá trị hiện tại và quá khứ của
Y được đưa vào mô hình; không có biến làm hồi quy nào khác. Do vậy, ta nói rằng “dữ
liệu tự nói”. Đây là một loại mô hình dạng rút gọn trong các mô hình phương trình đồng
thời.
3.2. Quá trình trung bình trượt
(MA)
Quá trình AR vừa thảo luận không phải là cơ chế duy nhất có thể tạo ra Y. Giả sử
ta lập mô hình Y như sau:
với là hằng số và u là số hạng sai số nhiễu ngẫu nhiên thuần túy. Ở đây, Y trong thời gian
t bằng một hằng số cộng với trung bình trượt của sai số hiện tại và quá khứ. Vậy, trong
trường hợp này, ta nói rằng Y tuân theo quá trình trung bình trượt bậc nhất hay MA(1).
Nhưng nếu Y tuân theo biểu thức
thì đó là một quá trình MA(2). Tổng quát hơn
là một quá trình MA(q). Nói ngắn gọn, một quá trình trung bình trượt đơn giản là một kết
hợp tuyến tính của các số hạng nhiễu ngẫu nhiên thuần túy.
3.3. Quá trình tự hồi quy và trung
bình trượt (ARMA)
Trang 9 |
Chuyên Đề Công Nghệ Tri Thức
Tất nhiên, có nhiều khả năng là Y có các đặc điểm của cả AR và MA và do vậy có
đặc điểm ARMA. Vậy, Y
t
tuân theo quá trình ARMA(1, 1) nếu nó có thể viết dưới dạng
bởi vì có một số hạng tự hồi quy và một số hạng trung bình trượt. Trong công thức (2.7),

là hằng số.
Nói chung, một quá trình ARMA(p, q), sẽ có p số hạng tự hồi quy và q số hạng
trung bình trượt.
3.4. Quá trình trung bình trượt kết
hợp tự hồi quy (ARIMA)
Các mô hình chuỗi thời gian mà ta đã thảo luận được dựa vào giả thiết là các chuỗi
thời gian nghiên cứu có tính dừng yếu. Nói ngắn gọn, giá trị trung bình và phương sai của
chuỗi thời gian có tính dừng yếu là hằng số và đồng phương sai của nó không đổi theo
thời gian. Nhưng ta biết rằng nhiều chuỗi thời gian kinh tế không có tính dừng, tức là
chúng kết hợp (integrated).
Nhưng nếu một chuỗi thời gian là kết hợp bậc nhất [có nghĩa là nó có dạng I(1)],
thì các sai phân bậc một của nó là I(0), tức là, có tính dừng. Tương tự, nếu một chuỗi thời
gian là I(2), sai phân bậc hai của nó là I(0). Nói chung, nếu một chuỗi thời gian là I(d),
sau khi tính sai phân d lần ta có một chuỗi I(0).
Do vậy, nếu ta phải tính sai phân một chuỗi thời gian d lần để làm cho nó có tính
dừng và sau đó áp dụng mô hình ARMA(p, q), ta nói rằng chuỗi thời gian ban đầu là
ARIMA(p, d, q), tức là nó là một chuỗi thời gian trung bình trượt kết hợp tự hồi quy, với
p biểu thị số các số hạng tự hồi quy, d biểu thị số lần chuỗi thời gian phải được tính sai
phân cho tới khi có tính dừng và q là số các số hạng trung bình trượt. Vậy, một chuỗi thời
gian ARIMA(2, 1, 2) phải được sai phân một lần (d=1) để nó có tính dừng. Và chuỗi thời
gian có tính dừng (sai phân bậc một) có thể được lập mô hình dưới dạng ARMA(2, 2), tức
là, nó có hai số hạng AR và hai số hạng MA. Tất nhiên, nếu d = 0 (nghĩa là chuỗi thời
gian khởi đầu có tính dừng), ARIMA(p, d = 0, q) = ARMA(p, q). Chú ý rằng một quá trình
ARIMA(p, 0, 0) có nghĩa là quá trình có tính dừng AR(p) thuần túy; một quá trình
ARIMA(0, 0, q) có nghĩa là quá trình có tính dừng MA(q) thuần túy. Khi biết các giá trị
của p, d và q, ta có thể phát biểu quá trình nào đang được lập mô hình.
Trang 10 |
Chuyên Đề Công Nghệ Tri Thức
Điểm quan trọng cần lưu ý là để sử dụng phương pháp luận Box-Jenkins, ta phải
có chuỗi thời gian có tính dừng hay chuỗi thời gian có tính dừng sau khi đã thực hiện một

hay nhiều phép sai phân. Lý do của giả thiết về tính dừng có thể được giải thích như sau:
Mục tiêu của B-J [Box-Jenkins] là xác định và ước lượng một mô hình thống kê có
thể được giải thích là đã tạo ra dữ liệu mẫu. Nếu sau đó mô hình ước lượng này được sử
dụng để dự đoán, ta phải giả thiết rằng các đặc điểm của mô hình này không đổi theo thời
gian và đặc biệt là trong các khoảng thời gian tương lai. Vậy, lý do đơn giản của việc yêu
cầu dữ liệu có tính dừng là bản thân mọi mô hình suy luận từ các dữ liệu này có thể được
giải thích là có tính dừng hay ổn định, từ đó cung cấp cơ sở có giá trị cho việc dự đoán
[4].
3 Phương pháp luận của Box – Jenkins
Câu hỏi đáng giá nghìn vàng rõ ràng là: Xem xét một chuỗi thời gian, làm sao ta
biết được là nó tuân theo một quá trình AR thuần túy (và nếu có thì giá trị của p bằng bao
nhiêu) hay một quá trình MA thuần túy (và nếu có thì giá trị của q bằng bao nhiêu) hay
một quá trình ARMA (và nếu có thì các giá trị của p và q bằng bao nhiêu) hay một quá
trình ARIMA mà ta phải biết các giá trị của p, d và q. Phương pháp luận BJ đã xuất hiện
đúng lúc để trả lời cho câu hỏi trên. Phương pháp này gồm bốn bước:
Bước 1. Nhận dạng. Tức là, tìm các giá trị thích hợp của p, d và q. Ta sẽ trình bày
ngắn gọn biểu đồ tương quan (correlogram) và biểu đồ tương quan riêng phần (partial
correlogram) hỗ trợ cho công việc này như thế nào.
Bước 2. Ước lượng. Sau khi đã nhận dạng các giá trị thích hợp của p và q, bước
tiếp theo là ước lượng các thông số của các số hạng tự hồi quy và trung bình trượt trong
mô hình. Đôi khi phép tính này có thể được thực hiện bằng phương pháp bình phương tối
thiểu nhưng đôi khi ta phải sử dụng các phương pháp ước lượng phi tuyến (thông số phi
tuyến). Do bây giờ công việc này có thể được thực hiện tự động bằng một số phần mềm
thống kê, ta không cần phải lo lắng về trình tự toán học của phép ước lượng này.
Bước 3. Kiểm tra chẩn đoán. Sau khi đã lựa chọn mô hình ARIMA cụ thể và ước
lượng các tham số của nó, ta tìm hiểu xem mô hình lựa chọn có phù hợp với dữ liệu ở
mức chấp nhận hay không bởi vì có thể một mô hình ARIMA khác cũng phù hợp với dữ
liệu. Đó là lý do tại sao phương pháp lập mô hình ARIMA của Box – Jenkins là một nghệ
Trang 11 |
Chuyên Đề Công Nghệ Tri Thức

thuật nhiều hơn là một khoa học; cần phải có kỹ năng tốt để lựa chọn đúng mô hình
ARIMA. Một kiểm định đơn giản về mô hình lựa chọn là xem xem các phần dư ước lượng
từ mô hình này có tính ngẫu nhiên thuần túy hay không; nếu có, ta có thể chấp nhận sự
phù hợp này của mô hình; nếu không, ta phải lặp lại từ đầu: Như vậy, phương pháp luận
BJ là một quá trình lặp lại.
Bước 4. Dự đoán. Một trong số các lý do về tính phổ biến của phương pháp lập mô
hình ARIMA là thành công của nó trong dự đoán. Trong nhiều trường hợp, các dự đoán
thu được từ phương pháp này tin cậy hơn so với các dự đoán tính từ phương pháp lập mô
hình kinh tế lượng truyền thống, đặc biệt là đối với dự đoán ngắn hạn. Tất nhiên, từng
trường hợp phải được kiểm tra cụ thể.
Trang 12 |
Chuyên Đề Công Nghệ Tri Thức
CHƯƠNG 3 NEURAL NETWORKS
1 Giới thiệu
Khái niệm phổ biến trong xã hội là tài sản mang đến sự thoải mái và sang trọng, vì
vậy không ngạc nhiên khi đã có rất nhiều hoạt động được thực hiện trên nhiều cách để dự
đoán thị trường tài chính, chứng khoán. Do đó, dự đoán giá cổ phiếu hoặc thị trường tài
chính trở thành thách thức lớn nhất đối với lĩnh vực trí tuệ nhân tạo. Các chỉ số kỹ thuật,
chỉ số cơ bản và chỉ số thống kê được đề xuất và được sử dụng với các kết quả khác nhau.
Tuy nhiên, không kỹ thuật nào cũng được sử dụng thành công. Mục tiêu của nghiên cứu
dự đoán phần lớn vượt quá khả năng của nghiên cứu trong lĩnh vực trí tuệ nhân tạo truyền
thống chủ yếu tập trung vào phát triển hệ thống thông minh nhằm mô phỏng trí thông
minh của con người. Vì bản chất của thị trường chứng khoán là rất phức tạp (phi tuyến
tính) và không ổn định. Với sự phát triển của mạng neural, các nhà nghiên cứu và các nhà
đầu tư hy vọng những “bí ẩn” của thị trường có thể được làm “sáng tỏ”.
Mạng neural lấy cảm hứng từ hoạt động tế bào não của con người có thể học hỏi
các mô hình dữ liệu, tổng hợp kiến thức của mình để nhận ra các mô hình mới trong
tương lai.
Các nhà nghiên cứu cho thấy Neural Nerworks có khả năng rất lớn trong các vấn
đề nhận dạng mẫu và máy học như phân lớp và hồi qui. Ngày nay Neural Networks được

xem như phương pháp khai phá dữ liệu phổ biến trong các lĩnh vực khác nhau như: kinh
tế, kinh doanh, công nghiệp và khoa học [6].
Các ứng dụng của Neural Networks cho các vấn đề dự đoán là rất hứa hẹn vì
những đặc điểm đặc biệt của nó.
Thứ nhất, các phương pháp truyền thống dựa trên các phương pháp như hồi qui
tuyến tính và hồi qui logistic trong khi Neural Networks là phương pháp dựa trên việc tự
điều chỉnh dựa vào dữ liệu huấn luyện, vì vậy nó có khả năng giải quyết các vấn đề với
một chút tri thức về mô hình của nó và không ràng buộc mô hình dự đoán bằng cách thêm
vào bất kỳ giả định rộng nào. Bên cạnh đó, Neural Networks có thể tìm thấy mối quan hệ
giữa đầu vào và đầu ra của hệ thống ngay cả khi mối quan hệ này có thể là rất phức tạp
bởi vì nó có hàm xấp xỉ chung. Do đó, Neural Networks được áp dụng tốt cho các khó
Trang 13 |
Chuyên Đề Công Nghệ Tri Thức
khăn gặp phải khi trích các mối quan hệ giữa các dữ liệu, nhưng mặt khác nó yêu cầu một
tập dữ liệu huấn luyện đủ lớn. Chú ý, mặc dù đôi khi các qui tắc hoặc các mẫu mà chúng
ta tìm kiếm có thể không dễ để tìm thấy hoặc dữ liệu có thể bị hư do quá trình xử lý hay
tín hiệu nhiễu của dữ liệu trong hệ thống, nó vẫn được tin tưởng cho việc học qui nạp
hoặc phương pháp hướng dữ liệu là cách tốt nhất để đối phó với các vấn đề dự đoán trong
thực tế.
Thứ hai, Neural Networks có khả năng tổng quát hóa có nghĩa sau khi được huấn
luyện Neural Networks có thể nhận ra các mẫu mới ngay cả khi các mẫu này không có
trong tập huấn luyện. Vì trong hầu hết các vấn đề nhận dạng mẫu dự đoán các sự kiện
tương lai (dữ liệu không nhìn thấy) được dựa trên dữ liệu trước đó (tập huấn luyện), các
ứng dụng của mạng neural sẽ rất có lợi.
Thứ ba, mạng neural đã được xác định bằng hàm xấp xỉ chung. Hàm này đã được
chứng minh là một mạng neural MLP (Multi Layer Perceptron) có thể xấp xỉ bất kỳ chức
năng liên tục phức tạp nào mà cho phép chúng ta tìm hiểu bất kỳ mối quan hệ phức tạp
giữa đầu vào và đầu ra của hệ thống.
Ý tưởng sử dụng mạng neural cho các vấn đề dự đoán lần đầu tiên được biễu diễn
bởi Hu năm 1964 được sử dụng cho dự đoán thời tiết [8]. Trường hợp không có bất kỳ

phương pháp học tập cho các mạng nhiều lớp làm cho nó không thể áp dụng các mạng
này để dự đoán các vấn đề phức tạp. Nhưng trong những năm 1980, thuật toán lan truyền
ngược đã được giới thiệu để huấn luyện một mạng neural MLP. Werbos sử dụng kỹ thuật
này để huấn luyện một mạng neural vào năm 1988 và tuyên bố mạng neural tốt hơn so
với phương pháp hồi quy và mô hình Box-Jenkins trong vấn đề dự đoán [15].
Trong một thập kỷ gần đây rất nhiều nghiên cứu đã được thực hiện trên mạng
neural để dự đoán những thay đổi thị trường chứng khoán. Một trong những nỗ lực đầu
tiên là của Kimmoto và các đồng nghiệp của ông, trong đó họ sử dụng mạng neural để dự
đoán các chỉ số của thị trường chứng khoán Tokyo [10]. Mizuno và các đồng nghiệpcũng
sử dụng mạng neural để dự đoán giá các cổ phiếu trên thị trường chứng khoán Tokyo.
Phương pháp của họ đã có thể dự đoán với độ chính xác 63% [12]. Bằng cách kết hợp
mạng neural và giải thuật di truyền, Phau và các đồng nghiệp dự đoán thị trường chứng
khoán Singapore với độ chính xác là 81% [12].
Trang 14 |
Chuyên Đề Công Nghệ Tri Thức
Trong phần này, tôi xin giới thiệu một mô hình dự đoán dựa trên mạng neural
MLP để dự đoán những thay đổi trên thị trường chứng khoán Việt Nam. Sử dụng mô hình
này, người ta có thể dự đoán giá trị cổ phiếu ngày hôm sau của một công ty chỉ dựa trên
lịch sử giao dịch cổ phiếu của nó và không có bất kỳ thông tin của thị trường hiện tại.
4. Mạng neural
Ý tưởng về mạng neural lần đầu tiên được lấy cảm hứng từ hệ thần kinh của con
người trong đó bao gồm một số đơn vị xử lý đơn giản được gọi là tế bào thần kinh (hình
1). Mỗi tế bào thần kinh nhận được một số tín hiệu từ bên ngoài hoặc từ tế bào thần kinh
khác và sau đó bằng cách xử lý chúng trong hàm kích hoạt (activation), đầu ra được gửi
đến tế bào thần kinh khác. Mỗi ảnh hưởng đầu vào là khác nhau từ các dữ liệu đầu vào
khác. Ví dụ trong hình hai ảnh hưởng của tế bào thần kinh thứ i trên tế bào thần kinh thứ j
được thể hiện bằng w
ij
, trọng số kết nối giữa các tế bào thần kinh i và j. Do đó, trọng số
w

ij
lớn hơn sẽ được kết nối và ngược lại.
Hình 1: Kiến trúc mô hình mạng neural MLP
Trang 15 |
Chuyên Đề Công Nghệ Tri Thức
Hình 2: Kết nối của mạng neural Perceptron
Trong phần này, chúng ta tập trung vào nguồn dữ liệu chuyển tiếp cho mạng neural
nhiều lớp. Các mạng này được tạo bằng các lớp tế bào thần kinh. Lớp đầu tiên là lớp kết
nối với dữ liệu đầu vào. Tiếp theo có thể có một hoặc nhiều lớp trung gian gọi là lớp ẩn.
Lớp cuối cùng là lớp đầu ra cho kết quả. Trong mạng thông tin phản hồi trái ngược với
mạng kết nối thường xuyên. Hình 1 cho thấy ba lớp của mạng Perceptron.
Một trong những phương pháp học trên Perceptron Neural Networks nhiều lớp là
lỗi lan truyền ngược trong đó mạng học trên mẫu trong tập hợp dữ liệu và điều chỉnh
trọng số của các kết nối theo hướng đối nghịch với vector gradient của hàm lỗi (Error
function) theo cách thường dùng là tổng bình phương lỗi. Phương pháp lan truyền ngược
chọn một vector huấn luyện từ tập dữ liệu huấn luyện và di chuyển nó từ lớp đầu vào sang
lớp đầu ra. Trong lớp đầu ra, lỗi được tính toán và được truyền ngược nên trọng số của
các kết nối sẽ được sửa chữa. Điều này tiếp tục lặp cho đến khi lỗi đạt tới giá trị được xác
định trước. Nó đã chứng minh chúng ta có thể xấp xỉ bất kỳ hàm liên tục với mạng gồm
ba lớp thông tin phản hồi với độ chính xác bất kỳ. Có thể nói rằng tốc độ học tập sẽ giảm
đáng kể theo sự gia tăng của số lượng các tế bào thần kinh và các lớp của mạng.
5. Đề xuất mạng neural cho thị trường chứng khoán
Mặc dù tất cả các tính năng được đề cập cho các mạng neural, xây dựng một mạng
neural để dự đoán bằng cách nào đó là rất phức tạp. Để có một kết quả thực thi hài lòng
người ta phải xem xét một vài yếu tố quan trọng trong thiết kế của một mô hình dự đoán.
Một trong những yếu tố chính là cấu trúc mạng bao gồm số lượng các lớp, số lượng tế bào
và các kết nối. Các yếu tố khác được xem xét là các hàm kích hoạt trong mỗi neuron, giải
thuật huấn luyện, chuẩn hóa dữ liệu, lựa chọn tập huấn luyện và tập kiểm tra cũng như độ
đo để đánh giá.
Trang 16 |

Chuyên Đề Công Nghệ Tri Thức
Trong mô hình hai mạng neural đề nghị gồm một Perceptron nhiều lớp feed-
forward và một hồi qui Elman được sử dụng. Giải thuật lan truyền ngược được sử dụng
để huấn luyện các mạng này.
Dữ liệu đầu vào cho mạng neural là giá cao nhất, giá thấp nhất và giá trung bình
trong các ngày d trước đó. Các thông tin khác có sẵn của thị trường chứng khoán không
được sử dụng vì mục tiêu là để dự đoán giá của các cổ phiếu chứng khoán chỉ dựa trên
lịch sử giá cổ phiếu. Nói cách khác, mô hình đề xuất có thể được xem như là mô hình dự
đoán theo chuỗi thời gian.
Mô hình này sử dụng một mạng neural gồm ba lớp trong đó lớp đầu vào có 3d
neuron là giá cao nhất, giá thấp nhất và giá trung bình của giá đóng cửa trong d ngày.
Trong lớp ẩn có h neuron được kết nối đầy đủ đến lớp đầu vào và lớp đầu ra. Có một
neuron trong lớp đầu ra dự đoán giá cổ phiếu dự kiến trong ngày tiếp theo của thị trường
chứng khoán.
5.1. Chuẩn bị dữ liệu
Giá thấp nhất, giá cao nhất và giá trung bình của giá đóng cửa trong d ngày của cổ
phiếu được sử dụng để dự đoán giá cổ phiếu trong ngày tiếp theo. Dữ liệu thị trường
chứng khoán được lấy từ trung tâm giao dịch chứng khoán Hồ Chí Minh (HOSE).
Phương pháp này trái ngược với phương pháp khác, rối loạn của thị trường do nguyên
nhân xã hội hay chính trị được bỏ qua trong bộ dữ liệu bởi vì chúng ta muốn dự đoán giá
dựa trên lịch sử giá. Dữ liệu được sử dụng như đầu vào cho hệ thống là giá thấp nhất, giá
cao nhất và giá trung bình trong d ngày (d = {1, 2, , 10}). Hệ thống dự đoán giá của
ngày hôm sau bằng cách sử dụng dữ liệu ở trên.
Trong ứng dụng mạng neural, dữ liệu đầu vào thường được chuẩn hóa trong
khoảng [0, 1] hoặc [-1, 1] theo một hàm kích hoạt của các neuron. Vì vậy, trong báo cáo
này giá của cổ phiếu trong thị trường chứng khoán được chuẩn hóa trong khoảng [-1, 1]
bằng cách sử dụng công thức (3.1). Sau đó mạng neural được huấn luyện và kiểm tra
bằng giải thuật lan truyền ngược
5.2. Tiêu chí đánh giá
Trang 17 |

Chuyên Đề Công Nghệ Tri Thức
Trong các vấn đề dự đoán tiêu chuẩn đánh giá chung như độ lệch trung bình tuyệt
đối, tỷ lệ phần trăm lỗi trung bình truyệt đối, bình phương lỗi trung bình tuyệt đối và bình
phương lỗi trung bình gốc được tính dựa vào công thức (3.2, 3.3, 3.4, 3.5). Các tiêu chuẩn
này được ưa thích hơn vì nó chỉ ra lỗi dự đoán của hệ thống.
Ngoài các tiêu chuẩn nêu trên, ba tiêu chuẩn khác được sử dụng để so sánh các
phương pháp dự đoán giá cổ phiếu. Thước đo xu hướng dự đoán chính xác cho thấy tỷ lệ
phần trăm dự đoán đúng về những thay đổi trong ngày thứ n+1 so với ngày thứ n (3.6).
Khi dự đoán là hoàn toàn ngẫu nhiên con số này khoảng 0,5. Như vậy, để có một phương
pháp dự đoán đáng tin cậy chức năng này tối thiểu là 0,5 trở lên.
Mặc dù biết hướng các thay đổi là một yếu tố quan trọng đối với việc ra quyết
định, chúng ta cũng cần phải biết số lượng các thay đổi. Sẽ có hai tiêu chuẩn khác nhau để
xác định tỷ lệ dự đoán chính xác xu hướng so với xu hướng thực tế của những thay đổi
chứng khoán (3.7) và tỷ lệ của xu hướng dự đoán không chính xác so với xu hướng thực
tế của những thay đổi chứng khoán (3.8). Trong trường hợp lý tưởng, tỷ lệ dự đoán cho
dự đoán xu hướng chính xác sự thay đổi chứng khoán trong thực tế trong công thức (3.7)
phải bằng 1. Ngoài ra, nếu chỉ số này là nhỏ hơn (hoặc lớn hơn) 1 sẽ cho thấy hướng các
thay đổi được dự đoán chính xác trong khi số lượng thay đổi được dự đoán ít hơn (hoặc
nhiều hơn). Mặt khác, khi hướng thay đổi chứng khoán được dự đoán không chính xác, số
lượng (3.8) được mong đợi gần với 1 càng nhiều càng tốt điều đó cho thấy các lỗi dự
đoán là tối thiểu trong trường hợp này.
Trang 18 |
Chuyên Đề Công Nghệ Tri Thức
CHƯƠNG 4 MÔ HÌNH GOM CỤM TÍCH HỢP
1 Giới thiệu
Ngày nay, khai thác dữ liệu chủ yếu được sử dụng bởi các công ty. Nó cho phép
các công ty xác định mối quan hệ giữa các yếu tố “nội bộ” như giá cả, vị trí sản phẩm, kỹ
năng của nhân viên và các yếu tố “bên ngoài” như chỉ số kinh tế, cạnh tranh và và nhân
khẩu học của khách hàng. Nó cũng cho phép các công ty xác định sự tác động của việc
bán hàng, sự hài lòng của khách hàng và lợi nhuận của công ty. Cuối cùng, nó cho phép

họ “đi sâu” vào các thông tin tổng hợp để xem chi tiết dữ liệu giao dịch.
Dữ liệu là rất quan trọng đối với một tổ chức hay quá trình kinh doanh của doanh
nghiệp. Dữ liệu thường được tính bằng đơn vị gigabyte hoặc terabyte, ngày nay dữ liệu đã
tăng lên đến con số peta byte, kích thước của cơ sỡ dữ liệu đã tăng rất nhanh. Khai thác
dữ liệu bao gồm các kỹ thuật có thể ứng dụng trong thực tế như Gom cụm (Clusters) và
Luật kết hợp (Association Rules). Những kỹ thuật này có thể được dùng để dự đoán các
xu hướng trong tương lai dựa trên Item-sets [5]. Gom cụm được dùng để gom nhóm các
item-sets tương tự nhau, trong khi sự kết hợp được sử dụng để lấy các luật tổng quát phụ
thuộc vào các biến. Bằng các luật này, Item-sets có thể mang đến sự hữu ích khi khai
thác trong dữ liệu giao dịch khổng lồ.
Giá chứng khoán được coi là rất biến động và dễ bị ảnh hưởng thay đổi nhanh
chóng bởi vì nó phản ánh tự nhiên của thị trường tài chính và một phần bởi vì sự pha trộn
của các tham số (Giá đóng cửa ngày hôm trước, chỉ số P/E,…) và các nhân tố không biết
được (như kết quả bầu cử, tin đồn,…).
Trong phần này, khi sử dụng thuật giải hai giai đoạn trên dữ liệu chứng khoán,
chúng ta quan tâm nhiều hơn trong việc thực hiện phân tích kỹ thuật (Technical Analysis)
để xem thuật toán có thể làm việc một cách chính xác để phát hiện các mẫu trong chuỗi
dữ liệu thời gian của chứng khoán. Tức là, thuật toán hai giai đoạn cũng đóng một vai trò
quan trọng trong việc đánh giá và dự đoán các hoạt động của công ty tương tự như những
thông số khác hữu ích cho việc phân tích cơ bản.
Ra quyết định cho nhà đầu tư trong thị trường chứng khoán được xem là một
nhiệm vụ khó khăn. Sự cần thiết phải học hỏi từ việc khai thác dữ liệu để chọn lựa những
Trang 19 |
Chuyên Đề Công Nghệ Tri Thức
cổ phiếu từ các công ty có tỷ lệ tăng trưởng cao. Nhưng vấn đề của chúng ta là làm sao để
tìm ra các công ty đáng tin cậy để đầu tư với những cổ phiếu mang lại lợi nhuận tối đa.
Đây là một giải pháp hữu ích nhằm xác định sự tăng trưởng của các công ty dựa trên một
các chỉ số, ví dụ, chúng ta có thể xem xét chi tiết thông tin: “Công ty cổ phần Điện
Quang có tốc độ tăng trưởng cao nhất với khối lượng giao dịch tối đa bởi vì sự thay đổi
thường xuyên về giá cao và thấp trong thị trường chứng khoán” và ở đây chúng ta có các

thuộc tính cơ bản liên quan như tên công ty, giá cao, giá thấp, giá mở cửa, giá đóng cửa,
khối lượng giao dịch. Tương tự, chúng ta có thể phân tích các công ty khác có khối lượng
giao dịch khác nhau dựa trên giá giao dịch cao và thấp của các công ty và dự đoán hình
mẫu tăng trưởng. Như vậy, dựa trên chuỗi sự kiện này chúng ta có thể dự đoán lý do các
cổ phiếu không tăng trưởng, tăng trưởng thấp hoặc tăng trưởng cao. Những kỹ thuật khai
thác dữ liệu là phù hợp tốt nhất cho việc phân tích các loại như phân lớp, trích các hình
mẫu hữu ích và dự đoán.
2 Khai phá dữ liệu trên thị trường chứng khoán
5.3. Gom cụm và mô hình khai
phá luật có trọng số cho phân
tích thị trường chứng khoán
Hệ thống phân tích xu hướng của thị trường chứng khoán gồm các thủ tục xử lý
gom cụm và phân tích xu hướng các mối quan hệ được thể hiện dưới mối quan hệ giữa
chỉ số (index) và công ty (company). Chỉ số thị trường, chỉ số ngành và tỷ lệ các giá trị
của công ty được sử dụng để xử lý dự đoán quá trình đầu tư.
Mục đích của hệ thống được thiết kế để thực hiện phân tích xu hướng trên dữ liệu
dựa vào: chỉ số của thị trường, chị số ngành và giá trị của công ty. Tổng hợp dữ liệu thị
trường là bước đầu tiên của hệ thống. Chỉ số ngành để nói đến chỉ số các lĩnh vực như:
ngành công nghệ thông tin, ngành tài chính ngân hàng, ngành ô tô,… Các giá trị của dữ
liệu được đưa vào cơ sở dữ liệu để phân tích. Dữ liệu chỉ số thị trường, dữ liệu chỉ số
ngành và dữ liệu giá trị giá của công ty được tối ưu hóa theo nhóm các giá trị dữ liệu. Các
giá trị giá được gom thành năm nhóm. Giá đóng cửa ngày hôm trước, giá mở cửa, giá cao,
giá thấp và khối lượng sẽ được sử dụng để phân tích. Sự thay đổi trong chỉ số thị trường;
chỉ số ngành và các giá trị dữ liệu của công ty được đùng để phân tích mối quan hệ kinh
Trang 20 |
Chuyên Đề Công Nghệ Tri Thức
doanh. Dự đoán kinh doanh được thực hiện theo xu hướng phân tích giai đoạn [2]. Kết
quả nhận được là phạm vi giá và xu hướng chi tiết.
Hệ thống dự đoán xu hướng cho thị trường chứng khoán được thiết kế để phân tích
thị trường chứng khoán được chia thành bốn module chính. Đó là, dữ liệu thị trường, xử

lý gom cụm, xu hướng các mối quan hệ và tiến trình dự đoán kinh doanh. Dữ liệu thị
trường là module duy trì dữ liệu thị trường, dữ liệu chỉ số ngành và thông tin về giá của
công ty.
Tiến trình gom cụm được sử dụng trong tiền xử lý dữ liệu các giá trị. Mối quan hệ
kinh doanh được rút ra qua module mối quan hệ kinh doanh. Module dự đoán xu hướng
kinh doanh dự đoán hình mẫu xu hướng kinh doanh đối với công ty và dữ liệu các giá trị
kinh doanh. Sự thay đổi trong chỉ số thị trường, chỉ số ngành và giá của công ty thay đổi
được phân tích với mối quan hệ của nó. Kỹ thuật gom cụm được dùng để gom nhóm các
giao dịch kinh doanh có liên hệ với nhau. Các giá trị dữ liệu tương tự nhau được sắp xếp
vào những phân vùng riêng biệt. Giá kinh doanh khác nhau biểu hiện như giá trị của trọng
số [13]. Khai thác mối liên hệ được thực hiện trên những phân vùng với giá trị trọng số.
Khai phá luật trọng số được thực hiện với tần số giao dịch và giá trị trọng số.
5.4. Gom cụm tích hợp và Khai
phá sự kết hợp
Kỹ thuật gom cụm dữ liệu được dùng để gom nhóm các giá trị dữ liệu. Các hình
mẫu được xác định sẽ dùng cho kỹ thuật khai phá các luật. Tiến trình khai thác hình mẫu
có thể được áp dụng trên dữ liệu được phân chia theo trình gom cụm. Trong phương pháp
này, các hình mẫu được trích chính xác hơn với thông tin về trọng số. Các mối quan hệ
thuộc tính được xem xét trong tiến trình gom cụm. Phương pháp này làm giảm chi phí và
thời gian tính toán cho tiến trình trích xuất hình mẫu. Giá trị thị trường của cổ phiếu được
phân chia với chi tiết các mức độ giao dịch. Liên kết với các chỉ số và chỉ số ngành cũng
được xem xét trong quá trình xác định hình mẫu. Các phép toán để làm sạch dữ liệu, gom
cụm và khai phá luật được thực hiện trong hệ thống [9]. Tiến trình gom cụm tạo ra dữ liệu
phân chia như là đầu ra. Sự phân chia dữ liệu được dùng như là đầu vào cho tiến trình
khai phá luật. Tiến trình khai phá luật xác định xu hướng của giá trị dữ liệu thị trường.
Trang 21 |
Chuyên Đề Công Nghệ Tri Thức
5.5. Gom cụm và ước lượng tần
suất
Giải pháp được đề xuất là mô hình hai giai đoạn. Đầu tiên hệ thống tạo ra các cụm

theo giải thuật K-Mean. Sau đó, MFP được thiết kế để đếm tần số của các Item với các
thuộc tính chi tiết của nó. Dữ liệu mẫu bao gồm dữ liệu thực từ thị trường. Hệ thống xử lý
dữ liệu trước hết loại bỏ dữ liệu bị nhiễu, đó là dữ liệu không đầy đủ, bị mất, không tương
thích sẽ bị loại bỏ và định dạng lại theo yêu cầu.
5.6. K-Means
Một trong các thuật giải được sử dụng để phân loại trong khai phá dữ liệu là thuật
giải K-means. Độ gần nhau thường được đo bằng một vài cách tính về khoảng cách; được
sử dụng phổ biến là khoảng cách Euclidean.
Ý tưởng chính của thuật toán là xác định trọng số k cho mỗi nhóm. Các trọng số
này phải được xác định một cách hợp lý bởi vì xác định chỉ số khác nhau sẽ cho ra các kết
quả khác nhau. Vì vậy, sự lựa chọn tốt hơn là đặt các chỉ số càng nhiều càng tốt với các
cụm tách biệt nhau. Mục tiêu của thuật giải là tối thiểu hóa hàm mục tiêu (objective
function), trong trường hợp hàm sai số bình phương (This algorithm aims at minimizing
an objective function, in this case a squared error function).
Hàm mục tiêu:
Với là sự lựa chọn độ đo khoảng cách. Hàm mục tiêu giữa hai điểm dữ liệu và
cụm trung tâm c
j
, là chỉ số khoảng cách của n điểm dữ liệu từ cụm trung tâm tương ứng.
Các bước của thuật giải:
Bước 1: Đặt K điểm trong không gian biểu diễn các đối tượng được gom cụm.
Những điểm này là trọng tâm cho các cụm tâm ban đầu.
Bước 2: Gán các đối tượng vào các nhóm sao cho có trọng tâm gần nhất.
Bước 3: Khi tất cả các đối tượng đã được gán, tính toán lại vị trí của các trọng tâm
K.
Trang 22 |
Chuyên Đề Công Nghệ Tri Thức
Bước 4: Lặp lại bước 2 và bước 3 đến khi trọng tâm không di chuyển được nữa.
Quá trình lặp này phân chia các đối tượng vào các nhóm với khoảng cách tính toán là nhỏ
nhất.

5.7. Khai phá luật kết hợp
Giải thuật Apriori là một ví dụ về giải thuật khai phá luật kết hợp. Sử dụng giải
thuật này, mẫu ứng viên có độ hỗ trợ đầy hiệu quả từ cơ sở dữ liệu được xem xét để
chuyển đổi thành một luật. Đây là loại giải thuật hoạt động tốt cho dữ liệu hoàn chỉnh với
giá trị rời rạc. Một số giải thuật khai phá dữ liệu đã được giới thiệu thực hiện tổng hợp dữ
liệu, phân loại dữ liệu liên quan đến một thuộc tính mục tiêu, phát hiện độ lệch và các
dạng đặc trưng và sự thể hiện khác của dữ liệu. Một giải thuật tổng hợp và trích suất hình
mẫu phổ biến là giải thuật luật kết hợp nhằm xác định mối tương quan giữa các item trong
cơ sở dữ liệu giao dịch [11].
Cho tập hợp các giao dịch, mỗi giao dịch được mô tả bởi tập hợp các item chưa sắp
xếp, một luật kết hợp X  Y có thể được khai phá trong dữ liệu với X và Y có các item
có liên hệ với nhau. Ý nghĩa trực quan của luật như vậy thể hiện các giao dịch trong cơ sở
dữ liệu trong đó các item có trong X thì các item cũng có xu hướng có trong Y.
Một ví dụ về một quy luật như vậy, có thể là rất nhiều khách hàng mua lốp xe và
phụ tùng ô tô thì cũng mua một số dịch vụ ô tô. Trong trường hợp này, X = {tires, auto
accessories} và Y = {automotive servies}. Hai chỉ số được kết hợp cho mỗi luật đó là độ
hỗ trợ và độ tin cậy của luật [16]. Độ hỗ trợ của luật X  Y thể hiển bằng tỷ lệ phần trăm
của giao dịch từ cơ sở dữ liệu bao gồm cả X và Y. Độ tin cậy của luật thể hiện bằng tỷ lệ
phần trăm của các giao dịch chứa các item của X cũng chứa các item của Y. Các ứng
dụng khai phá luật kết hợp bao gồm tiếp thị, gửi thư đính kèm, thiết kế mẫu và phân khúc
khách hàng.
Một giải thuật khai phá luật kết hợp tìm kiếm không gian của tất cả các mẫu cho
các luật đáp ứng cho người dùng với chi tiết ngưỡng hỗ trợ và ngưỡng tin cậy. Các vấn đề
phát hiện luật kết hợp có thể được chia thành hai bước:
Tìm tất cả các tập hợp item có độ hỗ trợ lớn hơn ngưỡng cụ thể. Tập hợp item có
độ hỗ trợ nhỏ nhất được gọi là tập hợp item phổ biến. Phát sinh các luật từ tập hợp item
phổ biến, để làm việc này, xem tất cả sự phân chia của tập item vào vế trái của luật và vế
Trang 23 |
Chuyên Đề Công Nghệ Tri Thức
phải của luật. Độ tin cậy của một luật dự tuyển X  Y được tính bằng độ hỗ trợ của (XY)

/ độ hỗ trợ của (X). Tất cả các luật đáp ngưỡng tin cậy được xem là luật đối với giải thuật.
L1: = {frequent 1-itemsets};
k:= 2; // k represents the pass number
While (Lk-1)
Ck = New candidates of size k generated from Lk-1
For all transactions t D, Increment count of all candidates in Ck
That are contained in t
Lk = All candidates in Ck with minimum support
k = k+1
Report Uk Lk as the discovered frequent item sets
Bảng 1, tóm tắt giải thuật Apriori. Đầu tiên, giải thuật tính toán tần số xuất hiện
của từng item riêng lẻ để xác định 1-itemsets phổ biến. Sau đó, với mỗi k pass phát hiện
tập item phổ biến có kích thước là k. Để làm việc này, tập item phổ biến Lk-1 tìm thấy
trong lần lặp trước đó được tham gia để phát sinh các tập item ứng viên Ck. Tiếp theo,
tính độ hỗ trợ cho các ứng viên trong Ck thông qua quá trình quét danh sách giao dịch.
Bảng 1: Giải thuật Apriori
k-item set Một tập item chứa k item
Lk Tập hợp của tập k-item phổ biến (tập k-item với độ hổ trợ nhỏ nhất)
Ck Tập hợp của tập k-item ứng viên (tập item có khả năng phổ biến)
Uk Lk Tập hợp các tập item được tạo
Từ Lk-1, tập hợp tất cả tập item phổ biến (k-1); tập hợp tập k-item ứng viên được
tạo. Các thủ tục phát sinh ứng viên được thực hiện như sau: nếu một tập item X có độ hỗ
trợ nhỏ nhất thì thực hiện với tất cả tập con của X. Vì vậy, các tập item mới được tạo từ
tập item (k-1) p và q từ danh sách p.item1, p.item2, p.item(k -1), q.item(k-1). Các item p
và q được chọn nếu các item từ 1 đến k-2 tương đương với p, q và item thứ k-1 không
tương đương. Ngay khi các ứng viên được tạo, các item khác bị loại nếu có (k-1) tập con
của ứng viên không nằm trong Lk-1.
Trang 24 |
Chuyên Đề Công Nghệ Tri Thức
5.8. Kỹ thuật khai phá luật có

trọng số
Khai phá luật kết hợp tổng quát sử dụng giá trị tần số của các thuộc tính. Các tập
ứng viên được chuẩn bị với các thuộc tính và giá trị của nó. Tập item tích hợp vào tập ứng
viên với các giá trị tần số của nó. Độ hỗ trợ và độ tin cậy được ước tính bằng cách sử
dụng các giá trị tần số. Khai phá luật dựa trên cơ sở tần số không thích hợp cho tất cả các
ứng dụng [1]. Môt vài giao dịch sử dụng các giá trị trọng số được với trước cho giá trị tần
số của nó cho tiến trình khai phá. Ứng dụng kinh doanh cổ phiếu dựa trên khai phá sử
dụng tần số xem giá trị lợi nhuận như là trọng số. Một số ứng dụng không có bất kỳ giá trị
trọng số nào được gán trước. Trong trường hợp này cơ chế ước lượng trọng số tự động
được áp dụng cho các giao dịch [14].
Hệ thống phân tích xu hướng chứng khoán tập trung để phân tích những xu hướng
thay đổi trong dòng chảy kinh doanh. Những giá trị dữ liệu kịch bản được thu thập cho
một tập hợp các công ty trong các lĩnh vực khác nhau. Chỉ số ngành và chỉ số thị trường
được kết hợp với giá trị dữ liệu kịch bản. Sự thay đổi giá kịch bản được phân loại thành
ba giai đoạn, đó là vùng tích cực (positive zone), vùng ổn định (stable zone) và vùng tiêu
cực (negative zone). Khai phá luật được thực hiện trên phân vùng các giá trị dữ liệu. Mức
độ thay đổi của dữ liệu kịch bản, chỉ số ngành và chỉ số thị trường được phân tích trong
sự kết hợp theo từng giai đoạn phân tích. Mức độ lợi nhuận và mức độ thay đổi về giá với
mức độ thay đổi chỉ số được dùng cho tiến trình ước lượng trọng số. Các giá trị trọng số
được sử dụng cho tiến trình khai phá luật có trọng số. Độ hỗ trợ của trọng số được tính
với các item phổ biến và giá trị trọng số. Tính toán tương tự như vậy cho độ tin cậy của
trọng số. Tiến trình khai phá hình mẫu được điều chỉnh phù hợp với độ hỗ trợ của trọng
số và độ tin cậy của trọng số.
6. Giải pháp
6.1. Giải thuật gom cụm tích hợp
và khai phá luật có trọng số
Phân tích xu hướng của thị trường chứng khoan được thực hiện với sự hỗ trợ của
giải thuật gom cụm tích hợp và khai phá luật có trọng số. Giải thuật này được đề xuất để
giải quyết vấn đề ước lượng xu hướng. Gom cụm được thực hiện trong bước tiền xử lý
Trang 25 |

×