ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
---------------------------------------------------------
PHẠM XUÂN DŨNG
ỨNG DỤNG TEXT MINING DỰ BÁO THỊ TRƯỜNG
CHỨNG KHOÁN VIỆT NAM
LUẬN VĂN THẠC SĨ CAO HỌC
NGÀNH: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
HƯỚNG DẪN KHOA HỌC:
GS.TSKH. HOÀNG VĂN KIẾM
TP HỒ CHÍ MINH - 2015
Lời cam đoan:
Tôi xin cam đoan những nội dung trong luận văn này là do chính tôi tìm hiểu, tổng
hợp và tự nghiên cứu. Tất cả dữ liệu thử nghiệm đều là dữ liệu thực và các kết quả
thử nghiệm được trình bầy trong luận văn là trung thực. Những phần hay phương
pháp sưu tầm từ các tài liệu khác đều được trích dẫn đầy đủ. Tôi xin chịu mọi trách
nghiệm về nội dung của luận văn này và chịu mọi hình thức kỷ luật nếu lời cam
đoan này không trung thực.
TP HCM, ngày 6 tháng 1 năm 2016.
Học Viên
Phạm Xuân Dũng
i
MỤC LỤC
Trang
CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN DỰ BÁO THỊ TRƯỜNG CHỨNG
KHOÁN, CÁC KỸ THUẬT VÀ CÁC CÔNG TRÌNH LIÊN QUAN ......................3
1.1 Mục tiêu, đối tượng, phạm vi của đề tài luận văn thạc sĩ ..................................3
1.2 Giới thiệu bài toán dự báo thị trường chứng khoán ..........................................3
1.3 Giả thiết thị trường hiệu quả [6, 30] ..................................................................4
1.4 Các bằng chứng chống lại giải thiết thị trường hiệu quả [6, tr 53-56] ..............5
1.5 Tổng quan tình hình nghiên cứu trong nước và trên thế giới ............................5
CHƯƠNG 2: CÁC KỸ THUẬT KHAI PHÁ VĂN BẢN [4, 12] ............................ 12
2.1
Thuật toán K-Trung bình (K-means)[4] ......................................................12
2.2
Thuật toán cây quyết định (Decision tree)[4] ..............................................13
2.3
K-láng giềng gần nhất (K-Nearest Neighbor)[4].........................................13
2.4
Support Vector Machines (SVM)[4] ..........................................................15
2.4.1
Giới thiệu .............................................................................................. 15
2.4.2
Bài toán và cách giải quyết ...................................................................15
2.4.3
Hàm nhân Kernel ..................................................................................21
2.4.4
Thuật toán Sequential Minimal Optimization (SMO) ..........................22
CHƯƠNG 3: ĐỀ XUẤT MÔ HÌNH CẢI TIẾN DỰ BÁO XU HƯỚNG CỦA CHỈ
SỐ VN-INDEX SỬ DỤNG KỸ THUẬT KHAI PHÁ VĂN BẢN ..........................24
3.1 Đề xuất mô hình cải tiến ..................................................................................25
3.2 Nguồn dữ liệu: .................................................................................................26
3.3 Phương pháp kết hợp nội dung các tin tức ......................................................27
3.4 Gán nhãn tin tức để chuẩn bị dữ liệu cho giai đoạn huấn luyện .....................28
3.5 Loại bỏ các thành phần không cần thiết trong bài báo ....................................29
3.6 Gán nhãn từ loại .............................................................................................. 29
3.7 Loại bỏ các từ dừng[4] ....................................................................................30
3.8 Lựa chọn đặc trưng [4, 12] ..............................................................................32
3.9 Biểu diễn các bài báo theo không gian vector .................................................33
ii
CHƯƠNG 4: XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM ............................. 35
4.1 Các module chính của chương trình thử nghiệm ............................................35
4.2 Phương pháp đánh giá hiệu quả dự báo ..........................................................35
4.3 Kết quả thử nghiệm: ........................................................................................36
4.3.1 Thử nghiệm 1: Áp dụng mô hình cải tiến đã đề xuất, dự báo xu hướng giá
VN-INDEX, thử nghiệm trên tập dữ liệu 1 .......................................................36
4.3.2 Thử nghiệm 2: Áp dụng mô hình cải tiến đã đề xuất, dự báo xu hướng giá
VN-INDEX, thử nghiệm trên tập dữ liệu 2 .......................................................38
4.3.3 Thử nghiệm 3: Áp dụng mô hình cải tiến đã đề xuất, dự báo xu hướng giá
VN-INDEX, thử nghiệm trên tập dữ liệu 3 .......................................................40
4.4 Tổng kết chương 4 ...........................................................................................42
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..........................................43
5.1 Kết luận ...........................................................................................................43
5.2 Hướng phát triển .............................................................................................. 43
TÀI LIỆU THAM KHẢO .........................................................................................45
iii
Danh mục các thuật ngữ và ký hiệu
Giải thích
Mutual information(thông tin tương hỗ)
Thị trường giao dịch chứng khoán
Thị trường chứng khoán
Support vector machine(máy vectơ hỗ
trợ)
Sequential minimal optimization(thuật
toán tối tiểu tuần tự)
Là chỉ số thể hiện biến động giá cổ phiếu
giao dịch tại TTGDCK TP.HCM.
Tin tức làm cho giá VN-INDEX ngày
hôm sau tăng so với ngày hôm trước
Tin tức làm cho giá VN-INDEX ngày
hôm sau không tăng, không giảm so với
ngày hôm trước
Tin tức làm cho giá VN-INDEX ngày
hôm sau giảm so với ngày hôm trước
Kỹ thuật khai phá văn bản
Thuật ngữ
MI
TTGDCK
TTCK
SVM
SMO
VN-INDEX
Tin tốt
Tin trung tính
Tin xấu
KTKPVB
iv
Danh mục bảng
DANH MỤC BẢNG
Trang
Bảng 1.1: Thông tin về một số công trình nghiên cứu sử dụng text mining dự báo
chứng khoán trên thế giới. .................................................................................10
Bảng 3.1: Bảng số liệu các tin tức thu thập được từ các trang báo điện tử đã loại bỏ
nhiễu và tin quá ngắn .........................................................................................26
Bảng 3.2: Bảng lịch sử giá của chỉ số VN-INDEX ........................................................26
Bảng 3.3: Bảng phân loại tin tức theo lịch sử giá......................................................28
Bảng 3.4: Các biểu thức chính quy lấy các phần của tin tức VNEXPRESS .................29
Bảng 3.5: Một số từ dừng trong văn bản tiếng Việt .................................................30
Bảng 3.6: Trích một phần danh sách từ tiếng Việt [31] ............................................31
Bảng 4.1: Các module chính của chương trình thử nghiệm .....................................35
Bảng 4.2 Bảng phân chi tập dữ liệu huấn luyện và kiểm tra cho thử nghiệm 1 .......36
Bảng 4.3: Một số đặc trưng có thông tin tương hỗ cao đối với lớp tương ứng trong
thử nghiệm 1 ......................................................................................................37
Bảng 4.4: Kết quả thử nghiệm 1 ...............................................................................37
Bảng 4.5: Bảng phân chi tập dữ liệu huấn luyện và kiểm tra cho thử nghiệm 2......38
Bảng 4.6: Một số đặc trưng có thông tin tương hỗ cao đối với lớp tương ứng trong
thử nghiệm 2 ......................................................................................................38
Bảng 4.7: Bảng kết quả thử nghiệm 2 .......................................................................39
Bảng 4.8: Bảng phân chi tập dữ liệu huấn luyện và kiểm tra cho thử nghiệm 3......40
Bảng 4.9: Một số đặc trưng có thông tin tương hỗ cao đối với lớp tương ứng trong
thử nghiệm 3 ......................................................................................................40
Bảng 4.10: Bảng kết quả thử nghiệm 3 .....................................................................41
v
Danh mục hình vẽ và biểu đồ
DANH MỤC HÌNH VẼ
Trang
Hình 1.1: Tính liên ngành của ứng dụng text mining để dự báo thị trường[21]. ........4
Hình 1.2: Sơ đồ các thành phần chính của hệ thống dự báo thị trường[21]. ..............7
Hình 1.3: Mô hình dự báo giá chứng khoán sử dụng dữ liệu Twitter [24]. ................8
Hình 1.4: Mô hình huấn luyện được đề xuất trong [23] sử dụng phân loại văn bản
dự báo chỉ số VN-INDEX. ...................................................................................9
Hình 1.5: Mô hình dự báo xu hướng giá VN-INDEX sử dụng phân loại văn bản
được đề xuất trong [23] ........................................................................................9
Hình 2.1: Siêu phẳng phân chia tập mẫu huấn luyện [4] ..........................................16
Hình 2.2: Ví dụ về biên không tốt [4]. ......................................................................17
Hình 2.3: Ví dụ về biên tối ưu [4]. ............................................................................17
Hình 2.4: Siêu phẳng phân chia dữ liệu và các ràng buộc [4]. .................................18
Hình 2.5: Trường hợp dữ liệu có nhiễu [4]. .............................................................. 20
Hình 3.1: Sơ đồ xây dựng mô hình máy học sử dụng text mining dự báo VNINDEX, cải tiến từ mô hình được đề xuất trong [23] ........................................25
Hình 3.2: Sơ đồ dự báo xu hướng chỉ số VN-INDEX sử dụng mô hình máy học đã
xây dựng .............................................................................................................25
Hình 3.3: Sơ đồ phương pháp kết hợp các tin tức thành một văn bản duy nhất. ......28
vi
MỞ ĐẦU
MỞ ĐẦU
Để tồn tại và phát triển, con người luôn luôn tìm cách để dự báo tương lai, có nhiều
bài toán dự báo mà con người đã và đang tìm cách giải quyết như dự báo thời tiết,
dự báo thị trường chứng khoán, dự báo giá vàng, dự báo nhu cầu tiêu dùng, v.v.
Trong đó, dự báo xu hướng của thị trường chứng khoán là một trong các bài toán
khó và từ lâu đã thu hút nhiều nghiên cứu trên thế giới. Thị trường chứng khoán là
một đối tượng dự báo rất phúc tạp, điều này thể hiện ở chỗ đây là thị trường luôn
luôn biến động, chịu tác động của nhiều yếu tố rất khó kiểm soát và rất khó đoán
biết như tình hình thiên tai, dịch bệnh, quân sự trên thế giới, và các hành vi mua bán
mang tính cảm tính của các nhà đầu tư trên thị trường.
Trong các quyết dịnh hàng ngày, chúng ta luôn bị chi phối bởi các thông tin mà
chúng ta nghe thấy, nhìn thấy. Một trong các nguồn thông tin mà chúng ta nghe
thấy, nhìn thấy hàng ngày là các tin tức về tình hình kinh tế, xã hội trên các báo điện
tử.
Các tin tức này tắc động đến hành vi mua bán, đầu tư của chúng ta, và đến lượt các
hành vi mua bán, đầu tư của chúng ta tác động đến tình hình cung, cầu của thị
trường và qua đó tác động đến giá cả thị trường.
Góp phần vào các giải pháp dự báo thị trường chứng khoán tại Việt Nam, và đặc
biệt là khảo sát sự liên hệ giữa các tin tức về tình hình kinh tế, tài chính trên các báo
điện tử phổ biến ở Việt Nam và chỉ số VN-INDEX, trong luận văn này chúng tôi đề
xuất và thử nghiệm mô hình dự báo thị trường chứng khoán Việt Nam bằng cách
kết hợp các thuật toán khai phá văn bản và dữ liệu số.
Nguồn dữ liệu văn bản của luận văn chính là các tin tức về tài chính, chứng khoán
trên các báo điện tử phổ thông của Việt Nam như báo Tuổi trẻ, Thanh Niên,
VNEXPRESS, Vietstock, và đối tượng dự báo của luận văn là chỉ số VN-INDEX.
Các kết quả thử nghiệm của luận văn đã cho kết quả khả quan và kết quả dự báo
này là nguồn tham khảo khách quan và có giá trị cho các nhà quản lý và đầu tư trên
thị trường chứng khoán trong các quyết định đầu tư của mình.
Cấu trúc của luận văn gồm 5 chương như sau:
-
Chương 1: Tổng quan về bài toán dự báo thị trường chứng khoán, các kỹ
thuật và các công trình liên quan
1
MỞ ĐẦU
-
Chương 2: Các phương pháp khai phá văn bản
-
Chương 3: Đề xuất mô hình dự báo thị trường chứng khoán Việt Nam sử
dụng các kỹ thuật khai phá văn bản
-
Chương 4: Xây dựng chương trình thử nghiệm, kết quả và phân tích
-
Chương 5: Kết luận và hướng phát triển
2
Chương 1: Tổng quan về bài toán dự báo TTCK, các kỹ thuật và các công trình liên quan
CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN DỰ BÁO THỊ TRƯỜNG
CHỨNG KHOÁN, CÁC KỸ THUẬT VÀ CÁC CÔNG TRÌNH LIÊN
QUAN
Trong chương này chúng tôi trình bầy về mục tiêu, đối tượng, phạm vi của đề tài
luận văn thạc sĩ. Sau đó chúng tôi giới thiệu qua về bài toán dự báo thị trường
chứng khoán, cuối cùng chúng tôi điểm qua một số kỹ thuật dự báo thị trường
chứng khoán và một số công trình nghiên cứu liên quan đến luận văn ở trong nước
và trên thế giới trong thời gian gần đây.
1.1 Mục tiêu, đối tượng, phạm vi của đề tài luận văn thạc sĩ
Mục tiêu nghiên cứu của đề tài
+ Tìm hiểu, phân tích các kỹ thuật dự báo chứng khoán hiện đại ở Việt Nam và trên
thế giới.
+ Đề xuất các cải tiến nhằm làm tăng độ chính xác trong việc dự báo thị trường
chứng khoán sử dụng các kỹ thuật text mining.
+ Xây dựng chương trình thử nghiệm
Đối tượng và phạm vi nghiên cứu của đề tài
+ Đối tượng nghiên cứu của luận văn là dự báo sự lên xuống (với ba mức tăng,
không tăng-không giảm, giảm) của chỉ số chứng khoán VN-INDEX trước một
ngày.
+ Phạm vi nghiên cứu của luận văn là sử dụng kỹ thuật phân loại văn bản(SVM) áp
dụng trên tập các tin tức tiếng Việt trong các chuyên mục tài chính, chứng khoán
trên 4 trang báo điện tử phổ biến của Việt Nam.
1.2 Giới thiệu bài toán dự báo thị trường chứng khoán
Dự báo thị trường chứng khoán từ lâu đã thu hút nhiều nghiên cứu từ các nhà kinh
tế học và các nhà khoa học máy tính. Dự báo thị trường chứng khoán sử dụng text
mining là một lĩnh vực mới nổi và thu hút nhiều nghiên cứu trên thế giới. Đây là
lĩnh vực liên ngành giữa ngôn ngữ học, học máy, và tài chính hành vi (xem Hình
1.1).
3
Chương 1: Tổng quan về bài toán dự báo TTCK, các kỹ thuật và các công trình liên quan
Hình 1.1: Tính liên ngành của ứng dụng text mining để dự báo thị trường[21].
1.3 Giả thiết thị trường hiệu quả [6, 30]
Giả thuyết thị trường hiệu quả (hay lý thuyết thị trường hiệu quả) (tiếng Anh:
efficient market hypothesis) là một giả thuyết của lý thuyết tài chính khẳng định
rằng các thị trường tài chính là hiệu quả (efficient), rằng giá của chứng khoán
(securities) trên thị trường tài chính, đặc biệt là thị trường chứng khoán, phản ánh
đầy đủ mọi thông tin đã biết. Do đó không thể kiếm được lợi nhuận bằng cách căn
cứ vào các thông tin đã biết hay những hình thái biến động của giá cả trong quá
khứ. Có thể nói một cách ngắn gọn là các nhà đầu tư không thể khôn hơn thị trường.
Có ba phiên bản của "lý thuyết thị trường hiệu quả": dạng yếu (weak form), dạng
bán-mạnh (semi-strong form) và dạng mạnh (strong form). Phiên bản weak form
của lý thuyết này cho rằng: giá chứng khoán phản ánh đầy đủ thông tin đã công bố
trong quá khứ. (nghĩa là dựa vào thông tin trong quá khứ thì nhà đầu cơ không
thắng được thị trường). Phiên bản dạng semi-strong form của lý thuyết cho rằng: giá
chứng khoán (chứng khoán ở đây được hiểu theo nghĩa rộng, không chỉ là cổ phiếu)
đã chịu tác động đầy đủ của thông tin công bố trong quá khứ cũng như thông tin
vừa công bố xong. Nhà đầu cơ không thể dựa vào thông tin trong quá khứ cũng như
thông tin vừa được công bố để có thể mua rẻ bán đắt chứng khoán, vì ngay khi
thông tin được công bố, giá chứng khoán đã thay đổi phản ánh đầy đủ thông tin vừa
công bố.
Dạng strong form của lý thuyết này khẳng định mạnh mẽ hơn nữa về tính hiệu quả
của thị trường tài chính, rằng giá của chứng khoán đã phản ánh tất cả thông tin công
bố trong quá khứ, hiện tại, cũng như các thông tin nội bộ. Cơ sở đứng sau lý thuyết
này là: nếu có thông tin nội bộ, những người biết thông tin nội bộ sẽ mua bán ngay
4
Chương 1: Tổng quan về bài toán dự báo TTCK, các kỹ thuật và các công trình liên quan
chứng khoán để thu lợi nhuận, và như vậy giá chứng khoán sẽ thay đổi, đến khi nào
người trong cuộc không còn kiếm lời được nữa.
Lý thuyết thị trường hiệu quả được phát triển bởi Giáo sư Eugene Fama tại
University of Chicago Booth School of Business trong luận văn tiến sỹ của mình
vào đầu những năm 1960s. Lý thuyết này được chấp nhận rộng rãi cho đến
những năm 1990s thì bị đặt câu hỏi, khi kinh tế học tài chính hành vi nổi lên
được chấp nhận rộng rãi.
Những hạn chế này của giả thuyết thị trường hiệu quả đã thúc đẩy các nghiên cứu
đưa đến lý thuyết kinh tế học hành vi nói chung và tài chính hành vi học nói riêng.
1.4 Các bằng chứng chống lại giải thiết thị trường hiệu quả [6, tr 53-56]
Mặc dù có rất nhiều bằng chứng ủng hộ giả thiết thị trường hiệu quả, tuy nhiên, đã
có nhiều công trình nghiên cứu chỉ ra rằng thị trường hiệu quả không phải lúc nào
cũng áp dụng được:
+ Hiệu ứng công ty nhỏ: Nhiều nghiên cứu đã chỉ ra rằng các công ty nhỏ có lợi
nhuận cao bất thường trong một thời gian dài, ngay cả khi rủi ro của các công ty
này-thường lớn hơn rủi ro của các công ty khác- đã được tính đến.
+ Hiệu ứng tháng Giêng: Trong một thời gian dài, giá cổ phiếu thường có khuynh
hướng tăng cao một cách bất thường từ tháng 12 cho đến tháng Giêng.
+ Phản ứng quá mức của thị trường: Các nghiên cứu gần đây cho thấy giá cổ phiếu
thường có phản ứng quá mức trước các thông tin mới được công bố và các sai sót
trong việc định giá được điểu chỉnh một cách chậm chạp.
+ Sự đảo chiều: Một số nhà nghiên cứu đã phát hiện ra rằng lợi nhuận cổ phiếu có
tính đảo chiều: nghĩa là cổ phiếu đang có lợi nhuận thấp ngày hôm nay thường có
khuynh hướng đem lại lợi nhuận cao trong tương lai và ngược lại.
Các bằng chứng trên đã làm cho thấy giả thuyết thị trường hiệu quả vẫn còn gây
nhiều tranh cãi và trong phần sau chúng tôi xin trình bầy một số nghiên cứu cụ thể
trong ngành khoa học máy tính về dự báo thị trường chứng khoán đã chứng minh
rằng giả thuyết thị trường hiệu quả không phải lúc nào cũng đúng.
1.5 Tổng quan tình hình nghiên cứu trong nước và trên thế giới
Về phía các nghiên cứu từ ngành kinh tế, có thể kể đến luận án tiến sĩ kinh tế của Lê
Đạt Chí[1], sử dụng mạng thần kinh nhân tạo được cài đặt trong phần mềm
NeuralSolution 5.0 để dự báo chỉ số VN-INDEX, trong luận án, có phần tác giả sử
dụng dữ liệu đầu vào là các yếu tố kinh tế vĩ mô theo chu kỳ tháng như tỉ lệ lạm
5
Chương 1: Tổng quan về bài toán dự báo TTCK, các kỹ thuật và các công trình liên quan
phát, tỉ giá, lãi suất, sản lượng công nghiệp, cán cân thương mại, cung tiền M2, tăng
trưởng tín dụng để dự báo biến động của giá VN-INDEX theo tháng. Trong luận án
này, tác giả cũng chứng minh mô hình hồi quy truyền thống không có hiệu quả cao
trong việc dự báo giá chứng khoán.
Luận văn của Đặng Hồng Phú [8], nghiên cứu chuỗi thời gian chỉ số giá thị trường
chứng khoán kết hợp với phân tích xu hướng bằng phân tích kỹ thuật. Đồng thời
luận văn cũng sử dụng thêm phân tích tâm lý thông qua khối lượng dư mua, dư bán.
Luận văn này dự báo VN-INDEX và các mã chứng khoán PMS, REE, SAM, SGC,
TCM;
Luận văn của Nguyễn Tiến Thanh [11], luận văn này dự báo tỷ suất lợi nhuận trả về
vượt mức so với các tỷ suất lãi xuất và thực hiện thử nghiệm đới với các chỉ số
FTSE-500, S&P-500, VN-INDEX;
Luận văn của Đặng Thị Thanh Hương [3], kết hợp mạng neuron và thuật giải di
truyền để dự báo chỉ số VN-INDEX và các mã chứng khoán REE và SAM trong
ngắn hạn;
Luận văn của Tô Nguyễn Nhật Quang [10], sử dụng mô hình tuyến tính gọi là mô
hình GAAR (GENETIC ALGORITHM-AUTOREGRESSIVE MODEL) và một mô
hình phi tuyến phức tạp hơn gọi là mô hình ANFIS dự báo trong ngắn hạn giá trị
tương lai của chỉ số VN-INDEX và của một số cổ phiếu có khối lượng giao dịch lớn
tại thị trường chứng khoán TP.HCM như REE, SAM;
Phạm Thành Phước [9], sử dụng mạng neural dự báo giá chứng khoán tại trung tâm
giao dịch chứng khoán TP. HCM;
Trịnh Thanh Ngọc[7], dự đoán xu hướng thị trường chứng khoán bằng cách sử dụng
Twitter, trong nghiên cứu này, tác giải ứng dụng kỹ thuật học máy hồi quy véctơ hỗ
trợ (Support Vector Regression - SVR) vào bài toán dự báo xu thế của chứng khoán
dựa trên tập dữ liệu Twitter. Tập dữ liệu này được tải xuống trực tiếp từ trang web
. Tác giả đã xây dựng chương trình dự báo giá cổ phiếu Apple;
Vũ Hữu Dũng [2], ứng dụng khai phá dữ liệu trong dự báo biến động thị trường
chứng khoán Việt Nam, tác giả nghiên cứu mô hình GARCH, mô hình học máy
(Mạng nơ ron nhân tạo, Hồi quy vector hỗ trợ) dự đoán biến động trên thị trường
chứng khoán Việt Nam (VN-INDEX, HNXINDEX).
Như trên chúng ta đã thấy, các nghiên cứu trên chủ yếu sử dụng dữ liệu số để dự
báo giá chứng khoán mà chưa xem xét đến sự tác động của các tin tức về tình hình
kinh tế, tài chính đến xu hướng giá chứng khoán. Lĩnh vực dự báo thị trường chứng
6
Chương 1: Tổng quan về bài toán dự báo TTCK, các kỹ thuật và các công trình liên quan
khoán luôn nhận được sự quan tâm to lớn của cộng đồng nghiên cứu trên thế giới.
Đã có nhiều công trình nghiên cứu về dự báo chứng khoán. Trong bài báo “Text
mining for market prediction: A systematic review”[21], các tác giả đã tổng kết
những công trình gần đây về việc áp dụng text mining để dự báo thị trường. Trong
đó hầu hết các hệ thống được đề xuất trong các công trình nghiên cứu đều theo kiến
trúc như sau (hình 1.2):
Hình 1.2: Sơ đồ các thành phần chính của hệ thống dự báo thị trường[21].
Về các công trình sử dụng kỹ thuật khai phá văn bản để dự báo các chỉ số chứng
khoán, có thể kể đến một số nghiên cứu sau: công trình của Tien Thanh Vu, Shu
Chang, Quang Thuy Ha and Nigel Collier [24], các tác giả đề xuất mô hình sau
(hình 1.3) để dự báo sự lên xuống hàng ngày của giá chứng khoán của các công ty
Apple (AAPL), Google (GOOG), Microsoft (MSFT) and Amazon (AMZN) trên sàn
giao dịch chứng khoán NASDAQ.
7
Chương 1: Tổng quan về bài toán dự báo TTCK, các kỹ thuật và các công trình liên quan
Hình 1.3: Mô hình dự báo giá chứng khoán sử dụng dữ liệu Twitter [24].
Các tác giả Hoang T. P. Thanh, Phayung Meesad[23] sử dụng cách tiếp cận kết hợp
phân tích chuỗi thời gian và kỹ thuật phân loại văn bản với nguồn dữ liệu số được
tải về từ trang web website và nguồn dữ liệu văn bản là các
tin tức bằng tiếng anh tải về từ trang web dự báo chỉ số
chứng khoán VN-INDEX.
Sau khi tác giả thu thập dữ liệu từ thì chia làm hai tập dữ
liệu, 1 tập dữ liệu dùng cho huấn luyện mô hình và một tập dùng cho kiểm thử mô
hình.
Bản chất của mô hình đề xuất trong [23] là tác giả sử dụng kỹ thuật phân loại văn
bản để phân loại các tin tức thành 3 loại tin tốt, tin trung tính, tin xấu tương ứng với
xu hướng giá VN-INDEX là tăng, không tăng-không giảm, giảm.
Mô hình đề xuất trong công trình số [23] bao gồm 2 pha, pha huấn luyện được mô
tả như trong hình 1.4, pha dự báo được mô tả như trong hình 1.5.
8
Chương 1: Tổng quan về bài toán dự báo TTCK, các kỹ thuật và các công trình liên quan
Hình 1.4: Mô hình huấn luyện được đề xuất trong [23] sử dụng phân loại văn bản dự báo
chỉ số VN-INDEX.
Hình 1.5: Mô hình dự báo xu hướng giá VN-INDEX sử dụng phân loại văn bản được đề
xuất trong [23]
Ngoài ra, còn có nhiều công trình nghiên cứu trên giới sử dụng kỹ thuật text
mining dự báo các chỉ số chứng khoán khác nhau, bảng sau đây mô tả sơ lược
về các công trình này.
9
Chương 1: Tổng quan về bài toán dự báo TTCK, các kỹ thuật và các công trình liên quan
Bảng 1.1: Thông tin về một số công trình nghiên cứu sử dụng text mining dự
báo chứng khoán trên thế giới.
Tên công trình
nghiên cứu
Đối tượng dự
báo
[14] Text
Mining of News
Articles for
Stock Price
Predictions
[15] Mining
Unstructured
Financial News
to Forecast
Intraday Stock
Price
Movements
[20] Data and
text mining of
financial
markets using
news and social
media
Quyết định
mua/bán
chứng khoán
[17] A Text
Mining System
for Evaluating
the Stock
Market's
response To
News(luận văn
tiến sĩ)
Quyết định
mua/bán
chứng khoán
Xu hướng
lên/xuống của
các mã chứng
khoán AMZN,
BAC, CMG,
FSLR, IBM,
MSFT,
NFLX,
RIMM,
YHOO trên
thị trường
chứng khoán
Mỹ
Xu hướng giá
chứng khoán
của các công
ty
Microsoft,
Apple,
Google, IBM
Nguồn dữ
liệu
Kỹ thuật lựa
chọn đặc
trưng
Hegnar
Chi-Square
online,
value, singular
Newsweb, and value
Thomson
decomposition
Reuters ONE (SVD), LSI
Các tin tức
IG, CHI
được cung cấp
bởi trang web
LexisNexis.
Stock tweets:
Tập hợp các
tweets từ
trang web
StockTwits.
Từ loại, tần số
từ, trọng số
của đặc trưng.
Là các tin tức
bằng văn bản,
nhưng không
đề cập rõ
nguồn
Industry
ontology,
company
specific
ontology,
ontology news
recall
10
Kỹ thuật text
mining được
sử dụng
Thuật toán
phân cụm KMeans và một
số cải tiến,
SVM
K-nearest
neighbor
classifier,
Decision trees,
Support vector
machines
(SVM).
Naïve Bayes,
Decision Tree
(J48 in Weka),
Support
Vector
Machine.
Naive Bayes
classifier,
Support vector
machines,
Multivariate
adaptive
regression
splines,
Artificial
neural
networks,
Random
forest,
Regression
Chương 1: Tổng quan về bài toán dự báo TTCK, các kỹ thuật và các công trình liên quan
trees
Tổng kết chương 1:
Như đã phân tích ở phần trên, hiện nay các công trình nghiên cứu về dự báo thị
trường chứng khoán trong nước chủ yếu dựa trên các phương pháp khai phá dữ liệu
dựa trên dữ liệu số đơn thuần, trên thế giới đã có nhiều nghiên cứu sử dụng các kỹ
thuật khai phá văn bản để dự báo các chỉ số chứng khoán. Đặc biệt trong công trình
[23], các tác giả cũng đã đề xuất mô hình sử dụng kỹ thuật phân loại văn bản trên
các tin tức bằng tiếng Anh để dự báo chỉ số VN-INDEX và cho kết quả khả quan.
Trong các chương sau, chúng tôi trình bầy sơ lược các kỹ thuật khai phá văn bản và
trình bầy mô hình cải tiến của mô hình được đề xuất trong [23] và các kết quả thử
nghiệm.
11
Chương 2: Các kỹ thuật khai phá văn bản
CHƯƠNG 2: CÁC KỸ THUẬT KHAI PHÁ VĂN BẢN [4, 12]
Trong bài báo tổng kết các công trình về dự báo thị trường sử dụng các kỹ thuật text
mining [21], các tác giả đã liệt kê các kỹ thuật, thuật toán được sử dụng nhiều nhất,
trong số đó các phương pháp được sử dụng nhiều nhất là K-trung bình (K-means),
cây quyết định (Decision tree), K-láng giềng gần nhất (K-nearest neighbors),
phương pháp sử dụng các vector hỗ trợ SVM (Support Vector Machines)
Trong phần này chúng tôi điểm qua ý tưởng của các thuật toán này và giải thích vì
sao chúng tôi chọn thuật toán SVM trong quá trình thử nghiệm cho luận văn.
Các kỹ thuật khai phá văn bản chúng tôi trình bầy sau đây được tham khảo chủ yếu
từ luận văn của Bùi Nguyên Khởi [4]
2.1Thuật toán K-Trung bình (K-means)[4]
Ý tưởng
Ý tưởng của thuật toán là chia m phần tử (m mẫu dữ liệu văn bản) thành n nhóm (n
lớp) sao cho các phần tử trong cùng một nhóm sẽ gần tâm của nhóm đó nhất.
Thuật toán K –Trung bình cổ điển
Giả sử ta muốn gom m mẫu dữ liệu đầu vào có các vector đặc trưng lần lượt là x1,
x2, … xm vào k nhóm (k
Đầu tiên ta khởi tạo các giá trị trung bình (hay có thể gọi là tâm) của k nhóm là các
vector n chiều C1, C2, ….,Ck (thường là khởi tạo ngẫu nhiên). Sau đó tiến hành tính
khoảng cách từ các mẫu đầu vào xi đối với từng tâm nhóm Cj, hay chính là việc xác
định mối quan hệ thành viên của từng mẫu đầu vào xi bằng cách tính ||xi – Cj||. Đối
với mỗi mẫu xi, khoảng cách tối thiểu sẽ xác định được mối quan hệ thành viên đối
với nhóm tương ứng.
Thuật toán:
- Bước 1: Khởi tạo tâm của k nhóm: C1, C2, ….,Ck
12
Chương 2: Các kỹ thuật khai phá văn bản
- Bước 2: Lặp lại:
(a) Phân loại m mẫu xi vào các nhóm có tâm là Cj sao cho khoảng
cách ||xi – Cj|| là nhỏ nhất.
(b) Tính toán lại tâm Cj (chỉnh tâm)
Đến khi: các tâm Cj không đổi.
Kết quả: Các lớp C1, C2, ….,Ck
Đối với thuật toán K-Trung bình cổ điển, việc khởi tạo tâm các nhóm có ảnh hưởng
rất lớn đến kết quả phân nhóm.
2.2Thuật toán cây quyết định (Decision tree)[4]
Phương pháp cây quyết định được Mitchell đưa ra vào năm 1996. Nó được sử dụng
rộng rãi nhất cho việc học quy nạp từ tập mẫu lớn. Đây là phương pháp học xấp xỉ
các hàm mục tiêu có giá trị rời rạc. Mặt khác cây quyết định còn có thể chuyển sang
dạng biểu diễn tương đương dưới dạng cơ sở tri thức là các luật Nếu – Thì.
Ý tưởng
Bộ phân lớp cây quyết định là một dạng cây mà mỗi nút được gán nhãn là một đặc
trưng, mỗi nhánh là giá trị trọng số xuất hiện của đặc trưng trong văn bản cần phân
lớp, và mỗi lá là nhãn của phân lớp tài liệu. Việc phân lớp của một tài liệu dj sẽ
được duyệt đệ quy theo trọng số của những đặc trưng có xuất hiện trong văn bản dj.
Thuật toán lặp đệ quy đến khi đạt đến nút lá và nhãn của dj chính là nhãn của nút lá
tìm được. Thông thường việc phân lớp văn bản nhị phân sẽ tương thích với việc
dùng cây nhị phân.
2.3K-láng giềng gần nhất (K-Nearest Neighbor)[4]
Ý tưởng
13
Chương 2: Các kỹ thuật khai phá văn bản
Ý tưởng chính của thuật toán K-láng giềng gần nhất (K-NN) là so sánh độ phù hợp
của văn bản d với từng nhóm chủ đề, dựa trên k văn bản mẫu trong tập huấn luyện
mà có độ tương tự với văn bản d là lớn nhất.
Có 2 vấn đề cần quan tâm khi phân lớp văn bản bằng thuật toán K- láng giềng gần
nhất là xác định khái niệm gần, công thức để tính mức độ gần; và làm thế nào để
tìm được nhóm văn bản phù hợp nhất với văn bản đó (nói cách khác là tìm được chủ
đề thích hợp để gán cho văn bản).
Khái niệm gần ở đây được hiểu là độ tương tự giữa các văn bản. Có nhiều cách để
xác định độ tương tự giữa hai văn bản, trong đó công thức Cosine trọng số được coi
là hiệu quả để đánh giá độ tương tự giữa hai văn bản. Cho T={t1, t2, …, tn} là tập
hợp các thuật ngữ; W={wt1, wt2, …, wtn} là vector trọng số, wti là trọng số của thuật
ngữ ti. Xét hai văn bản X={x1, x2, …, xn} và Y={y1, y2, …, yn}, xi, yi lần lượt là tần
số xuất hiện của thuật ngữ ti trong văn bản X, Y. Khi đó độ tương tự giữa hai văn
bản X và Y được tính theo công thức (2.1):
Sim ( X , Y ) = cos ine( X , Y , W ) =
tT
( xt wt ) ( yt wt )
tT ( xt wt )
2
tT ( yt wt )
2
(2.1)
Trong vector X, Y các thành phần xi, yi được chuẩn hoá theo tần số xuất hiện của
thuật ngữ ti trong các văn bản X và Y. Vector W được xác định bằng tay hoặc được
tính theo một thuật toán tham lam nào đó. Một đề xuất đưa ra là tính vector W theo
nghịch đảo tần suất văn bản IDF, khi đó văn bản được biểu diễn dưới dạng vector
tần xuất TFxIDF.
Có nhiều đề xuất để tìm nhãn phù hợp gán cho văn bản khi đã tìm được k văn bản
gần nhất như gán nhãn văn bản gần nhất, gán nhãn theo số đông, gán nhãn theo độ
phù hợp của chủ đề.
14
Chương 2: Các kỹ thuật khai phá văn bản
2.4 Support Vector Machines (SVM)[4]
2.4.1 Giới thiệu
SVM là một phương pháp phân lớp xuất phát từ lý thuyết học thống kê, dựa trên
nguyên tắc tối thiểu rủi ro cấu trúc (Structural Risk Minimisation). SVM sẽ cố gắng
tìm cách phân lớp dữ liệu sao cho có lỗi xảy ra trên tập kiểm tra là nhỏ nhất (Test
Error Minimisation). Ý tưởng của nó là ánh xạ (tuyến tính hoặc phi tuyến) dữ liệu
vào không gian các vector đặc trưng (space of feature vectors) mà ở đó một siêu
phẳng tối ưu được tìm ra để tách dữ liệu thuộc hai lớp khác nhau.
SVM đã được ứng dụng rất nhiều trong việc nhận dạng mẫu như nhận dạng chữ viết
tay, nhận dạng đối tượng, nhận dạng khuôn mặt trong ảnh, và trong các bài toán về
khai phá văn bản.
2.4.2 Bài toán và cách giải quyết
Bài toán
Chúng ta hãy xem xét một bài toán phân lớp văn bản bằng phương pháp Support
Vector Machines như sau:
Kiểm tra xem một tài liệu bất kỳ d thuộc hay không thuộc một phân lớp c cho
trước? Nếu dc thì d được gán nhãn là 1, ngược lại thì d được gán nhãn là –1.
Cách giải quyết
Giả sử, chúng ta lựa chọn được tập các đặc trưng là T={t1, t2, …, tn}, thì mỗi văn
bản di sẽ được biểu diễn bằng một vector dữ liệu xi=(wi1, wi2, …, win), wijR là
trọng số của từ tj trong văn bản di. Như vậy, tọa độ của mỗi vector dữ liệu xi tương
ứng với tọa độ của một điểm trong không gian Rn. Quá trình phân lớp văn bản sẽ
thực hiện xử lý trên các vector dữ liệu xi chứ không phải là các văn bản di. Bởi vậy,
trong phần này chúng tôi sẽ sử dụng đồng nhất các thuật ngữ : văn bản, vector dữ
liệu, điểm dữ liệu.
Dữ liệu huấn luyện của SVM là tập các văn bản đã được gán nhãn trước Tr={(x1,
y1), (x2, y2), …, (xl, yl)}, trong đó, xi là vector dữ liệu biểu diễn văn bản di (xiRn),
yi{+1, -1}, cặp (xi, yi) được hiểu là vector xi (hay văn bản di) được gán nhãn là yi.
15
Chương 2: Các kỹ thuật khai phá văn bản
Nếu coi mỗi văn bản di được biểu diễn tương ứng với một điểm dữ liệu trong không
gian Rn thì ý tưởng của SVM là tìm một mặt hình học (siêu phẳng) f(x) “tốt nhất”
trong không gian n-chiều để phân chia dữ liệu sao cho tất cả các điểm x+ được gán
nhãn 1 thuộc về phía dương của siêu phẳng (f(x+)>0), các điểm x- được gán nhãn –
1 thuộc về phía âm của siêu phẳng (f(x-)<0). Với bài toán phân lớp SVM, một siêu
phẳng phân chia dữ liệu được gọi là “tốt nhất”, nếu khoảng cách từ điểm dữ liệu gần
nhất đến siêu phẳng là lớn nhất. Khi đó, việc xác định một tài liệu xTr có thuộc
phân lớp c hay không, tương ứng với việc xét dấu của f(x), nếu f(x)>0 thì xc, nếu
f(x)0 thì xc.
Hình 2.1: Siêu phẳng phân chia tập mẫu huấn luyện [4]
Trong hình 2.1, đường tô đậm là siêu phẳng tốt nhất và các điểm được bao bởi hình
chữ nhật là những điểm gần siêu phẳng nhất, chúng được gọi là các vector hỗ trợ
(support vector). Các đường nét đứt mà các support vector nằm trên đó được gọi là
lề (margin).
Chất lượng của siêu phẳng này được quyết định bởi khoảng cách (gọi là biên) của
điểm gần nhất của mỗi lớp đến mặt phẳng này. Khoảng cách biên càng lớn thì siêu
16
Chương 2: Các kỹ thuật khai phá văn bản
phẳng quyết định càng tốt và việc phân lớp càng chính xác. Mục đích của SVM là
tìm được khoảng cách (biên) lớn nhất và lỗi tách sai là bé nhất.
Lớp 2
Lớp 2
Lớp 1
Lớp 1
Hình 2.2: Ví dụ về biên không tốt [4].
h(x) =
Lớp 2
m
Lớp 1
Hình 2.3: Ví dụ về biên tối ưu [4].
.
Từ đó bài toán đặt ra là tìm siêu phẳng tách wT .x + b = 0 . Đây cũng là bài toán chính
của SVM.
Cho tập dữ liệu
Tr = ( x1 , y1 ),...,( xl , yl ),
x i R n , yi {−1, 1}
Trường hợp 1
17
Chương 2: Các kỹ thuật khai phá văn bản
Tập dữ liệu Tr có thể phân chia tuyến tính được mà không có nhiễu (nghĩa là tất cả
các điểm được gán nhãn 1 thuộc về phía dương của siêu phẳng, tất cả các điểm
được gán nhãn –1 thuộc về phía âm của siêu phẳng) thì chúng ta có thể tìm được
một siêu phẳng tuyến tính có dạng (2.2) để phân chia tập dữ liệu này:
wT .x + b = 0
(2.2)
Trong đó: wRn là vector trọng số (weight vector).
bR là hệ số tự do.
nếu
+ 1
sao cho f ( xi ) = sign{w xi + b} =
1
−nếu
yi = 1
T
yi = −1
(x i , y i ) Tr
(2.3)
{x|(wT.x)+b=+1}
T
{x|(w .x)+b=-1}
x1
yi = +1
x2
yi = -1
w
{x|(wT.x)+b=0}
Hình 2.4: Siêu phẳng phân chia dữ liệu và các ràng buộc [4].
Giả sử rằng siêu phẳng phân chia dữ liệu (2.2) với các ràng buộc:
min wT .xi + b = 1
i=1, .., l
i
hay yi wT .xi + b 1,
i = 1, ..., l
(2.4)
(2.5)
Vấn đề đặt ra bây giờ là xác định các hệ số w và b như thế nào để siêu phẳng tìm
được là tốt nhất? Siêu phẳng tốt nhất là siêu phẳng mà có khoảng cách từ điểm dữ
18