Tải bản đầy đủ (.pdf) (25 trang)

BÁO CÁO BÀI TẬP LỚN MÔN: CÁC KỸ THUẬT GIẤU TIN Chủ đề: Dự đoán sự thay đổi giá bitcoin sử dụng Machine Learning

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (733.83 KB, 25 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
KHOA CƠNG NGHỆ THÔNG TIN I
-----🙞🙜🕮🙞🙜-----

BÁO CÁO BÀI TẬP LỚN
MÔN: CÁC KỸ THUẬT GIẤU TIN
Chủ đề: Dự đoán sự thay đổi giá bitcoin sử dụng
Machine Learning
Giảng viên hướng dẫn:
Nhóm thực hiện:
Sinh viên thực hiện:

TS. Đỗ Xn Chợ
Nhóm 5
Đỗ Văn Hà
Dương Đình Dũng
Nguyễn Tuấn Đạt
Nguyễn Mạnh Hiếu
Nguyễn Thanh Hưng
Lê Nguyên Đức
Phạm Gia Khiêm

Hà Nội, 5/2022

B18DCAT065
B18DCAT033
B18DCAT050
B18DCAT087
B18DCAT117
B18DCAT058
B18DCAT129




MỤC LỤC
4
PHÂN CƠNG CƠNG VIỆC

1

DANH MỤC HÌNH ẢNH

2

GIỚI THIỆU

3

NỘI DUNG

4

1. Tổng quan.

4

1.1. Bitcoin là gì?

4

1.2. Định nghĩa Machine Learning:


4

1.3. Thực trạng sử dụng học máy vào tiền điện tử

5

2. Thị trường tài chính và dự đốn thị trường tài chính.

5

2.1. Lý thuyết về hiệu quả thị trường.

5

2.2. Dự đoán thị trường tài chính.

6

2.3. Hiệu quả thị trường bitcoin.

7

3. Dự đốn thị trường bitcoin thông qua học máy.

8

3.1. Phương pháp luận.

8


3.2. Mục tiêu.

8

3.3. Dữ liệu thu thập.

9

3.4. Phần mềm, phần cứng sử dụng.

9

3.5. Các features sử dụng.

9

3.6. Các Model sử dụng.

11

3.7. Đánh giá.

15

3.8. Kết quả.

16

4. Kết luận.


21

KẾT LUẬN

22

TÀI LIỆU THAM KHẢO

23


5

PHÂN CÔNG CÔNG VIỆC

STT

Họ và tên

Mã sinh viên

1

Đỗ Văn Hà

B18DCAT065

2

Dương Đình Dũng


B18DCAT033

3

Nguyễn Tuấn Đạt

B18DCAT050

4

Nguyễn Mạnh Hiếu

B18DCAT087

5

Nguyễn Thanh Hưng

B18DCAT117

6

Lê Nguyên Đức

B18DCAT058



7


Phạm Gia Khiêm

B18DCAT129



6

Nhiệm vụ
Trưởng nhóm:



7

DANH MỤC HÌNH ẢNH

Hình 3.1: Sơ đồ mạng nơ-ron của FNN.

13

Hình 3.2: Sơ đồ mạng LTSM.

13

Hình 3.3: Minh họa cây quyết định.

15


Hình 3.4: Độ chính xác của các mơ hình học máy.

17

Hình 3.5: Xác suất của các mơ hình.

17

Hình 3.6: Kết quả của các chiến lược giao dịch.

20


GIỚI THIỆU

Thị trường tiền ảo đang sôi động hơn bao giờ hết. Các đồng tiền ảo ngày càng
được nhiều người quan tâm, đặc biệt trong số đó là bitcoin. Ở bài báo cáo này, nhóm
chúng em xin phép được trình bày một số vấn đề liên quan về thị trường tiền ảo,
bitcoin và sử dụng học máy vào việc dự đốn giá của nó để có thể cung cấp cho người
đọc những kiến thức tồn diện, bổ ích trong việc nghiên cứu thị trường tiền ảo hoặc
đầu tư.


NỘI DUNG

1.

Tổng quan.

17.1. Bitcoin là gì?

Bitcoin là tiền điện tử có giá trị nhất thế giới được giới thiệu vào năm 2008.
Đồng tiền này được xây dựng trên một nền tảng phi tập trung là một mạng ngang hàng
(peer to peer network) với việc tạo tiền và quản lý giao dịch do các thành viên của
mạng thực hiện, do đó khơng có cơ quan trung ương nào có khả năng kiểm soát
Bitcoin. Tất cả các giao dịch Bitcoin được đăng trong các khối được gọi là Blockchain
và được xác minh bởi người giao dịch bằng cách sử dụng bằng chứng mật mã, việc
xác minh này diễn ra trong một hệ thống không tin cậy và không yêu cầu trung gian để
chuyển tiền từ người gửi sang người nhận. Bitcoin được giao dịch trên 40 sàn giao
dịch trên toàn thế giới chấp nhận hơn 30 loại tiền tệ khác nhau và có giá trị vốn hóa thị
trường hiện tại là 9 tỷ đô la. Mối quan tâm đến Bitcoin đã tăng lên đáng kể với hơn
250.000 giao dịch hiện diễn ra mỗi ngày.
Ngoài việc các cá nhân sử dụng Bitcoin thường xuyên, sự thiếu tương quan của
nó với các tài sản khác đã khiến nó trở thành một lựa chọn bảo hiểm rủi ro đối với các
nhà đầu tư. Một số nghiên cứu đã phát hiện ra rằng sự biến động giá của Bitcoin lớn
hơn nhiều so với các loại tiền tệ fiat (trái phiếu do chính phủ phát hành). Điều này
mang lại tiềm năng đáng kể so với các thị trường tài chính trưởng thành.
17.2. Định nghĩa Machine Learning:
Khai thác dữ liệu có thể được định nghĩa là việc trích xuất thơng tin hữu ích
tiềm ẩn, chưa biết trước từ dữ liệu. ML cung cấp cơ sở kỹ thuật cho việc khai thác dữ
liệu. Tập dữ liệu là các biến quan sát được, các biến này có thể chứa một hoặc nhiều
thuộc tính. Nói một cách tổng thể, ML có thể được chia thành hai loại:
● Học có giám sát (Supervised Learning): liên quan đến việc mơ hình hóa tập dữ
liệu dựa trên các cặp (input, outcome) đã biết từ trước. Mỗi trường hợp có thể được
biểu diễn dưới dạng x và y, với x là tập hợp các thuộc tính dự báo độc lập và y là thuộc
tính mục tiêu phụ thuộc. Thuộc tính y có thể liên tục hoặc rời rạc, tuy nhiên điều này
có ảnh hưởng đến mơ hình. Nếu biến mục tiêu là liên tục thì sử dụng mơ hình hồi quy
và nếu biến mục tiêu là rời rạc thì sử dụng mơ hình phân loại


● Học không giám sát (Unsupervised Learning): liên quan đến việc mơ hình hóa

các tập dữ liệu mà khơng có kết quả hoặc thuộc tính nào được biết trước. Mục đích của
các kỹ thuật này là nhóm dữ liệu tương tự thành các cụm hoặc nhóm.
17.3. Thực trạng sử dụng học máy vào tiền điện tử
Định giá tài sản theo kinh nghiệm là một nhánh chính của nghiên cứu tài chính.
Các phương pháp học máy đã được áp dụng ngày càng nhiều trong lĩnh vực này, do
khả năng lựa chọn linh hoạt giữa một số lượng lớn các tính năng tiềm năng và tìm hiểu
các mối quan hệ phức tạp, nhiều chiều giữa các tính năng và mục tiêu. Mặc dù một
nhóm nghiên cứu đáng kể đã xem xét việc định giá cổ phiếu và trái phiếu, mang lại
một số lượng đáng kể các yếu tố dự đoán thị trường tiềm năng, nhưng người ít chú ý
hơn đến dịng tiền điện tử mới định giá. Đặc biệt, khả năng dự đoán ngắn hạn của thị
trường bitcoin vẫn chưa được phân tích một cách tồn diện. Hơn nữa, hầu hết các
nghiên cứu chỉ xem xét các tính năng kỹ thuật và chưa phân tích tầm quan trọng của
tính năng của các mơ hình học máy được sử dụng. Báo cáo này sẽ giải quyết vấn đề
này bằng cách cách phân tích tương đối các mơ hình học máy khác nhau để dự đoán
chuyển động thị trường của loại tiền điện tử có liên quan nhất - bitcoin.
2.

Thị trường tài chính và dự đốn thị trường tài chính.

27.1. Lý thuyết về hiệu quả thị trường.
Giả thuyết hiệu quả thị trường (efficient market hypothesis) là một giả thuyết
của lý thuyết tài chính khẳng định rằng các thị trường tài chính là hiệu quả (efficient),
rằng giá của chứng khốn trên thị trường tài chính, đặc biệt là thị trường chứng khoán,
phản ánh đầy đủ mọi thơng tin đã biết. Do đó khơng thể kiếm được lợi nhuận bằng
cách căn cứ vào các thông tin đã biết hay những hình thái biến động của giá cả trong
quá khứ. Có thể nói một cách ngắn gọn là các nhà đầu tư “khơng thể khơn hơn thị
trường”.
Có ba phiên bản của "lý thuyết thị trường hiệu quả": dạng yếu (weak form),
dạng bán-mạnh (semi-strong form) và dạng mạnh (strong form). Phiên bản weak form
của lý thuyết này cho rằng: giá chứng khốn phản ánh đầy đủ thơng tin đã công bố

trong quá khứ (nghĩa là dựa vào thông tin trong q khứ thì nhà đầu cơ khơng thắng
được thị trường). Phiên bản dạng semi-strong form của lý thuyết cho rằng: giá chứng
khoán đã chịu tác động đầy đủ của thông tin công bố trong quá khứ cũng như thông tin


vừa công bố xong. Nhà đầu cơ không thể dựa vào thông tin trong quá khứ cũng như
thông tin vừa được cơng bố để có thể mua rẻ bán đắt chứng khốn, vì ngay khi thơng
tin được cơng bố, giá chứng khốn đã thay đổi phản ánh đầy đủ thơng tin vừa công bố.
Dạng strong form của lý thuyết này khẳng định mạnh mẽ hơn nữa về tính hiệu
quả của thị trường tài chính, rằng giá của chứng khốn đã phản ánh tất cả thông tin
công bố trong quá khứ, hiện tại, cũng như các thông tin nội bộ (insider). Cơ sở đứng
sau lý thuyết này là: nếu có thơng tin nội bộ, những người biết thông tin nội bộ sẽ mua
bán ngay chứng khoán để thu lợi nhuận, và như vậy giá chứng khoán sẽ thay đổi, đến
khi nào người trong cuộc khơng cịn kiếm lời được nữa.
Các nghiên cứu thực nghiệm đã chứng minh dạng yếu và dạng bán-mạnh
(semi-strong form) của lý thuyết có thể đúng. Có nhiều nghiên cứu chống lại lý thuyết
dạng strong form, rằng dạng strong-form không đúng, rằng thị trường không thể hiệu
quả đến mức đó. Nhiều nghiên cứu chỉ ra nhiều bất hiệu quả (inefficiencies) của thị
trường mà nhà đầu cơ có thể thu được lợi nhuận; ví dụ, chứng minh cho thấy nhà đầu
cơ có thể thắng thị trường nếu mua các cổ phiếu có P/E thấp.
27.2. Dự đốn thị trường tài chính.
Theo Giả thuyết Thị trường Hiệu quả (EMH), các nhà đầu tư khơng thể dự đốn
giá cổ phiếu vì thị trường phản ánh tất cả các thơng tin hiện có. Từ quan điểm này, có
ý kiến cho rằng giá cổ phiếu diễn ra theo phương thức ngẫu nhiên. Ý tưởng này còn
được gọi là Giả thuyết Đi bộ Ngẫu nhiên (RWH). Ngược lại; Từ lâu người ta đã đề
xuất rằng giá cả có thể được dự đốn bằng cách sử dụng các loại kỹ thuật khác nhau,
chủ yếu được phân loại là các mơ hình dự báo chuỗi thời gian. Trên thực tế, khơng có
sự đồng thuận nhất định về việc giả thuyết nào thực sự có nhiều khả năng được tin cậy
hơn. Tuy nhiên, một số lượng lớn các nghiên cứu đã chứng minh bằng thực nghiệm
rằng giá có thể được dự đốn - ít nhất là ở một mức độ nhất định - bằng cách sử dụng

các phương pháp khác nhau. Ví dụ: (Brock, Lakonishok, & LeBaron, 1992) đã điều tra
khả năng dự đoán của chỉ số Trung bình Cơng nghiệp Dow Jones bằng cách sử dụng
hai quy tắc giao dịch kỹ thuật là đường trung bình động và mức phá vỡ phạm vi giao
dịch. Sử dụng hai quy tắc giao dịch này, chúng tạo ra các tín hiệu mua và bán. Kết quả
của họ cung cấp hỗ trợ mạnh mẽ cho các chiến lược kỹ thuật. Đặc biệt là các nghiên
cứu gần đây sử dụng các phương pháp trí tuệ nhân tạo (tính tốn) như mạng nơ-ron
nhân tạo (ANN), máy vectơ hỗ trợ (SVM), thuật toán di truyền (GA), v.v. cho thấy


mức độ kém hiệu quả đáng kể của thị trường hiện nay trên nhiều thị trường. khả năng
dự đoán của giá cả là khả thi.
Dự báo trong chuỗi thời gian tài chính (Forecasting in the financial time series)
về cơ bản là dự đoán hành vi của một bước đi trước chuỗi với sự trợ giúp của các biến
số khác nhau. Trong thực tiễn tài chính, các nỗ lực dự đốn / dự báo giá cổ phiếu
thường thuộc một trong hai loại là phân tích cơ bản và phân tích kỹ thuật. Các kỹ thuật
từ cả hai loại cũng được các nhà dự báo sử dụng đồng thời để cải thiện khả năng dự
báo. Hơn nữa, đã có rất nhiều mơ hình dự báo chuỗi thời gian có tính chất thống kê sử
dụng các biến số từ phân tích cơ bản và kỹ thuật do các học giả đề xuất. Ngày càng có
nhiều bài báo sử dụng kỹ thuật trí tuệ nhân tạo thuần túy hoặc kết hợp với các kỹ thuật
thống kê khác. Một trong những loại được ưa chuộng nhất và cũng được sử dụng rộng
rãi trong ngành là ANN.
Khi sử dụng ANN trong dự đoán, việc lựa chọn các biến đầu vào để dự báo
cũng quan trọng như cấu trúc liên kết của ANN. Nó đã được chỉ ra rằng cùng một mơ
hình có thể tạo ra các kết quả khác nhau đáng kể khi được cung cấp với các đầu vào
(các biến độc lập) khác nhau. Một mục đích chính khác của tổng quan này là kiểm tra
các nghiên cứu sử dụng độ chính xác dự đốn định hướng hoặc khả năng sinh lời của
mơ hình làm tiêu chuẩn vì theo quan điểm thực tế, đây là mục tiêu chính của dự đốn
chuỗi thời gian tài chính.
27.3. Hiệu quả thị trường bitcoin.
Một số phát hiện trong các tài liệu tài chính 18 , 19 , 20 , 21 chỉ ra rằng bitcoin

có thể tạo thành một loại tài sản mới. Do đó, những phát hiện liên quan đến hiệu quả
hình thức yếu của các thị trường tài chính khác có thể khơng phù hợp với thị trường
bitcoin. Một số nhà nghiên cứu kiểm tra mức độ hiệu quả của thị trường bitcoin bằng
cách sử dụng các khoảng thời gian khác nhau.
Đầu tiên, Urquhart 22 điều tra chuỗi thời gian của giá bitcoin hàng ngày (tháng
8 năm 2010 đến tháng 7 năm 2016). Ông nhận thấy rằng thị trường bitcoin thậm chí
khơng phải là dạng yếu kém hiệu quả. Tuy nhiên, chia nhỏ thời gian nghiên cứu cho
thấy thị trường bitcoin ngày càng trở nên hiệu quả theo thời gian.
Xem lại dữ liệu này, Nadarajah và Chu 23nhận thấy rằng sự chuyển đổi sức
mạnh của lợi nhuận bitcoin đã sử dụng thỏa mãn giả thuyết thị trường hiệu quả dạng


yếu. Tương tự, Bariviera 24 kiểm tra giá bitcoin hàng ngày (từ tháng 8 năm 2011 đến
tháng 2 năm 2017) và cho thấy rằng thị trường bitcoin không phải là dạng yếu hiệu
quả trước năm 2014, nhưng trở thành dạng yếu hiệu quả sau năm 2014.
Vidal-Tomás và Ibañez tiếp cận câu hỏi về hiệu quả thị trường bitcoin dạng bán
mạnh từ góc độ nghiên cứu sự kiện . 26 Với dữ liệu về tin tức liên quan đến chính sách
tiền tệ và bitcoin (từ tháng 9 năm 2011 đến tháng 12 năm 2017), chúng cho thấy thị
trường bitcoin không phản ứng với những thay đổi chính sách tiền tệ nhưng ngày càng
trở nên hiệu quả hơn liên quan đến các sự kiện liên quan đến bitcoin.
Kiểm tra giả thuyết thị trường thích ứng, Khuntia và Pattanayak 27 phân tích
giá bitcoin hàng ngày (từ tháng 7 năm 2010 đến tháng 12 năm 2017), tìm ra bằng
chứng cho mức độ phát triển của hiệu quả thị trường dạng yếu. Họ kết luận rằng phát
hiện này tạo thành bằng chứng cho thấy giả thuyết thị trường thích ứng được áp dụng
cho thị trường bitcoin.
Tóm lại, có nhiều bằng chứng trái chiều giữa các học giả về hiệu quả của thị
trường bitcoin. Tuy nhiên, hầu hết các nhà nghiên cứu nhận thấy rằng thị trường
bitcoin đã trở nên hiệu quả hơn trong những năm qua. Mức độ hiệu quả ngày càng
tăng của thị trường có vẻ trực quan, vì thị trường bitcoin đã phát triển nhanh chóng kể
từ khi thành lập và do đó, ngày càng trở nên cạnh tranh.

3.

Dự đoán thị trường bitcoin thông qua học máy.

37.1. Phương pháp luận.
37.2. Mục tiêu.
Mục tiêu đạt được sẽ là kết quả lợi tức dự đoán trong vào m phút tiếp theo với
m ∈{1, 5, 15, 60}.
Trong thực tế việc dự đốn được chính xác con số là khó khăn, vì vậy model
của chúng ta sẽ hướng tới việc dự đoán giá trị lợi tức lớn hơn hoặc nhỏ hơn một giá trị
median của data train theo công thức:


37.3. Dữ liệu thu thập.
Ta sẽ sử dụng data từ Bloomberg, Twitter và Blockchain.com:
● Bloomberg: Bloomberg sẽ cung cấp dữ liệu theo phút về giá của bitcoin, vàng,
dầu mỏ và tỷ suất lợi nhuận của các chỉ số MSCI Worldv, S&P 500 và VIX, … Ngồi
ra cịn có tỷ giá tiền tệ và biến động giá bitcoin trong 1 khoảng thời gian.
● Twitter: cung cấp sentiment data từ các bài tweets nói về chủ đề bitcoin trên
twitter.
● Blockchain.com: Từ Blockchain.com, chúng ta sẽ thu được data theo phút sự
tăng trưởng của các giao dịch bitcoin và sự tăng trưởng của mempool( các giao dịch
bitcoin chưa được xác thực).
37.4. Phần mềm, phần cứng sử dụng.
Python 3.7 đã được sử dụng rất phổ biến với việc phân tích dữ liệu với việc sử
dụng các gói pandas và numpy. Với Twitter chúng ta sử dụng thư viện NTLK và
google natural language API để phân tích sentiment.
Ngồi ra, thư viện keras44 trên phần phụ trợ tensorflow45 cũng được sử dụng
để xây dựng mạng cấp dữ liệu, LSTM và GRU. Xây dựng các bộ phân loại tăng cường
độ dốc với xgboost46 và rừng ngẫu nhiên cũng như các mơ hình hồi quy hậu cần bằng

cách sử dụng scikit-learning.
37.5. Các features sử dụng.
Từ các nguồn data chúng ta sẽ tính tốn các features được cập nhật theo từng
phút.
Technical
Bitcoin returns
Asset-based
MSCI World returns

Crude Oil WTI returns

SP 500 returns

EUR/USD returns

VIX returns

CNY/USD returns


Gold returns

JPY/USD returns

Blockchain-based
Number of Bitcoin

Mempool growth

Transactions

Sentiment-/interest-based
Twitter sentiment

Number of tweets

Twitter sentiment
Weighted with
Strength of emotion

Giá trị return là tỷ suất lợi nhuận được tính theo cơng thức sau:

Ngồi ra các giá trị sentiment, interest được sinh ra từ dữ liệu từ twitter. Ở đây
chúng ta sẽ chuẩn hóa lại các bài tweets và chọn những bài khơng chứa hình ảnh và
URLs, và thay thế các từ ngữ về dạng chung để máy dễ nhận dạng, đầu tiên sẽ là xóa
usernames, những ký tự khơng đọc được, và khoảng trống thừa. Sau đó sẽ thay thế
những cụm đồng nghĩa ( ví dụ như isn’t bằng is not hay bought với buy). Cuối cùng sẽ
đưa dữ liệu sau chuẩn hóa vào Google Natural Language API để xử lý tính tốn
sentiment của từng bài viết. Từng phút chúng ta sẽ tính tốn số lượng bài viết,
sentiment và strength of emotion từng bài tweet.
73.5.1.Features cho model sử dụng memory function.
Với những model sử dụng memories function như LTSM và GRU. Chúng ta sẽ
sẽ sử dụng dữ liệu dạng time series. Mỗi time series sẽ dài 120 phút và một times steps
sẽ là 15 features (1 feature bên trên và 1 feature thứ 15 tính giá trị lợi tức long-term


của bitcoin trong 1 tuần trước sử dụng công thức 1). Kết luận, input của memory
models sẽ là 15 timeseries ứng với 15 features trong 120 phút.
73.5.2.Features cho model không sử dụng memory function.
Ở model không sử dụng memory function như FNN, RF và lR. Input sẽ không
thể đưa theo timeseries như trên, vì vậy chúng ta sẽ tổng hợp kết quả trong 120p để

đưa vào model. Ở đây, chúng ta sẽ tập hợp theo các khoảng thời gian để tổng hợp các
kết quả của features: j ∈{(0, 1], (1, 2], ( 2, 3], ( 3, 4], ( 4, 5], ( 5, 10], ( 10, 20], ( 20,
40], ( 40, 60], ( 60, 80], ( 80, 100], ( 100, 120]}. Với tiến trình tổng hợp, chúng ta sẽ sử
dụng cơng thức lợi tức để tính tốn kết quả trong từng khoảng thời gian. Với 12
khoảng thời gian, thực tế số lượng features chúng ta đưa vào model sẽ là 14x12 +1 =
160 features khác nhau.
37.6. Các Model sử dụng.
Mục đích của báo cáo này là để dự đoán hướng đi của giá Bitcoin. Vì đây là
một tác vụ với một mục tiêu đã biết nên nó là một tác vụ học máy có giám sát mặc dù
một số q trình xử lý trước có thể tận dụng các phương pháp học khơng được giám
sát. Các thuật tốn bao gồm, một số loại mạng nơ-ron nhân tạo bao gồm Multilayer
Perceptron ,Elman Recurrent Neural Network (RNN) và Long Short Term Memory
(LSTM), GRU, LR, GBC , RF.
Model
GRU

Parameter Tuning Grid
Number of memory blocks: {64, 128, 256∗, 512}

LSTM Number of memory blocks: {64, 128, 256∗, 512}
FNN

Hidden layer structure: {(512), (512–256), (512-256-128),
(512-256-128-64), (512-256-128-64-32)∗, (512-256-128-64-32-16)}

LR



GBC


Maximum tree depth: {1∗, 2, 6, 10, 15, 20, None}

RF

Minimum fraction of instances per leaf: {1%, 5%, 10%, 20%∗,


30%}
73.6.1.Nerual Networks.
Neural Network (Mạng nơ-ron nhân tạo), đây là một chuỗi những thuật tốn
được đưa ra để tìm kiếm các mối quan hệ cơ bản trong tập hợp các dữ liệu. Thông qua
việc bắt bước cách thức hoạt động từ não bộ con người.
Nói cách khác, mạng nơ ron nhân tạo được xem là hệ thống của các tế bào thần
kinh nhân tạo. Đây thường có thể là hữu cơ hoặc nhân tạo về bản chất.
Neural Network có khả năng thích ứng được với mọi thay đổi từ đầu vào. Do
vậy, nó có thể đưa ra được mọi kết quả một cách tốt nhất có thể mà bạn khơng cần
phải thiết kế lại những tiêu chí đầu ra. Ở trong bài này chúng ta sẽ dùng 3 thuật toán
dựa trên mạng nơ-ron đó là LTSM, GRU và FNN, …
73.6.2.Mạng nơ-ron truyền thẳng.
FNN trong bài này sẽ dùng model 160 features đầu vào như tính tốn bên trên.
Cấu trúc của mạng FNN bao gồm 3 loại layers chính:
● Input Layer: Thu thâp thông tin đầu vào
● Hidden Layer: Rất nhiều các layer ẩn, dữ liệu sẽ được chạy qua các layer giúp
mạng có thể học được từ data qua từng layer.
● Output Layer: Xác định phân loại cuối cùng của mạng
Trạng thái hoạt động của layer n được tính theo cơng thức sau:

Trong đó:
● a: output của layer thứ n.

● g: hàm kích hoạt của layer thứ n
● w: ma trận trọng số kết nối giữa 2 layer.
● b: tham số của layer n.


Hình 3.1: Sơ đồ mạng nơ-ron của FNN.
73.6.3.LSTM và GRU
LTSM và GRU là một phiên bản mở rộng của RNN được thiết kế để giải quyết
các bài toán phụ thuộc xa (long-term dependencies) trong mạng RNN do ảnh hưởng
bởi vấn đề gradient biến mất.

Hình 3.2: Sơ đồ mạng LTSM.
Mạng LSTM có thể bao gồm nhiều tế bào LSTM (LSTM memory cell) liên kết
với nhau. Ý tưởng của LTSM là bổ sung thêm trạng thái bên trong tế bào (cell internal
state) và ba cổng sàng lọc các thông tin đầu vào và đầu ra cho tế bào.
● Forget gate: loại bỏ những thông tin không cần thiết nhận được khỏi cell
internal state.


● Input gate: chọn lọc những thông tin cần thiết nào được thêm vảo cell internal
state.
● Output gate: xác định những thông tin nào từ cell internal state được sử dụng
như đầu ra.
Output của LTSM được biểu diễn như sau:

Trong đó:
● g là hàm kích hoạt tại thời điểm t.


73.6.4.Tree-based models.

Tree-based model sử dụng cây quyết định (decision tree) xây dựng cho máy
học.
73.6.5.Random forest.
Thuật toán Random Forest chúng ta sẽ xây dựng nhiều cây quyết định bằng
thuật toán Decision Tree, tuy nhiên mỗi cây quyết định sẽ khác nhau (có yếu tố
random). Sau đó kết quả dự đốn được tổng hợp từ các cây quyết định.
Ở bước training thì chúng ta sẽ xây dựng nhiều cây quyết định, các cây quyết
định có thể khác nhau (phần sau mình sẽ nói mỗi cây được xây dựng như thế nào):


Hình 3.3: Minh họa cây quyết định.

73.6.6.Gradient boosting classifier.
Tương tự random forest, gbc cũng sử dụng nhiều cây quyết định thêm vào đó
nó cũng train trọng số weights của từng model. Với cách này, output cũng sẽ phân loại
tốt hơn ở model cuối cùng.
37.7. Đánh giá.
Các mơ hình dự đốn được đánh giá và phân tích về các khía cạnh khác nhau.
Đầu tiên, so sánh các mơ hình ở mức độ dự đốn. Thứ hai, phân tích và so sánh tầm
quan trọng của tính năng cho từng mơ hình và mục tiêu dự đoán. Thứ ba, kiểm tra các
tác động kinh tế của các dự đoán thị trường bitcoin của chúng tôi bằng cách sử dụng
chiến lược danh mục đầu tư dài hạn.
73.7.1.Đánh giá dự báo.
So sánh dự đoán của các mơ hình dự đốn dựa trên độ chính xác của dự đốn
trên bộ thử nghiệm.
73.7.2.Đánh giá tính năng.
Mức độ quan trọng của tính năng đối với tất cả các mơ hình được xác định bằng
thước đo mức độ quan trọng của tính năng hốn vị. Điều này đảm bảo khả năng so
sánh giữa các điểm số quan trọng thu được trên tất cả các mơ hình. Ta hốn vị ngẫu
nhiên mọi vectơ đặc trưng với một vectơ tiêu chuẩn ngẫu nhiên được phân phối chuẩn



và tính tốn sự giảm độ chính xác của dự đoán, mà ta coi là tầm quan trọng của đối
tượng. Độ chính xác của dự đốn giảm cao có nghĩa là mơ hình phụ thuộc nhiều vào
tính năng cho các dự đốn của nó. Để giảm tác động của tính ngẫu nhiên lên kết quả,
ta tính trung bình mức độ quan trọng của tính năng hốn vị trên một tập hợp gồm 10
hạt ngẫu nhiên khác nhau, s∈ {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}. Trong trường hợp hiếm hoi
mà hoán vị ngẫu nhiên làm tăng độ chính xác của dự đốn, ta đặt tầm quan trọng của
tính năng này bằng 0. Đối với các mơ hình dự đốn ngẫu nhiên, ta tính tốn tầm quan
trọng đặc điểm cho mọi hạt giống mơ hình (tức là dựa trên 10 hạt giống có tầm quan
trọng đặc trưng trên mỗi hạt mơ hình) và tính trung bình kết quả trên tất cả các hạt
giống mơ hình.
73.7.3.Chiến lược giao dịch.
Phân tích các tác động kinh tế của các dự đốn thị trường bitcoin bằng cách thử
nghiệm một chiến lược giao dịch đơn giản. Để ước tính một chiến lược giao dịch trước
đây, ta tính tốn 99% các mẫu số của tất cả các xác suất của các lớp từ các dự đốn của
tập huấn luyện. Ví dụ: nếu xác suất dự đoán trong bộ thử nghiệm cho Lớp 1 cao hơn
xác suất ngưỡng tương ứng thì chọn một vị trí dài. Ngược lại, chúng tơi có một vị trí
bán khống, nếu xác suất dự đoán của Lớp 0 cao hơn xác suất ngưỡng tương ứng.
37.8. Kết quả.
73.8.1.Dự đốn chính xác.


Hình 3.4: Độ chính xác của các mơ hình học máy.

Hình 3.5: Xác suất của các mơ hình.
Khi so sánh các dự đốn của mơ hình dựa trên điểm số chính xác, được trình
bày trong bảng trên, ta nhận thấy rằng độ chính xác dự đốn của tất cả các mơ hình đã
thử nghiệm đều trên ngưỡng 50%. Hơn nữa, tất cả các mơ hình có xác suất nhỏ hơn
3.08E-09 cho độ chính xác thực là 50%



Do đó, việc sử dụng nhiều random seed làm tăng tính ổn định trong các dự đốn
của các mơ hình dự đoán ngẫu nhiên. Thứ hai, ta nhận thấy rằng độ chính xác dự đốn
trung bình tăng lên đối với các khoảng thời gian dự đoán dài hơn. Thứ ba, chúng tôi
thấy rằng RNN(Mạng nơ ron hồi quy) hoặc GBC tạo thành các phương pháp hoạt
động tốt nhất trên tất cả các lĩnh vực dự đoán. Cụ thể, LSTM(1 ứng dụng của RNN)
hoạt động tốt nhất trong khoảng thời gian dự đốn 1 phút vì có phần lưu lại dữ liệu ở
memory shell nên dự đoán theo thời gian sẽ tốt hơn. Trên horizon 5 phút, mơ hình
GBC - theo cây quyết định cho thấy độ chính xác dự đốn cao nhất, mang lại dự báo
chính xác hơn đáng kể so với tất cả các mơ hình cịn lại. Mơ hình tổng hợp là phương
pháp chính xác nhất trong khoảng thời gian dự đốn 15 phút, nhưng khơng tạo ra các
dự đốn chính xác hơn đáng kể so với các mơ hình GRU và GBC. Mơ hình LSTM đưa
ra các dự đốn chính xác nhất trong khoảng thời gian 60 phút, chính xác hơn đáng kể
so với các dự đốn của tất cả các mơ hình khác.
Tóm lại, trung bình các mơ hình RNN và GBC cung cấp các dự đốn chính xác hơn
cho bitcoin thị trường so với các mơ hình khác. Cả hai RNN đều hiển thị độ chính xác
dự đốn có thể so sánh được. Trong khoảng thời gian dự đốn 1 phút và 5 phút, độ
chính xác dự đốn của GRU và LSTM khơng có sự khác biệt đáng kể, trong khi GRU
đưa ra dự đoán chính xác hơn trong khoảng thời gian 15 phút và LSTM đưa ra dự đốn
chính xác hơn về 60 -phút horizon. Tương tự, độ chính xác dự đốn của các mơ hình
dựa trên cây (tức là GBC và RF) chỉ khác biệt đáng kể trên đường horizon dự đoán 5
phút, trong đó GBC đưa ra các dự báo chính xác hơn.
73.8.2.Tầm quan trọng của tính năng.
Tính năng nổi bật quan trọng nhất RNN là chuỗi thời gian lợi tức bitcoin tối
thiểu được trả theo từng phút. Tầm quan trọng tương đối của tính năng này giảm đối
với các horizon dự đoán từ khoảng 80% (horizon 1 phút) xuống dưới 50% (horizon 60
phút). Rõ ràng rằng, đối với các khoảng thời gian dài hơn, chuỗi thời gian bổ sung bên
cạnh lợi nhuận bitcoin tối thiểu ngày càng phù hợp với RNN. Trong số đó bao gồm số
lượng giao dịch mỗi giây, số lượng Tweet, số bitcoin thu về hàng tuần và điểm số tình

cảm có trọng số.
Phân tích tiếp theo của các mơ hình khơng có chức năng bộ nhớ cung cấp thêm
hiểu biết về sự phân bố theo thời gian của tầm quan trọng của tính năng. Mặc dù tính
năng quan trọng nhất đối với GBC và RF luôn liên quan đến lợi nhuận bitcoin, nhưng


đối với tầm nhìn dự đốn mở rộng hơn, lợi nhuận bitcoin ít gần đây trở nên quan trọng
hơn. Trong khoảng thời gian 1 phút, lợi nhuận nhỏ nhất gần đây nhất có liên quan
nhất, trong khi ở horizon 5 phút, bitcoin quay trở lại trong khoảng thời gian từ 10 đến
5 phút trước khi điểm dự đoán tạo thành tính năng quan trọng nhất. Theo đó, đối với
các mơ hình này, bitcoin trả về từ 20 đến 10 phút trước khi dự đoán quan trọng nhất
trong khoảng thời gian 15 phút và bitcoin quay trở lại từ 40 đến 20 phút trước khi dự
đốn tạo thành tính năng quan trọng nhất trong khoảng thời gian 60 phút.
Tương tự như phát hiện đối với RNN, đối với các đường horizon dự đốn dài
hơn, tầm quan trọng tương đối của tính năng chiếm ưu thế giảm đối với GBC (đường
horizon 60 phút: 70%, đường horizon 1 phút: 30%) và RF (đường horizon 60 phút:
45%, đường horizon 1 phút: 30%). Bên cạnh các tính năng kỹ thuật, các tính năng chủ
yếu dựa trên blockchain (ví dụ: giao dịch mỗi giây, tăng trưởng kích thước mempool),
cũng như các tính năng dựa trên tình cảm / sở thích (ví dụ: số lượng Tweet) vẫn quan
trọng đối với các mơ hình dựa trên cây. So với GBC và RF, đối với FNN và LR, tầm
quan trọng của đặc điểm được phân bổ dọc theo một số đặc điểm, điều này có thể được
giải thích bằng tham số hóa khá nơng của các mơ hình dựa trên cây.
73.8.3.Chiến lược giao dịch.


Hình 3.6: Kết quả của các chiến lược giao dịch.
Hai hình trên liệt kê các kết quả của chiến lược giao dịch dựa trên định lượng
trước chi phí giao dịch. Trong khi đó, chiến lược mua và giữ mang lại lợi nhuận là
-0,2958 trong khoảng thời gian đặt thử nghiệm. Vì xác suất của lớp ngưỡng được tính
tốn dựa trên các dự đoán trên tập huấn luyện, nên số lượng giao dịch khác nhau giữa

các phương pháp và phạm vi dự đốn. Bảng trình bày xác suất phân loại ngưỡng chính
xác cho các mơ hình và đường horizon dự đốn khác nhau. Kết quả của chiến lược
giao dịch mang lại ba hiểu biết chính. Đầu tiên, có một sự khác biệt khá lớn về kết quả
giao dịch giữa các mô hình dự đốn khác nhau. Độ chính xác của mơ hình dự đốn cao
hơn khơng nhất thiết chuyển thành kết quả giao dịch tốt hơn. Ngoài ra, dựa trên chiến
lược giao dịch, chỉ có một tỷ lệ khá nhỏ các quan sát được giao dịch, điều này có thể
làm tăng phương sai.
Lợi nhuận giao dịch dựa trên mơ hình tổng hợp nói chung là tích cực và gần mức
trung bình của lợi nhuận giao dịch của các mơ hình riêng lẻ, điều này cho thấy rằng
việc kết hợp các dự đốn của các mơ hình dự đốn riêng lẻ có thể làm giảm phương sai
trong kết quả giao dịch. Thứ hai, lợi nhuận trung bình trên mỗi giao dịch có xu hướng
tăng lên với thời gian dự đoán dài hơn. Thứ ba, xem xét chi phí giao dịch là 30 bps
mỗi chuyến khứ hồi, hiệu suất giao dịch trở nên tiêu cực đối với tất cả các phương
pháp. Những lợi nhuận âm này có thể được giải thích bởi các horizon dự đốn ngắn
hạn của mơ hình. Dựa trên chi phí giao dịch, việc thực hiện 1000 giao dịch sẽ gây ra
chi phí giao dịch là 300%.


4.

Kết luận.

Tóm lại, Các mơ hình học máy có thể dự đoán các chuyển động ngắn hạn của
thị trường bitcoin . Độ chính xác của dự đốn khoảng hơn 50% cho thấy khả năng dự
đốn thị trường bitcoin có phần hạn chế. Khả năng dự đoán thị trường bitcoin hạn chế
có thể so sánh với những phát hiện liên quan đến khả năng dự đoán thị trường của các
tài sản tài chính khác, chẳng hạn như cổ phiếu.
Thơng qua việc phân tích khả năng dự đốn ngắn hạn của bitcoin trên thị
trường, tận dụng các mơ hình học máy khác nhau trên bốn horizon dự đốn khác nhau.
Có thể nhận thấy rằng tất cả các mơ hình được thử nghiệm đều đưa ra các dự đoán khả

thi về mặt thống kê. Các mơ hình có thể dự đốn chuyển động thị trường nhị phân với
độ chính xác từ 50,9% đến 56,0%, theo đó độ chính xác dự đốn có xu hướng tăng lên
đối với các khoảng thời gian dự báo dài hơn. Ta có thể xác định rằng các mạng nơ-ron
đặc biệt là mạng tái phát, cũng như các bộ phân loại tăng cường độ dốc, rất phù hợp
cho nhiệm vụ dự đốn này. So sánh các nhóm tính năng của các tính năng dựa trên kỹ
thuật, dựa trên blockchain, dựa trên tình cảm / sở thích và dựa trên tài sản cho thấy
rằng, đối với hầu hết các phương pháp, các tính năng kỹ thuật vẫn ln quan trọng.
Đối với các phạm vi dự đoán dài hơn, tầm quan trọng tương đối dường như trải rộng
trên nhiều tính năng (ví dụ: giao dịch mỗi giây, tình cảm có trọng số), theo đó các tính
năng kỹ thuật ít gần đây ngày càng trở nên phù hợp. Chiến lược giao dịch dựa trên
lượng tử dựa trên các dự đoán của thị trường mang lại lợi nhuận lên tới 116% trong ba
tháng trước khi chi phí giao dịch. Tuy nhiên, do thời gian nắm giữ đặc biệt ngắn và các
hoạt động giao dịch thường xuyên tương ứng, những khoản lợi nhuận này khơng thể
bù đắp cho việc phát sinh chi phí giao dịch.


KẾT LUẬN

Bài báo cáo trên đây nhóm em đã trình bày chi tiết một số vấn đề liên quan đến
việc sử dụng học máy để dự đoán giá của đồng tiền ảo bitcoin. Nhóm chúng em hi
vọng nó có thể đem đến cho người đọc những cái nhìn tồn diện và mới mẻ, hữu ích
trong việc nghiên cứu cũng như đầu tư tiền ảo.
Nhóm chúng em cũng xin chân thành cảm ơn thầy đã cho chúng em cơ hội
được nghiên cứu và tìm hiểu đề tài thú vị này. Bài báo cáo có thể cịn nhiều chỗ thiếu
sót do kiến thức hạn hẹp, vì vậy nhóm chúng em rất mong nhận được sự góp ý từ thầy
để nhóm chúng em có thể hồn thiện hơn nữa.


8


TÀI LIỆU THAM KHẢO


×