Tải bản đầy đủ (.pdf) (45 trang)

Nghiên cứu ứng dụng công cụ khai phá dữ liệu trong bài toán về giao dịch tỷ giá

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.61 MB, 45 trang )

TRƢỜNG ĐẠI HỌC THƢƠNG MẠI
BỘ MÔN TIN HỌC


ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP
TRƢỜNG
NGHIÊN CỨU ỨNG DỤNG CÔNG CỤ KHAI PHÁ DỮ
LIỆU TRONG BÀI TOÁN VỀ GIAO DỊCH TỶ GIÁ

Ngƣời thực hiện: TS. Nguyễn Thị Thu Thủy
HÀ NỘI – 2018


MỤC LỤC
MỤC LỤC .................................................................................................................................. 2
DANH MỤC HÌNH VẼ ............................................................................................................ 3
CHƢƠNG 1: TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU. ........................................................... 5
1.1. Tính cấp thiết của đề tài. .................................................................................................. 5
1.2. Tổng quan vấn đề nghiên cứu. ......................................................................................... 5
1.3. Mục tiêu cụ thể đặt ra cần giải quyết trong đề tài. ........................................................... 6
1.4. Đối tƣợng và phạm vi nghiên cứu đề tài ......................................................................... 7
1.5. Phƣơng pháp thực hiện đề tài. ......................................................................................... 8
1.6. Bố cục của đề tài. ............................................................................................................. 8
Chƣơng 2: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN GIAO DỊCH NGOẠI
HỐI ........................................................................................................................................... 10
2.1 Một số khái niệm cơ bản ................................................................................................. 10
2.1.1 Các khái niệm về khai phá dữ liệu ........................................................................... 10
2.1.2 Các khái niệm liên quan đến giao dịch ngoại hối .................................................... 16
2.2. Một số công cụ khai phá dữ liệu .................................................................................... 18
2.2.1. Cơng cụ học có giám sát ......................................................................................... 18
2.2.2. Cơng cụ học khơng giám sát ................................................................................... 24


2.3. Bài tốn giao dịch ngoại hối .......................................................................................... 25
CHƢƠNG 3: ĐỀ XUẤT MƠ HÌNH KHAI PHÁ DỮ LIỆU TRONG BÀI TOÁN GIAO
DỊCH TỶ GIÁ .......................................................................................................................... 26
3.1. Mơ hình khai phá dữ liệu trong bài toán giao dịch tỷ giá .............................................. 26
3.2 Thu thập và xử lý dữ liệu ................................................................................................ 27
3.2.1. Thu thập và tiền xử lý dữ liệu ................................................................................. 27
3.2.2. Phân chia tập huấn luyện ......................................................................................... 28
3.3. Kết quả thực nghiệm ...................................................................................................... 30
3.3.1. Data ......................................................................................................................... 30
3.3.2. Sử dụng phƣơng pháp SVM ................................................................................... 32
3.3.3. Sử dụng phƣơng pháp Cây quyết định J48 ............................................................. 35
3.3. Thảo luận ....................................................................................................................... 41
KẾT LUẬN VÀ KIẾN NGHỊ .................................................................................................. 43
Kết luận .................................................................................................................................... 43
Một số kiến nghị...................................................................................................................... 43
2


DANH MỤC HÌNH VẼ
Hình 1: Các lĩnh vực liên quan của khai phá dữ liệu............................................................... 11
Hình 2: Quy trình khai phá dữ liệu .......................................................................................... 11
Hình 3: Cấp độ hỗ trợ việc ra quyết định kinh doanh và ngƣời thực hiện. .............................. 14
Hình 4: Lịch hoạt động của các trung tâm giao dịch ngoại hối .............................................. 17
Hình 5: Mơ hình của học giám sát ........................................................................................... 20
Hình 6: Cây quyết định của tập dữ liệu huấn luyện ở Bảng 1 ................................................. 22
Hình 7: Ví dụ về mơ hình SVM .............................................................................................. 23
Hình 8: Mơ hình học có giám sát khai phá dữ liệu của bài tốn giao dịch tỷ giá.................... 26
Hình 9: Đồ thị hàm biến đổi giá trị

thành


.............................................................. 28

Hình 10: Biến động của tỷ giá USD/VND trong khoảng thời gian 1 năm .............................. 30
Hình 11: Thống kê dữ liệu output ............................................................................................ 31
Hình 12:: Phân bố của tỉ giá Close tại các thời điểm. .............................................................. 31
Hình 13: Phân bố của giao dịch Close...................................................................................... 32
Hình 14: Mơ hình sử dụng ....................................................................................................... 33
Hình 15: Đồ thị lỗi của mơ hình dự báo SVM ......................................................................... 35
Hình 16: 1 dòng giao dịch bị dự báo sai .................................................................................. 35
Hình 17: Mơ hình khung cơng việc J48 ................................................................................... 37
Hình 18: Độ chính xác của Kỹ thuật SVM và DT.................................................................... 42

3


LỜI MỞ ĐẦU
Ngày nay, với sự phát triển mạnh mẽ của khoa học kỹ thuật, các thế hệ máy tính
đã trở nên mạnh mẽ hơn, khả năng tính tốn và xử lí thơng tin ngày càng nhanh hơn.
Bên cạnh sự phát triển của khoa học kỹ thuật là sự bùng nổ thơng tin dẫn tới lƣợng dữ
liệu có thể thu thập đƣợc ngày càng lớn. Không thể phủ nhận khả năng đặc biệt của
con ngƣời trong việc phân tích thơng tin để rút ra tri thức, kinh nghiệm cho mình. Tuy
nhiên, con ngƣời cần những cơng cụ hỗ trợ có thể tự động phân tích, khai thác thơng
tin để có thể tìm ra những tri thức trong đó, từ đó có thể ra quyết định tự động hoặc hỗ
trợ con ngƣời trong việc ra quyết định.
Trong giao dịch ngoại hối, việc dự báo đƣợc xu hƣớng tỷ giá của từng cặp ngoại
hối mà mình sẽ giao dịch là rất quan trọng. Việc dự báo này sẽ giúp nhà đầu tƣ đƣa ra
đƣợc chiến lƣợc giao dịch phù hợp, tăng khả năng mang lại lợi nhuận và hạn chế thấp
nhất nguy cơ rủi ro có thể xảy ra. Tỷ giá của mỗi cặp tiền tệ thay đổi theo thời gian và
hoàn tồn có thể thu thập, lƣu trữ lại thơng qua lịch sử giá. Việc phân tích dự báo xu

hƣớng tỷ giá của mỗi cặp ngoại hối trong tƣơng lai thƣờng sẽ dựa vào chính những bộ
dữ liệu quá khứ này. Việc giao dịch thủ cơng thƣờng có nhiều hạn chế nhƣ: hạn chế về
độ chính xác, hạn chế về thời gian theo dõi … Việc ứng dụng các mơ hình giao dịch sẽ
có nhiều ƣu thế hơn: đó là khả năng xử lý chính xác, kịp thời, khả năng giám sát liên
tục và không bị ảnh hƣởng bởi yếu tố tâm lý.
Nhìn chung, hƣớng tiếp cận cho bài tốn dự báo xu hƣớng tỷ giá ngoại hối là xây
dựng một mơ hình học có giám sát, huấn luyện bằng dữ liệu quá khứ và áp dụng để dự
báo xu hƣớng trong tƣơng lai. Các cơng trình đã nghiên cứu trên thế giới chủ yếu dừng
ở việc công bố kết quả nghiên cứu, cịn tại Việt Nam, các cơng trình nghiên cứu về dự
báo xu hƣớng ngoại hối cũng chƣa có nhiều, đặc biệt là việc áp dụng vào thực tế. Từ
những tìm hiểu trên, có thể thấy việc nghiên cứu một số mơ hình học máy cho việc
phân tích xu hƣớng ngắn hạn của tỷ giá các cặp ngoại hối và áp dụng vào thực tế với
việc cài đặt cho robot giao dịch ngoại hối tự động là một đề tài thực sự có ý nghĩa cho
đời sống kinh tế và xã hội.

4


CHƢƠNG 1: TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU.
1.1. Tính cấp thiết của đề tài.
Trong giao dịch ngoại hối, việc dự báo đƣợc xu hƣớng tỷ giá của từng cặp ngoại
hối mà nhà đầu tƣ sẽ giao dịch là rất quan trọng. Việc dự báo này sẽ giúp nhà đầu tƣ
đƣa ra đƣợc chiến lƣợc giao dịch phù hợp, tăng khả năng mang lại lợi nhuận và hạn
chế thấp nhất nguy cơ rủi ro có thể xảy ra. Tỷ giá của mỗi cặp tiền tệ thay đổi theo thời
gian và hoàn tồn có thể thu thập, lƣu trữ lại thơng qua lịch sử giá. Việc phân tích dự
báo xu hƣớng tỷ giá của mỗi cặp ngoại hối trong tƣơng lai thƣờng sẽ dựa vào chính
những bộ dữ liệu quá khứ này. Q trình này có thể thực hiện một cách thủ công bằng
kinh nghiệm của ngƣời giao dịch hoặc tự động dùng các công cụ chỉ báo kỹ thuật với
những quy tắc nhất định (cịn gọi là phân tích kỹ thuật). Tuy nhiên việc giao dịch thủ
cơng thƣờng có nhiều hạn chế nhƣ: hạn chế về độ chính xác, hạn chế về thời gian theo

dõi, hoặc bởi tâm lý của ngƣời giao dịch … trong khi việc sử dụng giao dịch tự động
sẽ có nhiều ƣu thế hơn: đó là khả năng xử lý chính xác, kịp thời, khả năng giám sát
liên tục và không bị ảnh hƣởng bởi yếu tố tâm lý. Từ nhu cầu thực tế cho thấy việc xây
dựng và ứng dụng các mơ hình học có giám sát cho robot giao dịch là một hƣớng tiếp
cận khả quan và hứa hẹn sẽ mang lại hiệu quả.
Bắt kịp với các yêu cầu thực tế về nhân lực trong lĩnh vực phân tích dữ liệu và sử
dụng hệ thống thông tin kinh tế, học phần “Khai phá dữ liệu trong kinh doanh” đƣợc
xây dựng phục vụ cho việc đào tạo các em sinh viên chuyên ngành quản trị hệ thống
thông tin ngành hệ thống thông tin quản lý. Học phần đƣợc xây dựng với thời lƣợng là
3 tín chỉ và bao gồm các nội dung liên quan đến khai phá dữ liệu, mà cụ thể hơn là tập
trung nhiều vào các dữ liệu của các bài toán kinh tế. Bài toán giao dịch của tỷ giá trên
thị trƣờng ngoại tệ cũng là một trong số các bài tốn có liên quan nhằm giúp cho các
em có một tài liệu tham khảo trong việc học tập của mình.
Từ nhu cầu thực tế đó, tơi chọn đề tài: “Nghiên cứu ứng dụng cơng cụ khai
phá dữ liệu trong bài tốn về giao dịch tỷ giá” để nghiên cứu.
1.2. Tổng quan vấn đề nghiên cứu.
Thị trƣờng ngoại hối là nơi diễn ra các hoạt động trao đổi ngoại tệ thông qua
quan hệ cung cầu. Việc trao đổi thƣờng bao gồm việc mua một đồng tiền này và đồng
5


thời bán một đồng tiền khác. Nhƣ vậy, các đồng tiền sẽ đƣợc trao đổi từng cặp với
nhau. Đặc thù của thị trƣờng này là ngoại hối sẽ đƣợc giao dịch mua bán qua các ngân
hàng, nhà môi giới, chuyên viên ngoại hối, các tổ chức tài chính và các cá nhân trên
toàn thế giới. Do vậy, ngoại hối đƣợc giao dịch liên tục từ 21 giờ (GMT) chủ nhật tới
21 giờ (GMT) thứ 6 hàng tuần.
Bài toán về giao dịch trên thị trƣờng ngoại hối sẽ đƣợc tập trung giải quyết vào
việc dự báo xu hƣớng theo ngày của tỷ giá quy đổi của các cặp tiền tệ theo chuỗi thời
gian biến động phức tạp để từ đó ra quyết định là giao dịch bán hay mua. Đầu vào của
bài toán là lịch sử tỷ giá trao đổi của các cặp tiền tệ, số liệu về các sự kiện kinh tế đã

xảy ra…. Đầu ra của bài tốn chính là xu hƣớng tăng hay giảm của các cặp tiền tệ cần
xét. Một số lƣợng lớn các thuộc tính từ dữ liệu chuỗi thời gian đƣợc sinh ra từ lịch sử
tỷ giá các cặp tiền tệ nhằm mục đích chọn ra các tập dữ liệu phù hợp cho bài toán phân
lớp. Nhƣ vậy, bài toán giao dịch ngoại hối đƣợc chuyển về bài toán phân lớp nhị phân
và là bài toán dự đoán xu hƣớng tăng hay giảm để hỗ trợ đƣa ra các quyết định giao
dịch (hoạt động mua, bán, chốt lời, dừng lỗ…). Các mơ hình học máy có thể đƣợc sử
dụng vào việc dự đốn xu hƣớng tỷ giá của các cặp tiền tệ.
Piche (1995) sử dụng hình ảnh biểu đồ plot để mơ tả xu hƣớng dịch chuyển các dao
động của tỷ giá với ma trận xu hƣớng. Việc dự báo tỷ giá sử dụng mô hình dự báo chuỗi
thời gian đƣợc biết đến với việc sử dụng phổ biến mơ hình Regressive Integrated
Moving Average (ARIMA) (Box và Jenkin, 1970; Yu, 2002). Thời gian gần đây, mơ
hình dự báo chứng khốn và ngoại hối đƣợc sử dụng phổ biến là GARCH (Wei, 2009).
Ngồi các mơ hình mạng nơron (Haykin, 1999; Chan & Teong, 1995; Woon-Seng &
Kah-Hwa, 1995; Refenes & Azema-Barac, 1992; Joarder & Ruhul, 2003; Zhang &
Kline, 2007; Kotsiantis, 2007) và SVM (Cao and Francis, 2001; Baasher & mohamed,
2010) cũng đƣợc biết đến nhƣ là các mơ hình đƣợc sử dụng để dự báo tỷ giá ngoại hối.
Căn cứ vào những phân tích ở trên, rõ ràng mơ hình học có giám sát đƣợc sử dụng rất
nhiều trong bài toán giao dịch ngoại hối.
1.3. Mục tiêu cụ thể đặt ra cần giải quyết trong đề tài.
Mục tiêu nghiên cứu chính của đề tài là đề xuất mơ hình khai phá dữ liệu để dự báo xu
hƣớng giao dịch của các cặp tiền tệ dựa trên các giao dịch quá khứ, làm tài liệu tham
khảo cho học phần “khai phá dữ liệu tron kinh doanh”, và làm tài liệu học tập cho sinh
viên chuyên ngành quản trị HTTT. Cụ thể là:
6


 Nghiên cứu cụ thể một số mơ hình khai phá dữ liệu trong các mơ hình khai phá
nói chung
 Tập trung nghiên cứu bài toán về giao dịch ngoại hối, và cụ thể là các hoạt động
mua/bán giữa USD/EUR hoặc VND/USD

 Xây dựng mơ hình giao dịch tỷ giá VND/USD, USD/EUR,….
 Làm tài liệu tham khảo phục vụ cho việc viết giáo trình học phần “Khai phá dữ
liệu trong kinh doanh” – 2 tín chỉ của chuyên ngành quản trị hệ thống thông tin
của trƣờng ĐH Thƣơng Mại.
 Báo cáo có thể làm tài liệu tham khảo cho sinh viên khoa Hệ thống thông tin
Kinh tế và Thƣơng mại điện tử, các đối tƣợng quan tâm đến việc khai phá dữ
liệu trong kinh doanh. Hơn nữa, báo cáo của đề tài còn làm tài liệu tham khảo
giảng dạy trong các học phần nhƣ CSDL, Quản trị CSDL và nhất là học phần
mới Khai phá dữ liệu trong kinh doanh cho chuyên ngành Quản trị HTTT.
1.4. Đối tượng và phạm vi nghiên cứu đề tài
Cách tiếp cận các mẫu khảo sát:
Dữ liệu về giao dịch tỷ giá đã đƣợc thu thập online thơng qua chƣơng trình cài
đặt META TRADER 4 từ các nghiên cứu trƣớc. Số mẫu thu thập cho 1 năm, khoảng
thời gian từ 3/2017 đến 3/2018 với các dòng giao dịch hàng ngày.
Phƣơng pháp nghiên cứu:
- Loại dữ liệu (định tính, định lƣợng): Định lƣợng.

7


Đối tƣợng nghiên cứu:
 Bài toán về giao dịch tỉ giá với các dịng dữ liệu giao dịch. Có nhiều cặp tỉ giá
có thể thu thập để lấy làm dữ liệu thực nghiệm vì các thức xử lý và thực nghiệm
trong mơ hình là tƣơng tự. Trong pham vi của đề tài này, cặp USD/VND đƣợc
lựa chọn vì cặp tiền này đƣợc thƣờng xuyên sử dụng và sẽ gần với các đối
tƣợng đọc là sinh viên trong khi giảng dạy.
 Một số cơng cụ đƣa vào mơ hình dự báo tỷ giá: Học có giám sát: SVM và cây
quyết định
Phạm vi nghiên cứu:



Thời gian: từ 03/2017-03/2018



Khơng gian, phạm vi: Các dữ liệu tỉ giá.

1.5. Phương pháp thực hiện đề tài.
Các phƣơng pháp đƣợc sử dụng trong đề tài là: Sử dụng phƣơng pháp nghiên
cứu tài liệu lý thuyết cơ sở về khai phá dữ liệu với một số mơ hình cụ thể, và bài tốn
giao dịch ngoại hối nói chung. Trên cơ sở đó thu thập các dữ liệu sơ cấp trên website
giao dịch. Mơ hình hóa bài tốn giao dịch USD/VND với các dữ liệu thu thập đƣợc và
thử nghiệm mơ hình. Cụ thể nhƣ sau:
Phƣơng pháp thu thập dữ liệu: Các dữ liệu thứ cấp đƣợc thu thập trên web site
giao dịch ngoại hối USD/VND thông qua phần mềm META TRADER 4 và
Invest.com với một đoạn chƣơng trình nhỏ (Script) để cài thêm (Add- in) vào phần
mềm.
- Phƣơng pháp xử lý dữ liệu: Tiền xử lý dữ liệu với phần mềm META
TRADER 4; xây dựng mơ hình khai phá với tập dữ liệu, và thử nghiệm mơ hình.
1.6. Bố cục của đề tài.
Đề tài đƣợc chia thành 3 chƣơng trong đó:
Chƣơng 1: Tổng quan nghiên cứu . Chƣơng này nêu rõ tính cấp thiết của đề tài và
đồng thời chƣơng này còn chỉ ra phƣơng pháp nghiên cứu và các nghiên cứu liên quan
đến đề tài.
Chƣơng 2: Tổng quan về khai phá dữ liệu và bài toán giao dịch ngoại hối.
Nội dung của chƣơng để cấp đến các khái niệm về khai phá dữ liệu, trí tuệ nhân tạo,
học máy cũng nhƣ các khái niệm liên quan đến giao dịch tỷ giá. Nội dung chƣơng còn

8



phân loại các công cụ của khai phá dữ liệu (học có giám sát, khơng giám sát), và đặt
bài tốn giao dịch tỷ giá.
Chƣơng 3: Đề xuất mơ hình khai phá dữ liệu trong bài toán giao dịch tỷ giá.
Nội dung của chƣơng bao gồm việc đề xuất mơ hình khai phá dữ liệu, cách thức thu
thập và xử lý dữ liệu, phân chia tập dữ liệu thực nghiệm. Các thực nghiệm cũng đƣợc
nêu ở chƣơng này với hai phƣơng pháp phổ biến là SVM và cây quyết định. Các thảo
luận về thực nghiệm đƣợc thực hiện ở phần cuối của chƣơng.
Phần kết luận sẽ tóm tắt lại các kết quả đã nghiên cứu đồng thời đề xuất các kiến nghị
liên quan.

9


Chƣơng 2: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN GIAO DỊCH
NGOẠI HỐI

2.1 Một số khái niệm cơ bản
2.1.1 Các khái niệm về khai phá dữ liệu
Khái niệm về dữ liệu
Theo Wikipedia, và theo điều 4 Luật Giao dịch điện tử ban hành ngày 29 tháng 11 năm
2005, dữ liệu là thông tin dƣới dạng ký hiệu,chữ viết, chữ số, hình ảnh, âm thanh hoặc
dạng tƣơng tự.
Dữ liệu thơ là các số, ký tự, hình ảnh hay các kết quả khác của các thiết bị chuyển đổi
các lƣợng vật lý thành các ký hiệu. Các dữ liệu thuộc loại này thƣờng đƣợc xử lý tiếp
bởi ngƣời hoặc đƣa vào máy tính. Trong máy tính, dữ liệu đƣợc lƣu trữ và xử lý tại đó
hoặc đƣợc chuyển (output) cho một ngƣời hoặc một máy tính khác. Dữ liệu thơ là một
thuật ngữ tƣơng đối; việc xử lý dữ liệu thƣờng đƣợc thực hiện theo từng bƣớc, và "dữ
liệu đã đƣợc xử lý" tại bƣớc này có thể đƣợc coi là "dữ liệu thô" cho bƣớc tiếp theo.
Các dạng dữ liệu đƣợc lƣu trữ:

 Tập tin truyền thống (flat files)
 Cơ sở dữ liệu quan hệ
 Cơ sở dữ liệu giao tác hoặc kho dữ liệu
 Cơ sở dữ liệu tạm thời (data streem)
 ….
Khái niệm về khai phá dữ liệu
Theo Tom Mitchell (1999), “KPDL là việc sử dụng dữ liệu lịch sử để khám phá những
qui tắc và cải thiện những quyết định trong tƣơng lai”. Theo Fayyad (1996), “KPDL,
thƣờng đƣợc xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một q trình
trích xuất những thơng tin ẩn, trƣớc đây chƣa biết và có khả năng hữu ích, dƣới dạng
các qui luật, ràng buộc, qui tắc trong cơ sở dữ liệu.” Nhƣ vậy có thể nói là KPDL là
một q trình học tri thức mới từ những dữ liệu đã thu thập đƣợc. KPDL đƣợc coi là
sự kết hợp của các lĩnh vực khác nhau (xem Hình 1).

10


Machine
Learning
(học máy)

Visualization
(mơ hình)

Khác

Data
Mining

Data

Technology
(Cơng nghệ
dữ liệu)

Statistics
(thống kê)

Hình 1: Các lĩnh vực liên quan của khai phá dữ liệu
(Nguồn: Tom Mitchell, 1999)
Quá trình khai phá dữ liệu có thể mơ tả nhƣ sau:

Hình 2: Quy trình khai phá dữ liệu
(Nguồn: Chapman và cộng sự, 2000)

11


Có thể mơ tả nhƣ sau:
(1) Tìm hiểu nghiệp vụ và dữ liệu (Data Sources)
(2) Chuẩn bị dữ liệu (Data warehouse)
(3) Mơ hình hóa dữ liệu (Data Mining)
(4) Hậu xử lý và đánh giá mơ hình (Pattern Evaluation)
(5) Triển khai tri thức (Knowledge)
Q trình này có thể đƣợc lặp lại nhiều lần một hay nhiều giai đoạn dựa trên sự phản
hồi từ kết quả của các giai đoạn sau. Tham gia chính trong q trình KPDL này là các
nhà tƣ vấn (NTV) và phát triển chuyên nghiệp trong lĩnh vực KPDL.
Trong giai đoạn đầu tiên, Tìm hiểu nghiệp vụ và dữ liệu, NTV nghiên cứu kiến thức
về lĩnh vực sẽ áp dụng, bao gồm các tri thức cấu trúc về hệ thống và tri thức, các
nguồn dữ liệu hiện hữu, ý nghĩa, vai trò và tầm quan trọng của các thực thể dữ liệu.
Việc nghiên cứu này đƣợc thực hiện qua việc tiếp xúc giữa NTV và ngƣời dùng. Khác

với phƣơng pháp giải quyết vấn đề truyền thống khi bài tốn đƣợc xác định chính xác
ở bƣớc đầu tiên, NTV tìm hiểu các yêu cầu sơ khởi của ngƣời dùng và đề nghị các bài
tốn tiềm năng có thể giải quyết với nguồn dữ liệu hiện hữu. Tập các bài toán tiềm
năng đƣợc tinh chỉnh và làm hẹp lại trong các giai đoạn sau. Các nguồn và đặc tả dữ
liệu có liên quan đến tập các bài tốn tiềm năng cũng đƣợc xác định.
Giai đoạn tiếp theo là chuẩn bị dữ liệu: Giai đoạn này sử dụng các kỹ thuật tiền xử lý
để biến đổi và cải thiện chất lƣợng dữ liệu để thích hợp với những yêu cầu của các giải
thuật học. Phần lớn các giải thuật KPDL hiện nay chỉ làm việc trên một tập dữ liệu
đơn và phẳng, do đó dữ liệu phải đƣợc trích xuất và biến đối từ các dạng cơ sơ dữ liệu
phân bố, quan hệ hay hƣớng đối tƣợng sang dạng cơ sở dữ liệu quan hệ đơn giản với
một bảng dữ liệu.
Các giải thuật tiền xử lý tiêu biểu bao gồm:
(a) Xử lý dữ liệu bị thiếu/mất: các dữ liệu bị thiếu sẽ đƣợc thay thế bởi các giá
trị thích hợp.
(b) Khử sự trùng lắp: các đối tƣợng dữ liệu trùng lắp sẽ bị loại bỏ đi. Kỹ thuật
này không đƣợc sử dụng cho các tác vụ có quan tâm đến phân bố dữ liệu.
12


(c) Giảm nhiễu: nhiễu và các đối tƣợng tách rời (outlier) khỏi phân bố chung sẽ
bị loại đi khỏi dữ liệu.
(d) Chuẩn hóa: miền giá trị của dữ liệu sẽ đƣợc chuẩn hóa. (e) Rời rạc hóa: các
dữ liệu số sẽ đƣợc biến đổi ra các giá trị rời rạc.
(f) Rút trích và xây dựng đặc trƣng mới từ các thuộc tính đã có.
(g) Giảm chiều: các thuộc tính chứa ít thơng tin sẽ đƣợc loại bỏ bớt.
Các bài tốn đƣợc giải quyết trong giai đoạn Mơ hình hóa dữ liệu. Các giải thuật học
sử dụng các dữ liệu đã đƣợc tiền xử lý trong giai đoạn hai để tìm kiếm các qui tắc ẩn
và chƣa biết. Công việc quan trọng nhất trong giai đoạn này là lựa chọn kỹ thuật phù
hợp để giải quyết các vấn đề đặt ra. Các bài tốn đƣợc phân loại vào một trong những
nhóm bài tốn chính trong KPDL dựa trên đặc tả của chúng.

Các mơ hình kết quả của giai đoạn ba sẽ đƣợc hậu xử lý và đánh giá trong giai
đoạn 4. Dựa trên các đánh giá của ngƣời dùng sau khi kiểm tra trên các tập thử, các
mơ hình sẽ đƣợc tinh chỉnh và kết hợp lại nếu cần. Chỉ các mơ hình đạt đƣợc mức u
cầu cơ bản của ngƣời dùng mới đƣa ra triển khai trong thực tế. Trong giai đoạn này,
các kết quả đƣợc biến đổi từ dạng học thuật sang dạng phù hợp với nghiệp vụ và dễ
hiểu hơn cho ngƣời dùng.
Trong giai đoạn cuối, Triển khai tri thức, các mơ hình đƣợc đƣa vào những hệ thống
thông tin thực tế dƣới dạng các môđun hỗ trợ việc đƣa ra quyết định. Mối quan hệ chặt
chẽ giữa các giai đoạn trong quá trình KPDL là rất quan trọng cho việc nghiên cứu
trong KPDL. Một giải thuật trong KPDL không thể đƣợc phát triển độc lập, không
quan tâm đến bối cảnh áp dụng mà thƣờng đƣợc xây dựng để giải quyết một mục tiêu
cụ thể. Do đó, sự hiểu biết bối cảnh vận dụng là rất cần thiết. Thêm vào đó, các kỹ
thuật đƣợc sử dụng trong các giai đoạn trƣớc có thể ảnh hƣởng đến hiệu quả của các
giải thuật sử dụng trong các giai đoạn tiếp theo.
Từ các bƣớc của quy trình khai phá dữ liệu, các cấp độ hỗ trợ cho việc ra các quyết
định kinh doanh có thể xem ở Hình 3 dƣới đây.

13


Hình 3: Cấp độ hỗ trợ việc ra quyết định kinh doanh và ngƣời thực hiện.
Giải thích từ ngữ sử dụng trong Hình 3 nhƣ sau:
Tên tiếng Anh

Giải thích từ ngữ

Data Source (Paper, Files, Information Nguồn dữ liệu: bao gồm giấy tờ, files, nhà
Providers, Database System, OLTP)
Data


Warehouse/Data

Marts:

cung cấp thông tin, hệ thống CSDL, OLTP

OLAP, Kho dữ liệu: OLAP, MDA

MDA
Data Exploration: Statistical Analysis, Khám phá dữ liệu: Phân tích thống kê, truy
Querying and Reporting

vấn, báo cáo

Data Mining: Information Discovery

Khai phá dữ liệu: Tìm kiếm thơng tin hữu
ích

Data

Presentation:

Visualization Thể hiện dữ liệu: Sử dụng các kỹ thuật mơ

Techniques

hình hóa

Making Decision


Ra quyết định

DBA

Các nhà quản trị CSDL

Data Analyst

Các nhà phân tích dữ liệu

Business Analyst

Các nhà phân tích kinh doanh

End User

Ngƣời dùng cuối

14


Mô tả các cấp độ hỗ trợ và ngƣời thực hiện cơng việc trong quy trình khai phá dữ liệu
đƣợc thể hiện nhƣ sau:
Cấp độ
0

Giai đoạn

Ngƣời thực hiện


Tìm hiểu nghiệp vụ và dữ liệu (Data Sources): Nhà quản trị CSDL
ở giai đoạn sơ khai này công việc chủ yếu là thu
thập và tôt chức dữ liệu thứ cấp

1

Giai đoạn (Data Warehouse): Trong giai đoạn Nhà quản trị CSDL
này công việc chủ yếu là của nhà quản trị
CSDL để tổ chức dữ liệu trong các Warehouse
sao cho dễ dàng truy cập (trực tuyến, phân
tán,..) cho ngƣời dùng ở các giai đoạn sau.

2

Giai đoạn tìm hiểu dữ liệu (Data Exploration): Nhà phân tích dữ liệu
Các nhà phân tích dữ liệu (Data Analysist) sử
dụng các truy vấn, phân tích thống kê,… để tìm
hiểu dữ liệu trong warehouse với các tiêu chí
khác nhau.

3

Giai đoạn khai phá dữ liệu (Data Mining): các Nhà phân tích dữ liệu
nhà phân tích dữ liệu sử dụng các cơng cụ của
khai phá dữ liệu để mơ hình hóa phục vụ cụ thể
cho một tiêu chí nào đó trong hệ thống thơng tin
kinh doanh. Ví dụ nhƣ phân lớp, dự báo,..

4


Giai đoạn mơ hình hóa (Data Presentation): Nhà phân tích kinh
Việc thể hiện dữ liệu dƣới các mơ hình giúp cho doanh
các nhà phân tích kinh doanh nhìn dữ liệu dƣới
các góc độ khác nhau. Từ đó họ có thể rút trích
ra những tri thức cần thiết hỗ trợ cho bƣớc ra
quyết định tiếp theo

5

Giai đoạn ra quyết đinh (Makinh Decision): Nhà quản lý
15


Dựa vào các báo cáo, mơ hình tri thức ở bƣớc
trƣớc, nhà quản lý (EndUsers) có thể ra các
quyết định kinh doanh mà không chỉ dựa trên
kinh nghiệm kinh doanh mà cịn có sự trợ giúp
của cơng nghệ khai phá tri thức.

2.1.2 Các khái niệm liên quan đến giao dịch ngoại hối
Theo Wikipeadia, từ "Forex" đƣợc bắt nguồn từ cụm từ “FoReign Exchange”
(trao đổi ngoại tệ). Đây cũng là tên gọi của thị trƣờng tiền tệ quốc tế với các giao dịch
tài chính hàng ngày rất lớn. Chính vì khối lƣợng giao dịch hàng ngày lớn nên nó tạo
ra một thị trƣờng có tính thanh khoản rất cao.
Khái niệm thị trƣờng ngoại hối
Thị trƣờng ngoại hối là nơi diễn ra các hoạt động mua bán và trao đổi ngoại tệ
thông qua quan hệ cung cầu. Việc trao đổi bao gồm việc mua một đồng tiền này và
đồng thời bán một đồng tiền khác. Nhƣ vậy, các đồng tiền đƣợc trao đổi từng cặp với
nhau.

Ở các nƣớc phát triển, các quan hệ cung cầu ngoại hối đều tập trung ở thị trƣờng
ngoại hối. Trung tâm của thị trƣờng ngoại hối là thị trƣờng liên ngân hàng, thông qua
thị trƣờng liên hàng, mọi giao dịch mua bán ngoại hối có thể tiến hành trực tiếp với
nhau.
Do đặc thù của thị trƣờng này là ngoại hối đƣợc giao dịch qua các ngân hàng,
nhà môi giới, chuyên viên ngoại hối, các tổ chức tài chính và các cá nhân trên tồn thế
giới. Do vậy ngoại hối đƣợc giao dịch liên tục từ 21 giờ (GMT) chủ nhật tới 21 giờ
(GMT) thứ 6 hàng tuần. Do đặc thù về múi giờ khác nhau trên thế giới nên tại mỗi thời
điểm sẽ có một số trung tâm hoạt động và một số trung tâm không hoạt động. Các
trung tâm này hoạt động gối nhau nhƣ Hình 3 dƣới đây.

16


Hình 4: Lịch hoạt động của các trung tâm giao dịch ngoại hối
Nền tảng của thị trƣờng giao dịch ngoại hối là Internet. Các nhà đầu tƣ (nhà giao
dịch) sử dụng nền tảng này để tham gia thị trƣờng. Họ có thể mua hoặc bán một cặp tiền
tệ cụ thể để ăn chênh lệch tỷ giá giữa các cặp tiền này. Ví dụ, cặp tiền tệ có thể là
EURUSD (Euro vs US Dollar), USDJPY (US Dollar Vs Japanese Yen), GBPUSD
(Great Britain Pound vs US Dollar) hoặc nhiều sự kết hợp các cặp tiền tệ khác.
Các đặc điểm của thị trƣờng ngoại hối


Lợi nhuận cao. Lợi nhuận này có thể có đƣợc nhờ giao dịch ngoại hối thực tế
cao hơn so với tỉ lệ lạm phát, hoặc nếu có một đồng tiền giảm giá thì có nghĩa là
có một đồng tiền nào đó sẽ tăng giá.



Bảo tồn vốn nếu có biến động về kinh tế. Thị trƣờng chứng khốn có thể sụp

đổ nếu có khủng hoảng về kinh tế, nhƣng giao dịch ngoại hối vẫn diễn ra bình
thƣờng.



Thực hiện liên tục và khơng phụ thuộc vào vị trí địa lý. Do thị trƣờng ngoại hối
toàn cầu hoạt động liên tục từ 21 giờ (GMT) chủ nhật tới 21 giờ (GMT) thứ 6
hàng tuần và khơng phụ thuộc vào vị trí nào do sử dụng mạng Internet.



Luôn cập nhật tin tức trên thế giới các biến động của thị trƣờng.



Trong bất cứ giao dịch ngoại hối nào thì ít nhất có một đồng tiền đóng vai trị
làm ngoại tệ.



Ngơn ngữ sử dụng trên thị trƣờng rất ngắn gọn, mang nhiều quy ƣớc nghiệp vụ
rất khó hiểu với ngƣời thƣờng.
Các thành phần tham gia thị trƣờng ngoại hối

 Các ngân hàng thƣơng mại: Ngân hàng tiến hành giao dịch ngoại hối với hai
mục đích: Thực hiện kinh doanh cho chính mình và cho khách hàng. Các ngân
17


hàng thƣơng mại áp dụng hai loại tỷ giá. Loại tỷ giá bán buôn áp dụng trên thị

trƣờng liên ngân hàng và tỷ giá bán lẻ áp dụng đối với các giao dịch có doanh
số nhỏ của khách hàng. Kết quả của hoạt động này là ngân hàng thu phí. Các
ngân hàng thƣơng mại chủ yếu là mua đi bán lại các loại ngoại tệ hoặc là các
giao dịch có tính chất đầu cơ.
 Các ngân hàng trung ƣơng: Ngân hàng trung ƣơng đôi khi là thành phần cơ
bản trên thị trƣờng ngoại hối thông qua hành vi can thiệp trên thị trƣờng, với hai
tƣ cách:
o Ngân hàng trung ƣơng thực hiện việc mua bán ngoại tệ để đảm bảo tính
thanh khoản, cân bằng hoạt động của các khách hàng của mình chủ yếu là
các ngân hàng thƣơng mại.
o Giám sát hoạt động của thị trƣờng trong khuôn khổ quy định của luật pháp.
 Các cá nhân hay các nhà kinh doanh (khách hàng mua bán lẻ). Bao gồm
những công dân trong và ngồi nƣớc có nhu cầu mua bán ngoại tệ trên thị
trƣờng ngoại hối để phục vụ cho hoạt động đầu tƣ, cho vay, đi công tác hay đi
du lịch ở nƣớc ngoài hoặc khi nhận đƣợc các khoản lợi tức đầu tƣ hay chuyển
tiền.
 Các nhà môi giới ngoại hối. Ngƣời môi giới thực hiện các lệnh mua bán ngoại
hối theo yêu cầu của khách hàng và hƣởng phí. Họ cung cấp tỷ giá chào bán và tỷ
giá chào mua cho khách hàng và nhận một khoản phí mơi giới.
Các doanh nghiệp. Chủ yếu là các doanh nghiệp có chức năng kinh doanh xuất nhập
khẩu. Các doanh nghiệp này vừa là chủ thể có nhu cầu về ngoại tệ để thanh toán các
hợp đồng thƣơng mại quốc tế, vừa là chủ thể cung ngoại tệ khi có các khoản thu về
việc xuất khẩu hàng hoá dịch vụ…Các doanh nghiệp này đƣợc xem nhƣ là chủ thể
hình thành nên khối lƣợng mua và bán ngoại hối lớn nhất trên thị trƣờng ngoại hối

2.2. Một số công cụ khai phá dữ liệu
2.2.1. Cơng cụ học có giám sát
Học có giám sát là một kĩ thuật học máy để học tập từ tập dữ liệu đƣợc gán nhãn
cho trƣớc. Thông thƣờng, tập dữ liệu cho trƣớc sẽ chứa nhiều bộ dữ liệu mà trong đó
mỗi bộ dữ liệu có cấu trúc theo cặp


trong đó
18

đƣợc xem là dữ liệu thơ (raw


data) và

là nhãn của dữ liệu đó. Nhiệm vụ của học có giám sát là thơng qua bộ dữ

liệu đầu vào, dự đốn đầu ra mong muốn.
Nói cách khác, học có giám sát tức là máy học dựa vào sự trợ giúp của con
ngƣời, bởi vì con ngƣời dạy cho máy học thông qua việc gán giá trị đầu ra mong muốn
định trƣớc. Tập dữ liệu huấn luyện hoàn toàn đƣợc gán nhãn dựa vào con ngƣời cho
nên nếu tập càng nhỏ thì máy tính sẽ càng đƣợc “học ít”.
Ứng dụng chủ yếu của học có giám sát là dành cho 2 nhóm bài tốn chính là bài
tốn hồi quy (regression problem) và bài tốn phân lớp (classification problem). Ví dụ,
trong bài toán nhận dạng mã vạch tại các bƣu cục, các máy đọc này sẽ dịch đƣợc mã
vạch tƣơng ứng nhờ vào các bộ dữ liệu huấn luyện đƣợc giám sát bởi việc học trong
mơ hình phân lớp.
Một thành phần khơng thể thiếu của phƣơng pháp có giám sát này là ngƣời dùng.
Ngƣời dùng này sẽ có nhiệm vụ tìm kiếm và tập hợp tất cả các thơng tin đầu vào và
thông tin đầu ra tƣơng ứng. Hệ thống học có giám sát sẽ học dựa vào các tập dữ liệu
đầu vào và đầu ra có trƣớc này bằng cách thay đổi các trọng số và các ngƣỡng để tạo
nên một ánh xạ mà nó có khả năng ánh xạ các đầu vào thành các đầu ra mong muốn
cho mục tiêu bài toán. Sự thay đổi các trọng số và ngƣỡng này đƣợc tiến hành nhờ vào
việc so sánh giữa đầu ra thực sự của hệ thống học và đầu ra mong muốn của mình.
Cụ thể, tập huấn luyện đƣợc thể hiện mối quan hệ giữa thông tin đầu vào và thông
tin đầu ra của hệ thống học thƣờng có dạng

đầu vào của mơ hình và

,

, ...,

với

là một

là đầu ra thực tƣơng ứng đã thu thập mà đầu ra của mạng

muốn đạt đƣợc sau quá trình học. Khi dữ liệu đầu vào đƣợc đƣa vào hệ thống thì ta thu
đƣợc đầu ra và đƣợc so sánh với các đầu ra đã đƣợc thu thập có trƣớc. Sai số giữa các
đầu ra của mơ hình học đƣợc sử dụng để điều chỉnh các trọng số và hệ số bias của mơ
hình sao cho sau q trình học lặp đi lặp lại mơ hình sẽ có đầu ra của mơ hình về gần
hơn với đầu ra đúng đã có thu thập đƣợc. Việc kiểm tra tính đúng đắn của mơ hình đƣợc
sử dụng thông qua tập dữ liệu kiểm thử (test data set) đã đƣợc gán nhãn trƣớc. Sau đó,
có thể dùng bộ phân lớp để phân lớp cho các dữ liệu.

19


Input

Mơ hình học có

Output

giám sát


Hiệu chỉnh

Tính sai số

Hình 5: Mơ hình của học giám sát

Có hai cách sử dụng tập huấn luyện học, là học lần lƣợt từng mẫu một cho thành
thạo rồi chuyển sang mẫu khác, hoặc học tất cả các mẫu cùng một lúc cho đến khi
thành thạo các mẫu (có thể xem mơ hình học có giám sát ở Hình 5).
Có thể kể đến một số mơ hình học có giám sát nhƣ: máy vector hỗ trợ (Support Vector
Machine – SVM); K láng giềng gần nhất (K Nearest Neighbours); tiếp cận xác suất
thống kê (Naïve Bayes); Cây quyết định (Decision Tree); mạng nơron (Neural
Network); ...
Việc học có giám sát (Supervised Learning models) là một trong những thành tố
quan trọng của hệ thống thơng minh. Mục đích của học có giám sát là xây dựng một
mơ hình phân lớp các dữ liệu huấn luyện mà kết quả của việc phân lớp này là một mơ
hình đƣợc sử dụng để gán nhãn lớp cho các mẫu chƣa xác định đƣợc nhãn cho các
mẫu dữ liệu mới.
Trong mơ hình học giám sát, quá trình học đƣợc lặp đi lặp lại đối với các mẫu ở tập
huấn luyện để tạo ra một mơ hình mà có thể sử dụng để phân lớp các mẫu dữ liệu mới.
Trong bài toán học giám sát, các mơ hình đƣợc xây dựng dựa trên mối quan hệ
giữa Input và Output. Mục đích của việc học chính là xác định ánh xạ giữa các biến
input và các biến output dựa trên một tập mẫu thể hiện mối quan hệ giữa chúng. Các
biến input và output này gọi là tập các thuộc tính của tập dữ liệu. Chúng thể hiện mối
quan hệ của các giá trị trong thuộc tính phản ánh về đối tƣợng cần phân lớp. Tập các
mẫu thể hiện các đối tƣợng đƣợc gọi là tập huấn luyện. Ví dụ nhƣ dữ liệu thể hiện ở
bảng dƣới mơ tả tập mẫu mà ở đó đƣợc phân lớp thành Ốm nếu có
20





. Căn cứ vào bộ dữ liệu mẫu để sử dụng phân lớp cho mẫu dữ liệu mới. Ví
dụ ta có mẫu dữ liệu mới có giá trị

; và

. Dựa vào bảng phân lớp

ta có thể kết luận mẫu mới này thuộc về lớp “Ốm”.
X1

X2

Class

0.19

0.35

Ốm

0.44

094

Khỏe

0.63


Khỏe

...
0.20

Trên thực tế, mỗi đối tƣợng học sẽ sử dụng nhiều kiểu dữ liệu khác nhau nhƣ số
thực, số rời rạc, chuỗi thời gian, hình ảnh, ... Và các biến đầu ra có thể là thể hiện các
thơng tin phức tạp hơn là ở ví dụ trên với hai giá trị output.
Kĩ thuật Logic
Kĩ thuật Logic trong mơ hình học có giám sát bao gồm hai kĩ thuật chủ yếu là
cây quyết định và phân lớp dựa trên luật (rule-based).
Cây quyết định (Murthy,1998)
Cây quyết định là cây mà phân lớp các mẫu dữ liệu dựa trên việc sắp xếp các dữ
liệu này trên các thuộc tính khóa cần so sánh. Mỗi một đỉnh của cây sẽ thể hiện một
thuộc tính mà ở đó có sự quyết định phân loại xem sẽ rẽ theo nhánh nào trên cây. Các
mẫu sẽ đƣợc phân loại bắt đầu từ đỉnh gốc và sắp xếp dựa trên các giá trị thuộc tính. Ví
dụ ở Hình 6 dƣới đây mơ tả cho cây quyết định của tập dữ liệu ở Bảng 1
Thuộc tính 1

Thuộc tính 2

Thuộc tính 3

Thuộc tính 4

(at1)

(at2)


(at3)

(at4)

Lớp

a1

a2

a3

a4

Yes

a1

a2

a3

b4

Yes

a1

b2


a3

a4

Yes

a1

b2

b3

b4

No

a1

c2

a3

a4

Yes

a1

c2


a3

b4

No

21


b1

b2

b3

b4

No

c1

b2

b3

b4

No

Bảng 1. Tập dữ liệu huấn luyện cho cây quyết định


Hình 6: Cây quyết định của tập dữ liệu huấn luyện ở Bảng 1
Bằng cách dùng cây quyết định ở Hình 6, nếu ta có mẫu với các giá trị (
) thì mẫu sẽ sắp xếp vào các nút
cuối cùng là

, và

và mơ hình sẽ phân mẫu thuộc lớp “Yes”

Để phân loại một mẫu chƣa biết, các giá trị thuộc tính của mẫu sẽ đƣợc kiểm
định trên cây. Đƣờng đi từ gốc tới một nút lá cho biết dự đoán lớp đối với mẫu đó. Cây
quyết định có thể dễ dàng chuyển đổi thành các luật phân loại. Với kỹ thuật phân lớp
dựa trên cây quyết định, kết quả của q trình xây dựng mơ hình sẽ cho ra một cây
quyết định. Cây này đƣợc sử dụng trong quá trình phân lớp các đối tƣợng dữ liệu chƣa
biết hoặc đánh giá độ chính xác của mơ hình. Tƣơng ứng với hai giai đoạn trong quá
trình phân lớp là quá trình xây dựng và sử dụng cây quyết định.
Quá trình xây dựng cây quyết định bắt đầu từ một nút đơn biểu diễn tất cả các mẫu
dữ liệu. Sau đó, các mẫu sẽ đƣợc phân chia một cách đệ quy dựa vào việc lựa chọn các
thuộc tính. Nếu các mẫu có cùng một lớp thì nút sẽ trở thành lá, ngƣợc lại ta sử dụng
một độ đo thuộc tính để chọn ra thuộc tính tiếp theo làm cơ sở để phân chia các mẫu ra
các lớp. Theo từng giá trị của thuộc tính vừa chọn, ta tạo ra các nhánh tƣơng ứng và
phân chia các mẫu vào các nhánh đã tạo. Lặp lại quá trình trên cho tới khi tạo ra đƣợc
cây quyết định, tất cả các nút triển khai thành lá và đƣợc gán nhãn.
Quá trình đệ quy sẽ dừng lại khi một trong các điều kiện sau đƣợc thỏa mãn:
1. Tất cả các mẫu thuộc cùng một lớp.
22


2. Khơng cịn một thuộc tính nào để lựa chọn.

3. Nhánh không chứa mẫu nào.
Phần lớn các giải thuật sinh cây quyết định đều có hạn chế chung là sử dụng
nhiều bộ nhớ. Lƣợng bộ nhớ sử dụng tỷ lệ thuận với kích thƣớc của mẫu dữ liệu huấn
luyện. Một chƣơng trình sinh cây quyết định có hỗ trợ sử dụng bộ nhớ ngồi song lại
có nhƣợc điểm về tốc độ thực thi. Do vậy, vấn đề tỉa bớt cây quyết định trở nên quan
trọng. Các nút lá không ổn định trong cây quyết định sẽ đƣợc tỉa bớt. Kỹ thuật tỉa
trƣớc là việc dừng sinh cây quyết định khi chia dữ liệu khơng có ý nghĩa.
Cây quyết định cịn có thể đƣợc sử dụng nhƣ cây hồi quy (Regression tree) ƣớc
lƣợng các hàm giá có giá trị là số thực thay vì đƣợc sử dụng cho các nhiệm vụ phân
loại. Ví dụ, ƣớc tính khoảng thời gian cho phép để trả hết số nợ vay nhà.
Support vector machine đƣợc đề xuất bởi Vapnik và các cộng sự (Cortes và
Vapnik, 1995) nhƣ là một hệ thống học có giám sát dùng tong khơng gian thuộc tính
Kernel. Điểm chính của mơ hình này là việc xác định các véctơ hỗ trợ trong khơng gian,
vì các véctơ này sẽ giúp cho việc phân lớp các mẫu (điểm) trong khơng gian thuộc tính.
Ví dụ ở Hình 6, trong khơng gian thuộc tính, tập dữ liệu đƣợc chia thành hai tập dƣơng
(positive) và âm (negative) bởi mặt phẳng quyết định (hyper-plane). Các điểm nằm gần
mặt quyết định (hyper-plane) đƣợc gọi là các véctơ hỗ trợ.
x2
x x
x

x

Optimal hyperplane

x
x
x

xi


x

o
Support vectors

o

o

o
o

o

x1

Data point

Hình 7: Ví dụ về mơ hình SVM
Theo Kotsiantis (2007), SVM và neural network - NN (multilayer perceptron –
MLP, radial basic Function- RBF) thƣờng tạo ra các kết quả tốt hơn so với các mơ
hình học khác khi giải quyết bài tốn có nhiều thuộc tính và giá trị của nó là liên tục.
23


Mặt khác, mơ hình logic lại thƣờng đƣợc dùng để giải quyết các bài tốn có các thuộc
tính có giá trị rời rạc. Với SVM và NN, thƣờng yêu cầu có một tập huấn luyện đủ lớn
để đƣa ra kết quả phỏng đốn chính xác trong khi mơ hình Nạve Bayes thì lại quan
tâm đến mối liên kết giữa các dữ liệu trong tập mẫu đủ nhỏ. Trong mơ hình k-láng

giềng gần nhất, các thuộc tính khơng liên quan làm cho bài tốn khó giải quyết do
khoảng cách giữa các điểm sẽ không hội tụ gần trong không gian. Các thuộc tính này
cũng ảnh hƣởng đến chất lƣợng học của các mơ hình NN. Thậm chí chúng cịn làm
cho các mạng khơng thực hiện đƣợc.
Mơ hình mạng và SVM thực hiện rất tốt trong trƣờng hợp có mối liên quan giữa
dữ liệu đầu vào và đầu ra. Mơ hình học lƣời (Nạve Bayes) địi hỏi thời gian huấn
luyện bằng 0 do tập huấn luyện đã đƣợc cài sẵn và chỉ một lần duyệt dữ liệu để đếm
tần suất cho việc tính xác xuất phân bố. Cây quyết định cũng đƣợc biết đến là mơ hình
có độ tính tốn nhanh so với NN và SVM (Kotsiantis, 2007).
2.2.2. Công cụ học không giám sát
Học không giám sát (Unsupervised Learning) là một kĩ thuật của học máy nhằm
tìm kiếm một mơ hình hay cấu trúc bị ẩn bởi tập dữ liệu không đƣợc gán nhãn cho
trƣớc. Khác với học có giám sát, học không giám sát không thể xác định trƣớc tập
output từ tập dữ liệu huấn luyện ban đầu. Nhƣ vậy, tùy thuộc vào tập huấn luyện mà
kết quả output sẽ có thể khác nhau. Hơn nữa, tập dữ liệu huấn luyện của học không
giám sát không do con ngƣời gán nhãn mà máy tính sẽ phải tự học hồn tồn.
Tóm lại, học khơng giám sát có giá trị đầu ra sẽ phụ thuộc hồn tồn vào các
thuật tốn của học khơng giám sát áp dụng vào tập dữ liệu huấn luyện. Một trong các
kĩ thuật phổ biến nhất của học không giám sát là phân cụm (cluster).
Ứng dụng của nó có thể thấy ở thực tế nhƣ Google và Facebook. Google có thể
gom nhóm các bài báo có nội dung gần nhau khi ngƣời dùng tìm kiếm nội dung nào đó
ở máy tìm kiếm. Các bài báo có cùng nội dung sẽ đƣợc gom lại thành một nhóm
(cluster) để phân biệt với các nhóm khác. Tập dữ liệu huấn luyện ở đây chính là các bài
báo từ quá khứ tới hiện tại và sẽ tăng dần theo thời gian. Khi ngƣời dùng cần tìm kiếm
một bài báo mới nó sẽ tìm trong các cụm mà đƣợc hiểu là gần nội dung nhất với với bài
báo đó và gợi ý những bài liên quan. Đối với Facebook, giao diện ngƣời dùng có thể gợi
ý các lời mời kết bạn khi ngƣời sử dụng có nhiều bạn chung.
24



Một số thuật tốn học khơng giám sát
Có rất nhiều thuật tốn học khơng giám sát ra đời và phát triển nhằm giải quyết các bài
tốn mà trong đó ngƣời dùng chƣa biết kết quả đầu ra và tập dữ liệu huấn luyên cũng chƣa
đƣợc gán nhãn. Việc lựa chọn sử dụng thuật toán nào tuỳ thuộc vào dữ liệu đầu vào và
mục đích của từng bài tốn. Trong đó các thuật toán thƣờng đƣợc sử dụng nhƣ: K-means,
HAC (Hierarchical Agglomerative Clustering), SOM (Self-Organizing Map), DBSCAN,
FCM, ... Chi tiết của các thuật tốn này có thể xem ở Mitchell (1997), Han và cộng sự
(2012).

2.3. Bài toán giao dịch ngoại hối
Tỷ giá ngoại hối bị ảnh hƣởng bởi một số các yếu tố nhƣ các sự kiện kinh tế hoặc
chính trị, hay tâm lý của nhà đầu tƣ. Chính các điều này làm cho thị trƣờng giao dịch
không ổn định và phức tạp. Nhà đầu tƣ tham gia vào thị trƣởng ngoại hối ln tìm mọi
cách để giải thích cho sự biến động của tỷ giá, và họ hi vọng việc dự báo của mình là
chính xác. Dự báo chính xác tỷ giá và đúng thời điểm cho ra lợi nhuận tối đa. Tuy
nhiên nếu giao dịch dựa trên việc tính toán sai dẫn đến nguy cơ mất là rất lớn,
Bài toán giao dịch trên thị trƣờng ngoại hối là bài toán dự báo xu hƣớng theo
ngày của tỷ giá quy đổi của các cặp tiền tệ theo chuỗi thời gian biến động phức tạp.
Đầu vào của bài toán là lịch sử tỷ giá trao đổi của các cặp tiền tệ, số liệu về các
sự kiện kinh tế đã xảy ra…. Đầu ra của bài tốn chính là xu hƣớng tăng hay giảm của
các cặp tiền tệ cần xét. Một số lƣợng lớn các thuộc tính từ dữ liệu chuỗi thời gian đƣợc
sinh ra từ lịch sử tỷ giá các cặp tiền tệ nhằm mục đích chọn ra các tập dữ liệu phù hợp
cho bài toán phân lớp.
Bài toán giao dịch ngoại hối đƣợc chuyển về bài toán phân lớp nhị phân là dự
đoán xu hƣớng tăng hay giảm để hỗ trợ đƣa ra các quyết định giao dịch (hoạt động
mua, bán, chốt lời, dừng lỗ…). Các mơ hình học máy có thể đƣợc sử dụng vào việc dự
đốn xu hƣớng tỷ giá của các cặp tiền tệ.

25



×