ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
TRẦN HOÀNG TUẤN ANH
DÙNG HỌC MÁY XẾP HẠNG CỔ
PHIẾU BẰNG CÁC CHỈ SỐ TÀI CHÍNH
TRONG QUÁ KHỨ.
CHUYÊN NGÀNH
: HỆ THỐNG THÔNG TIN QUẢN LÝ
MÃ SỐ
: 60.34.04.05
LUẬN VAN THẠC SĨ
THÀNH PHỐ HỒ CHÍ MINH - NĂM 2019
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA -ĐHQG -HCM
Cán bộ hướng dẫn khoa học : PGS. TS. Đặng Trần Khánh
Cán bộ chấm nhận xét 1 : PGS. TS. Nguyễn Tuấn Đăng
Cán bộ chấm nhận xét 2 : TS. Lê Lam Sơn
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCMngày03 tháng 07 năm 2019
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1. PGS. TS. Nguyễn Thanh Bình
2. TS. Phan Trọng Nhân
3. PGS. TS. Nguyễn Tuấn Đăng
4. TS. Lê Lam Sơn
5. PGS. TS. Vũ Thanh Nguyên
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐÒNG
TRƯỞNG KHOA ...............
Trang 2
ĐẠI HỌC QUỐC GIA TP.HCM
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên : Trần Hoàng Tuấn Anh
MSHV: 1670459
Ngày, tháng, năm sinh : 01/02/1985
Nơi sinh: Khánh Hòa
Chuyên ngành
: Hệ Thống Thông Tin Quản Lý
Mã số : 60.34.04.05
II.
TÊN ĐỀ TÀI:
Dùng Học Máy xếp Hạng Cổ Phiếu Bằng Các Chỉ số Tài Chính Trong Quá Khứ
NHIỆM VỤ VÀ NỘI DUNG:
Kết hợp phương pháp Học máy và Phân tích tài chính để xếp hạng cổ phiếu bằng
các chí số tài chính trong quá khứ.
III.
NGÀY GIAO NHIỆM VỤ: 01/02/2019
IV.
NGÀY HOÀN THÀNH NHIỆM VỤ: 02/06/2019
V.
CÁN Bộ HƯỚNG DẪN: PGS. TS. Đặng Trần Khánh
I.
Tp. HCM, ngày . . . . tháng . . . . năm 2019
CÁN Bộ HƯỚNG DẪN
(Họ tên và chữ ký)
CHỦ NHIỆM Bộ MÔN ĐÀO TẠO
(Họ tên và chữ ký)
TRƯỞNG KHOA .........
(Họ tên và chữ ký)
Trang 3
LỜI CÁM ƠN
Sau thời gian học tập, nghiên cứu và để hoàn thành luận văn này, tôi xin bày tỏ
sự kính trọng và lòng biết on sâu sắc tới:
- Thầy giáo trực tiếp huớng dẫn: PGS.TS. Đặng Trần Khánh - Khoa Công Nghệ
Thông Tin, Truờng Đại Học Bách Khoa Thành phố Hồ Chí Minh đã tận tĩnh
chỉ bảo, huớng dẫn và giúp đỡ trong suốt quá trình tôi thực hiện đề tài nghiên
cứu khoa học này.
- Lãnh đạo công ty chứng khoán VNDirect và các phòng ban trong công ty đã
luôn quan tâm, động viên và tạo điều kiện cho tôi trong quá trình nghiên cứu.
- Bên cạnh đó sự giúp đỡ của gia đĩnh, bạn bè và nguời thân đã luôn ủng hộ và
tạo điều kiện tốt nhất để tôi có thể tập trung nghiên cứu và hoàn thành đề tài
này.
Do về mặt kiến thức và thời gian còn hạn chế, luận văn còn nhiều khiếm khuyết.
Tôi mong đuợc sự đóng góp ý kiến của các thầy, cô và mọi nguời để luận văn
hoàn thiện hơn.
Trang 4
1.
Tóm tắt
Việc kết hợp giữa Công nghệ thông tin và Phân tích tài chính giúp giảm thời gian
phân tích, tăng độ chính xác và giảm sự phụ thuộc hoàn toàn vào người phân tích.
Sự kết hợp này đã được ứng dụng rất nhiều trên thế giới và tạo ra cơ hội cho các
nhà quản lý quỹ quản lý các tài sản hàng tỷ Đô la.
Câu hỏi nghiên cứu tổng thể trong luận văn này là liệu việc áp dụng các thuật
toán học máy có thể đóng góp giá trị trong việc phân biệt các cổ phiếu hoạt động
hiệu quả để xây dựng danh mục đầu tư vượt trội hơn VNIndex hoặc một chỉ số
đầu tư khác như VN30, HNXindex... Để trả lời câu hỏi này, các câu hỏi con sau
đây sẽ được nghiên cứu:
+ Khả năng dự đoán của các thuật toán học máy khi phân biệt giữa các cổ
phiếu hoạt động kém hiệu quả và hiệu quả?
+ Có thể sử dụng các chiến lược đầu tư bằng cách sử dụng các thuật toán học
máy để xây dựng danh mục đầu tư vượt trội so với thị trường hoặc một
chỉ số đầu tư?
+ Các thuật toán học máy có thể đóng góp vào việc lựa chọn cổ phiếu tốt hơn
so với một công cụ chọn cổ phiếu ngẫu nhiên?
+ Có bằng chứng đáng kể nào về mối liên hệ giữa khả năng dự đoán của các
thuật toán học máy và lợi nhuận danh mục đầu tư được tạo từ việc dự báo
này?
Trong thế giói của học máy, có rất nhiều thuật toán học máy có thể được sử dụng
để trả lời vấn đề trong luận văn này. Một lựa chọn trong số chúng được nghiên
cứu trong luận văn này: Naive Bayes, Logistic Regrssion, Random Forest,
Support Vector Machine (SVM).
Ket quả nghiên cứu của luận văn đã cho thấy giải thuật Randomforest cho kết quả
tốt hơn các giải thuật khác khi áp dụng với bộ dự liệu của thị trường chứng khoán
Việt Nam từ năm 2010 đến 2018. Mặc dù khả năng dự báo chỉ đạt mức trung
bĩnh, nhưng kết quả từ giải thuật học máy đã giúp tạo thành các danh mục có hiệu
quả hơn chỉ số tham chiếu VNindex và VN30.
Việc xây dựng và ứng dụng được hệ thống kết hợp trên sẽ là căn cứ để phát triển
các phần tiếp theo: Mô hình xếp hạng theo ngành, mô hình xếp hạng rủi ro và dự
báo.
Trang 5
Abstracts
The combination of Information Technology and Financial Analysis reduces
analysis time, increases accuracy and reduces dependence entirely on analysts.
This combination has been applied a lot in the world and created opportunities
for fund managers to manage billions of dollars of assets.
The overall research question in this dissertation is whether the application of
machine learning algorithms could make a valuable contribution in distinguishing
efficient stocks to build a portfolio that outperforms VNIndex or another
investment indicators such as VN30, HNXindex ... To answer this question, the
following sub-questions will be studied:
+ Predictability of machine learning algorithms when distinguishing between
inefficient and efficient stocks?
+ Could we use investment strategies by using machine learning algorithms
to build an outstanding portfolio against the market or an investment
index?
+ Could machine learning algorithms contribute to stock selection better than
a random stock picking tool?
+ Is there any significant evidence of the link between predictability of
machine learning algorithms and portfolio returns generated from this
prediction?
In the world of machine learning, there are many machine learning algorithms
that can be used to answer the problem in this thesis. One of them is studied in
this thesis: Naive Bayes, Logistic Regrssion, Random Forest, Support Vector
Machine (SVM).
The results of the thesis show that the Randomforest algorithm gives better results
than other algorithms when applied to the data set of Vietnam stock market from
2010 to 2018. Although the forecasting ability is only achieved average, but the
results from machine learning algorithms have helped to create more effective
categories of VNindex and VN30 reference index.
The construction and application of the above-mentioned combined system will
be the basis for developing the following sections: Sector ranking model, risk
ranking model and forecast.
Trang 6
Lời cam đoan của tác giả Luận văn
Tôi xin cam đoan : Luận văn thạc sĩ với đề tài “DÙNG HỌC MÁY XẾP HẠNG CỔ
PHIẾU BẰNG CẮC CHỈ SÓ TÀI CHÍNH TRONG QUÁ KHỨ” là công trình nghiên
cứu của cá nhân tôi, không sao chép của bất cứ ai.
Tôi xin chịu mọi trách nhiệm về công trình nghiên cứu của riêng mình!
TP.HỒ Chí Minh, ngày .................
Người cam đoan
Trang 7
MỤC LỤC
1. Tóm tắt................................................................................................................... 5
2. Giới Thiệu.............................................................................................................. 9
3. Phương Pháp xếp Hạng cổ Phiếu Trong Đầu Tư Chứng Khoán: ....................... 13
4. Học Máy .............................................................................................................. 22
5. Dùng Học Máy xếp Hạng cổ Phiếu: .................................................................... 44
6. Thí Nghiệm Và Đánh Giá Kết Quả: .................................................................... 54
7. Kết Luận .............................................................................................................. 66
8. Danh Mục Các Tài Liệu Tham Khảo: ................................................................. 68
Trang 8
2.
2.1
Giới Thiệu
Động lực và bối cảnh:
- xếp hạng cổ phiếu (Scoring Rating) là phuơng pháp chấm điểm cổ phiếu dựa
trên các chỉ số tài chính của cổ phiếu. Hiện tại trong tổ chức của tôi đang sử
dụng phuơng pháp chuyên gia để xác định trọng số cho các chỉ số tài chính
trong mô hĩnh. Phuơng pháp chuyên gia có một số điểm yếu chính:
+ Chua xác định đuợc mức độ hiệu quả của mô hĩnh (độ chính xác của mô
hĩnh, độ chính xác cho từng hạng đuợc đánh giá...)
+ Phụ thuộc hoàn toàn vào chuyên gia (kiến thức, trải nghiệm, cảm xúc) trong
việc xác định trọng số.
- Việc xác định xếp hạng hợp lý của cổ phiếu sẽ giúp nhà đầu tu lựa chọn đuợc
các cổ phiếu tốt và gia tăng hiệu quả đầu tu:
+ David Harding: ông làm cho quỹ Winton Capital (30 tỷ Đô la) từ 1997. Ông
sử dụng phuơng pháp Nắm bắt xu huớng (Trend Following) và mô hĩnh
thống kê để đầu tu chứng khoán và công cụ phái sinh.
+ Jim Simons: ông là “Ông vua định luợng”, nhà toán học và là nguời sáng
lập quỹ Renaissance Technologies (11 tỷ Đô la - một quỹ đầu tu sử dụng
giải thuật máy tính để phân tích và đầu tu chứng khoán)
- Trên thế giới, việc nghiên cứu và áp dụng các mô hĩnh định luợng trong đầu
tu đã phát triển từ rất lâu. Thời gian gần đây, việc áp dụng công nghệ thông
tin trong đầu tu bùng nổ ở các nuớc châu Á. Tuy nhiên, ở Việt Nam, việc áp
dụng này vẫn chua phổ biến, và hiện tại chỉ có 1 quỹ mở định luợng VFA hoạt
động. Có 2 lý do chính:
+ Việc áp dụng công nghệ thông tin vào tài chính chỉ mới phát triển ở Việt
Nam vài năm gần đây.
+ Các phuơng pháp xếp hạng cổ phiếu ở Việt Nam phần lớn theo phuơng pháp
chuyên gia.
Việc nghiên cứu và áp dụng công nghệ thông tin, định luợng trong tài chính
để xây dựng hệ thống xếp hạng cổ phiếu đuợc kỳ vọng giúp khắc phục các
điểm yếu của phuơng pháp chuyên gia và gia tăng hiệu quả đầu tu. Hệ thống
dự kiến sẽ đáp ứng các mục tiêu sau:
+ Dùng Học máy xây dựng mô hình xếp hạng cố phiếu.
+ So sánh mô hĩnh này với mô hĩnh theo phuơng pháp chuyên gia để đánh giá
mức độ hiệu quả của mô hĩnh.
2.2
Xây dựng bài toán:
Câu hỏi nghiên cứu tống thể trong luận văn này là liệu việc áp dụng các thuật
toán học máy có thể đóng góp giá trị trong việc phân biệt các cố phiếu hoạt
động hiệu quả để xây dựng danh mục đầu tu vuợt trội hơn
Trang 9
VNIndex hoặc một chỉ số đầu tư khác như VN30, HNXindex... Để trả lời
câu hỏi này, các câu hỏi con sau đây sẽ được nghiên cứu:
+ Khả năng dự đoán của các thuật toán học máy khi phân biệt giữa các cổ
phiếu hoạt động kém hiệu quả và hiệu quả?
+ Có thể sử dụng các chiến lược đầu tư bằng cách sử dụng các thuật toán học
máy để xây dựng danh mục đầu tư vượt trội so với thị trường hoặc một
chỉ số đầu tư?
+ Các thuật toán học máy có thể đóng góp vào việc lựa chọn cổ phiếu tốt hơn
so với một công cụ chọn cổ phiếu ngẫu nhiên?
+ Có bằng chứng đáng kể nào về mối liên hệ giữa khả năng dự đoán của các
thuật toán học máy và lợi nhuận danh mục đầu tư được tạo từ việc dự báo
này?
2.3
Phạm vi và hạn chế:
- Mặc dù có rất nhiều cách và phương pháp có thể được sử dụng để trả lời các
câu hỏi được nghiên cứu trong luận văn này, tuy nhiên, tôi xin phép được xác
định rõ một số giới hạn nhất định trong phạm vi của một luận văn thạc sĩ.
2.3.1 Thuật toán học tập:
- Trong thế giới của học máy, có rất nhiều thuật toán học máy có thể được sử
dụng để trả lời vấn đề trong luận văn này. Một lựa chọn trong số chúng được
nghiên cứu trong luận văn này:
+ Naive Bayes
+ Logistic Regrssion
+ Random Forest
+ Support Vector Machine (SVM).
2.3.2 Chỉ số tài chính:
- Có một số cách tiếp cận để phân tích các chỉ số tài chính của một cố phiếu trên
cơ sở dữ liệu khác nhau. Tuy nhiên, trong phạm vi của luận văn này, tôi sử
dụng 23 chỉ số tài chính được tính toán từ báo cáo tài chính đã được kiểm toán
của các công ty niêm yết trên sàn giao dịch chứng khoán Hồ Chí Minh và Hà
Nội. Những số liệu này được liệt kê trong phần 5.2.
2.3.3 VNindex và HNXindex:
- Danh mục đầu tư từ các thuật toán học máy và danh mục tham chiếu sẽ được
xây dựng từ các cổ phiếu trong 2 chỉ số thị trường chứng khoán chính của
Việt Nam là VNIndex của Sở giao dịch chứng khoán thành phố
Trang 10
Hồ Chí Minh và HNXindex của Sở giao dịch chứng khoán Hà Nội, trong giai
đoạn từ tháng 1 năm 2010 đến tháng 12 năm 2018.
2.3.4 Chiến lược đầu tư:
- Chiến lược đầu tư được đánh giá trong luận văn này chỉ giới hạn ở chiến lược
“Mua và nắm giữ”. Điều này dẫn đến chiến lược chỉ được hưởng lợi từ việc
tăng giá và không thể thu được lợi nhuận từ việc giảm giá cổ phiếu. Ưu điểm
của các chiến lược này là dễ áp dụng trong cả lý thuyết và thực tế.
2.4
Cấu trúc:
- Luận văn được cấu trúc thành bảy chương. Chương đầu tiên là tóm tắt nội
dụng của luận văn. Chương thứ hai, và hiện tại, là giới thiệu, xây dựng vấn
đề, phạm vi & giới hạn và cấu trúc. Phần còn lại của luận văn này được tổ
chức như sau:
+ Chương 3 - Phương pháp xếp hạng cổ phiếu trong đầu tư chứng khoán.
Chương này bắt đầu với một phần tóm tắt và thảo luận của giải Nobel kinh
tế năm 2013 về việc dự báo giá chứng khoán. Phần tiếp theo mô tả phương
pháp phân tích cơ bản trong việc phân tích dự đoán chứng khoán. Phần
thứ ba giới thiệu về các phương pháp chuyên gia trong việc phân tích và
xếp hạng cổ phiếu. Chương này kết thúc với phần xem xét các bài nghiên
cứu liên quan về ứng dụng học máy trong lựa chọn cổ phiếu và dự đoán.
+ Chương 4 - Học máy
Chương này khám phá lý thuyết về học máy được áp dụng trong luận văn.
Phần đầu tiên giới thiệu ý tưởng chung về học máy bằng cách mô tả các
loại vấn đề học tập khác nhau và giải thích vấn đề liên quan đến
overfitting. Phần thứ hai thảo luận về các thuật toán học máy sẽ được
nghiên cứu trong luận văn này. Phần cuối cùng mô tả các vấn đề thường
gặp và các phương pháp xử lý trong quá trĩnh tiền xử lý dữ liệu, đánh giá
và lựa chọn mô hĩnh phù hợp.
+ Chương 5 - Phương pháp luận
Chương này tập trung vào tất cả các phương pháp được nghiên cứu để trả
lời vấn đề trong luận văn này. Thứ nhất, các phương pháp xây dựng danh
mục đầu tư và lấy dữ liệu cần thiết được trĩnh bày. Thứ hai, quá trình gán
nhãn để phân biệt giữa các cổ phiếu hiệu quả và kém hiệu quả được giới
thiệu. Chương này cũng trĩnh bày cách thức để sử dụng các thuật toán học
máy để xếp hạng, lựa chọn cố phiếu và xây dựng danh mục đầu tư. Các số
liệu được sử dụng để đánh giá hiệu suất của danh mục đầu tư được trình
bày và cuối cùng là sự lựa chọn danh mục tham chiếu được thảo luận.
+ Chương 6 - Thí nghiệm & Kết quả
Trang 11
Chương này cung cấp các kết quả thí nghiệm áp dụng trên dữ liệu lịch sử
cho từng thuật toán học máy. Các kết quả về hiệu suất dự đoán sẽ được
phân tích cho từng thuật toán và so sánh chúng với nhau để tim ra được
giải thuật phù hợp nhất cho việc xếp hạng cổ phiếu và bộ dữ liệu của thị
trường chứng khoán Việt Nam. Giải thuật này sau đó được dùng để thiết
lập danh mục đầu tư và so sánh với danh mục tham chiếu để khám phá các
câu hỏi con được nghiên cứu trong luận văn.
+ Chương 7 - Kết luận
Chương này tóm tắt lại toàn bộ luận văn bằng cách trả lời các câu hỏi
chính và phụ được xây dựng trước đó. Phần tiếp theo chỉ ra các hạn chế
của luận văn, từ đó đưa ra hướng phát triển tiếp theo.
Trang 12
3.
3.1
Phương Pháp xếp Hạng cỗ Phiếu Trong Đầu Tư Chứng Khoán:
Dự báo giá chứng khoán:
- Không có cách nào dự đoán được giá cổ phiếu, chứng khoán trong vài ngày
hoặc vài tuần tới. Tuy nhiên, việc dự đoán ở tầm dài hạn hon là điều có thể
làm được, ví dụ dự đoán giá trong ba hay năm năm tới. Viện Hàn lâm Khoa
học Thụy Điển tìm thấy kết luận trên - vốn rất đáng ngạc nhiên và nghe có vẻ
mâu thuẫn - trong nghiên cứu của ba nhà khoa học Laureates, Eugene Fama,
Lars Peter Hansen và Robert Shiller.
- Bắt đầu từ những năm 1960, Eugene Fama và một số cộng sự đã chứng minh
rằng giá chứng khoán rất khó đoán trong ngắn hạn, và rằng tin tức mới có ảnh
hưởng cực kỳ nhanh chóng tới giá cả. Những nghiên cứu này không chỉ làm
tác động nền đến những nghiên cứu về sau, mà còn có những thay đổi đáng
kể tới thị trường. Những quỹ đầu tư theo chỉ số (Index Fund) đang ngày một
nở rộ trên thị trường chứng khoán toàn cầu hiện nay là một trong những ví dụ
tiêu biểu.
- Neu giá cả hầu như không thể đoán được trong phạm vi vài ngày hay vài tuần,
liệu chúng có trở nên càng khó đoán trong vòng vài năm. Câu trả lời là không,
như Robert Shiller từng khám phá ra vào đầu những năm 1980. Ông phát hiện
ra rằng giá chứng khoán dao động nhiều hon cổ tức các công ty, và rằng tỷ lệ
giữa giá và cổ tức có xu hướng đi xuống khi cổ tức cao, và có xu hướng tăng
khi cổ tức giảm. Công thức này không chỉ đúng với chứng khoán, mà còn
đúng với trái phiếu và các loại tài sản khác.
- Lợi nhuận cao trong tưcmg lai được xem là khoản bù đắp cho việc nắm giữ
tài sản rủi ro trong những thời điểm rủi ro bất thường. Nhà khoa học thứ ba
trong Giải thưởng lần này, ông Lars Peter Hansen đã phát triển một phương
pháp thống kê có thể phù hợp với việc thử nghiệm công thức tỷ lệ trên vào
việc định giá tài sản trên thực tế.
3.2
Phân tích cơ bản trong đầu tư chứng khoán:
Phân tích cơ bản là một chiến lược phân tích đầu tư cố phiếu hoặc chứng
khoán bằng cách xác định giá trị nội tại của nó. Một thành phần rất quan trọng
của phương pháp này là phải xem xét tình trạng tài chính của một công ty.
Các khía cạnh khác như quản lý, xu hướng công nghiệp, và điều kiện tống thể
của nền kinh tế cũng được tính đến. Mục tiêu chính là ước tính một giá trị
nhất định cho công ty để có thể được sử dụng làm cơ sở quyết định. Neu dữ
liệu và thông tin hướng tới giá trị cao hơn giá trị hiện tại đang được đưa ra
trên thị trường, giá trị hiện tại của cố phiếu được coi là bị định giá thấp. Nói
cách khác, các nhà đầu tư có thể thu lời từ khoảng trống phát triển trong giá
trị của nó. Ngược lại, nếu giá trị thấp hơn so với giá ngắn hạn hiện tại, công
ty được coi là định giá quá cao, và giá sẽ có xu hướng giảm dài hạn.
Trong phân tích cơ bản, biện pháp chủ yếu được các nhà phân tích sử dụng để
lựa chọn đầu tư vào cố phiếu là các nguyên tắc cơ bản của nó. Phạm vi của nó
khá rộng vì nó bao gồm sức mạnh tài chính, lãnh đạo ngành và việc
Trang 13
quản lý chất lượng tốt. Những người sử dụng phương pháp cơ bản tim kiếm
những giá trị bị đánh giá thấp, có khả năng sinh lợi cao và tăng doanh thu từ
các hoạt động kinh doanh cốt lõi, có khả năng trả nợ và có một dòng tiền tự
do đáng kể bao gồm khả năng đưa vào sử dụng hiệu quả. Các chỉ số tài chính
mà các nhà đầu tư quan tâm bao gồm thu nhập trên mỗi cổ phiếu (EPS), hệ số
thị giá và thu nhập cổ phiếu (PE), tỷ lệ giá hay giá trị ghi sổ (tỷ số p / B), tỷ
suất lợi nhuận ròng và hệ thống thu nhập trên vốn cổ phần ROE).
- EPS là thước đo lợi nhuận. Ví dụ: hai công ty có cùng thu nhập trên mỗi cổ
phần, công ty nào có thể tạo ra cùng một khoản thu nhập sử dụng số vốn đầu
tư tương đối thấp là công ty kinh doanh hiệu quả hơn. Trong khi đó, tỷ số P/E
là số tiền mà các nhà đầu tư sẵn sàng chi trả cho mỗi đồng đô la thu nhập. Tỷ
số P/E cao cho thấy các nhà đầu tư có định giá cao cho công ty đó nhưng nó
cũng có thể chỉ ra rằng cổ phiếu đang được định giá quá cao. Ngoài P/E, các
nhà đầu tư cũng sử dụng tỷ lệ PEG, cũng là 1 loại chỉ số P/E nhưng được dùng
để điều chỉnh sự tăng trưởng. Những người sử dụng phương pháp cơ bản cũng
sử dụng tỷ số P/B, tỷ số cho thấy kỳ vọng của thị trường đối với thu nhập
trong tương lai của công ty. Nó thường được sử dụng kết hợp với lợi nhuận
trên vốn chủ sở hữu, một biện pháp cho khả năng sinh lời.
3.3
Phương pháp chuyên gia:
- Khung phân tích cơ bản bao gồm:
+ Phân tích hoạt động kinh doanh trong quá khứ.
+ Phân tích rủi ro.
+ Phân tích hoạt động kinh doanh trong tương lai.
- Tương ứng với từng thành phần của khung phân tích, các chuyên gia đã đưa
ra các phương pháp phân tích. Sau đây, với mỗi thành phần, tôi xin giới thiệu
một phương pháp chuyên gia điển hĩnh:
3.3.1 F-Score của Piotroski:
- Mục tiêu là tìm kiếm những doanh nghiệp đạt 7 đến 9 điểm dựa trên Bảng
điểm Piotroski F-Score
- Bảng điểm Piotroski F-Score được Joseph D. Piotroski - Giáo sư toán tại
trường đại học Chicago (hiện ông đang giảng dạy ở Đại học Standfod) - phát
triển và giới thiệu ra công chúng lần đầu vào năm 2000.
Ông đã phát triển một bộ quy tắc nhằm tìm kiếm những doanh nghiệp có sức
khỏe tài chính về tỷ suất lợi nhuận, cơ cấu vốn, tính thanh khoản và hiệu quả
hoạt động.
- Đe sàng lọc những doanh nghiệp này, Piotroski sử dụng 1 danh sách
(checklist) và cho điểm thưởng đối với mỗi chỉ tiêu của doanh nghiệp đáp ứng
được tiêu chí trong checklist này.
Trang 14
-
-
Điểm mạnh của Bảng điểm Piotroski F-Score là:
+ Khá đơn giản, dễ sử dụng: các tiêu chí Piotroski F-Score ở ngay trong BCTC
của doanh nghiệp, việc cần làm chỉ là so sánh các tiêu chí đó và cho điểm;
+ Bảng điểm Piotroski F-Score có thể đuợc sử dụng nhu 1
bộ lọc cổ phiếu, giúp chúng ta tim ra những doanh nghiệp có tình hĩnh tài
chính lành mạnh;
+ Lợi nhuận bĩnh quân gia tăng +23%/năm khi sử dụng Bảng điểm Piotroski
F-Score (theo bài nghiên cứu nổi tiếng của J.D.Piotroski vào năm 2000).
Cách xác định Piotroski F-Score: Chúng ta sẽ xác định 9 hệ số tài chính
của BCTC tuơng ứng với thang điểm từ 0 đến 9, bao gồm:
Khả năng sinh lòi:
3.3.1.1
-
Piotroski F-Score giành đến 4 điểm cho lợi nhuận. Bao gồm:
+ 01 điểm cho những cải thiện về lợi nhuận của doanh nghiệp;
+ 01 điểm cho dòng tiền tích cực từ hoạt động kinh doanh;
-
+ 01 điểm cho sự trở lại tích cực của tỷ suất lợi nhuận;
+ Và 01 điểm khi dòng tiền hoạt động kinh doanh vuợt quá lợi nhuận ròng
của doanh nghiệp.
Đây là những chỉ tiêu khá đơn giản và dễ tính toán, đây cũng chính là
những yêu cầu cơ bản khi bạn muốn đánh giá tình hĩnh tài chính của
doanh nghiệp.
Lợi nhuận sau thuế (Net income):
+ Đây là chỉ tiêu quan trọng trên Báo cáo kết quả hoạt động kinh doanh của
doanh nghiệp, là chỉ tiêu dùng để đánh giá hiệu quả kinh doanh theo thời
gian.
+ Neu lợi nhuận của doanh nghiệp luôn > 0 (và tăng theo thời gian), doanh
nghiệp sẽ đuợc 1 điểm.
+ Nguợc lại, nếu lợi nhuận của doanh nghiệp < 0 (thậm chí là giảm dần theo
thời gian), doanh nghiệp sẽ không đuợc cộng điểm.
Dòng tiền thuần từ hoạt động kinh doanh (Net Operating Cash flow):
+ Chỉ tiêu này dễ dàng đuợc tìm thấy trên Báo cáo lưu chuyển tiền tệ. Dòng
tiền thuần từ hoạt động kinh doanh đo lường số tiền được tạo ra bởi hoạt
động kinh doanh thông thường của doanh nghiệp.
+ Dòng tiền thuần từ hoạt động kinh doanh xem xét các yếu tố như tiền thu
được từ các khoản phải thu (bán hàng và CCDV...), tiền phát sinh để phục
vụ sản xuất (trả nhà cung cấp...), chi phí lao động, thuế và trả lãi vay...
Trang 15
+ Dòng tiền thuần từ hoạt động kinh doanh > 0 có nghĩa là doanh nghiệp có
thể tạo ra đủ tiền mặt để hoạt động liên tục mà không cần huy động thêm
tiền.
+ Neu doanh nghiệp có dòng tiền thuần từ hoạt động kinh doanh > 0 thi sẽ
đuợc cộng 1 điểm.
+ Nguợc lại, nếu dòng tiền thuần từ hoạt động kinh doanh <0, doanh nghiệp
sẽ không đuợc cộng điểm.
- Tỷ suất lợi nhuận của tài sản (ROA):
+ Chỉ tiêu này đo luờng khả năng sinh lời của tài sản: Với 1 đồng tài sản thi
doanh nghiệp tạo ra bao nhiêu đồng lợi nhuận sau thuế.
+ ROA cao thể hiện các tài sản đang đuợc sử dụng và quản lý tốt.
+ Neu doanh nghiệp có ROA năm nay cao hơn ROA năm liền kề thi sẽ đuợc
cộng 1 điểm.
+ Nguợc lại, ROA năm nay thấp hơn ROA năm liền kề, doanh nghiệp sẽ
không đuợc cộng điểm.
- Chất luợng lợi nhuận (Quality of Earnings):
+ Chỉ tiêu này khá đặc biệt, mục tiêu của chỉ tiêu này là giảm thiểu các nguy
cơ doanh nghiệp sử dụng các thủ thuật kế toán nhằm làm đẹp BCTC, ví
dụ nhu ghi nhận sớm doanh thu, hay ghi nhận thiếu chi phí...
+ Khi tính Piotroski F-Score, nếu doanh nghiệp có Dòng tiền thuần từ hoạt
động kinh doanh > Lợi nhuận sau thuế thi sẽ đuợc cộng 1 điểm.
+ Nguợc lại, nếu Dòng tiền thuần từ hoạt động kinh doanh của doanh nghiệp
< Lợi nhuận sau thuế, doanh nghiệp sẽ không đuợc cộng điểm.
Cơ cấu nguồn vốn, tính thanh khoản:
3.3.1.2
-
Piotroski F-Score giành 3 điểm cho cơ cấu nguồn vốn và khả năng đáp
ứng các nghĩa vụ nợ trong tuơng lai của doanh nghiệp. Bao gồm:
+ 01 điểm cho tỷ lệ nợ dài hạn trên tài sản giảm trong năm;
+ 01 điểm cho khả năng thanh toán nợ ngắn hạn đuợc cải thiện trong năm;
+ Và 01 điểm cho việc doanh nghiệp không phát hành thêm cố phiếu để huy
động vốn.
- Piotroski F-Score giả định rằng: việc gia tăng đòn bấy tài chính, sự suy
giảm khả năng thanh toán hay việc phải huy động các nguồn tài chính từ
bên ngoài là dấu hiệu của rủi ro tài chính.
- Hệ số nợ dài hạn trên tống tài sản (Long-term Debt to Assets):
+ Chỉ tiêu này phản ánh tài sản của doanh nghiệp đuợc tài trợ từ bao nhiêu
phần là nợ dài hạn. Việc sử dụng các khoản nợ một cách hợp lý sẽ giúp
doanh nghiệp mở rộng hoạt động, gia tăng lợi nhuận.
Trang 16
+ Chỉ tiêu này được so sánh qua các năm để xem xét khả năng tăng trưởng
của nợ dài hạn có cao hơn tốc độ tăng trưởng tổng tài sản của doanh nghiệp
hay không và nguy cơ dẫn đến mất khả năng thanh toán của doanh nghiệp
khi gặp khó khăn.
+ Doanh nghiệp có hệ số nợ dài hạn trên tài sản năm nay nhỏ hơn các năm
trước (hoặc = 0) thì được cộng 1 điểm.
+ Ngược lại, hệ số nợ dài hạn trên tài sản năm nay lớn hơn các năm trước thi
doanh nghiệp sẽ không được cộng điểm.
+ Tương tự, ta có thể điều chỉnh tính toán dựa trên tỷ lệ nợ trên vốn chủ sở
hữu, miễn là ta thấy được có sự cải thiện trong năm tài chính (tức là, hệ số
nợ dài hạn trên vốn chủ sở hữu năm nay thấp hơn năm trước)
- Hệ số khả năng thanh toán nợ ngắn hạn (Current Ratio):
+ Chỉ tiêu phản ánh khả năng thanh toán các khoản nợ ngắn hạn của doanh
nghiệp bằng việc chuyển đổi tài sản ngắn hạn thành tiền. (Nợ ngắn hạn là
các khoản nợ dưới 1 năm mà doanh nghiệp phải thanh toán).
+ Chỉ tiêu này càng cao thể hiện khả năng thanh toán các khoản nợ ngắn hạn
của doanh nghiệp càng tốt, ít gặp rủi ro trong thanh toán.
+ Khi tính Piotroski F-Score, doanh nghiệp có hệ số này năm nay cao hơn
năm trước (thể hiện khả năng thanh toán nợ được cải thiện) thi được cộng
1 điểm.
+ Ngược lại, hệ số khả năng thanh toán nợ ngắn hạn năm nay thấp hơn năm
trước, doanh nghiệp sẽ không được cộng điểm.
- Số lượng cổ phiếu phổ thông đang lưu hành:
+ Giống như việc gia tăng nợ dài hạn, việc một doanh nghiệp phát hành quá
nhiều cổ phiếu (huy động thêm vốn từ bên ngoài) có thể chỉ ra rằng, doanh
nghiệp hiện không tạo ra đủ lượng tiền mặt để duy trĩ hoạt động.
+ Neu doanh nghiệp trong kỳ phát hành nhiều cố phiếu sẽ dẫn đến Lợi nhuận
trên một cố phần (EPS) bị pha loãng, EPS giảm. Bạn cũng cần đánh giá
xem, việc gia tăng số lượng cố phiếu (khiến cho EPS giảm trong ngắn hạn)
có tương xứng với thu nhập sẽ thu lại được trong tương lai hay không?
+ Khi tính Piotroski F-Score, số lượng cố phiếu lưu hành năm hiện tại nhỏ
hơn hoặc bằng số cố phiếu lưu hành năm trước cộng thêm 2% số lượng cổ
phiếu lưu hành năm đó, thì doanh nghiệp sẽ được cộng 1 điểm.
3.3.1.3
Hiệu quả hoạt động:
- 2 yếu tố cuối cần xem xét trong Bảng điểm Piotroski F-Score đó là các
thay đổi trong hiệu quả hoạt động của doanh nghiệp, đến từ:
Trang 17
+ 01 điểm cho việc gia tăng biên lợi nhuận gộp;
+ 01 điểm cho doanh thu trên tài sản tăng qua các năm.
- Biên lợi nhuận gộp (Gross margin):
+ Lợi nhuận gộp là chỉ tiêu tài chính đo luờng khả năng sinh lời và sức cạnh
tranh của doanh nghiệp. Nó là sự chênh lệch giữa giá bán và chi phí làm
ra sản phẩm, dịch vụ (giá vốn hàng bán) của doanh nghiệp.
+ Biên lợi nhuận gộp lớn hơn và doanh thu ổn định theo thời gian, sẽ tạo ra
nhiều lợi nhuận dự kiến hơn cho doanh nghiệp. Tuy nhiên, xu huớng cần
phải theo dõi vì nó có liên quan đến yếu tố thị truờng (ví dụ giá nguyên
vật liệu...) và yếu tố cạnh tranh thị truờng.
+ Việc biên lợi nhuận gộp đuợc cải thiện là tín hiệu tốt cho sự cải thiện về chi
phí sản xuất, hay việc tăng giá bán sản phẩm của doanh nghiệp.
+ Doanh nghiệp có Biên lợi nhuận gộp năm nay cao hơn năm truớc thì cộng
thêm 1 điểm.
- Vòng quay tài sản (Assets Turnover):
+ Chỉ tiêu này phản ánh tình hình sử dụng tài sản của doanh nghiệp.
+ Doanh nghiệp có số vòng quay tài sản năm nay cao hơn năm truớc sẽ đuợc
cộng 1 điểm.
3.3.2 M-Score của Beneish:
- Messod Daniel Beneish lấy học vị tiến sĩ tại Đại học Chicago vào năm 1987.
Sau đó, ông tiếp tục nghiên cứu và giảng dạy tại Đại học Indiana từ năm 1996.
- Giáo su Messod Daniel Beneish phát triển các lý thuyết nền tảng và xây dựng
Mô hình M-Score từ năm 1999 để kiểm định báo cáo tài chính của các công
ty niêm yết. Đây cũng là một trong những mô hình định luợng đuợc sử dụng
rộng rãi nhất trên thế giới.
Trong các tài liệu của CFA cũng nhu những chuông trình học chuyên sâu về
phân tích tài chính khác hầu hết đều có đề cập đến mô hĩnh này. Công thức
của M-Score đuợc xác định nhu sau:
M-Score = -4.84 + 0.0920 x DSRI + 0.528 x GMI + 0.404 x AQI + 0.892 x SGI
+ 0.115 X DEPI - 0.172 x SGAI + 4.679 x TATA - 0.327 X LVGI
Ta có thể dễ dàng nhận thấy đây là mô hình 8 biến. Trong mô hĩnh này có sự
phân chia khá rõ nét thành hai nhóm:
+ Nhóm 1 gồm các biến số giúp nhận diện gian lận: DSRI, AQI, DEPI, và
TATA
+ Nhóm 2 gồm các biến số giúp phản ánh động cơ gian lận: GMI, SGI,
SGAIvàLVGI
- Sau đây là tên gọi cụ thể của từng biến số:
Trang 18
+ DSRI (Days Sales Receivable Index): Chỉ số phải thu khách hàng so với
doanh thu
+ GMI (Gross Margin Index): Chỉ số tỷ lệ lãi gộp
+ AQI (Asset Quality Index): Chỉ số chất luợng tài sản
+ SGI (Sales Growth Index): Chỉ so tăng truởng doanh thu bán hàng
+ DEPI (Depreciation Index): Chỉ số tỷ lệ khấu hao
+ SGAI (Sales, General and Administration Expense Index): Chỉ so chi phí
bán hàng và quản lý doanh nghiệp
+ TATA (Total Accrual on Total Assets): Chỉ số biến dồn tích so với tổng
tài sản
+ LVGI (Leverage Index): Chỉ số đòn bẩy tài chính - Cách tính từng chỉ số:
+ DSRI: Chỉ số phải thu khách hàng so với doanh thu
DSRI =(Khoản phải thut / Doanh thu thuầnt) / (Khoản phải thut-1 /Doanh
thu thuần t-1)
+ Chỉ số tỷ lệ lãi gộp (GMI)
GMI = [(Salest-i - COGSt-i) / Salest-i] / [(Salest - COGSt) / Salest]
+ Chỉ số chất luợng tài sản (AQI)
AQI = [1 - (Current Assetst + PP&Et) / Total Assetst] / [1 - (Current
Assetst-1 +PP&Et-l) / Total Assetst-1)]
PP&Et: Giá trị còn lại của tài sản dài hạn hữu hĩnh và quyền sử dụng đất,
gồm TSCĐ hữu hĩnh, TSCĐ thuê tài chính, giá trị xây dựng cơ bản dở
dang, bất động sản đầu tu, và quyền sử dụng đất.
+ Chỉ số tăng truởng doanh thu bán hàng (SGI)
SGI = Salest / Salest-1
+ Chỉ số tỷ lệ khấu hao (DEPI)
DEPI
=
[Depreciationt-l/(PP&Et-l
l)]/[Depreciationư(PP&Et +Depreciationt)]
+
Depreciationt-
+ Chỉ số chi phí bán hàng và quản lý doanh nghiệp (SGAI)
SGAI = (SG&A Expenset / Salest) / (SG&A Expenset-1 / Salest-1)
+ Chỉ số đòn bẩy tài chính (LVGI)
LVGI = [(Current Liabilitiest + Total Long Term Debtt) / Total
Assetst] / [(Current Liabilitiest-1 + Total Long Term Debtt-1) / Total
Assetst-1]
+ Chỉ so biến don tích accruals so với tong tài sản (TATA)
TATA = (Net Incomet - Cash Flows from Operationst) / Total Assetst
Trang 19
Tám biến của mô hình Beneish được chia thành hai nhóm: một nhóm các biến
giúp nhận diện gian lận và nhóm còn lại phản ánh động cơ gian lận.
Các biến nhận diện khả năng gian lận gồm DSRI, AQI, DEPI, và TATA. Các
biến nhận diện động cơ gian lận gồm GMI, SGI, SGAI, LVGI.
Mặt khác, M-score là một biến phân phối ngẫn nhiên có giá trị trung bĩnh
bằng 0 và độ lệch chuẩn bằng 1. Do đó, khả năng có thao túng và quản trị lợi
nhuận trong báo cáo tài chính có thể được tính toán bằng chỉ số M- Score
thông qua chức năng trả về hàm phân phối chuẩn NORMSDIST trong ứng
dụng Microsoft Excel.
Giáo sư Beneish cho rằng M-Score nên duy trĩ dưới -1.78.
Trang 20
Trang 21
4.
4.1
Học Máy:
Chương này bắt đầu với phần giới thiệu về học máy và các giải thuật học máy
khác nhau, vấn đề phân loại có giám sát được mô tả kỹ hon và các vấn đề
overfitting được thảo luận cũng với các cách để tránh nó. Phần thứ hai thảo luận
về các thuật toán học máy sẽ được nghiên cứu trong luận văn này. Phần cuối cùng
mô tả các vấn đề thường gặp và các phương pháp xử lý trong quá trình tiền xử lý
dữ liệu, đánh giá và lựa chọn mô hình phù họp
Giới thiệu về Học máy:
- Những năm gần đây, AI - Artificial Intelligence (Trí Tuệ Nhân Tạo), và cụ
thể hơn là Machine Learning (Học Máy hoặc Máy Học) nổi lên như một bằng
chứng của cuộc cách mạng công nghiệp lần thứ tư (1 - động cơ hơi nước, 2 năng lượng điện, 3 - công nghệ thông tin). Trí Tuệ Nhân Tạo đang len lỏi vào
mọi lĩnh vực trong đời sống mà có thể chúng ta không nhận ra. Xe tự hành
của Google và Tesla, hệ thống tự tag khuôn mặt trong ảnh của Facebook, trợ
lý ảo Siri của Apple, hệ thống gợi ý sản phẩm của Amazon, hệ thống gợi ý
phim của Netflix, máy chơi cờ vây AlphaGo của Google DeepMind, ..., chỉ là
một vài trong vô vàn những ứng dụng của AI/Machine Learning.
- Học máy là một tập con của Trí tuệ nhân tạo. Theo định nghĩa của Wikipedia,
Machine learning is the subfield of computer science that “gives computers
the ability to leam without being explicitly programmed”. Nói đơn giản, Học
máy là một lĩnh vực nhỏ của Khoa Học Máy Tính, nó có khả năng tự học hỏi
dựa trên dữ liệu đưa vào mà không cần phải được lập trình cụ thể.
- Những năm gần đây, khi mà khả năng tính toán của các máy tính được nâng
lên một tầm cao mới và lượng dữ liệu khổng lồ được thu thập bởi các hãng
công nghệ lớn, Học máy đã tiến thêm một bước dài và một lĩnh vực mới được
ra đời gọi là Deep Learning (Học Sâu). Học sâu đã giúp máy tính thực thi
những việc tưởng chừng như không thể vào 10 năm trước: phân loại cả ngàn
vật thể khác nhau trong các bức ảnh, tự tạo chú thích cho ảnh, bắt chước giọng
nói và chữ viết của con người, giao tiếp với con người, hay thậm chí cả sáng
tác văn hay âm nhạc.
>950's
1960 s 1970‘s
1980 s 1990's
2000-S
2010 s
Hĩnh 1: Tóm tắt sự phát triển của Học máy
Trang 22
4.1.1 Phân loại các thuật toán học máy:
Theo phưong thức học, các thuật toán Học máy thường được chia làm 4 nhóm:
Supervise learning, Unsupervised learning, Semi-supervised lerning và
Reinforcement learning. Có một so cách phân nhóm không có Semi- supervised
learning hoặc Reinforcement learning.
- Supervised Learning (Học có giám sát)
Học có giám sát là thuật toán dự đoán đầu ra (outcome) của một dữ liệu mới
(new input) dựa trên các cặp (input, outcome) đã biết từ trước. Cặp dữ liệu
này còn được gọi là (data, label), tức (dữ liệu, nhãn). Học có giám sát là nhóm
phổ biến nhất trong các thuật toán Học máy.
Một cách toán học, Học có giám sát là khi chúng ra có một tập hợp biến đầu
vào X={xl,x2,...,xN} và một tập hợp nhãn tưong ứng Y={yl,y2,...,yN}, trong
đó xi,yi là các vector. Các cặp dữ liệu biết trước (xi,yi)eXxY được gọi là tập
training data (dữ liệu huấn luyện). Từ tập traing data này, chúng ta cần tạo ra
một hàm số ánh xạ mỗi phần tử từ tập X sang một phần tử (xấp xỉ) tưong ứng
của tập Y: yi~f(xi), Vi=l,2,.. .,N Mục đích là xấp xỉ hàm số f thật tốt để khi có
một dữ liệu X mới, chúng ta có thể tính được nhãn tưong ứng của nó y=f(x).
Ví dụ 1: trong nhận dạng chữ viết tay, ta có ảnh của hàng nghìn ví dụ của mỗi
chữ số được viết bởi nhiều người khác nhau. Chúng ta đưa các bức ảnh này
vào trong một thuật toán và chỉ cho nó biết mỗi bức ảnh tưong ứng với chữ
số nào. Sau khi thuật toán tạo ra (sau khi học) một mô hình, tức một hàm số
mà đầu vào là một bức ảnh và đầu ra là một chữ số, khi nhận được một bức
ảnh mới mà mô hình chưa nhìn thấy bao giờ, nó sẽ dự đoán bức ảnh đó chứa
chữ số nào.
Ví dụ này khá giống với cách học của con người khi còn nhỏ. Ta đưa bảng
chữ cái cho một đứa trẻ và chỉ cho chúng đây là chữ A, đây là chữ B. Sau một
vài lần được dạy thì trẻ có thể nhận biết được đâu là chữ A, đâu là chữ B trong
một cuốn sách mà chúng chưa nhìn thấy bao giờ.
Ví dụ 2: Thuật toán dò các khuôn mặt trong một bức ảnh đã được phát triển
từ rất lâu. Thòi gian đầu, facebook sử dụng thuật toán này để chỉ ra các khuôn
mặt trong một bức ảnh và yêu cầu người dùng tag friends - tức gán nhãn cho
mỗi khuôn mặt. Số lượng cặp dữ liệu (khuôn mặt, tên người) càng lớn, độ
chính xác ở những lần tự động tag tiếp theo sẽ càng lớn.
Ví dụ 3: Bản thân thuật toán dò tìm các khuôn mặt trong 1 bức ảnh cũng là
một thuật toán Học có giám sát với training data (dữ liệu học) là hàng ngàn
cặp (ảnh, mặt người) và (ảnh, không phải mặt người) được đưa vào. Chú ý là
dữ liệu này chỉ phân biệt mặt người và không phải mặt người mà không phân
biệt khuôn mặt của những người khác nhau.
Thuật toán Học có giám sát còn được tiếp tục chia nhỏ ra thành hai loại chính:
+ Classification (Phân loại)
Trang 23
Một bài toán được gọi là Phân loại nếu các nhãn của dữ liệu đầu vào được
chia thành một số hữu hạn nhóm. Ví dụ: Gmail xác định xem một email
có phải là spam hay không; các hãng tín dụng xác định xem một khách
hàng có khả năng thanh toán nợ hay không. Ba ví dụ phía trên được chia
vào loại này.
+ Regression (Hồi quy)
Nếu nhãn không được chia thành các nhóm mà là một giá trị thực cụ thể.
Ví dụ: một căn nhà rộng X m2, có y phòng ngủ và cách trung tâm thành
phố z km sẽ có giá là bao nhiêu?
Gần đây Microsoft có một ứng dụng dự đoán giới tính và tuổi dựa trên
khuôn mặt. Phần dự đoán giới tính có thể coi là thuật toán Phân loại, phần
dự đoán tuổi có thể coi là thuật toán Hồi quy. Chú ý rằng phần dự đoán
tuổi cũng có thể coi là Phân loại nếu ta coi tuổi là một số nguyên dương
không lớn hơn 150, chúng ta sẽ có 150 class (lóp) khác nhau.
- Unsupervised Learning (Học không giám sát)
Trong thuật toán này, chúng ta không biết được kết quả hay nhãn mà chỉ có
dữ liệu đầu vào. Thuật toán học không giám sát sẽ dựa vào cấu trúc của dữ
liệu để thực hiện một công việc nào đó, ví dụ như phân nhóm (clustering)
hoặc giảm số chiều của dữ liệu (dimension reduction) để thuận tiện trong việc
lưu trữ và tính toán.
Một cách toán học, Học không giám sát là khi chúng ta chỉ có dữ liệu vào X
mà không biết nhãn Y tương ứng.
Những thuật toán loại này được gọi là Học không giám sát vĩ không giống
như Học có giám sát, chúng ta không biết câu trả lời chính xác cho mỗi dữ
liệu đầu vào. Giống như khi ta học, không có thầy cô giáo nào chỉ cho ta biết
đó là chữ A hay chữ B. Cụm không giám sát được đặt tên theo nghĩa này.
Các bài toán Học không giám sát được tiếp tục chia nhỏ thành hai loại:
+ Clustering (phân nhóm)
Một bài toán phân nhóm toàn bộ dữ liệu X thành các nhóm nhỏ dựa trên
sự liên quan giữa các dữ liệu trong mỗi nhóm. Ví dụ: phân nhóm khách
hàng dựa trên hành vi mua hàng. Điều này cũng giống như việc ta đưa cho
một đứa trẻ rất nhiều mảnh ghép với các hình thù và màu sắc khác nhau,
ví dụ tam giác, vuông, tròn với màu xanh và đỏ, sau đó yêu cầu trẻ phân
chúng thành từng nhóm. Mặc dù không cho trẻ biết mảnh nào tương ứng
với hình nào hoặc màu nào, nhiều khả năng chúng vẫn có thể phân loại
các mảnh ghép theo màu hoặc hình dạng.
+ Association
Là bài toán khi chúng ta muốn khám phá ra một quy luật dựa trên nhiều
dữ liệu cho trước. Ví dụ: những khách hàng nam mua quần áo thường có
xu hướng mua thêm đồng hồ hoặc thắt lưng; những khán giả xem phim
Spider Man thường có xu hướng xem thêm phim Bat Man,
Trang 24
dựa vào đó tạo ra một hệ thống gợi ý khách hàng (Recommendation
System), thúc đẩy nhu cầu mua sắm.
- Semi-Supervised Learning (Học bán giám sát)
Các bài toán khi chúng ta có một lượng lớn dữ liệu X nhưng chỉ một phần
trong chúng được gán nhãn được gọi là Học bán giám sát. Những bài toán
thuộc nhóm này nằm giữa hai nhóm được nêu bên trên.
Một ví dụ điển hĩnh của nhóm này là chỉ có một phần ảnh hoặc văn bản được
gán nhãn (ví dụ bức ảnh về người, động vật hoặc các văn bản khoa học, chính
trị) và phần lớn các bức ảnh/văn bản khác chưa được gán nhãn được thu thập
từ internet. Thực tế cho thấy rất nhiều các bài toán Học máy thuộc vào nhóm
này vĩ việc thu thập dữ liệu có nhãn tốn rất nhiều thời gian và có chi phí cao.
Rất nhiều loại dữ liệu thậm chí cần phải có chuyên gia mới gán nhãn được
(ảnh y học chẳng hạn). Ngược lại, dữ liệu chưa có nhãn có thể được thu thập
với chi phí thấp từ internet.
- Reinforcement Learning (Học Củng cố)
Học củng cố là các bài toán giúp cho một hệ thống tự động xác định hành vi
dựa trên hoàn cảnh để đạt được lợi ích cao nhất. Hiện tại, học củng cố chủ
yếu được áp dụng vào Lý Thuyết Trò Chơi, các thuật toán cần xác định nước
đi tiếp theo để đạt được điểm số cao nhất.
4.1.2 Hàm mất mát và tham số mô hình:
- Mỗi mô hĩnh học máy được mô tả bởi các tham số mô hĩnh (model parameters).
Công việc của một thuật toán học máy là đi tim các tham số mô hĩnh phù hợp
với mỗi bài toán. Việc đi tim tham số mô hĩnh có liên quan mật thiết đến các
phép đánh giá. Mục đích của chúng ta là đi tim các tham số mô hĩnh sao cho
các phép đánh giá cho kết quả tốt nhất. Trong bài toán phân lớp, kết quả tốt
có thể được hiểu là ít điểm dữ liệu được phân lóp sai nhất. Trong bài toán hồi
quy, kết quả tốt là khi sự sai lệch giữa đầu ra dự đoán và đầu ra thực sự là ít
nhất.
Quan hệ giữa một phép đánh gía và các tham số mô hĩnh thường được mô tả
thông qua một hàm số được gọi là hàm mất mát (loss function, hay cost
function). Hàm mat mát này thường có giá trị nhỏ khi phép đánh giá cho kết
quả tốt và ngược lại. Việc đi tìm các tham số mô hĩnh sao cho phép đánh giá
trả về kết quả tốt tương đương với việc tối thiểu hàm mất mát. Như vậy, việc
xây dựng một mô hĩnh học máy chính là việc đi giải một bài toán tối ưu. Quá
trình đó có thể được coi là quá trình học của máy.
4.1.3 Over- và underfitting
- Mỗi khi thảo luận về một mô hĩnh dự đoán, điều quan trọng nhất cần quan tâm
là các dự đoán bị sai lệch so với thực tế (bias và variance). Có một sự đánh
đối khi cần tối thiểu hóa 2 đại lượng này. Hiểu được mối quan hệ đó, thay vĩ
chỉ quan tâm đến accuracy, chúng ta sẽ tránh được hiện tượng overfitting hoặc
underfitting.
Trang 25