Tải bản đầy đủ (.pdf) (14 trang)

Ứng dụng phương pháp LASSO trong dự báo rủi ro phá sản của các doanh nghiệp Việt Nam

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (668.01 KB, 14 trang )

Ứng dụng phương pháp LASSO trong dự báo rủi ro
phá sản của các doanh nghiệp Việt Nam
Lê Hải Trung, Trương Thị Thùy Dương
Học viện Ngân hàng
Ngày nhận: 07/01/2023

Ngày nhận bản sửa: 15/02/2023

Ngày duyệt đăng: 21/03/2023

Tóm tắt: Dự báo rủi ro phá sản của doanh nghiệp có ý nghĩa quan trọng trong

việc đưa ra các quyết định đối với chủ doanh nghiệp, chủ nợ, nhà đầu tư và
các cơ quan quản lý, giúp thực hiện giám sát và cảnh báo sớm sức khỏe tài
chính của doanh nghiệp. Các mơ hình dự báo thống kê truyền thống và các
mơ hình thơng minh hiện đại dựa trên kỹ thuật máy học được phát triển để dự
báo tương đối chính xác về rủi ro phá sản của các doanh nghiệp. Tuy nhiên,
hiệu suất dự báo của các mơ hình này phụ thuộc vào các biến số dự báo được
đưa vào mơ hình theo quan điểm chủ quan của người thực hiện. Bài viết đánh
giá khả năng ứng dụng phương pháp lựa chọn biến chủ động dựa trên dữ liệu
LASSO (Least Absolute Shrinkage and Selection Operator) để nâng cao hiệu
suất dự báo rủi ro phá sản của các doanh nghiệp Việt Nam. Kết quả nghiên

Corporate bankruptcy risk prediction in Vietnam: An application with LASSO method
Abstract: Corporate bankruptcy risk prediction has important implications to the corporate owners, lenders,
investors and regulators in their supervision, decision makings, which provides early warning indicators to
the firm’s financial strength. Several statistical and machine-learning based models have been developed to
predict the corporate bankruptcy risks, however, the performance of these models largely depends on the
arguably choice of the predictors. In this study, we examine the potentials of the popular variable selection
method, namely LASSO (Least Absolute Shrinkage and Selection Operator) to improve the predicting ability
of the corporate bankruptcy risks in Vietnam. Using data sample from 284 Vietnamese companies in period


2017- 2019, our study shows that the use of the LASSO technique to ex-ante select suitable predictors
significantly improve the forecasting power of the prediction models, especially for the machine-learning
based models in correctly identifying bankrupted firms in the testing sample.
Keywords: bankruptcy risks, forecasting, LASSO, machine learning.
Le, Hai Trung
Email:
Truong, Thi Thuy Duong
Email:
Organization of all: Banking Academy of Vietnam

© Học viện Ngân hàng
ISSN 1859 - 011X

25

Tạp chí Khoa học & Đào tạo Ngân hàng
Số 250- Tháng 3. 2023


Ứng dụng phương pháp LASSO trong dự báo rủi ro phá sản của các doanh nghiệp Việt Nam

cứu thực nghiệm trên 284 doanh nghiệp Việt Nam giai đoạn 2017-2019 cho
thấy, khi kết hợp với phương pháp LASSO để lựa chọn biến dự báo phù hợp
giúp nâng cao hiệu suất của các mơ hình dự báo so với việc khơng thực hiện
lựa chọn biến dự báo phù hợp. Kết quả này có nghĩa cao hơn với các mơ hình
thơng minh.
Từ khóa: rủi ro phá sản, dự báo, LASSO, máy học

1. Giới thiệu
Những biến động khó dự đốn của kinh tế

thế giới kể từ sau đại dịch Covid-19 với
tình hình lạm phát tăng cao sau giai đoạn
nới lỏng tiền tệ kéo dài, cùng với những bất
ổn địa chính trị từ chiến tranh và mâu thuẫn
chính trị như cuộc chiến tại Ukraine khiến
các doanh nghiệp đối mặt với rủi ro phá sản
gia tăng. Điều này có thể dẫn đến những
hệ lụy tiêu cực đối với nền kinh tế và môi
trường xã hội do tác động lan truyền tới
các doanh nghiệp khác trong chuỗi cung
ứng hoặc sự suy giảm thu nhập của người
lao động. Chính vì vậy, việc đưa ra những
dự báo có tính chính xác cao đối với rủi ro
phá sản của doanh nghiệp thu hút sự quan
tâm của các tổ chức, doanh nghiệp, cũng
như các nhà quản lý để giám sát và cảnh
báo sớm sức khỏe tài chính của các doanh
nghiệp, trên cơ sở đó, đưa ra các quyết định
quản trị, đầu tư và quản lý phù hợp.
Các mơ hình dự báo rủi ro phá sản của
doanh nghiệp đã được phát triển từ rất
sớm với những nghiên cứu tiên phong của
Beaver (1966) và Altman (1968). Các mơ
hình truyền thống này sử dụng phương pháp
phân tích phân biệt hoặc hồi quy phi tuyến
tính logistics với các nhân tố dự báo từ các
chỉ tiêu tài chính của các doanh nghiệp
(Jones và Hensher, 2004; Tian và cộng sự,
2015). Sự phát triển của các mơ hình tính
tốn thơng minh và cơng nghệ với năng

lực xử lý các thuật tốn phức tạp, các kỹ
thuật tính tốn dựa trên mơ hình học máy

26

được phát triển và đã được ứng dụng trong
dự báo khả năng phá sản (Le và Viviani,
2018; Chen và cộng sự, 2019). So sánh với
các phương pháp thống kê, mơ hình học
máy đã được chứng minh có hiệu suất vượt
trội hơn, cho phép xử lý hiệu quả các mối
quan hệ phi toán cũng như các bài tốn có
độ phức tạp cao mà khơng địi hỏi nhiều
u cầu về dữ liệu. Một số phương pháp
tiếp cận nổi bật như mơ hình rừng ngẫu
nhiên RF- Random Forest (Xie và cộng
sự, 2009), thuật toán K-Nearest Neighbor
(KNN) (Chandra và cộng sự 2009),
mơ hình máy học vector hỗ trợ SVMSupport Vectow Machine (Serrano-Cinca
và GutiéRrez-Nieto, 2013) hay mơ hình
thuật tốn tăng cường XGboost- Extreme
Gradient Boosting (Heo và Zhang, 2014).
Barboza và cộng sự (2017) đã chỉ ra rằng
các phương pháp dự báo dựa trên mơ hình
thơng minh thể hiện khả năng dự báo tốt
hơn so với các mơ hình thống kê truyền
thống.
Bên cạnh đưa ra các dự báo có tỷ lệ chính
xác cao thì một mơ hình dự báo hiệu quả
cần xác định được các thuộc tính đặc trưng

của doanh nghiệp có khả năng giải thích
cao đối với rủi ro phá sản của doanh nghiệp
(Shrivastava và cộng sự, 2020). Những
thông tin này sẽ giúp cho các nhà quản trị,
các nhà đầu tư và cơ quan quản lý có thể
đưa ra các cảnh báo sớm trong các quyết
định của mình. Một số phương pháp đã
được sử dụng như đưa vào từng biến trong
mơ hình hoặc loại từng biến trong q trình

Tạp chí Khoa học & Đào tạo Ngân hàng- Số 250- Tháng 3. 2023


LÊ HẢI TRUNG - TRƯƠNG THỊ THÙY DƯƠNG

kiểm thử dự báo. Các phương pháp này có
điểm hạn chế là nhạy cảm với dữ liệu (Tian
và Yu, 2017). Để lựa chọn các biến quan
trọng nhất trong mơ hình dự báo, Tibshirani
(1996) đã giới thiệu và phát triển phương
pháp hàm phạt (LASSO- Least Absolute
Shrinkage and Selection Operator), hoạt
động trên nguyên tắc loại bỏ các biến
khơng có nghĩa dự báo thơng qua các hàm
phạt (penalty function) trong q trình tối
ưu hóa các quan sát. Tian và các cộng sự
(2015) chỉ ra rằng điểm mạnh của LASSO
là tính ổn định của hiệu suất, phương pháp
này ổn định với các nhiễu nhỏ trong mơ
hình. Do đó, LASSO có thể giải quyết vấn

đề đa cộng tuyến khi loại bỏ được các biến
khơng có tính giải thích ra khỏi mơ hình
và có thể tránh được hiện tượng q mức
trong mơ hình (overfitting). Shrivastava và
các cộng sự (2020) đã chứng minh được
mơ hình LASSO khi kết hợp với các mơ
hình học máy có khả năng nâng cao khả
năng dự báo rủi ro phá sản của các doanh
nghiệp sau khi đã loại bỏ các biến số khơng
có ý nghĩa và khả năng dự báo.
Nghiên cứu này đánh giá hiệu quả của
phương pháp LASSO để lựa chọn biến
chủ động trên cơ sở dữ liệu trong dự báo
rủi ro phá sản của các doanh nghiệp Việt
Nam. Cụ thể, chúng tôi so sánh chất lượng
dự báo của các phương pháp truyền thống
và các mơ hình học máy trước và sau khi
kết hợp với phương pháp LASSO lựa chọn
biến chủ động trên cơ sở dữ liệu. Với bộ
dữ liệu gồm các chỉ số tài chính được tính
tốn từ báo cáo tài chính của 284 doanh
nghiệp Việt Nam ngành xây dựng và vật
liệu trong giai đoạn 2017- 2019 được thu
thập từ nguồn Fiingroup.com. Kết quả thực
nghiệm cho thấy, việc kết hợp phương pháp
này giúp nâng cao khả năng dự báo đối với
rủi ro phá sản của các doanh nghiệp Việt
Nam ở tất cả các phương pháp. Bên cạnh
đó, một ưu điểm của việc ứng dụng phương


pháp LASSO là giúp chỉ ra được các biến
tài chính quan trọng và có ý nghĩa trong bài
tốn dự báo phá sản để làm cơ sở xây dựng
hệ thống cảnh báo sớm rủi ro phá sản của
các doanh nghiệp Việt Nam.
Bài viết được kết cấu thành 4 phần. Ngoài
phần giới thiệu, mục 2 trình bày tổng quan
nghiên cứu về các phương pháp dự báo
khả năng vỡ nợ của doanh nghiệp. Mục 3
trình bày các mơ hình dự báo rủi ro phá sản
và phương pháp so sánh hiệu suất của các
dự báo. Mục 4 trình bày kết quả của các
phương pháp dự báo và kết luận được trình
bày trong Mục 5.
2. Tổng quan nghiên cứu
2.1. Các nghiên cứu dự báo rủi ro phá
sản sử dụng mơ hình truyền thống
Altman (1968) và Beaver (1966) là những
nghiên cứu mở đầu cho các phương pháp
dự báo rủi ro phá sản truyền thống. Beaver
(1966) sử dụng mơ hình đơn biến với một
số tỷ lệ tài chính như địn bẩy tài chính, lợi
nhuận trên tài sản và tính thanh khoản để
dự báo rủi ro phá sản của doanh nghiệp.
Altman (1968) phát triển mơ hình dự báo
dựa trên phân tích đa biến, qua đó xây
dựng mơ hình điểm số để đánh giá các
doanh nghiệp của Mỹ với các chỉ tiêu tài
chính để dự báo khả năng vỡ nợ. Sau đó là
sự phát triển của thống kê logistic và đã trở

thành một trong những phương pháp phổ
biến nhất trong bài toán dự báo hoặc phân
lớp (Olson và các cộng sự, 2012) đối với
rủi ro phá sản của các doanh nghiệp. Lin
(2009) đã kiểm tra khả năng dự đốn khó
khăn tài chính của các mơ hình phân tích
khác biệt, logit, probit đối với các công ty
Đài Loan sau cuộc khủng hoảng tài chính
năm 2009. Kết quả dự báo cho hiệu suất
ổn định, tuy nhiên khi giả định một số điều
kiện để dữ liệu không thỏa mãn các giả

Số 250- Tháng 3. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng

27


Ứng dụng phương pháp LASSO trong dự báo rủi ro phá sản của các doanh nghiệp Việt Nam

thiết thống kê thì hiệu suất giảm. SerranoCinca và Gutiérrez-Nieto (2013) đã khắc
phục trường hợp các biến có tương quan
cao trong mơ hình bằng phương pháp kết
hợp phân tích khác biệt với bình phương
nhỏ nhất từng phần để dự báo cuộc khủng
hoảng tài chính của các ngân hàng Mỹ năm
2008. Hiệu suất của sự kết hợp này cũng
tương đương với hiệu suất khi sử dụng mơ
hình học máy.
2.2. Các nghiên cứu dự báo rủi ro phá
sản sử dụng mơ hình thơng minh

Các mơ hình thơng minh được phát triển
tương đối sớm, trong đó, mơ hình mạng
thần kinh (NN) được phát triển đầu tiên
và thống trị trong thời gian dài vào những
năm 1990 (Wilson và Sharda, 1994). NN
được áp dụng linh hoạt do không có yêu
cầu về giả định thống kê và có thể xử lý với
các quan hệ phi tuyến. Điều này rất quan
trọng trong dự báo phá sản bởi vì mối quan
hệ giữa khả năng phá sản và các biến giải
thích có thể là phi tuyến (Barboza và cộng
sự, 2017).
Sự khác biệt giữa kỹ thuật máy học và kỹ
thuật thống kê là các kỹ thuật thống kê địi
hỏi cấu trúc mơ hình trước, từ dữ liệu ước
tính các tham số của mơ hình để dự báo,
trong khi đó phương pháp học máy, học từ
dữ liệu để đưa ra mơ hình dự báo. Sự khác
biệt này dẫn đến lợi thế của các phương
pháp học máy so với thống kê truyền thống
khi khơng địi hỏi giả định về mơ hình. Các
mơ hình học máy có ưu điểm tự cải thiện
hiệu suất, cho phép xử lý nhiều bài tốn
có độ phức tạp cao với hiệu suất cao mà
khơng địi hỏi nhiều về u cầu của dữ liệu.
Để so sánh giữa các mơ hình truyền thống
và mơ hình thơng minh, Zhao và các cộng
sự (2009) đã so sánh mơ hình logit, NN và
KNN trong dự báo doanh nghiệp sử dụng
các chỉ số tài chính. Kết quả cho thấy NN


28

cho hiệu quả cao nhất. Tương tự, Barboza
và cộng sự (2017) đã kiểm chứng sự chính
xác dự báo của mơ hình rừng ngẫu nhiên,
adaboost cao hơn so với logistic và phân
tích khác biệt. Kết quả này cũng tương
đồng với nghiên cứu của Heo và Yang
(2014), Kim và cộng sự (2015), Xiao và
các cộng sự (2016).
2.3. Ứng dụng phương pháp LASSO trong
cải thiện hiệu suất các mơ hình dự báo
Khả năng dự báo của các mơ hình truyền
thống và thông minh dựa trên kỹ thuật máy
học phụ thuộc vào lựa chọn các biến giải
thích để đưa vào mơ hình. Các nghiên cứu
trước đây thường lựa chọn các biến dựa trên
đánh giá chủ quan của tác giả và khơng có
sự thống nhất cụ thể về biến giải thích nào
nên được sử dụng với bộ dữ liệu hoặc nhóm
doanh nghiệp nào cụ thể (Tian và cộng sự,
2015). Để giải quyết vấn đề này, một số
nghiên cứu gần đây đã ứng dụng kỹ thuật
lựa chọn biến chủ động dựa trên dữ liệu để
xác định các biến giải thích có ý nghĩa quan
trọng và tăng hiệu suất dự báo. Trong đó,
LASSO là một kỹ thuật hồi quy lựa chọn
biến chủ động, trong đó áp dụng hàm phạt
để tự động loại các biến không phù hợp ra

khỏi mơ hình bằng cách đưa hệ số hồi quy
của các biến đó về 0 (Tibshirani, 1996).
Đối với việc dự báo rủi ro phá sản của
doanh nghiệp, một số nghiên cứu đã chỉ ra
việc kết hợp kỹ thuật LASSO và các mơ
hình dự báo truyền thống và thơng minh
giúp nâng cao hiệu quả dự báo mơ hình với
giảm sai số. Một trong những nghiên cứu
đầu tiên có thể kể đến là nghiên cứu của
Tian và cộng sự (2015). Sử dụng bộ dữ liệu
lớn với hơn 17.000 công ty trong giai đoạn
từ 1980 đến 2009 và gần 40 biến giải thích,
nhóm tác giả đã chỉ ra rằng các mơ hình có
kết hợp kỹ thuật LASSO để lựa chọn biến
giải thích dựa trên cơ sở dữ liệu cho hiệu

Tạp chí Khoa học & Đào tạo Ngân hàng- Số 250- Tháng 3. 2023


LÊ HẢI TRUNG - TRƯƠNG THỊ THÙY DƯƠNG

suất dự báo cao hơn nhiều so với các mơ
hình hồi quy phân biệt hay logistic truyền
thống. Sau đó, Shrivastava và các cộng sự
(2020) đã chứng minh được tính hiệu quả
của LASSO khi kết hợp với các mơ hình
thơng minh trong dự báo khả năng phá sản
của các doanh nghiệp Ấn Độ. Tương tự,
bằng việc sử dụng các phương pháp lựa
chọn thuộc tính cho bài toán dự báo phá

sản với dữ liệu là toàn bộ các doanh nghiệp
tư nhân vừa và nhỏ của Na Uy trong thời
gian từ 2006- 2017, Paraschiv và các cộng
sự (2021) đã chứng tỏ các biến lựa chọn từ
LASSO mang lại hiệu suất dự báo cao cho
mơ hình.
Tại Việt Nam một số nghiên cứu sử dụng
Lasso trong bài toán dự báo. Nguyễn Đức
Trung và Lê Hoàng Anh (2021) đã so sánh
ba mơ hình LASSO, mơ hình Vec tơ tự hồi
quy Var, và mơ hình Mạng bộ nhớ ngắn
hạn dài hạn (LSTM) trong dự báo giá dầu
thô. Kết quả chỉ ra mơ hình LSTM cho độ
chính xác cao hơn. Nguyễn Đức Trung và
các cộng sự (2021) cung cấp một sự so
sánh về hiệu quả dự báo tăng trưởng kinh
tế và lạm phát giữa các giữa 3 mơ hình là
VAR, LASSO, MLP. Tuy nhiên, theo hiểu
biết của nhóm, chưa có nghiên cứu về việc
ứng dụng kỹ thuật LASSO trong dự báo

rủi ro phá sản của các doanh nghiệp Việt
Nam. Chính vì vậy, bài viết này đóng góp
vào khoảng trống nghiên cứu đó bằng cách
đánh giá khả năng kết hợp kỹ thuật LASSO
với các mơ hình dự báo truyền thống và
thơng minh nhằm nâng cao hiệu quả dự
báo rủi ro phá sản của các doanh nghiệp
Việt Nam.
3. Phương pháp nghiên cứu

3.1. Các mơ hình dự báo rủi ro phá sản
3.1.1. Mơ hình Logistics
Hồi quy logistic là một trong những phương
pháp thống kê truyền thống thường được
sử dụng để phân lớp đối với đối tượng nhận
giá trị nhị phân. Giả sử x1, x2,..., xn là giá
trị của các biến quan sát, p = P(Y = 1|x)
là xác suất doanh nghiệp có khả năng phá
sản. Mơ hình hồi quy logistic thể hiện dưới
dạng sau:
p/ (1 − p) = eβ0 + β1x1 + β2x2 + ... + βnxn
Phương pháp ước lượng hợp lý cực đại
được sử dụng để tìm các hệ số. Logistic đã
được sử dụng nhiều trong các bài toán dự
báo và phân lớp (Tian và cộng sự, 2015;
Xiao và cộng sự, 2016).

Nguồn: Hùng và Hùng, 2020

Hình 1. Thuật tốn XGBoost
Số 250- Tháng 3. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng

29


Ứng dụng phương pháp LASSO trong dự báo rủi ro phá sản của các doanh nghiệp Việt Nam

3.1.2. Mơ hình XBoost
Thuật toán Extreme Gradient Boosting
(XGBoost) là một trong những thuật toán

mới và hiệu quả cao trong học máy. Thuật
toán này là sự mở rộng của thuật toán
Gradient Tree Boosting được đề xuất bởi
Fiedman (2001). Ngun lý của mơ hình
này là đào tạo các mơ hình mới tốt hơn từ
việc kết hợp các mơ hình yếu trước đó để bù
đắp các thiếu sót trong các mơ hình trước.
Hình 1 thể hiện các bước của thuật toán
XGBoost. Từ tập huấn luyện ban đầu X với
n quan sát và đầu ra là y. Tại bước đầu tiên,
mơ hình huấn luyện tạo ngẫu nhiên một
cây học tập với giá trị đầu ra f1(X) và sai số
là e1. Để có mơ hình tốt hơn, cần giảm sai
số, do đó cây học tập tiếp theo được huấn
luyện để ước lượng sai số e1 và đồng thời
ước lượng giá trị f2(X) cùng với sai số e2.
Quá trình tuần tự cho đến cây học tập thứ
n

n, giá trị ước lượng là

∑ f ( X ) và sai số
i =1

i

nhỏ hơn sau mỗi q trình huấn luyện.
3.1.3. Mơ hình rừng ngẫu nghiên- RF
Random forest (RF) là một trong kỹ thuật
mở rộng trên cây quyết định phát triển

từ thuật toán Bagging. Các tập con huấn
luyện được lấy ngẫu nhiên, sau đó được
tích hợp lại cho kết quả của mơ hình. Thuật
tốn RF có khả năng xử lý với các giá trị
ngoại lai và các nhiễu (Yeh, Chi, & Lin,
2014). Ngoài ra thuật toán này lợi thế hơn
các thuật toán khác trong việc so sánh tầm
quan trọng của các biến. Các bước cơ bản
của RF là:
- Từ các tập con khác nhau với các đặc tính
khác nhau được lựa chọn ngẫu nhiên.
- Các dữ liệu đã được lựa chọn được chia
vào các cây quyết định và dán nhãn.
- Kết quả cuối cùng được tổng hợp từ các
kết quả của cây quyết định.
RF lựa chọn ngẫu nhiên dữ liệu cũng như

30

các thuộc tính trong dữ liệu quan sát, nên
mơ hình sẽ khơng có hiện tượng dưới mức
(underfitting) hay có độ lệch cao. Tuy
nhiên mơ hình là sự tổng hợp từ nhiều cây,
do đó hạn chế này sẽ được khắc phục. Vì
vậy RF đã được ứng dụng nhiều với hiệu
suất cao.
3.1.4. Mơ hình K-Nearest Neighbor- KNN
K-Nearest Neighbor (KNN) là một trong
những thuật toán phân lớp đơn giản nhất
dựa trên hàm khoảng cách. Thuật tốn dễ

thực hiện do khơng địi hỏi điều kiện của
dữ liệu hay khơng địi hỏi phân phối xác
suất của dữ liệu quan sát được. Thuật tốn
này khơng khai thác thơng tin từ tập dữ liệu
học, mọi tính tốn được thực hiện khi cần
dự đoán nhãn của tập dữ liệu mới dựa vào
nhãn của các hàng xóm có khoảng cách
gần nhất. Do đó KNN gọi là kỹ thuật dựa
trên bộ nhớ, các bước cơ bản của thuật toán
như sau:
- Giả sử có một tập học và một tập dữ liệu
cần phân lớp.
- Chọn K là số lân cận cần tính tốn.
- Tìm khoảng cách từ tập dữ liệu mới đến
các điểm trong tập học, tìm K điểm gần tập
dữ liệu nhất, nhãn của tập dữ liệu mới là
nhãn của các tập cùng nhãn gần nó nhất.
Ưu điểm của KNN là dễ thực hiện, đào tạo
nhanh và không bị nhạy đối với các nhiễu,
có thể phân lớp với dữ liệu có nhiều nhãn.
Nhược điểm là nhạy cảm với cấu trúc bộ dữ
liệu, tốn bộ nhớ và nhiều thời gian hoạt động.
3.1.5. Mô hình máy học vector hỗ trợ
(SVM- Support Vectow Machine)
Support vectow machine (SVM) là dạng
thuật toán giám sát dùng phân loại hoặc
hồi quy. Thuật toán xây dựng đường phân
lớp các điểm dữ liệu vào các lớp. Giả sử
có một giá trị đầu ra và n tập huấn luyện X
= {(x, y)|(x1, y1), ...,(xk, yk)}, k = 1, ..., N,

xk ⸦ Rd là mẫu đầu vào thứ k, d là số chiều

Tạp chí Khoa học & Đào tạo Ngân hàng- Số 250- Tháng 3. 2023


LÊ HẢI TRUNG - TRƯƠNG THỊ THÙY DƯƠNG

của không gian mẫu, yk là giá trị quan sát
nhận giá trị {1, -1} đặc trưng cho doanh
nghiệp không phá sản hoặc phá sản. Thuật
tốn đi tìm siêu phẳng wx + b = 0 có thể
phân tách các điểm dữ liệu. Thực tế khơng
thể tìm một siêu phẳng tách hồn hảo các
điểm được do đó thuật tốn đi tìm phương
án tách tối ưu với sai số nhỏ nhất. Thuật
tốn có thể viết dưới dạng (Vapnik, 1999):
với điều kiện

yi[w ϕ(xi) + b] ≥ 1 - ξi
Trong đó ξi là giá trị cận biên của sai số,
C là tham số điều chỉnh, ϕ(x) là hàm phi
tuyến.
T

3.2. Phương pháp lựa chọn biến chủ
động LASSO
Một trong những vấn đề khi dự báo rủi ro
phá sản mà các nhà dự báo gặp phải là kết
quả dự báo phụ thuộc vào các biến số dự
báo đầu vào. Một số phương pháp đã được

sử dụng như đưa vào từng biến trong mơ
hình hoặc loại từng biến. Các phương pháp
này có điểm hạn chế là nhạy cảm với dữ
liệu (Tian và Yu, 2017). Bên cạnh đó, việc
đưa vào biến số có khả năng dự báo thấp
cũng có thể ảnh hưởng tới hiệu quả trong
việc dự báo rủi ro phá sản của doanh nghiệp
(Campbell và cộng sự, 2008). Để giải quyết
hai nhược điềm này thì Tibshirani (1996)
đã giới thiệu và phát triển mơ hình hàm
phạt LASSO để lựa chọn các biến quan
trọng nhất trong mơ hình dự báo như sau:
+

là số doanh nghiệp trong mẫu thống kê.
thể hiện hàm phạt
(penalty function) với điều kiện về giá trị
ước lượng của các tham số bị giới hạn bởi
hệ số chuyển λ. Giá trị λ càng nhỏ thì số biến
giải thích được giữ lại mơ hình dự báo càng
ít. Hàm phạt này cịn được gọi là hàm phạt
“l1”. Để đảm bảo điều kiện của hàm phạt,
LASSO sẽ tự động đưa ước lượng tham số
của các biến giải thích khơng có ý nghĩa về
0 và giảm giá trị ước lượng của các biến
giải thích ít có nghĩa về giá trị nhỏ. Một ưu
điểm nữa của phương pháp LASSO là việc
phương pháp này cho phép xử lý vấn đề đa
cộng tuyến đối với các biến giải thích. Điều
này có lợi trong việc dự báo rủi ro phá sản,

bởi lẽ thông thường các nghiên cứu về dự
báo rủi ro phá sản thường sử dụng nhiều
biến số tài chính có tỷ lệ tương quan cao
(Tian và cộng sự, 2015).
3.3. Phương pháp đánh giá hiệu suất dự báo
Trong nghiên cứu này, chúng tôi sử dụng
phương pháp so sánh giữa các mơ hình
dự báo khả năng phá sản dựa trên ma
trận nhầm lẫn (Confusion matrix). Đây là
phương pháp đánh giá hiệu suất phân loại
các quan sát vào hai lớp phá sản hay khơng
phá sản bởi độ chính xác và các mức độ
bao quát của phép phân loại. Lớp phá sản
nhận giá trị 1, không phá sản nhận giá trị 0.
Ma trận gồm các chỉ số sau (Bảng 1)
TP (true positive) là số dự đốn tích cực,
nghĩa là số lượng cơng ty phá sản được dự
báo đúng là phá sản. TN (true negative) là
Bảng 1. Ma trận nhầm lẫn

sao cho
Trong đó Yi,t là biến nhị phân biểu diễn
tình trạng của doanh nghiệp i tại thời
điểm t, xi,t-1,k là các chỉ tiêu tài chính thứ
k của doanh nghiệp i tại thời điểm t-1, n

Giá trị thật

Kết quả dự báo


1

0

1

TP

FP

0

FN

TN

Nguồn: Shrivastava và các cộng sự (2020)

Số 250- Tháng 3. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng

31


Ứng dụng phương pháp LASSO trong dự báo rủi ro phá sản của các doanh nghiệp Việt Nam

số lượng doanh nghiệp không phá sản được
dự báo không phá sản, FP (false positive)
(dương tính giả) là số lượng các doanh
nghiệp khơng phá sản nhưng dự báo phá
sản, FN (false negative) (âm tính giả) là số

lượng doanh nghiệp phá sản nhưng được
dự báo khơng phá sản.
Độ chính xác của mơ hình là tỷ lệ dự báo
đúng, được tính theo cơng thức sau:
Accuracy =

TP + TN
TP + FP + TN + FN

Khi đánh giá mơ hình là một kênh phản ánh
hiệu quả dự báo. Xét về mặt chi phí xã hội,
dự báo sai lầm doanh nghiệp phá sản thành
không phá sản sẽ gây tổn thất lớn hơn nhiều
so với dự báo doanh nghiệp khơng phá sản
thành phá sản vì đưa ra các chính sách sai
lầm. Vì vậy để nâng cao hiệu quả dự báo
của mơ hình, ngồi độ chính xác của mơ
hình, hai tiêu chí sau được sử dụng để đánh
giá hiệu quả dự báo, Precision và Recall,
được xác định như dưới đây:
Precision cho biết tỷ lệ dự đoán doanh
nghiệp phá sản thực sự là phá sản, Recall
cho biết tỷ lệ dự báo đúng phá sản trên tổng
doanh nghiệp phá sản.

4. Kết quả thực nghiệm
4.1. Dữ liệu nghiên cứu
Để dự báo rủi ro phá sản đối với các doanh
nghiệp Việt Nam, chúng tôi sử dụng các
chỉ tiêu tài chính của 284 doanh nghiệp

Việt Nam trong thời gian 2017- 2019 từ cơ
sở dữ liệu của FiinGroup.com. Nhóm các
doanh nghiệp được lấy trong cùng ngành
xây dựng và vật liệu, các doanh nghiệp
cùng ngành có thể có các đặc điểm tương
đồng đảm bảo việc xét các tiêu chí được
thống nhất. Các doanh nghiệp được đưa
vào mẫu nghiên cứu cần đảm bảo có báo
cáo tài chính được công bố trên cơ sở dữ
liệu FiinGroup.com trong khoảng thời gian
nghiên cứu. Nhóm nghiên cứu sử dụng 35
chỉ tiêu tài chính, được tính tốn từ báo cáo
tài chính, tham khảo từ các nghiên cứu của
Tian và Yu (2017); Tian và cộng sự (2015)
và được trình bày trong Bảng 2.
Mục tiêu của nghiên cứu là dự báo rủi ro
phá sản của doanh nghiệp Việt Nam dựa
trên các chỉ số tài chính. Do đó, nhóm
nghiên cứu sử dụng chỉ số z-score của
Altman (1968) để phân loại các doanh
nghiệp trong mẫu nghiên cứu thành nhóm
các doanh nghiệp có rủi ro phá sản cao

Bảng 2. Các biến độc lập trong mơ hình

32

Tên biến

Miêu tả biến


ACTLCT

Tổng tài sản/nợ ngắn hạn

APSALE

Khoản phải trả/doanh thu

CASHAT

Tiền mặt và đầu tư ngắn hạn/tổng tài sản

CASHMTA

Tiền mặt và đầu tư ngắn hạn/(vốn chủ sở hữu thị trường + tổng nợ phải trả)

CHAT

Tiền mặt/tổng tài sản

CHLCT

Tiền mặt/nợ ngắn hạn

(EBIT + DP)/AT

(Thu nhập trước lãi và thuế + khấu hao và khấu hao)/tổng tài sản

EBITAT


Thu nhập trước lãi và thuế/tổng tài sản

EBITSALE

Thu nhập trước lãi và thuế/doanh thu

INVCHINVT

Tăng trưởng hàng tồn kho/hàng tồn kho

Tạp chí Khoa học & Đào tạo Ngân hàng- Số 250- Tháng 3. 2023


LÊ HẢI TRUNG - TRƯƠNG THỊ THÙY DƯƠNG
Tên biến

Miêu tả biến

INVTSALE

Hàng tồn kho/bán hàng

(LCT-CH)/AT

(Nợ ngắn hạn - tiền mặt)/tổng tài sản

LCTAT

Nợ ngắn hạn/tổng tài sản


LCTLT

Nợ ngắn hạn/tổng nợ phải trả

LCTSALE

Nợ ngắn hạn/doanh thu

LT/(LT + MKET)

Tổng nợ phải trả/(tổng nợ phải trả + vốn chủ sở hữu thị trường)

LTAT

Tổng nợ phải trả/tổng tài sản

LTMTA

Tổng nợ phải trả/(vốn chủ sở hữu thị trường + tổng nợ phải trả)

LOG(AT)

log (tổng tài sản)

LOG(SALE)

log (bán)

MB


Tỷ lệ thị trường trên sổ sách

NIAT

Thu nhập ròng/tổng tài sản

NIMTA

Thu nhập ròng/(vốn chủ sở hữu thị trường + tổng nợ phải trả)

NISALE

Thu nhập ròng/doanh thu

OIADPAT

Thu nhập hoạt động/tổng tài sản

OIADPSALE

Thu nhập hoạt động/bán hàng

PRICE

log (giá)

QALCT

Tài sản nhanh/nợ ngắn hạn


REAT

Thu nhập giữ lại/tổng tài sản

RELCT

Thu nhập giữ lại/nợ hiện tại

RSIZE

log (vốn hóa thị trường)

SALEAT

Doanh thu/tổng tài sản

SEQAT

Vốn chủ sở hữu/tổng tài sản

SIGMA

Biến động cổ phiếu

WCAPAT

Vốn lưu động/tổng tài sản
Nguồn: Tian và Yu (2017), Tian và cộng sự (2015)


Bảng 3. Thống kê mơ tả biến tài chính của các doanh nghiệp trong 2 phân lớp
 Biến

Doanh nghiệp phá sản

 Doanh nghiệp không phá sản

Mean

Sta.Dev

Min

Max

Mean

Std.Dev

Min

Max

ACTLCT

1,366

0,877

0,159


12,374

2,922

6,698

0

105,703

APSALE

0,553

2,575

0,0025

46,524

0,233

1,226

0

24,653

CASHAT


0,051

0,066

0,0005

0,6

0,095

0,104

0,0003

0,768

CHAT

0,0278

0,0272

0,0005

0,1698

0,059

0,067


0

0,768

CHLCT

0,045

0,051

0,0005

0,4519

0,23

0,865

0,0001

15,849

EBITDPAT

0,047

0,058

-0,341


0,325

0,091

0,093

-0,345

0,46

EBITAT

0,03

0,051

-0,345

0,247

0,068

0,081

-0,415

0,46

Số 250- Tháng 3. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng


33


Ứng dụng phương pháp LASSO trong dự báo rủi ro phá sản của các doanh nghiệp Việt Nam

EBITSALE

0,037

1,144

-21,382

6,561

0,114

0,909

-4,847

18,285

INVCHINVT

0,506

4,875


-0,92

92,007

0,912

7,514

-1

108,495

INVTSALE

2,228

12,145

0,0005

168,38

1,104

7,975

0,0004

126


LCTCHAT

0,482

0,221

0,014

0,932

0,343

0,23

-0,638

0,866

LCTAT

0,521

0,262

0,023

3,26

0,402


0,222

0,009

0,938

LCTLT

0,0741

0,237

0,031

0,999

0,869

0,2

0,072

1

LCTSALE

2,999

11,206


0,097

182,115

0,955

2,542

0,007

29,725

LTLTMKET

0,68

0,169

0,116

1,173

0,464

0,225

0,011

0,939


LTAT

0,68

0,168

0,116

1,173

0,464

0,226

0,011

0,939

LTMTA

0,68

0,169

0,116

1,173

0,464


0,225

0,011

0,938

LOGAT

12,163

0,65

10,486

14,606

11,719

0,662

9,919

13,620

LOGSALE

11,709

0,696


8,762

14,115

11,589

0,755

7,297

14,014

MB

1,899

1,716

0,019

11,74

1,375

1,226

0,058

15,418


MVEF

52,554

415,678

-0,848

7,659

164,925

1,117

0,646

16,071

NIAT

0,016

0,062

-0,381

0,587

0,06


0,081

-0,852

0,416

NIMTA

0,015

0,062

-0,381

0,587

0,06

0,081

-0,852

0,416

NISALE

-0,035

1,376


-23,648

3,103

0,125

0,516

-2,013

7,586

OIADPAT

0,018

0,059

-0,382

0,587

0,072

0

-0,951

0,449


OIADPSALE

-0,038

1,38

-23,647

3,695

0,154

0,621

-2,189

9,97

PRICE

3,909

0,399

2,602

5,216

4,097


0,368

2,845

5,328

QALCT

1,366

0,977

0

12,374

2,922

6,698

0

105,704

REAT

-0,006

0,167


-1,339

0,538

0,065

0,152

-1,332

0,455

RELCT

0,072

0,411

-2,087

3,453

0,402

2,127

-10,329

38,554


RSIZE

11,425

0,816

9,317

14,588

11,342

0,783

9,334

13,952

SALEAT

0,507

0,372

0,003

2,128

1,154


1,176

0,0004

8,324

SEQAT

0,32

0,169

-0,173

0,884

0,536

0,225

0,061

0,988

SIGMA

0,141

0,697


-0,886

7,478

0,536

0,226

0,611

0,988

WCAPAT

-0,094

0,219

-0,683

0,647

0,269

0,225

-0,445

0,985


Nguồn: Tính tốn của nhóm tác giả

(chỉ số z-score < 1,81) và nhóm doanh
nghiệp có rủi ro phá sản thấp hoặc lành
mạnh (chỉ số z-score > 1,81). Altman và
cộng sự (2017) chỉ ra rằng chỉ số z-score
có khả năng phân loại và dự báo rủi ro phá
sản của các doanh nghiệp tốt với khả năng
dự báo chính xác trên 75% với hầu hết các
quốc gia. Dữ liệu bao gồm hai nhóm với
134 doanh nghiệp có rủi ro phá sản cao và

34

150 doanh nghiệp có rủi ro phá sản thấp
hoặc lành mạnh. Nhóm doanh nghiệp có
rủi ro phá sản cao được gán giá trị 1, nhóm
doanh nghiệp cịn lại được gán giá trị 0 để
đại diện cho tình trạng doanh nghiệp. Bảng
thống kê mơ tả các biến tài chính trong mơ
hình của hai lớp doanh nghiệp được trình
bày trong Bảng 3 bằng ngơn ngữ lập trình
Python. Có thể thấy, tình hình tài chính của

Tạp chí Khoa học & Đào tạo Ngân hàng- Số 250- Tháng 3. 2023


LÊ HẢI TRUNG - TRƯƠNG THỊ THÙY DƯƠNG

các doanh nghiệp phá sản là yếu kém hơn

nhiều so với các doanh nghiệp khơng phá
sản. Các doanh nghiệp phá sản có tỷ lệ nợ
cao hơn (0,68 so với 0,488 ở tỷ lệ LTAT),
doanh thu thấp hơn (0,507 so với 1,154
ở tỷ lệ SALEAT), biên lãi ròng thấp hơn
(-0,035 so với 0,125 ở tỷ lệ NISALE), khả
năng thanh khoản thấp hơn (0,051 so với
0,095 ở tỷ lệ CASHAT) và vốn lưu động
cho hoạt động kinh doanh thấp hơn (-0,094
so với 0,269 ở tỷ lệ WCAPAT).
Kết quả và thảo luận kết quả
Để thực hiện dự báo, tập dữ liệu được chia
thành hai tập huấn luyện và kiểm tra, trong
đó tập huấn luyện cần tỷ lệ lớn để học từ
dữ liệu đưa ra mơ hình dự báo, các tỷ lệ
thường là 70%, 30% (Le và Vivivan, 2018)
hoặc 75% và 25%. Nghiên cứu này chia
mẫu dữ liệu thành hai tập, tập huấn luyện
chiếm 75% dùng để thực hiện mơ hình và
tệp kiểm tra chiếm 25% dùng để kiểm tra
hiệu quả của mơ hình. Trong một số trường
hợp có thể xảy ra hiện tượng quá mức, để
khắc phục tình trạng này, một số đặc trưng
khơng cần thiết có thể được loại ra khỏi mơ
hình. Trong nghiên cứu này so sánh hiệu
quả của các mơ hình dự báo với tồn bộ các
biến và mơ hình dự báo với các biến sau khi
đã dược chọn lọc từ phương pháp LASSO.
Cụ thể, chúng tôi thực hiện hai phần, phần
1 sử dụng hồi quy LASSO tìm các biến

giải thích quan trọng phản ánh khả năng
phá sản của doanh nghiệp. Các biến giải

thích được sử dụng trong các mơ hình dự
báo LG, SVC, Adaboost, KNN, XGBoost
và so sánh với kết quả của các mơ hình
trên với bộ dữ liệu đầy đủ các biến, các mơ
hình được thực hiện trên ngơn ngữ lập trình
Python.
Bảng 4 cho biết hiệu suất dự báo của các
mơ hình với đầy đủ các biến dự báo. Kết
quả dự báo và phân loại doanh nghiệp trên
tệp kiểm tra cho thấy tất cả các mơ hình
đều cho khả năng dự báo đúng trên 77%
với mơ hình RF cho kết quả dự báo chính
xác cao nhất với 89,2%. Đáng ngạc nhiên
là mơ hình hồi quy logistic truyền thống
(LR) xếp thứ hai với kết quả dự báo chính
xác tới 84,04%, cao hơn so với các mơ
hình thơng minh khác như SVM, KNN hay
XGBoost.
Chỉ tiêu Recall cao đồng nghĩa với việc
bỏ sót các doanh nghiệp phá sản thấp, và
Precision cao phản ánh độ chính xác dự
báo cao. Mơ hình tốt là mơ hình ngồi độ
chính xác cao cịn có cả hai chỉ tiêu Recall
và Precision đều cao. Ở hai chỉ tiêu này
thì mơ hình RF tiếp tục cho hiệu suất dự
báo cao nhất. Mơ hình SVM cho thấy khả
năng bỏ sót doanh nghiệp phá sản thấp, tuy

nhiên, xác suất dự báo chính xác thấp cho
thấy tính vững khơng lớn của mơ hình này.
Ở bước kế tiếp, để kiểm tra tính hiệu quả
của mơ hình LASSO cũng như chỉ ra được
các biến tài chính có ý nghĩa trong việc dự
báo rủi ro phá sản của doanh nghiệp, chúng
tôi tiến hành thực hiện hồi quy LASSO.

Bảng 4. Kết quả dự báo của các mơ hình với đầy đủ các biến
Mơ hình

TP

FP

FN

TN

Accuracy

Recall

Precision

LR

89

20


14

90

84,04

86,41

81,65

RF

95

14

9

95

89,2

91,35

87,16

SVM

69


40

8

96

77,46

89,61

63,30

KNN

89

20

29

75

77

75,42

81,65

XGBoost


91

18

19

85

82,63

82,73

83,49

Nguồn: Tính tốn của nhóm nghiên cứu

Số 250- Tháng 3. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng

35


Ứng dụng phương pháp LASSO trong dự báo rủi ro phá sản của các doanh nghiệp Việt Nam

Trước hết, sử dụng hồi quy LASSO, kết quả
cho thấy các biến được chọn là ACTLCT,
CHAT, LCTAT, LCTLT, LTAT, LOGAT,
SALEAT, WCAPAT. Các biến đặc trưng
cho tổng tài sản/nợ ngắn hạn, tiền mặt/tổng
tài sản, nợ ngắn hạn/tổng tài sản, nợ ngắn

hạn/tổng nợ phải trả, tổng nợ phải trả/ tổng
tài sản, tổng tài sản, giá, doanh thu/tổng tài
sản, vốn lưu động/tổng tài sản. Kết quả này
cho thấy, các biến tài chính thể hiện khả
năng thanh khoản, tỷ lệ địn bẩy tài chính,
khả năng tạo doanh thu so với quy mô
doanh nghiệp và khả năng duy trì vốn lưu
động rịng so với tổng tài sản trong chu kỳ
kinh doanh có ý nghĩa cao trong việc phân
biệt các doanh nghiệp phá sản và không
phá sản với mẫu dữ liệu của các doanh
nghiệp Việt Nam.
Cuối cùng, chúng tôi thực hiện lại việc dự
báo rủi ro phá sản với các mơ hình ở Bảng
4, nhưng thay vì sử dụng tồn bộ các biến
tài chính thì chỉ lựa chọn các biến được lựa
chọn từ kết quả của hồi quy LASSO. Hiệu
suất của các mơ hình này được thể hiện
ở Bảng 5. Kết quả cho thấy, hiệu suất dự
báo của phần lớn các mơ hình đều được
cải thiện, đặc biệt là các mơ hình dựa trên
kỹ thuật máy học để thực hiện dự báo. Mơ
hình RF tiếp tục cho thấy hiệu suất dự báo
cao nhất, với khả năng phân biệt trong mẫu
kiểm tra tăng lên từ 91,35 % tới 92,86%. Mơ
hình KNN là mơ hình cải thiện hiệu suất cao
nhất với khả năng dự báo chính xác chung
tăng đáng kể từ 77% (xếp thấp nhất ở Bảng

4) lên 87,32% (xếp thứ hai ở Bảng 5). Có

thể thấy tỷ lệ Recall ở Bảng 5 đều duy trì
hoặc tăng lên so với các mơ hình tương tự
ở Bảng 4 cho thấy tỷ lệ dự báo đúng tăng
lên, tỷ lệ dự báo sót doanh nghiệp phá sản
giảm. Điều này rất quan trọng trong dự báo
vì nếu dự báo sai doanh nghiệp phá sản gây
ra hậu quả nghiêm trọng hơn so với dự báo
sai doanh nghiệp không phá sản. Kết quả
này cũng chứng minh hiệu quả của LASSO
trong chọn biến dự báo và khả năng nâng
cao hiệu suất dự báo.
5. Kết luận
Việc đưa ra các dự báo chính xác về rủi
ro phá sản của doanh nghiệp có ý nghĩa
quan trọng, bởi doanh nghiệp phá sản sẽ
gây ra rất nhiều hệ lụy tiêu cực tới kinh tế
và xã hội của một quốc gia. Rất nhiều các
phương pháp dự báo đã được phát triển để
nâng cao hiệu suất dự báo với các phương
pháp thống kê truyền thống. Các mơ hình
thơng minh được phát triển gần đây dựa
trên kỹ thuật máy học cũng đã thành công
trong các bài toán dự báo hay phân lớp và
cho thấy hiệu quả dự báo cao hơn. Tuy vậy,
hiệu suất dự báo của các mơ hình phụ thuộc
vào việc lựa chọn các biến giải thích, đơi
khi mang nhiều yếu tố chủ quan của người
thực hiện.
Trong nghiên cứu này, nhóm tác giả đánh giá
khả năng ứng dụng kỹ thuật lựa chọn biến

chủ động LASSO trong việc nâng cao hiệu

Bảng 5. Kết quả dự báo với các biến từ mơ hình Lasso
Mơ hình

TP

FP

FN

TN

Accuracy

Recall

Precision

LR

91

18

16

88

84,04


85,05

83,49

RF

91

18

7

97

88,26

92,86

83,49

SVM

84

25

14

90


81,69

85,71

77,06

KNN

93

16

11

93

87,32

89,42

85,32

XGBoost

87

22

15


89

82,63

82,86

79,82

Nguồn: Tính tốn của nhóm nghiên cứu

36

Tạp chí Khoa học & Đào tạo Ngân hàng- Số 250- Tháng 3. 2023


LÊ HẢI TRUNG - TRƯƠNG THỊ THÙY DƯƠNG

suất dự báo rủi ro phá sản của các mơ hình dự
báo nổi bật đối với 284 doanh nghiệp được
sử dụng trong thời gian 2017- 2019 thơng
qua 35 biến tài chính được lấy từ báo cáo tài
chính hàng năm của doanh nghiệp.
Khi sử dụng tồn bộ các biến, mơ hình RF
cho hiệu quả dự báo cao hơn những mơ
hình cịn lại. Điều này cũng phù hợp với
nhiều kết quả nghiên cứu của Kim và các
cộng sự (2015), Barboza và các cộng sự
(2017), Xiao và các cộng sự (2016). Mặc
dù SVM được đánh giá cao, nhưng trong

kết quả nghiên cứu khơng tìm thấy bằng
chứng chứng minh sự ưu việt của phương
pháp này so với các mơ hình đã xem xét.
Kết quả này cũng tương đồng với kết quả
của Barboza và các cộng sự (2017). Khi
sử dụng phương pháp LASSO để lựa chọn
biến có ý nghĩa, kết quả nghiên cứu cho
thấy các yếu tố về địn bẩy tài chính, khả
năng thanh tốn, khả năng tạo doanh thu,
khả năng duy trì vốn lưu động và quy mơ
tài sản của doanh nghiệp có khả năng phân
biệt cao đối với các doanh nghiệp phá sản.
Điều này phù hợp với mơ hình phân biệt
nổi tiếng của Altman (1968). Cuối cùng,
kết quả so sánh cũng chỉ ra tính hiệu quả
của hồi quy LASSO trong lựa chọn các
biến có khả năng nâng cao hiệu suất của

các mơ hình dự báo. Các mơ hình khi sử
dựng các biến từ LASSO đã có độ chính
xác và độ tin cậy cao hơn trong việc dự báo
chính xác các doanh nghiệp phá sản.
Kết quả nghiên cứu này có nghĩa đối với cơ
quan quản lý, nhà đầu tư, chủ nợ cũng như
chủ doanh nghiệp trong các quyết định của
mình. Bên cạnh đó, kết quả này cũng đưa
khuyến nghị đối với các ngân hàng trong
việc đánh giá và xếp hạng rủi ro tín dụng
đối với các khách hàng của mình. Tuy
nhiên, nghiên cứu cịn tồn tại một số hạn

chế như sau: (1) Do nghiên cứu sử dụng
các chỉ số tài chính để dự báo rủi ro phá
sản, mẫu dữ liệu bị giới hạn ở 284 doanh
nghiệp có cơng khai báo cáo tài chính. Do
đó, kết quả dự báo có thể chưa bao phủ
được đối với các doanh nghiệp vừa, nhỏ và
siêu nhỏ hoặc các doanh nghiệp mới khơng
cơng bố báo cáo tài chính; (2) Các biến tài
chính được sử dụng làm biến giải thích,
chưa bao gồm các biến phi tài chính khi
thực hiện việc dự báo. Do đó, các nghiên
cứu trong tương lai có thể xem xét mở rộng
mẫu dữ liệu và kết hợp các biến tài chính
và phi tài chính để đánh giá khả năng nâng
cao hiệu suất dự báo rủi ro phá sản đối với
các doanh nghiệp Việt Nam.■

Tài liệu tham khảo
Altman, E. I. (1968). Financial ratios, discriminant analysis and the prediction of corporate bankruptcy. The journal of
finance, 23(4), 589-609.
Altman, E.I., Iwanicz‐Drozdowska, M., Laitinen, E.K. and Suvas, A., (2017). Financial distress prediction in an
international context: A review and empirical analysis of Altman’s Z‐score model. Journal of International
Financial Management & Accounting, 28(2), pp.131-171.
Barboza, F., Kimura, H., & Altman, E. (2017). Machine learning models and bankruptcy prediction. Expert Systems with
Applications, 83, 405-417.
Beaver, W. H. (1966). Financial ratios as predictors of failure. Journal of accounting research, 71-111.
Campbell, J. Y., Hilscher, J., & Szilagyi, J. (2008). In search of distress risk. The Journal of Finance, 63(6), 2899-2939.
Chandra, D. K., Ravi, V., & Bose, I. (2009). Failure prediction ofdotcom companies using hybrid intelligent techniques.
Expert Systems with Applications,36, 4830–4837
Chen, M. A., Wu, Q., & Yang, B. (2019). How valuable isfintech innovation? The Review of Financial

Studies,32(5),2062–2106.
Friedman, J. H. (2001). Greedy function approximation: a gradient boosting machine. Annals of statistics, 1189-1232.
Heo, J., & Yang, J. Y. (2014). AdaBoost based bankruptcy forecasting of Korean construction companies. Applied soft
computing, 24, 494-499

Số 250- Tháng 3. 2023- Tạp chí Khoa học & Đào tạo Ngân hàng

37


Ứng dụng phương pháp LASSO trong dự báo rủi ro phá sản của các doanh nghiệp Việt Nam
Kim, M. J., Kang, D. K., & Kim, H. B. (2015). Geometric mean based boosting algorithm with over-sampling to resolve
data imbalance problem for bankruptcy prediction. Expert Systems with Applications, 42(3), 1074-1082
Jones, S., Hensher, D. A. (2004). Predicting firm finance distress: a mixed logit model. Accounting Review, 79(4), 1011
– 1038.
Le, H. H., Viviani, J. L. (2018). Predicting bank failure: An improvement implementing a machine-learning approach to
classical financai ratios. Research in International Bussiness and Finance, 44, 16 – 25.
Lin, T. H. (2009). A cross model study of corporate financial distress prediction in Taiwan: Multiple discriminant
analysis, logit, probit and neural networks models. Neurocomputing, 72(16-18), 3507-3516
Nguyễn, Đức Trung và Lê Hoàng Anh (2021). Hiệu quả trong dự báo giá dầu thô: Một so sánh giữa mơ hình VAR, mơ
hình LASSO và mơ hình LSTM, Tạp chí Kinh tế phát triển, số 288, tr. 2-13.
Nguyễn Đức Trung, Lê Hoàng Anh và Đinh Thị Phương Anh (2021). Dự báo tăng trưởng kinh tế và lạm phát Việt Nam:
một so sánh giữa mơ hình Var, Lasso và MLP, Tạp chí khoa học thương mại, số 154, tr. 2-13.
Olson, D. L., Delen, D., and Meng, Y. (2012). Comparative analysis of data mining methods for bankruptcy prediction.
Decision Support Systems, 52(2):464–473
Paraschiv, F., Schmid, M., & Wahlstrøm, R. R. (2021). Bankruptcy prediction of privately held SMEs using feature
selection methods. Available at SSRN 3911490
Serrano-Cinca, C., & GutiéRrez-Nieto, B. (2013). Partial least square discriminant analysis for bankruptcy prediction.
Decision Support Systems, 54(3), 1245–1255
Shrivastava, S., Jeyanthi, P. M., & Singh, S. (2020). Failure prediction of Indian Banks using SMOTE, Lasso regression,

bagging and boosting. Cogent Economics & Finance, 8(1), 1729569
Tian, S., Yu, Y., & Guo, H. (2015). Variable selection and corporate bankruptcy forecasts.  Journal of Banking &
Finance, 52, 89-100.
Tian, S., & Yu, Y. (2017). Financial ratios and bankruptcy predictions: An international evidence. International Review
of Economics & Finance, 51, 510-526
Tibshirani, R. (1996). Regression shrinkage and selection via the LASSO. Journal of the Royal Statistical Society. Series
B (Methodological),58, 267–288
Trương Việt Hùng và Hà Mạnh Hùng (2020). Ước lượng khả năng chịu tải của giàn thép sử dụng phân tích trực tiếp và
thuật tốn XGBoost. Tạp chí xây dựng, số 2 (2020) 91 – 94.
Vapnik, V. N. (1999). An overview of statistical learning theory. IEEE Transactions on Neural Networks, 10(5), 988-999.
Xiao, H., Xiao, Z., & Wang, Y. (2016). Ensemble classification based on supervised clustering for credit scoring. Applied
Soft Computing, 43, 73-86.
Xie, E., Li, X., Ngai, E., Ying, W. (2009). Customer churn prediction using improved balanced random forest. Expert
Systems with Applications, 36, 5445 – 5449
Yeh, C. C., Chi, D. J., & Lin, Y. R. (2014). Going-concern prediction using hybrid random forests and rough set approach.
Information Sciences, 254, 98–110.
Wilson, R. L., Sarda, R. (1994). Bankruptcy prediction using neural networks. Decision Support Systems, 11, 545 – 557
Zhao, H., Sinha, A. P., & Ge, W. (2009). Effects of feature construction on classification performance: An empirical
study in bank failure prediction. Expert Systems with Applications, 36(2), 2633–2644

38

Tạp chí Khoa học & Đào tạo Ngân hàng- Số 250- Tháng 3. 2023



×