Nghiên cứu và ứng dụng các phương pháp khai thác dữ liệu để dự đoán khả năng rời công ty của nhân viên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.42 MB, 30 trang )

lOMoARcPSD|17838488

ĐẠI HỌC UEH
KHOA CƠNG NGHỆ THƠNG TIN KINH DOANH

TIỂU LUẬN
Mơn học: Khoa học dữ liệu
Đề tài: Nghiên cứu và ứng dụng các phương pháp
khai thác dữ liệu để dự đoán khả năng rời công ty của
nhân viên
Giảng viên: Thái Kim Phụng
Mã lớp học phần: 22C1INF50905977
Nhóm sinh viên thực hiện
 Nguyễn Thanh Thảo : 31211023971
 Nguyễn Thị Kim Chi : 31211025872
 Phạm Lê Thương : 31211024739
 Trần Hồng Hạ Vy : 31211020223

TP Hồ Chí Minh, ngày 29 tháng 10 năm 2022

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

MỤC LỤC
LỜI MỞ ĐẦU.............................................................................................................................................. 2

I.

GIỚI THIỆU....................................................................................................................................... 3
1.
2.
3.
4.

LÝ DO.........................................................................................................................................................3
MỤC TIÊU NGHIÊN CỨU..........................................................................................................................4
ĐỐI TƯỢNG NGHIÊN CỨU........................................................................................................................4
PHƯƠNG PHÁP NGHIÊN CỨU...................................................................................................................4
4.1.
Phương pháp nghiên cứu lý luận...................................................................................................4
4.2.
Phương pháp nghiên cứu thực tiễn................................................................................................5
5.
Ý NGHĨA...................................................................................................................................................5

II.

CƠ SỞ LÝ LUẬN................................................................................................................................ 5
1.

KHAI PHÁ DỮ LIỆU..................................................................................................................................5
1.1.
Khai phá dự liệu là gì?....................................................................................................................5
1.2.
Các tính năng chính của khai phá dự liệu.....................................................................................5
1.3.

Quy trình khai phá dữ liệu..............................................................................................................6
1.4.
Phương pháp khai phá dữ liệu.......................................................................................................8
1.5.
Ứng dụng khai phá dữ liệu.............................................................................................................9
1.6.
Công cụ khai phá dữ liệu trong bài nghiên cứu Orange.............................................................11
2.
PHÂN LỚP DỮ LIỆU..................................................................................................................................11
2.1.
Khái niệm phân lớp dữ liệu...........................................................................................................11
2.2.
Quy trình phân lớp dữ liệu............................................................................................................12
2.2.1. Xây dựng mơ hình phân lớp (Learning).........................................................................................12
2.2.2. Ước lượng độ chính xác của mơ hình và phân lớp dữ liệu mới.....................................................12
2.3.
Các phương pháp phân lớp dữ liệu..............................................................................................14
2.3.1. Hồi quy Logistic ( Logistic Regression).........................................................................................14
2.3.2. SVM (Support Vector Machine)......................................................................................................15
2.3.3. Cây quyết định (Decision Tree)......................................................................................................16
2.3.4. Neural Network..............................................................................................................................17
2.4.
Chi tiết mơ hình khai phá dữ liệu bằng phương pháp hồi quy Logistic.....................................18
2.5.
Các phương pháp đánh giá mơ hình phân lớp............................................................................20
2.5.1. Ma trận nhầm lẫn (Confusion Matrix) và độ chính xác (Accuracy); ROC, AUC, Precision/Recall,
F1-score20
2.5.2. Cross Validation: K-fold và Holdout..............................................................................................23

III.

PHÂN TÍCH................................................................................................................................. 23

1.
SƠ LƯỢC VỀ THỊ TRƯỜNG NGUỒN NHÂN LỰC HIỆN NAY.......................................................................23
2.
MƠ HÌNH NGHIÊN CỨU ĐỀ XUẤT...........................................................................................................24
3.
BỘ DỮ LIỆU HUẤN LUYỆN.....................................................................................................................26
4.
BỘ DỮ LIỆU DỰ BÁO..............................................................................................................................27
5.
KẾT QUẢ HUẤN LUYỆN..........................................................................................................................27
HÌNH 20. CÁC MƠ HÌNH SỬ DỤNG KIỂM THỬ...................................................................................................28
6.
KẾT QUẢ DỰ BÁO..................................................................................................................................28
IV.
1.
2.

KẾT LUẬN VÀ HẠN CHẾ - GIẢI PHÁP.................................................................................... 29
KẾT LUẬN..............................................................................................................................................29
HẠN CHẾ VÀ GIẢI PHÁP...........................................................................................................................29

TÀI LIỆU THAM KHẢO.......................................................................................................................... 30

1

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

LỜI MỞ ĐẦU
Khoa học dữ liệu là ngành khoa học về việc khai phá, quản trị và phân tích dữ liệu để
dự đoán các xu hướng trong tương lai và đưa ra các quyết định, chiến lược hành động.
Nhiều doanh nghiệp, bất kể quy mô, đều cần một chiến lược khoa học dữ liệu hiệu quả
để thúc đẩy tăng trưởng và duy trì lợi thế cạnh tranh. Một số lợi ích chính bao gồm:
khám phá các mẫu biến đổi tiềm ẩn; sáng tạo các sản phẩm và giải pháp mới; tối ưu
hóa trong thời gian thực;...
Mức độ nhân viên rời khỏi công ty luôn là một vấn đề được quan tâm của các công
ty, doanh nghiêp, đặc biệt là ngành quản trị nhân sự. Mức độ này thể hiện sự ổn định
của việc kinh doanh của công ty và các quản lí nhân sự của một cơng ty, doanh nghiệp.
HR (Human Resources) là ngành quản trị nhân sự. Những công việc của HR liên quan
đến hoạt động tuyển dụng, lên kế hoạch triển khai các chính sách thích hợp để duy trì
nguồn nhân lực cho cơng ty và có kế hoạch bồi dưỡng phát triển năng lực các cá nhân,
phòng ban để có thể hồn thành tốt các cơng việc một cách hiệu quả nhất. Mức độ rời
bỏ của nhân viên bị ảnh hưởng bởi các biến như: sự phù hợp với công việc, môi trường
làm việc, cơ hội phát triển, ổn định tài chính của doanh nghiệp…Từ các biến ảnh
hưởng này, nhóm chúng em quyết định thực hiện đề tài dựa trên các biến để đánh giá
mức độ và khả năng nhân viên có rời bỏ cơng ty hay không. Khoa học dữ liệu là ngành
khai phá, quản trị và phân tích dữ liệu để dự đốn các xu hướng trong tương lai và đưa
ra các quyết định, chiến lược.
Chúng em xin cảm ơn thầy Thái Kim Phụng – giảng viên môn Khoa học dữ liệu đã
giúp đỡ chúng em trong q trình học tập cũng như hồn thành bài nghiên cứu này.

2

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

I.
1.

GIỚI THIỆU

Lý do

 Nhân viên là nhân tố vô dùng quan trọng đối với một tổ chức, thậm chí chỉ bằng
sự hiện diện của họ trong đó, là tài sản vốn con người quan trọng nhất, là kết
quả phản ánh sự thành công của tổ chức. Khi nhân viên lựa chọn rời khỏi một
tổ chức, sự mất mát về nguồn lực, thơng tin hoặc kiến thức mà nhân viên đó sở
hữu tác động đến tổng thể tình hình của cơng ty. Để có được lợi thế so với các
tổ chức khác và dẫn đầu thị trường, giảm thiểu tối đa sự tiêu hao nhân lực
(Employee Attrition) là vô cùng cần thiết. Xu hướng tồn cầu hóa đã dẫn đến
việc huy động lực lượng lao động từ tổ chức này sang tổ chức khác, khu vực
này sang khu vực khác và đôi khi từ quốc gia này sang quốc gia khác. Do đó,
nó trở thành thách thức lớn nhất đối với các nhà tuyển dụng nhân sự trong việc
xử lý tình trạng mất đi những nhân viên có chun mơn của mình. Trong ngành
Nhân lực, thuật ngữ Employee Turnover và Employee Atrition có thể thay thế

cho nhau. Cả hai đều có nghĩa là cắt giảm nhân viên thông qua việc nghỉ hưu,
từ chức hoặc qua đời. Sự tiêu hao nhân lực là một vấn đề nghiêm trọng, đề cập
đến việc tự nguyện hoặc buộc phải chấm dứt công việc chuyên môn, điều này
ảnh hưởng đến thương hiệu và năng suất của tổ chức. Trong hầu hết các nghiên
cứu, người ta đã phát hiện ra rằng công việc liên quan đến nguyên nhân chính
dẫn đến tỷ lệ tiêu hao nhân lực cao hơn. Tỷ lệ tiêu hao cao dẫn đến tổn thất về
chi phí mà cơng ty đã bỏ ra cho việc tuyển dụng và đào tạo. Tác động của sự
tiêu hao nhân lực để lại ảnh hưởng tiêu cực lâu dài đối với tổ chức. Nói một
cách đơn giản, có thể nói rằng sự tiêu hao nhân lực là do khơng đáp ứng được
năng lực hoặc kỳ vọng của nhân viên hoặc không thực hiện được cam kết mà
công ty đã đồng ý với người lao động.
 Trong bài nghiên cứu này đề cập đến sự tiêu hao nhân lực của một cơng ty. Sự
tiêu hao nhân lực ảnh hưởng ít nhiều đến chiến lược tăng trưởng và cân bằng
nguồn lực của tổ chức. Cơ hội giảm đi, sự không hài lịng với cơng việc hoặc
mơi trường làm việc và cả những thách thức mà ban lãnh đạo phải đối mặt có
thể dẫn đến tỷ lệ tiêu hao nhân lực cao. Những vấn đề này cũng vơ tình cản trở
sự phát triển của tổ chức, do đó để tìm ra giải pháp cho tốc độ tiêu hao nguồn
nhân lực ngày càng tăng, nhóm chúng em xin đề xuất dự án nghiên cứu: “
3

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

Nghiên cứu và ứng dụng các phương pháp khai thác dữ liệu để dự đốn

khả năng rời cơng ty của nhân viên”.
2.

Mục tiêu nghiên cứu

Bài nghiên cứu “ Nghiên cứu và ứng dụng các phương pháp khai thác dữ liệu để
dự đốn khả năng rời cơng ty của nhân viên” nhằm tập trung vào những mục tiêu
được đề cập dưới đây:
•

Tiến hành phân tích các lý thuyết của khai phá dữ liệu nhằm tập trung làm
rõ những vấn đề của bài nghiên cứu.

•

Nghiên cứu về các phương pháp của cụ thể, phương pháp phân lớp dữ liệu
(phương pháp phân lớp đưa ra các dự báo, phân loại và cũng như phân lớp
các đối tượng). Nghiên cứu sẽ đưa các phương pháp phân lớp dữ liệu, và từ
đó sẽ chọn ra một phương pháp tối ưu và đảm bảo nhất cho q trình dự báo
dữ liệu.

•

Dựa trên mơ hình đã được huấn luyện trong quá trình nghiên cứu, đưa ra
được kết luận về mức độ rời bỏ doanh nghiệp của khách hàng cũng như các
cách thức cải thiện mức độ này.

3.

Đối tượng nghiên cứu

Nhân viên của một công ty. Bộ dữ liệu được thu thập và tạo ra bởi công ty công nghệ
IBM được đăng tải trên trang web kaggle bởi Prashant Patel. Tập dữ liệu bao gồm
thông tin dữ liệu thô chứa 1470 hàng dữ liệu (nhân viên) và 34 cột (đặc tính).
4.

Phương pháp nghiên cứu

4.1.

Phương pháp nghiên cứu lý luận

Thông tin, dữ liệu từ sách báo, tài liệu học tập được thu thập, chọn lọc và phân tích
nhằm đưa ra những khái niệm và quan điểm đúng nhất để xây dựng cơ sở lý thuyết
cho bài nghiên cứu, dự đốn về những thuộc tính của đối tượng nghiên cứu, xây dựng
những mơ hình lý thuyết ban đầu. Bao gồm:
•

Phương pháp phân tích – tổng hợp lý thuyết: từ nguồn tài liệu, sách báo có
được, sau đó đọc và tổng hợp để rút ra, chắt lọc những nội dung cần thiết
cho luận điểm của bài nghiên cứu.

•

Phương pháp mơ hình hóa: xây dựng mơ hình nghiên cứu dựa trên lý thuyết
và ứng dụng mơ hình để dự báo nhằm kiểm định tính chính xác của mơ
hình.

4

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

4.2.

Phương pháp nghiên cứu thực tiễn

Tiến hành vận dụng những lý thuyết đã được đưa ra vào các phương pháp nghiên cứu
thực tiễn:
•

Sử dụng các phương pháp thống kê, phân tích dữ liệu, ứng dụng mơ hình hồi

quy kinh tế định lượng để dự báo mơ hình kinh tế thơng qua chỉ số EPS với sự hỗ trợ
của các chương trình Orange và Excel.
•

Từ đó, xây dựng các mơ hình dự báo dựa vào bộ dữ liệu huấn luyện có sẵn và

so sánh các kết quả rút ra được với nhau nhằm lựa mơ hình phù hợp nhất nhằm giúp
các nhà đầu tư có quyết định chính xác hơn khi đầu tư hiệu quả.
5.

Ý nghĩa

Việc dự đoán khả năng rời bỏ công ty của nhân viên sẽ chỉ ra những hài lòng hoặc
chưa hài lòng của nhân viên đối với cơng ty. Từ đó cơng ty đưa ra những quan điểm,
chính sách phù hợp khơng chỉ để cải thiện việc đào tạo, chất lượng nguồn nhân lực mà
còn tăng giá trị thương hiệu.
II.

CƠ SỞ LÝ LUẬN

1. Khai phá dữ liệu
1.1.

Khai phá dự liệu là gì?

- Khai phá dữ liệu (Data Mining) là khai phá dữ liệu là quá trình phân loại, sắp
xếp các tập hợp dữ liệu lớn để xác định các mẫu và thiết lập các mối liên hệ
nhằm giải quyết các vấn đề nhờ phân tích dữ liệu. Các MCU khai phá dữ liệu
cho phép các doanh nghiệp có thể dự đốn được xu hướng tương lai.
- Q trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu
chuyên sâu cũng như các cơng nghệ tính tốn. Hơn nữa, Data Mining khơng
chỉ giới hạn trong việc trích xuất dữ liệu mà cịn được sử dụng để chuyển đổi,
làm sạch, tích hợp dữ liệu và phân tích mẫu.
1.2.

Các tính năng chính của khai phá dự liệu

- Có nhiều tham số quan trọng khác nhau trong Data Mining, chẳng hạn như quy
tắc kết hợp, phân loại, phân cụm và dự báo. Một số tính năng chính của Data
Mining:
 Dự đốn các mẫu dựa trên xu hướng trong dữ liệu.

 Tính tốn dự đốn kết quả
 Tạo thơng tin phản hồi để phân tích
5

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

 Tập trung vào cơ sở dữ liệu lớn hơn.
 Phân cụm dữ liệu trực quan
1.3.

Quy trình khai phá dữ liệu

- Quy trình khai phá dữ liệu bao gồm 7 bước quan trọng sau:
Bước 1: Làm sạch dữ liệu: Trong bước này, dữ liệu được làm sạch sao cho
khơng có tạp âm hay bất thường trong dữ liệu.

Hình 1. Làm sạch dữ liệu
Bước 2: Tích hợp dữ liệu: Trong quá trình tích hợp dữ liệu, nhiều nguồn dữ liệu sẽ
kết hợp lại thành một

6

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

Hình 2. Tích hợp dữ liệu
Bước 3: Lựa chọn dữ liệu: Trong bước này, dữ liệu được trích xuất từ cơ sở dữ liệu.

Hình 3. Lựa chọn dữ liệu
Bước 4: Chuyển đổi dữ liệu: Trong bước này, dữ liệu sẽ được chuyển đổi để thực
hiện phân tích tóm tắt cũng như các hoạt động tổng hợp.

7

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

Hình 4. Chuyển đổi dữ liệu
Bước 5: Khai phá dữ liệu: Trong bước này, trích xuất dữ liệu hữu ích từ nhóm dữ liệu
hiện có
Bước 6: Đánh giá mẫu: Phân tích một số mẫu có trong dữ liệu

Bước 7: Trình bày thông tin: Trong bước cuối cùng, thông tin sẽ được biểu hiện dưới
dạng cây, biểu đồ và ma trận.
Quy trình khai phá dữ liệu

Hình 5. Quy trình khai phá dữ liệu
Nguồn: insight.isb.edu.vn
1.4.

Phương pháp khai phá dữ liệu

8

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

- Phân lớp (Classification): Phương pháp sử dụng để dự báo dữ liệu thông qua bộ dữ
liệu huấn luyện, phân loại đối tượng. Nhóm chúng em sẽ sử dụng phương pháp khai
phá dữ liệu này trong bài để dự báo số liệu.
- Hồi quy (Regression): Mục đích chính của phương pháp hồi quy này là dùng để
khám phá và ánh xạ dữ liệu.
- Phân cụm (Clustering): Phương pháp phân cụm giúp việc mô tả dữ liệu trở nên dễ
dàng hơn bằng các xác định tập hợp hữu hạn các cụm với nhau.
- Tổng hợp (Summarization): Phương pháp này cho phép người làm tìm kiếm một mơ
tả nhỏ gọn.

- Mơ hình ràng buộc (Dependency modeling): Người làm sẽ tìm được mơ hình cục bộ
mơ tả các phụ thuộc dựa vào phương pháp mơ hình ràng buộc.
- Dị tìm biến đổi và độ lệch (Change and Deviation Dectection): Mục đích của
phương pháp này là để tìm ra những thay đổi quan trọng.
1.5.

Ứng dụng khai phá dữ liệu

- Khai phá dữ liệu tuy là một hướng tiếp cận mới nhưng lại thu hút được rất nhiều sự
quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của
nó. Một số ứng dụng điển hình của khai phá dữ liệu:
+ Lĩnh vực tài chính:
 Tăng độ trung thành của khách hàng bằng cách thu thập và phân tích dữ liệu
hành vi của khách hàng.
 Dự đoán hành vi của khách hàng để tung ra các dịch vụ và sản phẩm thích hợp
(lĩnh vực tài chính ở đây là lĩnh vực ngân hàng).
 Khám phá mối tương quan ẩn giữa các chỉ số tài chính khác nhau để phát hiện
ra các hoạt động đáng ngờ có rủi ro tiềm ẩn cao.
 Hỗ trợ xác định các hành động gian lận hoặc không gian lận bằng cách thu thập
dữ liệu lịch sử và sau đó biến đổi nó thành thơng tin hợp lệ và hữu ích.
+ Lĩnh vực chăm sóc sức khỏe
 Giúp các doanh nghiệp gia tăng lợi thế cạnh tranh bằng việc cung cấp các thơng
tin về chính phủ, quy định và đối thủ cạnh tranh.
 Hỗ trợ q trình R&D và sau đó là chiến lược tiếp cận thị trường với khả năng
tiếp cận thông tin nhanh chóng ở mọi giai đoạn.

9

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

 Tìm ra mối quan hệ giữa các loại bệnh và hiệu quả của phương pháp điều trị sẽ
giúp thay đổi các loại thuốc mới hoặc đảm bảo rằng bệnh nhân được chăm sóc
phù hợp, kịp thời.
 Hỗ trợ các công ty cung cấp dịch vụ bảo hiểm sức khỏe phát hiện gian lận hay
lạm dụng.
+ Lĩnh vực viễn thông
 Đạt được lợi thế cạnh tranh và giảm chi phí khách hàng bằng cách hiểu các đặc
điểm nhân khẩu học và dự đốn hành vi của khách hàng.
 Tăng lịng trung thành của khách hàng và cải thiện lợi nhuận bằng cách cung
cấp các dịch vụ tùy chỉnh.
 Hỗ trợ các chiến lược tiếp cận khách hàng bằng cách phát triển các chiến lược
marketing và định giá phù hợp.
+ Lĩnh vực Marketing và Sales
 Cho phép các doanh nghiệp hiểu các điều ẩn đằng sau dữ liệu giao dịch mua
bán của khách hàng. Từ đó, doanh nghiệp có thể lên kế hoạch và khơi động các
chiến dịch marketing mới.
 Giúp doanh nghiệp phân tích nhu cầu thị trường để hiệu về sản phẩm thường
được mua cùng nhau. Thông tin này giúp doanh nghiệp quảng bá sản phẩm có
lợi nhuận cao nhất và tối đa hóa lợi nhuận. Ngồi ra, ứng dụng của Data Mining
cịn khuyến khích khách hàng mua các sản phẩm liên quan.
+ Lĩnh vực thương mại điện tử
 Nhiều công ty thương mại điện tử áp dụng ứng dụng Data Mining để bán hàng
qua nhiều nước thông qua các trang web của họ (Một trong những công ty nổi

tiếng nhất ứng dụng điều hành này là Amazon. Họ sử dụng các kỹ thuật khai
phá dữ liệu để lái “những người đã xem sản phẩm đó cũng thích sản phẩm được
giới thiệu này”.)
+ Lĩnh vực giáo dục
 Gần đây có một lĩnh vực mới nổi, nó được gọi là khai phá dữ liệu giáo dục
(EDM). Nó khám phá kiến thức từ dữ liệu bắt nguồn từ môi trường giáo dục.
Mục tiêu của EDM được xác định là dự đoán hành vi học tập của học sinh trong
tương lai

10

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

 Tuy nhiên, ứng dụng của Data Mining trong lĩnh vực giáo dục vẫn chưa thực sự
được phát huy mạnh mẽ trong thời điểm hiện tại. Cõ lẽ bởi vì sự mới mẻ của
Data Mining ở Việt Nam, cũng như những chi phí nhất định cho việc áp dụng
kỹ thuật này vào hệ thống giáo dục.
+ Lĩnh vực kỹ thuật sản xuất
 Khám phá các mẫu (patterns) trong quy trình sản xuất phức tạp. Ngồi ra, nó
cịn được dùng để dự đốn thời gian phát triển sản phẩm, chi phí.
+ Các ứng dụng khoa học khác
 Kho dữ liệu và tiền xử lý dữ liệu (Data Warehouses and data preprocessing).
 Khai thác dựa trên đồ thị (Graph-based mining).

 Hình dung và kiến thức cụ thể miền (Visualization and domain-specific
knowledge).
1.6.

Công cụ khai phá dữ liệu trong bài nghiên cứu Orange.

- Khai phá dữ liệu là những lĩnh vực khá khó dể khám phá và nghiên cứu. Do đó,
nhiều phần mềm đã ra đời với mục tiêu giúp cho người dùng có thể dễ dàng nghiên
cứu các bài toán trong những lĩnh vực khó nhằn này. Một trong những phần mềm có
thể kể đến là Orange.
- Phần mềm Orange biết đến bởi việc tích hợp các cơng cụ khai phá dữ liệu mã nguồn
mở và học máy thông minh, đơn giản, được lập trình bằng Python với giao diện trực
quan và tương tác dễ dàng. Với nhiều chức năng, phần mềm này có thể phân tích được
những dữ liệu từ đơn giản đến phức tạp, tạo ra những đồ họa đẹp mắt và thú vị và còn
giúp việc khai thác dữ liệu trở nên dễ dàng hơn cho cả người dùng mới và chuyên gia.
- Các công cụ (widgets) cung cấp các chức năng cơ bản như đọc dữ liệu, hiển thị dữ
liệu dạng bảng, lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự
đoán, so sánh các thuật tốn máy hoc, trực quan hóa các phần tử dữ liệu, …. Vì vậy,
nhóm chúng em quyết định chọn phần mềm Orange để phục vụ cho bài nghiên cứu.
2. Phân lớp dữ liệu
2.1.

Khái niệm phân lớp dữ liệu

Phân lớp dữ liệu chính là một trong những hướng nghiên cứu chính của khai phá dữ
liệu. Phân lớp dữ liệu là quá trình phân các đối tượng vào một hay nhiều lớp đã cho
trước nhờ vào một mơ hình phân lớp. Mơ hình này được xây dựng dựa trên một tập dữ
liệu đã được gán nhãn trước đó. Q trình gán nhãn cho đối tượng dữ liệu chính là quá
11

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

trình phân lớp dữ liệu. Phân lớp và dự đốn là một trong hai dạng của phân tích dữ liệu
nhằm rút ra một mơ hình mơ tả các lớp dữ liệu quan trọng hoặc dự đoán xu hướng của
dữ liệu trong tương lai.
2.2.

Quy trình phân lớp dữ liệu

2.2.1. Xây dựng mơ hình phân lớp (Learning)
Q trình học nhằm xây dựng một mơ hình mơ tả một tập các lớp dữ liệu hay các
khái niệm định trước. Đầu vào của quá trình này là một tập dữ liệu có cấu trúc được
mơ tả bằng các thuộc tính và được tạo ra từ tập các bộ giá trị của các thuộc tính đó.
Mỗi bộ giá trị được gọi chung là một phần tử dữ liệu (data tuple), có thể là các mẫu
(sample), ví dụ (example), đối tượng (object), bản ghi (record) hay trường hợp (case).
Khoá luận sử dụng các thuật ngữ này với nghĩa tương đương. Trong tập dữ liệu này,
mỗi phần tử dữ liệu được giả sử thuộc về một lớp định trước, lớp ở đây là giá trị của
một thuộc tính được chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class
label attribute). Đầu ra của bước này thường là các quy tắc phân lớp dưới dạng luật
dạng if-then, cây quyết định (Decision Tree), hồi quy logic (Logistic Regression), hay
mạng nơron (Neural Network), SVM (Support Vector Machine),…Quá trình này được
mơ tả như trong hình 1

Hình 6. Q trình phân lớp dữ liệu - a) Bước xây dựng mơ hình phân lớp
Nguồn: Nguyễn Thị Thuỳ Linh – Đại học công nghệ, Đại học Quốc gia Hà Nội
2.2.2. Ước lượng độ chính xác của mơ hình và phân lớp dữ liệu mới
* Ước lượng độ chính xác của mơ hình
12

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

•

Đầu vào là một tập dữ liệu mẫu được chọn ngẫu nhiên và độc lập với các
mẫu trong tập dữ liệu huấn luyện, cũng đã được gán nhãn và tiền xử lý.

•

Bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân
lớp từ mô hình, ta dễ dàng xác định được tính đúng đắn của mơ hình.
Holdout là một kỹ thuật đơn giản để ước lượng tính đúng đắn này dựa trên
tỷ lệ phần trăm các các mẫu trong tập dữ liệu dự báo được mơ hình phân lớp
đúng (so với thực tế). Kết quả của bước này là mơ hình sẽ được sử dụng để
phân lớp những dữ liệu cần thiết trong tương lai, hoặc những dữ liệu mà giá
trị của thuộc tính phân lớp là chưa biết nếu của mơ hình phù hợp và có độ
chính xác cao.

Hình 7. Q trình phân lớp dữ liệu - b) Ước lượng độ chính xác của mơ hình
Nguồn: Nguyễn Thị Thuỳ Linh – Đại học công nghệ, Đại học Quốc gia Hà Nội
* Phân lớp dữ liệu mới
Dữ liệu đầu vào là dữ liệu “khuyết” thuộc tính cần dự đốn lớp (nhãn). Mơ hình sẽ tự
động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn
luyện ở bước xây dựng mơ hình phân lớp.

13

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

Hình 8. Quá trình phân lớp dữ liệu - b) Phân lớp dữ liệu mới
Nguồn: Nguyễn Thị Thuỳ Linh – Đại học công nghệ, Đại học Quốc gia Hà Nội
2.3.

Các phương pháp phân lớp dữ liệu

2.3.1. Hồi quy Logistic ( Logistic Regression)
Hồi quy Logistic là một phương pháp thống kê để các giá trị đầu ra rời rạc được dự
báo thông qua một tập các giá trị đầu vào. Thuật toán này sử các hàm được gọi là hàm
logit, được biểu diễn dưới dạng vector, bằng cách dự đoán xác suất hoặc cơ hội xảy ra
giúp suy ra mối quan hệ giữa biến phụ thuộc và các biến độc lập.

Hồi quy logistic được áp dụng từ đầu thế kỷ XX trong ngành khoa học sinh học. Sau
đó mở rộng ra các ngành khoa học xã hội và được sử dụng khi biến phụ thuộc là phân
loại.
Có 3 dạng hồi quy Logistic:
•

Hồi quy logistic nhị phân: Biến phụ thuộc chỉ có hai 2 kết quả / lớp có thể
xảy ra.

•

Hồi quy logistic đa thức: Biến phụ thuộc chỉ có hai hoặc 3 kết quả/lớp trở
lên có thể có mà thứ tự được xếp ngẫu nhiên.

•

Hồi quy logistic thơng thường: Biến phụ thuộc chỉ có hai hoặc nhiều hơn 3
kết quả / lớp có thể có được xếp theo đúng thứ tự.

14

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

Hình 9. Phương pháp hồi quy Logistic

Hình 10. Mơ hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic
2.3.2. SVM (Support Vector Machine)
•

SVM là một kỹ thuật trong khai phá dữ liệu để chỉ một tập hợp các thuật
tốn có giám sát bằng cách nhận dữ liệu vào, xem chúng như những các
vector trong không gian. Bằng cách xây dựng một siêu phẳng trong không
gian nhiều chiều làm mặt phân cách các lớp dữ liệu, thuật toán này giúp ph
ân loại chúng vào hai lớp khác nhau Theo cách nhìn trực quan, để kết quả
phân lớp có tính đúng đắn cao nhất, chúng ta cần phải xác định siêu phẳng
(hyperplane) nằm ở càng xa các điểm dữ liệu của tất cả các lớp (hàm lề)
càng tốt vì nói chung lề càng lớn thì sai số tổng qt hóa của kỹ thuật phân
loại càng bé.

•

Do đó SVM là một thuật toán phân loại nhị phân. Với bộ dữ liệu huấn luyện
có hai thuộc tính sẵn có, SVM xây dựng một mơ hình để phân loại các dữ

15

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

liệu dự báo vào hai thuộc tính. Hiện nay, thuật toán này ra đời rất nhiều biến
thể để phù hợp với các bài toán phân lớp khác nhau và cũng có thể được sử
dụng cho hồi quy hoặc các nhiệm vụ khác.

Hình 11. Minh họa thuật tốn phân lớp Support Vector Machine (SVM)
Nguồn: Ông Xuân Hồng (2015). Support vector machine (SVM) hỏi gì đáp nấy.
2.3.3. Cây quyết định (Decision Tree)
Cây quyết định được định nghĩa theo nhiều cách tùy vào từng khía cạnh:
•

Trong lý thuyết quản trị, cây quyết định là một đồ thị của các quyết định
cùng các kết quả đi kèm có thể của nó và là một dạng đặc biệt của cấu trúc
cây. Nó được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu
mong muốn cũng như hỗ trợ quá trình ra quyết định.

•

Trong lĩnh vực khai phá dữ liệu, đây được xem là sự kết hợp hồn hảo của 2
khía cạnh: kỹ thuật tốn học và tính tốn nhằm hỗ trợ cho việc mơ tả, phân
loại và tổng qt hóa tập dữ liệu đầu vào. Khi đó, cây quyết định mơ tả một
cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện
cho các kết hợp của các thuộc tính dẫn tới phân loại đó.

•

Một tập dữ liệu có thế được biểu diễn bởi nhiều cây quyết định tương ứng.
Cuối cùng, cây nào ngắn gọn nhất sẽ được lựa chọn (theo nguyên lý
Ockham’s Razor).

16

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

Hình 12. Phương pháp cây ra quyết định
2.3.4. Neural Network
•

Mạng Neural, còn được gọi là mạng nơ-ron nhân tạo hoặc mạng nơ-ron mô
phỏng, là một tập hợp con của học máy và là trung tâm của các thuật toán
học sâu. Tên và cấu trúc của chúng được lấy cảm hứng từ não người, bắt
chước cách các tế bào thần kinh sinh học truyền tín hiệu cho nhau.

•

Mạng Neural nhân tạo bao gồm một lớp nút, chứa một lớp đầu vào, một
hoặc nhiều lớp ẩn và một lớp đầu ra. Mỗi nút, hoặc nơ-ron nhân tạo, kết nối
với một nút khác và có trọng số và ngưỡng liên quan. Nếu đầu ra của bất kỳ
nút riêng lẻ nào vượt quá giá trị ngưỡng được chỉ định, nút đó sẽ được kích
hoạt, gửi dữ liệu đến lớp tiếp theo của mạng. Nếu khơng, khơng có dữ liệu
nào được chuyển đến lớp tiếp theo của mạng.

17

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

Hình 13. Phương pháp Neural Network
2.4.

Chi tiết mơ hình khai phá dữ liệu bằng phương pháp hồi quy Logistic

Như đã tìm hiểu về khái niệm của hồi quy Logistic ở mục 2.3 (các phương pháp phân
lớp dữ liệu), bây giờ chúng ta sẽ tìm hiểu chi tiết hơn về hồi quy Logistic.
Phân loại: Ba loại hồi quy logistic là:
•

Hồi quy logistic nhị phân là kỹ thuật thống kê được sử dụng để dự đoán mối
quan hệ giữa biến phụ thuộc (Y) và biến độc lập (X), trong đó biến phụ
thuộc có bản chất là nhị phân. Ví dụ, kết quả đầu ra có thể là Thành cơng /
Khơng thành cơng, 0/1, Đúng / Sai hoặc Có / Khơng. Đây là loại hồi quy
logistic mà chúng tôi đã tập trung vào trong bài đăng này.

•

Hồi quy logistic đa thức được sử dụng khi bạn có một biến phụ thuộc phân

loại với hai hoặc nhiều mức khơng có thứ tự (tức là hai hoặc nhiều kết quả
rời rạc). Nó rất giống với hồi quy logistic ngoại trừ việc ở đây bạn có thể có
nhiều hơn hai kết quả có thể xảy ra. Ví dụ: hãy tưởng tượng rằng bạn muốn
dự đốn loại phương tiện giao thông được sử dụng nhiều nhất vào năm
2030. Loại phương tiện giao thông sẽ là biến phụ thuộc, với các đầu ra có
thể có là xe lửa, xe bt, xe điện và xe đạp (ví dụ).

•

Hồi quy logistic thứ tự được sử dụng khi biến phụ thuộc (Y) có thứ tự (tức
là thứ tự). Biến phụ thuộc có một thứ tự có ý nghĩa và nhiều hơn hai danh
mục hoặc cấp độ. Ví dụ về các biến như vậy có thể là kích thước áo phơng
(XS / S / M / L / XL), câu trả lời trong cuộc thăm dị ý kiến (Đồng ý / Khơng
đồng ý / Trung lập) hoặc điểm số trong bài kiểm tra (Kém / Trung bình /
Tốt).

- Ưu điểm:
•

Hồi quy logistic dễ thực hiện hơn nhiều so với các phương pháp khác, đặc
biệt là trong Machine Learning: Mơ hình Machine Learning có thể được mơ
tả như một mơ tả tốn học của một quá trình trong thế giới thực. Quá trình
thiết lập mơ hình học máy u cầu đào tạo và thử nghiệm mơ hình. Huấn
luyện là q trình tìm kiếm các mẫu trong dữ liệu đầu vào, để mơ hình có
thể ánh xạ một đầu vào cụ thể (ví dụ, một hình ảnh) tới một loại đầu ra nào
đó, chẳng hạn như một nhãn. Hồi quy logistic dễ đào tạo và triển khai hơn
so với các phương pháp khác.

18

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

•

Hồi quy logistic hoạt động tốt đối với các trường hợp tập dữ liệu có thể phân
tách tuyến tính: Tập dữ liệu được cho là có thể phân tách tuyến tính nếu có
thể vẽ một đường thẳng có thể tách hai lớp dữ liệu khỏi nhau. Hồi quy
logistic được sử dụng khi biến Y của bạn chỉ có thể nhận hai giá trị và nếu
dữ liệu có thể phân tách tuyến tính, thì việc phân loại nó thành hai lớp riêng
biệt sẽ hiệu quả hơn.

•

Hồi quy logistic cung cấp những hiểu biết hữu ích: Hồi quy logistic khơng
chỉ cho phép đo lường mức độ liên quan của một biến độc lập (tức là (kích
thước hệ số), mà cịn cho chúng ta biết về hướng của mối quan hệ (tích cực
hoặc tiêu cực). Hai biến được cho là có một liên kết tích cực khi sự gia tăng
giá trị của một biến số cũng làm tăng giá trị của biến số khác. Ví dụ: bạn
càng dành nhiều giờ tập luyện, bạn càng trở nên giỏi hơn trong một môn thể
thao cụ thể. Tuy nhiên: Điều quan trọng là phải biết mối tương quan đó Nói
cách khác, hồi quy logistic có thể cho bạn thấy rằng có mối tương quan
thuận giữa nhiệt độ ngoài trời và doanh số bán hàng, nhưng điều này khơng
nhất thiết có nghĩa là doanh số bán hàng tăng do nhiệt độ.

- Nhược điểm:
•

Hồi quy logistic khơng dự đoán được kết quả liên tục. Hãy xem xét một ví
dụ để hiểu rõ hơn về hạn chế này. Trong các ứng dụng y tế, hồi quy logistic
không thể được sử dụng để dự đoán nhiệt độ của bệnh nhân viêm phổi sẽ
tăng cao như thế nào. Điều này là do quy mô đo lường là liên tục (hồi quy
logistic chỉ hoạt động khi biến phụ thuộc hoặc biến kết quả là lưỡng phân).

•

Hồi quy logistic giả định tính tuyến tính giữa biến dự đốn (phụ thuộc) và
biến dự báo (độc lập). Tại sao đây là một hạn chế? Trong thế giới thực, rất
khó có khả năng các quan sát được phân tách tuyến tính. Hãy tưởng tượng
bạn muốn phân loại cây diên vĩ thành một trong hai họ: sentosa hoặc
versicolor. Để phân biệt giữa hai loại, bạn sẽ phân biệt kích thước cánh hoa
và kích thước đài hoa. Bạn muốn tạo ra một thuật toán để phân loại cây diên
vĩ, nhưng thực sự khơng có sự phân biệt rõ ràng — một cánh hoa kích thước
2cm có thể đủ tiêu chuẩn cho cây trồng cho cả hai loại màu xanh lá và màu
sắc. Vì vậy, trong khi dữ liệu có thể phân tách tuyến tính là giả định cho hồi
quy logistic, trên thực tế, nó khơng phải lúc nào cũng thực sự khả thi.

19

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

•

Hồi quy logistic có thể khơng chính xác nếu kích thước mẫu quá nhỏ. Nếu
kích thước mẫu ở mức nhỏ, thì mơ hình được tạo ra bằng hồi quy logistic
dựa trên số lượng quan sát thực tế nhỏ hơn. Điều này có thể dẫn đến trang bị
quá nhiều. Trong thống kê, overfitting là một lỗi mơ hình hóa xảy ra khi mơ
hình q khớp với một bộ dữ liệu hạn chế vì thiếu dữ liệu đào tạo. Hay nói
cách khác, khơng có đủ dữ liệu đầu vào để mơ hình tìm ra các mẫu trong đó.
Trong trường hợp này, mơ hình khơng thể dự đốn chính xác kết quả của
một tập dữ liệu mới hoặc trong tương lai.

2.5.

Các phương pháp đánh giá mơ hình phân lớp

2.5.1. Ma trận nhầm lẫn (Confusion Matrix) và độ chính xác (Accuracy); ROC, AUC,
Precision/Recall, F1-score
* Ma trận nhầm lẫn (Confusion Matrix)
•

Ma trận nhầm lẫn là ma trận chỉ ra trong một lớp cụ thể, dự đốn có bao
nhiêu điểm dữ liệu thực sự thuộc về nó và rơi vào lớp nào. Phương pháp này
là có kích thước k x k với k là số lượng lớp của dữ liệu.

•

Đây là một trong những kỹ thuật đo lường hiệu suất được sử dụng rộng rãi,
đặc biệt là cho các mơ hình phân loại.

Hình 14. Minh họa phương pháp ma trận nhầm lẫn (Confusion matrix)
Nguồn: Sang Hà Ngọc (2021). Confusion Matrix/Ma trận nhầm lẫn/Ma trận lỗi.
Giả sử lớp A là lớp tích cực và lớp B là lớp tiêu cực. Các thuật ngữ chính của ma trận
nhầm lẫn như sau:
•

Tích cực thực sự (TP) : Dự đốn lớp tích cực là tích cực.

20

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

•

Tích cực giả (FP) : Dự đốn lớp phủ định là tích cực.

•

Phủ định giả (FN) : Dự đốn lớp tích cực là tiêu cực.

•

Phủ định thực (TN) : Dự đốn lớp phủ định là tiêu cực.

* Độ chính xác (Accuracy)
Accuracy có thể hiểu là là tỉ lệ giữa số mẫu dự đoán đúng với tổng số mẫu trong tập
dữ liệu được tính ra mà khơng chỉ ra được chính xác mỗi loại được phân lớp như thế
nào, phân loại đúng nhiều nhất thuộc về lớp nào và dữ liệu thường bị phân loại nhầm
vào lớp khác đang nằm ở lớp nào.
Tuy nhiên, nó vẫn có thể giúp chúng ta ta đánh giá hiệu quả dự báo của mơ hình trên
một bộ dữ liệu. Độ chính xác càng cao thì mơ hình càng chuẩn xác.
*Precision, Recall, F1 – score
•

Precision (độ chính xác) cho biết tỉ lệ số điểm true positive (TP) trong số
những điểm được phân loại là positive (TP + FP)

•

Recall (độ phủ) hay độ nhạy (sensitivity) hay TPR (True Positive Rate) là tỉ
lệ giữa số điểm true positive (TP) và những điểm thực sự là positive (TP +
FN).

•

F1- score là giá trị trung bình điều hịa của hai độ đo Precision và Recall.

=> F1 có giá trị gần với giá trị nhỏ hơn giữa 2 giá trị Precision và Recall và F1 càng
lớn nếu cả 2 giá trị Precision và Recall đều lớn cho thấy độ tin cậy của mơ hình cao
hơn.

* ROC (Receiver Operating Characteristic) và AUC (Area Under the Curve)
ROC là một đồ thị được sử dụng khá phổ biến trong đánh giá các mơ hình phân loại
nhị phân. Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive
rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khác nhau.
Một mơ hình hiệu quả khi có ROC càng tiệm cận với điểm (0;1) hay có TPR cao và
FPR thấp thì mơ hình càng phù hợp.

21

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

Hình 15. Minh họa phương pháp ROC (Receiver Operating Characteristic)
Nguồn: ResearchGate. COVID_MTNet: COVID-19 Detection with Multi-Task Deep
Learning Approaches.
Còn AUC là phần diện tích nằm dưới đường cong ROC và có giá trị là một số dương
nhỏ hơn hoặc bằng 1. Giá trị này càng lớn thì độ chính xác của mơ hình càng cao.

Hình 16. Minh họa phương pháp AUC (Area Under the Curve)
Nguồn: Joakim Warholm (2021). Detecting Unhealthy Comments in Norwegian using
BERT. Faculty of Science and Technology Department of Physics and Technology, 3 –
67.
22

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

2.5.2. Cross Validation: K-fold và Holdout
•

Phương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập
theo 1 tỷ lệ nhất định. Ví dụ, tập huấn luyện chiếm 70% và tập thử nghiệm
chiếm 30%. Phương pháp này khi sử dụng cho các tập dữ liệu lớn thường
cho hiệu quả khả quan hơn. Tuy nhiên, ở các tập dữ liệu nhỏ hoặc vừa phải,
kết quả của mơ hình chưa có độ chính xác cao vì mẫu dữ liệu nhỏ sẽ khơng
mang tính đại diện cho tổng thể. Đây cũng là nhược điểm của Hold-out.
Nhưng ta vẫn có thể khắc phục bằng cách điều chỉnh cách chia cũng như tỷ
lệ chia mẫu dữ liệu sao cho mỗi lớp được phân bố đều trong cả 2 tập dữ liệu
huấn luyện và đánh giá hoặc lấy mẫu ngẫu nhiên rồi thực hiện phương pháp
k lần với độ chính xác acc(M) = trung bình cộng k giá trị chính xác.

•

Phương pháp K-fold cross validation phân chia dữ liệu thành k tập con có
cùng kích thước (gọi là các fold), trong đó sử dụng một trong các fold làm
tập dữ liệu dự báo và phần còn lại làm tập dữ liệu huấn luyện. Quá trình này
lặp lại cho đến khi tất cả các fold đều đã được dùng làm tập dữ liệu đánh
giá. So với Phương pháp Hold-out, phương pháp này thường được ưa

chuộng hơn do mơ hình sẽ được huấn luyện và dự báo trên nhiều phần dữ
liệu khác nhau. Từ đó mơ hình có độ tin cậy càng cao.
III.

PHÂN TÍCH

1. Sơ lược về thị trường nguồn nhân lực hiện nay
Hiện nay, cuộc Cách mạng công nghiệp lần thứ tư đã làm nên những đặc trưng của
nền kinh tế số - dựa trên dữ liệu lớn, internet vạn vật, trí tuệ nhân tạo, tạo nên một mơ
hình sản xuất, kinh doanh sáng tạo hết sức đa dạng cho doanh nghiệp. Hơn nữa, kinh
tế chia sẻ đã khiến cho nguồn lực của doanh nghiệp hoàn toàn thay đổi với việc
chuyển sang nguồn nhân lực số. Do đó, phát triển nguồn nhân lực số trở thành xu
hướng phát triển tất yếu trong thời gian tới.
Chuyển đổi số đang diễn ra với tốc độ nhanh chưa từng có, mang lại cơ hội mới thúc
đẩy các doanh nghiệp phát triển vượt bậc. Các nhà lãnh đạo doanh nghiệp đã nhận
thấy tác động tích cực từ chuyển đổi số, đặc biệt là nguồn nhân lực số. Nhiều cơng
việc sẽ được tự động hóa với các robot tiên tiến và trí tuệ nhân tạo sẽ thúc đẩy những
thay đổi lớn nhằm nâng cao năng suất của nhân viên và hiệu quả kinh doanh.

23

0

0

Downloaded by hây hay ()

lOMoARcPSD|17838488

Cơng việc và quy trình làm việc sẽ được thiết lập lại, nhân viên sẽ được giải phóng để
tập trung vào các nhiệm vụ mang lại giá trị lớn hơn cho doanh nghiệp. Trong khi đó,
dữ liệu và phân tích về nguồn lực lao động sẽ giúp doanh nghiệp đưa ra các quyết định
kinh doanh nhanh chóng, có đầy đủ thông tin, dựa trên những minh chứng về dịch vụ,
năng suất và hiệu quả.
Đại dịch COVID-19 là cú hích tạo ra một sự thay đổi căn bản về môi trường làm
việc, thúc đẩy nhu cầu về lực lượng lao động có khả năng thích ứng và độ linh hoạt
cao giúp doanh nghiệp vẫn giữ vững và phát triển bất kể có biến động lớn ra sao.
Theo nghiên cứu về “Xu hướng Nhân tài Toàn cầu năm 2021” của Mercer, tác động
tài chính và gián đoạn cuộc sống cơng việc do đại dịch gây ra đã thúc đẩy các nhà
tuyển dụng ở Đông Nam Á (Indonesia, Thái Lan, Malaysia và Philippines) tập trung
vào việc xác định nhu cầu nguồn nhân lực trong tương lai bằng nhiều cách đồng thời
như tái cơ cấu (48%) và tích cực đào tạo lại nhân lực vào năm 2021 (39%) để sẵn sàng
cho việc kinh doanh. 32% doanh nghiệp ưu tiên tái tạo lại hoạt động kinh doanh bền
vững, tức là trách nhiệm của tổ chức đối với cộng đồng, đảm bảo lợi ích của người tiêu
dùng, nhân viên và môi trường cũng được tối đa hóa.
Tại Việt Nam, chính phủ đã đưa ra các nghị định và chủ trương về Chuyển đổi số của
Việt Nam với mục tiêu kinh tế số có thể chiếm 20% tỉ trọng GDP quốc gia vào năm
2025, phấn đấu 30% vào năm 2030. Một trong các mục tiêu lớn đến năm 2025 là
100% doanh nghiệp được nâng cao nhận thức về chuyển đổi số. Có thể nói, đây là giai
đoạn khẩn trương để đào tạo và phát triển nguồn lực số liên tục đáp ứng cho toàn bộ
các doanh nghiệp và các cơ quan bộ ban ngành, giúp chuẩn bị cho sự phát triển vượt
bậc trong tương lai của Việt Nam.
2. Mơ hình nghiên cứu đề xuất
- Mơ tả dữ liệu: trong các cột dữ liệu, cột Attrition là mục tiêu của bài nghiên cứu, cho
biết nhân viên có rời bỏ hay không. Trong bài này, sinh viên sử dụng 68% dữ liệu để
huấn luyện và 32% để kiểm tra dữ liệu.
- Mơ tả các biến
Tên cột
Attrition

Miêu tả đặc tính
Nhân viên lựa chọn rời bỏ công ty hay

Age
Business Travel

không? ( Yes/No)
Sổ tuổi
Đi công tác thường xuyên hay không?

24

0

0

Downloaded by hây hay ()

Nghiên cứu và ứng dụng các phương pháp khai thác dữ liệu để dự đoán khả năng rời công ty của nhân viên

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về