BÁO CÁO BÀI TẬP LỚN
PHÂN TÍCH NGHIỆP VỤ THƠNG MINH
ĐỀ TÀI: DỰ ĐOÁN KHẢ NĂNG NGHỈ
VIỆC
CỦA NHÂN VIÊN TRONG CƠNG TY
Giáo viên hướng dẫn: TS. Nguyễn Bình Minh
Sinh viên thực hiện: Nguyễn Hồng
Thuận
2017339
3
Nguyễn Đức Thắng
2019417
0
Phạm Văn Nam
2018359
8
Chu Thành Đơ
2019401
8
3
NỘI DUNG
1. Giới thiệu đề tài
2. Mơ hình đề xuất
3. Cơ sở lý thuyết
4. Kết quả thực nghiệm
5. Tổng kết
4
1. Giới thiệu đề tài
Nhân viên nghỉ việc là một vấn đề
gây nhiều hao tổn cho công ty
Theo thống kê, các công ty thường
phải trả khoảng 1/5 tiền lương để
thay thế một nhân viên
Nắm bắt được tại sao và khi nào
nhân viên có khả năng nghỉ việc
cao có thể giúp nhà quản lý đưa ra
các phương án hành động phù hợp
5
2. Mơ hình đề xuất
Mơ hình sử dụng:
• Mơ hình hồi quy tuyến tính
• Mơ hình SVM
• Mơ hình Gradient Bootsting
• Mơ hình rừng ngẫu nhiên
6
3. Cơ sở lý thuyết
3.1. Mơ hình hồi quy tuyến tính
3.2. Support Vector Machine - SVM
3.3. Mơ hình Gradient Boosting
3.4. Rừng ngẫu nhiên
7
3.1. Mơ hình hồi quy tuyến tính
• Mục tiêu: Tìm một ánh xạ từ
không gian dữ liệu đầu vào sang
không gian dữ liệu nhãn đầu ra:
hay
Với hồi quy tuyến tính thì
một hàm tuyến tính
là
8
3.1. Mơ hình hồi quy tuyến tính
• Giả sử :
vector hàng của input data
vector cột trọng số cần tìm
nhãn dữ liệu đầu ra
Khi đó hàm có dạng:
9
3.1. Mơ hình hồi quy tuyến tính
• Hàm mất mát:
• L1 – Least absolute deviations:
• L2 – Least absolute deviations:
10
3.2. Support Vector Machine - SVM
SVM là thuật tốn
Supervised Learning
thuộc
nhóm
Mục tiêu: Tìm ra một siêu phẳng trong
khơng gian N chiều chia dữ liệu thành
hai phần tương ứng với lớp của nó
Tối ưu trong SVM: Siêu phẳng tìm
được phải có lề cực đại, khoảng cách
tới các điểm của hai lớp là lớn nhất
11
3.2. Support Vector Machine - SVM
• Giả sử:
• Các cặp dữ liệu của training set:
• và thể hiện đầu vào và nhãn của điểm dữ liệu
• với điểm thuộc class 1, với điểm thuộc class 2
Cần tìm một siêu phẳng có phương trình
12
3.2. Support Vector Machine - SVM
• Khoảng cách từ điểm bất kỳ tới mặt phân chia:
Margin là khoảng cách gần nhất từ một điểm tới mặt đó:
13
3.2. Support Vector Machine - SVM
• Bài tốn tối ưu SVM là tìm và sao cho margin cực đại:
Nếu bài tốn thỏa mãn tiêu chuẩn Slater, nghiệm của bài
tốn chính là nghiệm của hệ điều kiện KKT
14
3.3. Mơ hình Gradient Boosting
Là một mơ hình tạo ra một loạt
các mơ hình phân loại yếu
Mơ hình sinh ra sau sẽ được học
để hạn chế các sai lầm của mơ
hình sinh ra trước
Gồm 2 loại Boosting: Adaptive
Boosting và Gradient Boosting
15
3.3. Mơ hình Gradient Boosting
• Đặc điểm:
• Boosting là một q trình tuần tự, khơng thể xử lý song
song Thời gian train tương đối lâu
• Sau mỗi vịng lặp, error có thể giảm theo cấp số nhân
• Boosting sẽ hoạt động tốt nếu base learner không quá
phức tạp cũng như error khơng thay đổi q nhanh
• Boosting giúp giảm giá trị bias cho các model base learner
16
3.3. Mơ hình Gradient Boosting
• Mơ hình Boosting được phát biểu bằng bài tốn tối ưu sau:
Trong đó:
• là loss function
• là label
• là confidence score của weak learner thứ n
• là weak learner thứ n
17
3.3. Mơ hình Gradient Boosting
• Cơng thức cập nhật tham số theo hướng giảm của đạo hàm:
Áp dụng tương tự cho phương pháp Gradient Boosting:
18
3.3. Mơ hình Gradient Boosting
19
3.4. Rừng ngẫu nhiên
Cây quyết định là một cây phân cấp có cấu trúc được dùng
để phân lớp các đối tượng dựa vào dãy các luật
20
3.4. Rừng ngẫu nhiên
Rừng ngẫu nhiên là một thuật toán học máy có giám sát, sử
dụng các cây quyết định làm nền tảng
21
3.4. Rừng ngẫu nhiên
Ưu điểm: Có thể sử dụng cho cả bài toán phân loại và hồi quy,
tránh overfitting, làm việc được với dữ liệu bị thiếu giá trị
Rừng ngẫu nhiên hoạt động bằng cách đánh giá nhiều cây
quyết định ngẫu nhiên
Sau khi đánh giá, rừng ngẫu nhiên lấy ra kết quả được đánh giá
tốt nhất trong kết quả trả về
22
4. Kết quả thực nghiệm
4.1. Giới thiệu về bộ dữ liệu
4.2. Phân tích bộ dữ liệu
4.3. Tiền xử lý dữ liệu
4.4. Kết quả
23
4.1. Giới thiệu về bộ dữ liệu
File csv gồm 1470 điểm dữ liệu, công bố trên cuộc thi Kaggle:
/>cs-attrition-dataset
Chứa thông tin về các nhân viên làm việc cho công ty gồm:
bằng cấp, mức độ hài lịng với mơi trường, cơng việc, lương,
…
Mục tiêu của cuộc thi yêu cầu cần dự đốn chính xác một
nhân viên của cơng ty có quyết định nghỉ việc hay không
24
4.2. Phân tích bộ dữ liệu
Bộ dữ liệu gồm 1470 dòng và 35 cột, tương ứng với 1470 bản
ghi và 35 trường:
25