BÁO CÁO BÀI TẬP LỚN PHÂN TÍCH NGHIỆP VỤ THÔNG MINH ĐỀ TÀI DỰ ĐOÁN KHẢ NĂNG NGHỈ VIỆC CỦA NHÂN VIÊN TRONG CÔNG TY

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.29 MB, 45 trang )

BÁO CÁO BÀI TẬP LỚN
PHÂN TÍCH NGHIỆP VỤ THƠNG MINH

ĐỀ TÀI: DỰ ĐOÁN KHẢ NĂNG NGHỈ
VIỆC
CỦA NHÂN VIÊN TRONG CƠNG TY
Giáo viên hướng dẫn: TS. Nguyễn Bình Minh
Sinh viên thực hiện: Nguyễn Hồng
Thuận

2017339
3

Nguyễn Đức Thắng

2019417
0

Phạm Văn Nam

2018359
8

Chu Thành Đơ

2019401
8
3

NỘI DUNG
1. Giới thiệu đề tài
2. Mơ hình đề xuất
3. Cơ sở lý thuyết
4. Kết quả thực nghiệm
5. Tổng kết

4

1. Giới thiệu đề tài
Nhân viên nghỉ việc là một vấn đề
gây nhiều hao tổn cho công ty
Theo thống kê, các công ty thường
phải trả khoảng 1/5 tiền lương để
thay thế một nhân viên
Nắm bắt được tại sao và khi nào
nhân viên có khả năng nghỉ việc
cao có thể giúp nhà quản lý đưa ra
các phương án hành động phù hợp
5

2. Mơ hình đề xuất
Mơ hình sử dụng:
• Mơ hình hồi quy tuyến tính
• Mơ hình SVM
• Mơ hình Gradient Bootsting
• Mơ hình rừng ngẫu nhiên

6

3. Cơ sở lý thuyết
3.1. Mơ hình hồi quy tuyến tính
3.2. Support Vector Machine - SVM
3.3. Mơ hình Gradient Boosting
3.4. Rừng ngẫu nhiên
7

3.1. Mơ hình hồi quy tuyến tính
• Mục tiêu: Tìm một ánh xạ từ
không gian dữ liệu đầu vào sang
không gian dữ liệu nhãn đầu ra:

hay

Với hồi quy tuyến tính thì
một hàm tuyến tính

là

8

3.1. Mơ hình hồi quy tuyến tính
• Giả sử :

vector hàng của input data

vector cột trọng số cần tìm
nhãn dữ liệu đầu ra
Khi đó hàm có dạng:

9

3.1. Mơ hình hồi quy tuyến tính
• Hàm mất mát:
• L1 – Least absolute deviations:

• L2 – Least absolute deviations:

10

3.2. Support Vector Machine - SVM
SVM là thuật tốn
Supervised Learning

thuộc

nhóm

Mục tiêu: Tìm ra một siêu phẳng trong
khơng gian N chiều chia dữ liệu thành
hai phần tương ứng với lớp của nó
Tối ưu trong SVM: Siêu phẳng tìm

được phải có lề cực đại, khoảng cách
tới các điểm của hai lớp là lớn nhất
11

3.2. Support Vector Machine - SVM
• Giả sử:
• Các cặp dữ liệu của training set:
• và thể hiện đầu vào và nhãn của điểm dữ liệu
• với điểm thuộc class 1, với điểm thuộc class 2
Cần tìm một siêu phẳng có phương trình
12

3.2. Support Vector Machine - SVM
• Khoảng cách từ điểm bất kỳ tới mặt phân chia:

Margin là khoảng cách gần nhất từ một điểm tới mặt đó:

13

3.2. Support Vector Machine - SVM
• Bài tốn tối ưu SVM là tìm và sao cho margin cực đại:

Nếu bài tốn thỏa mãn tiêu chuẩn Slater, nghiệm của bài
tốn chính là nghiệm của hệ điều kiện KKT

14

3.3. Mơ hình Gradient Boosting
Là một mơ hình tạo ra một loạt
các mơ hình phân loại yếu
Mơ hình sinh ra sau sẽ được học
để hạn chế các sai lầm của mơ
hình sinh ra trước
Gồm 2 loại Boosting: Adaptive
Boosting và Gradient Boosting

15

3.3. Mơ hình Gradient Boosting
• Đặc điểm:
• Boosting là một q trình tuần tự, khơng thể xử lý song
song Thời gian train tương đối lâu
• Sau mỗi vịng lặp, error có thể giảm theo cấp số nhân
• Boosting sẽ hoạt động tốt nếu base learner không quá
phức tạp cũng như error khơng thay đổi q nhanh
• Boosting giúp giảm giá trị bias cho các model base learner
16

3.3. Mơ hình Gradient Boosting
• Mơ hình Boosting được phát biểu bằng bài tốn tối ưu sau:
Trong đó:
• là loss function
• là label
• là confidence score của weak learner thứ n

• là weak learner thứ n

17

3.3. Mơ hình Gradient Boosting
• Cơng thức cập nhật tham số theo hướng giảm của đạo hàm:

Áp dụng tương tự cho phương pháp Gradient Boosting:

18

3.3. Mơ hình Gradient Boosting

19

3.4. Rừng ngẫu nhiên
Cây quyết định là một cây phân cấp có cấu trúc được dùng
để phân lớp các đối tượng dựa vào dãy các luật

20

3.4. Rừng ngẫu nhiên
Rừng ngẫu nhiên là một thuật toán học máy có giám sát, sử
dụng các cây quyết định làm nền tảng

21

3.4. Rừng ngẫu nhiên
Ưu điểm: Có thể sử dụng cho cả bài toán phân loại và hồi quy,
tránh overfitting, làm việc được với dữ liệu bị thiếu giá trị

Rừng ngẫu nhiên hoạt động bằng cách đánh giá nhiều cây
quyết định ngẫu nhiên

Sau khi đánh giá, rừng ngẫu nhiên lấy ra kết quả được đánh giá
tốt nhất trong kết quả trả về

22

4. Kết quả thực nghiệm
4.1. Giới thiệu về bộ dữ liệu
4.2. Phân tích bộ dữ liệu
4.3. Tiền xử lý dữ liệu
4.4. Kết quả
23

4.1. Giới thiệu về bộ dữ liệu
File csv gồm 1470 điểm dữ liệu, công bố trên cuộc thi Kaggle:
/>cs-attrition-dataset
Chứa thông tin về các nhân viên làm việc cho công ty gồm:
bằng cấp, mức độ hài lịng với mơi trường, cơng việc, lương,
…
Mục tiêu của cuộc thi yêu cầu cần dự đốn chính xác một

nhân viên của cơng ty có quyết định nghỉ việc hay không
24

4.2. Phân tích bộ dữ liệu
Bộ dữ liệu gồm 1470 dòng và 35 cột, tương ứng với 1470 bản
ghi và 35 trường:

25

BÁO CÁO BÀI TẬP LỚN PHÂN TÍCH NGHIỆP VỤ THÔNG MINH ĐỀ TÀI DỰ ĐOÁN KHẢ NĂNG NGHỈ VIỆC CỦA NHÂN VIÊN TRONG CÔNG TY

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về