<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
EMPLOYEE ATTRITION
NHÓM 10
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">
Các phường pháp Excel và phần mềm Orange.
ỨNG DỤNG& BÀI TỐN THỰC TẾ
Phân tích dữ liệu Employee attrition sau đó phân lớp dữ liệu
KẾT LUẬN
Tóm tắt và kết luận.
01020304
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">
Giới thiệu01
Tổng quan về khoa học dữ và đề tài
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">
Dữ liệu
Dữ liệu là một tập hợp các dữ kiện, chẳng hạn như số, từ, hình ảnh, nhằm đo lường, quan sát hoặc chỉ là mô tả
về sự vật.
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">
Big Data
BigData (Dữ liệu lớn) là tập hợp dữ liệu có khối lượng lớn, đa dạng, thay đổi nhanh và phức tạp đến nỗi không một công cụ quản lý dữ liệu truyền thống nào có thể lưu
trữ hoặc xử lý nó một cách hiệu quả.
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">
Dữ liệu có 2 loại chính
Thường được gọi là dữ liệu định tínhcó thế là các ý kiến chủ quan và đánh giá thương hiệu...
Dữ liệu khơng có cấu trúc
Thường được gọi là dữ liệu định lượngLà dạng dữ liệu và số
liệu khách quan...
Dữ liệu có cấu trúc
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">
Tổng quan về khoa học
dữ liệu
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">
Ứng dụng tiêu biểu của khoa học dữ liệu
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">
Giới thiệu về đề tài
Để giải quyết dứt điểm tình trạng Employee attrition, chúng ta cần số liệu chính xác để từ đó phân tích ngun do chủ yếu khiến nhân viên rời bỏ cơng ty. Từ đó, đưa ra giải pháp và giải quyết vấn đề này.
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">
<small>Your logo</small>
Employee attrition là gì?
Việc sụt giảm số lượng nhân viên khi nhân viên của bạn nghỉ làm hoặc về hưu. Sự sụt giảm này diễn ra khi quy mô về lực lượng lao
động của bạn giảm dần theo thời gian.
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">
Làm việc với
những số liệu.
Xử líKiến thức Thu thập và Phân
Làm việc với dữ liệu một
cách chính
xác.Nắm rõ
kiến thức về định
nghĩa, phương
pháp phân tích
dữ liệu.
Mục tiêu nghiên cứu
Giải pháp
Hồn thành phân tích và đưa ra
kết quả.
Hiểu rõ
Hiểu rõ bản chất của những
phương pháp phân
tích dữ liệu.
Ứng dụng
Ứng dụng tốt kiến thức
sau bài toán thực
tế.
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">
Tổng quan02
Chương trình sử dụng và các phương pháp sử dụng
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">
Excel
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">
<b>Phương pháp thống kê mô tả</b>
<i>2.1.1.1 Thống kê bằng công cụ Descriptive Statistics</i>
o Bước 1: Chuẩn bị bảng số liệu cần thống kê.
o Bước 2: Chọn lệnh Data → Data Analysis → Descriptive Statistics, xuất hiện hộp thoại Descriptive Statistics.
o Bước 3: Khai báo các thông số Input và lựa chọn các thông số Output Options.
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">
<i>Ví dụ: Thống kê mơ tả cho lượng thịt Heo (theo kg) bán </i>
được trong tháng 03 tại siêu thi ABC
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">
Trong hộp thoại Descriptive Statistics
• Phần Input Range, điền cột chứa dữ liệu thịt heo.
• Phần Output Range nhập ơ xuất dữ liệu. Confidence Level for Mean nhập 95%.
• Sau đó xuất hiện bảng kết quả gồm các giá trị trung bình (Mean), sai số chuẩn (Standard Error),…
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">
<b>Phương pháp thống kê mô tả</b>
<i>2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal</i>
Chức năng của Subtotal:
o Cho phép tổng hợp từng nhóm dữ liệu của các cột kiểu số trong cơ sở dữ liệu như: tìm tổng, số lớn nhất, số nhỏ nhất, số trung bình,…
o Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">
Cách thực hiện
Bước 2
Chọn toàn bộ cơ sở dữ liệu hay click chuột
vào một ô bất kỳ trên dữ liệu.Sắp xếp dữ liệu
theo cột muốn gom nhóm (Trong trường
hợp này là Salesperson)
Chọn Data → Outline → Subtotal, xuất hiện hộp thoại
Subtotal.
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">
Ví dụ: Cần thống kê tổng số tiền mà mỗi nhân viên đã thực hiện
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">
o Tại At each change in chọn cột cần gom nhóm là Salesperson.
o Tại Use function chọn hàm thông kê là Sum.
o Tại Add subtotal to chọn cột thông kê giá trị là Order Amount.
Sau đó xuất hiện kết quả là bảng tổng hợp số tiền mà mỗi nhân viên thực hiện
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">
<b>Phương pháp thống kê mô tả</b>
<i>2.1.1.3 Hợp nhất dữ liệu với Consolidate</i>
Chức năng của Consolidate:
o Cho phép hợp nhất dữ liệu từ những bảng dữ liệu khác nhau. o Consolidate có thể hợp nhất dữ
liệu theo 2 hình thức:
o Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc. o Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về cấu trúc
</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">
Cách Thực hiện
Bước 1
Chọn vùng sẽ chứa dữ liệu được hợp nhất.
Bước 2
Chọn Data → Data Tools → Consolidate, xuất hiện hộp thoại
2
</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">
Ví dụ: Hợp nhất dữ liệu doanh thu của 3 cửa hàng sau
</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">
o Trong hộp thoại Consolidate, ở Function chọn chức năng Sum.
o Tại Reference chọn vùng sẽ hiện kết quả, ở All reference chọn các vùng dữ liệu của cả 3 cửa hàng.
Sau đó xuất hiện kết quả.
</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">
CÁCH THỰC HIỆNBước 1
Click vào ô bất kỳ trên cơ sở dữ liệu.
Bước 2
Chọn lệnh Insert → PivotTable.
Bước 3
Xuất hiện hộp thoại Create PivotTable, chọn dữ liệu nguồn và nơi chứa
PivotTable, click nút OK.
Bước 4
Drag các tên field từ PivotTable Fields vào 4 khu vực:
FILTERS, ROWS, COLUMNS và VALUES.
2
</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">
Ví dụ: Tổng hợp dữ liệu gồm tên người bán hàng, doanh số mỗi năm và tổng cộng của nhiều người.
</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">
<b>Phương pháp về phân tích dự báo</b>
<i>2.1.2.1 Phương pháp trung bình trượt (Moving Average)</i>
o Bước 3: Khai báo các thông số Input và Output Options.
</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">
Ví dụ: Dự báo số liệu bán thịt bị của siêu thị ABC.
</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">
<b>Phương pháp về phân tích dự báo</b>
<i>2.1.2.2 Phương pháp san bằng mũ</i>
</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">
Ví dụ: Dự báo số liệu bán thịt bị tại siệu thị ABC có hệ số điều chỉnh bằng
0.3
</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">
<b>Phương pháp về phân tích dự báo</b>
<i>2.1.2.3 Phương pháp hồi quy (Regression)</i>
Cách thực hiện:
o Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo.
o Bước 2: Chọn lệnh Data→ Data Analysis → Regression, xuất hiện hộp thoại Regression.
o Bước 3: Khai báo các thông số Input và Output Options.
</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">
• Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay cịn gọi là biến giải thích)
• Phương trình hồi quy có dạng tổng qt:
Y = f(X1 ,X2 ,…,Xn ) (Hồi quy đơn biến: Y= aX+b)
</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">
Ví dụ: Tác động của chi phí lên doanh thu
</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">
Trong hộp thoại Regression, tại Input Y Range chọn dữ liệu Doanh thu, tại Input X Range chọn dữ liệu Chi phí, ở
Confidence Level chọn độ tin cậy hồi quy là 95%.
Sau đó xuất hiện kết quả a= 1.791 và b= 3.813.
</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">
<b>Phương pháp về phân tích dự báo</b>
<i>2.1.3 Phương pháp phân tích tối ưu</i>
Cách thực hiện:
o Bước 1: Xác định biến quyết định Gọi x1 là lượng lúa gạo, x2 là lượng lúa mì (tấn) cần sản xuất
o Bước 2: Xác định hàm mục tiêu Mục tiêu bài tốn là tối đa hóa lợi nhuận ta có P = P (lúa gạo) + P (lúa mì) = 18x1 + 21x2 → max
o Bước 3: Xác định hệ ràng buộc
</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">
Ví dụ: Một nhà quản lí dự án nơng nghiệp muốn lựa chọn phương án trồng trọt bao nhiêu tấn lúa mì và lúa gạo để
tối đa hóa lợi nhuận của dự án dựa trên các số liệu sau:
</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">
Công cụ Solver để giải mơ hình kinh tế:
Bước 1: Thiết lập bảng tính.
Bước 2: Chọn lệnh Data → Analysis → Solver.
</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">
Cơng cụ Solver để giải mơ hình kinh tế:
Bước 3: Nhấn nút Solve để giải mơ hình Khai báo các lựa chọn trong hộp thoại Solver
Bước 4: Nhấn nút OK để xem kết quả.
</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">
Tiền xử lý dữ liệu Employee attrition
03
</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">
Tiền xử lý dữ liệu Employee
attritionMô tả dữ liệu
Employee attrition
Thống kê mô tả dữ liệu Employee
<b>3.1 Phân tích dữ liệu Employee attrition.</b>
</div><span class="text_page_counter">Trang 41</span><div class="page_container" data-page="41">
<small>01</small>
Tiền xử lý dữ liệu Employee attrition
Tiến hành xử lý dữ liệu tại phần mềm Orange
</div><span class="text_page_counter">Trang 42</span><div class="page_container" data-page="42">
<small>01</small>
Tiền xử lý dữ liệu Employee attrition
•Nạp dữ liệu Employee attrition
</div><span class="text_page_counter">Trang 43</span><div class="page_container" data-page="43">
<small>01</small>
Tiền xử lý dữ liệu Employee attrition
Quan sát dữ liệu
</div><span class="text_page_counter">Trang 44</span><div class="page_container" data-page="44">
<small>02</small>
Mô tả dữ liệu Employee attrition
Thông tin dữ liệu Employee attritionCác biến đầu vào:
Biến đầu ra:
Mục tiêu phân tích
</div><span class="text_page_counter">Trang 45</span><div class="page_container" data-page="45">
<small>03</small>
Thống kê mô tả dữ liệu Employee attrition
</div><span class="text_page_counter">Trang 46</span><div class="page_container" data-page="46">
<small>03</small>
Thống kê mô tả dữ liệu Employee attrition
</div><span class="text_page_counter">Trang 47</span><div class="page_container" data-page="47">
<small>03</small>
Thống kê mô tả dữ liệu Employee attrition
</div><span class="text_page_counter">Trang 48</span><div class="page_container" data-page="48">
<small>03</small>
Thống kê mô tả dữ liệu Employee attrition
</div><span class="text_page_counter">Trang 49</span><div class="page_container" data-page="49">
<small>03</small>
Thống kê mô tả dữ liệu Employee attrition
</div><span class="text_page_counter">Trang 50</span><div class="page_container" data-page="50">
<small>03</small>
Thống kê mô tả dữ liệu Employee attrition
</div><span class="text_page_counter">Trang 51</span><div class="page_container" data-page="51">
<small>03</small>
Thống kê mô tả dữ liệu Employee attrition
<small>MINMAXTrung bình Hài lịng với mơi trường làm việc142.72 Tích cực với cơng việc142.73 Cấp bậc trong công việc142.06 Hài lịng với cơng việc142.73 Đánh giá hiệu suất143.15 Sự hài lòng về mối quan hệ142.71 Cân bằng cuộc sống công việc142.76</small>
<small>Các biến quan sát.</small>
</div><span class="text_page_counter">Trang 52</span><div class="page_container" data-page="52">
<small>03</small>
Thống kê mô tả dữ liệu Employee attrition
</div><span class="text_page_counter">Trang 53</span><div class="page_container" data-page="53">
<small>03</small>
Thống kê mô tả dữ liệu Employee attrition
</div><span class="text_page_counter">Trang 54</span><div class="page_container" data-page="54">
<small>03</small>
Thống kê mô tả dữ liệu Employee attrition
</div><span class="text_page_counter">Trang 55</span><div class="page_container" data-page="55">
3.2 Phân lớp dữ liệu
Một số phương pháp phân lớp
Kết quả mơ hình
</div><span class="text_page_counter">Trang 56</span><div class="page_container" data-page="56">
MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP
Cây quyết định
Hồi quy logisticSVM
(Tree)(Logistic
(Support Vector Machine)
</div><span class="text_page_counter">Trang 57</span><div class="page_container" data-page="57">
Kết quả mơ hình
<b>Bước 1: Xây dựng mơ hình phân lớp</b>
Phân tách dữ liệu bằng Data Sampler
Lấy mẫu từ dữ liệu Employee Attrition_training
</div><span class="text_page_counter">Trang 58</span><div class="page_container" data-page="58">
Kết quả mô hình
<b>Bước 1: Xây dựng mơ hình phân lớp</b>
Phân tách dữ liệu bằng Data Sampler
Lấy mẫu dữ liệu Employee Attrition_forecast
</div><span class="text_page_counter">Trang 61</span><div class="page_container" data-page="61">
Kết quả mơ hình
<b>Bước 2.1. Đánh giá mơ hình phân lớp</b>
Chọn tỷ lệ lấy mẫu với Cross Validation
Kết quả chia mẫu dữ liệu thành 5 phần
</div><span class="text_page_counter">Trang 62</span><div class="page_container" data-page="62">
Kết quả mơ hình
<b>Bước 2.1. Đánh giá mơ hình phân lớp</b>
Chọn tỷ lệ lấy mẫu với Cross Validation
Kết quả chia mẫu dữ liệu thành 10 phần
</div><span class="text_page_counter">Trang 63</span><div class="page_container" data-page="63">
Kết quả mơ hình
<b>Bước 2.1. Đánh giá mơ hình phân lớp</b>
Chọn tỷ lệ tại Random Sampling
Kết quả khi chia dữ liệu thành 50-90%
</div><span class="text_page_counter">Trang 64</span><div class="page_container" data-page="64">
Kết quả mơ hình
<b>Bước 2.1. Đánh giá mơ hình phân lớp</b>
Chọn tỷ lệ tại Random Sampling
Kết quả khi chia mẫu dữ liệu thành 20-80%
</div><span class="text_page_counter">Trang 65</span><div class="page_container" data-page="65">
Diện tích dưới đường cong ROC (AUC): 0,831
Mơ hình Hồi quy logistic (Logistic
Regression) ở trường hợp chia mẫu dữ liệu thành 10 phần, ta thu được các kết quả:
</div><span class="text_page_counter">Trang 69</span><div class="page_container" data-page="69">
NHẬN XÉT
Tại Confusion Matrix, ta thấy mơ hình Hồi quy logistic (Logistic Regression) có sai lầm loại 1 là 30,9% và sai lầm loại 2 là 10,1%. Và tỷ lệ sai lầm loại 1 và sai lầm loại 2 ở phương pháp này cũng đạt giá trị thấp nhất. Nên phương pháp
Hồi quy logistic (Logistic Regression) là phù hợp nhất.
</div><span class="text_page_counter">Trang 72</span><div class="page_container" data-page="72">
Quan sát 2 hình thể hiện đường cong ROC của biến target, ta thấy mơ hình Hồi quy logistic (Logistic Regression) có
đường cong tiệm cận với điểm (0;1)
nhất, mà một mơ hình càng hiệu quả khi có FPR và TPR thấp, hay đường cong ROC càng tiệm cận với điểm (0;1). Nên mơ hình này hiệu quả nhất.
Nhận xét
</div><span class="text_page_counter">Trang 73</span><div class="page_container" data-page="73">
Từ các kết quả thu được, phương pháp Hồi quy
logistic (Logistic Regression) là phương
pháp tốt nhất.
</div><span class="text_page_counter">Trang 74</span><div class="page_container" data-page="74">
Kết quả mơ hình
<b>Bước 2.2: Phân lớp dữ liệu mới </b>
Sử dụng mơ hình Hồi quy logistic (Logistic Regression) để dự báo cho tập dữ liệu Employee Attrition_forecast
</div><span class="text_page_counter">Trang 75</span><div class="page_container" data-page="75">
Kết quả mô hình
<b>Bước 2.2: Phân lớp dữ liệu mới </b>
Sử dụng Prediction để dự báo dữ liệu theo phương pháp Hồi quy logistic (Logistic Regression)
</div><span class="text_page_counter">Trang 76</span><div class="page_container" data-page="76">
ĐÁNH GIÁ KẾT QUẢ CỦA MƠ HÌNH
04
</div><span class="text_page_counter">Trang 77</span><div class="page_container" data-page="77">
Bảng tổng hợp
<b>Random Sampling Cross Validation 20 – 80% 50 – 90% 5 folds 10 folds </b>
Tính chính xác (CA) 88,5% 89,1% 88,1% 87,9% Giá trị trung bình điều hòa (F1) 87,1% 87,9% 86,8% 86,7% Độ chính xác (Precision) 87,3% 88,1% 86,9% 86,7% Độ phủ (Recall) 88,5% 89,1% 88,1% 87,9% Diện tích dưới đường cong ROC
(AUC)
0,830 0,824 0,827 0,831
Kết luận: Chọn mơ hình Hồi quy logistic là phù hợp nhất
</div><span class="text_page_counter">Trang 78</span><div class="page_container" data-page="78">
NHÓM EM XIN CHÂN THÀNH CẢM ƠN THẦY ĐÃ LẮNG NGHE
BÀI THUYẾT TRÌNH CỦA CHÚNG EM!
LỜI CẢM ƠN
</div><span class="text_page_counter">Trang 79</span><div class="page_container" data-page="79">
Alternative Resources
<small> Find more illustrations like these onStories by Freepik</small>
</div>