Tải bản đầy đủ (.pptx) (79 trang)

employee attrition các phường pháp excel và phần mềm orange

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.63 MB, 79 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

EMPLOYEE ATTRITION

NHÓM 10

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

Các phường pháp Excel và phần mềm Orange.

ỨNG DỤNG& BÀI TỐN THỰC TẾ

Phân tích dữ liệu Employee attrition sau đó phân lớp dữ liệu

KẾT LUẬN

Tóm tắt và kết luận.

01020304

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

Giới thiệu01

Tổng quan về khoa học dữ và đề tài

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

Dữ liệu

Dữ liệu là một tập hợp các dữ kiện, chẳng hạn như số, từ, hình ảnh, nhằm đo lường, quan sát hoặc chỉ là mô tả

về sự vật.

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Big Data

BigData (Dữ liệu lớn) là tập hợp dữ liệu có khối lượng lớn, đa dạng, thay đổi nhanh và phức tạp đến nỗi không một công cụ quản lý dữ liệu truyền thống nào có thể lưu

trữ hoặc xử lý nó một cách hiệu quả.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

Dữ liệu có 2 loại chính

Thường được gọi là dữ liệu định tínhcó thế là các ý kiến chủ quan và đánh giá thương hiệu...

Dữ liệu khơng có cấu trúc

Thường được gọi là dữ liệu định lượngLà dạng dữ liệu và số

liệu khách quan...

Dữ liệu có cấu trúc

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

Tổng quan về khoa học

dữ liệu

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Ứng dụng tiêu biểu của khoa học dữ liệu

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Giới thiệu về đề tài

Để giải quyết dứt điểm tình trạng Employee attrition, chúng ta cần số liệu chính xác để từ đó phân tích ngun do chủ yếu khiến nhân viên rời bỏ cơng ty. Từ đó, đưa ra giải pháp và giải quyết vấn đề này.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<small>Your logo</small>

Employee attrition là gì?

Việc sụt giảm số lượng nhân viên khi nhân viên của bạn nghỉ làm hoặc về hưu. Sự sụt giảm này diễn ra khi quy mô về lực lượng lao

động của bạn giảm dần theo thời gian.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Làm việc với

những số liệu.

Xử líKiến thức Thu thập và Phân

Làm việc với dữ liệu một

cách chính

xác.Nắm rõ

kiến thức về định

nghĩa, phương

pháp phân tích

dữ liệu.

Mục tiêu nghiên cứu

Giải pháp

Hồn thành phân tích và đưa ra

kết quả.

Hiểu rõ

Hiểu rõ bản chất của những

phương pháp phân

tích dữ liệu.

Ứng dụng

Ứng dụng tốt kiến thức

sau bài toán thực

tế.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Tổng quan02

Chương trình sử dụng và các phương pháp sử dụng

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Excel

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<b>Phương pháp thống kê mô tả</b>

<i>2.1.1.1 Thống kê bằng công cụ Descriptive Statistics</i>

o Bước 1: Chuẩn bị bảng số liệu cần thống kê.

o Bước 2: Chọn lệnh Data → Data Analysis → Descriptive Statistics, xuất hiện hộp thoại Descriptive Statistics.

o Bước 3: Khai báo các thông số Input và lựa chọn các thông số Output Options.

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<i>Ví dụ: Thống kê mơ tả cho lượng thịt Heo (theo kg) bán </i>

được trong tháng 03 tại siêu thi ABC

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

Trong hộp thoại Descriptive Statistics

• Phần Input Range, điền cột chứa dữ liệu thịt heo.

• Phần Output Range nhập ơ xuất dữ liệu. Confidence Level for Mean nhập 95%.

• Sau đó xuất hiện bảng kết quả gồm các giá trị trung bình (Mean), sai số chuẩn (Standard Error),…

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

<b>Phương pháp thống kê mô tả</b>

<i>2.1.1.2 Báo cáo tổng hợp nhóm với Subtotal</i>

Chức năng của Subtotal:

o Cho phép tổng hợp từng nhóm dữ liệu của các cột kiểu số trong cơ sở dữ liệu như: tìm tổng, số lớn nhất, số nhỏ nhất, số trung bình,…

o Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Cách thực hiện

Bước 2

Chọn toàn bộ cơ sở dữ liệu hay click chuột

vào một ô bất kỳ trên dữ liệu.Sắp xếp dữ liệu

theo cột muốn gom nhóm (Trong trường

hợp này là Salesperson)

Chọn Data → Outline → Subtotal, xuất hiện hộp thoại

Subtotal.

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Ví dụ: Cần thống kê tổng số tiền mà mỗi nhân viên đã thực hiện

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

o Tại At each change in chọn cột cần gom nhóm là Salesperson.

o Tại Use function chọn hàm thông kê là Sum.

o Tại Add subtotal to chọn cột thông kê giá trị là Order Amount.

 Sau đó xuất hiện kết quả là bảng tổng hợp số tiền mà mỗi nhân viên thực hiện

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

<b>Phương pháp thống kê mô tả</b>

<i>2.1.1.3 Hợp nhất dữ liệu với Consolidate</i>

Chức năng của Consolidate:

o Cho phép hợp nhất dữ liệu từ những bảng dữ liệu khác nhau. o Consolidate có thể hợp nhất dữ

liệu theo 2 hình thức:

o Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc. o Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về cấu trúc

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

Cách Thực hiện

Bước 1

Chọn vùng sẽ chứa dữ liệu được hợp nhất.

Bước 2

Chọn Data → Data Tools → Consolidate, xuất hiện hộp thoại

2

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

Ví dụ: Hợp nhất dữ liệu doanh thu của 3 cửa hàng sau

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

o Trong hộp thoại Consolidate, ở Function chọn chức năng Sum.

o Tại Reference chọn vùng sẽ hiện kết quả, ở All reference chọn các vùng dữ liệu của cả 3 cửa hàng.

Sau đó xuất hiện kết quả.

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

CÁCH THỰC HIỆNBước 1

Click vào ô bất kỳ trên cơ sở dữ liệu.

Bước 2

Chọn lệnh Insert → PivotTable.

Bước 3

Xuất hiện hộp thoại Create PivotTable, chọn dữ liệu nguồn và nơi chứa

PivotTable, click nút OK.

Bước 4

Drag các tên field từ PivotTable Fields vào 4 khu vực:

FILTERS, ROWS, COLUMNS và VALUES.

2

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

Ví dụ: Tổng hợp dữ liệu gồm tên người bán hàng, doanh số mỗi năm và tổng cộng của nhiều người.

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

<b>Phương pháp về phân tích dự báo</b>

<i>2.1.2.1 Phương pháp trung bình trượt (Moving Average)</i>

o Bước 3: Khai báo các thông số Input và Output Options.

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

Ví dụ: Dự báo số liệu bán thịt bị của siêu thị ABC.

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

<b>Phương pháp về phân tích dự báo</b>

<i>2.1.2.2 Phương pháp san bằng mũ</i>

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

Ví dụ: Dự báo số liệu bán thịt bị tại siệu thị ABC có hệ số điều chỉnh bằng

0.3

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

<b>Phương pháp về phân tích dự báo</b>

<i>2.1.2.3 Phương pháp hồi quy (Regression)</i>

Cách thực hiện:

o Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo.

o Bước 2: Chọn lệnh Data→ Data Analysis → Regression, xuất hiện hộp thoại Regression.

o Bước 3: Khai báo các thông số Input và Output Options.

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

• Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay cịn gọi là biến giải thích)

• Phương trình hồi quy có dạng tổng qt:

Y = f(X1 ,X2 ,…,Xn ) (Hồi quy đơn biến: Y= aX+b)

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

Ví dụ: Tác động của chi phí lên doanh thu

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Trong hộp thoại Regression, tại Input Y Range chọn dữ liệu Doanh thu, tại Input X Range chọn dữ liệu Chi phí, ở

Confidence Level chọn độ tin cậy hồi quy là 95%.

Sau đó xuất hiện kết quả a= 1.791 và b= 3.813.

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

<b>Phương pháp về phân tích dự báo</b>

<i>2.1.3 Phương pháp phân tích tối ưu</i>

Cách thực hiện:

o Bước 1: Xác định biến quyết định Gọi x1 là lượng lúa gạo, x2 là lượng lúa mì (tấn) cần sản xuất

o Bước 2: Xác định hàm mục tiêu Mục tiêu bài tốn là tối đa hóa lợi nhuận ta có P = P (lúa gạo) + P (lúa mì) = 18x1 + 21x2 → max

o Bước 3: Xác định hệ ràng buộc

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

Ví dụ: Một nhà quản lí dự án nơng nghiệp muốn lựa chọn phương án trồng trọt bao nhiêu tấn lúa mì và lúa gạo để

tối đa hóa lợi nhuận của dự án dựa trên các số liệu sau:

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

Công cụ Solver để giải mơ hình kinh tế:

Bước 1: Thiết lập bảng tính.

Bước 2: Chọn lệnh Data → Analysis → Solver.

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

Cơng cụ Solver để giải mơ hình kinh tế:

Bước 3: Nhấn nút Solve để giải mơ hình Khai báo các lựa chọn trong hộp thoại Solver

Bước 4: Nhấn nút OK để xem kết quả.

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

Tiền xử lý dữ liệu Employee attrition

03

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

Tiền xử lý dữ liệu Employee

attritionMô tả dữ liệu

Employee attrition

Thống kê mô tả dữ liệu Employee

<b>3.1 Phân tích dữ liệu Employee attrition.</b>

</div><span class="text_page_counter">Trang 41</span><div class="page_container" data-page="41">

<small>01</small>

Tiền xử lý dữ liệu Employee attrition

Tiến hành xử lý dữ liệu tại phần mềm Orange

</div><span class="text_page_counter">Trang 42</span><div class="page_container" data-page="42">

<small>01</small>

Tiền xử lý dữ liệu Employee attrition

•Nạp dữ liệu Employee attrition

</div><span class="text_page_counter">Trang 43</span><div class="page_container" data-page="43">

<small>01</small>

Tiền xử lý dữ liệu Employee attrition

Quan sát dữ liệu

</div><span class="text_page_counter">Trang 44</span><div class="page_container" data-page="44">

<small>02</small>

Mô tả dữ liệu Employee attrition

Thông tin dữ liệu Employee attritionCác biến đầu vào:

Biến đầu ra:

Mục tiêu phân tích

</div><span class="text_page_counter">Trang 45</span><div class="page_container" data-page="45">

<small>03</small>

Thống kê mô tả dữ liệu Employee attrition

</div><span class="text_page_counter">Trang 46</span><div class="page_container" data-page="46">

<small>03</small>

Thống kê mô tả dữ liệu Employee attrition

</div><span class="text_page_counter">Trang 47</span><div class="page_container" data-page="47">

<small>03</small>

Thống kê mô tả dữ liệu Employee attrition

</div><span class="text_page_counter">Trang 48</span><div class="page_container" data-page="48">

<small>03</small>

Thống kê mô tả dữ liệu Employee attrition

</div><span class="text_page_counter">Trang 49</span><div class="page_container" data-page="49">

<small>03</small>

Thống kê mô tả dữ liệu Employee attrition

</div><span class="text_page_counter">Trang 50</span><div class="page_container" data-page="50">

<small>03</small>

Thống kê mô tả dữ liệu Employee attrition

</div><span class="text_page_counter">Trang 51</span><div class="page_container" data-page="51">

<small>03</small>

Thống kê mô tả dữ liệu Employee attrition

<small>MINMAXTrung bình Hài lịng với mơi trường làm việc142.72 Tích cực với cơng việc142.73 Cấp bậc trong công việc142.06 Hài lịng với cơng việc142.73 Đánh giá hiệu suất143.15 Sự hài lòng về mối quan hệ142.71 Cân bằng cuộc sống công việc142.76</small>

<small>Các biến quan sát.</small>

</div><span class="text_page_counter">Trang 52</span><div class="page_container" data-page="52">

<small>03</small>

Thống kê mô tả dữ liệu Employee attrition

</div><span class="text_page_counter">Trang 53</span><div class="page_container" data-page="53">

<small>03</small>

Thống kê mô tả dữ liệu Employee attrition

</div><span class="text_page_counter">Trang 54</span><div class="page_container" data-page="54">

<small>03</small>

Thống kê mô tả dữ liệu Employee attrition

</div><span class="text_page_counter">Trang 55</span><div class="page_container" data-page="55">

3.2 Phân lớp dữ liệu

Một số phương pháp phân lớp

Kết quả mơ hình

</div><span class="text_page_counter">Trang 56</span><div class="page_container" data-page="56">

MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP

Cây quyết định

Hồi quy logisticSVM

(Tree)(Logistic

(Support Vector Machine)

</div><span class="text_page_counter">Trang 57</span><div class="page_container" data-page="57">

Kết quả mơ hình

<b>Bước 1: Xây dựng mơ hình phân lớp</b>

Phân tách dữ liệu bằng Data Sampler

Lấy mẫu từ dữ liệu Employee Attrition_training

</div><span class="text_page_counter">Trang 58</span><div class="page_container" data-page="58">

Kết quả mô hình

<b>Bước 1: Xây dựng mơ hình phân lớp</b>

Phân tách dữ liệu bằng Data Sampler

Lấy mẫu dữ liệu Employee Attrition_forecast

</div><span class="text_page_counter">Trang 61</span><div class="page_container" data-page="61">

Kết quả mơ hình

<b>Bước 2.1. Đánh giá mơ hình phân lớp</b>

Chọn tỷ lệ lấy mẫu với Cross Validation

Kết quả chia mẫu dữ liệu thành 5 phần

</div><span class="text_page_counter">Trang 62</span><div class="page_container" data-page="62">

Kết quả mơ hình

<b>Bước 2.1. Đánh giá mơ hình phân lớp</b>

Chọn tỷ lệ lấy mẫu với Cross Validation

Kết quả chia mẫu dữ liệu thành 10 phần

</div><span class="text_page_counter">Trang 63</span><div class="page_container" data-page="63">

Kết quả mơ hình

<b>Bước 2.1. Đánh giá mơ hình phân lớp</b>

Chọn tỷ lệ tại Random Sampling

Kết quả khi chia dữ liệu thành 50-90%

</div><span class="text_page_counter">Trang 64</span><div class="page_container" data-page="64">

Kết quả mơ hình

<b>Bước 2.1. Đánh giá mơ hình phân lớp</b>

Chọn tỷ lệ tại Random Sampling

Kết quả khi chia mẫu dữ liệu thành 20-80%

</div><span class="text_page_counter">Trang 65</span><div class="page_container" data-page="65">

Diện tích dưới đường cong ROC (AUC): 0,831

Mơ hình Hồi quy logistic (Logistic

Regression) ở trường hợp chia mẫu dữ liệu thành 10 phần, ta thu được các kết quả:

</div><span class="text_page_counter">Trang 69</span><div class="page_container" data-page="69">

NHẬN XÉT

Tại Confusion Matrix, ta thấy mơ hình Hồi quy logistic (Logistic Regression) có sai lầm loại 1 là 30,9% và sai lầm loại 2 là 10,1%. Và tỷ lệ sai lầm loại 1 và sai lầm loại 2 ở phương pháp này cũng đạt giá trị thấp nhất. Nên phương pháp

Hồi quy logistic (Logistic Regression) là phù hợp nhất.

</div><span class="text_page_counter">Trang 72</span><div class="page_container" data-page="72">

Quan sát 2 hình thể hiện đường cong ROC của biến target, ta thấy mơ hình Hồi quy logistic (Logistic Regression) có

đường cong tiệm cận với điểm (0;1)

nhất, mà một mơ hình càng hiệu quả khi có FPR và TPR thấp, hay đường cong ROC càng tiệm cận với điểm (0;1). Nên mơ hình này hiệu quả nhất.

Nhận xét

</div><span class="text_page_counter">Trang 73</span><div class="page_container" data-page="73">

Từ các kết quả thu được, phương pháp Hồi quy

logistic (Logistic Regression) là phương

pháp tốt nhất.

</div><span class="text_page_counter">Trang 74</span><div class="page_container" data-page="74">

Kết quả mơ hình

<b>Bước 2.2: Phân lớp dữ liệu mới </b>

Sử dụng mơ hình Hồi quy logistic (Logistic Regression) để dự báo cho tập dữ liệu Employee Attrition_forecast

</div><span class="text_page_counter">Trang 75</span><div class="page_container" data-page="75">

Kết quả mô hình

<b>Bước 2.2: Phân lớp dữ liệu mới </b>

Sử dụng Prediction để dự báo dữ liệu theo phương pháp Hồi quy logistic (Logistic Regression)

</div><span class="text_page_counter">Trang 76</span><div class="page_container" data-page="76">

ĐÁNH GIÁ KẾT QUẢ CỦA MƠ HÌNH

04

</div><span class="text_page_counter">Trang 77</span><div class="page_container" data-page="77">

Bảng tổng hợp

<b>Random Sampling Cross Validation 20 – 80% 50 – 90% 5 folds 10 folds </b>

Tính chính xác (CA) 88,5% 89,1% 88,1% 87,9% Giá trị trung bình điều hòa (F1) 87,1% 87,9% 86,8% 86,7% Độ chính xác (Precision) 87,3% 88,1% 86,9% 86,7% Độ phủ (Recall) 88,5% 89,1% 88,1% 87,9% Diện tích dưới đường cong ROC

(AUC)

0,830 0,824 0,827 0,831

Kết luận: Chọn mơ hình Hồi quy logistic là phù hợp nhất

</div><span class="text_page_counter">Trang 78</span><div class="page_container" data-page="78">

NHÓM EM XIN CHÂN THÀNH CẢM ƠN THẦY ĐÃ LẮNG NGHE

BÀI THUYẾT TRÌNH CỦA CHÚNG EM!

LỜI CẢM ƠN

</div><span class="text_page_counter">Trang 79</span><div class="page_container" data-page="79">

Alternative Resources

<small> Find more illustrations like these onStories by Freepik</small>

</div>

×