Tải bản đầy đủ (.pdf) (74 trang)

Bài tập phân lớp khoa học dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.13 MB, 74 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>BỘ GIÁO DỤC VÀ ĐÀO TẠOĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH</b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

MỤC LỤC

3. Trình bày sơ lược các thuộc tính được chọn đưa vào mơ hình 5 4. Trình bày các bước và giải pháp làm sạch dữ liệu 6

1. Mục đích, ý nghĩa của việc triển khai mơ hình trong lĩnh vực hàng khơng 16 2. Phân tích đánh giá hiệu quả kinh tế khi triển khai mơ hình 16 VI. Đánh giá đóng góp của các thành viên tham gia dự án 17

note: nhóm mình hình như thiếu mơ tả bằng cách trình bày (trình bày những dữ liệu bằng số hay cột gì đó)

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

- có cấu trúc: những điều đã xảy ra - bài tốn bán cấu trúc

- tập trung phân tích dữ liệu ban đầu??? (những cái mà có thể ảnh hưởng đến việc dự đốn) -> dự đốn rồi thì cải thiện cái gì?

- dự đốn để làm gì? - khơng được đi khảo sát

- dữ liệu thu thập như thế nào? chủ động dán nhãn cho biến mục tiêu (khảo sát thì khơng thể phân lớp dự đốn -> sự hài lịng do rất nhiều ngun nhân, phải phân tích chẩn đoán sâu)

- mục tiêu rõ ràng nhưng ko giải quyết được vấn đề? - chọn sao để đánh giá mức độ hài lịng,

- bài tốn đặt ra giải quyết vấn đề gì? ptich từng thuộc tính để lấy tỉ lệ

- lấy mục tiêu là sự hài lòng phân tích? số ng hài lịng ở dịch vụ nào cao thấp? phân tích từng thuộc tính để tìm ra thuộc tính nào làm cho khách hàng ko hài lịng cao nhất để cải thiện dịch vụ (thuộc tính đó)

- phân lớp có q nhiều thuộc tính theo dõi, nma nếu thuộc tính nào rõ ràng

- loại biến phải xem xét về chun mơn? đơi khi nó lại phát huy vào những trg hợp khác

- Máy báo k hài lòng thì giải quyết vấn đề gì

- mơ tả dữ liệu thu thập từ đâu, ghi nhận cái gì, gán nhãn cho biến mục tiêu chủ động - Không dùng khảo sát

- Thu thập bằng hệ thống thông tin bằng cách chọn sao. Phân tích sâu trong khách hàng lấy mục tiêu là sự hài lòng, số người k hài lòng trong mục tiêu (dịch vụ bay, ăn uống, check in,...) là bao nhiêu %

- Phân tích thuộc tính để tìm ra thuộc tính khách hàng k hài lịng cao nhất từ đó đưa ra biện pháp giải quyết

- thơng tin ra quyết định, dự đốn dự báo ra thông tin

- Ngày từ đầu đánh giá sự hài lòng của khách hàng, hoạt động nào gây ra sự khơng hài lịng của khách hàng

- phân tích chẩn đốn sâu

I. Giới thiệu (chưa đưa ra rõ mục tiêu để làm gì?)

Bộ dữ liệu được thu thập về mức độ hài lịng của hành khách hàng khơng. Với sự cạnh tranh ngày càng cao đối với thị trường hàng khơng, hành khách càng có nhiều sự lựa chọn trong việc đi lại. Các hãng hàng khơng tích cực tập trung phát triển để có chỗ đứng trong thị trường cũng như mang lại trải nghiệm tốt nhất cho khách hàng. Thu thập ý kiến

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

về mức độ hài lòng của hành khách cũng là cách để giúp hãng hàng khơng có thể phát triển và cải thiện những điểm chưa tốt.

Với các ngành dịch vụ nói chung và ngành hàng khơng nói riêng vai trò và sức mạnh của khách hàng ngày càng lớn hơn, chính vì thế sự hài lịng của khách hàng luôn là một yếu tố quan trọng của công ty. Nếu khách hàng không được cung cấp dịch vụ như họ mong đợi, họ sẽ dễ dàng chuyển đổi sang hãng hàng không khác. Hiểu biết thấu đáo những kỳ vọng và nhận thức của khách hàng là một giai đoạn quan trọng để giúp các công ty thực hiện các quyết định đúng đắn để phát triển. Nghiên cứu và phân tích sự hài lịng của khách hàng giúp doanh nghiệp hiểu được các nhân tố ảnh hưởng đến sự hài lòng và mức độ hài lòng của khách hàng đối với các dịch vụ từ đó có thể gia tăng khả năng cạnh tranh và nâng cao sự hài lòng của khách hàng đối với sản phẩm, dịch vụ của mình.

Nghiên cứu này kiểm tra sự hài lịng của hành khách hãng hàng khơng bằng phương pháp thu thập dữ liệu và phân tích mơ hình. Mục đích của bài báo cáo nhằm tìm ra những yếu tố tác động đến sự khơng hài lịng của khách hàng về dịch vụ bay. Từ đó đưa ra các biện pháp khắc phục để cải thiện chất lượng dịch vụ. Việc phân tích phản hồi của khách hàng sẽ giúp ích cho hãng hàng khơng hiểu rõ hơn chính xác hành khách cần gì và khơng thích gì và họ có thể cải thiện tốt hơn vào những dịch vụ gì. Đặc biệt dự đốn sự hài lòng của khách hàng hỗ trợ rất nhiều trong quản lý hệ khách hàng của các hãng hàng không

II. Thu thập và làm sạch dữ liệu 1. Mô tả tổng quát dữ liệu - Bộ dữ liệu được lấy từ kaggle.com

- Trong bộ dữ liệu này, Có nhiều thuộc tính tác động đến mức độ hài lịng của hành khách.

- bộ dữ liệu có 25 thuộc tính và 25976 dòng

Feature 1 số thứ tự hành

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Class hạng ghế Flight Distance khoảng cách bay Các thuộc tính bên dưới là mức độ hài lịng của KH từ 0-5

Inflight wifi

service <sup>dịch vụ wifi</sup> <sup>Departure/Arrival time</sup>convenient <sup>sự thuận tiện về thời gian</sup>khởi hành / thời gian đáp Ease of Online

Food and drink dịch vụ ăn uống

Online boarding làm thủ tục trực tuyến Seat comfort ghế ngồi Inflight entertainment giải trí trên chuyến bay On-board service dịch vụ chuyến

Baggage handling hành lý xách

Inflight service dịch vụ trên

- Theo bộ dữ liệu thu thập được, chúng ta quan tâm đến mức độ hài lòng của khách hàng để cải thiện chất lượng dịch vụ. Dựa vào các mơ hình chẩn đoán để đưa ra độ chênh lệch giữa sự hài lịng và khơng hài lịng. Nên biến mục tiêu trong bộ dữ liệu này là biến “<b>satisfaction</b>”

3. Trình bày sơ lược các thuộc tính được chọn đưa vào mơ hình

- Ta sử dụng Rank Widget đánh giá mức tương quan giữa các biến với biến mục tiêu để quyết định bỏ qua biến đó hoặc đưa vào mơ hình dự báo

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

- Ta sẽ bỏ qua các biến có chỉ số tương quan với biến mục tiêu thấp nhất: + ID, Feature 1, Departure/Arrival time convenient, Gate Location, Gender + Đối với các biến Age, Arrival Delay in Minutes, Departure Delay in Minutes, Food and Drink mặc dù chỉ số khá thấp. Nhưng thực tế đó cũng là những yếu tố quan trọng ảnh hưởng lớn đến mức độ hài lòng của khách hàng và khiến họ chọn sử dụng dịch vụ bay của hãng. Nên ta sẽ giữ lại các biến đó.

<i>⇨Vì biến mục tiêu Satisfaction không phụ thuộc vào biến ID, Feature 1,Departure/Arrival time convenient, Gate Location, Gender nên 4 biến đósẽ khơng tham gia vào mơ hình dự báo, ta chọn “<b>skip</b>”</i>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

4. Trình bày các bước và giải pháp làm sạch dữ liệu - Processing data

+ Thông tin dữ liệu ban đầu

+ Sử dụng Feature Statistic Widget để xem dữ liệu thống kê cụ thể

<i>⇨Qua bảng thống dữ liệu cụ thể ta thấy tỉ lệ % missing data của tất cả thuộctính đều là 0%. Nhưng thuộc tính <b>Arrival Delay in Minutes</b> có 310/103904dịng missing data, vì tỉ lệ rất nhỏ nên được thể hiện là 0% missing data</i>

<b>- Xử lý dữ liệu bị thiếu bằng Preprocess Widget</b>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

- Điền các giá trị còn thiếu bằng giá trị trung bình

<i>⇨Kết quả sau khi thực hiện điền giá trị bị thiếu bằng giá trị trung bình,Missing Values lúc này là 0</i>

III. Kiểm định mơ hình 1. Các loại mơ hình dự đốn

- Để dự báo cho biến mục tiêu “Satisfaction”, ta sẽ sử dụng 5 mơ hình dự báo: + Neural Network

+ Logistic Regression

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

- Ta sẽ chọn lấy 1000 dữ liệu gốc để thử nghiệm, ta chọn mục Fixed sample size và lấy Instances = 1000, sau đó chọn Sample Data. Lưu file dữ liệu vừa lấy là test.xlsx

- Ta có mơ hình widget sau:

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

- Ta sử dụng Test and Score widget để đánh giá các chỉ số của từng mô hình, tại đây ta chọn tỷ lệ mẫu là Number of folds là 5

2. Report kết quả từng loại mô hình

- Ta quan sát được các chỉ số của 5 mơ hình dưới đây:

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

- Dựa vào bảng số liệu trên ta có thể quan sát được mơ hình Neural Network và Random Forest đem lại số liệu tốt nhất trong 5 mơ hình sử dụng, xét về độ chính xác thì 2 mơ hình này có chỉ số cao nhất (0.958 và 0.957) và đây cũng là 2 mơ hình tốt nhất (chỉ số AUC của 2 mơ hình lần lượt là 0.993 và 0.991). Mơ hình SVM lại có số liệu thấp nhất trong 5 mơ hình với độ chính xác là 0.745 và đây là mơ hình khá tệ để có thể dùng để dự báo (chỉ số AUC chỉ là 0.77)

IV. Đánh giá và lựa chọn mơ hình 1. Lựa chọn mơ hình phù hợp

- Sử dụng widget Test&Score để biết được các chỉ số của mơ hình

- Tại bảng Test & Score chọn tỷ lệ mẫu là Cross validation với Number of folds là 5 (chia dữ liệu thành 5 nếp gấp). Ta thu được dữ liệu như sau:

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

- Quan sát thấy được mơ hình Neural Network đem lại số liệu cao nhất trong 5 mô

- Để xem xét mơ hình nào đem lại tính chính xác nhất và tốt nhất thì chúng ta xem xét tiếp đến ROC Analysis. Các Widget được chọn:

- Tại widget ROC Analysis đường cong biểu thị tỷ lệ nhận diện giả trên trục x (độ đặc hiệu 1, xác suất mục tiêu =1 khi giá trị thực =0) so với tỷ lệ nhận diện thực trên trục y (độ nhạy, xác suất mục tiêu =1 khi giá trị thực =1). Đường cong theo đường viền bên trái và sau đó là đường viền trên cùng của không gian ROC càng gần thì mơ hình càng chính xác

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

- Quan sát mơ hình ta có thể thấy được rằng Neural Network và Random Forest là hai mô hình có độ chính xác cao nhất.

<i>⇨Vậy từ những điều đã nói bên trên ta có thể chọn Neural Network là mơhình phù hợp nhất cho bộ dữ liệu Airline Passenger Satisfaction.</i>

2. Lập luận dựa trên ma trận

- Chúng ta sử dụng widget Matrix Confusion để biết điểm dữ liệu thực sự thuộc vào một lớp cụ thể, và được dự đoán là rơi vào lớp nào.

- Kết quả ma trận nhầm lẫn:

+ Mơ hình Logistic Regression

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

+ Mơ hình Neural Network

+ Mơ hình Random Forest

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

+ Mơ hình Tree

+ Mơ hình SVM

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

- Ta so sánh kết quả của các ma trận nhầm lẫn (xét sai lầm loại 1) dựa trên các mơ hình thì ta được:

Neural Network = 693 < Random Forest = 747 < Tree = 930 < Logistic Regression = 3301 < SVM = 6776 - Qua đó ta thấy được phương pháp Neural Network và Random Forest có ít sai lầm nhất trong 4 phương pháp. Như đã nêu ở trên mơ hình Neural Network đem lại số liệu đẹp nhất với AUC là 0.993 và CA là 0.958.

<i>⇨Sử dụng Neural Network làm mơ hình dự đốn</i>

- Ta có bảng kết quả dự đốn khi dùng mơ hình Neural Network

➔ Tiếp theo chúng ta cần kiểm tra xem yếu tố nào ảnh hưởng nhiều nhất đến sự hài lòng của khách hàng.

3. Yếu tố nào ảnh hưởng nhiều đến sự hài lòng của khách hàng?

a. Thêm biến vào Bar Plot widget để xem quan hệ chính có xuất hiện hay khơng?

- Dựa trên giới tính: (<b>Bỏ file in15 vào</b>)

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

➔ Dựa trên kết quả biểu đồ trên:

● Quãng đường bay dài khiến họ có nhiều khả năng hài lịng với chuyến bay nhiều hơn

● Xét về thời gian trễ trung bình, họ có thể khơng hài lịng khi thời gian lớn hơn 12,5 phút

● Giữa nam và nữ thì khơng có sự khác biệt về sự hài lịng đáng kể. - Dựa trên loại khách hàng: (<b>Bỏ file in16 vào</b>)

</div><span class="text_page_counter">Trang 43</span><div class="page_container" data-page="43">

➔ Dựa trên kết quả biểu đồ trên: ● Khách hàng trung thành:

+ Tuổi chủ yếu khoảng 40

+ Loại khách hàng này chủ yếu hài lòng với chuyến bay đáp ứng chuyến bay dài, chỗ ngồi thoải mái, giải trí trên chuyến

</div><span class="text_page_counter">Trang 44</span><div class="page_container" data-page="44">

bay tốt, vệ sinh sạch sẽ ● Khách hàng không trung thành:

+ Tuổi chủ yếu khoảng 30

+ Loại khách hàng này chủ yếu hài lòng với dịch vụ wifi trên chuyến bay tốt, dễ dàng đặt vé trực tuyến

● Một lần nữa, họ thường cảm thấy trung lập hoặc khơng hài lịng khi số phút trễ là 12,5 hoặc cao hơn.

- Dựa trên loại hình của chuyến bay: (<b>Bỏ file in17 vào</b>)

</div><span class="text_page_counter">Trang 52</span><div class="page_container" data-page="52">

➔ Dựa trên kết quả biểu đồ trên: ● Chuyến bay cá nhân:

+ Khách hàng đi loại hình chuyến bay này hài lòng với dịch vụ wifi, dễ dàng đặt vé trực tuyến

● Chuyến bay công tác:

+ Khách hàng đi loại hình chuyến bay này hài lịng với chuyến bay đáp ứng chuyến bay dài, làm thủ tục trực tiếp, chỗ ngồi thoải mái, giải trí trên chuyến bay tốt,

</div><span class="text_page_counter">Trang 53</span><div class="page_container" data-page="53">

dịch vụ trên chuyến bay tốt và vệ sinh sạch sẽ - Dựa trên hạng ghế ngồi: (<b>Bỏ file in18 vào</b>)

</div><span class="text_page_counter">Trang 69</span><div class="page_container" data-page="69">

Dựa trên kết quả biểu đồ trên:

● Vé hạng Business: Khách hàng đi vé hạng này hài lòng với chuyến bay đáp ứng chuyến bay dài, tổng quan dịch vụ trên chuyến bay cao hơn so với các hạng khác vì đây là hạng

</div><span class="text_page_counter">Trang 70</span><div class="page_container" data-page="70">

thương gia, dịch vụ wifi trên máy bay thấp hơn một chút ● Đối với lớp khác thì khơng có bất kỳ khác biệt rõ ràng. ➢Kết luận:

● Khách hàng có nhiều khả năng khơng chấp nhận sự chậm trễ trong khoảng 12.5 phút hoặc lớn hơn .

b. Sơ đồ tầm quan trọng của các yếu tố ảnh hưởng đến sự hài lòng theo mơ hình:

- Vì mơ hình Neural Network được chọn là mơ hình tốt nhất theo mục 2 phần IV nên tại đây chúng ta sử dụng mô hình này để đánh giá. - Sử dụng Feature Importance widget để xem mức độ ảnh hưởng của

các yếu tố.

</div><span class="text_page_counter">Trang 72</span><div class="page_container" data-page="72">

1. Mục đích, ý nghĩa của việc triển khai mơ hình trong lĩnh vực hàng khơng - Mục đích: mơ hình được triển khai nhằm đánh giá và phân tích các yếu tố ảnh

hưởng đến sự hài lòng của khách hàng khi tham gia dịch vụ bay - Ý nghĩa:

+ Ngành dịch vụ ngày càng phát triển, nên việc cạnh tranh ngày càng gây gắt là điều khơng thể tránh khỏi. Vì vậy khi nắm bắt được tâm lý khách hàng giúp công ty dễ dàng đưa ra các chính sách hỗ trợ, cải thiện dịch vụ đáp ứng nhu cầu của khách hàng từ đó tăng sự hài lịng của khách hàng thu hút khách đến với hãng hàng khơng của mình

+ Bên cạnh cải thiện những dịch vụ làm khách hàng khơng hài lịng, hãng hàng khơng cũng cần phân tích và cân nhắc đưa ra những dịch vụ mới theo mong muốn của khách hàng dựa trên những dữ liệu thu thập được về sự hài lòng của khách hàng

+ Khi cải thiện được chất lượng dịch vụ, mang đến cho hành khách một chuyến bay hài lòng, các hàng hàng khơng sẽ được đánh giá tốt, từ đó gia tăng mức độ uy tín và lịng tin của thương hiệu để thu hút thêm nhiều khách hàng mới

2. Phân tích đánh giá hiệu quả kinh tế khi triển khai mơ hình

- Bài phân tích dựa trên mơ hình tối ưu từ bộ dữ liệu thu thập về mức độ hài lịng của khách hàng từ đó phân tích ra những thuộc tính ảnh hưởng nhiều đến sự hài lòng của khách hàng. Sau khi biết được những nhu cầu của phần lớn khách hàng và những dịch vụ làm khách hàng khơng hài lịng, hãng hàng khơng có thể cải thiện được dịch vụ bay và có thêm những chính sách phát triển tối ưu điểm mạnh, khắc phục điểm yếu nhằm giữ chân và thu hút khách hàng

- Dựa trên mơ hình Neural Network ta phân tích được các yếu tố ảnh hưởng nhiều đến sự hài lòng của khách hàng như Type of travel, Inflight wifi service, Customer Type. Các dịch vụ này có thể được cải thiện bằng cách đưa ra các chính sách phù hợp và đầu tư vào trang thiết bị trên máy bay. Bên cạnh đó, địi hỏi đội ngũ nhân viên phải được đào tạo chuyên nghiệp, tận tình tư vấn và giúp đỡ hành khách - Ngoài ra, mọi khâu xử lý thủ tục cần được đầu tư mở rộng, bàn bạc quy trình xử lý

giấy tờ theo thứ tự hợp lý để tránh ảnh hưởng đến checkin service của khách hàng. Có thể thiết lập website của hãng hàng không phục vụ checkin online cho mọi loại khách hàng giúp giảm số lượng hành khách đông đúc tại khu vực checkin - Sử dụng mơ hình tính tốn giúp chúng ta phân loại khách hàng (khách hàng hạng

phổ thông, khách hàng hạng thương gia), Đối với từng loại khách hàng, ta sẽ có những giải pháp khác nhau. Ví dụ: đối với khách hàng hạng phổ thơng, ta có thể đưa ra một số ưu đãi, voucher giảm giá khi sử dụng dịch vụ bay. Còn đối với hạng thương gia, tăng giá vé so với hạng phổ thông đồng thời cũng nâng cao chất lượng phục vụ. Bên cạnh những biện pháp giữ chân khách hàng cũ, ta cần phải tìm những cách thu hút khách hàng mới.

- Ngồi ra, chúng ta phải ln cập nhật tìm kiếm những thơng tin tốt nhất cho khách hàng, luôn trau dồi đội ngũ Marketing và đặc biệt phải tạo sự uy tín cao để khách hàng tin tưởng.

</div><span class="text_page_counter">Trang 73</span><div class="page_container" data-page="73">

- Nhìn chung, sự hài lịng là một phân loại nhị phân, trong đó mỗi hành khách đánh giá trải nghiệm tổng thể của họ là "hài lịng" hoặc "trung lập hoặc khơng hài lịng". Dữ liệu được phân chia tương đối đồng đều giữa hai loại hành khách này, với một chút nghiêng về những người đánh giá trải nghiệm của họ là "trung lập hoặc khơng hài lịng", 56%. Do đó, nếu khơng có thêm thơng tin, mơ hình cơ sở chỉ có thể dự đốn chính xác rằng mọi hành khách sẽ trung lập hoặc khơng hài lịng.

VI. Đánh giá đóng góp của các thành viên tham gia dự án 1. Họ tên thành viên và nội dung đóng góp

Đặng Châu Kỳ Triển khai mơ hình, thuyết trình phần IV, V

Powerpoint, làm word

Huỳnh Thị Ngọc Trâm Thu thập và làm sạch dữ liệu, thuyết trình

</div>

×