Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.22 MB, 35 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
1.1.2 Ứng dụng của khoa học dữ liệu ... 5
1.1.3 Giới thiệu về Python và phần mềm Orange ... 5
1.2.1 Bối cảnh của đề tài nghiên cứu ... 5
1.2.2 Mục tiêu của đề tài ... 6
2.2.1 Bài toán phân lớp dữ liệu ... 13
2.2.1.1 Định nghĩa ... 13
2.2.1.2 Quy trình phân lớp ... 13
2.2.2 Một số mơ hình phân lớp cơ bản ... 14
2.2.2.1 Hồi quy Logistic (Logistic Regresion) ... 14
2.2.2.2 Cây quyết định ( Tree ) ... 14
2.2.2.3 SVM- Support Vector Machine ... 15
2.2.2.4 Neural Network ... 15
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3"><small>3 </small>
2.2.3 Các phương pháp đánh giá mơ hình phân lớp... 16
2.2.3.1 Ma trận nhầm lẫn (Confusion Matrix) ... 16
2.2.3.2 Phương pháp phân chia dữ liệu Hold-out ... 18
2.2.3.3 Phương pháp K-fold cross Validation... 18
3.1.1 Mô tả dữ liệu... 18
3.1.2 Xử lý dữ liệu ... 20
3.1.3 Trực quan hóa dữ liệu... 20
3.2.1 Kết quả của dữ liệu huấn luyện ... 28
3.2.2 Kết quả dữ liệu dự báo ... 31
3.2.3 Đánh giá kết quả mơ hình... 33
<small>4 </small>
Hình 1: Biểu đồ dạng thanh: thanh đứng (1a) và thanh ngang (1b).
Hình 2: Biểu đồ dạng thanh: các thanh đặt cạnh nhau (2a) và các thanh đặt chồng lên nhau (2b).
Hình 3: Các dạng biểu đồ xy thể hiện sự tăng trưởng của thân cây cam A.
Hình 4: Các dạng biểu đồ xy thể hiện sự tăng trưởng của than các cây cam A,B và C. Hình 5: Biểu đồ trịn thể hiện doanh số 4 q của cơng ty X.
Hình 6: Mơ hình hồi quy.
Hình 13: Trực quan hố dữ liệu theo giới tính. Hình 14: Trực quan hố dữ liệu theo độ tuổi. Hình 15: Trực quan hố dữ liệu theo nghề nghiệp. Hình 16: Trực quan hoá dữ liệu theo thời gian di chuyển.
Hình 17: Trực quan hố dữ liệu theo thời gian dành cho cơng việc trước đại dịch. Hình 18: Trực quan hoá dữ liệu theo thời gian dành cho cơng việc trong đại dịch. Hình 19: Trực quan hố dữ liệu theo đánh giá cơng việc trực tuyến.
Hình 20: Trực quan hố dữ liệu theo mức độ thích mơi trường gia đình. Hình 21: Trực quan hoá dữ liệu theo mức độ kết nối với gia đình. Hình 22: Trực quan hố dữ liệu theo mức độ thư giãn.
Hình 23: Trực quan hố dữ liệu theo mức độ tự dành thời gian cho bản thân. Hình 24: Trực quan hố dữ liệu theo mức độ thích làm việc ở nhà. Hình 25: Trực quan hố dữ liệu theo mức độ khơng thích làm việc ở nhà. Hình 26: Khai báo các thuộc tính của bộ dữ liệu huấn luyện.
Hình 27: Sơ đồ quá trình huấn luyện.
Hình 29: Ma trận nhầm lẫn của mơ hình Tree. Hình 30: Ma trận nhầm lẫn của mạng Neural Hình 31: Mơ tả thuộc tính của các biến. Hình 32: Mơ tả thuộc tính của các biến. Hình 33: Bảng dự báo bằng Tree.
Bảng 1: Doanh số của các xí nghiệp trong 4 quý của năm 20xx. Bảng 2: Tình hình kinh doanh áo sơ mi tại cửa hàng tuần trong 24.
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5"><small>5 </small>
tận tình hướng dẫn, giúp đỡ cùng với sự tâm huyết giảng dạy chúng em đã tích lũy thêm được nhiều kiến thức và cái nhìn sâu sắc về phần mềm orange nói riêng và mơn Khoa học dữ liệu nói chung.
lĩnh vực cơng nghệ và thông tin. Đặc biệt trong công cuộc đổi mới và thời đại 4.0 đang diễn ra sôi nổi hơn bao giờ hết thì khoa học dữ liệu dần trở thành xu hướng được các doanh nghiệp hướng tới nhằm đẩy mạnh hoạt động kinh doanh bằng việc sử dụng những thơng tin được phân tích do cơng nghệ này mang lại. Bằng cách phân tích dữ liệu, con người có một lượng kiến thức và hiểu rõ hơn về các hoạt động trong quá khứ đã được ghi nhận lại và đưa ra những lời khuyên, kết luận cuối cùng cho tương lai. Khoa học dữ liệu là khoa học về việc quản trị và phân tích dữ liệu để tìm ra các hiểu biết, các tri thức hành động, các quyết định dẫn dắt hành động. Khoa học dữ liệu gồm ba phần chính: Tạo và quản trị dữ liệu, phân tích dữ liệu, và chuyển kết quả phân tích thành giá trị của hành động.
dựng nên một mô hình đánh giá mức độ ảnh hưởng tâm lý do COVID dựa trên thơng tin có được từ bộ dữ liệu. Nhóm đã tìm hiểu các yếu tố ảnh hưởng và đánh giá các mức độ thông qua các phương pháp tính tốn và phần mềm Orange từ đó đưa ra những đánh giá và đề xuất thích hợp. Để hiểu rõ và cụ thể hơn chúng em xin phép phân tích trong bài báo cáo dưới đây.
<b>1.1 Giới thiệu về khoa học dữ liệu 1.2 Giới thiệu đề tài </b>
vào các lĩnh vực đời sống, đặc biệt là Sức khỏe. Vậy nếu chúng ta ứng dụng các mô
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6"><small>6 </small>
-toàn nhân loại trong suốt 2 năm, không chỉ cướp đi sinh mạng của hơn 4,5 triệu người mà còn gây ra những tổn thất nặng nề về kinh tế, xã hội và đặc biệt là về sức khỏe. Trên thực tế, đã có rất nhiều trường hợp bị tác động mạnh mẽ đến tâm lý con người khi chứng kiến cảnh người thân ra đi, sự ra đi đột ngột của những người thân thiết cũng như những di chứng khó hồi phục hồn tồn sau đại dịch. Từ đó ảnh hưởng dần đến tâm lý, sự thay đổi của con người.
hơn, nhân viên làm việc tại nhà, các hình thức mua bán online cũng trở nên thịnh hành; do đó, sau đại dịch khơng tránh khỏi sự khó thích ứng với mơi trường ban đầu và bất tiện với sự thay đổi nhanh chóng này. Vậy câu hỏi được đặt ra: Với mức độ ảnh hưởng của COVID đối với tâm lý con người, nhân viên có cần một số ngày làm việc ở nhà hay không ?
<b>1.2.2 Mục tiêu của đề tài </b>
sau đại dịch đã bị tác động như thế nào qua các thuộc tính khác nhau của con người; từ đó, đưa ra những giải pháp để giúp năng suất và hiệu quả của công việc được nâng cao hơn. Điều này có thể giúp các cơng ty, doanh nghiệp hiểu hơn tâm lý của nhân viên, tạo ra môi trường làm việc thoải mái, lý tưởng từ kết quả của mơ hình.
đến sức khỏe tinh thần của bản thân và cũng mong các doanh nghiệp có cái nhìn sâu sắc hơn về quyền lợi của nhân viên.
<b>2.1 Phương pháp thống kê mơ tả </b>
có thể là đại diện cho toàn bộ hoặc một mẫu của một tổng thể. Các công cụ số dùng để mô tả thường dùng nhất là trung bình cộng và độ lệch chuẩn. Các công cụ trực quan thường dùng nhất là các biểu đồ.
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7"><small>7 </small>
dùng để thống kê các chỉ số phân tích như giá trị trung bình (mean), giá trị lớn nhất, nhỏ nhất (max, min), độ lệch chuẩn (standard deviation),…
đọc mức độ (tần số) các chỉ số xuất hiện trong tập mẫu.Thông thường, các biến định tính ở đây sẽ là những đặc điểm nhân khẩu học như độ tuổi, giới tính, nghề nghiệp, bộ phận làm việc, thâm niên, học vấn, thu nhập,...
sinh. Dưới đây là tất cả các điểm kiểm tra và tính tốn số liệu thống kê tóm tắt được ghi lại và tạo ra các biểu đồ.
bằng cách đưa ra các tóm tắt ngắn về mẫu và các thông số của dữ liệu. Loại thống kê mô tả phổ biến nhất là các thông số xu hướng tập trung gồm: giá trị trung bình, trung vị và yếu vị, các thơng số này được sử dụng ở hầu hết các cấp độ toán học và thống kê.
một bộ dữ liệu lớn thành các mô tả đơn giản.
tắt ngắn về mẫu và các thông số của dữ liệu
bảng và đồ thị và thảo luận về các kết quả được tìm thấy.
của các sinh viên tham gia học phần tương ứng và phân bố điểm, phải sử dụng thống kê mô tả. Lấy điểm dưới dạng dữ liệu thô sẽ chứng minh việc xác định hiệu suất tổng thể và phân phối điểm là một thách thức.
<b>2.1.4.1 Bảng liệt kê </b>
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8"><small>8 </small>
áo sơ mi của công ty may mặc MM trong một tuần của năm 2016 tại các cửa hàng. Trên bằng này ta có các biến sau:
• Tuan: thời gian ghi nhận (tuần thứ 24 của năm 2016)..
• Khu_Vuc: nơi đặt cửa hàng, ghi ở dạng mã bốn chữ cái in hoa (ví dụ CTHO là mã của thành phố Cần Thơ).
• San_Pham: số sản phẩm bán được trong thời gian ghi nhận.
• CP_Tiep_Thi: chi phí quảng bá sản phẩm trong thời gian ghi nhận, đơn vị là ngàn đồng.
• Nhan_Vien: số nhân viên bán hàng.
<b>dữ liệu</b> thô
<b>2.1.4.2 Biểu đồ </b>
biểu đồ xy, biểu đồ tần số, biểu đồ tròn, biểu đồ dạng đường nối. Với sự trợ giúp của các phần mềm máy tính, ta có thể thực hiện các loại biểu đồ này một cách dễ dàng.
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9"><small>9 </small> bảng dữ liệu.
<b>● Biểu đồ thanh </b>
dùng nó để thể hiện giá trị số của biến khảo sát của một số đối tượng hay nhóm đối tượng. Trong đó chiều cao của thanh hay chiều dài của thanh thể hiện giá trị số của biến.
sánh giá trị của biến khảo sát giữa các đối tượng hay các nhóm đối tượng với nhau. Trong hai loại nói trên thì biểu đồ thanh đứng được sử dụng nhiều hơn.
trong 4 quý của năm 20xx được thể hiện trên Bảng 1.
Bảng 1: Doanh số của các xí nghiệp trong 4 quý của năm 20xx
hiện trên hình bên dưới
Hình 1: Biểu đồ dạng thanh: thanh đứng (1a) và thanh ngang (1b)
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">hơn (Hình 2), trong đó doanh số mỗi xí nghiệp trong một quý được biểu diễn bằng một thanh và được ký hiệu riêng để có thể phân biệt được các xí nghiệp với nhau.
án: các thanh biểu diễn cho các xí nghiệp có thể được đặt cạnh nhau (Hình 2a) hay đặt chồng lên nhau (Hình 2b). Và tất nhiên ta có thể đặt các thanh theo phương đứng như Hình 2 hoặc đặt theo phương nằm ngang theo kiểu Hình 1b.
Hình 2: Biểu đồ dạng thanh: các thanh đặt cạnh nhau (2a) và các thanh đặt chồng lên nhau (2b)
<b>● Biểu đồ xy </b>
biến liên tục. Với mỗi giá trị của biến thứ nhất, có một giá trị tương ứng của biến thứ hai và cặp hai giá trị này được biểu diễn bằng một điểm trên biểu đồ x y . Trong những trường hợp đơn giản, ta có thể nối các điểm này lại bằng những đoạn thẳng. Ta cũng có thể vẽ thêm các đường thẳng hay đường cong (đường hồi quy) để thể hiện tính chất của mối tương quan giữa hai biến.
• Chỉ biểu diễn các điểm (Hình 3a và 4a).
• Dùng thêm các đoạn thẳng nối các điểm lại với nhau (Hình 3b và 4b). Dạng này thường chỉ áp dụng cho những trường hợp đơn giản, khi số điểm không nhiều.
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11"><small>11 </small> • Thêm vào các đường thẳng hay đường cong (đường hồi quy) để thể
hiện tính chất của mối tương quan giữa hai biến kháo sát theo một mơ hình nào đó (Hình 3c và 4c).
Hình 3: Các dạng biểu đồ xy thể hiện sự tăng trưởng của thân cây cam A
biểu đồ như trên Hình 4.
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12"><small>12 </small> Hình 4: Các dạng biểu đồ xy thể hiện sự tăng trưởng của than các cây cam A,B và C
<b>● Biểu đồ tròn. </b>
biểu đồ tròn lại xuất hiện khá thường xuyên trên các phương tiện truyền thông. Lý do của sự phổ biến này là tính đơn giản, dễ hiểu của nó, và trong chừng mực nào đó, biểu đồ trịn trơng dễ bắt mắt. Trong loại biểu đồ này, mỗi giá trị của biến được thể hiện bằng một hình quạt trịn có diện tích tỷ lệ với giá trị của biến (Hình 8). Các giá trị khác nhau được phân biệt bởi tên và màu.
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13"><small>13 </small> liệu từ Bảng1).
thể, từ đó có thể so sánh, đối chiếu vai trị của mỗi phần (một cách tương đối). Tuy vậy, về mặt so sánh, đối chiếu các phần, biểu đồ thanh hiệu quả hơn. Mặt khác các ưu thể của biểu đồ trịn sẽ khơng cịn khi số phần tăng lên hay sự sai khác giữa các phần không lớn.
<b>2.2 Phương pháp phân lớp dữ liệu </b>
<b>2.2.1.1 Định nghĩa</b>
trước nhờ 1 mơ hình phân lớp. Mơ hình này được xây dựng trên một tệp dữ liệu đã gắn nhãn ( đã chuẩn bị được dữ liệu trong quá khứ)
• Xuất phát từ một tập dữ liệu có sẵn, sau đó ta sẽ tiến hành tiền xử lý dữ liệu để bộ dữ liệu của ta khơng có dữ liệu bị thiếu, nhiễu. Từ đây ta sẽ
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14"><small>14 </small> tạo được mô hình phân lớp sau khi chạy các thuật tốn phân lớp dữ liệu.
• Đánh giá mơ hình ( kiểm tra tính đúng đắn của mơ hình)
<b>2.2.2.1 Hồi quy Logistic (Logistic Regresion) </b>
(biểu diễn dưới dạng vector).
hoặc Khơng,... Ngày nay nó được sử dụng phổ biến để phân loại mọi thứ.
Hình 6: Mơ hình hồi quy
<b>2.2.2.2 Cây quyết định ( Tree ) </b>
quyết định, giúp mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước.
Hình 7: Mơ hình cây
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15"><small>15 </small>
• Dễ hiểu.
• Khơng cần chuẩn hóa. • Xử lý được nhiều dữ liệu.
• Xử lý tốt dữ liệu trong 1 thời gian ngắn.
• Khó giải quyết trong tình trạng dữ liệu phụ thuộc thời gian. • Chi phí xây dựng mơ hình cao.
2.2.2.3 SVM- Support Vector Machine
lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều để phân cách các lớp dữ liệu.
điểm dữ liệu của tất cả các lớp xa nhất có thể.
Hình 8: Các thể biến của SVM Ưu điểm:
- Chạy nhanh, tiết kiệm bộ nhớ
- Linh hoạt: vừa phân loại tuyến tính, vừa phân loại phi tính. - Xử lý được không gian nhiều chiều
Khuyết điểm:
- Chưa thể hiện tính xác suất trong phân loại
- Kết quả chưa tốt trong trường hợp lớp dữ liệu quá lớn
2.2.2.4 Neural Network
-là một tập hợp con của học máy và -là trung tâm của các thuật toán học sâu. Tên và cấu trúc của chúng được lấy cảm hứng từ não người, bắt chước cách các tế bào thần kinh sinh học truyền tín hiệu cho nhau.
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">-liên quan. Nếu đầu ra của bất kỳ nút riêng lẻ nào vượt quá giá trị ngưỡng được chỉ định, nút đó sẽ được kích hoạt, gửi dữ liệu đến lớp tiếp theo của mạng. Nếu khơng,
Hình 9: Mạng Neural
<b>2.2.3 Các phương pháp đánh giá mơ hình phân lớp </b>
cảm với nhiễu ( tránh không khớp và quá khớp).
<b>2.2.3.1 Ma trận nhầm lẫn (Confusion </b>Matrix)
là số lượng lớp của dữ liệu
• TP (true positive): số dự báo chính xác được nhận giá trị TP. • TN (true negative): số dự báo chính xác một cách gián tiếp .
• FP (false positive): sai lầm loại 1, số liệu dự báo sai lệch (không bị ung thư nhưng dự báo có).
nhưng dự báo khơng) .
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17"><small>17 </small> Hình 10: Ví dụ về ma trận nhầm lẫn
Nó chỉ cho ta biết tỷ lệ dữ liệu đúng (chung), còn cụ thể đúng lớp nào thì khơng rõ.
nhiêu tỷ lệ mẫu đúng.
số điểm true positive (TP) và những điểm thực sự là positive (TP+FN).
TPR và FPR. ROC càng tiệm cận với 0 và 1 thì độ chính xác càng cao.
Hình 11: Ví dụ về ROC
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18"><small>18 </small>
Hình 12: Ví dụ về AUC
<b>2.2.3.2 Phương pháp phân chia dữ liệu Hold-out </b>
-nhất định.
mẫu sao cho nó phân bổ đều trong cả 2 dữ liệu huấn luyện và đánh giá hoặc lấy mẫu ngẫu nhiên rồi thực hiện phương pháp k lần với độ chính xác acc (M) = trung bình cộng k giá trị chính xác.
<b>2.2.3.3 Phương pháp K-fold cross Validation </b>
các fold được sử dụng là dữ liệu đánh giá và cịn lại thì dùng training. Q trình này lặp lại cho đến khi tất cả các fold đều đã dùng làm tập dữ liệu đánh giá.
<b>3.1 Mơ tả dữ liệu </b>
-khách hàng có rời bỏ hay khơng. Trong bài này, sinh viên sử dụng 80% dữ liệu để huấn luyện và 20% để kiểm tra dữ liệu.
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20"><small>20 </small>
- Tóm tắt hóa dữ liệu: Xác định các thuộc tính tiêu biểu của dữ liệu về xu hướng chung và sự phân tán của dữ liệu.
- Chuyển đổi dữ liệu: Dữ liệu thực tế thường nhiễu, thiếu, không nhất quán nhưng trong dữ liệu của nhóm khơng có biến bị thiếu hay nhiễu nên ta có thể bỏ qua. - Xử lý dữ liệu: Do khơng có dữ liệu bị thiếu nên sẽ làm sạch dữ liệu bằng cách xử lý
các dữ liệu bị nhiễu. Trong đây nhóm sẽ chọn giải pháp giảm nhiễu bằng phương pháp hồi quy (regression) để làm sạch dữ liệu.
<b>- Theo giới tính: </b>
Hình 13: Trực quan hố dữ liệu theo giới tính
covid 19. Riêng ở cột giới tính cịn lại (1%) cột có khơng nổi trội so với nam và nữ nhưng nhìn chung xu hướng mọi người đều muốn làm việc ở nhà thay vì tới cơng ty.
- <b>Theo độ tuổi:</b>
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21"><small>21 </small> Hình 14: Trực quan hóa dữ liệu theo độ tuổi.
đủ tuổi làm việc. Ở độ tuổi 50 tuổi đổ lại đây có thể thấy số lượng người cần một số ngày làm việc ở nhà chiếm đa số. Có thể do họ đã được tiếp cận với công nghệ đủ
tuổi do đã quá quen với cách làm việc truyền thống nên họ chưa quen với cách làm việc trực tuyến dẫn đến có nhiều khó khăn trong q trình làm việc.
- <b>Theo nghề nghiệp:</b>
Hình 15: Trực quan hóa dữ liệu theo nghề nghiệp.
</div>