Tải bản đầy đủ (.pdf) (67 trang)

Phân lớp bộ dữ liệu marketing dịch vụ hàng không dựa trên ứng dụng orange

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.57 MB, 67 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾKHOA CÔNG NGHỆ THÔNG TIN KINH DOANH</b>

BỘ MÔN CÔNG NGHỆ THÔNG TIN

<b>BÁO CÁO ĐỒ ÁN HỌC PHẦN KHOA HỌC DỮ LIỆU</b>

<b>Đề tài: Phân lớp bộ dữ liệu Marketing dịch vụ hàng khôngdựa trên ứng dụng Orange</b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>BẢNG PHÂN CÔNG CÁC THÀNH VIÊN...7</b>

<b>Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI. 81.1Giới thiệu về khoa học dữ liệu:...8</b>

<b>1.1.1 Dữ liệu:...8</b>

<b>1.1.2 Big Data...8</b>

<b>1.1.3 Tổng quan về khoa học dữ liệu...9</b>

<b>1.1.4 Ứng dụng tiêu biểu của khoa học dữ liệu...10</b>

<b>1.2 Giới thiệu đề tài:...11</b>

<b>1.2.1 Lý do chọn đề tài...11</b>

<b>1.2.2 Khái niệm về Marketing dịch vụ hàng không...11</b>

<b>1.2.3 Mục tiêu nghiên cứu...12</b>

<b>Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG...13</b>

<b>2.1 Các phương pháp của Excel dùng để khai thác dữ liệu...13</b>

<b>2.1.1. Phương pháp thống kê mô tả...13</b>

<b>2.1.2 Phương pháp về phân tích dự báo...20</b>

<b>2.1.3 Phương pháp phân tích tối ưu...24</b>

<b>2.2 Phần mềm Orange...26</b>

<b>2.2.1 Tổng quan phần mềm Orange...26</b>

<b>2.2.2. Phương pháp phân cụm dữ liệu...31</b>

<b>2.2.3 Phương pháp phân lớp dữ liệu...35</b>

<b>CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ...44</b>

<b>3.1 Phân tích dữ liệu Marketing Hàng khơng...44</b>

<b>3.1.1 Xử lý nhập dữ liệu Marketing Hàng không...44</b>

<b>3.1.2 Mô tả dữ liệu Marketing Hàng không...45</b>

<b>3.1.3 Thống kê mô tả dữ liệu Marketing Hàng không...47</b>

<b>3.2. Phân lớp dữ liệu...48</b>

<b>3.2.1. Một số phương pháp phân lớp...49</b>

<b>3.2.2. Kết quả mơ hình...50</b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ CỦA MƠ HÌNH...61KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN...62TÀI LIỆU THAM KHẢO...64</b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

Hình 5.2 Hộp thoại Solver Parameters...25

Hình 6.2: Chức năng Data trong Orange...27

Hình 7.2: Chức năng Transform trong Orange...28

Hình 8.2: Chức năng Visualize trong Orange...28

Hình 9.2: Chức năng Model trong Orange...29

Hình 10.2: Chức năng Evalute trong Orange...29

Hình 11.2: Chức năng Unsupervised trong Orange...30

Hình 12.2 Mơ hình minh hoạ phương pháp phân cụm dữ liệu...32

Hình 13.2. Hình ảnh về độ đo khoảng cách phổ biến...33

Hình 14.2. Minh họa cụm dữ liệu đã được phân cụm theo thuật tốn K-Means... 34

Hình 15.2 Q trình phân lớp dữ liệu – Xây dựng mơ hình phân lớp...35

Hình 16.2 Quá trình phân lớp dữ liệu – Đánh giá mơ hình...36

Hình 17.2 Q trình phân lớp dữ liệu – Phân lớp dữ liệu mới...36

Hình 18.2 Minh họa về phương pháp Hồi quy logistic...37

Hình 19.2 Minh họa một mơ hình cây quyết định đơn giản...37

Hình 20.2 Minh họa phương pháp SVM...38

Hình 21.2 Minh họa phương pháp đánh giá mơ hình phân lớp...39

Hình 22.2 Minh họa ma trận nhầm lẫn...40

Hình 23.2 Minh họa đường cong ROC...41

Hình 24.2 Minh họa AUC...41

Hình 25.2. Dữ liệu thử nghiệm (Testing set)...42

Hình 26.2. Phân chia Dữ liệu huấn luyện (Training set)...42

Hình 1.3 Các bước nhập dữ liệu Marketing Hàng khơng...44

Hình 2.3 Nhập file Marketing Hàng khơng...44

Hình 3.3 : Quan sát dữ liệu...45

Hình 4.3 : Bảng thống kê độ tuổi và giới tính...47

Hình 5.3 : Biểu đồ thể hiện số lượng chuyến bay và số lượng hủy chuyến.. 48

Hình 6.3 Giới thiệu phân lớp dữ liệu...49

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Hình 7.3 Mơ hình hồi quy Logistic...49

Hình 8.3 Mơ hình cây quyết định...50

Hình 9.3 Mơ hình cây quyết định...50

Hình 10.3 Lấy mẫu dữ liệu 1...51

Hình 11.3 Mẫu dữ liệu 30%...51

Hình 12.3 Lấy mẫu dữ liệu 2...52

Hình 13.3 Mẫu dữ liệu 70%...52

Hình 14.3 Mẫu dữ liệu huấn luyện...53

Hình 15.3 Mẫu dữ liệu huấn luyện...53

Hình 16.3. Mơ hình lấy dữ liệu...54

Hình 17.3 Tập dữ liệu huấn luyện...54

Hình 18.3 Mơ hình các thuật tốn...55

Hình 19.3 Kết quả chia dữ liệu thành 6 thành phần...55

Hình 20.3 Kết quả chia dữ liệu thành 50 _90%...56

Hình 21.3 Kết quả chia dữ liệu thành 20 _70%...56

Hình 22.3 Kết quả chia dữ liệu thành 50 _66%...57

Hình 23.3 Kết quả ma trận nhầm lẫn của phương pháp Cây quyết định ( Decision Tree)...58

Hình 24.3 Kết quả ma trận nhầm lẫn của phương pháp Hồi quy logistic...58

Hình 25.3 Kết quả ma trận nhầm lẫn của phương pháp SVM...59

Hình 26.3 Mơ hình kết quả dự báo dữ liệu hàng khơng...59

Hình 27.3 Mơ hình kết quả dự báo...60

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>DANH MỤC BẢNG BIỂU</b>

Bảng 1.2 Số liệu bán hàng trong tháng 03 tại siêu thị ABC:...13

Bảng 2.2 Bảng kết quả thống kê bằng công cụ Descriptive statistics...14

Bảng 3.2 Bảng dữ liệu mỗi nhân viên đã thực hiện...15

Bảng 4.2 Bảng tổng hợp số tiền mà mỗi nhân viên thực hiện...16

Bảng 5.2 Doanh thu của 3 cửa hàng...17

Bảng 6.2 Bảng tổng hợp toàn bộ doanh số của 3 cửa hàng...18

Bảng 7.2. Bảng tổng hợp dữ liệu đa chiều với PivotTable...18

Bảng 8.2 Kết quả tổng hợp đa chiều với PivotTable...19

Bảng 9.2 Số liệu bán hàng trong tháng 03 tại siêu thị ABC và hộp thoại Moving Average...20

Bảng 10.2 Số liệu bán hàng trong tháng 03 tại siêu thị ABC và hộp thoại Exponential Smoothing...21

Bảng 11.2 Phân tích Doanh thu – Chi phí năm 2016...22

Bảng 12.2 Bảng kết quả Hồi quy...23

Bảng 13.2 Bảng số liệu Dự án...24

Bảng 14.2 Thiết lập bảng tính...25

Bảng 15.2 Kết quả lựa chọn phương án sản xuất và các báo cáo kèm theo lời giải...26

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>LỜI MỞ ĐẦU</b>

Nhóm chúng em xin gửi lời biết ơn chân thành đến Thầy TS Nguyễn Quốc Hùng, người đã không ngần ngại chia sẻ kiến thức và hướng dẫn tận tình trong suốt quá trình thực hiện đồ án Khoa học dữ liệu. Sự đồng hành và hỗ trợ của Thầy đã là nguồn động viên quan trọng, giúp chúng em vận dụng linh hoạt những kiến thức đã học để hoàn thiện đồ án một cách thành cơng.

Mặt khác, nhóm chúng em nhận thức rõ rằng trong quá trình nghiên cứu và triển khai đồ án, khơng thể tránh khỏi những thiếu sót. Chúng em trân trọng mọi ý kiến đóng góp và đánh giá từ Thầy để có thể cải thiện và hồn thiện hơn về mặt chất lượng. Đồ án của chúng em khơng chỉ là sản phẩm cá nhân mà cịn là kết quả của sự đóng góp nhiệt tình và chuyên sâu từ tất cả các thành viên trong nhóm 8. Qua quá trình này, chúng em hy vọng rằng đồ án sẽ mang lại giá trị và ý nghĩa tích cực cho lĩnh vực Khoa học dữ liệu.

Trong bối cảnh Việt Nam ngày càng hội nhập sâu rộng, tham gia vào cộng đồng quốc tế và khu vực, chúng em nhận thức rõ vai trò quan trọng của hệ thống thông tin trong việc khai thác thông tin chuyên sâu để hỗ trợ hoạt động kinh doanh. Khoa học dữ liệu, như là một phương thức tiếp cận đa ngành, không chỉ giúp doanh nghiệp tận dụng thông tin mà còn nâng cao khả năng quyết định và phát triển.

Chúng em đã chọn thực hiện đồ án với ứng dụng Orange để phân lớp bộ dữ liệu marketing dịch vụ hàng không, tập trung vào Hàng Không Việt Nam, một đơn vị đóng vai trị quan trọng trong việc cung cấp dịch vụ vận chuyển cho xã hội. Hy vọng rằng thông qua đồ án này, chúng em có thể đóng góp một phần nhỏ vào sự phát triển của lĩnh vực này.

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>BẢNG PHÂN CƠNG CÁC THÀNH VIÊN</b>

<b>TTHọ và tênCơng việc phụ trách<sup>Mức độ hoàn</sup></b>

Lời mở đầu, Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI.

1.1 Giới thiệu về khoa học dữ liệu 1.2 Giới thiệu đề tài

Chương 4: ĐÁNH GIÁ KẾT QUẢ MƠ HÌNH, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Kết luận và hướng phát triển Chỉnh sửa file Word

Kim Tuyền <sup>Chương 3: ỨNG DỤNG PHƯƠNG PHÁP</sup> VÀO BÀI TỐN THỰC TẾ

3.1 Phân tích dữ liệu Marketing dịch vụ hàng không

3.2: Phân lớp dữ liệu, chạy dữ liệu trên Orange

100%

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<b>Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI1.1 Giới thiệu về khoa học dữ liệu:</b>

<i> 1.1.1 Dữ liệu:</i>

Dữ liệu là một tập hợp đa dạng của sự kiện, số liệu, hình ảnh, và từ ngữ nhằm mô tả, đo lường hoặc quan sát về các hiện tượng và đối tượng trong thế giới xung quanh. Sự tiến triển trong lĩnh vực công nghệ, đặc biệt là sự gia tăng của điện thoại thơng minh, laptop và máy tính bảng, đã dẫn đến việc tích hợp văn bản, video và âm thanh vào bộ dữ liệu, cùng với sự thu thập thông tin từ nhật ký trang web. Dữ liệu có thể được phân chia thành hai loại chính: dữ liệu có cấu trúc và dữ liệu khơng có cấu trúc

- Dữ liệu có cấu trúc:

 Thường được biết đến là dữ liệu định lượng.  Chứa ý kiến chủ quan và đánh giá.  Thường được biểu diễn ở dạng số hoặc chữ.

 Lưu trữ trong các nền tảng như Excel, SQL, hoặc Google Sheet.  Dễ dàng thu nhập, truy xuất, lưu trữ và sắp xếp.

 Có khả năng trích xuất thông tin một cách hiệu quả. - Dữ liệu không có cấu trúc:

 Thường được coi là dữ liệu định tính.  Ý kiến chủ quan và đánh giá.  Thường là dạng văn bản.

 Lưu trữ trong tài liệu Word, Elasticsearch hoặc Solr.  Khó thu thập, xuất, lưu trữ và sắp xếp.

 Không thể kiểm tra bằng phương pháp và cơng cụ phân tích cụ thể.

<i> 1.1.2 Big Data</i>

Big Data là một tập hợp các dữ liệu có khối lượng lớn, đa dạng, thay đổi nhanh và phức tạp, dẫn đến việc khơng có một cơng cụ truyền thống nào có thể hiệu quả lưu trữ và xử lý số lượng dữ liệu khổng lồ được tạo ra hàng phút. Sự phát triển xã hội và kinh tế ngày càng cần đến công nghệ, và thơng qua việc thu thập và phân tích thơng tin, các tổ chức có cơ hội tạo ra những đột phá mang tính cách mạng, thúc đẩy năng suất và hiệu suất công ty.

Ứng dụng của Big Data đa dạng, từ ngành ngân hàng, y tế, thương mại đến lĩnh vực marketing. Nó đóng vai trị quan trọng như một cơng cụ hỗ trợ phân tích, đánh giá, lưu trữ, chuẩn đốn và đảm bảo an ninh thơng tin trong nhiều lĩnh vực khác nhau.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<i> 1.1.3 Tổng quan về khoa học dữ liệu</i>

Khoa học Dữ liệu là một lĩnh vực nghiên cứu chuyên sâu về quản lý và phân tích dữ liệu, nhằm trích xuất giá trị từ thơng tin để tạo ra hiểu biết, tri thức hành động, và đưa ra các quyết định hướng dẫn hành động

 Khoa học dữ liệu gồm 3 phần chính: - Tạo ra và quản trị dữ liệu

<small></small> Tập trung vào quá trình thu thập, lưu trữ và duy trì dữ liệu.

<small></small> Bao gồm các chiến lược quản lý dữ liệu và biện pháp để đảm bảo chất lượng và tính nhất quán của dữ liệu

- Phân tích dữ liệu:

<small></small> Kết hợp kiến thức từ thống kê tốn học, cơng nghệ thơng tin và tri thức chuyên ngành.

<small></small> Sử dụng công cụ và phương pháp để hiểu rõ hơn về thông tin chứa trong dữ liệu. - Chuyển kết quả phân tích thành giá trị của hành động.

<small></small> Chuyển đổi các kết quả phân tích thành thơng tin có ích để hỗ trợ quyết định và

Xây dựng các giả thuyết để kiểm tra và đánh giá trong q trình phân tích. - Tạo Các Bài kiểm tra:

Phát triển phương pháp và công cụ để kiểm tra giả thuyết. - Phân tích Kết quả:

Áp dụng các kỹ thuật phân tích để đưa ra hiểu biết và thông tin. - Khuyến nghị Thực tế:

Dựa trên kết quả phân tích, đưa ra gợi ý và hướng dẫn hành động thực tế.

 Mục đích chính của Khoa học Dữ liệu là biến đổi lượng lớn dữ liệu chưa qua xử lý thành mơ hình kinh doanh. Điều này giúp tổ chức:

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

- Tiết giảm chi phí. - Gia tăng hiệu quả làm việc.

- Nhìn nhận cơ hội và rủi ro trên thị trường. - Tăng cường lợi thế cạnh tranh.

- Các lĩnh vực của khoa học dữ liệu: Khai thác dữ liệu (Data mining), Thống kê (Statistic), Học máy (Machine learning), Phân tích (Analyze) và Lập trình (Programming).

 Các lĩnh vực của Khoa học Dữ liệu:

- Khai thác Dữ liệu (Data mining): Khám phá thông tin tiềm ẩn trong dữ liệu. - Thống kê (Statistic): Sử dụng các phương pháp thống kê để phân tích và hiểu dữ

- Khoa học dữ liệu có thể giúp con người mơ tả, chuẩn đốn, dự đốn và đề xuất từ đó phân tích đưa ra quyết định và có hành động chính xác, đạt hiệu quả cao nhất. - Khoa học dữ liệu giúp các doanh nghiệp phân tích kinh doanh dựa trên các bảng phân tích dự báo, phân tích khuyến cáo, phân tích mơ tả nhằm quản lý nhân sự, hiểu khách hàng, quyết định đầu tư vào thị trường nào và bán sản phẩm gì.

- Vai trị của khoa học dữ liệu trong lĩnh vực kinh tế thể hiện cụ thể thơng qua 6 bài tốn của doanh nghiệp như tài chính, khách hàng, bán hàng, thị trường, nhân sự và vận hành sản xuất.

- Khi nguồn dữ liệu của các doanh nghiệp là rất lớn và cần được xử lý, họ cần áp dụng những ứng dụng của khoa học dữ liệu vào mơ hình kinh doanh.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<i> 1.1.4 Ứng dụng tiêu biểu của khoa học dữ liệu:</i>

Các công ty hàng đầu trong lĩnh vực Khoa học Dữ liệu như Google, Amazon, Visa đã chứng minh sức mạnh của phân tích dữ liệu trong nhiều lĩnh vực khác nhau. Dưới đây là một số ứng dụng tiêu biểu:

 Google:

- Tìm kiếm và Quảng cáo:

Sử dụng dữ liệu người dùng để cá nhân hóa kết quả tìm kiếm và quảng cáo.

Dựa vào lịch sử tìm kiếm và hành vi trực tuyến để hiển thị quảng cáo chính xác và hấp dẫn.

 Amazon: - Gợi ý Sản phẩm:

Phân tích lịch sử mua sắm và đánh giá sản phẩm để tạo ra gợi ý sản phẩm cá nhân hóa. Tối ưu hóa trải nghiệm mua sắm và tăng cường khả năng chuyển đổi.

 Visa:

- Phòng chống Giao dịch Fraud:

Sử dụng machine learning để phân tích mơ hình hành vi giao dịch và nhận biết bất thường.

Giúp bảo vệ khách hàng khỏi giao dịch gian lận.

<b>1.2 Giới thiệu đề tài:</b>

PHÂN LỚP BỘ DỮ LIỆU MARKETING DỊCH VỤ HÀNG KHÔNG DỰA TRÊN ỨNG DỤNG ORANGE

<i>1.2.1 Lý do chọn đề tài:</i>

Trong bối cảnh môi trường kinh doanh ngày càng đa dạng và cạnh tranh, việc hiểu rõ nhu cầu của thị trường là yếu tố quyết định sự thành công của các doanh nghiệp. Lĩnh vực dịch vụ hàng khơng, đặc biệt là marketing, đóng vai trị quan trọng trong việc xác định và đáp ứng nhu cầu ngày càng tăng của khách hàng.

<i>1.2.2 Khái niệm về Marketing dịch vụ hàng không.</i>

Marketing dịch vụ hàng không không chỉ đơn thuần là việc quảng cáo và bán vé mà cịn là q trình tổ chức và quản lý toàn bộ hệ thống. Từ việc phát hiện nhu cầu của khách hàng đến việc thỏa mãn nhu cầu đó thơng qua chính sách và biện pháp cụ thể. Trong ngữ cảnh này, Khoa học Dữ liệu đóng vai trị quan trọng trong việc hiểu rõ hơn về hành vi của khách hàng và tối ưu hóa chiến lược marketing.

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Đề tài "Phân Lớp Bộ Dữ Liệu Marketing Dịch Vụ Hàng Không Dựa Trên Ứng Dụng Orange" được chọn nhằm áp dụng phương pháp Khoa học Dữ liệu để phân loại và hiểu rõ hơn về mô hình kinh doanh trong lĩnh vực hàng khơng. Sự kết hợp giữa công nghệ Orange và dữ liệu marketing sẽ giúp chúng tôi rút ra những thông điệp quan trọng, hỗ trợ quyết định chiến lược và cải thiện hiệu suất trong marketing dịch vụ hàng không.

<i>1.2.3 Mục tiêu nghiên cứu</i>

Mục tiêu chính của nghiên cứu là tìm hiểu các thuộc tính của khách hàng và ảnh hưởng của chiến lược marketing dịch vụ hàng không đến nhu cầu và độ thỏa mãn của khách hàng. Ngoài ra, nghiên cứu cũng nhằm dự báo tiềm năng phát triển và đề xuất các công cụ số để nâng cao hiệu quả trong lĩnh vực này.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<b>Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNGPHÁP SỬ DỤNG</b>

<b>2.1 Các phương pháp của Excel dùng để khai thác dữ liệu</b>

<b> - Excel là một phần mềm bảng tính nằm trong bộ Microsoft Office, giúp khai phá,</b>

phân tích, thống kế, tính tốn các số liệu… Trong học phần Khoa Học Dữ Liệu, Excel được sử dụng để thống kê mô tả, phân tích dự báo các dữ liệu.

2.1.1. Phương pháp thống kê mô tả

<i> 2.1.1.1 Thống kê bằng công cụ Descriptive statistics:</i>

Descriptive statistics là thống kê tóm tắt và sắp xếp đặc điểm của một tập dữ liệu. Tập dữ liệu là tập hợp nhiều câu trả lời và quan sát từ một mẫu hoặc toàn bộ tập hợp.

<b>Cách thực hiện thống kê:</b>

Bước 1: Chuẩn bị bảng số liệu cần thống kê.

Bước 2: Chọn lệnh Data => Data Analysis => Descriptive Statistics, hộp thoại Descriptive Statistics xuất hiện.

Bước 3: Khai báo các thông số Input và lựa chọn các thơng số Output Options.

<b>Ví dụ: Thống kê mơ tả cho lượng thịt Heo (theo kg) bán được trong tháng 03 tại siêu</b>

thị ABC

<b>Bảng 1.2 Số liệu bán hàng trong tháng 03 tại siêu thị ABC:</b>

Trong hộp thoại Descriptive Statistics,

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

+ Nhập vào Input Range là cột chứa nguyên phần dữ liệu Heo (kg) + Output range là ô xuất hiện dữ liệu

+ Confidence Level for Mean: 95%

+ Bảng kết quả gồm các giá trị trung bình, sai số chuẩn, trung vị, yếu vị, độ lệch chuẩn…

<b>Bảng 2.2 Bảng kết quả thống kê bằng công cụ Descriptive statistics</b>

<i>2.1.1.2 Báo cáo tổng hợp nhóm (Subtotal)</i>

- Chức năng của Subtotal

+ Subtotal là tổng hợp từng nhóm dữ liệu các cột kiểu số trong cơ sở dữ liệu như: tìm tổng, số lớn và nhỏ nhất, trung bình....

+ Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm.

<b>Thực hiện theo công cụ Subtotal:</b>

Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm (Trong trường hợp này là Cột Saleperson)

Bước 2: Chọn toàn bộ cơ sở dữ liệu hay click chuột vào một ô bất kỳ trên dữ liệu. Bước 3: Vào Data → Outline → Subtotal, hộp thoại Subtotal xuất hiện.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<b>liệu mỗi nhân viên đã thực hiện</b>

<b>Hình 1.2 Hộp thoại Subtotal</b>

Trong hộp thoại Subtotal

+ At each change in: chọn cột gom nhóm (Salesperson)

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

+ Use function: chọn hàng thống kê dùng để tổng hợp dữ liệu (Sum) + Add subtotal to: chọn cột thống kê giá trị (Order Amount)

+ Cuối cùng ta có bảng kết quả tổng hợp số tiền mà mỗi nhân viên thực hiện.

<b>Bảng 4.2 Bảng tổng hợp số tiền mà mỗi nhân viên thực hiện</b>

<i>2.1.1.3 Hợp nhất dữ liệu (Consolidate)</i>

Chức năng của Consolidate:

- Cho phép hợp nhất dữ liệu từ những bảng dữ liệu khác nhau. - Consolidate có thể hợp nhất dữ liệu theo 2 hình thức; + Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc.

+ Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về cấu trúc. Cách thực hiện:

- Bước 1: Chọn vùng sẽ chứa dữ liệu được hợp nhất.

- Bước 2: Chọn Data Data Tools Consolidate, xuất hiện hộp thoại Consolidate<sub></sub> <sub></sub> Ví dụ: Hợp nhất doanh thu của Cửa hàng số 1, Cửa hàng số 2, Cửa hàng số 3

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

+ Reference: để tham chiếu lần lượt các bảng dữ liệu nguồn

+ All reference: Vùng dữ liệu cần thiết cụ thể là của bảng cửa hàng số 1, cửa hàng số 2, cửa hàng số 3

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

+ Cuối cùng ta có bảng kết quả.

<b>Bảng 6.2 Bảng tổng hợp toàn bộ doanh số của 3 cửa hàng</b>

<i>2.1.1.4 Tổng hợp dữ liệu đa chiều với PivotTable</i>

Chức năng:

- Trong quá trình phân tích và tổng hợp dữ liệu, người ta thường có nhu cầu gom nhóm dữ liệu theo một số tiêu chí nào đó để dễ dàng quản lý.

- Excel cung cấp cơng cụ PivotTable có thể là một cơ sở dữ liệu của Excel hay từ nguồn dữ liệu bên ngoài (như MS Access, MS SQL Server…)

Cách thực hiện:

- Bước 1: Click vào ô bất kỳ trên cơ sở dữ liệu

<i><b> Bảng dữ liệu hiển thị như sau:</b></i>

<b>7.2. Bảng tổng hợp dữ liệu đa chiều với PivotTable</b>

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

- Bước 2: Chọn Insert → Pivottable, hộp thoại Create PivotTable xuất hiện, xác định nguồn của dữ liệu và nơi chứa PivotTable, click nút OK.

<b>Hình 3.2. Hộp thoại Create PivotTable</b>

Bước 3: Xuất hiện hộp thoại Create PivotTable, chọn dữ liệu nguồn và nơi chứa PivotTable, click nút OK.

Bước 4 Drag các tên field từ PivotTable Fields vào 4 khu vực: FILTERS, ROWS,: COLUMNS và VALUES. Thao tác kéo thả và chọn đối tượng lọc ta được bảng tổng hợp như sau:

<b>Bảng 8.2 Kết quả tổng hợp đa chiều với PivotTable</b>

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

<b>2.1.2 Phương pháp về phân tích dự báo </b>

<i>2.1.2.1 Phương pháp trung bình trượt (Moving Average)</i>

Cách thực hiện trên Excel:

- Bước 1: Chuẩn bị bảng số liệu cần dự báo

- Bước 2: Chọn lệnh Data Data Analysis Moving Average, xuất hiện hộp<sub></sub> <sub></sub> thoại Moving Average

- Bước 3: Khai báo các thông số Input và Output Options

<b>Ví dụ: Số liệu bán hàng trong tháng 03 tại siêu thị ABC như sau:</b>

<b>Bảng 9.2 Số liệu bán hàng trong tháng 03 tại siêu thị ABC và hộp thoại MovingAverage</b>

+ Input Range: Vùng dữ liệu cần dự báo

+ Labels in First Row: Khai báo hàng đấu tiên của input range có chứa tiêu đề cột hay khơng.

+ Interval: ở ví dụ này là 3, có nghĩa là 3 kỳ trượt liên tiếp để dự báo số liệu thịt bò. + Output Range: Vùng chứa dữ liệu kết quả thịt bò sau khi dự báo.

<i>2.1.2.2.Phương pháp San bằng mũ (Exponential Smoothing)</i>

Cách thực hiện trên Excel:

<b>Bước 1: Chuẩn bị bảng số liệu cần dự báo </b>

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

Bước 2: Chọn lệnh Data Data Analysis Exponential Smoothing, xuất hiện hộp<sub></sub> <sub></sub> thoại Exponential Smoothing.

Bước 3: Khai báo các thông số Input và Output Options. Ví dụ: Dự báo số liệu bán thịt bò tại siêu thị ABC.

<b>Bảng 10.2 Số liệu bán hàng trong tháng 03 tại siêu thị ABC và hộp thoạiExponential Smoothing.</b>

Trong hộp thoại Exponential Smoothing gồm: + Input Range: Vùng dữ liệu cần dự báo

+ Damping factor: Giá trị dùng làm hệ số san bằng. Đó là giá trị điều chỉnh sự bất ổn của dữ liệu, giá trị mặc định là Damping factor (1-a) = 0.3. Còn hệ số san bằng theo ví dụ là a = 0.7

+ Labels: tùy chọn cho biết hàng/cột đầu tiên của input range có chứa tiêu đề hay khơng.

+ Kết quả như trong hình sau là dự báo lượng thịt bị bán (kg) được tại siêu thị ABC với hệ số điều chỉnh a = 0.3 (Damping factor = 0.7). Như vậy lượng thịt bò dự báo cho ngày 17/03 là 29.88kg.

<i>2.1.2.3 Phương pháp Hồi quy (Regression)</i>

Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

gọi là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay còn gọi là biến giải thích)

Cách thực hiện trên Excel:

Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo

Bước 2: Chọn lệnh Data Data Analysis Regression , xuất hiện hộp thoại<sub></sub> <sub></sub> Regression.

Bước 3: Khai báo các thơng số Input và Output Options

<b>Ví dụ: Phân tích Doanh thu – Chi phí năm 2016 như sau:</b>

<b>Bảng 11.2 Phân tích Doanh thu – Chi phí năm 2016</b>

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

<b>Hình 4.2 Hộp thọai Regression</b>

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

<b>Bảng 12.2 Bảng kết quả Hồi quy</b>

Trong hộp thoại Regression gồm: + Input Y Range: là cột Doanh thu + Input X Range: là cột Chi phí + Confidence Level: 95%

+ Output Range: Vùng chứa dữ liệu kết quả

<b>2.1.3 Phương pháp phân tích tối ưu </b>

<b>Ví dụ: Dự án nông nghiệp muốn lựa chọn phương án trồng trọt bao nhiêu tấn lúa mì</b>

và lúa gạo để tối đa hóa lợi nhuận của dự án dựa trên các số liệu sau:

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

<b>Bảng 13.2 Bảng số liệu Dự án</b>

Các bước lập mơ hình:

- Bước 1: Xác định biến quyết định

Gọi x1 là lượng lúa gạo, x2 là lượng múa mì (tấn) cần sản xuất - Bước 2: Xác định hàm mục tiêu là tối đa hóa lợi nhuận Mục tiêu bài tốn là tối đa hóa lợi nhuận ta có

P = P (lúa gạo) + P (lúa mì) = 18x1 + 21x2 max<sub></sub>

Giả sử cho x1, x2 bằng 1 và nhập các hệ ràng buộc tương đương về diện tích, lượng nước, nhân cơng. Sau đó dùng hàm Sumproduct để tích các giá trị bên cột vế trái theo biến khởi tạo.

<b>Bảng 14.2 Thiết lập bảng tính</b>

Bước 2: Chọn lệnh Data Data Analysis Solver<sub></sub> <sub></sub>

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

<b>Hình 5.2 Hộpthoại SolverParameters</b>

Khai báo các tham số của bài tốn

+ Set objective: Chọn ơ chứa hàm mục tiêu, trường hợp này là $E$5 + To: Chọn Max vì bài tốn này là tối đa hóa lợi nhuận

+ By Changing Variable Cells: Nhập ô chứa các biến quyết định, trong trường hợp này là $C$4:$D$4

+ Đưa các ràng buộc vào Subject to the Contraints bằng cách nhấn nút Add Bước 3: Nhấn nút Solver để giải mơ hình

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

27 Bước 4: Nhấn nút OK để xem kết quả.

<b>Bảng 15.2 Kết quả lựa chọn phương án sản xuất và các báo cáo kèm theo lời giải2.2 Phần mềm Orange</b>

<b> 2.2.1 Tổng quan phần mềm Orange</b>

Orange là một thư viện các quy trình xử lý, khai thác dữ liệu và là đối tượng nền tảng của C++, kết hợp với nhiều thuật toán Data Mining một cách hoàn hảo và là một bộ phần mềm học máy thơng minh. Bằng việc tích hợp các công cụ khai phá dữ liệu mã nguồn mở và học máy thông minh, đơn giản được viết bằng ngơn ngữ điện tốn Python, người dùng có thể dễ dàng sử dụng và tương tác mà khơng cần có kỹ năng mã hóa. Orange kết hợp với nhiều tác vụ, nhờ đó có thể phân tích những dữ liệu từ đơn giản đến phức tạp, đọc những tài liệu ở định dạng dữ liệu gốc hay các định dạng dữ liệu khác. Bên cạnh đó, Orange còn mang đến giao diện với đồ họa đẹp mắt nhờ tập hợp các widget đồ họa sinh động, cung cấp một bầu khơng khí tương tác thú vị hơn cho các cơng cụ phân tích buồn tẻ, những điều đó khiến nó trở nên thú vị đối với người sử dụng phần mềm.

Các widget là các thành phần của Orange, chúng là nền tảng cốt lõi của phần mềm, các widget cung cấp các chức năng quan trọng bao gồm từ tiền xử lý và trực quan hóa dữ liệu cho đến đánh giá các thuật tốn và mơ hình dự đốn. Các widget sử dụng cơ chế giao tiếp với nhau cách đặc biệt để truyền dữ liệu chỉ bằng cách kéo và thả con trỏ chuột từ vị trí người sử dụng vơ cùng tiện ích và đơn giản, phù hợp cho cả người mới và chuyên gia.

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

Phần mềm Orange được biết đến như một sự kết hợp giữa các công cụ khai thác dữ liệu khác nhau và là một máy học đơn giản, thơng minh được lập trình bằng Python với sự tương tác dễ dàng và một giao diện trực quan. Qua nhiều chức năng đã được tích hợp, phần mềm này có thể dễ dàng phân tích các tài liệu, dữ liệu được cho từ đơn giản đến phức tạp; tạo ra các đồ họa biểu lộ rõ ràng, phong phú các khía cạnh thơng tin mà người sử dụng muốn biểu hiện trực tiếp; đồng thời giảm mức độ khó khăn trong việc khai thác dữ liệu và học máy cho chuyên gia cũng như người mới học.

Bên cạnh các widget tiện ích thì Orange cịn có nhiều công cụ trực quan và một số lượng đáng kể các vật dụng có xu hướng được hỗ trợ như biểu đồ thanh, hình ảnh, bản đồ nhiệt,…

<b>Các chức năng của Orange</b>

Data: Dùng để nhập dữ liệu, thay đổi cũng như trích xuất dữ liệu (ETL process).

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

<b>Hình 7.2: Chức năng Transform trong Orange</b>

Visualize: Dùng để thể hiện dữ liệu bẳng các biểu diễn biểu đồ (chart) giúp quan sát dữ liệu được tốt hơn

<b>Hình 8.2: Chức năngVisualize trong Orange</b>

regression, Tree,... và các hàm học máy (machine learning)

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

<b>Hình 9.2: Chức năng Model trong Orange</b>

Evalute: Là các phương pháp đánh giá mơ hình như: Test & Score, Prediction,

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

mạng xã hội, xử lý ảnh (Deep Learning), xử lý dữ liệu lớn (Spark). Đây cũng là một trong các điểm cộng của Orange so với các phần mềm với công dụng tương tự khác.

<b>Ứng dụng của orange</b>

Ứng dụng Orange tạo điều kiện thuận lợi cho các hoạt động thống kê, xây dựng mơ hình, thực nghiệm, dự đốn nhằm cung cấp các thông tin cần thiết cho việc đưa ra quyết định trên các lĩnh vực như:

- Trong kinh tế, Orange giúp đỡ các nhà kinh tế trong việc xác định các biến chủ yếu ảnh hưởng đến sự phát triển kinh tế của quốc gia trong một khoảng thời gian cụ thể, từ đó các nhà kinh tế có tạo dựng các báo cáo kinh tế hợp lý, gần sát với thực tế hơn. - Trong y học, Orange được xem như một nền tảng nơi mà các triệu chứng bệnh được thiết lập mối quan hệ với nhau, từ đó cho ra chuẩn đốn về bệnh và phương hướng trị liệu bệnh đó.

- Trong mạng viễn thơng, phần mềm được sử dụng để phân tích các cuộc gọi điện thoại nhằm phân tích hành vi người tiêu dùng với mục đích nâng cao chất lượng dịch vụ.

- Trong giáo dục, Orange được sử dụng như một công cụ giảng dạy của giáo viên về phương pháp học máy và khai phá dữ liệu cho học sinh.

<b>2.2.2. Phương pháp phân cụm dữ liệu</b>

Phương pháp phân cụm được thực hiện khi dữ liệu chưa có cấu trúc định dạng rõ ràng về bảng dữ liệu. Khơng có biến phụ thuộc target y, chỉ có biến phụ thuộc feature x. 2.2.2.1 Định nghĩa

Phân cụm dữ liệu là q trình dữ liệu/đối tượng có những đặc điểm, tính chất tương đồng với nhau theo một tiêu chí nào đó được gom thành nhóm hoặc cụm (cluster) tương ứng.

Lưu ý: Dữ liệu của bài toán phân cụm là những dữ liệu chưa được gán nhãn (tên của từng đối tượng mà ta phân tích chưa được biết rõ), đây chính là những dữ liệu tự nhiên thường thấy trong thực tế.

</div>

×