Tải bản đầy đủ (.pdf) (19 trang)

khai thác và phân tích dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.79 MB, 19 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>TRƯỜNG ĐẠI HỌC VĂN LANG</b>

<b>KHOA THƯƠNG MẠI – NGÀNH MARKETING</b>

<b>BÁO CÁO CUỐI KÌ</b>

Mã lớp học: 212_DCO0450_03

Mơn: Khai Thác Và Phân Tích Dữ Liệu Giảng viên hướng dẫn: Lương Thái HàNhóm thực hiện: READY

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>Tên Thành ViênMSSVĐánh Giá</b>

Nguyễễn Hiễếu Đăng 207MA37357 100%Hồồ Ng c Lan Anhọ 207MA20981 100%Tr nh Nhiễu L cị ộ 207MA21432 100%

Thái Kim Ng cọ 207MA58062 100%Nguyễễn Ng c Quỳnh Vyọ 207MA46470 100%Nguyễễn Huỳnh Th o Trâmả 207MA63639 100%Nguyễễn Phương Nh Quỳnhư 207TM38297 100%L c B i Ngânụ ộ 207MA46155 100%Phan Th Thùy Trangị 207MA63636 100%Ph m Quỳnh Anhạ 207MA37268 100%

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>Mục Lục</b>

<b>1)Giới thiệu về tập dữ liệu...4</b>

1.1 Dataset này thể hiện dữ liệu của ngành công nghiệp nào?...4

1.2 Giới thiệu sơ lược về ngành công nghiệp đó, ở nơi mà tập dữ liệu này được tạo ra...4

1.3 Cấu trúc dataset này như thế nào? (mấy cột dữ liệu số (numeric), mấy cột dữ liệu chữ (text), mấy cột dữ liệu tọa độ,…). Nếu dataset có da số các cột là dạng số, thì liệt kê những cột có định dạng khác (non-numeric variables)...6

1.4 Có cột nào có chứa missing values khơng? Nếu có thì bao nhiêu % số dịng thuộc cột đó chứa missing values?...7

1.5 Có xử lý missing values khơng? Làm cách nào?...7

<b>2) Phân tích dữ liệu...7</b>

2.1 Bao nhiêu cột được sử dụng trong bài phân tích? Liệt kê các cột...7

2.2 Nêu sơ lược các nội dung muốn truyền tải đến người đọc thông qua bài phân tích...7

2.3 Nêu ra các cột/biến (variables) tham gia trong từng mục (theo 2.2)...8

2.4 Nếu mục nào có tạo biến mới thì kê khai biến đó ra. Và nếu biến mới được tạo ra bởi hàm/syntax (theo 2.2) thì kê khai hàm /câu lệnh ra, hoặc nêu cách tạo biến mới...8

<b>3)DATA VISUALIZATION...10</b>

3.1 Trình bày các Figures (hình ảnh) ứng với thứ tự đã kê khai trong 2.2...10

3.2 Giải thích insight ứng với các Figures trong 3.1...15

<b>4)Kết luận...18</b>

4.1 Nhận định chung về tình hình kinh doanh của Superstore đã quan sát được từ tập dữ liệu:...18

4.2 Đưa ra suggestions:...18

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>1) Giới thiệu về tập dữ liệu</b>

1.1 Dataset này thể hiện dữ liệu của ngành công nghiệp nào?

Dataset thể hiện dữ liệu bán hàng tại Superstore với 3 ngành hàng chính là Furniture ( Đồ nội thất), Office supplies (Văn phịng phẩm), Technology (Cơng nghệ) ở khắp các bang tại Hoa Kỳ.

1.2 Giới thiệu sơ lược về ngành cơng nghiệp đó, ở nơi mà tập dữ liệu này được tạo ra Tham khảo: hàng Technology:

Hoa Kỳ vẫn là cưVng quXc đZng đ[u th\ giới v] khoa học, công nghệ và đ^i mới sáng tạo. QuXc gia này b` cách rất xa các nước còn lại v] chi tiêu cho NC&PT. Năm 2007, mZc chi tiêu này cda Hoa Kỳ là 369 tf USD, so với 338 tf USD cda toàn bộ khu vực châu i, 263 tf USD cda khu vựcEU (27 nước EU). Năm 2008, đ[u tư cho NC&PT trên GDP cda nước này đạt 2,8% và mZc đ[u tư cho NC&PT theo đ[u ngưVi đạt 1307 USD, mZc cao thZ 4 trong sX các nước OECD. Trong t^ng đ[u tư cho NC&PT năm 2008, thk khu vực chính phd chi\m 27%, còn lại là tl khu vực tư nhân. Chi tiêu cho NC&PT cda doanh nghiệp ở khu vực dmch vn giảm tl 41% năm 2002 xuXng còn 30% năm 2006. Năm 2008, tf trọng vXn đ[u tư mạo hiểm đạt 0,12% GDP, cao hơn mZc trung bknh cda OECD.

nguồn tham khảo : class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Mặt hàng nội thất tại Hoa Kỳ phát triển mạnh mẽ trong giai đoạn 2014 - 2017. Nhu c[u v] mặt hàng đồ nội thất cda Hoa Kỳ có xu hướng tăng trưởng mạnh tl năm 2014. Bởi cùng năm đó, HoaKỳ là đXi tác đZng đ[u v] nhập khẩu mặt hàng nội thất tại Việt Nam. NgưVi tiêu dùng Hoa Kỳ cóxu hướng chi tiêu vào mặt hàng nội thất. MZc chi tiêu trung bknh cda hộ gia đknh tại Hoa Kỳ cho đồ nội thất khoảng 386,74 đô la vào năm 2014 và 515,46 đô la vào năm 2017.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

Nội thất trong phòng khách ( gh\, bàn,..) chi\m ph[n lớn doanh thu và nội thất văn phịng có sX doanh thu thấp nhất trong tất cả các mặt hàng tại Hoa Kỳ.

Ngành hàng office supplies như là appliansces, binders, storage nằm trong khoảng top đ[u lượt mua.

1.3 Cấu trúc dataset này như thế nào? (mấy cột dữ liệu số (numeric), mấy cột dữ liệu chữ (text), mấy cột dữ liệu tọa độ,…). Nếu dataset có da số các cột là dạng số, thì liệt kê những cộtcó định dạng khác (non-numeric variables).

Cấu trúc dataset bao gồm: 6 cột dữ liệu sX ( Row ID, Postal code, Sales, Quantity, Discount, Profit), 9 cột dữ liệu chữ (Ship mode, Customer name, Segment, Country, City, State, Region, Category, Sub-category) và 6 cột dữ liệu có đmnh dạng khác (Order Date, Ship Date, Order ID, Customer ID, Product ID, Product Name)

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

1.4 Có cột nào có chứa missing values khơng? Nếu có thì bao nhiêu % số dịng thuộc cột đó chứa missing values?

Dataset khơng có cột nào có chZa missing values.

1.5 Có xử lý missing values khơng? Làm cách nào?

Khơng có xử lý missing values.

<b>2) Phân tích dữ liệu</b>

2.1 Bao nhiêu cột được sử dụng trong bài phân tích? Liệt kê các cột

Bài phân tích cda Superstore gồm tất cả 21 cột, trong đó chúng tơi sử dnng 10 cột chính để phân tích, bao gồm các cột: Sale, profit, category, sub-category, city, state, region, order date, ship date, ship mode.

2.2 Nêu sơ lược các nội dung muốn truyền tải đến người đọc thơng qua bài phân tích Qua bài phân tích v] Superstore, chúng tơi muXn truy]n tải nội dung v] doanh thu và lợi nhuận cda tlng bang, thành phX, vùng mi]n và các ngành hàng theo tháng và tf suất lợi nhuận theo tlng năm. Bên cạnh đó là x\p hạng mZc độ doanh thu và lợi nhuận để cho thấy được sự tăng trưởng, suy giảm cda doanh thu và lợi nhuận cda các khu vực và ngành hàng. Ngoài ra, khu vực, ngành hàng nào doanh thu chưa tXt, tl đó đưa ra các phương án, chi\n lược cải thiện phù hợp cho tlng khu vực và ngành hàng. Cùng với đó đưa ra các phương án k\ hoạch duy trk sự phát triển cda các khu vực ngành hàng đang có hướng phát triển ti]m năng trong tương lai.

Bài phân tích nêu lên các nội dung chính như sau: (1) ThXng kê doanh thu và lợi nhuận cda tlng thành phX; (2) ThXng kê lợi nhuận, doanh thu cda tlng ngành hàng trong tlng khu vực (3) ThXngkê doanh thu cda Superstore tlng năm theo tháng; (4) Bảng đi]u khiển cho thấy t^ng quan doanhthu và lợi nhuận cda các mnc (1), (2),

(3) cda Superstore; (5) Đo lưVng doanh thu và lợi nhuận cda tlng mặt hàng theo tháng; (6) Đo lưVng doanh thu, lợi nhuận trong trong tlng ngành hàng cda các bang; (7) Tf suất lợi nhuận cda

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

tlng năm; (8) So sáng t^ng doanh thu ngành hàng theo tlng khu vực; (9) ThXng kê doanh thu ngành hàng chi\m bao nhiêu ph[n trăm cda tlng vùng; (10) X\p hạng cấp độ ph[n tr[m tf suất lợi nhuận cda tlng mặt hàng; (11) X\p hạng mZc độ tăng trưởng doanh thu cda tlng khu vực theo năm 2017; (12) Tf lệ tknh trạng ship hàng.

2.3 Nêu ra các cột/biến (variables) tham gia trong từng mục (theo 2.2)1. = cột City + cột Profit + cột Sale

2. = cột Category + cột Sub-Category + cột Sale + cột Profit + cột Region3. = cột Sale + cột Order Date

9. = cột Sale + cột Category + cột Region

10. = cột Progit level + cột Profit Ratio + cột Sub-Category11. = cột Sale + cột Order Date + cột Region

12. = cột Order (count) + cột Ship Status

2.4 Nếu mục nào có tạo biến mới thì kê khai biến đó ra. Và nếu biến mới được tạo ra bởi hàm/syntax (theo 2.2) thì kê khai hàm /câu lệnh ra, hoặc nêu cách tạo biến mới

Hknh (7) có 2 bi\n mới, một là Profit Ratio (khơng có trong dataset gXc), hai là Measure Name (có sẵn trong tableau).

Vậy bi\n mới Profit Ratio được tạo ra bằng hàm:Profit Ratio = SUM([Profit])/SUM([Sales])Bi\n mới Measure Name gồm: Profit, Sales

Hknh (10) có 2 bi\n mới, một là Profit level (khơng có trong dataset gXc), hai là Profit Ratio (khơng có trong dataset gXc).

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Vậy bi\n mới Profit Ratio được tạo ra bằng hàm:Profit Ratio = SUM([Profit])/SUM([Sales])Bi\n mới Profit level được tạo bằng hàm:

Profit level = IF [profit Ratio]>0.3 THEN "Hight profit" ELSEIF [profit Ratio]>=0.15 THEN "Meidum profit"ELSEIF [profit Ratio] >=0 THEN "Low profit"ELSE "Lost profit"

1. Day to ship Actual = DATEDIFF('day',[Order Date],[Ship Date]) Tl (1) và (2), bi\n mới Ship Status được tạo bằng hàm:

Ship Status = IF [Day to ship Actual] > [Days to ship schedules] then "Shipped late"ELSEIF [Day to ship Actual]= [Days to ship schedules]then "Shipped on time"ELSE "Shipped Early"

END

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

3. ThXng kê doanh thu theo tlng năm cda doanh nghiệp theo tháng tl 2014 đ\n 2017

4. Bảng Dashboard thXng kê doanh thu, lợi nhuận cda doanh nghiệp

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

5. Bảng thXng kê đo lưVng doanh thu, lợi nhuận cda tlng ngành hàng theo tháng

6. Biểu đồ thXng kê doanh thu những ngành hàng cda các bang

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

7. Biểu đồ thXng kê tf suất lợi nhuận theo tlng năm tl 2014 đ\n 2017

8. Biểu đồ so sánh t^ng doanh thu tlng ngành hàng theo vùng mi]n

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

9. Biểu đồ ph[n trăm doanh thu theo vùng

10. Biểu đồ tf lệ cda doanh thu và ngành hàng theo tlng vùng

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

11. Biểu đồ cột ph[n trăm lợi nhuận cda tất cả mặt hàng

12. tf lệ tknh trạng ship hàng cda tất cả order cda doanh nghiệp

3.2 Giải thích insight ứng với các Figures trong 3.1

<b>1. Thống kê doanh thu, lợi nhuận theo từng thành phố của từng bang</b>

Doanh thu thể hiện qua size cda các chấm tròn qua đó có thể thấy có 4 bang có doanh thucao n^i bật là pennsyIvania, đZng thZ hai là california, washington và cuXi cùng là lllinois. V] lợi nhuận dựa theo màu sắc đậm nhạt, có màu vàng là lợi nhuận âm vậy có thể thấy pennsyIvania có lợi nhuận cao nhất, IIIinois tuy có cao v] doanh thu nhưng lợi nhuận là âm.

<b>2. Thống kê doanh thu, lợi nhuận của từng ngành hàng và vùng miền ( Central, East, West, South)</b>

Theo biểu đồ thXng kê doanh thu, lợi nhuận tlng ngành theo 4 vùng mi]n thk ta thấy phía Đơng và phía Tây có doanh thu và lợi nhuận cao đXi với 3 ngành hàng hơn 2 vùng phía Nam và Trung Tâm, trong đó đồ nội thất và công nghệ chi\m tỉ lệ cao hơn so với văn

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

phòng phẩm, như vậy ta có thể tập trung nguồn nhân lực phát triển hơn vào 2 khu vực phía đơng và phía tây với ngành hàng đồ nội thất và công nghệ.

<b>3. Thống kê doanh thu theo từng năm của doanh nghiệp từ 2014 đến 2017</b>

Doanh thu cda các năm 2014,2015,2016 khơng có ti\n triển mấy phát triển chậm, đ\n tháng 8 năm 2017 có đà tăng trưởng d[n lên nhưng vẫn chưa phát triển nhi]u.

<b>4. Bảng Dashboard thống kê doanh thu, lợi nhuận của doanh nghiệp </b>

Bảng Dashboard t^ng hợp tóm tắt thơng tin và trknh bày một cái nhkn dễ hiểu v] hiệu suấtkinh doanh để giúp doanh nghiệp thuận tiện cho việc lên k\ hoạch cho hướng ti\p theo, cải thiện năng suất cda doanh nghiệp.

<b>5. Bảng thống kê đo lường doanh thu, lợi nhuận của từng ngành hàng theo tháng</b>

Doanh thu thể hiện qua size cda các chấm tròn qua đó có thể thấy tháng 9,10,11,12 các mặt hàng như đồ phn tùng, bàn, gh\, điện thoại có doanh thu cao hơn các tháng còn lại. V] lợi nhuận dựa theo màu sắc đậm nhạt, có màu vàng là lợi nhuận âm vậy có thể thấy gh\ và điện thoại có lợi nhuận cao nhất nằm ở tháng 11,12 và bàn có lợi nhuận âm cả năm.

<b>6. Biểu đồ thống kê doanh thu những ngành hàng của các bang</b>

Các ngành hàng thể hiện qua 3 màu xanh, đ`, cam qua đó có thể thấy doanh thu ngành hàng ở các bang khá đồng đ]u khơng có sự chênh lệch lớn, ngọai trl North Dakota chỉ bán ngành hàng văn phòng phẩm, Wyoming bán đồ nội thất nên biểu đồ chỉ thể hiện doanh thu cda một ngành hàng. Lợi nhuận cda biểu đồ thể hiện qua hai màu hồng và xám, hồng chỉ mZc lợi nhuận âm và mZc độ tl nhẹ đ\n đậm cda màu xám sẽ chỉ lợi nhuận tl thấp đ\n cao, qua đó ta thấy ph[n lớn các Bang ở phía Nam và Trung Tâm các ngành hành có lợi nhuận nằm ở mZc âm.

<b>7. Biểu đồ thống kê tỷ suất lợi nhuận theo từng năm từ 2014 đến 2017</b>

biểu đồ cho thấy tf suất lợi nhuận đang có đà tăng trưởng tl năm 2014, đặt biệt tăng trưởng mạnh vào những tháng 11 trong năm. chZng t` khách hàng đặc biệt chi nhi]u ti]n

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

vào chi tiêu hơn vào tháng 11 có những ngày lễ quan trong như lễ phnc sinh, lễ tạ ơn và lễ giáng sinh.

<b>8. Biểu đồ so sánh tổng doanh thu từng ngành hàng theo vùng miền</b>

Biểu đồ cho thấy mặt hàng công nghệ là mặt hàng được ưa chuộng hơn 2 ngành hàng cònlại là văn phòng phẩm và đồ nội thất. và đặc biệt được tiêu thn nhi]u ở 2 vùng đông và tây.

<b>9. Biểu đồ phần trăm doanh thu theo vùng </b>

biểu đồ cho thấy 2 vùng đơng và tây có 1 lượng khách hàng dồi dào đ\n tl những thành phX lớn và đông đúc như New York và Los Angeles. những khách hàng ở 2 vùng này có mZc tiêu thn nhi]u hơn và sẵn sàng trả nhi]u hơn cho những ngành hàng cda doanh nghiệp.

<b>10. Biểu đồ tỷ lệ của doanh thu và ngành hàng theo từng vùng</b>

ngành hàng mang lại nhi]u doanh thu nhất là Công nghệ và đồ nội thất, sau đó mới đ\n văn phịng phẩm. cho thấy khách hàng có hZng thú nhi]u hơn với những mặt hàng thuộc ngành công nghệ mà doanh nghiệp đang bán.

<b>11. Biểu đồ cột phần trăm lợi nhuận của tất cả mặt hàng </b>

cột x\p hạng cho thấy dù là ngành hàng được ưa chuộng nhưng những sản phẩm thuộc ngành hàng văn phòng phẩm mới là những mặt hàng mang lại ph[n trăm lợi nhuận cao và vla, những sản phẩm công nghệ do mất nhi]u chi phí để nhập hàng và bảo quản nên tf lệ ph[n trăm lợi nhuận chỉ nằm ở mZc thấp. Đặc biệt do khách hàng khơng có nhu c[u thay đ^i đồ gia dnng liên tnc nên những sản phẩm như bàn gh\ đã khi\n doanh nghiệp chmu lỗ.

<b>12. Tỷ lệ tình trạng ship hàng của tất cả order của doanh nghiệp</b>

tknh trạng vận chuyển hàng cda doanh nghiệp có ½ là đơn sẽ đ\n sớm hơn dự đốn, ¼ đ\n đúng ngày. đây là 1 dấu hiệu tXt, cơ quan vận chuyển làm việc có hiệu quả. nhưng vẫn cịn đ\n ¼ các đơn hàng bm giao chậm, tZc là cơ quan vận chuyển vẫn cịn sai sót và doanh nghiệp c[n có k\ hoạch để khi\n cho con sX giao hàng trễ giảm đi.

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

giao sớm và đúng thVi gian là khá cao nhưng vẫn c[n cải thiện để tXi ưu độ hài lòng cda khách hàng.

</div>

×