Tải bản đầy đủ (.docx) (41 trang)

BT5 Phân tích dữ liệu kinh doanh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.92 MB, 41 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
------------------------------------------------------------------------

BÁO CÁO LAB 5
------------------------------------------------------------------------------Giảng viên hướng dẫn: TS. NGUYỄN ĐÌNH THUÂN
Nhóm sinh viên thực hiện: 17520433 – PHẠM HUỲNH MỸ HẠNH
17520499 - NGUYỄN THỊ CẨM HOÀI
17520596 – HỒ THỊ NGỌC HUYỀN
17520692- TRƯƠNG THỊ MỸ LINH
17520831 – TRÀ THẢO NGUYÊN
Môn học:

Phân tích dữ liệu kinh doanh

Lớp:

IS403.K21

TP. Hồ Chí Minh, tháng 6 năm 2020


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Mục lục

2



Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

1. DÙNG NGÔN NGỮ R VÀ SPSS THỰC HIỆN CÁC PHÉP TÍNH DỰ BÁO VỚI
TẬP TIN DỮ LIỆU: TABLET COMPUTER SALES
Đặt vấn đề: Dự đoán doanh số bán Tablet Computer trong 3 tuần tiếp theo
1.1 Sử dụng SPSS
Tiến hành: Analyze -> Forecasting -> Create Models.
Đưa biến cần dự báo là Units Sold vào Dependent Variables, chọn Method là Expert
Modeler

3


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

4


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Chọn Tab Statistics, đánh dấu Root mean square error để tính RMSE của mô hình, đánh
dấu chọn Display forecasts để thể hiện kết quả dự báo trên màn hình Viewer


5


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Chọn Tab Plots, đánh dấu Forecasts, Fit values, Confidence intervals for forecasts và
Confidence intervals for fit values để vẽ đường biểu diễn cả giá trị dự báo, giá trị thực tế
và khoảng giá trị dự báo lên cùng một đồ thị nhằm đánh giá độ chính xác

6


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Chọn Tab Options, nhấp chọn First case after end of estimation period through a specified
date và nhập 20 (giá trị từ 1-20 tương ứng từ tuần 1-20, trong bảng đã có dữ liệu đến tuần
17, ở đây ta dự báo trong tuần 18, 19 và 20)

7


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Bấm OK để thực hiện và thu được kết quả sau


Ở Bảng Model Statistics, ta có thể thấy RMSE bằng 17,933. Nếu muốn so sánh độ chính
xác giữa các mô hình dự báo, chúng ta sẽ chọn mô hình nào có RMSE nhỏ hơn. Bảng
Forecast cho thấy kết quả dự báo điểm và kết quả dự báo khoảng ở độ tin cậy 95%. Ví
dụ, ở tuần 19 (tương ứng với 19), số lượng máy tính bảng bán ra nếu theo kết quả dự báo
điểm sẽ là 61 máy; nếu sử dụng báo khoảng, số lượng máy tính bán ra có thể đạt ở mức
từ 27 đến 94 máy.
Đường biểu diễn các giá trị

8


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Màu đỏ - Observed - là giá trị thực tế về số lượng máy tính bảng bán từ tuần 1 đến
tuần 17 (từ 1-17).
Màu xanh dương (trước 18) - Fit - là giá trị trung bình khoảng về số lượng máy tính
bảng bán từ tuần 1 đến tuần 17.
Hai đường nét đứt là khoảng giá trị số lượng máy tính bảng có thể bán được.
Màu xanh dương (sau 18) - Forecast - là giá trị dự báo về số lượng máy tính bảng có
thể bán được trong tuần 18, 19 và 20.

9


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân


1.2 Sử dụng ngôn ngữ R
1.2.1 Chuẩn bị dữ liệu
Nhập dữ liệu:
Dùng lệnh read.csv() để nhập dữ liệu và gán vào biến df

Dùng lệnh attach() để đọc dữ liệu thực thi

Xem dữ liệu

10


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

1.2.2 Thực hiện phép tính dự báo
Ta phải cài thêm package “forecast” để tính toán

Trước khi thực hiện các phép tính dự báo, ta cần chuyển dữ liệu từ dạng numberic vector
sang dạng R time series object.
Dùng hàm ts(vector, start=, end=, frequency=)

Đây là mô hình dự báo các giá trị tương lai gần của dữ liệu Time Series. Mô hình mới
này cần ba thông số p, d và q. Hàm auto.arima() giúp ta xác định 3 thông số này.

Ba thông số đó là ARIMA(0,0,0) với p = 0, d = 0 và q = 0. Đây là một mô hình hỗn hợp
của AR và MA.


11


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Dự báo:

12


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Đồ thị dự đoán doanh số bán Tablet Computer trong các giai đoạn tiếp theo được vẽ tiếp
theo kèm với khoàng tin cậy 80% và 95%.
Để tính toán Moving Average Forecasting đơn giản, ta sử dụng hàm forecast::ma

Hàm ets tự động phân tích dự báo dùng exponential model:

13


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

2. DÙNG NGÔN NGỮ R VÀ SPSS THỰC HIỆN CÁC PHÉP TÍNH DỰ BÁO VỚI

TẬP TIN DỮ LIỆU: COAL PRODUCTION
2.1. Dùng SPSS thực hiện các phép tính Dự báo với tập tin dữ liệu Coal Production
Bảng dữ liệu: Coal Production
Tiến hành: Analyze à Forecasting à Create Temporal Causal Model..

Đưa biến cần dự báo là Total Tons vào Dependent Variables, chọn Method là Expert
Modeler

14


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Chọn Tab Statistics, đánh dấu Root mean square error để tính RMSE của mô hình, đánh
dấu chọn Display forecasts để thể hiện kết quả dự báo trên màn hình Viewer

15


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Chọn Tab Plots, đánh dấu Forecasts, Fit values, Confidence intervals for forecasts và
Confidence intervals for fit values để vẽ đường biểu diễn cả giá trị dự báo, giá trị thực tế
và khoảng giá trị dự báo lên cùng một đồ thị nhằm đánh giá độ chính xác

16



Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Chọn Tab Options, nhấp chọn First case after end of estimation period through a specified
date và nhập 50 (giá trị từ 1-50 tương ứng từ năm 1960-2009, trong bảng đã có dữ liệu
đến năm 2007, ở đây ta dự báo trong năm 2008 và 2009)

17


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Bấm OK để thực hiện và thu được kết quả sau

18


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Ở Bảng Model Statistics, ta có thể thấy RMSE bằng 33877983,70. Nếu muốn so sánh độ
chính xác giữa các mô hình dự báo, chúng ta sẽ chọn mô hình nào có RMSE nhỏ hơn.
Bảng Forecast cho thấy kết quả dự báo điểm và kết quả dự báo khoảng ở độ tin cậy 95%.
Ví dụ, ở năm 2008 (tương ứng với 49), sản lượng khai thác than nếu theo kết quả dự báo

điểm sẽ là 1175607068 tấn; nếu sử dụng báo khoảng, sản lượng khai thác than có thể đạt
ở mức từ 1107414224 đến 1243799913 tấn.

Đường biểu diễn các giá trị
• Màu đỏ - Observed - là giá trị thực tế về sản lượng khai thác than của toàn thế giới
từ năm 1960-2007 (từ 1-49).
• Màu xanh dương (trước 49) - Fit - là giá trị trung bình khoảng về sản lượng khai
thác than của toàn thế giới từ năm 1960-2007.
• Hai đường nét đứt là khoảng giá trị sản lượng khai thác than có thể đạt được.
• Màu xanh dương (sau 49) - Forecast - là giá trị dự báo về sản lượng than có thể
khai thác được trong năm 2008(49) và 2009(50).
2.2. Dùng R thực hiện các phép tính Dự báo với tập tin dữ liệu Coal Production
2.2.1. Chuẩn bị dữ liệu
Nhập dữ liệu:
Dùng lệnh read.csv() để nhập dữ liệu và gán vào biến df

Dùng lệnh attach() để đọc dữ liệu thực thi

19


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Xem các cột dữ liệu.

Biểu đồ có khuynh hướng tăng dần. Tuy nhiên, có chu kì biến thiên (có giai đoạn tăng và
giai đoạn giảm, lặp lại trong một khoảng thời gian, gọi là seasional) như một biểu đồ
Time Series đặc trưng.


Đây là mô hình dự báo các giá trị tương lai gần của dữ liệu Time Series. Mô hình mới
này cần ba thông số p, d và q. Hàm auto.arima() giúp ta xác định 3 thông số này.

20


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Ba thông số đó là ARIMA(0,1,1) với p = 0, d = 1 và q = 1. Đây là một mô hình hỗn hợp
của AR và MA.
− Đồ thị ACF

21


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Chúng ta thấy từ biểu đồ tương quan rằng tự tương quan ở độ trễ 10 vượt quá giới hạn có
ý nghĩa, nhưng tất cả các tự động tương quan khác giữa độ trễ 1-20 không vượt quá giới
hạn có ý nghĩa.
Để kiểm tra xem có bằng chứng quan trọng nào cho các mối tương quan khác không ở độ
trễ 1-20 hay không, chúng ta có thể thực hiện thử nghiệm Ljung-Box. Điều này có thể
được thực hiện trong R bằng cách sử dụng chức năng của Box.test ().
Ljung-Box test


Ở đây, thống kê kiểm tra Ljung - Box là 17.662 và giá trị p là 0.61 do đó, có rất ít bằng
chứng về sự tự tương quan khác không trong các lỗi dự báo trong mẫu ở độ trễ 1-20.
Đồ thị Residual

22


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Đồ thị cho thấy rằng việc phân phối các lỗi dự báo gần như tập trung vào số 0 và được
phân phối bình thường ít nhiều, mặc dù nó dường như bị lệch sang phải một chút so với
đường cong thông thường.
− Dự báo

23


Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

Đồ thị sản xuất than các giai đoạn tiếp theo được vẽ tiếp theo kèm với khoàng tin cậy
80% và 95%. Biểu đồ này phần nào phản ánh được khuynh hướng gia tăng việc sản xuất
than tương quan với những năm trước đó.

24



Tiểu luận 2

GVHD: TS. Nguyễn Đình Thuân

3. DÙNG NGÔN NGỮ R VÀ SPSS THỰC HIỆN CÁC PHÉP TÍNH DỰ BÁO VỚI
TẬP TIN DỮ LIỆU: GAS & ELECTRIC
3.1. Sử dụng SPSS
3.1.1. Đặt vấn đề: Dự đoán lượng gas và lượng điện sử dụng trong 12 tháng tiếp theo
3.1.2. Tiến hành:
• Chọn Analyze à Forecasting à Create Traditional Models
• Chọn Define Date and time.. để định dạng lại thời gian cho phù hợp với chuỗi thời
gian của dataset

• Chọn chuỗi thời gian cho phù hợp với chuỗi thời gian của dataset. Trong chuỗi
thời gian của dataset là tháng năm nên chọn Years, months và thiết lập năm bắt
đầu và tháng bắt đầu trong ô Year và Month. Chọn OK

25


×