Tải bản đầy đủ (.docx) (21 trang)

BT4 Phân tích dữ liệu kinh doanh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (472.66 KB, 21 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MNH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
__________________________

BÁO CÁO LAB 4
Môn học: PHÂN TÍCH DỮ LIỆU KINH DOANH

Giảng viên hướng dẫn:

TS. Nguyễn Đình Thuân

Nhóm thực hiện:
Nhóm 8: Nguyễn Thị Cẩm Hoài – 17520499
Phạm Huỳnh Mỹ Hạnh – 17520443
Hồ Thị Ngọc Huyền – 17520596
Trương Thị Mỹ Linh – 17520692
Trà Thảo Nguyên - 17520831

TP HCM, ngày 03 tháng 05 năm 2020


Mục lục


A.BÀI TẬP
I. Dữ liệu Home Market Value
1. Sử dụng SPSS
1.1. Hồi quy đơn biến
Chúng ta muốn phân tích, Square Feet có ảnh hưởng Market Value không và mức độ ảnh hưởng
như thế nào


Vào Analyze → Regression → Linear…

Cửa sổ Linear Regression mở ra và thực hiện các thiết lập sau:
Đưa biến Market Value vào ô Dependent,
Đưa biến Square Feet vào ô Independent(s)

3


Xong bấm OK, kết quả sẽ ra như sau:

Hệ số tương quan R đo lường mức độ tương quan giữa hai biến
Hệ số tương quan R=0,731
Tham số R bình phương hiệu chỉnh (Adjusted R Square) cho biết mức độ (%) sự biến thiên của
biến phụ thuộc được giải thích bởi biến độc lập.
Hệ số R bình phương hiệu chỉnh Adjusted R Square là 0.523

4


Có thể nói 52,3%sự biến đổi giá trị ngôi nhà có thể được giải thích bằng sự biến đổi về diện tích
ngôi nhà.

Giá trị của Sig( P-value) của bảng ANOVA dùng để đánh giá sự phù hợp (tồn tại) của mô hình.
Giá trị Sig nhỏ (thường <5%) thì mô hình tồn tại

Bảng Coefficients sẽ trình bày các hệ số của phương trình hồi quy tuyến tính giản đơn bao gồm 1
hằng số cắt αα và tham số ββ của ước lượng.
Phương trình hồi qui tuyến tính đơn biến có thể viết như sau
Giá trị của ngôi nhà = 32673.220 +35,036*(diện tích ngôi nhà)

Hệ số B của diện tích là 35.036, nghĩa là khi biến diện tích tăng 1 đơn vị thì biến Markert tăng
35,036đơn vị
Sig của diện tích ngôi nhà là 0.000 => hệ số của biến diện tích ngôi nhà có ý nghĩa thống kê
1.2. Hồi quy đa biến
Chúng ta muốn phân tích Home Age, Square Feet có ảnh hưởng Market Value không và mức độ
ảnh hưởng như thế nào. Giải quyết vấn đề này chúng ta có thể dùng hồi quy tuyến tính đa biến,
với biến phụ thuộc là Market Value và 2 biến giải thích (độc lập) là Home Age, Square Feet Trên
SPSS, chúng ta thực hiện hồi quy tuyến tính đa biến như sau:
Vào Analyze → Regression → Linear…

5


Cửa sổ Linear Regression mở ra và thực hiện các thiết lập sau:
Đưa biến Market Value vào ô Dependent,
Đưa biến Home Age, Square Feet vào ô Independent(s)

6


Xong bấm vào Statistics chọn Collinearity diagnostics (để tính ra hệ số VIF – hệ số phóng đại
phương sai- để đánh giá hiện tượng đa cộng tuyến)

Xong bấm OK, kết quả sẽ ra như sau:
Bảng này dùng để đánh giá độ phù hợp của mô hình hồi quy đa biến

Hệ số tương quan R đo lường mức độ tương quan giữa hai biến
Hệ số tương quan R=0,745
Tham số R bình phương hiệu chỉnh (Adjusted R Square) cho biết mức độ (%) sự biến thiên của
biến phụ thuộc được giải thích bởi biến độc lập.

Hệ số R bình phương hiệu chỉnh Adjusted R Square là 0.533
Nghĩa là 53,3% biến thiên của biến phụ thuộc giá trị ngôi nhà được giải thích bởi 2 nhân tố độc
lập độ tuổi và diện tích ngôi nhà. còn lại là ảnh hưởng của sai số tự nhiên và biến ngoài mô hình.

7


Kiểm định giả thuyết về độ phù hợp với tổng thể của mô hình
Ta dùng giá trị F ở bảng phân tích ANOVA để kiểm định độ phù hợp. Giá trị F= 24.395 với Sig.
của kiểm định F =0.000 < 0.05. ta có thể kết luận R bình phương của tổng thể khác 0-> mô hình
hồi quy tuyến tính phù hợp với tập dữ liệu và có thể suy rộng và áp dụng cho toàn tổng thể.
Bảng Coefficients sẽ trình bày các hệ số của phương trình hồi quy tuyến tính giản đơn bao gồm 1
hằng số cắt αα và tham số ββ của ước lượng.

Phương trình hồi qui tuyến tính đa biến có thể viết như sau
Giá trị của ngôi nhà = 47331,382 + -825,161*(tuổi của ngôi nhà) +
40,911*(diện tích ngôi nhà)
Hệ số B của diện tích là 40.911, nghĩa là khi biến diện tích tăng 1 đơn vị thì biến Markert tăng
40.911 đơn vị
Sig của độ tuổi ngôi nhà > 0,05 và sig của diện tích ngôi nhà là 0.000 => hệ số của biến diện tích
ngôi nhà có ý nghĩa thống kê còn biến độ tuổi ngôi nhà không có ý nghĩa thống kê
Hệ số hồi quy chuẩn hóa Beta, trong tất cả các hệ số hồi quy, biến độc lập nào có Beta lớn nhất
thì biến đó ảnh hưởng nhiều nhất đến sự thay đổi của biến phụ thuộc.
=>Diện tích ngôi nhà ảnh hưởng nhiều nhất đến sự thay đổi của giá trị ngôi nhà
Cột Collinearity Statistics kiểm tra mức độ đa cộng tuyến giữa các biến giải thích. Theo quy tắc
kinh nghiệm thì hệ số phóng đại phương sai (VIF) lớn hơn 10 thì được xem là có hiện tượng đa
cộng giữa các biến.
Hệ số phóng đại phương sai VIF đều bé hơn 2, chứng tỏ không có hiện tượng đa cộng tuyến

8



2. Sử dụng R
Nhập dữ liệu:

1 Hệ số tương quan
Giữa House.Age và Square.Feet

r1 = 0.6456685, ta thấy 0 < r<1: House.Age và Square.Feet là hai biến số có liên hệ với nhau.
Giữa Square Feet và Market Value

r2= 0.7312552, ta thấy 0 < r<1: Square.Feet và Market.Value là hai biến số có liênhệ với nhau
Giữa House Age và Market Value

r3 = 0.3614153, ta thấy 0 < r<1: House.Age và Market.Value là hai biến số có liên hệ với nhau.
Mức độ liên hệ giữa hai biến ta xét: r2 > r1 > r3

9


2.1. Hồi quy tuyến tính đơn biến
Phân tích Square Feet có ảnh hưởng Market Value không và mức độ ảnh hưởng như thế nào

Kết quả phân tích trên cho thấy các ước số:
α = 32673.220
β= 35.036
Hay chúng ta có phương trình tính giá tiền của một căn nhà theo độ tuổi và diện tích
như sau:
Market.Value = 32673.220+ 35.036 (Square.Feet)
Hệ số B của diện tích là 35.036, nghĩa là khi biến diện tích tăng 1 đơn vị thì biến Markert tăng

35,036 đơn vị
Giá trị kiểm định t cho β là 6,780 với trị số p =3,8 e-08, cho thấy β không phải bằng 0. Nói cách
khác, chúng ta có bằng chứng để cho rằng có một mối liên hệ giữa diện tích và giá trị ngôi nhà,
và mối liên hệ này có ý nghĩa thống kê

10


2.2. Hồi quy tuyến tính đa biến
Phân tích Home Age, Square Feet có ảnh hưởng Market Value không và mức độ ảnh hưởng như
thế nào

Kết quả phân tích trên cho thấy các ước số:
α = 473331.38
β1= - 825.16
β2= 40. 911
Hay chúng ta có phương trình tính giá tiền của một căn nhà theo độ tuổi và diện tích
như sau:
Market.Value = 473331.38 - 825.16 (House.Age) + 40.911 (Square.Feet)
Phương trình cho biết cứ giảm 1 năm tuổi thì thì giá nhà tăng lên 825.16$, và tăng mỗi 1 mét
vuông thì giá nhà tăng lên 40.911$.
Tham số R bình phương hiệu chỉnh (Adjusted R Square) cho biết mức độ (%) sự biến thiên của
biến phụ thuộc được giải thích bởi biến độc lập.
Hệ số R bình phương hiệu chỉnh Adjusted R Square là 0.533
Nghĩa là 53,3% biến thiên của biến phụ thuộc giá trị ngôi nhà được giải thích bởi 2 nhân tố độc
lập độ tuổi và diện tích ngôi nhà. còn lại là ảnh hưởng của sai số tự nhiên và biến ngoài mô hình.

11



II.Dữ liệu Colleges and Universities
1. Sử dụng SPSS
1 Đặt vấn đề
Giữa Graduation với Median SAT, Acceptance Rate, Expenditures/Student và Top 10%
HS có mối liên hệ như thế nào?
H0: Không có mối liên hệ nào
H1: Có mối liên hệ và theo dạng phương trình sau: Y = aX1 + bX2 + cX3 + dX4 + e với:
• Y: Graduation
• X1: MedianSAT
• X2: AcceptanceRate
• X3: Expenditures
• X4: Top10HS
1.1. Tiến hành
Dùng hồi quy tuyến tính đa biến
-

Bước 1: Chọn Analyze  Regression  Linear…

12


- Bước 2: Chọn thuộc tính phụ thuộc vào ô Dependent: và thuộc tính độc lập vào ô
Independent(s):

13


- Bước 3: Chọn OK
1.2. Kết quả


14


-

-

-

1.3. Nhận xét và giải thích
Từ kết quả ở bảng 1, ta có: hệ số R bình phương hiệu chỉnhAdjusted R Square = 0.492
nghĩa là 49.2% sự biến thiên của biến phụ thuộc Graduation được giải thích bởi 4 biến
độc lập ở trên, còn lại 50.8% sự biến thiên phụ thuộc là do các biến ngoài mô hình và sai
số ngẫu nhiên. R2 hiệu chỉnh càng lớn thể hiện độ phù hợp của mô hình càng cao
Từ kết quả ở bảng 2, ta có F = 12.627 với sig = 0.000 < 0.05. Do đó ta bác bỏ H0 và chấp
nhận H1 rằng giữa Y với X1, X2, X3, X4 có mối liên hệ với nhau theo dạng phương
trình: Y =aX1 + bX2 + cX3 + dX4 + e và còn chứng tỏ được R bình phương của tổng thể
khác 0, nghĩa là mô hình hồi quy tuyến tính xây dựng được phù hợp với tổng thể
Tất cả các giá trị sig của 4 biến độc lập đều < 5% chứng tỏ 4 biến độc lập đều có tác động
đến biến phụ thuộc
Phương trình hồi quy tuyến tính:

15


Graduation % = 0.072 * (Median SAT) – 0.249 * (Acceptance Rate) – 0.163 * (Top 10% HS)
+ 17.921
-

Từ phương trình hồi quy tuyến tính cho thấy: Graduation % (Tỉ lệ tốt nghiệp) tỉ lệ thuận

với Median SAT (điểm SAT) và tỉ lệ nghịch với: Acceptance Rate (tỉ lệ chấp thuận) và
Top 10% HS. Trong đó Acceptance Rate có ảnh hưởng lớn nhất
2. Sử dụng R
1 Đặt vấn đề
Sự tốt nghiệp (Graduation) ở các trường đại học có phụ thuộc vào 4 yếu tố này hay
không? MedianSAT, AcceptanceRate, Expenditures, Top10HS
H0: Không có sự phụ thuộc nào
H1: Có phụ thuộc và theo dạng phương trình sau: Y = aX1 + bX2 + cX3 + dX4 + e với:


Y: Graduation



X1: MedianSAT



X2: AcceptanceRate



X3: Expenditures



X4: Top10HS
2.1. Tiến hành
Dùng lệnh lm()


16


2.2. Kết quả

2.3. Nhận xét và giải thích
-

Phần Residuals: dao động dư có phần trung vị (Median) là 0.6193, tứ phân vị thứ nhất
có giá trị là: -2.0462, tứ phân vị thứ 3 có giá trị là: 3.6417

-

Phần Coefficients: hệ số

+ MedianSAT, AcceptanceRate, Expenditures, Top10HS đều có p_values rất nhỏ < 0.05.
Do đó bác bỏ H0 chấp nhận H1. Nên điều này cho thấy rất có ý nghĩa thống kê
+ Phương trình hồi quy tuyến tính có dạng: Y= 17.921 + 0.072X1 – 24.859X2 –
0.00014X3 – 0.163X4
-

Cần làm thêm bước phân tích phương sai Anova để biết được đâu ra kết quả này:

17


+ R-Squared (Hệ số xác định) =tổng sum sq của bốn thuộc tính / tổng sum sq =
1423.21/2663.06= 0.5344. Hay nói cách khác: bốn thuộc tính này MedianSAT,
AcceptanceRate, Expenditures, Top10HS giải thích 53% sự tốt nghiệp ở các trường đại
học.

+ Adjusted R-squared: Hệ số xác định điều chỉnh 0.4921 (nếu biết được 4 yếu tố thì tính
phương sai giảm đi). Nghĩa là 49.2% sự biến thiên của biến phụ thuộc Graduation được
giải thích bởi 4 biến độc lập ở trên, còn lại 50.8% sự biến thiên phụ thuộc là do các biến
ngoài mô hình và sai số ngẫu nhiên. R2 hiệu chỉnh càng lớn thể hiện độ phù hợp của mô
hình càng cao.

III. Dữ liệu tự chọn Việt Nam
1. Sử dụng SPSS
2. Sử dụng R
 Nhập dữ liệu:
- Dùng lệnh read.csv() để nhập dữ liệu và gán vào biến df
-

Dùng lệnh attach() để đọc dữ liệu thực thi

-

Xem các cột dữ liệu.

18


1 Hồi quy đơn biến
 Đặt vấn đề : Ảnh hưởng của chỉ số vàng đến chỉ số giá tiêu dùng
 Tiến hành :
- Hàm lm có thể tính toán các giá trị của α và β một cách nhanh gọn
- Lệnh thứ hai, summary(c), yêu cầu R liệt kê các thông tin tính toán trong b

Kết quả như trên:
=97.22019 và = 0.02021

Nói cách khác với 2 thông số này ta có thể ước tính chỉ số giá tiêu dùng cho bất cứ tỉ số giá vàng
nào.
CHI.SO.GIA.TIEU.DUNG = 97.22019 + 0.02021*CHI.SO.GIA.VANG
Phương trình này có nghĩa là khi tăng 1% chỉ số giá vàng thì chỉ số giá tiêu dùng sẽ tăng 0.02021
%
Trị số R2 là 0.02072, có nghĩa là phương trình tuyến tính (với chỉ số giá vàng là một yếu tố) giải
thích khoảng 2.072% các khác biệt về chỉ số tiêu dùng
2.1. Hồi quy đa biến
 Đặt vấn đề : Ảnh hưởng của chỉ số vàng và chỉ số giá đô la Mỹ đến chỉ số giá tiêu dùng
19


 Tiến hành :
- Hàm lm có thể tính toán các giá trị của α và β một cách nhanh gọn
- Lệnh thứ hai, summary(c), yêu cầu R liệt kê các thông tin tính toán trong c

Kết quả như trên:
= 100.84483, = 0.01945 và , = -0.03540
Nói cách khác với 2 thông số này ta có thể ước tính chỉ số giá tiêu dùng cho bất cứ chỉ số giá
vàng và chỉ số giá dala mỹ nào.
CHI.SO.GIA.TIEU.DUNG = 100.84483 + 0.01945* CHI.SO.GIA.VANG
-0.03540*CHI.SO.GIA.DO.LA.MY
Phương trình này có nghĩa là khi tăng 1% chỉ số giá vàng thì chỉ số sẽ tăng 0.01954% chỉ số giá
tiêu dùng và giảm 1% chỉ số giá dola Mỹ thì chỉ số sẽ tăng 0.03540%
Trị số R2 là 0.2872, có nghĩa là phương trình tuyến tính (với diện tích và dân số trung bình là
một yếu tố) giải thích khoảng 28.72% các khác biệt về mật độ dân số

B. BẢNG PHÂN CÔNG
Thành viên
Phạm Huỳnh Mỹ Hạnh - 17520443

Nguyễn Thị Cẩm Hoài - 17520499
Trà Thảo Nguyên - 17520831
Trương Thị Mỹ Linh – 17520692
Hồ Thị Ngọc Huyền - 17520596

Công việc
Dữ liệu Home Market Value cả SPSS và R
Dữ liệu tùy chọn Việt Nam
Dữ liệu tùy chọn Việt Nam bên R
Dữ liệu Colleges and Universities bên R
Dữ liệu Colleges and Universities bên SPSS + Báo cáo

20


C.TÀI LIỆU THAM KHẢO
[1] />fbclid=IwAR2kmEqNx7mz4PMqH5taKcwZI_wN9-u7ZCKqHUqDNP1LhO1hXlCkra7GDm4
[2] />
21



×