Tải bản đầy đủ (.pdf) (59 trang)

Bài giảng Phương pháp nghiên cứu: Chương 5: hàm tương quan đa biến - Nguyễn Hùng Phong

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (425.26 KB, 59 trang )

Hàm tương quan đa biến

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

Chap 14-1


Mục tiêu học tập








Thơng hiểu việc xây dựng mơ hình với việc
phân tích đa biến
Thực hiện việc xây dựng hàm tương quan đa
biến.
Phân tích và lý giải kết quả của hàm tương
quan đa biến
Thực hiện các phép kiểm định thống kê với
hàm tương quan đa biến

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

Chap 14-2


Mơ hình của hàm tương quan đa biến


Hàm tương quan
của đám đông
Y-intercept

Population slopes

Random Error

y  β0  β1x1  β2 x 2    βk x k  ε
Hàm tương quan ước lượng
Estimated
(or predicted)
value of y

Estimated
intercept

Estimated slope coefficients

ˆ
y  b0  b1x1  b2 x 2    bk x k

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

Chap 14-3


Mơ hình của hàm tương quan đa biến
(trường hợp hai biến)
Mơ hình hai biến

y

ˆ
y  b0  b1x1  b2 x 2

x2

x1
Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

Chap 14-4


Mơ hình của hàm tương quan đa biến
(trường hợp hai biến)
Hai biến
y

Quan sát thực tế

ˆ
y  b0  b1x1  b2 x 2

yi
<

<

yi


e = (y – y)
x2i

x1i
x1
Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

x2

Hàm tương quan sẽ có độ
chính xác của ướclượng
cao khi tối thiểu hóa tổng
bình phương sai lệch: Chap 14-5
e2


Multiple Regression Assumptions
Sai lệch (errors) hay phần dư (residuals):
<

e = (y – y)


Giả thuyết





Các sai lệch có phân phối chuẩn

Bình quân của các sai lệch co giá trị bằng 0
Phương sai của các sai lệch là cố định
Các sai lệch hoàn toàn độc lập

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

Chap 14-6


Ma trận hệ số tương quan


Ma trận hệ số tương quan giữa biến phụ thuôc và các
biến độc lập được tính trên Excel:




Tools / Data Analysis… / Correlation

Kiểm tra độ tin cậy thống kê của các hệ số tương quan
với phép kiểm định t

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

Chap 14-7


Ví dụ



Một nhà sản xuất bánh nướng muốn đánh giá sự
tác động của giá cả và quảng cáo đến sản lượng
hàng bán ra





Biến phụ thuộc: Sản lượng (Chiếc mỗi tuần)
Biến độc lập: giá cả ($) và chi phí quảng cáo (đơn vị
$100/tuần)

Thông tin được thu thập liên tục trong 15 tuần

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

Chap 14-8


Hàm tương quan đa biến
Week

Pie
Sales

Price
($)

Advertising

($100s)

1

350

5.50

3.3

2

460

7.50

3.3

3

350

8.00

3.0

4

430


8.00

4.5

5

350

6.80

3.0

6

380

7.50

4.0

7

430

4.50

3.0

8


470

6.40

3.7

9

450

7.00

3.5

10

490

5.00

4.0

11

340

7.20

3.5


12

300

7.90

3.2

13

440

5.90

4.0

14

450

5.00

3.5

15

300

7.00


2.7

Multiple regression model:

Sales = b0 + b1 (Price)
+ b2 (Advertising)
Correlation matrix:
Pie Sales
Pie Sales
Price
Advertising

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

Price

Advertising

1
-0.44327

1

0.55632

0.03044

1

Chap 14-9



Giải thích ý nghĩa các hệ số tương
quan (bi)


bi




Giá trị trung bình của y sẽ thay đổi bi đơn vị khi
gia tăng một đơn vị Xi, giả định rằng các biến
khác đều cố định

Hằng số tương quan (b0)
 Giá trị trung bình của y khi mọi biến Xi đều bằng
0.

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

Chap 14-10


Kết quả của hàm tương quan đa biến
Regression Statistics
Multiple R

0.72213


R Square

0.52148

Adjusted R Square

0.44172

Standard Error

47.46341

Observations

ANOVA
Regression

Sales  306.526 - 24.975(Pri ce)  74.131(Adv ertising)

15

df

SS

MS

F

2


29460.027

14730.013

Residual

12

27033.306

2252.776

Total

14

56493.333

Coefficients

Standard Error

Intercept

306.52619

114.25389

2.68285


0.01993

57.58835

555.46404

Price

-24.97509

10.83213

-2.30565

0.03979

-48.57626

-1.37392

74.13096

25.96732

2.85478

0.01449

17.55303


130.70888

Advertising

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

t Stat

6.53861

Significance F

P-value

0.01201

Lower 95%

Upper 95%

Chap 14-11


Hệ số xác định của hàm tương quan
đa biến


Tỷ lệ % biến thiên của y có thể giải thích bởi sự biến
thiên đồng thời của tất cả các Xi


ESS Sum of squares regression
R 

TSS
Total sum of squares
2

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

Chap 14-12


Hệ số xác định của hàm tương quan
đa biến
(continued)
Regression Statistics
Multiple R

0.72213

R Square

0.52148

Adjusted R Square

SSR 29460.0
R 


 .52148
SST 56493.3
2

0.44172

Standard Error
Observations

ANOVA
Regression

52.1% of the variation in pie sales
is explained by the variation in
price and advertising

47.46341
15

df

SS

MS

F

2

29460.027


14730.013

Residual

12

27033.306

2252.776

Total

14

56493.333

Coefficients

Standard Error

Intercept

306.52619

114.25389

2.68285

0.01993


57.58835

555.46404

Price

-24.97509

10.83213

-2.30565

0.03979

-48.57626

-1.37392

74.13096

25.96732

2.85478

0.01449

17.55303

130.70888


Advertising

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

t Stat

6.53861

Significance F

P-value

0.01201

Lower 95%

Upper 95%

Chap 14-13


Hệ số xác định đã điều chỉnh (Adjusted
R2)


R2 hầu như không bao giờ giảm khi chúng ta thêm
biến độc lập mới vào mơ hình





Gây khó khăn trong việc so sánh các mơ hình trước và sau khi
thêm biến mới

Tác đơng thực khi thêm biến mới
 Chúng ta sẽ giãm bậc tự do khi có biến mới thêm
vào.
 Việc thêm biến mới có đũ năng lực giải thích để bù
đấp cho sự mất mát khi giãm bậc tự do hay không?

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

Chap 14-14


Hệ số xác định đã điều chỉnh (Adjusted
R2)
(continued)


Thể hiện % tổng biến thiên của y có thể giải thích
đượcbởi tất cả các biến Xi đã được điều chỉnh cho số
biến sử dụng

 n 1 
R  1  (1  R )

 n  k  1
2

A

2

(n = Cở mẩu, k = số lượng các biến độc lập)

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

Chap 14-15


Hệ số xác định đã điều chỉnh (Adjusted
R2)
Tác dụng của việc sử dụng R2 đã điều chỉnh
 Trừng phạt việc đưa q nhiều biến khơng cần
thiết vào mơ hình
 Hữu dụng trong việc so sánh mơ hình
Thường giá trị của nó nhỏ hơn R2

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

Chap 14-16


Hệ số xác định đã điều chỉnh
(Adjusted R2)
(continued)
Regression Statistics
Multiple R


0.72213

R Square

0.52148

Adjusted R Square

0.44172

Standard Error

47.46341

Observations

ANOVA
Regression

15

df

R 2  .44172
A
44.2% of the variation in pie sales is
explained by the variation in price and
advertising, taking into account the sample
size and number of independent variables
SS


MS

F

2

29460.027

14730.013

Residual

12

27033.306

2252.776

Total

14

56493.333

Coefficients

Standard Error

Intercept


306.52619

114.25389

2.68285

0.01993

57.58835

555.46404

Price

-24.97509

10.83213

-2.30565

0.03979

-48.57626

-1.37392

74.13096

25.96732


2.85478

0.01449

17.55303

130.70888

Advertising

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

t Stat

6.53861

Significance F

P-value

0.01201

Lower 95%

Upper 95%

Chap 14-17



Kiểm tra độ tin cậy của mơ hình tương
quan


Dùng kiểm định F



Thể hiện tất cả các biến đơc lập có mối quan hệ tương
quan tuyến tính với biến phụ thuộc y hay không?



Giả thuyết :


H0: β1 = β2 = … = βk = 0 (khơng có quan hệ tuyến tính)



HA: Tối thiểu có βi ≠ 0 (Tối thiểu có một biến có quan hệ
tuyến tính với y)

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

Chap 14-18


Cách xác định kiểm định F
(continued)



Giá trị F tính tốn:

ESS
MESS
k
F

RSS
MRSS
n  k 1
where F has

(numerator) D1 = k and
(denominator) D2 = (n – k - 1)
degrees of freedom

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

Chap 14-19


Kết quả kiểm định F trên Excel
(continued)
Regression Statistics
Multiple R

0.72213


R Square

0.52148

Adjusted R Square

0.44172

Standard Error

47.46341

Observations

ANOVA
Regression

15

df

MSR 14730.0
F

 6.5386
MSE
2252.8
With 2 and 12 degrees
of freedom
SS


MS

P-value for
the F-Test
F

2

29460.027

14730.013

Residual

12

27033.306

2252.776

Total

14

56493.333

Coefficients

Standard Error


Intercept

306.52619

114.25389

2.68285

0.01993

57.58835

555.46404

Price

-24.97509

10.83213

-2.30565

0.03979

-48.57626

-1.37392

74.13096


25.96732

2.85478

0.01449

17.55303

130.70888

Advertising

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

t Stat

6.53861

Significance F

P-value

0.01201

Lower 95%

Upper 95%

Chap 14-20



Kết quả kiểm định F trên Excel
(continued)

H0: β1 = β2 = 0
HA: Có ít nhất βi khác 0
a = .05
df1= 2
df2 = 12

F tính tốn:
MESS
F
 6.5386
MRSS

Quyết định:

Critical
Value:

Từ chối H0 ở mức ý nghĩa 5%

Conclusion:

Fa = 3.885

The regression model does explain
a significant portion of the variation

in pie sales

a = .05

0

Do not
reject H0

Reject H0

F.05 = 3.885

F

(There is evidence that at least one
independent variable affects y)

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

Chap 14-21


Kiểm định tương quan tuyến tính của
biến độc lập với biến phụ thuộc


Sử dụng phép kiểm định t




Thể hiện mối quan hệ tuyến tính giửa biến xi và y



Giả thuyết :


H0: βi = 0 (khơng có quan hệ tuyến tính)



HA: βi ≠ 0 (có quan hệ tương quan tuyến tính)

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

Chap 14-22


Kiểm định tương quan tuyến tính của
biến độc lập với biến phụ thuộc
(continued)

Xác định t tính tốn :

bi  0
t
sbi

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.


(df = n – k – 1)

Chap 14-23


Kiểm định tương quan tuyến tính của
biến độc lập với biến phụ thuộc
(continued)
Regression Statistics
Multiple R

0.72213

R Square

0.52148

Adjusted R Square

t-value for Price is t = -2.306, with
p-value .0398

0.44172

Standard Error

47.46341

Observations


ANOVA
Regression

15

df

t-value for Advertising is t = 2.855,
with p-value .0145
SS

MS

F

2

29460.027

14730.013

Residual

12

27033.306

2252.776


Total

14

56493.333

Coefficients

Standard Error

Intercept

306.52619

114.25389

2.68285

0.01993

57.58835

555.46404

Price

-24.97509

10.83213


-2.30565

0.03979

-48.57626

-1.37392

74.13096

25.96732

2.85478

0.01449

17.55303

130.70888

Advertising

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

t Stat

6.53861

Significance F


P-value

0.01201

Lower 95%

Upper 95%

Chap 14-24


Kiểm định tương quan tuyến tính của
biến độc lập với biến phụ thuộc
From Excel output:

H0: βi = 0
HA: βi  0

Coefficients
Price

Standard Error

t Stat

P-value

-24.97509

Advertising


10.83213

-2.30565

0.03979

74.13096

25.96732

2.85478

0.01449

d.f. = 15-2-1 = 12

The test statistic for each variable falls
in the rejection region (p-values < .05)

a = .05
ta/2 = 2.1788

Decision:
a/2=.025

a/2=.025

Reject H0 for each variable


Conclusion:
Reject H0

Do not reject H0

-tα/2
-2.1788

0

Reject H0

tα/2
2.1788

Business Statistics: A Decision-Mak ing Approach, 6e © 2005 Prentice-Hall, Inc.

There is evidence that both
Price and Advertising affect
pie sales at a = .05
Chap 14-25


×