Tải bản đầy đủ (.pdf) (30 trang)

Bài giảng Thống kê ứng dụng trong kinh doanh: Chương 11 (ThS. Nguyễn Tiến Dũng)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (912 KB, 30 trang )

Chương 11
HỒI QUY VÀ TƯƠNG QUAN ĐƠN BIẾN
Ths. Nguyễn Tiến Dũng
Viện Kinh tế và Quản lý, Trường ĐH Bách khoa Hà Nội
Email:


MỤC TIÊU CỦA CHƯƠNG
● Sau khi học xong chương này, người học sẽ
● Nói được phạm vi ứng dụng của phương pháp

phân tích hồi quy và tương quan đơn biến
● Biết cách thực hiện một phân tích hồi quy dựa trên
dữ liệu mẫu
● Nói được những điều kiện và giả định cần thiết khi
phân tích hồi quy
● Biết được cách tính và ý nghĩa của hệ số tương
quan Pearson và hệ số tương quan hạng
Spearman
© Nguyễn Tiến Dũng

Thống kê ứng dụng

2


CÁC NỘI DUNG CHÍNH

11.1 Làm quen với hồi quy
11.2 Mô hình hồi quy tuyến tính đơn
11.3 Tương quan tuyến tính


11.4 Tương quan giữa các biến định tính

© Nguyễn Tiến Dũng

Thống kê ứng dụng

3


11.1 LÀM QUEN VỚI HỒI QUY
● 11.1.1 Khái niệm hồi quy
● Regression, Regression to mediority: quy các điểm DL đã biết về một

đường lý thuyết
● Đ/nghĩa của TK:
● NC mối liên hệ phụ thuộc giữa một biến phụ thuộc (biến đầu ra) và một hay

nhiều biến độc lập (biến đầu vào),
● nhằm ước tính hoặc dự báo giá trị trung bình tổng thể của biến phụ thuộc dựa
trên các giá trị biết trước của biến độc lập
● Hồi quy đơn biến (simple regression): 1 biến PT và 1 biến ĐL, DL định

lượng
● TD:
● KQ học tập = f(thời gian tự học)
● KQ học tập = f(thời gian tự học, yêu thích chuyên ngành)

● Lượng tiêu thụ = f(P1, P2, P3, P4)
● Chất lượng sản phẩm = f(NVL, thiết bị, công nghệ, con người, quản lý)


© Nguyễn Tiến Dũng

Thống kê ứng dụng

4


11.1.2 Phân biệt liên hệ TK và liên hệ hàm số khi phân
tích hồi quy

● Liên hệ hàm số: Y = b0 + b1X
● Với 1 giá trị của X, có 1 giá trị xác định và duy nhất

của Y
● Liên hệ TK: Y = b0 + b1.X
● X = thời gian tự học; Y = điểm GPA
● DL về X: dữ liệu mẫu
● Một X, có thể có nhiều Y
● DL mẫu  xác định đường HQ mẫu  dự đoán

đường HQ tổng thể

© Nguyễn Tiến Dũng

Thống kê ứng dụng

5


11.1.3 Quy ước về ký hiệu và tên gọi

● Biến số: Y = b0 + b1.X1 + b2X2
● Biến độc lập, biến đầu vào, biến giải thích: X1, X2
● Biến phụ thuộc, biến đầu ra, biến được giải thích:

Y
● Xki: giá trị của quan sát thứ i của biến Xk.
● b0, b1, b2: các hệ số của phương trình hồi quy
● Hồi quy đơn biến và hồi quy đa biến (HQ bội)
● HQ đơn biến (simple regression): 1 biến ĐL
● HQ đa biến (multiple regression): nhiều biến ĐL
© Nguyễn Tiến Dũng

Thống kê ứng dụng

6


11.1.4 Các dạng liên hệ giữa biến độc lập và biến phụ
thuộc

© Nguyễn Tiến Dũng

Thống kê ứng dụng

7


11.2 MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN
● 11.2.1 Mở đầu
● NC mối liên hệ giữa thu nhập


(X) và chi tiêu (Y)
● Lấy mẫu n hộ gia đình
● Đường hồi quy lý thuyết
● E(y|xi) = b0 + b1.xi
● yi = b0 + b1xi + ei
● b0: hệ số tung độ gốc (hệ số

chặn)
● b1: hệ số dốc (hệ số góc)
● ei: sai số, thể hiện yếu tố nhiễu
© Nguyễn Tiến Dũng

Thống kê ứng dụng

8


11.2.2 Các giả định liên quan đến yếu tố nhiễu
● Các ei tại mỗi xi có phân

phối bình thường
● Không có sự tương
quan giữa các nhiễu,
hay các ei độc lập với
nhau

© Nguyễn Tiến Dũng

Thống kê ứng dụng


9


11.2.3 Ý nghĩa và cách xác định các hệ số hồi quy
● b1: hệ số độ dốc, đo lường lượng thay đổi TB

trong biến phụ thuộc Y khi X thay đổi 1 đơn vị.
● b0: hệ số tung độ gốc cho biết giá trị của Y khi
X = 0, có thể coi là ảnh hưởng TB của các
yếu tố khác mà không có mặt trong mô hình

© Nguyễn Tiến Dũng

Thống kê ứng dụng

10


Dữ liệu mẫu Bảng 11.1 Trang 311
Stt

Số năm (X)

Doanh số (Y)

1

3


487

2

5

445

3

2

272

4

8

641

5

2

187

6

6


440

7

7

346

8

1

238

9

4

312

10

2

269

11

9


655

12

6

563

© Nguyễn Tiến Dũng

Thống kê ứng dụng

11


Xác định các hệ số hồi quy
● Phương pháp Cực tiểu

hoá tổng bình phương
của các phần dư
n

n

i 1

i 1

min  ei2  min  ( yi  b0  b1 yi ) 2
n


b1 

(x

i

 x )( yi  y )

i 1

n

 ( xi  x )
i 1

2

n



x y
i

i

 n. x . y



i 1
n

 x  n. x
2
i

n

2

i 1

n
1 n
 xi y i  n  xi  y i
i 1
i 1
i 1

1

 x  n   xi 
i 1
 i 1 
n

n

2


2
i

b0  y  b1 x
© Nguyễn Tiến Dũng

Thống kê ứng dụng

12


Mẫu số của b1
© Nguyễn Tiến Dũng

Thống kê ứng dụng

Tử số của b1
13


11.2.4 Tính toán các kết quả hồi quy bằng Excel
● Vẽ đồ thị Scatter Chart + Add Trendline

© Nguyễn Tiến Dũng

Thống kê ứng dụng

14



Sử dụng Data Analysis: Regression

© Nguyễn Tiến Dũng

Thống kê ứng dụng

15


11.2.5 Vấn đề cần chú ý khi dự đoán với mô hình hồi
quy
● Chỉ nên dự đoán 𝑌𝑖 với những giá trị Xi nằm giữa

Xmin và Xmax, hoặc không quá xa Xmin và Xmax
● Lý do: với những giá trị Xi nằm càng xa Xtb, thì sai
số khi ước lượng Yi càng lớn.
● 𝑥 = 4,583 chỉ nên dự báo y quanh giá trị TB này.
● TD: Nếu một NVBH có 5 năm kinh nghiệm, thì
doanh số người này có thể đạt là:

yˆ  175,829  49,910  5  425,379 (tr.ñ.)

© Nguyễn Tiến Dũng

Thống kê ứng dụng

16



11.2.6 Hệ số xác định của PTHQ
● Hệ số xác định (Coefficient of Determination)
SST  SSR  SSE
n

SST   ( yi  y ) 2
i 1
n

SSR   ( yˆ i  y ) 2
i 1
n

SSE   ( yi  yˆ i ) 2
i 1

SSR
R 
SST
2

© Nguyễn Tiến Dũng

Thống kê ứng dụng

17


11.2.7 Sai số chuẩn của hồi quy
● Sai số chuẩn của hồi quy sY/X: Thể hiện độ


lệch của các giá trị ŷi xung quanh yi
n

2
ˆ
(
y

y
)
 i i

sY / X 

SSE

n2

sY / X 

84.834, 295
 92,1055
12  2

© Nguyễn Tiến Dũng

i 1

n2


Thống kê ứng dụng

18


© Nguyễn Tiến Dũng

Thống kê ứng dụng

19


11.2.8 Suy diễn TK về hệ số độ dốc
● 11.2.8.1 Định lý Gauss-Markov
● Giả định: PP của Y là bình thường thì PP của

b0 và b1 cũng là PP bình thường
● Đ/lý Gauss-Markov
● Trong các ƯL tuyến tính không chệch cho hệ số

hồi quy tổng thể, ƯL tìm được bằng PP bình
phương bé nhất có PS cực tiểu.

© Nguyễn Tiến Dũng

Thống kê ứng dụng

20



11.2.8.2 Khoảng tin cậy cho hệ số độ dốc

© Nguyễn Tiến Dũng

Thống kê ứng dụng

21


11.2.8.3 KĐ ý nghĩa của hệ số độ dốc
● Cặp giả thuyết KĐ
● Chỉ tiêu KĐ tính: t = b1/sb1
● Quy tắc bác bỏ H0:

 H 0 : 1  0

 H 1 : 1  0
Baùc boû H 0 neáu
 t   tn  2; /2

 t  tn  2; /2

● TD:
● b1 = 49,910

● sb1 = 10,502 (xem Trang 323 về cách tính)
● tStat = 4,752  p-value = 0,008
● t tra bảng: tn-2;α/2 = t10; 0,025=2,228
● Bác bỏ H0.

© Nguyễn Tiến Dũng

Thống kê ứng dụng

22


s 
2
b1

sY2 / X
n

2
(
x

x
)
 i

8.483, 429

 110, 294
76, 917

i 1

sb1  110, 294  10, 502


© Nguyễn Tiến Dũng

Thống kê ứng dụng

23


11.2.9 Phân tích phần dư (residuals/ errors)
● Mục đích: Kiểm tra tính đúng đắn của các giả

định (assumptions) của phương trình hồi quy
1. Quan hệ giữa X và Y thực sự là quan hệ
tuyến tính  trung bình của các phần dư ei
=0
2. Các phần dư ei có PP normal
3. PS của các phần dư là không đổi
4. Các phần dư là độc lập với nhau (không có
hiện tượng tự tương quan giữa các phần
dư)
© Nguyễn Tiến Dũng

Thống kê ứng dụng

24


11.2.10 Sử dụng PT hồi quy để dự đoán giá trị TB và
giá trị cá biệt của Y


● Giá trị TB

E (y | x0 )  yˆ 0  e y
yˆ 0  b0  b1 x0
e y  t n  2; / 2  sY | X

( x0  x ) 2
1

 n
n
2
(
x

x
)
 i
i 1

● Giá trị cá biệt

y0  yˆ 0  e y
yˆ 0  b0  b1 x0
e y  t n  2; / 2  sY | X

( x0  x ) 2
1
 1  n
n

2
(
x

x
)
 i
i 1

© Nguyễn Tiến Dũng

Thống kê ứng dụng

25


×