HỒI QUI VÀ
TƯƠNG QUAN
CHƯƠNG
5C
1
TƯƠNG QUAN
Hai biến (đại lượng) được nói là có tương quan nếu chúng có
quan hệ với nhau, chính xác hơn, sự thay đổi của biến này có
ảnh hưởng đến thay đổi của biến còn lại.
Ký hiệu (x,y) là cặp giá trị quan sát được của hai biến X, Y.
Ta có thể vẽ đồ thị của các quan sát thông qua biểu đồ phân
tán (scatter diagram)
2
VÍ DỤ
Một công ty nghiên cứu ảnh hưởng của quảng cáo
tới doanh số bán hàng. Dữ liệu quảng cáo và doanh
thu từng tháng được thu thập như sau:
1,3
Chi phí quảng cáo
Tổng doanh số tháng 151,6
tới
0,9
100,1
1,8
199,3
2,1
221,2
1,5
170,0
Hãy vẽ biểu đồ phân tán.
3
BIỂU ĐỒ PHÂN TÁN
Biến độc lập: chi
phí quảng cáo
Biến phụ thuộc:
doanh số bán
hàng
4
HỆ SỐ TƯƠNG QUAN PEARSON
Ký hiệu: r hay rX,Y
n
x x y y
i
Công thức:
i
i 1
rX ,Y
n
2
n
x x . y y
i
2
i
i 1
i 1
Trong đó n là số lượng quan sát
n
rX ,Y
cov x, y
X . Y
n
x x
i
cov x, y
;
i 1
n 1
i
i 1
n
2
i
X2
x x y y
y y
n 1
2
i
;
Y2
i 1
n 1
5
HỆ SỐ TƯƠNG QUAN PEARSON
Ký hiệu: r hay rX,Y
n
x x y y
i
Công thức:
rX ,Y
i
i 1
n
2
n
x x . y y
i
2
i
i 1
i 1
Trong đó n là số lượng quan sát
rX ,Y
n xy x. y
xy x. y
n x x . n y y x x . y y
2
2
2
2
2
2
2
2
6
TRUNG BÌNH; PHƯƠNG SAI VÀ HIỆP PHƯƠNG SAI
Đối với quan sát mẫu
Ta có:
x1 x2 ... xn
x
n
n
n
x
i
y1 y2 ... yn
; y
n
i 1
n
n
2
2
2
x
x
...
x
2
n
x2 1
n
y
i
i 1
n
n
2
i
x
2
2
2
y
y
...
y
i 1
2
n
; y2 1
n
n
2
y
i
i 1
n
n
x1 y1 ... xn yn
xy
n
x y
i
i
i 1
n
7
ĐÁNH GIÁ HỆ SỐ TƯƠNG QUAN
Miền giá trị: −1 ≤
≤1
Nếu −1 ≤
≤ 0 thì tương quan âm. rXY càng gần -1
thì mối liên hệ tuyến tính nghịch giữa X, Y càng mạnh
Nếu 0 ≤
≤ 1 thì tương quan dương. rXY càng gần 1
thì mối liên hệ tuyến tính thuận giữa X, Y càng mạnh
rXY càng gần 0 thì quan hệ tuyến tính càng yếu.
8
ĐÁNH GIÁ HỆ SỐ TƯƠNG QUAN
9
VÍ DỤ
Hãy tính hệ số tương quan Pearson giữa chi phí quảng
cáo và doanh số trong ví dụ sau.
1,3
Chi phí quảng cáo
Tổng doanh số tháng 151,6
tới
0,9
100,1
1,8
199,3
2,1
221,2
1,5
170,0
10
VÍ DỤ
X
1,3
0,9
1,8
2,1
1,5
7,6
Σ
X2
1,69
0,81
3,24
4,41
2,25
12,40
Σ 2
Y
151,6
100,1
199,3
221,2
170,0
842,2
Σ
Y2
22.982,56
10.020,01
39.720,49
48.929,44
28.900,00
150.552,50
Σ
5
i
7, 6
i 1
5
x
i 1
12, 40
i
842, 2
5
2
i
y
i 1
y
i 1
5
2
i
2
5
x
n5
XY
197,08
90,09
358,74
464,52
255,00
1.365,43
Σ
150.552,50
x y
i
i
1365, 43
i 1
11
VÍ DỤ
Ta có:
x 1,52
x 2 2, 48
y 2 30110,5
xy 273, 086
y 168, 44
Hệ số tương quan:
273, 086 1,52.168, 44
rXY
0,993371434
2, 48 1,522 30110, 5 168, 442
Hoặc:
n
n
n
n xi yi xi . yi
rXY
i 1
n 2 n
n xi xi
i 1
i 1
i 1
2
i 1
n 2 n
. n yi yi
i 1
i 1
2
5.1365, 43 7, 6*842, 2
5.12, 4 7, 6 5.150552, 5 842, 2
2
2
0,993371434
12
VÍ DỤ
Các giá trị trung bình
12, 4
150552,5
1365, 43
2
x
2, 48; y
30110,5; xy
273, 086
5
5
5
2
Độ lệch chuẩn:
12, 4
150552,5
1365, 43
2
x
2, 48; y
30110,5; xy
273, 086
5
5
5
X 0, 460435
Y 46, 61634
2
Hệ số tương quan r 0,993371
13
VÍ DỤ
Số liệu về thời gian quảng cáo trên truyền hình và lượng
sản phẩm tiêu thụ ở một công ty sản xuất đồ chơi trẻ em
như sau:
Thời gian
28
37
44
36
47
35
26
29
33
32
31 28
Lượng tiêu thụ
41
32
49
42
38
33
27
24
35
30
34 25
Thời gian: phút/tuần
Lượng tiêu thụ: 1000sp/tuần
Hãy tính hệ số tương quan mẫu và cho kết luận
14
HỆ SỐ TƯƠNG QUAN SPEARMAN
Hệ số tương quan hạng
Ký hiệu R
Công thức:
R = 1-
6å d 2
(
2
)
n n - 1
Trong đó n là cỡ mẫu và d là hiệu số của các hạng.
15
HỆ SỐ TƯƠNG QUAN SPEARMAN
Khi tuyển dụng, một công ty đánh giá các ứng viên thông
qua phỏng vấn và bài kiểm tra. Khi phỏng vấn, các ứng
viên được đánh giá từ A (xuất sắc) đến E (không phù hợp)
và bài kiểm tra được tính theo thang điểm 100. Kết quả
của 5 ứng viên như sau:
1 2 3 4 5
Ứng viên
Điểm phỏng vấn A B A C D
60 61 50 72 70
Điểm bài thi
Tính hệ số tương quan hạng Spearman và cho nhận xét
16
VÍ DỤ
Ta lập bảng sau:
Ứng viên
1
2
3
4
5
Hạng
phỏng vấn
1,5
3
1,5
4
5
R = 1-
Hạng
kiểm tra
4
3
5
1
2
6å d 2
(
)
n n2 - 1
= 1-
Hiệu
số
-2,5
0
-3,5
3
3
0
Hiệu số bình
phương
6,25
0
12,25
9
9
36,50
6 * 36, 50
= - 0, 825
5. (25 - 1)
17
VÍ DỤ
Một chuyên gia được
yêu cầu nếm thử 8 loại
rượu có giá dưới 4 $.
Hương vị các loại rượu
được xếp hạng từ 1 (dở
nhất) đến 8 (ngon
nhất). Bảng tổng hợp
xếp hạng và giá cả các
loại rượu như sau:
Loại
rượu
A
B
C
D
E
F
G
H
Hương vị
Giá tiền
1
2
3
4
5
6
2,49
2,99
3,49
2,99
3,59
3,99
7
8
3,99
2,99
• Hãy tính hệ số tương quan hạng Spearman và cho
kết luận
18
VÍ DỤ
Ta lập bảng sau:
Loại rượu
Hạng
hương vị
Hạng
giá tiền
Hiệu
số
Hiệu số bình
phương
A
B
C
D
E
F
G
H
19
PHÂN TÍCH HỒI QUY
Phân tích hồi quy được sử dụng để xác định mối liên hệ
giữa:
Một biến phụ thuộc Y (biến được giải thích)
Một hay nhiều biến độc lập X1, X2, …,Xn (còn được gọi là biến giải
thích)
Biến phụ thuộc Y phải là biến liên tục
Các biến độc lập X1, X2, …, Xn có thể là biến liên tục, rời
rạc hay phân loại.
20
LIÊN HỆ HÀM SỐ VÀ LIÊN HỆ THỐNG KÊ
Liên hệ hàm số: Y=aX+b
Với một giá trị của X, có 1 giá trị duy nhất của Y
Liên hệ thống kê: Y=aX+b
Ví dụ: X: thời gian tự học; Y: điểm cuối kỳ
Một giá trị của X có thể có nhiều giá trị của Y
Dữ liệu X: dữ liệu mẫu
Dữ liệu mẫu tìm đường hồi quy mẫu dự đoán cho
đường hồi quy tổng thể.
21
VÍ DỤ
Một công ty muốn ước lượng hàm chi phí cho một sản
phẩm. Giá trị của hàm chi phí được xác định tại một vài
mức sản xuất như sau.
22
VÍ DỤ
Mặc dù những điểm quan sát
không cùng nằm trên một đường
thẳng nhưng tương quan tuyến
tính rất mạnh
Công ty muốn xấp xỉ hàm chi phí
bằng một hàm tuyến tính:
y = a .x + b
• Ta cần xác định các hệ số a, b sao cho đường thẳng
trên xấp xỉ tốt nhất cho hàm chi phí.
23
THẶNG DƯ (RESIDUAL)
Ta cần xác định a, b sao cho tổng bình phương thặng dư nhỏ
nhất.
24
VÍ DỤ
Số liệu về doanh số và số lượng nhân viên kinh doanh
trong các khu vực của công ty X như sau:
Khu vực
Doanh số
Số nhân viên kinh doanh
A
B
C
D
E
F
236
234
298
250
246
202
11
12
18
15
13
10
Hãy tìm mô hình tuyến tính dự đoán doanh số theo số
nhân viên kinh doanh
25