Bài 4: Phân tích hồi quy và tương quan
v1.0 69
Nội dung Mục tiêu
Nhiệm vụ của phân tích hồi quy và
tương quan.
Một số mô hình hồi quy và cách xác
định các tham số của mô hình.
Cung cấp phương pháp phân tích thống kê
nghiên cứu mối liên hệ nhân quả giữa các
hiện tượng kinh tế – xã hội.
Thời lượng học
Hướng dẫn học
7 tiết
Đọc bài giảng và thảo luận.
Trả lời câu hỏi ôn tập, câu hỏi trắc nghiệm
và làm bài tập.
BÀI 4: PHÂN TÍCH HỒI QUY VÀ TƯƠNG QUAN
Bài 4: Phân tích hồi quy và tương quan
70 v1.0
TÌNH HUỐNG DẪN NHẬP
Tên tình huống: Phân tích thị trường xe máy
Giả sử bạn đang nghiên cứu về vấn đề mua bán xe máy
Honda Wave đã qua sử dụng. Bạn nhận thấy giá bán của
chiếc xe do rất nhiều nhân tố quyết định. Đó có thể là số
năm sử dụng xe, màu sắc, đối tượng mua, đối tượng bán,
thậm chí cả nhu cầu mua, nhu cầu bán cũng có ảnh hưởng
đến giá cả của nó Bạn thực hiện một điều tra thống kê trên
11 chiếc xe để tìm hiểu mối liên hệ giữa các nhân tố ảnh
hưởng và giá bán của nó. Số liệu cho thấy, dường như đúng
là có mối liên hệ giữa các nhân tố nêu trên với giá của chiếc
xe. Nhưng bạn lại không biết biểu diễn mối liên hệ đó như thế nào.
Câu hỏi
Bài học này sẽ giúp bạn cách thức xây dựng mối liên hệ phụ thuộc qua lại giữa các hiện tượng
kinh tế – xã hội, đồng thời cũng sẽ hướng dẫn bạn cách đánh giá mức độ chặt chẽ của mối liên
hệ đó như thế nào?
Bài 4: Phân tích hồi quy và tương quan
v1.0 71
4.1. Nhiệm vụ của phân tích hồi quy và tương quan
4.1.1. Mối liên hệ giữa các hiện tượng kinh tế xã hội
Các hiện tượng kinh tế – xã hội tồn tại trong mối liên hệ phụ thuộc lẫn nhau. Các mối
liên hệ này có thể diễn ra theo thời gian hay không gian nhất định. Các mối liên hệ
diễn ra theo thời gian nghĩa là sự tác động qua lại và sự phụ thuộc vào nhau của các
hiện tượng khi chúng ở các giai đoạn và quá trình của sự phát triển. Các mối liên hệ
diễn ra theo không gian nghĩa là sự tác động qua lại và sự phụ thuộc vào nhau của các
hiện tượng khi chúng ở cùng một thời gian. Thậm chí ngay trong cùng một hiện tượng
nghiên cứu bao gồm nhiều tiêu thức khác nhau, thì những tiêu thức này cũng có mối
liên hệ qua lại nhất định. Tuỳ theo mức độ chặt chẽ, mà người ta chia mối liên hệ
thành các loại dưới đây.
4.1.1.1. Liên hệ hàm số
Khái niệm: Liên hệ hàm số là mối liên hệ hoàn
toàn chặt chẽ. Sự thay đổi của hiện tượng này có
tác dụng quyết định đến sự thay đổi của hiện tượng
liên quan theo một tỷ lệ xác định.
Liên hệ hàm số được viết dưới dạng: y = f(x), có
nghĩa là cứ mỗi giá trị của x thì theo một hàm nào
đó có một giá trị của y tương ứng.
Mối liên hệ này thường có trong tự nhiên. Ví dụ
trong vật lý: S = v t
Đặc điểm: Liên hệ hàm số không những được biểu hiện ở tổng thể mà còn được
biểu hiện trên từng đơn vị cá biệt.
4.1.1.2. Liên hệ tương quan
Khái niệm: Liên hệ tương quan là mối liên hệ không hoàn toàn chặt chẽ. Sự thay
đổi của hiện tượng này có thể làm hiện tượng liên quan thay đổi theo nhưng không
có ảnh hưởng hoàn toàn quyết định.
Mối liên hệ này rất phổ biến và thường gặp trong các hiện tượng kinh tế – xã hội.
Đặc điểm: Liên hệ tương quan không được biểu hiện trên từng đơn vị cá biệt mà
phải thông qua hiện tượng số lớn (là tổng thể).
Ví dụ: Mối liên hệ giữa tuổi nghề và NSLĐ. Tuổi nghề có tác động đến NSLĐ
nhưng NSLĐ không chỉ chịu ảnh hưởng của tuổi nghề mà còn chịu ảnh hưởng của
các nhân tố khác. Mặt khác, nếu nghiên cứu riêng lẻ từng đơn vị cá biệt, có những
đơn vị, tuổi nghề hoàn toàn không ảnh hưởng tới NSLĐ. Vì vậy, để có thể nêu lên
được mối liên hệ tương quan cần phải nghiên cứu hiện tượng số lớn.
4.1.2. Nhiệm vụ của phân tích hồi quy và tương quan
Phương pháp phân tích hồi quy và tương quan giải quyết hai nhiệm vụ chủ yếu sau:
4.1.2.1. Xác định mô hình hồi quy phản ánh mối liên hệ
Nhiệm vụ đầu tiên của phân tích hồi quy tương quan là xây dựng mô hình (hay
phương trình) hồi quy và xác định tính chất (thuận – nghịch) cũng như hình thức của
mối liên hệ (loại mô hình).
Bài 4: Phân tích hồi quy và tương quan
72 v1.0
Để giải quyết nhiệm vụ này, cần phải thực hiện 4 bước sau:
Bước 1: Giải thích sự tồn tại thực tế và bản chất của mối liên hệ bằng phân tích lý
luận. Tuỳ theo mục đích nghiên cứu cụ thể mà xác định trong mối liên hệ đó, đâu
là nguyên nhân, đâu là kết quả.
Ví dụ: Tuổi nghề có ảnh hưởng tới NSLĐ. Như vậy, tuổi nghề là nguyên nhân có
ảnh hưởng đến NSLĐ.
Nhưng nếu xét trong mối liên hệ với khối lượng sản phẩm sản xuất và giá thành
đơn vị, ta thấy: NSLĐ tăng dẫn tới khối lượng sản phẩm sản xuất tăng. Khi đó,
NSLĐ lại là nguyên nhân, khối lượng sản phẩm là kết quả. Khi khối lượng sản
phẩm sản xuất tăng thì giá thành giảm. Khối lượng sản phẩm sản xuất lại đóng vai
trò là nguyên nhân, giá thành là kết quả.
Ví dụ: Mối liên hệ giữa chi phí quảng cáo và
doanh thu. Khi nghiên cứu các nhân tố tác động
đến doanh thu thì chi phí quảng cáo là một nguyên
nhân. Nhưng khi nghiên cứu nhân tố tác động đến
chi phí quảng cáo thì doanh thu cũng lại là một
nguyên nhân. Trong trường hợp này phải chú ý đến
mục đích nghiên cứu là gì để xác định đâu là tiêu
thức nguyên nhân, đâu là tiêu thức kết quả.
Trong mối liên hệ này, có thể có nhiều nguyên
nhân nhưng chỉ có một kết quả.
Bước 2: Thăm dò mối liên hệ bằng các phương pháp thống kê: phương pháp đồ
thị, phân tổ, số bình quân, phương pháp quan sát 2 dãy số song song…
Bước 3: Lập phương trình hồi quy biểu hiện mối liên hệ.
Ví dụ: Các phương trình y = a + bx; y = a + bx + cx
2
…
Bước 4: Tính toán các tham số và giải thích ý nghĩa của chúng.
4.1.2.2. Đánh giá mức độ chặt chẽ của mối liên hệ tương quan
Sau khi đã xây dựng được phương trình hồi quy biểu diễn mối liên hệ giữa các hiện
tượng kinh tế – xã hội, nhiệm vụ thứ hai của phân tích hồi quy tương quan là đánh giá
mức độ chặt chẽ của mối liên hệ tương quan và sự phù hợp của mô hình thông qua hệ
số tương quan (tuyến tính) và tỷ số tương quan (phi tuyến tính).
4.1.3. Ý nghĩa của phân tích hồi quy và tương quan
Phân tích hồi quy và tương quan là phương pháp thường được sử dụng để nghiên cứu
mối liên hệ tương quan giữa các hiện tượng kinh tế – xã hội. Bên cạnh đó, nó còn
được sử dụng nhiều trong nghiên cứu thống kê, như phân tích dãy số thời gian, dự
đoán thống kê
Trong phần tiếp theo, bài giảng sẽ đi vào trình bày cách thức xây dựng và phân tích
một mô hình hồi quy thể hiện mối liên hệ giữa một tiêu thức nguyên nhân và một tiêu
thức kết quả.
4.2. Hồi quy và tương quan giữa hai tiêu thức số lượng
Trước hết là dạng mô hình đơn giản nhất, mô hình hồi quy tuyến tính.
Bài 4: Phân tích hồi quy và tương quan
v1.0 73
4.2.1. Mô hình hồi quy tuyến tính giữa hai tiêu thức số lượng
4.2.1.1. Mô hình hồi quy
Trước khi đi vào xây dựng mô hình hồi quy, chúng ta hãy xem xét một số khái niệm
có liên quan.
Một số khái niệm liên quan
o Đường hồi quy thực nghiệm: là đường được hình thành bởi các tài liệu thực tế.
o Đường hồi quy lý thuyết: là đường điều chỉnh bù trừ các chênh lệch ngẫu nhiên
vạch ra xu hướng cơ bản của hiện tượng.
o Mô hình hồi quy là mô hình xác định vị trí của đường hồi quy lý thuyết sao cho
mô tả gần đúng nhất mối liên hệ thực tế.
Xây dựng mô hình hồi quy tuyến tính đơn
o Mô hình hồi quy tuyến tính biểu diễn mối liên hệ giữa 2 tiêu thức số lượng
có dạng:
x
ˆ
y= b
0
+ b
1
x
Trong đó:
x: Trị số của tiêu thức gây ảnh hưởng (nguyên nhân) (biến độc lập).
x
ˆ
y: Trị số điều chỉnh của tiêu thức chịu ảnh hưởng (kết quả) (biến phụ
thuộc) theo quan hệ với x.
b
0
: Hệ số tự do (hệ số chặn), là điểm xuất phát của đường hồi quy lý thuyết,
nêu lên ảnh hưởng của các nhân tố khác (tiêu thức nguyên nhân khác) ngoài
x tới sự biến động của y.
b
1
: Hệ số hồi quy (hệ số góc, độ dốc), phản ánh ảnh hưởng trực tiếp của tiêu
thức nguyên nhân x đến tiêu thức kết quả y. Mỗi khi x tăng lên 1 đơn vị thì
y sẽ thay đổi trung bình b
1
đơn vị.
b
1
nói lên chiều hướng của mối liên hệ: b
1
> 0: Mối liên hệ thuận; b
1
< 0:
Mối liên hệ nghịch.
o Cách xác định tham số:
b
0
, b
1
phải được xác định sao cho đường hồi quy lý thuyết mô tả gần đúng nhất
mối liên hệ thực tế. Trên hình vẽ, khoảng cách từ điểm thực tế đến điểm thuộc
đường hồi quy lý thuyết nhỏ nhất sẽ là tốt nhất.
Sử dụng phương pháp bình phương nhỏ nhất (OLS – Ordinary Least Square)
với nội dung: tổng bình phương các độ lệch giữa giá trị thực tế và giá trị lý
thuyết của biến phụ thuộc (tiêu thức kết quả) là nhỏ nhất.
Đường hồi quy
thực nghiệm
Đường hồi quy
lý thuyết
Bài 4: Phân tích hồi quy và tương quan
74 v1.0
2
ix
ˆ
S(yy)min
Hay
2
i01
S(ybbx)min
Để thỏa mãn điều kiện trên, cần tính đạo hàm riêng theo 2 tham số cần tìm.
Từ đó, b
0
và b
1
phải thỏa mãn hệ phương trình:
01
2
01
ynb b x
xy b x b x
Hệ phương trình chuẩn
Từ hệ phương trình trên, sau khi biến đổi, b
0
và b
1
có thể được tính đơn giản
hơn theo công thức:
1
2
x
xy xy
b
b
0
= y – b
1
x
Trong đó:
i
x
x
n
i
y
y
n
xy
xy
n
2
2
222
x
xx
x(x)
nn
Chú ý:
Nên sử dụng công thức rút gọn ở trên để tính b
0
và b
1
chứ không nên giải hệ phương
trình chuẩn.
Ví dụ: Có tài liệu về 11 xe máy Honda Wave đã qua sử dụng như sau:
Stt
Số năm sử dụng
(năm) x
Giá bán
(triệu đồng) y
xy x
2
y
2
1 5 8,5 42,5 25,0 72,25
2 4 10,3 41,2 16,0 106,09
3 6 7,0 42,0 36,0 49,00
4 5 8,2 41,0 25,0 67,24
5 5 8,9 44,5 25,0 79,21
6 5 9,8 49,0 25,0 96,04
7 6 6,6 39,6 36,0 43,56
8 6 9,5 57,0 36,0 90,25
9 2 16,9 33,8 4,0 285,61
10 7 7,0 49,0 49,0 49,00
11 7 4,8 33,6 49,0 23,04
Tổng 58 97,5 473,2 326,0 961,29
Trung bình 5,273 8,864 43,018 29,636 87,390
Yêu cầu: Lập mô hình hồi quy tuyến tính biểu diễn mối liên hệ giữa số năm
sử dụng xe và giá bán của xe.
Hướng dẫn:
Ở đây chúng ta đang nghiên cứu các nhân tố ảnh hưởng đến giá bán xe máy
nên số năm sử dụng sẽ là tiêu thức nguyên nhân x, còn giá bán sẽ là tiêu thức
kết quả y.
Bài 4: Phân tích hồi quy và tương quan
v1.0 75
Mô hình hồi quy có dạng:
x
ˆ
y= b
0
+ b
1
x
Xác định các tham số:
22 2 2
x
x (x) 29,636 5, 273 1,831
1
2
x
xy xy
b
=
43, 018 5, 273 8,864
2, 03
1,831
< 0 mối liên hệ nghịch
b
0
=
y
– b
1
x = 8,864 – (–2,03 5,273) = 19,57
Vậy phương trình hồi quy tuyến tính biểu diễn mối liên hệ giữa số năm sử
dụng và giá bán có dạng:
x
ˆ
y = 19,57 – 2,03x
Trong đó:
b
0
= 19,57 nêu lên ảnh hưởng của các nhân tố khác ngoài số năm sử dụng tới
sự thay đổi của giá bán.
b
1
= – 2,03 nêu lên ảnh hưởng trực tiếp của số năm sử dụng tới sự thay đổi của
giá bán. Khi số năm sử dụng tăng thêm 1 năm thì giá bán của chiếc xe sẽ giảm
đi trung bình 2,03 triệu đồng.
Cách kiểm tra kết quả:
x tăng từ 2 đến 7 năm làm y giảm từ 16,9 xuống còn 4,8 triệu đồng; vậy x
tăng làm y giảm, ta có mối liên hệ nghịch, tức b
1
< 0.
Thay bất kỳ giá trị nào của x vào phương trình hồi quy phải ra giá trị
x
ˆ
y ≈ y
x
.
Lưu ý:
Từ phương trình hồi quy trên, nếu ta có một giá trị của x, thay vào phương
trình ta sẽ tính được giá trị của y tương ứng và ngược lại.
Trong trường hợp trên, khi x = 0,
x
ˆ
y= b
0
= 19,57 (triệu đồng), đây chính là
mức giá của 1 chiếc xe Honda Wave mới.
Sau khi đã xây dựng xong mô hình hồi quy phản ánh mối liên hệ giữa các hiện tượng
kinh tế – xã hội, nhiệm vụ tiếp theo của phân tích hồi quy và tương quan là phải đánh
giá được trình độ chặt chẽ của mối liên hệ đó cũng như sự phù hợp của mô hình đã có.
4.2.1.2. Hệ số tương quan
Khái niệm: Hệ số tương quan là chỉ tiêu đánh giá mức độ chặt chẽ của mối liên hệ
tương quan tuyến tính đơn.
Tác dụng:
o Xác định cường độ của mối liên hệ từ đó chọn ra nguyên nhân chủ yếu hoặc
thứ yếu đối với hiện tượng nghiên cứu.
o Xác định chiều hướng cụ thể của mối liên hệ (thuận – nghịch).
o Hệ số tương quan còn dùng trong nhiều trường hợp dự đoán thống kê và tính
sai số của dự đoán.
Công thức tính:
x
1
xy y
xy xy
rb
Bài 4: Phân tích hồi quy và tương quan
76 v1.0
Như vậy, dấu của hệ số tương quan r phụ thuộc vào dấu của hệ số b
1
vì phương sai
luôn mang dấu dương.
Các tính chất của hệ số tương quan: Miền xác định: –1 ≤ r ≤ 1.
o r > 0: Mối liên hệ tương quan tuyến tính thuận.
o r < 0: Mối liên hệ tương quan tuyến tính nghịch.
o r = ± 1: Mối liên hệ hàm số hoàn toàn chặt chẽ.
o r = 0: Không có mối liên hệ tương quan tuyến tính giữa x và y.
o r càng gần 1: Mối liên hệ càng chặt chẽ (cường độ mối liên hệ).
o
r
0,9: Mối liên hệ rất chặt chẽ.
o 0,7 r 0,9: Mối liên hệ tương đối chặt chẽ.
o 0,5 r 0,7: Mối liên hệ bình thường (trong dự đoán thường không sử dụng r
này đối với tiêu thức số lượng nhưng với tiêu thức thuộc tính thì vẫn sử dụng).
o
r
< 0,5 : Mối liên hệ hết sức lỏng lẻo.
Vận dụng vào ví dụ trên, ta có:
2
22 2
yy
y y 87,390 8,864 2,97
r = (–2,03)
97,2
353,1
= –
0,925
Kết luận: Mối liên hệ giữa số năm sử dụng và giá bán xe Honda Wave cũ là mối liên
hệ tương quan tuyến tính nghịch và rất chặt chẽ.
4.2.1.3. Hệ số xác định
Khái niệm: Hệ số xác định dùng để đánh giá sự phù hợp của mô hình, nó cho biết tỷ
lệ % thay đổi của y được giải thích bởi mô hình.
Ở ví dụ trên, ta có: r
2
= (–
0,925)
2
= 0,8556.
Như vậy, 85,56% sự thay đổi của giá bán xe máy Honda Wave cũ được giải thích bởi
mô hình đã nói ở trên trong mối quan hệ với số năm sử dụng. Điều đó nói lên rằng,
số năm sử dụng là hoàn toàn hữu ích khi dự đoán mức giá bán của một chiếc xe cũ.
4.2.1.4. Kiểm định các tham số của phương trình hồi quy tuyến tính đơn
Trong mối liên hệ tương quan giữa x và y, cứ mỗi giá trị của x ta có thể thu được
nhiều giá trị của y. Khi đó, chúng ta phải có một số giả định sau:
o Đường hồi quy tổng thể chung: với phương trình tuyến tính
x
y
ˆ
=
0
+
1
x, thì
mỗi giá trị của x sẽ có nhiều giá trị tương ứng của y, khi đó số bình quân của các
giá trị này sẽ nằm trên một đường thẳng. Đường thẳng đó gọi là đường hồi quy
tổng thể chung và phương trình của nó là phương trình hồi quy tổng thể chung.
o Độ lệch tiêu chuẩn: độ lệch tiêu chuẩn
của tổng thể chung gồm các giá trị y
tương ứng với một giá trị cụ thể của x là như nhau, bất kể x là bao nhiêu.
o Phân phối chuẩn: với một giá trị của x, tổng thể chung gồm các giá trị y tương
ứng có phân phối chuẩn.
Bài 4: Phân tích hồi quy và tương quan
v1.0 77
Nói cách khác, các giả định trên cho rằng, nếu có các tham số không đổi là
0
,
1
và
thì với mỗi giá trị của x, tổng thể chung gồm các giá trị của y tương ứng sẽ
có phân phối chuẩn với số bình quân là
0
+
1
x và độ lệch tiêu chuẩn .
Kiểm định hệ số hồi quy của phương trình tuyến tính đơn: Bài toán đặt ra như sau:
Giả sử, phương trình hồi quy tuyến tính đơn
x
y
ˆ
=
0
+
1
x, biểu diễn mối liên hệ
phụ thuộc giữa tiêu thức nguyên nhân x và tiêu thức kết quả y. Từ phương trình
đó, chúng ta cho rằng có thể dùng x để dự đoán giá trị của y. Nhưng có thật sự là
như vậy hay không?
Chúng ta đã biết, trong mô hình hồi quy, hệ số hồi quy thể hiện mối liên hệ giữa x
và y, nó cho biết ảnh hưởng trực tiếp của nguyên nhân x đến kết quả y. Chính vì
vậy, để
trả lời câu hỏi trên, người ta thực hiện kiểm định hệ số hồi quy của phương
trình tuyến tính đơn.
Trình tự thực hiện kiểm định như sau:
o Bước 1: Phát biểu giả thiết không và giả thiết đối của nó.
Giả thiết không là: H
0
:
1
= 0 (x không có mối liên hệ với y)
Giả thiết đối là: H
1
:
1
≠ 0 (có mối liên hệ tuyến tính giữa x và y)
o Bước 2: Xác định mức ý nghĩa α (với 1 – α là hệ số tin cậy).
o Bước 3: Chọn tiêu chuẩn kiểm định và tính giá trị của tiêu chuẩn kiểm định từ
mẫu quan sát.
Trên thực tế, các giá trị
0
,
1
và là không biết nhưng chúng ta có thể ước lượng
được qua một mẫu cụ thể.
Giả sử rằng với một mẫu cụ thể, chúng ta xác định được phương trình hồi quy mẫu
với hệ số hồi quy là b
1
, b
1
có phân phối chuẩn với số bình quân
1
b
1
và độ lệch
tiêu chuẩn
1
b
2
i
S
(x x)
. Khi đó, biến ngẫu nhiên chuẩn hoá z cũng có phân
phối chuẩn.
1
11
b
b
z
S
Nhưng trong phương trình trên, chúng ta chưa biết
, nên có thể dùng sai số tiêu
chuẩn
2
ix
e
ˆ
(y y )
S
n2
của mẫu để thay thế. Khi đó, biến ngẫu nhiên kết quả
có phân phối t-student với bậc tự do df = n – 2.
11
e
2
i
b
t
S
(x x)
Với giả thiết không H
0
:
1
= 0, tiêu chuẩn kiểm định là:
1
e
2
i
b
t
S
(x x)
Bài 4: Phân tích hồi quy và tương quan
78 v1.0
o Bước 4: Xác định miền bác bỏ và kết luận có bác bỏ giả thiết không hay không.
Giá trị tới hạn là
t
α/2
, với bậc tự do là n – 2. Tra bảng t để xác định giá trị tới hạn đó.
Nếu giá trị tuyệt đối của t tính được mà lớn hơn giá trị tới hạn t tra bảng thì bác bỏ
giả thiết H
0
. Ngược lại, thì chưa có cơ sở để bác bỏ giả thiết H
0
.
Ví dụ:
Với số liệu ở ví dụ trên, giả sử có cơ sở cho rằng số năm sử dụng không có ảnh
hưởng đến mức giá bán của chiếc xe Honda Wave cũ. Khi đó, ta sẽ thực hiện kiểm
định giả thiết sau:
Giả thiết không là: H
0
:
1
= 0 (số năm sử dụng không có mối liên hệ với mức giá bán).
Giả thiết đối là: H
1
:
1
≠ 0 (có mối liên hệ tuyến tính giữa số năm sử dụng và mức
giá bán).
Chúng ta thực hiện kiểm định giả thiết trên với mức ý nghĩa
= 0,05.
Giá trị tới hạn là
t
α/2
= t
0,025
, với bậc tự do là n – 2 = 11 – 2 = 9.
Tra bảng ta tính được giá trị tới hạn ± t
0,025
= 2,262.
Từ mẫu đã cho, tính tiêu chuẩn kiểm định t:
1
e
2
i
b
2, 03
t7,25
S 1, 2577
20,182
(x x)
Trong đó:
Stt
Số năm sử dụng
(năm) x
Giá bán
(triệu đồng) y
ˆ
x
y
2
i
(x - x)
ˆ
2
ix
(y -y )
1 5 8,5 9,42 0,075 0,846
2 4 10,3 11,45 1,621 1,323
3 6 7,0 7,39 0,529 0,152
4 5 8,2 9,42 0,075 1,488
5 5 8,9 9,42 0,075 0,270
6 5 9,8 9,42 0,075 0,144
7 6 6,6 7,39 0,529 0,624
8 6 9,5 7,39 0,529 4,452
9 2 16,9 15,51 10,713 1,932
10 7 7,0 5,36 2,983 2,690
11 7 4,8 5,36 2,983 0,314
Tổng 58 97,5 20,182 14,236
Trung bình 5,273 8,864
2
ix
e
ˆ
(y y )
14,236
S 1, 2577
n2 112
Vậy ta có
t > ± t
0,025
, bác bỏ giả thiết H
0
.
Kết luận: Với mẫu đã cho, ở mức ý nghĩa 5%, có thể kết luận rằng: số năm sử
dụng xe máy Honda Wave có ảnh hưởng tới giá bán của chiếc xe đó.
Bài 4: Phân tích hồi quy và tương quan
v1.0 79
Kiểm định hệ số tương quan của phương trình tuyến tính đơn
Tương tự với bài toán trên, giả sử với hai biến x và y, chúng ta nhận thấy chúng có
mối liên hệ tuyến tính với nhau. Tuy nhiên, có cơ sở để giả định rằng không có
mối liên hệ tương quan tuyến tính đó trong tổng thể chung.
Khi đó chúng ta thực hiện kiểm định hệ số tương quan tuyến tính của cả tổng thể
chung . Giả thiết cần kiểm định:
= 0 (không có mối liên hệ tương quan tuyến
tính giữa x và y).
Để kiểm định giả thiết này, lấy mẫu n từ tổng thể chung, khi đó xác định được hệ
số tương quan mẫu r.
Tiêu chuẩn kiểm định được chọn là thống kê:
2
r
t
1r
n2
có phân phối t – student với bậc tự do n – 2.
Với mức ý nghĩa α cho trước, tuỳ thuộc vào dạng của giả thiết đối mà miền bác bỏ
được xây dựng như sau:
H
0
: = 0 nếu t > t
α
, bác bỏ giả thiết H
0
(kiểm định phải)
H
1
: > 0
H
0
: = 0 nếu t > t
α
, bác bỏ giả thiết H
0
(kiểm định trái)
H
1
: < 0
H
0
: = 0 nếu t > t
α/2
, bác bỏ giả thiết H
0
(kiểm định hai phía)
H
1
: ≠ 0
Ví dụ: Với số liệu ở ví dụ trên, có cơ sở cho rằng giữa số năm sử dụng và giá
bán xe Honda Wave cũ không có mối liên hệ tương quan tuyến tính với nhau. Với
là hệ số tương quan tuyến tính của tổng thể chung, ta thực hiện kiểm định giả
thiết sau:
H
0
: = 0 (số năm sử dụng và giá bán không có mối liên hệ tuyến tính)
H
1
: < 0 (số năm sử dụng và giá bán có mối liên hệ tương quan tuyến tính nghịch)
Với mức ý nghĩa α = 0,05, giá trị tới hạn t
= 1,833 khi bậc tự do n – 2 = 9.
Từ mẫu đã cho, tính tiêu chuẩn kiểm định t:
22
r 0,925
t 7,303
1r 1(0,925)
n2 112
Ta thấy
t > t
α
= 1,833, bác bỏ giả thiết H
0
.
Với mẫu đã cho, ở mức ý nghĩa 5%, có thể kết luận rằng số năm sử dụng xe và giá
bán của chiếc xe Honda Wave có mối liên hệ tương quan tuyến tính với nhau, và
đây là mối liên hệ nghịch.
Tuy nhiên, trên thực tế, không phải mối liên hệ nào cũng là mối liên hệ tương quan
tuyến tính. Vì vậy, chúng ta nghiên cứu trường hợp tiếp theo (mô hình hồi quy phi
tuyến tính), mối liên hệ này thường gặp nhiều hơ
n trong thực tế.
Bài 4: Phân tích hồi quy và tương quan
80 v1.0
4.2.2. Mô hình hồi quy phi tuyến giữa hai tiêu thức số lượng
4.2.2.1. Một số dạng mô hình hồi quy phi tuyến thường gặp
Phương trình parabol (bậc 2)
o Vận dụng khi tiêu thức nguyên nhân tăng hay giảm với 1 lượng đều nhau thì tiêu
thức kết quả biến động với 1 lượng không đều nhau (nhanh hơn hoặc chậm hơn).
Ví dụ: Chi phí quảng cáo và doanh thu.
o Mô hình hồi quy:
2
x01 2
ˆ
ybbxbx
b
0
, b
1
, b
2
là các tham số của mô hình hồi quy, được xác định bằng phương pháp
bình phương nhỏ nhất và phải thỏa mãn hệ phương trình:
2
01 2
23
01 2
2
234
012
ybnb xb x
xy b x b x b x
xy b x b x b x
Phương trình hypebol
o Vận dụng khi tiêu thức nguyên nhân tăng thì tiêu thức kết quả giảm với tốc độ
không đều nhau.
o Mô hình hồi quy:
1
x0
b
ˆ
yb
x
b
0
, b
1
là tham số của mô hình hồi quy, được xác định bằng phương pháp bình
phương nhỏ nhất và phải thỏa mãn hệ phương trình:
01
01
2
1
ybnb
x
111
yb b
xxx
Bài 4: Phân tích hồi quy và tương quan
v1.0 81
Phương trình hàm mũ
o Vận dụng khi trị số của tiêu thức kết quả thay đổi theo cấp số nhân.
o Mô hình hồi quy:
x
x01
ˆ
ybb
hay: lny = lnb
0
+ x lnb
1
lnb
0
, lnb
1
phải thỏa mãn hệ phương trình:
01
2
01
ln y n ln b ln b x
x ln y ln b x ln b x
4.2.2.2. Tỷ số tương quan
Khái niệm: Tỷ số tương quan là chỉ tiêu đánh giá trình độ chặt chẽ của mối liên hệ
tương quan phi tuyến.
Công thức:
2
ix
2
i
ˆ
yy
1
yy
Tính chất:
o Tỷ số tương quan nằm trong khoảng [0,1].
o η = 0: Không có mối liên hệ tương quan phi tuyến.
o η = 1: Mối liên hệ tương quan phi tuyến hoàn toàn chặt chẽ.
o η càng gần 1: Mối liên hệ càng chặt chẽ.
Nhận xét
η luôn > 0 do đó tỷ số tương quan chỉ có thể đánh giá trình độ chặt chẽ của mối liên hệ
chứ không nói được chiều hướng của mối liên hệ.
η có thể dùng cho cả phi tuyến và tuyến tính (khi r 0).
Bài 4: Phân tích hồi quy và tương quan
82 v1.0
TÓM LƯỢC CUỐI BÀI
Các hiện tượng kinh tế – xã hội luôn tồn tại trong một mối liên hệ ràng buộc lẫn nhau.
Tuỳ theo mức độ chặt chẽ của mối liên hệ mà có thể phân ra thành hai loại: liên hệ hàm số và
liên hệ tương quan.
Phân tích hồi quy và tương quan thực chất là phương pháp phân tích mối liên hệ phụ thuộc
với hai nhiệm vụ chủ yếu: xây dựng phương trình hồi quy biểu diễn mối liên hệ và đánh giá
mức độ chặt chẽ của mối liên hệ.
Với mối liên hệ đơn giản nhất giữa hai tiêu thức số lượng, tuỳ theo việc thăm dò dạng của
mô hình hồi quy mà ta có thể xây dựng phương trình tuyến tính hoặc phi tuyến. Các hệ số
của mô hình hồi quy được xác định theo phương pháp bình phương nhỏ nhất. Hệ số tương
quan và tỷ số tương quan được sử dụng để đánh giá mức độ chặt chẽ của mố
i liên hệ tương
quan giữa hai tiêu thức số lượng.
Bài 4: Phân tích hồi quy và tương quan
v1.0 83
CÂU HỎI ÔN TẬP
1. Thế nào là liên hệ hàm số và liên hệ tương quan?
2. Nêu nhiệm vụ của phân tích hồi quy và tương quan.
3. Nêu ý nghĩa của hệ số tự do và hệ số hồi quy trong mô hình hồi quy tuyến tính giữa hai tiêu
thức số lượng.
4. Trình bày tác dụng và tính chất của hệ số tương quan.
5. Trình bày tác dụng và tính chất của tỷ số tương quan.
Bài 4: Phân tích hồi quy và tương quan
84 v1.0
BÀI TẬP
1. Có tài liệu về chi tiêu cho nghiên cứu và phát triển (R&D) và lợi nhuận thu được hàng năm
của một doanh nghiệp như sau:
Năm Chi cho R&D (tỷ đồng) Lợi nhuận hàng năm (tỷ đồng)
2003 2 20
2004 3 25
2005 5 34
2006 4 30
2007 11 40
2008 5 31
a) Hãy xác định trong hai chỉ tiêu trên, đâu là tiêu thức nguyên nhân, đâu là tiêu thức kết
quả. Giải thích.
b) Trình bày bằng đồ thị mối liên hệ giữa chi cho R&D và lợi nhuận hàng năm của doanh
nghiệp trên và cho nhận xét.
c) Xây dựng phương trình hồi quy tuyến tính đơn biểu diễn mối liên hệ giữa chi cho R&D
và lợi nhuận hàng năm của doanh nghiệp trên. Giải thích ý nghĩa của các tham số.
d) Đánh giá trình độ chặt chẽ của mối liên hệ.
2. Một nhà kinh tế đang quan tâm đến mối quan hệ giữa thu nhập khả dụng và chi cho lương
thực thực phẩm hàng năm của các hộ gia đình ở nông thôn nước ta. Để nghiên cứu ông ta
tiến hành hỏi ngẫu nhiên 8 hộ gia đình có cùng quy mô hộ (cha, mẹ và 2 con) và có mức thu
nhập trung bình. Kết quả như sau:
Thu nhập khả dụng
(triệu đồng)
Chi cho lương thực thực phẩm
(triệu đồng)
30 5,5
36 6,0
27 4,2
20 4,0
16 3,7
24 2,6
19 3,9
25 4,3
a) Vẽ đồ thị biểu diễn mối liên hệ giữa thu nhập khả dụng và chi cho lương thực thực phẩm
của các hộ trên.
b) Xác định phương trình hồi quy biểu diễn mỗi liên hệ đó. Giải thích ý nghĩa của các tham số.
c) Sử dụng phương trình hồi quy để dự đoán chi cho lương thực thực phẩm hàng năm của hộ
gia đình có mức thu nhập khả dụng là 25 tri
ệu đồng.
Bài 4: Phân tích hồi quy và tương quan
v1.0 85
3. Có kết quả điều tra một mẫu gồm 8 sinh viên về thời gian tự học trong hai tuần và điểm kiểm
tra môn học đó sau hai tuần như sau:
Thời gian tự học (giờ) Điểm kiểm tra
10 9,2
15 8,1
12 8,4
20 7,4
8 8,5
16 8,0
14 8,4
22 8,0
a) Xây dựng phương trình hồi quy tuyến tính đơn biểu diễn mối liên hệ giữa thời gian tự học
và điểm kiểm tra của các sinh viên trong mẫu nói trên. Giải thích ý nghĩa của các tham số.
b) Đánh giá trình độ chặt chẽ của mối liên hệ trên.
c) Hãy cho biết phương trình vừa xây dựng được có phù hợp để giải thích mối liên hệ giữa
hai biến trên không?
4. Có tài liệu về chiều cao và cân nặng của 11 phụ nữ trong độ tuổi 18 – 24 được lựa chọn ngẫu
nhiêu như sau:
Cân nặng (kg) Chiều cao (cm)
65 175
67 133
71 185
71 163
66 126
75 198
67 153
70 163
71 159
69 151
69 155
a) Khi chiều cao tăng thêm 1 cm thì cân nặng thay đổi như thế nào.
b) Đánh giá trình độ chặt chẽ giữa cân nặng và chiều cao của nhóm người trên.
5. Có số liệu về giá trị sản xuất và lượng nhiên liệu tiêu thụ ở các phân xưởng của một nhà máy
như sau:
Phân xưởng
Giá tr
ị
sản xuất
(triệu đồng)
Nhiên liệu tiêu thụ
(triệu đồng)
A 520 23
B 595 20
C 945 25
D 640 19
E 500 10
G 720 18
Bài 4: Phân tích hồi quy và tương quan
86 v1.0
a) Xây dựng phương trình hồi quy tuyến tính đơn biểu diễn ảnh hưởng của giá trị sản xuất
tới lượng nhiên liệu tiêu thụ. Giải thích ý nghĩa các tham số.
b) Liệu có đầy đủ bằng chứng để kết luận rằng hệ số hồi quy trong phương trình nói trên là
khác 0 và vì vậy có thể sử dụng giá trị sản xuất để dự đoán lượng nhiêu liệu tiêu thụ hay
không? Hãy thực hiện ki
ểm định giả thiết cần thiết với mức ý nghĩa 5%.
6. Công ty Coca Cola đang nghiên cứu ảnh hưởng của chiến dịch quảng cáo gần nhất. Họ tiến
hành phỏng vấn ngẫu nhiên 10 người để biết xem những người này đã đọc hay xem quảng cáo
của hãng bao nhiêu lần và số lon Coca Cola mà họ đã mua trong tuần qua. Kết quả như sau:
Số lần xem hay đọc quảng cáo Số lon đã mua
4 12
9 14
3 7
0 6
1 3
6 5
2 5
5 10
a) Hãy xây dựng phương trình hồi quy tuyến tính đơn biểu diễn mối liên hệ giữa hai biến trên.
b) Đánh giá trình độ chặt chẽ của mối liên hệ.
c) Với kết quả điều tra ở trên, có thể kết luận rằng số quảng cáo đã đọc hay xem có mối liên
hệ tương quan tuyến tính thuận với số lon Coca Cola đã mua hay không? Hãy thực hiện
kiểm định giả thiết với mức ý ngh
ĩa 0,05.
7. Có số liệu về độ tuổi và nhịp tim của một mẫu gồm 10 người được chọn ngẫu nhiên như sau:
Tuổi Nhịp tim (lần)
30 186
38 183
41 171
38 177
29 191
39 177
46 175
41 176
42 171
24 196
a) Giữa hai biến trên liệu có mối liên hệ với nhau không? Nếu có, hãy xác định đâu là
nguyên nhân, đâu là kết quả.
b) Khi tăng thêm 1 tuổi thì nhịp tim sẽ thay đổi thế nào?
c) Có thể dùng tuổi để dự đoán nhịp tim của một người hay không? Với mức ý nghĩa 0,05,
hãy giải thích tại sao?
Bài 4: Phân tích hồi quy và tương quan
v1.0 87
8. Một nghiên cứu của cơ quan giao thông ở Atlanta về ảnh hưởng của giá vé xe buýt đến số
lượng hành khách thu được kết quả như sau:
Giá vé (Cents) Số hành khách trên 100 dặm
15 440
20 430
25 430
30 370
35 360
40 340
45 350
50 350
a) Vẽ đồ thị biểu diễn mối liên hệ trên.
b) Xây dựng phương trình hồi quy biểu diễn mối liên hệ trên.
c) Với mức ý nghĩa 5%, có thể kết luận rằng, giữa giá vé xe buýt và số lượng hành khách có
mối liên hệ tương quan tuyến tính âm hay không?
9. Để dự đoán về những chi phí quản lý phải trả dựa trên số lượng sản phẩm sản xuất ra, một
nhà quản lý đã thu thập thông tin ở các đơn vị khác nhau và thu được kết quả sau:
Chi phí quản lý phải trả (triệu đồng) Số lượng sản phẩm
191 40
170 42
272 53
155 35
280 56
173 39
234 48
116 30
153 37
178 40
a) Xây dựng phương trình hồi quy biểu diễn mối liên hệ trên.
b) Dự đoán chi phí quản lý phải trả khi có 50 sản phẩm được sản xuất ra.
c) Tính sai số tiêu chuẩn của mô hình dự đoán trên.
10. Liệu có phải có điểm cao khi học thì ra trường sẽ có việc làm với mức lương cao hơn? Một
sinh viên thống kê doanh nghiệp đã thực hiện điều tra ngẫu nhiên một mẫu gồm một số người
Bài 4: Phân tích hồi quy và tương quan
88 v1.0
bạn mới tốt nghiệp của anh ta về mức lương khởi điểm và điểm trung bình khi học đại học
của họ. Kết quả như sau:
Mức lương khởi điểm (triệu đồng) Điểm trung bình học đại học
3,1 7,0
2,5 6,0
2,5 6,5
1,9 5,0
2,2 6,0
2,8 6,5
1,6 5,5
2,2 5,5
a) Vẽ đường hồi quy thực nghiệm và đường hồi quy lý thuyết biểu diễn mối liên hệ trên.
b) Đánh giá trình độ chặt chẽ của mối liên hệ trên.
c) Dự đoán mức lương khởi điểm cho sinh viên có điểm trung bình khi học đại học là 8,0.
d) Tính sai số tiêu chuẩn của mô hình dự đoán trên.