Tải bản đầy đủ (.pdf) (106 trang)

LUẬN văn sư PHẠM TOÁN tự TƯƠNG QUAN TRONG PHÂN TÍCH hồi QUY

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.9 MB, 106 trang )

TRƯỜNG ĐẠI HỌC CẦN THƠ
KHOA KHOA HỌC TỰ NHIÊN
BỘ MÔN TOÁN
------—²–------

LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC

TỰ TƯƠNG QUAN
TRONG PHÂN TÍCH HỒI QUY

Giáo viên hướng dẫn

Sinh viên thực hiện

ThS. DƯƠNG THỊ TUYỀN

NGUYỄN THỊ THẢO NGUYÊN

(Bộ môn toán – Khoa KHTN)

LỚP: Toán ứng dụng K33
MSSV: 1076642

CẦN THƠ THÁNG 5/ 2011


LỜI MỞ ĐẦU
-----—²–-----Hiện nay, khoa học công nghệ ngày càng tiên tiến nên cạnh tranh ngày một
nhiều. Do đó, khi làm một việc gì con người cần quan tâm đến rất nhiều yếu tố liên
quan để tạo điều kiện tốt cho công việc của mình đạt được kết quả như ý muốn. Chẳng
hạn, một công ty địa ốc rất quan tâm đến việc liên hệ giữa giá bán một căn nhà với các


đặc trưng của nó như kích thước, diện tích sử dụng, số phòng ngủ và phòng tắm, các
loại thiết bị gia dụng, có hồ bơi hay không, cảnh quan có đẹp hay không?… Và mối
liên hệ của tất cả các đặc trưng mà công ty này quan tâm đến sẽ được mô tả bởi một
mô hình hồi quy mà chúng tôi muốn nhắc đến ở đây. Đó chính là mô hình hồi quy
tuyến tính – một mô hình toán học đang được các nhà kinh tế quan tâm đến. Đối với
mô hình trên, để biết được giá bán của một căn nhà, chúng ta cần phải đi phân tích hồi
quy đối với tất cả các đặc trưng trên. Muốn làm được điều này, cần phải có một quá
trình ước lượng, phân tích và dự báo để xây dựng mô hình chính xác. Ngày nay để tiết
kiệm thời gian và công sức, khoa học công nghệ đã cho ra đời nhiều phần mềm thống
kê để giúp chúng ta giải quyết vấn đề này như SPSS, R, Eview, Stata, Mfit hay Excel
cũng có thể tính được. Tuy nhiên, khoa học công nghệ có hiện đại đến đâu, thì trong
quá trình ước lượng mô hình không phải lúc nào cũng như chúng ta mong muốn, mô
hình dự báo có thể không phù hợp do nhiều nguyên nhân như tồn tại hiện tượng
phương sai sai số thay đổi, đa cộng tuyến hay tự tương quan… Chính những nguyên
nhân này làm cho mô hình không còn phù hợp nữa. Vì vậy, cần tìm hiểu nguyên nhân
nào làm cho mô hình không phù hợp và từ đó đưa ra các biện pháp khắc phục kịp thời.
Và ở đây đề tài mà chúng tôi sẽ trình bày là nghiên cứu một trong các nguyên nhân
trên, đó là sự tự tương quan giữa các sai số ngẫu nhiên trong phân tích hồi quy. Qua đề
tài này, chúng tôi sẽ đi tìm hiểu nguyên nhân của sự tự tương quan là gì? Nếu có hiện
tượng tự tương quan thì có áp dụng được phương pháp bình phương nhỏ nhất hay
không? Làm thế nào để biết được có sự tự tương quan xảy ra đối với mô hình hồi qui
đang xét? Cách khắc phục hiện tượng này như thế nào?... Chúng tôi cần phải nghiên
cứu và làm rõ các vấn đề trên.

1


* Nội dung đề tài gồm có 3 chương:
- Chương 1: Phân tích mô hình hồi quy tuyến tính.
- Chương 2: Tự tương quan.

- Chương 3: Bài toán thực tế.
Trong quá trình hoàn thành đề tài, chúng tôi đã cố gắng nhưng không tránh khỏi
thiếu sót. Do đó, kính mong quý thầy cô thông cảm và góp ý thêm để đề tài được hoàn
chỉnh.
Chúng tôi xin chân thành cám ơn!

2


LỜI CẢM ƠN
-----—²–-----Để hoàn thành bài viết này em gặp rất nhiều khó khăn. Nhưng với sự giúp đỡ
nhiệt tình của thầy cô, gia đình, các anh chị và bạn bè đã giúp em vượt qua.
Đầu tiên em xin gửi lời cám ơn đến cô Dương Thị Tuyền, cô đã hướng dẫn nhiệt
tình để giúp em hoàn thành tốt bài viết này. Bên cạnh đó, em xin gửi lời cảm ơn chân
thành đến các thầy cô ở khoa Khoa Học Tự Nhiên, đặc biệt là các thầy cô ở bộ môn
Toán. Các thầy cô đã truyền đạt cho em nhiều kiến thức quí báu cũng như là kỹ năng
sống. Đó chính là nguồn tài sản quí báu giúp em vững bước trong tương lai.
Và trong suốt quãng thời gian đi học, người mà em biết ơn nhiều nhất đó chính là
ba mẹ em, người mà ngày đêm vất vả lo cho em ăn học bao năm qua và đạt được kết
quả như ngày hôm nay. Con xin gửi đến cha mẹ lời cảm ơn chân thành và sâu sắc nhất.
Cuối cùng, tôi cũng xin cảm ơn tất cả các anh chị cũng như các bạn lớp Toán
Ứng Dụng khóa 33 đã luôn sát cánh để động viên và giúp tôi vượt qua rất nhiều khó
khăn.
Em xin chân thành cám ơn !

3


Chương 1. PHÂN TÍCH MÔ HÌNH
HỒI QUY TUYẾN TÍNH


1.1 BẢN CHẤT CỦA PHÂN TÍCH HỒI QUY
1.1.1 Khái niệm
Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn
gọi là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay còn gọi là
biến giải thích) với ý tưởng cơ bản là ước lượng (hay dự đoán) giá trị trung bình của
biến phụ thuộc trên cơ sở các giá trị đã biết của biến độc lập.
Ta có thể xét một số ví dụ sau đây:
Ví dụ 1.1: Để nghiên cứu về chiều cao và cân nặng của các em học sinh trong một
trường, chúng ta lấy mẫu ngẫu nhiên gồm n học sinh và thu thập các số liệu về chiều
cao và cân nặng của n học sinh. Gọi X là biến ngẫu nhiên để đo độ tuổi của học sinh
và Y là biến ngẫu nhiên chỉ chiều cao của học sinh. Với n học sinh ta có n cặp giá trị
(Xi,Yi).
X

x1

x2

x3 ...... xi .......... xn

Y(inches)

y1

y2

y3 ...... yi .......... yn

Hình 1.1: Biểu đồ thể hiện giữa chiều cao và tuổi của học sinh.


Ví dụ 1.2: Để cố gắng giúp công chúng bảo toàn năng lượng ta muốn phân tích các
nhân tố xác định chi phí sưởi ấm trong gia đình. Trong thành phố có mùa mùa đông

4


dài và lạnh. Để xác định được chi phí sưởi ấm của gia đình người ta quan tâm đến các
nhân tố như: kích thước căn nhà, số người trong mỗi gia đình và số cửa sổ …
Ví dụ 1.3: Giám đốc tiếp thị của một công ty có thể muốn biết mức cầu đối với sản
phẩm của công ty có quan hệ như thế nào với chi phí quảng cáo. Một nghiên cứu như
thế sẽ rất có ích cho việc xác định độ co dãn của cầu đối với chi phí quảng cáo. Tức là
tỷ lệ phần trăm thay đổi về mức cầu khi ngân sách quảng cáo thay đổi 1%. Kiến thức
này rất có ích cho việc xác định ngân sách quảng cáo tối ưu.
Chúng ta có thể đưa ra vô số ví dụ như trên về sự phụ thuộc của một biến vào một
hay nhiều biến khác. Các kỹ thuật phân tích hồi quy thảo luận trong chương này nhằm
nghiên cứ sự phụ thuộc như thế giữa các biến số.
Ta ký hiệu:

Y - biến phụ thuộc (hay biến được giải thích).
X i - biến độc lập (hay biến giải thích) thứ i.

Trong đó, biến phụ thuộc Y là đại lượng ngẫu nhiên, có quy luật phân phối xác
suất. Các biến độc lập Xi không phải là ngẫu nhiên, giá trị của chúng đã được biết
trước.
1.1.2 Phân tích hồi quy nhằm giải quyết các vấn đề sau:
Ø Ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến độc lập.
Ø Kiểm định giả thiết về bản chất của sự phụ thuộc.
Ø Dự đoán giá trị trung bình của biến phụ thuộc khi biết giá trị của các biến độc lập.
Ø Kết hợp các vấn đề trên.

Tóm lại, trong phân tích mô hình hồi quy chúng ta hiểu được các bản chất trên là
đã hiểu được một phần nội dung của phân tích hồi quy là như thế nào. Đến đây, chúng
tôi sẽ đi tìm hiểu các mô hình cơ bản của phân tích hồi quy.
1.2 MÔ HÌNH HỒI QUY TUYẾN TÍNH
Ta xét mô hình hồi quy tuyến tính đơn và mô hình hồi quy tuyến tính bội.
1.2.1 Mô hình hồi quy tuyến tính đơn
a) Hàm hồi quy tổng thể (PRF)

5


Mục tiêu của phân tích hồi quy là mô hình hóa mối liên hệ bằng một mô hình toán
học nhằm thể hiện một cách tốt nhất mối liên hệ giữa X và Y. Mô hình này được gọi là
hàm hồi quy tổng thể (PRF).
Hàm hồi quy tổng thể có dạng:
Yt = β1 + β 2 X t + U t (PRF)

(1.1)

Nếu chỉ xét trường hợp đơn giản nhất là hàm PRF có dạng tuyến tính:
Y = β1 + β 2 X

(1.2)

Trong đó:
Y là biến phụ thuộc.
X : biến độc lập.

β1 , β 2 là các tham số.


β1 là hệ số chặn hay hệ số tung độ gốc.
β 2 là hệ số gốc hay hệ số dốc.

b) Hàm hồi quy mẫu (SRF)
Để mô hình hóa mối liên hệ giữa X và Y tức là phải tìm được giá trị của tham số
hồi quy và ta chỉ thực hiện được điều này thông qua các quan sát mẫu. Do đó, mô hình
hồi quy tuyến tính mẫu được sử dụng để ước lượng mô hình hồi quy tổng thể.Tuy
nhiên để ước lượng mô hình hồi quy mẫu ta áp dụng phương pháp bình phương nhỏ
nhất để ước lượng các tham số.
Trước khi ước lượng các số liệu phải thỏa mãn các giả thuyết của phương pháp
bình phương nhỏ nhất:
Giả thiết 1: Biến giải thích là phi ngẫu nhiên, tức là các giá trị của chúng là các
con số đã được xác định. Giả thiết này là đương nhiên, vì phân tích hồi quy được đề
cập là phân tích hồi quy có điều kiện, phụ thuộc vào các giá trị X đã cho.
Giả thiết 2: Kỳ vọng của các yếu tố ngẫu nhiên U i bằng 0, tức là: E( Ui Xi ) = 0 .
Giả thiết này có nghĩa là các yếu tố không có trong mô hình và giá trị U i đại diện
cho chúng, không có ảnh hưởng hệ thống đến giá trị trung bình của Y. Cho nên có thể
nói, các giá trị U i dương triệt tiêu với các giá trị U i âm sao cho trung bình của chúng
ảnh hưởng lên Y bằng 0.

6


Chú ý :Giả thiết E ( U i X i ) = 0 kéo theo E ( Yi X i ) = β 0 + β1Xi .
Giả thiết 3: Các U i có phương sai bằng nhau (phương sai thuần nhất).
Var ( U i X i ) = Var ( U j Xi ) = σ 2

(∀i ≠ j)

Giả thiết 3 có nghĩa là phân phối có điều kiện của Y với giá trị đã cho của X có

phương sai bằng nhau, các giá trị cá biệt của Y xoay quanh giá trị trung bình với mức
độ chênh lệch như nhau.
Giả thiết 4: Không có sự tương quan giữa các U i : Cov (Ui ,U j ) = 0 (∀i ≠ j) .
Giả thiết này có nghĩa là U i là ngẫu nhiên. Sai số ở quan sát này không ảnh
hưởng tới sai số ở quan sát khác.
Giả thiết 5: U i và X i không tương quan với nhau: Cov (U i , X i ) = 0 .
Giả thiết 5 là cần thiết vì nếu U và X có tương quan với nhau thì ta không thể
tách ảnh hưởng riêng biệt của chúng đến Y, trong khi đó Ui lại đại diện cho các yếu tố
không có mặt trong mô hình. Giả thiết 5 sẽ thỏa mãn nếu X là phi ngẫu nhiên.
Sau khi thõa mãn các giả thuyết trên thì ta có thể ước lượng được một mô hình hồi
quy hoàn hảo.
Khi đó ta có mô hình hồi quy mẫu (SRF) như sau :
Yˆ t = βˆ 1 + βˆ 2 X t + et (SRF)

(1.3)

Nếu bỏ qua sai số ngẫu nhiên thì hàm hồi quy mẫu có dạng:
Yˆ t = βˆ 1 + βˆ 2 X t

(1.4)

Ta sử dụng phương pháp bình phương nhỏ nhất (OLS) để ước lượng các tham số
của hàm hồi quy mẫu ta có công thức tính βˆ1 , βˆ2 được tính như sau:
n

βˆ2 =

∑ X tYt − n X Y
t =1
n


∑X
t =1

2
t

− n( X )

2

n

=

∑x y
t =1
n

t

t

∑x
t =1

 xt = X t − X

βˆ1 = Y − βˆ2 X Với: 


 yt = Yt − Y

7

(1.5)

2
t

(1.6)


Khi tính được βˆ1 , βˆ2 ta dễ dàng viết được mô hình hồi quy mẫu.
* Các tính chất của các ước lượng bình phương nhỏ nhất:
– βˆ1 , βˆ2 được xác định một cách duy nhất ứng với n cặp quan sát (Xi, Yi).
– βˆ1 , βˆ2 là các ước lượng điểm của β1 , β 2 và là các đại lượng ngẫu nhiên, với các
mẫu khác nhau chúng có giá trị khác nhau.
c) Hệ số xác định R2
R2 là hệ số nhằm xác định mức độ quan hệ giữa X và Y có quan hệ hay không,
hoặc bao nhiêu phần trăm sự biến thiên của Y có thể giải thích bởi sự phụ thuộc tuyến
tính của Y vào X hay nói cách khác hệ số xác định R2 dùng để đánh giá mức độ phù
hợp của mô hình hồi quy.
Ta có công thức tính như sau:
R2 =

ESS
TSS

(1.7)


Trong đó:
TSS là tổng bình phương các sai lệch giữa các giá trị quan sát Yt với giá trị trung
bình của chúng.
n

(

TSS = ∑ Yt − Y
t =1

2

) = ∑Y
n

t =1

2

t

( )

−n Y

2

(1.8)

ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến Y tính

theo hàm hồi quy mẫu với giá trị trung bình. Phần này đo độ chính xác của hàm hồi
quy.
2


  ^ 2 n
ESS = ∑  Yˆt − Y  =  β 2  ∑ xt2
t =1 
   t =1
n

(1.9)

RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát của biến
Y và các giá trị nhận được từ phương trình hồi quy mẫu.


RSS = ∑ e = ∑  Yt − Yˆt 
t =1
t =1 

n

n

2
t

Vậy TSS = ESS + RSS


2

(1.10)
(1.11)

Với ( 0 ≤ R 2 ≤ 1) .

8


– R 2 = 0 : Chứng tỏ X và Y không có quan hệ, tức là mô hình không phù hợp với
mẫu nghiên cứu.
– R 2 = 1 : Đường hồi quy phù hợp hoàn hảo, tất cả các sai lệch của Y đều giải thích
được bởi mô hình hồi quy.
d) Hệ số tương quan
Hệ số tương quan là số đo mức độ chặt chẽ của quan hệ tuyến tính giữa X và Y và
được xác định bởi công thức:

∑( X
n

R=

t =1

∑( X
n

t =1


t

t

−X

−X

)(Y − Y )

) ∑ (Y − Y )
2

n

t

n

t =1

=
2

t

∑x y
t

t =1


n

t

(1.12)

n

∑x ∑y
t =1

2
t

t =1

2
t

* Các tính chất của hệ số tương quan:
– R có thể âm hoặc dương, dấu của R phụ thuộc vào dấu của Cov(X, Y), hay dấu
của hệ số góc.
– R lấy giá trị trong khoảng -1 đến 1: ( 0 ≤| R |≤ 1) .
– R có tính chất đối xứng: RXY = RYX.
– R độc lập với gốc tọa độ và các tỉ lệ; nghĩa là nếu ta định nghĩa Xi* = aXi + b và
Yi* = cYi + d, trong đó a > 0, c > 0 và b, d là các hằng số thì RXY = RX Y .
* *

– Nếu X, Y độc lập theo quan điểm thống kê thì hệ số tương quan giữa chúng bằng

0. Nhưng điều ngược lại thì không đúng.
– R chỉ là đại lượng đo sự kết hợp tuyến tính hay phụ thuộc tuyến tính.
Ví dụ 1.4: Bảng cho số liệu về tỉ lệ thay đổi tiền lương(Y) và tỉ lệ thất nghiệp (X) của
vương quốc Anh trong giai đoạn 1950-1966. Dựa vào bảng số liệu này hãy tính hệ số
tương quan ứng với bảng số liệu sau:
Bảng 1.1: Bảng số liệu về tỉ lệ thay đổi tiền lương (Y) và tỉ lệ thất nghiệp (X) của
vương quốc Anh giai đoạn 1950-1966.

Năm

Y(%)

X(%)

Năm

Y(%)

X(%)

1950

1.8

1.4

1959

2.6


1.9

1951

8.5

1.1

1960

2.6

1.5

9


1952

8.4

1.5

1961

4.2

1.4

1953


4.5

1.5

1962

3.6

1.8

1954

4.3

1.2

1963

3.7

2.1

1955

6.9

1

1964


4.8

1.5

1956

8

1.1

1965

4.3

1.3

1957

5

1.3

1966

4.6

1.4

1958


3.6

1.8

Ta có bảng tính Xt và Yt dựa vào công thức :
Xt

Yt

Xt*Yt

X t2

Y t2

0.003

8.930

-0.059

-2.99

0.176

-0.359

3.71


-1.332

0.129 13.777

0.041

3.61

0.149

0.002 13.045

0.041

-0.29

-0.012

0.002

0.083

-0.259

-0.49

0.126

0.067


0.238

-0.459

2.11

-0.969

0.211

4.460

-0.359

3.21

-1.152

0.129 10.315

-0.159

0.21

-0.034

0.025

0.045


0.341

-1.19

-0.405

0.116

1.412

0.441

-2.19

-0.965

0.195

4.788

0.041

-2.19

-0.090

0.002

4.788


-0.059

-0.59

0.035

0.003

0.346

0.341

-1.19

-0.405

0.116

1.412

0.641

-1.09

-0.698

0.411

1.184


0.041

0.01

0.000

0.002

0.000

-0.159

-0.49

0.078

0.025

0.238

-0.059

-0.19

0.011

0.003

0.035


Tổng

-5.488

Khi đó ta tính được:

10

1.441 65.098


n

R=

∑X Y

t t

t =1

n

=

n

∑ X ∑Y
t =1


2
t

t =1

2

−5.448
= −0.567
1441*65098

t

Ta thấy R = -0.567 < 0 nên giữa X và Y tồn tại mối quan hệ tuyến tính nghịch. Có
nghĩa là khi tỉ lệ thay đổi tiền lương tăng thì tỉ lệ thất nghiệp sẽ giảm và ngược lại.
e) Kiểm định sự phù hợp của hàm hồi quy
Chúng ta kiểm định giả thuyết:
Ho: β 2 = 0 .
H1: β 2 ≠ 0 .
Để kiểm định giả thuyết trên ta áp dụng quy tắc kiểm định như sau:
• Tính F theo công thức:
F=

R 2 (n − 2)
1− R2

( 1.13)

• Với mức ý nghĩa α , tra bảng phân phối Fisher – Snedecor với bậc tự do n1 = k1
và n 2 = n – 2 để tìm giá trị Fα (1, n − 2)

Nếu F > Fα (1, n − 2) thì bác bỏ giả thuyết Ho.
Ngược lại, F < Fα (1, n − 2) thì chấp nhận giả thuyết Ho.
Trong các phần mềm thống kê khi viết phương trình hồi quy đều tính được giá trị
kiểm định F.
Ví dụ 1.5: Một cuộc thí nghiệm được tiến hành với 28 chiếc xe, các xe tham gia được
cho chạy trên đường cao tốc với các mức độ khác nhau, biến thiên trong khoảng 10
dặm/giờ đến 75 dặm/giờ. Dữ liệu về tốc độ và lượng xăng xe tiêu thụ được ghi lại
trong bảng sau:
Bảng 1.2: Bảng số liệu về tốc độ và lượng xăng tiêu thụ của 28 chiếc xe.

STT

Mức tiêu hao xăng (Y)

Tốc độ (X)

1

26

45

2

24

45
11



3

20.5

50

4

19.7

50

5

18.6

55

6

19.3

55

7

14.4

60


8

13.7

60

9

12.1

65

10

12.5

65

11

10.1

70

12

9.4

70


13

8.4

75

14

7.6

75

15

32

10

16

30

10

17

29

15


18

27

15

19

26.5

20

20

24

20

21

25.3

25

22

24.6

25


23

19

30

24

22

30

25

19.9

35

26

24

35

27

21

40


28

23.5

40

Từ bảng số liệu trên ta tính được:

∑ Y = 564.1 ; ∑ X
i

∑ Y = 20.146 ;

i

= 1190 ; ∑ X iYi = 20458.5 ;

∑ X = 42.5
12

∑X

2
i

= 61950 ;


n


βˆ2 =

∑ X Y − nXY
t =1
n

∑X
t =1

t t
2
t

− n( X ) 2

=

20458.5 − 28* 42.5*20.146
= −0.309
61950 − 28*(42.5) 2

βˆ1 = Y − βˆ2 X = 20.146 − (−0.309) * 42.5 = 33.28

Vậy ta có mô hình hồi quy tuyến tính mẫu của tốc độ và lượng xăng xe tiêu thụ:
^

Y = 33.28 - 0.309X

Trong mô hình hồi quy này ta thấy khi xe chạy với tốc độ càng chậm thì lượng
xăng tiêu thụ của xe càng nhiều.

1.2.2 Mô hình hồi quy tuyến tính bội (mô hình hồi quy tuyến tính đa biến)
Mô hình hồi quy tuyến tính đơn đã trình bày ở trên là khá hữu dụng cho rất nhiều
trường hợp khác nhau. Mặc dù vậy, nó trở nên không còn phù hợp nữa khi có nhiều
hơn một yếu tố tác động đến biến cần giải thích. Chẳng hạn, khi nghiên cứu nhu cầu
về một loại hàng hóa nào đó (Y), thì nhu cầu này phụ thuộc vào nhiều yếu tố như thu
nhập của người tiêu dùng, giá bán của bản thân hàng hóa, và giá cả của các loại hàng
hóa cạnh tranh... Và mô hình hồi quy tuyến tính đa biến cho phép chúng ta nghiên cứu
những trường hợp như vậy.
Trong phần này chúng ta sẽ mở rộng mô hình hồi quy đa biến (hay còn gọi là mô
hình hồi quy bội) trong đó không chỉ một mà nhiều biến giải thích có thể được sử dụng
để dự đoán giá trị của biến phụ thuộc.
a) Hàm hồi quy tổng thể (PRF)
Hàm hồi quy tổng thể trong trường hợp k biến có dạng:
Yi = β1 + β 2 X 2i + β3 X 3i + ... + β k X ki + U i

(1.14)

Giả sử ta có n quan sát và mỗi quan sát gồm k giá trị
Y1 = β1 + β2 X 21 + β3 X 31 + ... + β k X k 1 + U1
Y2 = β1 + β 2 X 22 + β 3 X 32 + ... + β k X k 2 + U 2

…………………………………..
Yn = β1 + β 2 X 2 n + β 3 X 3 n + ... + β k X kn + U n

Khi đó ta có hàm hồi quy tổng thể:

13

(1.15)



 β1 
 
β
β =  2 ,
 ... 
 
 βk 

 Y1 
 
Y
Y =  2 ,
 ... 
 
 Yn 

 1 X 21

1 X 22
X =
 ... ...

 1 X 2n

X 32
X 32
...
X 3n


 U1 
 
U
U = 2
 ... 
 
U n 

X k1 

... X k 2 
... ... 

... X kn 
...

Hệ thống của các quan sát có thể được viết lại như sau:
PRF: Y = β X + U

(1.16)

b) Hàm hồi quy mẫu (SRF)
SRF: Yˆ t = βˆ1 + βˆ 2 X 2n + βˆ 3 X 3n + ... + βˆ k X kn + et

(1.17)

Nếu bỏ qua sai số ngẫu nhiên thì hàm hồi quy mẫu có dạng
Yˆ t = βˆ 1 + βˆ 2 X 2 n + βˆ 3 X 3n + ... + βˆ k X kn

(1.18)


Hay viết dưới dạng ma trận
Y = βˆ X + e

(1.19)

Khi đó các tham số của hàm hồi quy mẫu được ước lượng như sau:
 ˆ 
 β1 
 
 ˆ 
βˆ =  β 2  ,
 ... 
 
 βˆ 
 k

Ta có:









 e1 
 
e

e= 2
 ... 
 
 en 

Khi đó: e =  Yt − Yˆt  = Yt − βˆ1 − βˆ2 X 2t − βˆ3 X 3t − ... − βˆk X kt

(1.20)

Theo nguyên lý của phương pháp OLS thì các tham số βˆ1 , βˆ 2 ,..., βˆ k được chọn sao
cho :
2

2

n




e = ∑  Yt − Yˆt  = ∑  Yt − βˆ1 − βˆ2 X 2t − βˆ3 X 3t − ... − βˆk X kt  → min

t =1 
t =1
t =1 


n

n


2
t

Ta ký hiệu X T , Y T , βˆ T , eT là các ma trận chuyển vị của: X , Y , βˆ , e
Tức là

Y T = (Y1 , Y2 ,..., Yn )

14

(1.21)


eT = ( e1 , e2 ,..., en )








βˆ =  βˆ1 , βˆ 2 ,..., βˆ k 
 1

X
T
X =  21
 ...


 X k1

1

1

X 22
...

X 23
...

Xk2

X k3

1 

... X 2 n 
... ... 

... X kn 

...

Áp dụng phương pháp OLS ta có công thức:
βˆ = ( X T X ) X T Y
−1


(1.22)

Trong đó X T X là ma trận có dạng

 n

 n
∑X
X T X =  t =1 2t
 ...
 n
 X
 ∑ kt
 t =1

n

∑X
t =1

2t

n

∑X
t =1

t =1

2

2t

3t

∑X
t =1

2t

X 3t

...

n

t =1

n

n

kt

X 2t

∑X
t =1

kt


∑X

...

n

...

∑X



t =1

n

... ∑ X 2t X kt 
t =1


...
...

n
2

...
X

kt


t =1


n

∑X

X 3t

kt

(1.23)

Giải được phương trình (1.22) là ta đã ước lượng được các tham số của hàm hồi
quy mẫu
c) Hệ số xác định R2

( )

TSS = Y T Y − n Y

2

(1.24)

Trong đó:

( )


ESS = βˆ T X T Y − n Y

2

TSS = ESS + RSS
R2 =

ESS
TSS

d) Kiểm định sự phù hợp của hàm hồi quy
Kiểm định giả thuyết :
Ho : β 2 = β 3 = .... = β k = 0 .
H1: Không phải tất cả các hệ số hồi quy riêng đồng thời bằng 0.
Để kiểm định giả thuyết trên, ta áp dụng quy tắc kiểm định như sau :
• Tính F theo công thức :
15

(1.25)
(1.26)
(1.27)


F=

R 2 (n − k )
(1 − R 2 )( k − 1)

(1.28)


• Với mức ý nghĩa α , tra bảng phân phối Fisher – Snedecor với bậc tự do n 1 = k – 1
và n 2 = n – k để tìm giá trị Fα (k − 1, n − k )
Nếu F > Fα (k − 1, n − k ) thì bác bỏ giả thuyết Ho tức là các hệ số hồi quy không
đồng thời bằng 0.
Ngược lại, F < Fα (k − 1, n − k ) thì chấp nhận giả thuyết Ho tức là các hệ số hồi quy
đồng thời bằng 0.
Ví dụ 1.6: Giám đốc của một công ty muốn đánh giá kết quả làm việc của nhân viên
nên đã tiến hành tổ chức một cuộc thi để dễ dàng đánh giá năng lực của từng
người.Tiêu chí cho cuộc thi gồm: thi phân tích tình huống, khả năng trình bày viết, khả
năng trình bày miệng và khả năng làm việc của từng người. Ông tiến hành ghi điểm về
kết quả công việc mà nhân viên đạt được (Y), điểm phân tích tình huống (X1), điểm
khả năng trình bày viết (X2) và điểm khả năng trình bày miệng (X3). Kết quả được ghi
lại trong bảng dưới đây:
Bảng 1.3: Bảng đánh giá kết quả làm việc của nhân viên

STT

Y

X1

X2

X3

1

97

8.4


8.7

9.2

2

93

8.2

9.4

9.4

3

91

9.3

9.7

9.5

4

85

7.9


8.1

8.7

5

86

8.1

8.3

8.8

6

97

9.4

9.3

9.5

7

90

9.1


9

9.2

8

93

8.9

8.2

9.5

9

88

8.6

8.4

8.5

10

96

9.7


9.5

9.5

11

86

8.3

7.9

8.4

12

89

8.7

8.5

8.3

16


13


94

9.2

9.1

9.8

14

91

8.1

9.5

9.2

15

95

9.3

9.1

9.7

Ta có:
 1 X 21

1 X
22
X =
... ...

 1 X 2,15
 1
X
21
XT = 
 X 31

 X 41

X 41   1 8.4 8.7 9.2 
X 34   1 8.2 9.4 9.4 
=

...  ... ... ... ... 
 

X 4,15   1 9.3 9.1 9.7 

X 31
X 32
...
X 3,15

1
X 22

X 32
X 42


 n

 n
 ∑ X 2t
t =1
T
X X = n

 ∑ X 3t
 t =1
 n
 ∑ X 4t
 t =1

...
1  1
1 ... 1 


... X 2,18  8.4 8.2 ... 9.3

=
... X 3,18  8.7 9.4 ... 9.1
 

... X 4,18  9.2 9.4 ... 9.7 

n

∑ X 2t
t =1
n

∑X
t =1

t =1

2
2t

t =1

t =1

∑X
t =1

2t

X 3t

n

3t

X 2t


n

∑X

∑ X 3t
n

n

∑X

n

∑X
t =1

2
3t

n

4t

X 2t

∑X
t =1

4t


X 3t



t =1

n

X 2t X 4t 

t =1

n

X 3t X 4 t 

t =1

n

X 42t 

t =1

n

∑X

131.2

132.7
137.2 
 15
131.2 1152.06 1163.1 1202.36 

=
132.7 1163.1 1178.71 1216.52 


137.2 1202.36 1216.52 1258.24 

Suy ra:
 27.514 -0.759 -0.354 -1.934 
 -0.759 0.360 -0.072 -0.192 

( X t X ) −1 = 
 -0.354 -0.072 0.420 -0.299 


 -1.934 -0.192 -0.299 0.684 

Khi đó:

17

4t


 n


 ∑ Yt 
 t =1

 n
  1371 
 ∑ X 2t Yt  12011.8
t =1

=
X tY =  n

 12149.3 

 ∑ X 3tYt  
 t =1
 12561.4 
 n

 ∑ X 4t Yt 
 t =1


Ta tính được:
 27.514 -0.759 -0.354 -1.934  1371   27.661
 -0.759 0.360 -0.072 -0.192 12011.8   1.679 
−1

=

βˆ = ( X T X ) X T Y = 

 -0.354 -0.072 0.420 -0.299 12149.3  0.801 


 

 -1.934 -0.192 -0.299 0.684  12561.4  4.588 

Vậy ta có mô hình hồi quy như sau:
ˆ = 27.661 + 1.679X +0.801X +4.588X
Y
1
2
3

1.3 XÂY DỰNG MÔ HÌNH HỒI QUY BỞI CÁC PHẦN MỀM THỐNG KÊ
Để xây dựng một mô hình hồi quy nếu ta áp dụng các công thức như trên sẽ rất mất
thời gian. Tuy nhiên, để thuận tiện chúng ta có thể sử dụng các phần mềm như: Excel,
SPSS, R, Mfit, hay Eview… Ở đây tôi sẽ trình bày phân tích mô hình hồi quy tuyến
tính dựa trên Excel, SPSS, R và Eview.
1.3.1 Ứng dụng trên Excel
Để thực hiện trên Excel ta thực hiện các bước sau:
• Bước 1: Nhập số liệu.
Nhập số liệu theo cột, mỗi cột một biến.
• Bước 2: Chọn Tool / Data Analysis / Regression.
• Bước 3: Đưa các đối số cần tính vào các vùng xử lí.
Trong đó:
- Input Y Range: Chọn vùng xử lí của biến phụ thuộc.
- Input X Range: Chọn vùng xử lí của biến độc lập, nếu nhiều biến thì chọn nhiều
cột.
Ø Labels: Vùng xử lí có tên biến hay không

Ø Constant is Zero: Đây là trường hợp hồi qui với anpha bằng 0
Ø Confidence Level: Độ tin cậy
18


Ví dụ 1.7: Để dễ dàng so sánh ta sử dụng lại bảng số liệu về tốc độ và lượng xăng xe
tiêu thụ ở ví dụ 1.5
Ta thực hiện trên Excel như sau:
Bước 1: Nhập số liệu.

Bước 2: Chọn Tool / Data Analysis / Regression

19


Bước 3: Đưa các đối số cần tính vào các vùng xử lí.

Ta được kết quả như sau:

SUMMARY OUTPUT
Regression Statistics
Multiple R

0.929

R Square

0.864

Adjusted R Square


0.858

Standard Error

2.570

Observations

28.000

ANOVA
df
Regression

SS

MS

F
164.534

1

1086.637

1087

Residual


26

171.712

6.604

Total

27

1258.350

Significance F
9.43459E-13

Standard
Coefficients

Error

t Stat

Lower

Upper

P-value

95%


95%

Intercept

33.282

1.133

29.37

1.8E-21

30.952

35.612

X

-0.309

0.024

-12.83

9.4E-13

-0.359

-0.260


20


Dựa vào bảng kết quả ta thấy R2 = 0.864 nên mô hình mà ta đang xét khá phù hợp
và ta có mô hình hồi quy như sau: Yˆ = 33.282 - 0.309X
1.3.2 Ứng dụng trên SPSS
Ta cũng có các bước thực hiện như sau:
• Bước 1: Khai báo biến và nhập số liệu
• Bước 2: Vào menu lệnh Analyze/ Regression/ Linear
• Bước 3: Chọn các biến cần tính đưa vào
+ Đưa biến phụ thuộc vào khung Dependent
+ Đưa biến độc lập vào khung Independent(s), nếu có nhiều biến độc lập cần
phân tích thì ta đưa vào khung này.
• Bước 4: Đọc kết quả thu được.
Ví dụ 1.8: Ta sử dụng lại bảng đánh giá kết quả làm việc của nhân viên để viết
phương trình hồi quy.

21


Khi đó hiện bảng Linear Regression

Ta thu được kết quả như sau:
Model Summary
Adjusted R
Model

R

1


.806(a)

R Square

Square

.650

Std. Error of the Estimate
.555

2.689

a Predictors: (Constant), Diem trinh bay mieng, Diem phan tich tinh huong, Diem
trinh bay viet.
ANOVA(b)
Sum of
Model
1

Squares
Regression
Residual
Total

Mean
df

Square


148.038

3

49.346

79.562

11

7.233

227.600

14

F
6.822

Sig.
.007(a)

a Predictors: (Constant), Diem trinh bay mieng, Diem phan tich tinh huong, Diem
trinh bay viet
b Dependent Variable: Diem danh gia ket qua lam viec

22



Coefficients(a)

Model

Unstandardized

Standardized

Coefficients

Coefficients

B
1

(Constant)

Std. Error

T

Sig.

1.961

.076

Beta

27.661


14.107

1.679

1.613

.236

1.041

.320

.801

1.743

.116

.460

.655

4.588

2.224

.554

2.063


.064

Diem phan
tich tinh
huong
Diem trinh
bay viet
Diem trinh
bay mieng

a Dependent Variable: Diem danh gia ket qua lam viec
Nhìn vào kết quả xử lí ta thấy mô hình mà ta đang xét là khá phù hợp vì R2 = 0.650
> 0 có nghĩa là 65% kết quả làm việc của nhân viên ở công ty này có thể được giải
thích từ mối liên hệ tuyến tính giữa điểm đánh giá kết quả làm việc với điểm phân tích
tình huống, điểm khả năng trình bày viết và điểm khả năng trình bày miệng.
Khi đó ta có mô hình hồi quy như sau:
^

Y = 27.661 + 1.679X1 +0.801X 2 +4.588X 3

1.3.3 Ứng dụng trên R
Đối với phần mềm R khi nhập số liệu hay phân tích một mô hình chúng ta chỉ cần
sử dụng một số hàm có sẵn. Để dễ hiểu ta xét ví dụ sau đây:
Ví dụ 1.9 Tốc độ phát triển nền kinh tế (Y) phụ thuốc vào tốc độ phát triển của nông
nghiệp (X1), tốc độ tăng trưởng của kim ngạch xuất khẩu (X2) và tỉ lệ lạm phát (X3)
được thu thập ở 48 nước dưới đây:

23



Bảng 1.4: Bảng số liệu về tốc độ phát triển kinh tế, nông nghiệp, xuất khẩu và
lạm phát của 48 nước.

Tốc độ phát triển kinh

Nông nhiệp

Xuất khẩu

Lạm phát

STT

tế (Y)

(X1)

(X2)

(X3)

1

1.3

-2.7

13


13

2

1

-6

10.5

10.5

3

0.4

-3.6

15.9

15.9

4

4.9

13.6

3.2


3.2

5

9.8

27.3

5.4

5.4

6

-2.1

2.6

5.2

5.2

7

2

-9.5

8.7


8.7

8

5.8

4.4

1.4

1.4

9

5.2

9.2

3

3

10

-1.1

-6.3

14.9


14.9

11

0.2

12

20.3

20.3

12

1.1

-7.2

19.8

19.8

13

-12

-5.5

8.6


8.6

14

-1.6

-2.5

11.3

11.3

15

0.5

1.6

19

19

16

2.2

-3.5

4.7


1.9

17

8

3.1

10.9

37.3

18

6.5

3.3

-0.6

8.9

19

0.2

0.1

8.4


29.5

20

7.8

5.3

10.4

8.1

21

2.5

2.3

4.9

22.6

22

-0.2

3.1

7.9


20.2

23

6.1

10.3

-19

-1.3

24

2.9

-0.6

5.4

7.5

25

4.1

2.3

8.7


9.5

26

-5

1.2

-2

1.1

24


×