Tải bản đầy đủ (.pdf) (58 trang)

Các mô hình hồi quy hai biến thực hành bằng ngôn ngữ r

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1008.94 KB, 58 trang )

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
KHOA TOÁN
*************

TRẦN HUYỀN TRANG

CÁC MÔ HÌNH HỒI QUY HAI BIẾN:
THỰC HÀNH BẰNG NGÔN NGỮ R

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Toán ứng dụng

HÀ NỘI – 2016


TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
KHOA TOÁN
*************

TRẦN HUYỀN TRANG

CÁC MÔ HÌNH HỒI QUY HAI BIẾN:
THỰC HÀNH BẰNG NGÔN NGỮ R

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Toán ứng dụng

Người hướng dẫn khoa học
TS. Hà Bình Minh

HÀ NỘI – 2016




Lời cảm ơn

Trước khi trình bày nội dung chính của khóa luận tốt nghiệp, em xin
bày tỏ lòng biết ơn sâu sắc tới Tiến sĩ Hà Bình Minh đã tận tình hướng
dẫn để em có thể hoàn thành đề tài này.
Em cũng xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cô
giáo trong khoa Toán, Trường Đại học Sư phạm Hà Nội 2 đã dạy bảo em
tận tình trong suốt quá trình học tập tại khoa.
Nhân dịp này em cũng xin được gửi lời cảm ơn chân thành tới gia đình,
bạn bè đã luôn bên em, động viên, giúp đỡ em trong suốt quá trình học
tập và thực hiện đề tài thực tập này.
Hà Nội, ngày 27 tháng 04 năm 2016
Sinh viên
Trần Huyền Trang

i


Lời cam đoan

Tôi xin cam đoan rằng số liệu và kết quả nghiên cứu trong khóa luận này
là trung thực và không trùng lặp với các đề tài khác. Tôi cũng xin cam
đoan rằng mọi sự giúp đỡ cho việc thực hiện khóa luận này đã được cảm
ơn và các thông tin thu trích dẫn trong khóa luận đã được chỉ rõ nguồn
gốc.
Hà Nội, ngày 27 tháng 04 năm 2016
Sinh viên
Trần Huyền Trang


ii


Mục lục

Lời mở đầu

iii

1 Kiến thức chuẩn bị
1.1

1.2

1

Khái niệm hồi quy . . . . . . . . . . . . . . . . . . . . .

1

1.1.1

Phân tích hồi quy . . . . . . . . . . . . . . . . . .

1

1.1.2

Biến phụ thuộc và biến độc lập . . . . . . . . . .


1

Mô hình hồi quy hai biến tuyến tính . . . . . . . . . . .

2

1.2.1

Dạng của mô hình . . . . . . . . . . . . . . . . .

2

1.2.2

Phương pháp phân tích mô hình . . . . . . . . . .

2

2 Giới thiệu ngôn ngữ R
2.1

2.2

4

Tổng quan về R . . . . . . . . . . . . . . . . . . . . . . .

4


2.1.1

Khái niệm về R . . . . . . . . . . . . . . . . . . .

4

2.1.2

Làm quen với R . . . . . . . . . . . . . . . . . . .

5

2.1.3

Cách đặt tên trong R . . . . . . . . . . . . . . . .

7

2.1.4

Hỗ trợ trong R . . . . . . . . . . . . . . . . . . .

8

Lập trình với R . . . . . . . . . . . . . . . . . . . . . . .

9

2.2.1


Cách nhập dữ liệu vào R . . . . . . . . . . . . . .

9

2.2.2

Vẽ biểu đồ trong R . . . . . . . . . . . . . . . . .

10

i


Khóa luận tốt nghiệp Đại học

2.2.3

Trần Huyền Trang

Phân tích hồi quy tuyến tính . . . . . . . . . . .

3 Các mô hình hồi quy hai biến
3.1

3.2

3.3

3.4


3.5

11
14

Mô hình hồi quy qua gốc tọa độ (Regression - Through Origin model) . . . . . . . . . . . . . . . . . . . . . . . .

14

Mô hình logarit kép (Log - Log) . . . . . . . . . . . . . .

17

3.2.1

Giới thiệu mô hình log-log . . . . . . . . . . . . .

17

3.2.2

Cách chuyển về mô hình hồi quy tuyến tính . . .

17

3.2.3

Ví dụ

19


. . . . . . . . . . . . . . . . . . . . . . . .

Mô hình Log - Lin (Log-Linear model) hay mô hình tăng
trưởng . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25

3.3.1

Giới thiệu mô hình log - lin . . . . . . . . . . . .

25

3.3.2

Cách chuyển về mô hình hồi quy tuyến tính . . .

25

3.3.3

Ví dụ

. . . . . . . . . . . . . . . . . . . . . . . .

27

Mô hình tuyến tính - Logarit (Lin - Log model) . . . . .


30

3.4.1

Giới thiệu mô hình lin - log . . . . . . . . . . . .

30

3.4.2

Ví dụ

33

. . . . . . . . . . . . . . . . . . . . . . . .

Mô hình nghịch đảo (Reciprocal Model) hay mô hình Hyperbol . . . . . . . . . . . . . . . . . . . . . . . . . . . .

36

3.5.1

Giới thiệu mô hình nghịch đảo . . . . . . . . . . .

36

3.5.2

Ví dụ


. . . . . . . . . . . . . . . . . . . . . . . .

40

3.6

So sánh R2 giữa các mô hình . . . . . . . . . . . . . . . .

45

3.7

Bảng tổng kết các dạng mô hình hồi quy hai biến . . . .

47

Tài liệu tham khảo

48

ii


Khóa luận tốt nghiệp Đại học

Trần Huyền Trang

Lời mở đầu
1. Lý do chọn đề tài
Trong thực tiễn nghiên cứu một số vấn đề kinh tế, xã hội như GDP,

tỷ lệ lạm phát... người ta đi xây dựng các mô hình hồi quy tuyến tính
để thể hiện mối quan hệ giữa các biến, từ đó phản ánh được bản chất
hiện tượng. Để khảo sát các hiện tượng kinh tế này, người ta đã viết các
phần mềm giúp xử lý số liệu đơn giản hơn.
Năm 1996, hai nhà thống kê học Ross Ihaka và Robert Gentleman
[lúc đó] thuộc Trường đại học Auckland, New Zealand phát hoạ một
ngôn ngữ mới cho phân tích thống kê mà họ đặt tên là R. R là một
phần mềm tiện ích, không chỉ đa năng, dễ sử dụng mà việc cài đặt cũng
khá đơn giản và đặc biệt là hoàn toàn miễn phí.
Trên cở sở đó, cùng với mong muốn tìm hiểu sâu sắc hơn về mô hình
hồi quy và ứng dụng của phần mềm R trong đó như thế nào, em đã chọn
đề tài "Các mô hình hồi quy hai biến: Thực hành bằng ngôn ngữ
R" làm đề tài khóa luận tốt nghiệp đại học của mình.
2. Mục đích nghiên cứu
Nghiên cứu các mô hình hồi quy hai biến và thực hiện hồi quy tuyến
tính bằng việc sử dụng ngôn ngữ R.
3. Nhiệm vụ nghiên cứu
Tìm hiểu các mô hình hồi quy hai biến và thực hành chúng bằng phần
mềm R.
4. Đối tượng và phạm vi nghiên cứu
Trong khuôn khổ của khóa luận, em chỉ nghiên cứu các mô hình hồi
iii


Khóa luận tốt nghiệp Đại học

Trần Huyền Trang

quy hai biến và sử dụng ngôn ngữ R trong phân tích số liệu và vẽ biểu
đồ .

Ngoài ra, khóa luận còn giới thiệu một cách tổng quát nhất về phần
mềm chuyên dụng R.
5. Phương pháp nghiên cứu
Sưu tầm, đọc và nghiên cứu tài liệu, phân tích, tổng hợp kiến thức.
Trao đổi, thảo luận với người hướng dẫn khoa học qua đó tổng hợp
kiến thức và trình bày theo đề cương nghiên cứu, thực hiện theo kế hoạch
để hoàn thành khóa luận.
6. Cấu trúc khóa luận
Ngoài phần mở đầu, kết luận, tài liệu tham khảo, khóa luận tốt nghiệp
bao gồm ba chương:
• Chương 1: Kiến thức chuẩn bị
Chương này sẽ đi trình bày một số khái niệm cơ bản như biến độc lập,
biến phụ thuộc, mô hình hồi quy hai biến tuyến tính và cách thủ công
để phân tích mô hình này.
• Chương 2: Giới thiệu ngôn ngữ R
Chương này sẽ giới thiệu cơ bản về phần mềm R gồm làm quen bước
đầu với R, cách nhập dữ liệu, vẽ biểu đồ và phân tích hồi quy tuyến
tính.
• Chương 3: Các mô hình hồi quy hai biến
Chương này sẽ đi nghiên cứu các mô hình hồi quy hai biến, cách chuyển
chúng về dạng mô hình hồi quy tuyến tính và từ đó nêu ra các ví dụ
minh họa tương ứng về sử dụng phần mềm R để phân tích các số liệu

iv


Khóa luận tốt nghiệp Đại học

Trần Huyền Trang


và vẽ biểu đồ trong mô hình hồi quy.

Do thời gian thực hiện không nhiều, kiến thức còn hạn chế nên khóa
luận không tránh khỏi những sai sót. Tác giả mong nhận được sự góp ý
và những ý kiến phản biện của quý thầy cô và bạn đọc. Xin chân thành
cảm ơn!

Hà Nội, ngày 27/04/2016
Tác giả khóa luận

Trần Huyền Trang

v


Chương 1
Kiến thức chuẩn bị
1.1

Khái niệm hồi quy

1.1.1

Phân tích hồi quy

Phân tích hồi quy là tìm mối quan hệ phụ thuộc của biến phụ thuộc
vào một hoặc nhiều biến khác (được gọi là biến độc lập), nhằm mục đích
ước lượng hoặc tiên đoán giá trị kỳ vọng của biến phụ thuộc khi biết
trước giá trị của biến độc lập.
1.1.2


Biến phụ thuộc và biến độc lập

Biến phụ thuộc được ký hiệu là Y và nhận các giá trị xác định, biến
độc lập là những biến ngẫu nhiên, ký hiệu X2 , X3 , ....
Trong mối quan hệ giữa hai biến này, biến phụ thuộc chịu tác động
của biến độc lập, biến độc lập là biến gây ra ảnh hưởng cho biến phụ
thuộc.
Chẳng hạn, ta xét mối quan hệ giữa kết quả học tập với thời gian rèn
luyện. Khi thời gian rèn luyện tăng lên, kết quả học tập sẽ cao và ngược
1


Khóa luận tốt nghiệp Đại học

Trần Huyền Trang

lại. Qua đó có thể thấy rằng thời gian rèn luyện gây ảnh hưởng lên kết
quả học tập. Vậy thời gian đóng vai trò là biến độc lập, kết quả là biến
phụ thuộc.

1.2
1.2.1

Mô hình hồi quy hai biến tuyến tính
Dạng của mô hình

Mô hình hồi quy hai biến là mô hình đơn giản nhất, còn được gọi là
mô hình hồi quy đơn, có dạng:
Yi = β1 + β2 Xi + Ui .

Trong đó, biến Y là biến phụ thuộc hay biến được giải thích; biến X là
biến độc lập hay biến giải thích.
1.2.2

Phương pháp phân tích mô hình

Trong phương trình trên β1 và β2 là hệ số hồi quy, Ui là một biến số
theo luật phân phối chuẩn với trung bình 0 và phương sai σ 2 .
Các thông số β1 , β2 và σ 2 phải được ước tính từ dữ liệu. Phương
pháp để ước tính các thông số này là phương pháp bình phương nhỏ
nhất (least squares method).
Như tên gọi, phương pháp bình phương nhỏ nhất tìm giá trị β1 , β2
n

sao cho (

[Yi − (β1 + β2 Xi )]2 nhỏ nhất. Sau vài thao tác toán, có thể

i=1

2


Khóa luận tốt nghiệp Đại học

Trần Huyền Trang

chứng minh dễ dàng rằng, ước số cho β1 , β2 đáp ứng điều kiện đó là:
n


(Xi − X)(Yi − Y )
β2 =

i=1

.

n

(Xi − X)2
i=1

β1 = Y − β2 X.
Ở đây, X và Y là giá trị trung bình của biến số X và Y. Chú ý; β1 , β2
(với dấu mũ phía trên) là để nhắc nhở rằng đây là hai ước số (estimates)
của β1 và β2 (chúng ta không biết chính xác β1 và β2 , nhưng chỉ có thể
ước tính mà thôi). Và phương sai của phần dư có thể ước tính như sau:
n

(Yi − Yi )
2

s =

i=1

n−2

với s2 là ước số của σ 2 .


Việc tính toán trên nói chung là phức tạp, sử dụng phần mềm R cho
phép xử lý các thông số trên một cách dễ dàng và khoa học hơn.

3


Chương 2
Giới thiệu ngôn ngữ R
2.1
2.1.1

Tổng quan về R
Khái niệm về R

R là một phần mềm sử dụng cho phân tích thống kê và vẽ biểu đồ.
Thật ra, về bản chất, R là ngôn ngữ máy tính đa năng, có thể sử dụng
cho nhiều mục tiêu khác nhau:
• Tính toán đơn giản
• Toán học giải trí (recreational mathematics)
• Tính toán ma trận (matrix)
• Phân tích thống kê phức tạp.
Vì là một ngôn ngữ, cho nên người ta có thể sử dụng R để phát triển
thành các phần mềm chuyên môn cho một vấn đề tính toán cá biệt.
Vì thế, những ai làm nghiên cứu khoa học, nhất là ở các nước còn
nghèo khó như nước ta, cần phải học cách sử dụng R cho phân tích
thống kê và đồ thị.

4



Khóa luận tốt nghiệp Đại học

2.1.2

Trần Huyền Trang

Làm quen với R

Trước tiên để khởi động R, bạn kích đúp (hoặc đơn) vào biểu tượng
file R, trên màn hình xuất hiện cửa sổ sau:

Cú pháp chung của R là như sau:
>đối tượng <- hàm(thông số 1, thông số 2, . . . , thông số n)
Chẳng hạn như:
> reg <- lm(y ∼ x)
thì reg là một đối tượng (object), còn lm là một hàm, và y ∼ x là
thông số của hàm.
Hay:
> setwd(“c: /works/stats”)
thì setwd là một hàm, còn “c:/works/stats” là thông số của hàm.
Để biết một hàm cần có những thông số nào, chúng ta dùng lệnh
5


Khóa luận tốt nghiệp Đại học

Trần Huyền Trang

args(x), (args viết tắt chữ arguments) mà trong đó x là một hàm chúng
ta cần biết:

> args(lm)
function (formula, data, subset, weights, na.action, method = "qr",
model = TRUE, x = FALSE, y = FALSE, qr = TRUE,
singular.ok = TRUE,
contrasts = NULL, offset, ...)
NULL

Một số kí hiệu hay dùng trong R là:

x == 2

x bằng 2

x != 2

x không bằng 2

y
y nhỏ hơn x

x>y

x lớn hơn y

z <= 2

z nhỏ hơn hoặc bằng 2

p>= 2


p lớn hơn hoặc bằng 2

is.na (x)

Có phải x là biến số trống không (missing value)

A&B

A và B (AND)

A|B

A hoặc B (OR)

!

Không là (NOT)

6


Khóa luận tốt nghiệp Đại học

Trần Huyền Trang

Với R, tất cả các câu chữ hay lệnh sau kí hiệu # đều không có hiệu
ứng, vì # là kí hiệu dành cho người sử dụng thêm vào các ghi chú, ví
dụ:
> # lệnh sau đây sẽ mô phỏng 5 giá trị normal

> x <- rnorm(5)

2.1.3

Cách đặt tên trong R

Đặt tên một đối tượng (object) hay một biến số (variable) trong R
khá linh hoạt, vì R không có nhiều giới hạn như các phần mềm khác.
Tên một object phải được viết liền nhau (tức không được cách rời bằng
một khoảng trống). Chẳng hạn như R chấp nhận myobject nhưng không
chấp nhận my object.
> myobject <- rnorm(5)
> my object <- rnorm(5)
Error: syntax error in "my object"
Nhưng đôi khi tên myobject khó đọc, cho nên chúng ta nên tác rời
bằng “.” Như my.object.
> my.object <- rnorm(5)
Một điều quan trọng cần lưu ý là R phân biệt mẫu tự viết hoa và
viết thường. Cho nên My.object khác với my.object. Ví dụ:
> My.object.u <- 5
> my.object.L <- 5
> My.object.u + my.object.L

7


Khóa luận tốt nghiệp Đại học

Trần Huyền Trang


Một vài điều cần lưu ý khi đặt tên trong R là:
• Không nên đặt tên một biến số hay variable bằng kí hiệu"_"(underscore)
như my_object hay my-object.
• Không nên đặt tên một object giống như một biến số trong một dữ
liệu. Ví dụ, nếu chúng ta có một data.frame (dữ liệu hay dataset) với
biến số year trong đó, thì không nên có một object trùng tên year, tức
là không nên viết: year <- year. Tuy nhiên, nếu data.frame tên là data
thì chúng ta có thể đề cập đến biến số year với một kí tự $ như sau:
data$year. (Tức là biến số year trong data.frame data), và trong trường
hợp đó, year <- data$year có thể chấp nhận được.

2.1.4

Hỗ trợ trong R

Ngoài lệnh args() R còn cung cấp lệnh help() để người sử dụng có thể
hiểu “văn phạm” của từng hàm. Chẳng hạn như muốn biết hàm lm có
những thông số (arguments) nào, chúng ta chỉ đơn giản lệnh:
> help(lm)
hay
> ?lm
Một cửa sổ sẽ hiện ra bên phải của màn hình chỉ rõ cách sử dụng ra
sao và thậm chí có cả ví dụ. Bạn đọc có thể đơn giản copy và dán ví dụ
vào R để xem cách vận hành.

8


Khóa luận tốt nghiệp Đại học


2.2

Trần Huyền Trang

Lập trình với R

2.2.1

Cách nhập dữ liệu vào R

Ví dụ: Bảng thống kê dưới đây mô tả sự gia tăng dân số của Trung
Quốc giai đoạn 1995 - 2008
Đơn vị: triệu người1
Năm

1995

1996

1997

1998

1999

2000

2001

Dân số 1211.2 1223.9 1236.3 1247.6 1257.9 1267.4 1276.3

Năm

2002

2003

2004

2005

2006

2007

2008

Dân số 1284.5 1292.3 1299.9 1307.6 1314.5 1321.3 1328.0
∗ Nhập dữ liệu đầu vào trong R như sau:
> Nam <- c(1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004,
2005, 2006, 2007, 2008)
> DanSo <- c(1221.2, 1223.9, 1236.3, 1247.6, 1257.9, 1267.4, 1276.3,
1284.5, 1292.3, 1299.9, 1307.6, 1314.5, 1321.3, 1328.0)
•Lệnh thứ nhất cho R biết rằng chúng ta muốn tạo ra một cột dữ
liệu (từ nay tôi sẽ gọi là biến số, tức variable) có tên là Nam, và lệnh
thứ hai là tạo ra một cột khác có tên là DanSo.
•Chúng ta dùng function c (viết tắt của chữ concatenation – có nghĩa
là “móc nối vào nhau”) để nhập dữ liệu. Chú ý rằng mỗi số liệu được
cách nhau bằng một dấu phẩy.
•Kí hiệu DanSo <- (cũng có thể viết là DanSo =) có nghĩa là các số
liệu theo sau sẽ có nằm trong biến số DanSo. Chúng ta sẽ gặp kí hiệu

1

Nguồn: Tổng cục thống kê Việt Nam

9


Khóa luận tốt nghiệp Đại học

Trần Huyền Trang

này rất nhiều lần trong khi sử dụng R.
•DanSo và Nam là hai đối tượng riêng lẻ. Bây giờ chúng ta cần phải
nhập hai đối tượng này thành một data.frame để R có thể xử lí sau này.
→Để làm việc này chúng ta cần đến function data.frame:
> data <- data.frame(DanSo, Nam)
Ngoài cách nhập số liệu trực tiếp như ở ví dụ trên, R còn cho
phép chúng ta:
- Nhập số liệu từ một text file: read.table
- Nhập số liệu từ Excel
- Nhập số liệu từ SPSS
..............
2.2.2

Vẽ biểu đồ trong R

Trở lại ví dụ trên, để tìm hiểu mối liên hệ giữa hai biến, chúng ta dùng
biểu đồ tán xạ. Để vẽ biểu đồ tán xạ về mối liên hệ giữa biến số Nam
và DanSo, chúng ta sử dụng hàm plot.
•Thông số thứ nhất của hàm plot là trục hoành (x-axis) và thông số

thứ 2 là trục tung.
→Để tìm hiểu mối liên hệ giữa Nam và DanSo chúng ta đơn giản lệnh:
> plot(Nam ∼ DanSo, pch=16)
⇒ Kết quả như sau:

10


Khóa luận tốt nghiệp Đại học

Trần Huyền Trang

Biểu đồ mô tả sự gia tăng dân số của Trung Quốc giai đoạn 1995 - 2008

R còn giúp chúng ta vẽ biểu đồ cho một biến số rời rạc, biểu đồ cho hai
biến số rời rạc, biểu đồ hình tròn....
2.2.3

Phân tích hồi quy tuyến tính

Mô hình tuyến tính phát biểu rằng:
Yi = β1 + β2 Xi + Ui
Hàm lm (viết tắt từ linear model) trong R có thể tính toán các giá
trị của β1 , β2 , cũng như s2 một cách nhanh gọn. Nhưng chúng ta phải
đưa các thông tin của hàm lm vào một object. Gọi object đó là reg thì
11


Khóa luận tốt nghiệp Đại học


Trần Huyền Trang

lệnh như sau. Tiếp tục với ví dụ trên bằng R:
> reg <- lm(danso ∼ t)
> summary(reg)
Lệnh thứ hai, summary(reg), yêu cầu R liệt kê các thông tin tính toán
trong reg. Phần kết quả chia làm 3 phần:
(a) Phần 1 mô tả phần dư (residuals) của mô hình hồi qui.
(b) Phần 2 trình bày ước số của β1 và β2 cùng với sai số chuẩn và giá
trị của kiểm định t.
(c) Phần 3 của kết quả cho chúng ta thông tin về phương sai của phần
dư (residual mean square). Trong kết quả này còn có kiểm định F, cũng
chỉ là một kiểm định xem có quả thật β2 bằng 0, tức có ý nghĩa tương
tự như kiểm định t trong phần trên. Nói chung, trong trường hợp phân
tích hồi qui tuyến tính đơn giản (với một yếu tố) chúng ta không cần
phải quan tâm đến kiểm định F.
Ngoài ra, phần 3 còn cho chúng ta một thông tin quan trọng, đó là
trị số R2 hay hệ số xác định bội (coefficient of determination). Tức là
bằng tổng bình phương giữa số ước tính và trung bình chia cho tổng
bình phương số quan sát và trung bình. Giá trị R2 càng cao là một dấu
hiệu cho thấy mối liên hệ giữa hai biến số càng chặt chẽ.
Một hệ số cũng cần đề cập ở đây là hệ số điều chỉnh xác định bội
(mà trong kết quả trên R gọi là “Adjusted R-squared”). Đây là hệ số cho
chúng ta biết mức độ cải tiến của phương sai phần dư (residual variance)
do yếu tố độ tuổi có mặt trong mô hình tuyến tính. Nói chung, hệ số
này không khác mấy so với hệ số xác định bội, và chúng ta cũng không

12



Khóa luận tốt nghiệp Đại học

Trần Huyền Trang

cần chú tâm quá mức.

Trên đây là một số những vấn đề cơ bản của R và cách sử dụng R
trong phân tích mô hình hồi quy hai biến tuyến tính. Ngoài ra, R còn
rất nhiều những ứng dụng khác, nhưng vì điều kiện thời gian không cho
phép, em xin phép sẽ được trình bày cụ thể hơn trong một đề tài khác.

13


Chương 3
Các mô hình hồi quy hai biến
Chúng ta sẽ xem xét các mô hình hồi quy hai biến và thực hành chúng
bằng ngôn ngữ R.

3.1

Mô hình hồi quy qua gốc tọa độ (Regression Through - Origin model)
Dạng tổng quát của hàm hồi quy qua gốc tọa độ:

Yi = β2 Xi + Ui

Yi :

Biến phụ thuộc


Xi :

Biến độc lập

β2 :

Hệ số hồi quy

Ui :

Thành phần nhiễu

14

(3.1)


Khóa luận tốt nghiệp Đại học

Trần Huyền Trang

Bài toán: Biết các quan sát (Xi , Yi ), ta phải tìm hệ số β2 sao cho
tổng bình phương của sai số nhỏ nhất.
Tức là, ta cần tìm β2 sao cho:
2

f (β2 ) =

(Yi − β2 Xi )2 → M in


Ui =

+ Điều kiện cần:
2(Yi − β2 Xi )).(−Xi ) = 0

f (β2 ) =


Xi Yi
X
=
Xi 2
Y

β2 =

+ Điều kiện đủ:
f (β2 ) = 2

Xi 2 > 0

→ β2 là lời giải cực tiểu của f.
+ Ngoài ra, ta có:
V ar(β2 ) =
Trong đó, δ 2 được thay bởi δ 2 :

δ2 =

δ2
Xi 2

Ui2
n−1

=

RSS
n−1 .

+ Đối với mô hình hồi quy qua tốc độ, R2 = 1 -

RSS
T SS

có thể < 0 làm cho

R2 không có ý nghĩa, kiểm định F không thể thực hiện.
Lý do: Với TSS =
Đẳng thức:

(Yi − Y )2 ; ESS =

(Yi − Y )2 ; RSS =

(Yi − Yi )2

TSS = ESS + RSS có thể không được thỏa mãn; ESS,

RSS có thể lớn hơn TSS.

15



Khóa luận tốt nghiệp Đại học

Trần Huyền Trang

2
2
2
∈ (0,1):
) mà giá trị RRaw
Người ta thay R2 bằng Rtho
(RRaw

2
Rtho
=

(

Xi Yi )2
.
Xi 2 Yi 2

+ Ta không thể so sánh R2 thô với R2 do công thức tính khác nhau.
+ Mô hình hồi quy qua gốc tọa độ được sử dụng phải dựa trên cơ sở
lý thuyết kinh tế hoặc có trước kinh nghiệm tốt. Thông thường ta nên
dùng mô hình hồi quy đơn biến bình thường (hồi quy không qua gốc tọa
độ), sau đó kiểm định β1 , xét một trong hai trường hợp xảy ra:
* Nếu hệ số chặn ước lượng khác không, không có ý nghĩa thống kê, ta

có thể sử dụng mô hình hồi quy qua gốc tọa độ.
* Nếu hệ số chặn có ý nghĩa thống kê, ta dùng mô hình bình thường.
+ Nên nhớ, nếu mô hình đúng phải có hệ số tự do β1 , trong khi ta lại
sử dụng mô hình hồi quy qua gốc tọa độ, nghĩa là đã phạm sai số đặc
trưng. Điều này có thể dẫn đến vi phạm các giả thiết mô hình hồi quy
tuyến tính cổ điển.
Ví dụ: Giả sử đối với một hàm sản xuất công nghiệp, biến phụ thuộc
Y là sản lượng sản xuất, biến độc lập X là nguyên vật liệu. Rõ ràng khi
không có nguyên vật liệu (X=0), tất yếu sẽ ngưng sản xuất. Ta chọn
mô hình qua gốc tọa độ sẽ phù hợp hơn mô hình có tung độ góc. Nếu
không, không có nguyên vật liệu mà vẫn có sản phẩm được làm ra (Y
= β1 ).

16


×