Tải bản đầy đủ (.pdf) (85 trang)

Luận văn tốt nghiệp hồi quy tuyến tính và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.01 MB, 85 trang )

1
TRƯỜNG ĐẠI HỌC CẦN THƠ
KHOA KHOA HỌC TỰ NHIÊN
BỘ MÔN TỐN
------------

LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC

HỒI QUY TUYẾN TÍNH VÀ ỨNG DỤNG

GIÁO VIÊN HƯỚNG DẪN

SINH VIÊN THỰC HIỆN

ThS. VÕ VĂN TÀI

LÊ THỊ DIỆU HIỀN

BỘ MƠN TỐN – KHOA KHTN

NGÀNH: TỐN ỨNG DỤNG

Cần Thơ,
Tháng 05/2010


2

LỜI CẢM ƠN
-----------


Tơi xin bày tỏ lịng kính trọng và biết ơn sâu sắc tới Thầy Võ Văn Tài,
người đã tận tình hướng dẫn, chỉ bảo, khích lệ và động viên tơi trong suốt q
trình làm đề tài. Bên cạnh đó Thầy đã giúp tơi hiểu thêm về những vấn đề liên
quan đến đề tài mà bản thân tơi cịn chưa rõ, từ đó giúp tơi mở rộng kiến thức và
thêm yêu ngành của mình hơn.
Để đạt được kết quả như ngày hôm nay, tôi xin gửi lời cảm ơn đến tồn thể
q thầy cơ của Bộ mơn tốn – Khoa Khoa học tự nhiên của trường Đại học Cần
Thơ đã trang bị cho tôi những kiến thức cơ bản, các kỹ năng cần thiết trong suốt
bốn năm tôi học tập tại trường, đây chính là hành trang quý báu, giúp tôi không
chỉ thực hiện tốt đề tài tốt nghiệp mà cịn giúp tơi tự tin vững bước trên con
đường sự nghiệp sắp tới.
Tôi xin cảm ơn quý thầy cô trong Hội đồng bảo vệ đã dành thời gian xem
xét, chỉnh sửa những sai sót cũng như đóng góp ý kiến những mặt còn hạn chế
của đề tài để đề tài được hoàn chỉnh hơn.
Xin chân thành gửi lời cảm ơn đến quý Cô Chú, anh chị làm việc tại Cục
Thống kê thành phố Cần Thơ đã nhiệt tình giúp đỡ tôi, cung cấp cho tôi các số
liệu, thông tin cần thiết trong suốt thời gian thực hiện đề tài này.
Tôi xin cảm ơn các bạn, những người luôn sát cánh cùng tôi, giúp đỡ động
viên tôi trong suốt thời gian qua.
Cuối cùng, tơi xin kính lời cảm ơn đến gia đình tơi, những người đã dạy
dỗ, khuyến khích, động viên và tạo mọi điều kiện tốt nhất cho tôi trong suốt quá
trình học tập.
Dù đã cố gắng hết sức cùng với sự tận tâm của Thầy hướng dẫn song do
trình độ cịn hạn chế nên khó tránh khỏi những thiếu sót. Rất mong nhận được sự
thơng cảm và góp ý của Thầy Cô và các bạn.

Cần Thơ, tháng 5 năm 2010
Lê Thị Diệu Hiền



3

DANH MỤC CÁC TỪ VIẾT TẮT/ KÍ HIỆU

PRF

Hàm hồi quy của tổng thể

OLS

Phương pháp bình phương bé nhất

SST

Tổng biến thiên của biến phụ thuộc

SSR

Biến thiên của hồi quy

SSE

Biến thiên của phần dư

MSE

Bình phương trung bình thặng dư

MSR


Bình phương trung bình hồi quy


4

DANH MỤC CÁC BẢNG

Trang
Bảng 1.1. Mức độ quan hệ tuyến tính của hai biến trong thực tế

6

Bảng 1.2. Bảng tóm tắt kiểm định giả thuyết  = 0

8

Bảng 1.3. Kiểm định giả thuyết về hệ số độ dốc

26

Bảng 1.4. Kiểm định giả thuyết về hệ số tự do

27

Bảng 1.5. Bảng phân tích phương sai của hồi quy

28

Bảng 1.6. Bảng phân tích phương sai cho ví dụ 1.4.


29

Bảng 2.1. Bảng ANOVA cho phân tích hồi quy bội

48

Bảng 2.2. Tóm tắt kiểm định giả thuyết của từng biến độc lập

49

Bảng 2.3. Ý nghĩa tùy chọn và các nút lệnh của hộp thoại Regression

58


5

DANH MỤC CÁC HÌNH

Trang
Hình 1.1. Số liệu rời rạc của ví dụ 1.1. trên trục Oxy

8

Hình 1.2. Biểu diễn ý nghĩa của hệ số tự do  0

14

Hình 1.3. Độ lệch của các trị quan sát so với giá trị ước lượng


17

Hình 1.4. Đồ thị phân tán của doanh số bán được và số năm
kinh nghiệm

20

Hình 1.5. Minh họa tổng bình phương của các sự sai lệch

25

Hình 1.6. Biểu diễn đường hồi quy mẫu, các khoảng tin cậy
của giá trị trung bình và giá trị cụ thể

32

Hình 2.1. Thực hiện add phần mềm xử lý vào Excel

57

Hình 2.2. Tạo hộp thoại Data Analysis

57

Hình 2.3. Hộp thoại Regression

58


6


MỤC LỤC

PHẦN MỞ ĐẦU

1

1. Vấn đề dự báo........................................................................................ 1
2. Giới thiệu vấn đề nghiên cứu ................................................................. 1
3. Bố cục của luận văn ............................................................................... 2
Chương 1: HỒI QUY TUYẾN TÍNH ĐƠN

4

1.1. Giới thiệu............................................................................................ 4
1.2. Hệ số tương quan ................................................................................ 4
1.2.1. Công thức ..................................................................................... 4
1.2.2. Tính chất và ý nghĩa ...................................................................... 5
1.2.3. Hệ số tương quan mẫu.................................................................. 6
1.2.4. Kiểm định hệ số tương quan......................................................... 8
1.3. Tỷ tương quan..................................................................................... 9
1.3.1. Tỷ số tương quan tổng thể .......................................................... 10
1.3.2. Tỷ số tương quan mẫu ................................................................ 11
1.4. Xây dựng đường hồi quy tuyến tính đơn ........................................... 12
1.4.1. Mơ hình hồi quy tuyến tính đơn của tổng thể ............................. 13
1.4.2. Sai số ngẫu nhiên và bản chất của nó ......................................... 14
1.4.3. Phương trình hồi quy tuyến tính của mẫu ................................... 15
1.5. Các tham số liên quan đến hồi quy tuyến tính đơn ............................ 20
1.5.1. Tham số đặc trưng của hệ số đường hồi quy mẫu ....................... 20
1.5.2. Thặng dư và sai số chuẩn ............................................................ 22

1.5.3. Hệ số xác định............................................................................ 24
1.6. Kiểm định trong hồi quy tuyến tính đơn ............................................ 26
1.6.1. Kiểm định giả thuyết hệ số đường hồi quy ................................. 26
1.6.2. Kiểm định sự tương quan tuyến tính qua hệ số hồi quy .............. 27
1.7. Khoảng ước lượng trong hồi quy ...................................................... 29
1.7.1. Khoảng tin cậy cho hệ số hồi quy ............................................... 29
1.7.2. Khoảng tin cậy của việc dự báo .................................................. 30


7
Chương 2: HỒI QUY TUYẾN TÍNH BỘI ................................................ 33
2.1. Giới thiệu.......................................................................................... 33
2.2. Sự tương quan của nhiều biến định lượng ......................................... 33
2.2.1. Ma trận hệ số tương quan ........................................................... 33
2.2.2. Hệ số tương quan riêng phần ...................................................... 34
2.2.3. Hệ số xác định và hệ số xác định điều chỉnh............................... 34
2.3. Hệ số tương quan các biến định tính ................................................. 37
2.3.1. Hệ số tương quan hạng Spearman .............................................. 37
2.3.2. Hệ số tương quan hạng Kendall ................................................. 39
2.4. Xây dựng đường hồi quy tuyến tính bội ............................................ 41
2.4.1. Phương trình hồi quy tổng thể .................................................... 41
2.4.2. Giả thuyết để xây dựng mô hình hồi quy tuyến tính bội ............. 41
2.4.3. Đường hồi quy mẫu ................................................................... 42
2.5. Một số vấn đề liên quan đến hồi quy tuyến tính bội .......................... 46
2.5.1. Các tham số đặc trưng ................................................................ 46
2.5.2. Kiểm định giả thuyết trong hồi quy bội ...................................... 47
2.5.3. Khoảng tin cậy của các hệ số hồi quy bội ................................... 49
2.6. Hồi quy có biến độc lập định tính ..................................................... 50
2.6.1. Bản chất của biến giả ................................................................. 50
2.6.2. Xây dựng đường hồi quy ............................................................ 51

2.7. Ứng dụng các phần mềm Excel ......................................................... 55
2.7.1. Tổng quát về phần mềm trong Microsoft Excel .......................... 56
2.7.2. Các bước thực hiện trong phân tích tương quan và hồi quy ........ 57
2.8. Một số mơ hình hồi quy phi tuyến đưa về tuyến tính ......................... 62
2.8.1. Dạng log - tuyến tính.................................................................. 62
2.8.2. Mơ hình hồi quy dạng hàm mũ ................................................... 63
2.8.3. Mơ hình Cob-Douglas ................................................................ 64
2.8.4. Một số mơ hình khác .................................................................. 65
Chương 3: MỘT SỐ VÍ DỤ ỨNG DỤNG

68

3.1. Giới thiệu........................................................................................... 68
3.2. Phương pháp thực hiện ..................................................................... 69
3.3. Ví dụ 1 .............................................................................................. 69


8
3.3.1. Dữ liệu ....................................................................................... 69
3.3.2. Các bước thực hiện .................................................................... 71
3.3.3. Một số nhận xét.......................................................................... 72
3.4. Ví dụ 2 .............................................................................................. 74
3.4.1. Dữ liệu ....................................................................................... 74
3.4.2. Các bước thực hiện .................................................................... 75
3.4.3. Một số nhận xét.......................................................................... 76
KẾT LUẬN ................................................................................................. 78
TÀI LIỆU THAM KHẢO .......................................................................... 79


9


PHẦN MỞ ĐẦU

1. Vấn đề dự báo
Dự báo là một công việc quan trọng, không thể thiếu trong mỗi lĩnh vực.
Nó là khoa học và nghệ thuật tiên đốn những sự việc sẽ xảy ra trong tương lai,
trên cơ sở phân tích khoa học về các dữ liệu đã thu thập được. Khi tiến hành dự
báo ta căn cứ vào việc thu thập xử lý số liệu trong quá khứ và hiện tại để xác
định xu hướng vận động của các hiện tượng trong tương lai nhờ vào một số mơ
hình tốn học.
Dự báo có thể là một dự đốn chủ quan hoặc khách quan về tương lai.
Nhưng để cho dự báo được chính xác hơn, người ta cố loại trừ những tính chủ
quan của người dự báo. Dự báo thống kê là một trong những dự báo thỏa mãn
điều kiện này. Dự báo thống kê là một phương pháp thống kê được dùng để
lượng hóa sự tiên đốn các nhân tố ảnh hưởng, các mối quan hệ nhân quả, các
trạng thái hay các quá trình mới, chiều hướng biến động của hiện tượng trên cơ
sở phân tích thực trạng của đối tượng ở quá khứ và hiện tại một cách khoa học.
Dự báo tốt có thể giúp tổ chức hình dung ra tương lai của mình sẽ như thế
nào để hoạch định hướng đi phù hợp. Dự báo có thể được xem như một tập hợp
các công cụ giúp người ta quyết định thực hiện các phán đoán tốt nhất có thể có
về các sự kiện sẽ xảy ra trong tương lai. Dự báo có độ chính xác cao sẽ cung cấp
cơ sở tin cậy cho các hoạch định chính sách cũng như xây dựng các chiến lược
kinh doanh. Các tổ chức đang hoạt động trong một thế giới liên tục thay đổi
nhưng các quyết định phải được thực hiện ngay hơm nay và ảnh hưởng sống cịn
tới tương lai. Vì vậy, dự báo ln ln cần thiết và là một nhu cầu không thể
thiếu được của mọi hoạt động kinh tế - xã hội, khoa học - kỹ thuật, được tất cả
các ngành khoa học quan tâm nghiên cứu.
2. Giới thiệu vấn đề nghiên cứu
Cho đến hiện tại có nhiều phương pháp dự báo khác nhau, nhưng người ta
thường sử dụng 3 phương pháp sau:

-

Dự báo bằng phương pháp chuyên gia.


10
-

Dự báo theo phương trình hồi quy.

-

Dự báo dựa vào dãy số thời gian.

Trong phân tích hoạt động kinh doanh cũng như trong nhiều lĩnh vực
khác, hồi quy là công cụ phân tích đầy sức mạnh khơng thể thay thế. Nó là
phương pháp thống kê dùng để ước lượng, dự báo những sự kiện xảy ra trong
tương lai dựa vào quy luật quá khứ.
Hồi quy là dùng một đường lý thuyết để mô tả luật biến thiên của các
điểm dữ liệu quan sát, giúp nhìn thấy mối liên hệ giữa các biến nghiên cứu diễn
ra theo quy luật nào. Cụ thể hơn, phân tích hồi quy là nghiên cứu mối liên hệ phụ
thuộc của một biến (gọi là biến phụ thuộc) vào một hay nhiều biến khác (gọi là
biến độc lập). Thuật ngữ “hồi quy” được nhà nghiên cứu Francis Galton sử dụng
lần đầu tiên vào cuối thế kỷ 19 trong một nghiên cứu nhằm tìm hiểu tại sao có sự
ổn định trong chiều cao trung bình của dân số, nguyên văn là cụm từ “regression
to mediocrity”-“hồi quy về trung bình”, kể từ đó trở đi vấn đề hồi quy được
nhiều người quan tâm và hoàn thiện qua những ứng dụng có nội dung rộng hơn
nhiều so với nghiên cứu ban đầu mà nó được sử dụng.
Trong các mơ hình hồi quy, hồi quy tuyến tính được xem là nền tảng, cơ
sở để xây dựng các đường hồi quy khác, mơ hình này cũng là mơ hình phổ biến

để diễn tả mối quan hệ giữa các đại lượng trong thực tế. Vì vậy, trong luận văn
này chúng tơi nghiên cứu tất cả những vấn đề liên quan đến hồi quy tuyến tính.
3. Bố cục của luận văn
Nội dung của luận văn gồm có phần mở đầu, phần nội dung, phần kết luận
và danh mục các tài liệu tham khảo.
Phần nội dung gồm có 3 chương: Chương 1, chương 2 và chương 3.
Chương 1: Hồi quy tuyến tính đơn
Chương này nghiên cứu những vấn đề liên quan đến hồi quy tuyến tính
đơn như hệ số tương quan, xây dựng đường hồi quy, các thống kê liên quan đến
hệ số tương quan và đường hồi quy, chương này cũng giới thiệu tỷ tương quan và
hệ số xác định.


11
Chương 2: Hồi quy tuyến tính bội
Chương này giới thiệu về mơ hình hồi quy tuyến tính bội cùng các thống
kê liên quan đến mơ hình này và hồi quy có biến định tính. Chương này trình bày
việc sử dụng phần mềm Excel để xử lý các mơ hình hồi quy nói trên. Cuối
chương, giới thiệu một số mơ hình hồi quy phi tuyến đưa về dạng tuyến tính.
Chương 3: Một số ví dụ ứng dụng của hồi quy tuyến tính
Ngồi những ví dụ minh họa cho các phần lý thuyết của chương 1 và
chương 2. Chúng tôi lấy 2 ví dụ thực để minh họa các bước phân tích hồi quy
trong thực tế. Dữ liệu thứ nhất là điểm thi đầu vào đại học năm 2006 và điểm
trung bình tích lũy các năm học của tất cả sinh viên ngành Tốn ứng dụng K32
niên khóa 2006-2010, trường Đại học Cần Thơ. Dữ liệu thứ hai được xét là tỷ lệ
sinh viên tốt nghiệp trung bình 6 năm của một số trường đại học ở Mỹ có cùng
chuẩn đầu vào với một số vấn đề liên quan như điểm để nhập học vào trường, chi
phí học tập, loại trường học theo giới tính. Dữ liệu này được lấy trong sách
Introduction to Statistics and Data Analysis của nhà xuất bản Trust năm 2008 và
có trên trang web (www.collegeresults.org).



12
Chương 1

HỒI QUY TUYẾN TÍNH ĐƠN

1.1. GIỚI THIỆU
Khi nghiên cứu giữa các đại lượng ngẫu nhiên người ta rất quan tâm đến
vấn đề chúng độc lập hay có mối quan hệ ràng buộc với nhau. Khi các đại lượng
ngẫu nhiên độc lập, việc nghiên cứu các đại lượng ngẫu nhiên phải được tiến
hành một cách riêng biệt. Khi các đại lượng ngẫu nhiên có sự liên hệ với nhau,
khảo sát giá trị của đại lượng ngẫu nhiên này ta có thể suy ra được giá trị của đại
lượng ngẫu nhiên kia và ngược lại. Đây là điều rất có ý nghĩa trong thực tế bởi vì
khơng phải đại lượng ngẫu nhiên nào cũng có thể quan sát, xác định được giá trị
thật của nó một cách trực tiếp. Có hay khơng mối quan hệ giữa các đại lượng,
hình thức quan hệ và mức độ quan hệ cụ thể như thế nào là vấn đề quan trọng
không thể thiếu trong thống kê dự báo. Giữa các đại lượng thường có 2 loại quan
hệ: quan hệ tuyến tính và phi tuyến tính. Trong đó quan hệ tuyến tính là quan hệ
phổ biến cho các đại lượng trong thực tế, đặc biệt trong khoảng thời gian ngắn.
Tham số đánh giá mức độ quan hệ tuyến tính giữa các đại lượng được gọi là hệ
số tương quan và cho quan hệ phi tuyến là tỷ số tương quan. Trong chương này
chúng ta quan tâm đến hệ số tương quan của hai đại lượng và thiết lập đường hồi
quy tuyến tính giữa hai đại lượng này.
1.2. HỆ SỐ TƯƠNG QUAN ĐƠN
1.2.1. Công thức
Hệ số tương quan  xy giữa hai biến ngẫu nhiên x và y với kỳ vọng tương
ứng là µx, µy và độ lệch chuẩn σx, σy được định nghĩa bởi công thức sau:
 xy 




cov( x, y ) E ( x   x )( y   y )

 x y
 x y



(1.1)


13

 x2  E x   E x2 ,


 x2  E  x  E




2


 y2  E  y  E





 y2  E y   E y 2 ,
2

E[(x − E(x))(y − E(y))] = E(xy) − E(x)E(y)
nên (1.1) trở thành
 xy 

E  xy   E  x E  y 

 

E x  E  x 
2

2

 

E y  E  y 
2

2

(1.2)

Hệ số tương quan được định nghĩa bởi (1.1) chỉ đúng nếu các độ lệch
chuẩn khác 0.
1.2.2. Tính chất và ý nghĩa
a) Tính chất
Hệ số tương quan giữa hai biến x và y có các tính chất sau:

i) Hệ số tương quan khơng có đơn vị và có tính hoán đổi:  xy =  yx .
ii)  xy  1 . Hệ số tương quan luôn biến động trong khoảng từ -1 đến 1.
iii)  xy  0 nếu x và y độc lập với nhau hoặc giữa x và y có quan hệ phi
tuyến. Nếu các biến là độc lập thì hệ số tương quan bằng 0. Tuy nhiên, phát biểu
ngược lại khơng đúng, vì hệ số tương quan chỉ phát hiện tương quan tuyến tính
giữa hai biến.
iv)  xy  1 : x và y có mối quan hệ hàm.
v)  xy  0 nếu x và y có mối tương quan thuận,  xy  0 nếu x và y có mối
tương quan nghịch.
b) Ý nghĩa

Hệ số tương quan của hai biến là đại lượng dùng để thể hiện chiều
hướng và độ mạnh hay yếu của mối quan hệ tuyến tính giữa hai biến đó.  xy
càng gần 1 thì mối quan hệ tuyến tính càng chặt chẽ và  xy càng gần 0 thì mối
quan hệ tuyến tính càng yếu đi.
Trong thực tế người ta thường đặt ra các mốc mức độ mạnh yếu của hệ
số tương quan như sau:


14
Bảng 1.1. Mức độ quan hệ tuyến tính của hai biến trong thực tế
Trị số  xy

Mức quan hệ của các đại lượng

 xy = 0

x, y hoàn toàn độc lập với nhau

 xy =1


x, y có quan hệ tuyến tính với nhau

0.0 < r < 0.3

Mức độ tương quan yếu

0.3 < r < 0.5

Mức độ tương quan trung bình

0.5 < r < 0.7

Mức độ tương quan tương đối chặt

0.7 < r < 0.9

Mức độ tương quan chặt

0.9 < r < 1

Mức độ tương quan rất chặt

1.2.3. Hệ số tương quan mẫu
Muốn biết được  xy chúng ta cần biết phân bố của tổng thể bao gồm tất cả
các giá trị của cặp (x,y). Tuy nhiên số liệu này thường khơng thể đầy đủ, vì vậy
chúng ta tiến hành ước lượng hệ số tương quan này từ số liệu mẫu có được. Giá
trị ước lượng này được gọi là hệ số tương quan mẫu.
Giả sử ta có một mẫu gồm n phần tử xi , y i  với i =1, 2, … , n và cặp số
n


liệu xi , y i  xuất hiện với tần số mi ,  mi  n . Khi đó hệ số tương quan mẫu của
i 1

hai biến x và y được xác định từ (1.1) bằng cách thay trung bình tổng thể bằng
trung bình mẫu. Cụ thể
rxy 

xy  x . y
2

x  (x ) 2 . y 2  ( y) 2

(1.3)


x

1 n

1 n

1 n

  mi xi  , y    mi y i  , x 2    mi xi2  ,
n  i 1
n  i 1
n  i 1





y2 

1 n

1 n

  mi y 2 i  , xy    mi xi y i 
n  i 1
n  i 1



nên (1.3) trở thành

rxy 

1 n
 1  n
 n

  mi x i y i   2   mi xi   mi y i 
n  i 1
 n  i 1
 i 1

2
n
1 n


   m x 2   1   m x  
 n  i 1 i i  n 2  i 1 i i  



2
n
1 n

   m y 2   1   m y  
 n  i 1 i i  n 2  i 1 i i  



Trong trường hợp các tần số mi đều bằng 1 thì (1.4) trở thành

(1.4)


15

rxy 

1 n
 1  n  n 
  xi y i   2   xi   y i 
n  i 1
 n  i 1  i 1 
2

n
1 n

   x 2   1   x  
 n  i 1 i  n 2  i 1 i  



(1.5)

2
n
1 n

   y 2   1   y  
 n  i 1 i  n 2  i 1 i  



Rút gọn công thức (1.5) ta được
n

 ( x  x )( y  y )
i

i

i 1

rxy 


n

(1.6)

n
2

 (x  x ) .  ( y  y )
i

2

i

i 1

i 1

1 n
1 n
Trong đó x   xi và y   yi .
n i 1
n i 1

Ví dụ 1.1. Tính hệ số tương quan giữa 2 biến x, y được cho bởi bảng tương quan
như sau:
x
y


0
6

1
5

2
7

3
8

4
4

Giải
Từ số liệu trên ta có x 

10
30
 2, y 
 6 , n = 5. Khi đó ta có bảng tính
5
5

như sau:
STT
1
2
3

4
5



xi

0
1
2
3
4
10

yi

( xi  x )

6
5
7
8
4
30

( yi  y )

-2
-1
0

1
2

( xi  x )2

0
-1
1
2
-2

( yi  y )2

4
1
0
1
4
10

( xi  x )( yi  y )

0
1
1
4
4
10

Áp dụng cơng thức (1.6) ta có

5

 (x
r

i

 x )( y i  y )

i 1

5

(x
i 1

5
i

 x ) 2  ( yi  y ) 2



1
 0.1
10.10

i 1

Như vậy giữa hai đại lượng x và y có quan hệ tuyến tính nghịch yếu.


0
1
0
2
-4
-1


16

Hình 1.1. Số liệu rời rạc của ví dụ 1.1. trên trục Oxy
1.2.4. Kiểm định hệ số tương quan
a) So sánh hệ số tương quan  với 0
Các bước thực hiện và cơng thức tính cụ thể được cho bởi bảng 1.2.
Bảng 1.2. Bảng tóm tắt kiểm định giả thuyết  = 0
Một phía phải

Một phía trái

Hai phía

H0 :   0

H0 :   0

H0 :   0

H1 :   0


H1 :   0

H1 :   0

Đặt giả thuyết
Giá trị quan sát

t

Quyết định bác
bỏ H 0 khi

t  t n 2,

t  t n 2,

r
1  r 2 
n  2
t  t n 2, / 2 hoặc t  t n 2, / 2

Trong đó
t n 2, là phân vị Student với bậc tự do (n  2) , mức xác suất  ,

r là hệ số tương quan mẫu,
n là cỡ mẫu.

Kiểm định hai phía được sử dụng khi khơng biết trước chiều hướng của
mối liên hệ. Nếu có thể xác định trước chiều hướng của mối liên hệ, ta thực hiện
kiểm định một phía, bên trái hoặc bên phải.

Ví dụ 1.2. Lấy mẫu ngẫu nhiên 2 biến x và y ta có các giá trị ( xi , yi ) được cho bởi
bảng sau:
x
y

13
70

18
55

9
100

25
40

a) Tìm hệ số tương quan mẫu giữa hai biến x và y.

36
15

19
20


17
b) Kiểm định giả thuyết cho rằng giữa x và y không tương quan, với mức ý
nghĩa   5% .
Giải

a) Ta có bảng tính tốn sau:
STT

yi

xi

( xi  x )

( yi  y )

1
2
3
4
5
6

70
55
100
40
15
20
300

13
18
9
25

36
19
120

-7
-2
-11
5
16
-1

20
5
50
-10
-35
-30


x

( xi  x )2 ( yi  y )2

49
4
121
25
256
1
456


400
25
2500
100
1225
900
5150

( xi  x )( yi  y )

-140
-10
-550
-50
-560
30
-1280

120
300
 20 , y 
 50 , n = 6
6
6

Hệ số tương quan được xác định như sau:
6

 (x

r

i

 x )( y i  y )

i 1

6

(x
i 1



5
i

 x ) 2  ( yi  y ) 2

 1280
 0.8353
456.5150

i 1

Hai đại lượng x và y có sự tương quan mạnh vì r  0.8353 .
b) Chọn giả thuyết H 0 :   0 và đối thuyết H 1 :   0
Giá trị t n 2, / 2  t 4; 2.5%  2.776
Giá trị quan sát

t

r

1  r 
2



 0.8353

1  (0.8353) 

n  2 

2

 3.0386

4

Vì t  3.0386  t 4; 2.5%  2.776 nên ta bác bỏ H 0 , tức là có mối liên hệ
tuyến tính giữa các biến x và y.
1.3. TỶ TƯƠNG QUAN
Hệ số tương quan đơn chỉ để đo mức độ phụ thuộc tuyến tính giữa hai biến
ngẫu nhiên x và y. Giữa hai đại lượng ngẫu nhiên x và y có thể cịn có sự phụ
thuộc phi tuyến. Vì vậy, nếu hệ số tương quan giữa x và y nhỏ hay thậm chí bằng
khơng thì ta cũng khơng thể kết luận giữa x và y khơng có sự tương quan nào, bởi



18
vì giữa chúng vẫn có thể có một hình thức tương quan khác. Vì vậy, người ta
muốn đưa ra một đại lượng mà nó có thể đo mức độ tương quan bất kỳ giữa
chúng. Đại lượng đó được gọi tỷ tương quan.
1.3.1. Tỷ số tương quan tổng thể
a) Công thức
Giả sử Var(y) >0, khi đó tỷ tương quan của hai đại lượng x và y (kí hiệu
 y2 x ) được xác định bởi công thức sau


2

yx

Var ( E ( y / x)) E ( E ( y / x)) 2  ( E ( y )) 2


Var ( y )
E ( y 2 )  ( E ( y )) 2

b) Ý nghĩa
Tỷ số tương quan của hai đại lượng là con số đặc trưng cho mức độ liên
hệ của hai đại lượng này theo một hình thức nào đó. Tỷ số tương quan càng lớn
thì hai đại lượng càng có liên hệ chặt chẽ và ngược lại.
c) Tính chất
Tỷ tương quan có những tính chất sau:
i) 0   2 y x  1 .
ii) Nếu  2 y x  0 thì y và x khơng có phụ thuộc tương quan.
iii) Nếu  y2 x  1 thì E ( y  E ( y / x)) 2  0 hay E ( y / x)  E ( y ) với xác suất
1, có nghĩa là những biến động của x khơng ảnh hưởng gì đến y. Khi đó quan hệ

phụ thuộc hàm giữa x và y không rõ rệt.
iv)  y x   y x .
Chú ý:
i) Hiệu số  2 y x   2 dùng để đo mức độ phụ thuộc phi tuyến giữa y và x.
Nếu hiệu số này càng lớn thì sự tương quan phi tuyến giữa y và x càng mạnh và
ngược lại.
ii) Nếu  2 y x   2 thì ngồi mối liên hệ tuyến tính, y khơng có mối liên
hệ phi tuyến nào nữa đối với x.
iii) Nếu  y2 x khác  2 nhiều thì ngồi mối liên hệ tuyến tính y cịn có mối
liên hệ phi tuyến đối với x.


19
iv) Nếu  y2 x gần 1,  2 gần 0 thì giữa x và y có sự phụ thuộc rất chặt chẽ
nhưng mối liên hệ tuyến tính lại rất yếu. Vì vậy, trong trường hợp này ta khơng
thể dùng liên hệ tuyến tính được mà phải dùng quan hệ phi tuyến.
1.3.2. Tỷ số tương quan mẫu
Giả sử ta có mẫu ngẫu nhiên cỡ n các quan trắc về véctơ hai chiều
( x, y ) : ( x i , y i ), i  1,..., n . Để tính tỷ số tương quan mẫu R y x ta cần tiến hành các

bước sau:
i) Sắp xếp xi và y i thành dãy tăng dần
x1  x 2  ...  xi  ...  x k
y1  y 2  ...  y i  ...  y l
x(1)  x(2)  ...  x(i )  ...  x(k ) ,

k, l  n

y(1)  y(2)  ...  y( j )  ...  y(l ) .
l


ii) Tính

l

l

 nij y j , i  1,..., k ,  n. j y j và
j 1

n

.j

j 1

y2 j

j 1

k

l

i 1 j 1

2


1  l

  nij y j  , i  1,..., k và
iii) Tính


ni .  j 1


k

l

 nij  n ,

Trong đó nij là số phần tử mẫu ( xi , y i ) ,

ij

 nj

i 1

j 1


1  l
  nij y j 



i 1 ni .  j 1


k

n

 nij  ni và
2

iv) Tính
2



1  l
1 l
  nij y j     n. j y j 




n  j 1
i 1 ni .  j 1



2
l

1 l
n. j ( y j ) 2    n. j y j 


n  j 1
j 1

k

R2y x

2

(1.7)

Tương tự ta cũng có
2

l

R2y x 

1  k
1 k


n
x



  ni. x i 



ij i
n  i 1
j 1 n. j  i 1


k

1 k

n. j ( y j )    ni. xi 

n  i 1
i 1


2

2

2

Chú ý công thức không thay đổi qua phép biến đổi tuyến tính.
Ví dụ 1.3. Kết quả thu hoạch y theo lượng phân bón x của một loại hoa màu trên
100 thửa ruộng được cho dưới dạng bảng sau. Hãy tính tỷ số tương quan mẫu
R2 y x .


20
xi


20

25

10

8
12

30

35

40

yi

140
150
160
170
180

7
28

6
8


9
12

Giải
Đặt u i 

xi  30
, ta có bảng tính sau:
5

yi
xi

ui

20
25
30
35
40

-2
-1
0
1
2

nj
k


n u
ij

140

150

160

170

180

ni

ni u i

ni u 2 i

10
8
0
0
0
18
-28

0
12
7

0
0
19
-12

0
0
28
6
0
34
6

0
0
0
8
9
17
26

0
0
0
0
12
12
24

10

20
35
14
21
100

-20
-20
0
14
42
16

40
20
0
14
84
158

784

144

36

676

576


43.5

7.58

1.06

39.76 48

i

i 1

 k

  nij u i 
 i 1


2

1  k

  nij u i 
n j  i 1


2

139.9


Khi đó
1
(16) 2
137.34
100


 0.8836
1
155.44
2
158 
(16)
100
139.9 

R2y x

1.4. XÂY DỰNG ĐƯỜNG HỒI QUY TUYẾN TÍNH ĐƠN
Mục tiêu của phân tích hồi quy là mơ hình hóa mối liên hệ, nghĩa là từ các
dữ liệu mẫu thu thập được ta cố gắng xây dựng một mơ hình tốn học nhằm thể
hiện một cách tốt nhất mối liên hệ giữa chúng. Trong mơ hình hồi quy tuyến tính
đơn, ta nghiên cứu mối liên hệ tuyến tính giữa x và y, trong đó x ảnh hưởng đến y
và y được xem là phụ thuộc vào x theo một đường thẳng.


21
1.4.1. Mơ hình hồi quy tuyến tính đơn của tổng thể
Hàm hồi quy của tổng thể cho ta biết giá trị trung bình của biến y sẽ thay
đổi như thế nào khi biết x nhận các giá trị khác nhau. Để xác định dạng của hàm

hồi quy tổng thể người ta thường dựa vào đồ thị biểu diễn sự biến thiên của dãy
số liệu quan sát về x và y kết hợp với việc phân tích bản chất của vấn đề cần
nghiên cứu.
Chúng ta xét trường hợp đơn giản nhất là hàm PRF có dạng tuyến tính
E  y x    0  1 x

(1.8)

Trong đó  0 , 1 là các tham số chưa biết nhưng cố định và được gọi là hệ
số hồi quy. Ý nghĩa của hai hệ số này như sau:
i)  0 là hệ số tự do, hay hệ số tung độ gốc (hệ số chặn).  0 cho biết giá trị
trung bình của biến phụ thuộc y là bao nhiêu khi biến độc lập x nhận giá trị 0. Ý
nghĩa của  0 vừa nêu trên chỉ có tính chất lý thuyết, sự suy diễn này chỉ phù hợp
nếu trong tổng thể x có nhận giá trị 0, khi điều này khơng xảy ra thì sự diễn giải ý
nghĩa của  0 trong mơ hình hồi quy khơng hợp lý lắm, người ta có thể coi nó
như ảnh hưởng trung bình của tất cả các biến số khác khơng có mặt trong mơ
hình mặc dù nó có ảnh hưởng lên y và thông thường trong diễn dịch ý nghĩa của
các hệ số hồi quy người ta không đề cặp nhiều đến hệ số tung độ gốc. Chẳng hạn
hàm E  y x    0   1 x , trong đó y là lượng hàng bán được của một loại hàng, x là
giá bán của loại hàng đó. Trường hợp này  0 khơng phải là lượng hàng bán trung
bình khi x (giá bán) bằng 0. Vì trong thực tế khơng có giá bán bằng 0. Hàm hồi
quy nêu trên phản ánh mối liên hệ của lượng hàng bán được và giá bán và hàm
này chỉ có ý nghĩa khi x nhận giá trị trong khoảng ( x1 , x 2 ) nào đó. Ngồi khoảng
này thì hàm khơng có ý nghĩa. Khi đó ta cần hiểu  0 chỉ là giao điểm của đường
thẳng biểu diễn hàm hồi quy nêu trên với trục tung. Ta có thể minh họa bằng
hình như sau:


22


Y

0
E  y x    0  1 x

0

x1

x2

X

Hình 1.2. Biểu diễn ý nghĩa của hệ số tự do  0
ii) 1 là hệ số độ dốc. 1 cho biết giá trị trung bình của biến phụ thuộc (y)
sẽ thay đổi (tăng hoặc giảm) bao nhiêu đơn vị khi giá trị của biến độc lập (x) tăng
một đơn vị với điều kiện các yếu tố khác không thay đổi. Hệ số độ dốc của tổng
thể có thể dương, âm hoặc bằng 0 phụ thuộc vào mối liên hệ giữa x và y. Chẳng
hạn một hệ số độ dốc bằng 20 có nghĩa là khi x tăng 1 đơn vị chúng ta có thể kỳ
vọng trung bình y tăng 20 đơn vị, ngược lại nếu biết 1 = -20 thì chúng ta kỳ
vọng trung bình y giảm 20 đơn vị cho mỗi đơn vị gia tăng của x.
1.4.2. Sai số ngẫu nhiên và bản chất của nó
Mối liên hệ giữa hai điểm bất kỳ xi và y i thực tế được mô tả như sau:
y i   0   1 xi   i ; i  1,2,..., n

(1.9)

Giả sử E ( i )  0,Var ( i )   2 và  i là những biến ngẫu nhiên không tương
quan.  i là chênh lệch giữa giá trị thực tế y i và giá trị E  y xi  được xác định từ
đường lý thuyết bằng cách thay thế giá trị xi vào phương trình có dạng

E  y x    0   1 x . Về mặt hình học có thể nhận thấy giá trị của các  i này được

xác định bởi khoảng cách giữa đường lý thuyết và điểm dữ liệu thực tế.
Ở đây ta cần phân biệt rõ giá trị y i với giá trị tính tốn được từ đường lý
thuyết, đường lý thuyết là đường thẳng thích hợp hóa mối liên hệ giữa x và y. Nó
thể hiện mối liên hệ cơ bản giữa x và y là liên hệ tuyến tính. Giá trị của biến phụ


23
thuộc tính ra từ đường lý thuyết khi thay thế giá trị xi tương ứng được gọi là giá
trị trung bình của y với điều kiện xi , kí hiệu E  y xi  gọi là giá trị trung bình của y
là vì giá trị E  y xi  này mang tính đại diện, cơ bản cho nhiều giá trị y i thực sự có
thể xảy ra trong cùng một mức độ của xi , do còn các yếu tố ảnh hưởng khác
cũng tác động đến y. Điểm dữ liệu thực tế xi (chính là các chấm phân tán trên đồ
thị) có sự khác biệt với giá trị đo lường lý thuyết tạo ra, sự khác biệt này được thể
hiện bằng yếu tố nhiễu  i . Ta có thể cụ thể hóa về mặt cơng thức  i  y i  E  y xi 
hay y i  E  y xi    i .
1.4.3. Phương trình hồi quy tuyến tính của mẫu
a) Giới thiệu
Hồi quy tuyến tính được hiểu là hồi quy tuyến tính theo tham số, ta
xem xét trường hợp đặc biệt vừa tuyến tính với biến, vừa tuyến tính với tham số.
Trong thực tế ta không thể xác định một cách chính xác các tham số
 0 , 1 của phương trình hồi quy tuyến tính của tổng thể mà chỉ có thể ước lượng

chúng từ các giá trị quan sát mẫu.
Giả sử ta có ( x1 , y1 ), ( x 2 , y 2 ),..., ( x n , y n ) là mẫu gồm n cặp quan sát.
Hàm hồi quy mẫu có dạng
yˆ i  ˆ0  ˆ1 xi , i  1,2,..., n .

(1.10)


Trong đó
yˆ i là ước lượng điểm của E ( y xi ) .

ˆ0 là ước lượng điểm của  0 .

ˆ1 là ước lượng điểm của 1 .

Dạng ngẫu nhiên của phương trình trên là
y i  ˆ0  ˆ1 xi  ei , i  1,2,..., n

(1.11)

Trong đó ei là ước lượng điểm của  i và gọi là phần dư.
b) Phương pháp bình phương bé nhất
Thơng thường các điểm dữ liệu quan sát không nằm trên cùng một
đường thẳng. Chúng ta có thể kẻ nhiều đường thẳng xuyên qua các điểm dữ liệu
này, vấn đề là tìm ra một đường thẳng mô tả gần nhất xu hướng này.


24
Để tìm đường thẳng thích hợp ta tìm đường thẳng mà sự khác biệt giữa
giá trị thực tế y i và giá trị tìm thấy từ đường hồi quy yˆ i là nhỏ nhất có thể, tức là
n

xác định

(y

i


 yˆ i )  min . Tuy nhiên vì sự khác biệt này có thể dương, âm hay

i 1

tùy vị trí của điểm phân tán thực nằm phía nào so với đường thẳng nên người ta
n

xác định

(y

i

 yˆ i ) 2  min . Phương pháp này gọi là phương pháp bình phương

i 1

bé nhất.
Phương pháp bình phương nhỏ nhất do nhà toán học Đức Carl
Friedrich Gauss đề xuất. Đây là phương pháp chủ yếu được sử dụng để tìm hệ số
của đường hồi quy.
Chú ý
Chú ý 1: Khi thực hiện phương pháp bình phương bé nhất ta có kết quả
như sau:
i) ˆ0 , ˆ1 được xác định duy nhất ứng với n cặp quan sát ( xi , y i ) .
ii) ˆ0 , ˆ1 là các ước lượng điểm của  0 , 1 và các đại lượng ngẫu
nhiên, với các mẫu khác nhau chúng có giá trị khác nhau.
iii) yˆ i  ˆ0  ˆ1 xi đi qua trung bình mẫu ( x , y ) , nghĩa là y  ˆ0  ˆ1 x .
iv) Giá trị trung bình của yˆ i bằng giá trị trung bình của các quan sát:

yˆ  y .
n

v) Trung bình các phần dư bằng 0:

e

i

 0.

i 1

n

vi) Các phần dư ei không tương quan với yˆ i , tức là

 yˆ e

i i

 0.

i 1
n

vii) Các phần dư ei không tương quan với xi , tức là

x e


i i

 0.

i 1

Chú ý 2: Để tìm đường hồi quy bằng phương pháp bình phương bé nhất các
giả thuyết sau phải được thỏa mãn:
i) Biến độc lập là khơng ngẫu nhiên.
ii) Trung bình sai số ngẫu nhiên bằng 0.
iii) Phương sai của sai số ngẫu nhiên là không đổi.
iv) Các sai số ngẫu nhiên là không tương quan.


25
v) Sai số ngẫu nhiên và biến độc lập không tương quan.
c) Ước lượng các tham số
2
Gọi e i là bình phương các độ lệch, ta có

n

y
i 1

n

i






2

2
 yˆ i    y i  ˆ0  ˆ1 x i
i 1





n



 min Q ˆ0 , ˆ1  min  y i  ˆ0  ˆ1 xi



2

i 1

Y
yi

Đường hồi quy bình quân bé nhất.
Độ lệch (deviation): yi  yˆ


yˆ i  ˆ0  ˆ1 xi



0

X

xi

Hình 1.3. Độ lệch của các trị quan sát so với giá trị ước lượng
Để tìm ˆ0 và ˆ1 thỏa mãn điều kiện trên ta giải hệ phương trình

ˆ

n

 y

i

 ˆ0  ˆ1 xi



 y

 ˆ0  ˆ1 xi




2

0

0 i 1


ˆ

n

i

2

(1.12)

0

1 i 1

n





(1.13a)




 

(1.13b)

 2 y i  ˆ0  ˆ1 xi  0
i 1
n

 2 y i  ˆ0  ˆ1 xi x i  0
i 1

Phương trình (1.13a) tương đương
n

n

 y   ˆ
i

i 1

0

 ˆ1 xi

i 1


n

 ny  nˆ0  ˆ1  xi
i 1

 ny  nˆ0  nˆ1 x
 y  ˆ0  ˆ1 x


×