Tải bản đầy đủ (.pdf) (100 trang)

Hồi quy tuyến tính bội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (884.51 KB, 100 trang )

Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

TRƯỜNG ĐẠI HỌC CẦN THƠ
KHOA SƯ PHẠM
BỘ MƠN TỐN

LUẬN VĂN TỐT NGHIỆP

Đề tài:

HỒI QUY TUYẾN TÍNH BỘI

GVHD:
Ths.HỒ HỮU HỊA

Sinh viên thực hiện:
Trần Thụy Huế Thanh
MSSV : 1062571
Lớp: Sư phạm Toán Tin K32

Cần Thơ-04/ 2010

Trang 1


Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh


LỜI CẢM ƠN
Gần bốn năm học tập và tích luỹ kiến thức trên giảng đường
và trải qua bảy tháng làm luận văn, tơi đã đạt được kết quả như
mong đợi là hồn thành luận văn với vốn kiến thức của mình. Để
có được như vậy là nhờ sự giúp đỡ tận tình của các thầy cơ trong
Bộ mơn Tốn Khoa Sư phạm. Đặc biệt là thầy Hồ Hữu Hòa và
các bạn sinh viên cùng bộ môn đã tạo điều kiện tốt nhất cho tơi
hồn thành đề tài luận văn của mình. Tơi xin chân thành gởi đến
quý thầy cô và các bạn lời cám ơn sâu sắc nhất.
Cuối cùng, tôi xin gởi lời chúc sức khỏe đến quý thầy cô
cùng các bạn.
Cần Thơ, ngày 25 tháng 04 năm 2010
Sinh viên thực hiện

Trần Thụy Huế Thanh

Trang i


Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

MỤC LỤC

Trang
Lời cảm ơn
A. PHẦN MỞ ĐẦU................................................................................................... 1
B. PHẦN NỘI DUNG ............................................................................................... 3
CHƯƠNG MỞ ĐẦU: KIẾN THỨC CƠ BẢN ....................................................... 3

1. Định nghĩa xác suất - Không gian xác suất............................................................. 3
1.1  - đại số trên tập hợp ..................................................................................... 3
1.2 Hàm xác suất - Không gian xác suất ............................................................... 4
2. Biến ngẫu nhiên....................................................................................................... 4
2.1 Định nghĩa ....................................................................................................... 4
2.2 Luật phân phối xác suất của biến ngẫu nhiên.................................................. 6
2.3 Các số đặc trưng của biến ngẫu nhiên ............................................................. 7
2.4 Phân vị mức xác suất p .................................................................................... 8
2.5 Các phân phối đặc biệt..................................................................................... 8
3. Biến ngẫu nhiên nhiều chiều ................................................................................. 10
3.1 Định nghĩa ..................................................................................................... 10
3.2 Bảng phân phối xác suất của biến ngẫu nhiên hai chiều rời rạc.................... 10
3.3 Hàm mật độ xác suất của biến ngẫu nhiên hai chiều .................................... 12
3.4 Kì vọng có điều kiện...................................................................................... 14
3.5 Phân phối thực nghiệm hai chiều .................................................................. 15
3.6 Thống kê trong phân phối hai chiều .............................................................. 16
4. Bài toán ước lượng ................................................................................................ 17
4.1 Phương pháp ước lượng điểm........................................................................ 17
4.2 Phương pháp ước lượng khoảng.................................................................... 17
5. Bài toán kiểm định ................................................................................................ 18
5.1 Giả thiết thống kê .......................................................................................... 18
5.2 Kiểm định giả thiết thống kê ......................................................................... 18
5.3 Các bước thực hiện việc kiểm định giả thiết thống kê .................................. 19
CHƯƠNG 1: TƯƠNG QUAN VÀ HỒI QUY...................................................... 20
Trang ii


Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh


1.1 Tương quan ......................................................................................................... 20
1.1.1. Hiệp phương sai:........................................................................................ 20
1.1.2. Hệ số tương quan....................................................................................... 21
1.1.3 Tỷ số tương quan ....................................................................................... 26
1.2 Hồi quy................................................................................................................ 29
1.2.1 Đường hồi quy kì vọng............................................................................... 29
1.2.2 Phương pháp bình phương nhỏ nhất........................................................... 30
CHƯƠNG 2: HỒI QUY TUYẾN TÍNH ĐƠN GIẢN.......................................... 32
2.1.Mơ hình hồi quy tuyến tính đơn giản của tổng thể ............................................. 32
2.2 Phương trình hồi quy tuyến tính đơn giản thực nghiệm ..................................... 33
2.3 Kiểm định giả thiết về mối liên hệ tuyến tính..................................................... 35
2.3.1 Hệ số xác định ............................................................................................ 35
2.3.2 Kiểm định F ................................................................................................ 37
2.3.3 Kiểm định t ................................................................................................. 38
2.4 Khoảng tin cậy của các hệ số hồi quy ................................................................. 39
2.5 Ước lượng khoảng đối với đường hồi quy đơn giản........................................... 40
2.6 Các ví dụ minh họa ............................................................................................. 41
CHƯƠNG 3: HỒI QUY TUYẾN TÍNH BỘI....................................................... 51
3.1 Mơ hình hồi quy tuyến tính bội của tổng thể ...................................................... 51
3.2 Phương trình hồi quy tuyến tính bội thực nghiệm .............................................. 52
3.3 Phân tích hồi quy dưới dạng ma trận .................................................................. 54
3.4 Kiểm định giả thiết về mối liên hệ tuyến tính..................................................... 56
3.4.1 Hệ số xác định và hệ số xác định đã điều chỉnh......................................... 56
3.4.2 Kiểm định F ................................................................................................ 57
3.4.3 Kiểm định t ................................................................................................. 58
3.5 Khoảng tin cậy của các hệ số hồi quy ................................................................. 59
3.6 Ước lượng khoảng đối với hồi tuyến tính bội..................................................... 60
3.7 Hồi quy tuyến tính hai biến ................................................................................. 61
3.7.1 Phương trình hồi quy tuyến tính hai biến ................................................... 61

3.7.2 Kiểm định giả thiết về mối liên hệ tuyến tính ............................................ 62
3.7.4 Khoảng tin cậy của các hệ số hồi quy ........................................................ 64
3.7.4 Ước lượng khoảng đối với hồi quy hai biến............................................... 64
Trang iii


Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

3.7.5 Các ví dụ minh họa..................................................................................... 65
3.8 Hồi quy tuyến tính ba biến .................................................................................. 75
3.8.1 Phương trình hồi quy tuyến tính ba biến .................................................... 75
3.8.2 Kiểm định giả thiết về mối liên hệ tuyến tính ............................................ 76
3.8.3 Khoảng tin cậy của các hệ số hồi quy ........................................................ 78
3.8.4 Ước lượng khoảng đối với hồi quy ba biến................................................ 78
3.8.5 Các ví dụ minh họa..................................................................................... 79
C. PHẦN KẾT LUẬN............................................................................................. 92
PHỤ LỤC …………………………………………………………………….........93
TÀI LIỆU THAM KHẢO

Trang iv


Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

A. PHẦN MỞ ĐẦU
1. Lí do chọn đề tài

Xác suất thống kê là một ngành Toán học được giảng dạy và học tập ở
bậc cử nhân cũng như sau đại học. Đây là một ngành học có ứng dụng rất
nhiều trong thực tế. Đặc biệt, thống kê, khoa học nghiên cứu các phương pháp
thu thập và xử lý các số liệu nhằm phát hiện các quy luật thống kê trong tự
nhiên và xã hội, đang ngày càng trở nên cần thiết và quan trọng trong đời
sống. Từ việc phân tích các số liệu hiện có để dự đốn được xu hướng trong
tương lai là rất quan trọng không chỉ đối với sự phát triển kinh tế mà cho các
lĩnh vực xã hội khác như sự gia tăng dân số, các vấn đề trong sản xuất nông
nghiệp và cả trong y học. Hồi quy - một phần của thống kê đã giúp ta làm
được điều này. Trong khn khổ của chương trình đào tạo ở đại học thì chúng
tơi chỉ được giới thiệu về một phần nhỏ của lĩnh vực này: đó là phương trình
hồi quy đơn giản. Với mục đích tìm tịi học hỏi thêm về phân mơn hứng thú
này để tích lũy kiến thức cho việc nghiên cứu về sau tôi đã chọn đề tài “Hồi
quy tuyến tính bội”.

2. Lịch sử vấn đề
Xác suất thống kê là một ngành khoa học ra đời cách đây đã lâu. Vì
vậy, xác suất thống kê đã đạt được nhiều thành tựu to lớn và được ứng dụng
nhiều trong thực tế. Các quyển sách về xác suất thống kê được viết ngày càng
nhiều. Nội dung khơng chỉ nói về những kết quả mang tính lý thuyết tốn học
mà cịn nói về các ứng dụng thực tế của xác suất thống kê đặc biệt là thống kê.
Vì vậy, là một sinh viên ngành Tốn tơi mong muốn được tìm hiểu mơn học
thú vị này nhiều hơn và tơi nghĩ rằng có nhiều sinh viên khác cũng có nhu cầu
như vậy. Cho nên với đề tài này một mặt giúp tơi làm quen với việc nghiên
cứu tốn học, mặt khác nó có thể làm một tài liệu tham khảo cho các bạn u
thích mơn học này.

Trang 1



Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

3. Mục đích nghiên cứu
Tơi nghiên cứu đề tài này với mục đích:
 Tổng hợp các kiến thức cơ bản về tương quan hồi quy, chủ yếu là
hồi quy tuyến tính bội được biểu hiện cụ thể qua mơ hình hồi quy
tuyến tính hai biến và hồi quy tuyến tính ba biến.
 Đưa ra các ví dụ cụ thể cho từng dạng, đó cũng là những bài tập liên
quan đến vấn đề.

4. Nội dung nghiên cứu
Trong khuôn khổ của đề tài, tôi chỉ nghiên cứu các vấn đề cơ bản về lý
thuyết và một vài ví dụ minh họa cho mơ hình hồi quy tuyến tính đơn giản và
hồi quy tuyến tính bội, cụ thể là hồi quy tuyến tính hai biến và hồi quy tuyến
tính ba biến.

5. Phương pháp nghiên cứu
Trong q trình thực hiện đề tài, tơi đã thực hiện nhiều phương pháp
khác nhau để nghiên cứu. Ở đây, chủ yếu tơi sử dụng phương pháp phân tích,
tổng hợp, khái quát các nguồn tư liệu sưu tầm được và có liên quan đến vấn
đề. Trên cơ sở đó chọn lọc, thống kê lại theo một hệ thống logic sao cho phù
hợp.
Thêm vào đó, được sự giúp đỡ tận tình của các thầy cơ đặc biệt là thầy
Hồ Hữu Hịa, người đã tận tình hướng dẫn để tơi hồn thành tốt đề tài này.

Trang 2



Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

B. PHẦN NỘI DUNG
CHƯƠNG MỞ ĐẦU: KIẾN THỨC CƠ BẢN
1. Định nghĩa xác suất- không gian xác suất
1.1  - đại số trên tập hợp
Cho tập hợp   W1 , W2 , W3 ,....   (hữu hạn hoặc vô hạn). Kí hiệu
P () là tập hợp tất cả các tập con của  .

Tập hợp khác rỗng F  P() với các phép toán hợp, giao, phần bù tập
hợp được gọi là một  - đại số trên tập  nếu:
i/ A  F  A  F .


ii/ Ai  F , i  1, 2,...   Ai  F .
i 1

Từ định nghĩa trên ta chứng minh được: nếu F là một  - đại số trên 
thì:

i /   F.
ii /  F .
iii / A, B  F  A  B  F .
n

Mở rộng: Ai  F , i  1.. n   Ai  F .
i 1


iv / A, B  F  C  A \ B  F .
Mỗi phần tử A, B,… của F là một sự kiện ngẫu nhiên. Phần tử W chứa tất
cả các phần tử của  (trong đó có  ) là sự kiện chắc chắn, phần tử  là sự kiện
không thể.
Khi đó, ta có các định nghĩa sau:
- Sự kiện A được gọi là sự kiện thuận lợi của B khi A  B .
- Hai sự kiện tương đương nhau:
A  B

A  B khi 

B  A

hay A  B khi A  B .

- Sự kiện C được gọi là sự kiện tổng của hai sự kiện A và B khi C  A  B .
Trang 3


Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

- Sự kiện C được gọi là sự kiện tích của hai sự kiện A và B khi C  A  B .
- Hai sự kiện A và B được gọi là xung khắc nhau khi A  B   .
- B được gọi là sự kiện đối lập của A khi B  A hay A  B tức là
A B  W
.

A


B




1.2 Hàm xác suất - Không gian xác suất
Cho F là một  - đại số trên tập  . Hàm P : F  R

A  ( A)
được gọi là hàm xác suất nếu P thỏa các điều kiện sau:
i / ( A)  0 A  F .
ii / ()  1.

iii / Ai  F , i  1, 2, ....
Ai  Aj   i  j

 





 i 1



i 1

    Ai    ( Ai ).


Khi đó, bộ ba  , F ,   được gọi là không gian xác suất. Giá trị P(A)
được gọi là xác suất của sự kiện A.
Từ các tiên đề trên có thể chứng minh được các tính chất sau:
i/      0.
ii/ A  B  ( A)  ( B).
iii/ Với A tùy ý thì 0    A  1.
iv/ Với A tùy ý và A là sự kiện đối lập của A thì:

 

  A   A  1 .

2. Biến ngẫu nhiên
2.1 Định nghĩa
Xét không gian xác suất  , F ,   trong đó F là một  - đại số trên tập 
và hàm xác suất P : F  R.
Ánh xạ X : F  R được gọi là đại lượng ngẫu nhiên hay biến ngẫu nhiên.
Với sự kiện A  F , xác suất P(A) = p và giá trị X(A) = a, ta viết P(X = a)
= p (xác suất để biến ngẫu nhiên X nhận giá trị a bằng p).Biến ngẫu nhiên là đại
lượng biến thiên nhận giá trị số phụ thuộc vào kết quả phép thử ngẫu nhiên (một
Trang 4


Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

quy tắc cho ứng mỗi kết quả của phép thử với một số thực) và có thể biết xác
suất để nhận các giá trị đó.

Các biến ngẫu nhiên thường được kí hiệu bởi X, Y, Z hoặc dạng chỉ số
X1, X2, X3,…
Ví dụ 1:
a/ Đặt X là biến ngẫu nhiên nhận giá trị bằng số chấm xuất hiện khi tung
một con xúc xắc thì X nhận các giá trị bằng 1, 2,..., 6 với xác suất như nhau bằng
1/6, đó cũng là xác suất để con xúc xắc xuất hiện 1, 2,…, 6 chấm.
b/ Đặt Y là biến ngẫu nhiên nhận giá trị bằng chiều cao học sinh nam khối
11 của một trường phổ thơng thì Y nhận giá trị bằng 165,1305…cm;
168,5420…cm;… Ở đây, phép thử là đo chiều cao học sinh nam khối 11 của
trường.
Để đơn giản hơn, ta có thể mô tả biến ngẫu nhiên qua một hệ sự kiện

 A1, A2 ,... đầy đủ (  Ai  W chắc chắn) và xung khắc ( Ai . Aj  , i 

j ) trong đó

( A1 )  p1 , ( A2 )  p2 ,… và p1  p2  ...  1 . Như vậy, sau khi thực hiện phép
thử, có một và chỉ một sự kiện của hệ xảy ra. Nếu sự kiện A1 xảy ra thì X nhận
giá trị bằng số x1 (với xác suất p1). Nếu sự kiện A2 xảy ra thì X nhận giá trị bằng
số x2 (với xác suất p2)…
Ví dụ 2:
Một thùng thuốc gồm 100 chai trong đó có 10 chai bị hư. Lấy đồng thời 6
chai để kiểm tra và nếu có từ 2 chai hư trở lên thì thùng thuốc bị loại, ngược lại,
thùng thuốc được chấp nhận.
Biến ngẫu nhiên X xác định như sau: nếu thùng thuốc bị loại thì X nhận
giá trị bằng 0, nếu thùng thuốc được chấp nhận thì X nhận giá trị bằng 1. Khi đó,
X nhận hai giá trị {0,1} với các xác suất: P(X = 0) = 0,109; P(X = 1) = 0,891.
Ta thấy X nhận giá trị 0 với nhiều khả năng: lấy được 2, 3,…, 6 chai hư, X
nhận giá trị 1 với hai khả năng: lấy được 0, 1 chai hư nhưng X được mô tả đơn
giản hơn bởi hệ gồm hai sự kiện đầy đủ, xung khắc: {thùng thuốc bị loại, thùng

thuốc được chấp nhận}.
Các biến ngẫu nhiên được chia làm hai loại:
-

Biến ngẫu nhiên rời rạc: biến ngẫu nhiên nhận hữu hạn hoặc vô hạn đếm

được giá trị.
Trang 5


Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

Chẳng hạn, biến ngẫu nhiên X trong Ví dụ 1a, biến ngẫu nhiên X trong Ví
dụ 2.
-

Biến ngẫu nhiên liên tục: biến ngẫu nhiên có thể nhận vơ hạn nhiều hơn

đếm được giá trị. Nói cách khác, các giá trị nhận được của biến ngẫu nhiên liên
tục có thể lấp đầy ít nhất một khoảng số thực (a, b).
Chẳng hạn, biến ngẫu nhiên Y trong Ví dụ 1b.
Những biến ngẫu nhiên chỉ độ dài, thể tích, dung tích, khối lượng, thời
gian,… là biến ngẫu nhiên liên tục.
Bằng cách phân hoạch miền giá trị thành các lớp, ta có thể chuyển biến ngẫu
nhiên liên tục xấp xỉ biến ngẫu nhiên rời rạc.
2.2 Luật phân phối xác suất của biến ngẫu nhiên
Luật phân phối xác suất của biến ngẫu nhiên là sơ đồ (bảng, đồ thị,…)
trong đó chỉ ra:

 Các giá trị có thể nhận được của biến ngẫu nhiên.
 Xác suất tương ứng để biến ngẫu nhiên nhận các giá trị.
2.2.1 Luật phân phối xác suất của biến ngẫu nhiên rời rạc
Luật phân phối xác suất của biến ngẫu nhiên X rời rạc được thể hiện bởi
bảng sau (giả thiết X nhận hữu hạn giá trị n, trường hợp X nhận vô hạn giá trị
trình bày tương tự)
X

x1

x2



xi



xn

P

p1

p2



pi




pn

trong đó:
xi (i=1..n) là các giá trị phân biệt của X;
i / pi  0, i  1..n.

n
pi=P(X= xi) là xác suất để X nhận giá trị xi thỏa mãn 
ii
/
pi  1.


i 1


2.2.2 Luật phân phối xác suất của biến ngẫu nhiên liên tục
Luật phân phối xác suất của biến ngẫu nhiên liên tục X được biểu thị bởi
đồ thị hàm số y = f(x) xác định trên  ,   thỏa mãn
Trang 6


Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

i / f ( x)  0, x.




ii /  f ( x)dx  1.



Điều kiện i/ cho thấy đồ thị hàm y = f(x) ở phía trên trục hồnh Ox và từ
điều kiện ii/ suy ra diện tích tạo bởi hàm y = f(x) với trục hoành Ox bằng 1.
Hàm y = f(x) được gọi là hàm mật độ xác suất của biến ngẫu nhiên X.
Với đại lượng X liên tục, ta có:
 P(X = c) = 0.


b

(a  X  b)  (a  X  b)  (a  X  b)  (a  X  b)   f ( x)dx,
a

bằng diện tích hình thang cong cạnh trái x = a, cạnh phải x = b.
2.3 Các số đặc trưng của biến ngẫu nhiên
2.3.1 Kì vọng của biến ngẫu nhiên
Kì vọng của biến ngẫu nhiên X, kí hiệu E(X) được xác định như sau:
n

X rời rạc có luật phân phối

X

xi


P

pi

thì ( )   xi pi .
i 1



X liên tục có hàm mật độ xác suất y = f(x) thì E(X) =

 xf ( x)dx.



2.3.2 Phương sai
2.3.2.1 Định nghĩa
Phương sai của biến ngẫu nhiên X, kí hiệu D(X) là giá trị được xác định
bởi hệ thức D(X) = E[X- E(X)]2.
Như vậy, phương sai là trung bình (theo xác suất) của bình phương độ sai
lệch giữa các giá trị của biến ngẫu nhiên với kì vọng (trung bình) của nó.
Đặt E(X) = a, ta có:
X rời rạc có luật phân phối

X

xi

P


pi

n

thì D(X) =   xi  a  . pi .
i 1



X liên tục có hàm mật độ xác suất y = f(x) thì D(X) =

Trang 7

2

  x  a


2

. f ( x)dx .


Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

2.3.2.2 Cơng thức tính
Đặt E(X) = a và sử dụng các tính chất của kì vọng, ta có: D(X) = E(X2) - a2.


X rời rạc có luật phân phối

X

xi

P

pi

n

thì D(X) =

xi 2 . pi  a 2 .

i 1



X liên tục có hàm mật độ xác suất y = f(x) thì D(X) =

 x . f ( x)dx  a

2

2

.


2.3.3 Độ lệch chuẩn
Độ lệch chuẩn của biến ngẫu nhiên X là  X  D( ).
Kì vọng E(X) có đơn vị đo bằng đơn vị đo của X. Phương sai D(X) có đơn
vị đo bằng bình phương đơn vị đo của X. Như vậy, độ lệch chuẩn  X có đơn vị
đo bằng đơn vị đo của X.
2.4 Phân vị mức xác suất p
Cho biến ngẫu nhiên X liên tục có hàm mật độ xác suất y = f(x), hàm phân
phối xác suất trái y = F(x). Với số p cho trước (0xác suất p là số Xp sao cho
Xp

P(X
 f ( x)dx  p .

Như vậy, phân vị Xp là cận trên của tích phân sao cho tích phân bằng p,
hay Xp là vị trí cạnh phải của hình thang cong sao cho diện tích hình thang cong
bằng p.
2.5 Các phân phối đặc biệt
2.5.1 Phân phối chuẩn N (  ;  2 )
Biến ngẫu nhiên X liên tục, có hàm mật độ xác suất:
f  x 

  x   2 
1
exp   
/ 2  , trong đó  tùy ý,  >0 được gọi là có
   

 2




luật phân phối chuẩn với tham số  và  .
Kí hiệu: X ~ N (  ;  2 ).

Trang 8


Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

Đồ thị hàm mật độ f(x) có dạng hình chng, đối xứng qua đường x = 
x  

và đạt cực đại tại điểm 
1 .
y


 2


 E ( X )  .

Có thể chứng minh được: X ~ N (  ;  2 )  

2
 D( X )   .


2.5.2 Phân phối chuẩn tắc N (0;1)
Trường hợp đặc biệt của phân phối chuẩn, khi  =0 và  =1, biến ngẫu
nhiên Z ~ N(0;1) được gọi là có luật phân phối chuẩn tắc.
Đồ thị hàm mật độ f(x) (hàm Lalpace) có dạng hình chng, đối xứng qua
trục tung, tọa độ đỉnh x=0; y=1/ 2 .
Phân vị chuẩn tắc mức xác suất p là số Zp sao cho: P(Z < Zp) = p.
Do tính chất đối xứng của hàm mật độ nên ta có: Zp= - Z1-p.
2.5.3 Phân phối Student T(n)
Cho các biến ngẫu nhiên Zi, i=1..n, độc lập với nhau, cùng có luật phân
phối chuẩn tắc; khi đó, biến ngẫu nhiên  





n

Z

i 1

2
i

 n

được gọi là có

n


Z

i 1

2
i

n
luật phân phối Student bậc n.
Kí hiệu: T ~ T(n).
Đồ thị hàm mật độ f(x) là đường cong đối xứng qua trục tung.
Khi bậc n  30, đồ thị hàm mật độ tiệm cận đồ thị hàm Laplace nên phân
phối Student xấp xỉ phân phối chuẩn tắc.
Phân vị Student, bậc n, mức xác suất p là số T(n,p) sao cho P(T< T(n,p)) = p.
Các giá trị phân vị được cho trong bảng phụ lục 1.
2.5.4 Phân phối Fisher F(m,n)
Cho các biến ngẫu nhiên độc lập, có cùng có luật phân phối khi bình
 12    22 
/
 được
m
n

 


phương 12 ~  2 (m) , 22 ~  2 (n) ; khi đó, biến ngẫu nhiên F  
gọi là có luật phân phối Fisher, bậc (m, n).
Trang 9



Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

Kí hiệu: F ~ F(m,n).
Đồ thị hàm mật độ f(x) là đường cong không đối xứng.
Phân vị Fisher, bậc (m, n), mức xác suất p là số F(m,n,p) sao cho:
P(F< F(m,n,p)) = p.
Các giá trị phân vị được cho trong bảng phụ lục 2.

3. Biến ngẫu nhiên nhiều chiều
3.1 Định nghĩa
Trong thực tế, ta thường xét đồng thời 2, 3,…, n biến ngẫu nhiên có quan
hệ tương hỗ với nhau, điều này dẫn đến khái niệm biến ngẫu nhiên nhiều chiều,
phân phối nhiều chiều hay vectơ ngẫu nhiên. Nói cách khác, hệ (X,Y, …) với X,
Y,… là các biến ngẫu nhiên lập thành một biến ngẫu nhiên nhiều chiều.
Ví dụ:
a/ Khi kiểm tra sức khỏe của học sinh trong một trường học, người ta
thường khảo sát đồng thời các đại lượng: chiều cao(X), cân nặng(Y), thị lực(Z)…
b/ Khi nghiên cứu một loại sản phẩm ta quan tâm đến nhiều khía cạnh của
nó như: khối lượng(X), kích thước(Y), chất liệu(Z),…
Các biến ngẫu nhiên X, Y, … có thể là biến ngẫu nhiên rời rạc hay liên
tục, tùy theo giá trị nhận được của đại lượng đó.
3.2 Bảng phân phối xác suất của biến ngẫu nhiên hai chiều rời rạc
Luật phân phối xác suất hai chiều (X,Y) được cho bởi bảng (0.1)
Y
pij


y1 

yj 

yN

x1

xi

xM

p11 

p1 j 

p1N

Tổng Y

p1 

Tổng X

X

pi1 




pij 

piN

pi 

pMN


pM 


pM 1 

p1

pMj 
p j 

p N

Trang 10

1

Bảng (0.1)


Hồi quy tuyến tính bội


SVTH: Trần Thụy Huế Thanh

trong đó:

x1 , x2 , ..., xM là các giá trị phân biệt của X;
y1 , y2 , ..., yN là các giá trị phân biệt của Y;

pij = P[(X=xi).(Y=yj)]  0 là xác suất để đồng thời X nhận giá trị xi và Y
nhận giá trị yj, i=1..M, j=1..N;
N

pi    pij  (   xi ) là tổng xác suất theo dòng i, i=1..M;
j 1
M

p j   pij  (Y  y j ) là tổng xác suất theo cột j, j=1..N;
i 1

M

N

M

N

pij   pi    p j  1 .

i 1 j 1
i 1

j 1
 Các biểu thức xác suất có điều kiện:





P  X  x i  . Y  y j 
 = pij là xác suất để X nhận giá
P[(X=xi)/(Y=yj)]= 
p j
P Y  yj





trị xi với điều kiện Y nhận giá trị yj.





P  X  x i  . Y  y j 

P[(Y=yj)/(X=xi)]= 

P  X  xi 

=


pij
là xác suất để Y nhận giá
pi 

trị yj với điều kiện X nhận giá trị xi.
Nếu xét riêng từng thành phần trong phân phối nhiều chiều, ta được phân
phối của mỗi thành phần và được gọi là các phân phối biên (phân phối lề), bởi vì
các xác suất tương ứng của mỗi giá trị là phần tử ở biên (tổng các xác suất theo
dòng hoặc cột).
Với bảng phân phối hai chiều ta có phân phối biên của hai biến ngẫu nhiên
X và Y như sau:
X

x1

x2

P

p1

p2




xi




xM

Y

y1

y2



pi



pM

P

p1

p2



yj
pj

 yN



trong đó:
N

(   xi )  pi    pij , i=1..M;
j 1

M

(Y  y j )  p j   pij , j=1..N.
i 1

Trang 11

pN


Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

Từ luật phân phối của X và Y ta có các số đặc trưng của X và Y như sau:
M

M

i 1

i 1


E(X) =  xi pi  ; D(X) =   xi  ( )  pi  =
2

N

N

j 1

j 1

M

xi2 pi   ( ) 

i 1

E(Y) =  y j p j ; D(Y) =   y j  (Y )  p j =
2

2

N

;  X  D( X ) ;

y 2j p j  (Y ) 

j 1


2

;  Y  D(Y ) .

Ví dụ: Cho phân phối hai chiều (X,Y) trong bảng (0.2)
Y
pij

0,5

1

1,5

2

2,5

pi 

3

X
1

0,01 0,06 0,07 0,03 0,04 0,02

0,23

2


0,02 0,09 0,06 0,05 0,06 0,03

0,31

3

0,01 0,03 0,02 0,01 0,04 0,06

0,17

4

0,08 0,07 0,06 0,03 0,02 0,03

0,29

p j

0,12 0,25 0,21 0,12 0,16 0,14

1

Bảng (0.2)

Khi đó ta có bảng phân phối biên của X và Y như sau:
X

1


2

3

4

Y

0,5

P

0,23

0,31

0,17

0,29

P

0,12 0,25 0,21 0,12 0,16 0,14

1

1,5

2


2,5

3

Từ đó, ta tính được các số đặc
trưng:
E(X) = 2,52; D(X) = 1,29;  X = 1,14;
E(Y) = 1,69; D(Y) = 0,65;  Y = 0,81.
3.3 Hàm mật độ xác suất của biến ngẫu nhiên hai chiều
Xét biến ngẫu nhiên hai chiều liên tục (X,Y) có hàm phân phối xác suất
F(x,y) liên tục và có các đạo hàm riêng bậc hai. Ta gọi f (x,y) =
hàm mật độ xác suất của biến ngẫu nhiên hai chiều (X,Y).

Trang 12

 2 F ( x, y )

xy


Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

Tương tự như trường hợp một chiều, ta có thể dẫn ra một số tính chất của
hàm mật độ xác suất hai chiều như sau:
i/ f (x,y)  0;
x

ii/ F(x,y)=


y



f (u, v)dudv ;

 

 

iii/

  f ( x, y)dxdy  1;

iv/ P[(X,Y)  D] =

D f ( x, y)dxdy .

Ta có hàm mật độ biên của biến ngẫu nhiên (X,Y) như sau:

f1 ( x) 





f ( x, y )dy ;




f 2 ( y) 



 f ( x, y)dx .

Nhận xét:
Hai biến ngẫu nhiên liên tục X và Y được gọi là độc lập nếu
f(x,y)=f1(x).f2(y). Trường hợp ngược lại, nếu f(x,y)  f1(x).f2(y) thì X và Y được
gọi là khơng độc lập hay phụ thuộc nhau.
Khi đó, ta đưa ra khái niệm:
Hàm mật độ xác suất có điều kiện của thành phần X với Y = y, ký hiệu
f(x/y), là biểu thức:

f ( x / y) 

f ( x, y )
f ( x, y )
 
.
f 2 ( y)
 f ( x, y)dx


Tương tự, hàm mật độ xác suất có điều kiện của thành phần Y với X = x
là:

f ( y / x) 


f ( x, y )
f ( x, y )
 
.
f1 ( x)
 f ( x, y)dy


Các hàm trên có các tính chất sau:

f ( x / y )  0;





f ( x / y )dx  1; f ( y / x)  0;









Trang 13

f ( y / x)dy  1.



Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

Ví dụ:
Cho đại lượng liên tục (X,Y) có hàm mật độ xác suất
 1
khi x 2  y 2  r 2

f ( x, y )    r 2
.
2
2
2
0
khi x  y  r


Tìm các hàm mật độ xác suất có điều kiện của các thành phần.
Giải:
Theo cơng thức ta có:

1


1
 r2

khi x  r 2  y 2


2
2
r 2  y2
2 r y
f ( x, y )  1
f ( x / y) 
 2
.
dx

f 2 ( y)   r
2
2
 r y

0
khi x  r 2  y 2

Tương tự, ta có:

1


1
 r2

khi y  r 2  x 2

2

2
2
2
r x
f ( x, y )  1
2 r x
.
f ( y / x) 
 2
dy

f1 ( x)
  r  r 2  x2

0
khi y  r 2  x 2

3.4 Kì vọng có điều kiện
Ta định nghĩa kì vọng có điều kiện của biến ngẫu nhiên X với Y = yj là
một giá trị được xác định bởi biểu thức:
M

(  / y j )   xi pij với X rời rạc;
i 1

(  / y ) 



 xf ( x / y)dx với X liên tục.




Tương tự, kì vọng có điều kiện của biến ngẫu nhiên Y với X = xi là một
giá trị được xác định bởi biểu thức :
N

(Y / xi )   y j pij với Y rời rạc;
j 1

(Y / x) 



 yf ( y / x)dy với Y liên tục.
Trang 14


Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

Tính chất:
i/ E[E(Y/X)]=E(Y).
ii/ E[X.E(Y/X)]=E(X.Y).
iii/ E[Y.E(Y/X)]=E[(E(Y/X)2)].
3.5 Phân phối thực nghiệm hai chiều
Với tổng thể có số phần tử rất lớn, ta khơng thể khảo sát các biến ngẫu
nhiên X, Y trên tất cả các phần tử, nên không thể lập được luật phân phối xác
suất của phân phối đồng thời (X,Y), do đó, cũng không thể lập được luật phân

phối biên cho mỗi thành phần.
Cũng như trong phân phối một chiều, người ta thường rút ngẫu nhiên (lần
lượt có hồn lại) n phần tử từ tổng thể, khảo sát các đại lượng X, Y trên các phần
tử đó, suy ra luật phân phối của (X,Y) trên tổng thể. Các phần tử được rút ra lập
thành mẫu ngẫu nhiên kích thước n.
Kết quả thu được khi khảo sát (X,Y) trên mẫu được gọi là phân phối thực
nghiệm. Khảo sát phân phối hai chiều (X,Y) trên mẫu kích thước n thu được
phân phối thực nghiệm trong bảng (0.3) sau:
Y

y1 

yj 

x1

xi

xd

n11 

n1 j  n1c

ni1 


nij 

Tổng Y


n1 

nij

yc

Tổng X

X

nd 1

nic


 ndj  ndc
n j 

n1

ni 

nd 

n c

n

Bảng (0.3)

trong đó: x1 , x2 , ..., xd là các giá trị phân biệt của X trong mẫu;

y1 , y2 , ..., yc là các giá trị phân biệt của Y trong mẫu;

nij là tần số phần tử mẫu đồng thời thỏa mãn X = xi và Y = yj, i=1..d,
j=1..c;
Trang 15


Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

c

ni    nij là tổng tần số dòng i, i=1..d;
j 1

d

n j   nij là tổng tần số cột j, j=1..c;
i 1

d

c

d

c


i 1

j 1

 nij   ni   n j  n là kích thước mẫu.
i 1 j 1

Trong bảng (0.3) ta cũng có thể thay thế các tần số bởi các tần suất tương
ứng:
fij = nij / n; fi- = ni- / n; f-j = n-j / n, i=1..d, j=1..c.
 Các số đặc trưng của mẫu được tính như sau:

xy 

x

1 d c
xi y j nij (trung bình tích);
n 
i 1 j 1





2
2
1 d
1 d

1 d 2
2
;
x
n
s

x

x
.
n

xi .ni   x ; s  s2 ;



i i

i
i
n i 1
n i 1
n i 1





2

2
1 c
1 c
1 c 2
2
y   y j n j ; sY   y j  y .n j   y j .n j  y ; sY  sY2 .
n j 1
n j 1
n j 1

3.6 Thống kê trong phân phối hai chiều
Đặt X1, X2, …, Xd là các biến ngẫu nhiên theo thứ tự nhận giá trị bằng
x1, x2,…, xd; Y1, Y2,…, Yc theo thứ tự nhận giá trị bằng y1, y2,…, yc.
Khi đó, các biến ngẫu nhiên X1, X2, …, Xd độc lập với nhau, cùng có luật
phân phối giống luật phân phối của X; Y1, Y2, …, Yc độc lập với nhau, cùng có
luật phân phối giống luật phân phối của Y. Một biến ngẫu nhiên được thành lập
từ

X1, X2,…, Xd và Y1, Y2,…, Yc được gọi là một thống kê của phân phối hai

chiều.
 Các thống kê cơ bản:

XY 

1 c
1 d c
1 d
Y


Y j n j ;
X
Y
n
;
;
X

X
n
i j ij
i i
n
n 
n
j 1
i 1 j 1
i 1

S 2 

2
2
1 d
1 d 2



.
n


i .ni    ; S  S2 ;


i
i
n i 1
n i 1

SY2 

2
2
1 c
1 c
Y j  Y .n j   Y j2 .n j  Y ; SY  SY2 .

n j 1
n j 1









Trang 16



Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

4. Bài toán ước lượng
Xét biến ngẫu nhiên X xác định trên tổng thể. Số lượng phần tử của tổng
thể thường là rất lớn nên hầu như không thể xác định được tất cả các giá trị của
X, cũng như không thể xác định luật phân phối xác suất của X, do đó, các số đặc
trưng của X như kì vọng, phương sai,… cũng khơng thể tính được chính xác.
Giả sử  là một số đặc trưng (kì vọng, phương sai,…) của biến ngẫu
nhiên X chưa biết. Bài toán ước lượng  là chỉ ra giá trị  0 hoặc một khoảng giá
trị (  1,  2), tùy theo phương pháp ước lượng được sử dụng.
4.1 Phương pháp ước lượng điểm:
Ước lượng điểm cho số đặc trưng  là chỉ ra một giá trị  0 cho  . Giá trị
 0 được tìm ra như sau:

i/ Chọn thống kê G(X1, X2,…, Xn) thích hợp khơng chứa  , làm hàm ước
lượng cho  .
ii/ Lập mẫu ngẫu nhiên (x1, x2,…,xn) kích thước n từ tổng thể, thay thế các
giá trị x1, x2,…,xn vào hàm ước lượng G, tính được giá trị G0, là giá trị của thống
kê G tương ứng với mẫu và lấy  0= G0 làm giá trị ước lượng cho  .
Ví dụ:
Ước lượng trung bình  =E(X) của tổng thể.
i/ Chọn thống kê G = X 

1 n
 X i làm hàm ước lượng.
n i 1


ii/ Lập mẫu ngẫu nhiên (x1, x2,…,xn) thế vào X ta được trung bình mẫu
G0 = x 

1 n
 xi . Như vậy, trung bình tổng thể E(X) được ước lượng bởi giá trị
n i 1

trung bình mẫu x .
4.2 Phương pháp ước lượng khoảng:
Cho số  dương khá nhỏ (0<   0,05). Ước lượng khoảng cho  là chỉ ra
khoảng (  1,  2) sao cho   (  1,  2) với xác suất 1-  (  0,95).
Phương pháp ước lượng khoảng được thực hiện như sau:
i/ Chọn thống kê G thích hợp chứa  , tức là G = G(X1, X2,…, Xn) có luật
phân phối xác định (thông thường là luật phân phối chuẩn tắc, khi bình phương,

Trang 17


Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

Student,…) làm hàm ước lượng cho  . Với  cho trước có thể tìm được hai số
m1, m2 sao cho:
P(m1Các số m1, m2 là các phân vị thích hợp của thống kê G. Biến đổi biểu thức
P(m1nhiên suy ra từ thống kê G.
Khoảng (G1; G2) được gọi là khoảng tin cậy của  tương ứng với mức xác
suất 1-  .

ii/ Lập mẫu ngẫu nhiên kích thước n, thay thế các giá trị x1, x2,…,xn
vào G1, G2 ta được các giá trị tương ứng  1,  2 . Khi đó, khoảng (  1,  2) là
khoảng ước lượng cần tìm với mức xác suất 1-  . Giá trị 1-  được gọi là độ tin
cậy của khoảng ước lượng (  1,  2).

5. Bài toán kiểm định
5.1 Giả thiết thống kê
Giả thiết thống kê là một dự đoán về:
- Giá trị đặc trưng chưa biết của một biến ngẫu nhiên.
- Luật phân phối xác suất của biến ngẫu nhiên.
- Tính độc lập của biến ngẫu nhiên.
- …..
5.2 Kiểm định giả thiết thống kê
Kiểm định giả thiết thống kê là kết luận giả thiết đã nêu đúng hay sai, có
tính khách quan, dựa trên cơ sở lý thuyết đã được thừa nhận và số liệu của mẫu
ngẫu nhiên. Kết luận đưa ra thường đúng với xác suất khá lớn và có thể mắc sai
lầm với xác suất khá nhỏ.
Sự hạn chế của lý thuyết không cho phép giải quyết vấn đề một cách hoàn
hảo như đã nêu (kết luận đúng hay sai) mà việc kiểm định chỉ thực hiện mức độ
sau đây.
Phát biểu một giả thiết (H) với chủ đích rằng (H) sẽ sai và đối giả thiết
( H ) sẽ đúng. Việc kiểm định giả thiết (H) là quá trình chứng tỏ (H) sai bằng
phương pháp phản chứng. Giả sử (H) đúng và liên kết điều đó với một sự kiện A

Trang 18


Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh


có xác suất xảy ra bằng  khá nhỏ (0<   0,05). Trên thực tế, sự kiện A gần như
không xảy ra.
Sau khi thực nghiệm (lập mẫu), nếu sự kiện A xảy ra thì giả sử phản
chứng (H) đúng ở trên là sai, do đó kết luận giả thiết (H) sai hay bác bỏ giả thiết
(H) và đối giả thiết ( H ) đúng. Ngược lại, nếu sự kiện A không xảy ra thì khơng
thể kết luận giả thiết (H) sai. Khi đó, giả thiết (H) được chấp nhận. Tuy nhiên, về
mặt logic, chưa thể cho rằng giả thiết (H) đúng.
Số  nói trên được gọi là mức ý nghĩa của việc kiểm định giả thiết (H).
5.3 Các bước thực hiện việc kiểm định giả thiết thống kê
Việc kiểm định giả thiết thống kê với mức ý nghĩa  khá nhỏ
(0<   0,05) được tiến hành theo các bước sau:
i/ Phát biểu giả thiết (H) và đối giả thiết ( H ).
ii/ Chọn thống kê G thích hợp đo sự khác biệt giữa giả thiết (H) với giá trị
thực nghiệm từ mẫu ngẫu nhiên sao cho: nếu giả thiết (H) đúng thì thống kê G có
luật phân phối xác định. Thống kê G được gọi là tiêu chuẩn kiểm định cho giả
thiết (H).
iii/ Dựa vào luật phân phối xác suất của G, mức ý nghĩa  (rất nhỏ) cho
trước và dạng đối giả thiết ( H ), tìm miền W sao cho P(G  W )=  .
Như vậy: P(G  W )=1-  .
Miền W được gọi là miền bác bỏ của giả thiết (H), thường là một trong ba
dạng (-  ; a); (a;+  ); ( -  ; a)  (b;+  ) trong đó các số a, b là các phân vị của
các phân phối chuẩn tắc, Student, Fisher.
iv/ Lập mẫu ngẫu nhiên, thay thế vào thống kê G tính được giá trị G0 gọi là
giá trị quan sát thực tế hay giá trị thực nghiệm của thống kê G tương ứng với
mẫu.
v/ Kết luận về giả thiết (H) và đối giả thiết ( H ).
Nếu G0  W thì giả thiết (H) sai hay bị bác bỏ, đối giả thiết ( H ) đúng.
Nếu G0  W thì khơng bác bỏ được giả thiết (H). Có hai hướng xử lý: hoặc
thực nghiệm lại, hoặc chấp nhận giả thiết (H), khi đó đối giả thiết ( H ) sai.


Trang 19


Hồi quy tuyến tính bội

SVTH: Trần Thụy Huế Thanh

CHƯƠNG 1: TƯƠNG QUAN VÀ HỒI QUY
1.1 Tương quan
1.1.1. Hiệp phương sai
Hiệp phương sai hay mômen tương quan của hai biến ngẫu nhiên X và Y,
kí hiệu cov(X,Y) hay  XY là kỳ vọng của tích các sai lệch của các biến ngẫu
nhiên đó với kỳ vọng của chúng.
Cov(X,Y)=  XY = E  X  E  X   Y  E Y     E  XY   E  X  E Y  .
Đối với các biến ngẫu nhiên rời rạc thì:

 XY   xi y j pij  E ( X ) E (Y ).
i

j

Đối với biến ngẫu nhiên liên tục thì:

 XY 

 

  xyf ( x, y)dxdy  E ( X ) E (Y ) .


Ý nghĩa của hiệp phương sai:
o Phương sai là trường hợp riêng của hiệp phương sai khi X=Y.
o Hiệp phương sai dùng để đo quan hệ giữa hai biến ngẫu nhiên X và Y.
Nếu chúng đồng biến thì hiệp phương sai dương, nếu chúng nghịch biến
thì hiệp phương sai âm.
Nếu  XY  0 thì X và Y gọi là tương quan nhau, nếu  XY = 0 thì X và Y
khơng tương quan nhau.
Nếu X và Y độc lập thì  XY = 0, nên X và Y khơng tương quan.
Ví dụ:
Cho biến ngẫu nhiên hai chiều (X,Y) có hàm mật độ
 1

f ( x, y )   2
0


4 x2  y 2  4

.

4x  y  4
2

2

Chứng tỏ X và Y phụ thuộc và tính hiệp phương sai.
Giải:
Theo các cơng thức, ta tính được các hàm mật độ biên như sau:

Trang 20



Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×