TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
KHOA TOÁN
TRẦN THỊ NGỌC MAI
PHÂN TÍCH PHƯƠNG SAI VỚI SPSS VÀ
ỨNG DỤNG
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Toán ứng dụng
Hà Nội - 2017
1
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
KHOA TOÁN
TRẦN THỊ NGỌC MAI
PHÂN TÍCH PHƯƠNG SAI VỚI SPSS VÀ
ỨNG DỤNG
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Toán ứng dụng
Người hướng dẫn khoa học
PGS. TS. Trần Trọng Nguyên
Hà Nội - 2017
2
LỜI CẢM ƠN
Trước tiên em xin bày tỏ lòng biết ơn sâu sắc tới PGS. TS Trần Trọng
Nguyên đã tận tình hướng dẫn, giúp đỡ em trong suốt quá trình thực hiện đề
tài.
Em cũng xin trân trọng cảm ơn các thầy cô giáo trong tổ toán ứng dụng
đã giảng dạy và ban chủ nhiệm khoa Toán đã tạo điều kiện cho em hoàn thành
tốt khóa luận này.
Em xin trân trọng cảm ơn!
Hà Nội, tháng 5 năm 2017
Sinh viên
Trần Thị Ngọc Mai
3
LỜI CAM ĐOAN
Khóa luận tốt nghiệp này là quá trình học tập, nghiên cứu và nỗ lực của
bản thân em dưới sự chỉ bảo của các thầy, cô giáo, đặc biệt là sự chỉ bảo,
hướng dẫn tận tình của thầy giáo Trần Trọng Nguyên.
Khóa luận tốt nghiệp với đề tài: “Phân tích phương sai với SPSS và
ứng dụng” không có sự trùng lặp với các khóa luận khác và kết quả thu được
trong để tài này là hoàn toàn xác thực, có sự kế thừa của một số tài liệu khác.
Hà Nội, tháng 5 năm 2017
Sinh viên
Trần Thị Ngọc Mai
4
MỤC LỤC
Trang
MỞ ĐẦU ................................................................................................ 1
1. Lí do chọn đề tài ................................................................................. 1
2. Mục đích nghiên cứu .......................................................................... 2
3. Đối tượng và phạm vi nghiên cứu ..................................................... 2
4. Phương pháp nghiên cứu ................................................................... 2
5. Cấu trúc khóa luận ............................................................................. 2
NỘI DUNG ............................................................................................. 3
CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ....................................... 3
1.1. Biến ngẫu nhiên .............................................................................. 3
1.1.1. Khái niệm ...................................................................................... 3
1.1.2. Phân loại....................................................................................... 3
1.1.2.1. Biến ngẫu nhiên rời rạc ............................................................. 3
1.1.2.2. Biến ngẫu nhiên liên tục ........................................................... 4
1.1.3. Đặc trưng của biến ngẫu nhiên .................................................... 4
1.1.3.1. Kỳ vọng..................................................................................... 4
1.1.3.2. Phương sai.................................................................................. 5
1.1.3.3. Phân vị, trung vị ........................................................................ 6
1.2. Hàm phân phối ................................................................................ 7
1.2.1. Khái niệm ..................................................................................... 7
1.2.2. Tính chất ...................................................................................... 7
1.2.3. Một số hàm phân phối thường gặp .............................................. 7
1.2.3.1. Phân phối chuẩn ......................................................................... 7
1.2.3.2. Phân phối 2 ............................................................................ 8
1.2.3.3. Phân phối Student ..................................................................... 8
1.2.3.4. Phân phối Fisher ........................................................................ 9
5
1.3. Mẫu ngẫu nhiên .............................................................................. 9
1.3.1. Khái niệm ..................................................................................... 9
1.3.2. Đặc trưng mẫu............................................................................ 10
1.3.2.1. Trung bình mẫu....................................................................... 10
1.3.2.2. Phương sai mẫu....................................................................... 10
1.4. Bài toán kiểm định giả thuyết ....................................................... 11
1.4.1. Khái niệm ................................................................................... 11
1.4.2. Tiêu chuẩn kiểm định ................................................................ 11
1.4.3. Miền bác bỏ giả thuyết .............................................................. 12
1.4.4. Giá trị quan sát của tiêu chuẩn kiểm định ................................. 12
1.4.5. Sai lầm trong bài toán kiểm định ............................................... 12
1.5. Mô hình hồi quy ............................................................................. 13
1.5.1. Hàm hồi quy............................................................................... 13
1.5.2. Hồi quy tổng thể và hồi quy mẫu............................................... 13
1.5.3. Hồi quy tuyến tính ..................................................................... 14
1.5.4. Hồi quy đơn và hồi quy bội ....................................................... 14
1.5.5. Mô hình hồi quy với biến giả...................................................... 15
1.6. Phương pháp bình phương cực tiểu .............................................. 15
KẾT LUẬN CHƯƠNG 1 .................................................................... 17
CHƯƠNG 2. PHÂN TÍCH PHƯƠNG SAI ......................................... 18
2.1. Bài toán phân tích phương sai ...................................................... 18
2.1.1. Bài toán phân tích phương sai cổ điển........................................ 18
2.1.2. Bài toán phân tích phương sai ................................................... 19
2.2. Phương pháp chung ...................................................................... 20
2.3. Phân loại phân tích phương sai ..................................................... 21
2.3.1. Phân tích phương sai một nhân tố .............................................. 21
2.3.1.1. Phân tích phương sai một nhân tố hiệu quả xác định .............. 21
6
2.3.1.2. Phân tích phương sai một nhân tố hiệu quả ngẫu nhiên .......... 38
2.3.2. Phân tích phương sai hai nhân tố hiệu quả xác định .................. 39
2.3.2.1. Mô hình phân tích phương sai hai nhân tố tác động riêng rẽ .. 39
2.3.2.2. Kĩ thuật phân tích và các kiểm định ........................................ 40
2.3.2.3. Mô hình phân tích phương sai hai nhân tố tác động đồng thời 42
KẾT LUẬN CHƯƠNG 2 ..................................................................... 45
CHƯƠNG 3. SPSS VỚI PHÂN TÍCH PHƯƠNG SAI ....................... 46
KẾT LUẬN CHƯƠNG 3 ..................................................................... 52
KẾT LUẬN ........................................................................................... 53
TÀI LIỆU THAM KHẢO .................................................................... 54
7
MỞ ĐẦU
1. Lí do chọn đề tài
Xác suất thống kê là một môn học được đưa vào giảng dạy ở hầu hết
các trường đại học, cao đẳng hay trung cấp. Nó là một ngành khoa học nghiên
cứu các hiện tượng ngẫu nhiên và đã có những phát triển vượt bậc trong thế kỉ
XX. Đầu tiên xác suất xuất hiện trong các trò chơi giải trí cách đây vài thế kỉ,
dần dần ngày càng có nhiều nhà toán học nghiên cứu về lĩnh vực này hơn như
Blaise Pascal, James Bernoulli, Pierre Simon Laplace,... Ngày nay ngành
khoa học này được mọi người biết đến không chỉ là một ngành toán học chặt
chẽ về lí thuyết mà nó còn có ứng dụng rộng rãi trong nhiều ngành khác nhau
như kinh tế, kĩ thuật, quản lí xã hội, khoa học tự nhiên….
Ở nước ta hiện nay, trong quá trình công nghiệp hóa, hiện đại hóa, nền
kinh tế có nhiều biến động thì các khái niệm liên quan đến xác suất thống kê
như: dự báo, chuẩn đoán, kiểm định sự tăng giảm của giá cả thị trường,…
ngày càng trở nên quen thuộc. Chính vì vậy xác suất thống kê trở thành một
công cụ hữu ích để giải quyết nhiều vấn đề trong cuộc sống.
Phân tích phương sai là một trong những nội dung quan trọng của
thống kê phân tích. Nội dung cơ bản của nó về mặt kĩ thuật là tìm cách phân
chia tổng sai số bình phương của một biến ngẫu nhiên X thành những bộ phận
khác nhau mà mỗi bộ phận này phản ánh tổng bình phương sai số của X theo
một đặc trưng nào đó. Đặc trưng được xác định tùy thuộc mục đích nghiên
cứu thống kê. Vì vậy với mong muốn tìm hiểu sâu hơn về phân tích phương
sai, dưới sự hướng dẫn của thầy giáo Trần Trọng Nguyên em đã chọn đề tài:
"Phân tích phương sai với SPSS và ứng dụng" để hoàn thành khóa luận tốt
nghiệp của mình.
8
2. Mục đích nghiên cứu
- Nghiên cứu bài toán phân tích phương sai.
- Nghiên cứu cách sử dụng phần mềm SPSS trong phân tích phương sai.
3. Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Các kiến thức về phân tích phương sai, phần
mềm SPSS.
- Phạm vi nghiên cứu: Phân tích phương sai trong thống kê phân tích.
4. Phương pháp nghiên cứu
- Đọc hiểu tài liệu.
- Đánh giá, phân tích và tổng hợp.
5. Cấu trúc khóa luận
Ngoài phần mở đầu, kết luận và tài liệu tham khảo, khóa luận gồm 3
chương:
Chương 1. Một số kiến thức cơ sở
Chương 2. Phân tích phương sai
Chương 3. SPSS với phân tích phương sai
9
NỘI DUNG
Chương 1. MỘT SỐ KIẾN THỨC CƠ SỞ
Trong chương 1, khóa luận sẽ trình bày một số kiến thức cơ sở về biến
ngẫu nhiên, mẫu ngẫu nhiên, hàm phân phối,… để làm nền tảng kiến thức cho
các chương sau.
1.1. Biến ngẫu nhiên
1.1.1. Khái niệm
Một đại lượng (hay một biến) nhận các giá trị của nó với xác suất tương
ứng nào đấy gọi là đại lượng ngẫu nhiên hay biến ngẫu nhiên.
Ta thường ký hiệu biến ngẫu nhiên bởi các chữ X, Y, Z,… hoặc , , ,....
Các giá trị mà biến ngẫu nhiên nhận thường viết bằng chữ nhỏ x, y, z,…
1.1.2. Phân loại
Căn cứ vào giá trị mà biến ngẫu nhiên nhận ta phân các biến ngẫu
nhiên ra làm 2 loại chính: biến ngẫu nhiên rời rạc và biến ngẫu nhiên liên tục.
1.1.2.1. Biến ngẫu nhiên rời rạc
Nếu tập các giá trị mà biến ngẫu nhiên nhận là một tập gồm một số hữu
hạn điểm hoặc vô hạn nhưng đếm được, khi đó biến ngẫu nhiên gọi là biến
ngẫu nhiên rời rạc.
Giả sử biến ngẫu nhiên X nhận các giá trị x1, x2 ,..., xn ,... và
P X xi pi , i = 1, 2,…
Để mô tả (hoặc xác định) biến ngẫu nhiên rời rạc X ta dùng bảng sau:
X
x1
x2
….
xn
….
P X xi
p1
p2
….
pn
….
Trong đó
p
i
1 , pi 0 i 1, 2,....
i
10
1.1.2.2. Biến ngẫu nhiên liên tục
Nếu tập các giá trị biến ngẫu nhiên nhận lấp đầy một khoảng nào đó,
khi đó biến ngẫu nhiên được gọi là biến ngẫu nhiên liên tục.
- Để mô tả (hoặc xác định) biến ngẫu nhiên liên tục ta dùng khái niệm
hàm mật độ.
Hàm p(x) được gọi là hàm mật độ của biến ngẫu nhiên nào đấy nếu
thỏa mãn 2 điều kiện sau:
1. p x 0 x ,
2. p x dx 1
Trong trường hợp này xác suất để biến ngẫu nhiên X thuộc vào khoảng
x0 , x1
x1
được tính như sau: P x0 X x1 p x dx
x0
1.1.3. Đặc trưng của biến ngẫu nhiên
1.1.3.1. Kỳ vọng
Khái niệm
Với mọi biến ngẫu nhiên X ta kí hiệu EX hoặc E(X) hoặc E[X] và xác
định như sau:
(i) Trường hợp X rời rạc với miền giá trị RX và hàm khối lượng xác
suất pX xk
EX
xk RX
xk p X xk
(1.1)
(ii) Trường hợp X liên tục có hàm mật độ xác suất f X x thì
EX
xf x dx
X
11
(1.2)
Nếu chuỗi (1.1) hội tụ tuyệt đối (trường hợp X rời rạc) hay tích phân
(1.2) hội tụ tuyệt đối (trường hợp X liên tục) thì ta gọi EX là kỳ vọng của biến
ngẫu nhiên X, trường hợp ngược lại ta nói X không tồn tại kỳ vọng.
Kỳ vọng mang ý nghĩa là giá trị trung bình của biến ngẫu nhiên X.
1.1.3.2. Phương sai
Khái niệm
Phương sai hay độ lệch bình phương trung bình của biến ngẫu nhiên X
là đại lượng đo sự phân tán bình phương trung bình của X xung quanh giá trị
trung bình EX. Nói cách khác phương sai của X là kỳ vọng của X EX
2
và được kí hiệu là Var X.
VarX E X EX
2
X VarX được gọi là độ lệch chuẩn của X.
Ta có X EX X 2 2 EX X EX
2
2
Ta có công thức tính phương sai như sau: VarX EX 2 EX
2
Từ công thức trên ta có công thức tính riêng cho từng trường hợp rời
rạc hay liên tục:
(i) Trường hợp X rời rạc với miền giá trị RX và hàm khối lượng xác
suất pX xk thì
EX
2
x
xi RX
i
2
p X xi ;VarX EX EX
2
2
xi p X xi xi p X xi
xi RX
xiRX
2
(ii) Trường hợp X liên tục có hàm mật độ xác suất f X x thì
EX 2
x
2
f X x dx;VarX EX 2 EX
2
x f X x dx xf X x dx
2
12
2
2
1.1.3.3. Phân vị, trung vị
Phân vị
Phân vị mức của biến ngẫu nhiên X, ký hiệu v , là giá trị phân chia
miền giá trị RX của X thỏa mãn: P X v P X v
Nghĩa là FX v FX v
Trường hợp biến ngẫu nhiên X liên tục với hàm phân bố xác suất
FX x phân vị v là điểm phân chia miền giá trị RX của X thành 2 miền với
xác suất tương ứng là và 1 .
Vậy v là nghiệm duy nhất của phương trình FX x
v FX 1
Phân vị mức là giá trị tới hạn mức 1 .
Giá trị tới hạn mức 1 của biến ngẫu nhiên X được ký hiệu là x1 và
xác định như sau: P X x1 1
Trường hợp biến ngẫu nhiên X rời rạc có miền gia trị RX và hàm
khối lượng xác suất pX x P X x .
Với mọi xi RX , FX xi pX x1 ... pX xi
Khi đó:
m, m xi , xi 1 nếu FX xi
v
xi 1
nếu FX xi FX xi 1
Phân vị mức của biến ngẫu nhiên liên tục là duy nhất, nhưng của
biến ngẫu nhiên rời rạc có thể là vô số.
Trung vị
Phân vị mức ½ được gọi là median hay trung vị của X, ký hiệu Med
X. Như vậy trung vị là điểm phân chia phân bố xác suất thành hai phần
bằng nhau.
13
1.2. Hàm phân phối
1.2.1. Khái niệm
Cho biến ngẫu nhiên X, ta xác định hàm phân phối của X như sau:
FX x P X x
Trong định nghĩa trên x là biến của hàm F, x nhận giá trị thực,
x , . Tại một điểm x bất kì hàm F(x) chính là xác suất để biến ngẫu
nhiên nhận giá trị nhỏ hơn x hoặc để biến ngẫu nhiên nhận giá trị bên trái x.
Chỉ số của hàm FX x để chỉ hàm phân phối của biến ngẫu nhiên X.
1.2.2. Tính chất
Hàm phân phối của biến ngẫu nhiên có một số tính chất cơ bản sau:
Hàm phân phối xác định x ,
0 F x 1, x ; lim F x 0, lim F x 1
x
x
Hàm phân phối là hàm không giảm: Nếu x1 x2 thì F x1 F x2
Pa X b F b F a
1.2.3. Một số hàm phân phối thường gặp
1.2.3.1. Phân phối chuẩn N , 2
Phân phối chuẩn là biến ngẫu nhiên có hàm mật độ chuẩn tổng quát:
1
x
1
2
p x
e 2
với x
2
2
Đường cong mật độ này đối xứng qua đường x , nhận trục 0x làm
tiệm cận ngang và có giá trị cực đại tại x với tung độ cực đại là
1
2
Trường hợp đặc biệt: X có phân phối chuẩn N(0, 1). Khi đó hàm mật độ
được kí hiệu là x
14
1 2x
x
e
với x
2
2
là hàm đối xứng qua trục tung.
Hàm phân phối N(0, 1) được kí hiệu x
1
x
2
x
e
t 2
2
dt
Phân phối chuẩn chiếm vị trí quan trọng trong lý thuyết xác suất, là vị
trí trung tâm trong các kết luận thống kê sau này.
1.2.3.2. Phân phối 2
Biến ngẫu nhiên liên tục X có phân phối 2 với n bậc tự do ( n N * )
nếu X có hàm mật độ f được xác định trên R bởi:
n
x
1
1
2
x e2
n
n
f x 22
2
0
nếu x 0
nếu x 0
trong đó ký hiệu chỉ hàm Gamma.
Ký hiệu: X
Giả sử X
2 n
2 n , nếu P X c thì c được gọi là bách phân vị
mức của phân phối 2 n , ký hiệu: 2 n
Vậy P X 2 n
Nếu X
2 n thì EX n,VarX 2n
1.2.3.3. Phân phối Student
Biến ngẫu nhiên liên tục X có phân phối Student (hay phân phối t) với n
bậc tự do khi X có hàm mật độ f được xác định bởi:
15
n 1
n 1
2 2
x
2
f x
1 , x
n
n
n
2
student n hay X
Ký hiệu: X
Giả sử T
t n
t n , nếu P T c thì c được gọi là bách phân vị mức
của phân phối t n , ký hiệu t n
Vậy P T t
n
1.2.3.4. Phân phối Fisher
Biến ngẫu nhiên liên tục X có phân phối Fisher với n1 và n2 bậc tự do
khi X có hàm mật độ f được xác định bởi:
n1 n2
n1
n n
1 2
2 n 2 n1 1
2
n1
1
2
,x 0
x 1
f x n1 n2 n2
n2
2 2
0, x 0
Ký hiệu: X
F n1, n2
1.3. Mẫu ngẫu nhiên
1.3.1. Khái niệm
Tiến hành n quan sát độc lập về biến ngẫu nhiên X nào đó. Ta gọi Xi là
việc quan sát lần thứ i về biến ngẫu nhiên X. Khi đó X1, X 2 ,..., X n được gọi
là mẫu ngẫu nhiên, n được gọi là cỡ mẫu hay số lần quan sát. Như vậy mẫu
ngẫu nhiên cỡ n thực chất là n biến ngẫu nhiên độc lập, cùng phân phối như
biến ngẫu nhiên X.
Từ nay về sau khi nói rằng ta có một mẫu ngẫu nhiên cỡ n được rút ra
từ biến ngẫu nhiên X, ta sẽ hiểu đó là n biến ngẫu nhiên độc lập cùng phân
phối nếu ta không quan tâm đến kết quả cụ thể quan sát được.
16
1.3.2. Đặc trưng mẫu
1.3.2.1. Trung bình mẫu
Cho biến ngẫu nhiên X và mẫu ngẫu nhiên từ X là
X1, X 2 ,..., X n .
1 n
Người ta gọi trung bình mẫu là biến ngẫu nhiên có dạng: X X i
n i 1
Do X1, X 2 ,..., X n là các biến ngẫu nhiên độc lập cùng phân phối như X,
nên trung bình mẫu là một biến ngẫu nhiên. Do đó ta lại tìm kỳ vọng và
EX
phương sai của X :
Var X
1 n
1
EXi .n.EX
n i 1
n
1 n
1
VarX 2
V
ar
X
.
nV
.
ar
X
i n2
n 2 i 1
n
n
1.3.2.2. Phương sai mẫu
Cho biến ngẫu nhiên X và mẫu ngẫu nhiên từ X là
X1, X 2 ,..., X n .
Người ta gọi phương sai mẫu là biến ngẫu nhiên có dạng:
1 n
s Xi X
n i 1
2
2
2
1 n 2
Xi X
n i 1
Phương sai mẫu cũng là một biến ngẫu nhiên, sử dụng các tính chất của
kỳ vọng ta có:
2
1 n
Es E X i X
n i 1
2
1 n
2
E X i X
n i 1
2
2 X i X
1 n
2
E X i n X
n i 1
2
1 n
1 n
2
2
E X i n X X i E X
n i 1
n i 1
17
2
2n X
X
2
1
VarX n 1 2
.nV
. arX Var X VarX
n
n
n
Để kỳ vọng của phương sai mẫu trùng với phương sai DX của biến
ngẫu nhiên gốc ta cần hiệu chỉnh như sau:
Phương sai mẫu có hiệu chỉnh:
1 n
s
Xi X
n 1 i 1
2
Khi đó: Es
2
2
1 n 2
n
n 2
X
X
s
i n 1
n 1 i 1
n 1
n
n n 1 2
Es 2
.
. 2
n 1
n 1 n
1.4. Bài toán kiểm định giả thuyết
1.4.1. Khái niệm
Giả thuyết: Một mệnh đề (một câu khẳng định) về một vấn đề chưa
biết nào đó được gọi là giả thuyết.
Giả thuyết thống kê: Giả thuyết thống kê là những phát biểu về các
tham số, quy luật phân phối, hoặc tính độc lập của các đại lượng ngẫu nhiên.
Kiểm định giả thuyết là việc tìm ra kết luận để bác bỏ hay chấp nhận
một giả thuyết.
Trog bài toán kiểm định giả thuyết, giả thuyết cần được kiểm định
gọi là giả thuyết không, ký hiệu là H 0 ; mệnh đề đối lập với H 0 gọi là đối
thuyết, ký hiệu là H1 .
1.4.2. Tiêu chuẩn kiểm định giả thuyết thống kê
Miền bác bỏ W được xây dựng từ thống kê T của mẫu gọi là tiêu
chuẩn kiểm định và được xác định như sau:
Từ biến ngẫu nhiên gốc X của tổng thể lập mẫu ngẫu nhiên kích thước n:
W X1, X 2 ,..., X n
Chọn thống kê T T X1, X 2 ,..., X n ,
trong đó là tham số liên quan đến giả thuyết cần kiểm định.
18
Nếu H 0 đúng thì thống kê T có quy luật phân bố xác suất xác định, từ
đó có thể xây dựng miền bác bỏ W .
1.4.3. Miền bác bỏ giả thuyết
Sau khi đã chọn tiêu chuẩn kiểm dịnh T , với bé cho trước (thường
được lấy bằng 0,05 hoặc 0,01) và với điều kiện H 0 đúng ta có thể tìm được
miền W sao cho T nhận giá trị trong miền W với xác suất bằng :
PT W / H 0
Giá trị được gọi là mức ý nghĩa của kiểm định và miền W gọi là
miền bác bỏ giả thuyết H 0 với mức ý nghĩa .
1.4.4. Giá trị quan sát của tiêu chuẩn kiểm định
Thực hiện phép thử với mẫu ngẫu nhiên X X1, X 2 ,..., X n thu được
mẫu
cụ
thể
x x1, x2 ,..., xn ,
thay
giá
trị
này
vào
thống
kê
T T X1, X 2 ,..., X n , ta được giá trị quan sát của tiêu chuẩn kiểm định:
Tqs x1 , x2 ,..., xn , 0
1.4.5. Sai lầm trong bài toán kiểm định
Sai lầm loại I: Bác bỏ giả thuyết H 0 trong khi H 0 đúng.
Xác suất mắc sai lầm loại I đúng bằng mức ý nghĩa . Thật vậy, xác
suất ta bác bỏ H 0 bằng xác suất biến cố T W , do đó khi H 0 đúng thì xác
suất này là xác suất có điều kiện PT W / H 0 .
Sai lầm loại I sinh ra do kích thước mẫu quá nhỏ, do phương pháp lấy mẫu.
Sai lầm loại II: Thừa nhận giả thuyết H 0 trong khi H 0 sai.
Điều này xảy ra khi giá trị quan sát Tqs không thuộc miền bác bỏ W
trong khi H1 đúng.
Vậy xác suất sai lầm loại II là và được xác định như sau:
PT W / H1
19
1.5. Mô hình hồi quy
1.5.1. Hàm hồi quy
Mô hình hồi quy là sự phân tích mối quan hệ giữa các biến, là phân tích
sự phụ thuộc của biến phụ thuộc vào một hay nhiều biến độc lập.
Giả sử có cơ sở cho rằng sự biến động của Y (chẳng hạn) phụ thuộc vào
tình trạng của các biến còn lại X 2 , X 3 ,..., X k . Như vậy chúng ta đã coi như các
biến X 2 , X 3 ,..., X k là phi ngẫu nhiên. Trong trường hợp này với mỗi trạng thái
của X 2 , X 3 ,..., X k biến ngẫu nhiên Y có một phân phối có điều kiện tương ứng
F Y / X 2 ,..., X k có trung bình và phương sai hữu hạn.
Khi X 2 ,..., X k x21 ,..., xk1 xác định duy nhất E1 Y / X 2 ,..., X k
Khi X 2 ,..., X k x2i ,..., xki xác định duy nhất E i Y / X 2 ,..., X k
Quan hệ trên xác định một hàm số biểu thị quan hệ phụ thuộc của giá
trị trung bình có điều kiện của Y theo các biến được coi là phi ngẫu nhiên
( X 2 , X 3 ,..., X k ) .
Định nghĩa1.1: Hàm hồi quy của Y theo X 2 , X 3 ,..., X k là trung bình có
điều kiện của Y theo X 2 , X 3 ,..., X k .
Ta có thể viết: E Y / X 2 ,..., X k f X 2 ,..., X k
(1.5)
Và gọi f là hàm hồi quy của Y theo ( X 2 , X 3 ,..., X k ) . Y gọi là biến phụ
thuộc và ( X 2 , X 3 ,..., X k ) gọi là các biến độc lập.
Trường hợp đơn giản nhất: E Y / X f X ta có một hồi quy đơn.
Hồi quy với hơn một biến độc lập ta gọi là một hồi quy bội.
1.5.2. Hồi quy tổng thể và hồi quy mẫu
Trong thống kê các biến Y và X 2 ,..., X k phải được đặt trên một tổng
thể với tư cách là một tập các đối tượng mà trên đó các biến này có thể biểu
hiện trạng thái của mình.
20
Định nghĩa1.2: Giả sử tổng thể đang xét có số đông cá thể, với cá thể i biến
Y và X 2 ,..., X k nhận bộ giá trị Yi và X 2i ,..., X ki ta có quan hệ sau nhận được
từ (1.1) và gọi là hồi quy tổng thể: Yi E Y / X 2i ,..., X ki U i
(1.6)
Trong (1.6) U i gọi là nhiễu hay sai số ngẫu nhiên, nó thể hiện sự sai
lệch của cá thể so với trung bình khi sử dụng (1.5)
Để ước lượng E Y / X 2i ,..., X ki người ta sử dụng phương pháp mẫu.
Giả sử có mẫu ngẫu nhiên kích thước n: W Y , X 2 ,..., X k , từ mẫu
này người ta ước lượng E Y / X 2i ,..., X ki bằng một phương pháp nào đó và
nhận được Yi g Yi , X 2i ,..., X ki ta gọi đây là ước lượng của Yi.
Quan hệ của Yi và ước lượng của nó có thể mô tả như sau: Yi Yi ei (1.7)
(1.7) gọi là hồi quy mẫu và ei gọi là phần dư của Yi trong hồi quy mẫu.
1.5.3. Hồi quy tuyến tính
Trong (1.5) khi xem xét cấu trúc của f, người ta có thể quan tâm đến hai
hai vấn đề:
- Thứ nhất là các biến độc lập: với bậc của các biến độc lập ta có các
hàm tuyến tính hay phi tuyến tính theo nghĩa giải tích.
- Thứ hai là các tham số cấu trúc của hàm hồi quy f : với bậc của các
tham số người ta chia hàm hồi quy thành các dạng hồi quy tuyến tính hay phi
tuyến tính.
Do yêu cầu của các kĩ thuật ước lượng cũng như ý nghĩa các tham số
cấu trúc trong phân tích hồi quy, người ta quan niệm một hồi quy tuyến tính là
hồi quy có f tuyến tính theo các tham số.
1.5.4. Hồi quy đơn và hồi quy bội
Mô hình hồi quy đơn là mô hình hồi quy với 1 biến độc lập duy nhất,
biến này giải thích cho biến phụ thuộc với một ý nghĩa duy nhất.
21
Trong trường hợp hồi quy tuyến tính, hồi quy đơn luôn có dạng:
Y 1 2 X 2
Mô hình hồi quy bội là mô hình có hơn 1 biến độc lập, có thể có những
biến là biến thứ sinh của các biến khác.
Trong trường hợp hồi quy tuyến tính, hồi quy bội có đạng sau:
Y 1 2 X 2 ... k X k
Hồi quy mẫu tương ứng được mô tả như sau: Y 1 2 X 2 ... k X k
1.5.5. Mô hình hồi quy với biến giả
Trong phân tích hồi quy, biến phụ thuộc thường bị tác động không chỉ
bởi các biến có thể lượng hóa được ngay theo tỷ lệ đã xác định (ví dụ như thu
nhập, sản lượng, giá cả,…), mà còn bởi các biến có bản chất định tính (như
giới tính, chủng tộc, màu da, tôn giáo,…)
Do các biến định tính như vậy thường mô tả sự xuất hiện hay thiếu
vắng một tính chất hay đặc điểm, như nam hay nữ, đen hay trắng, theo tôn
giáo hay không theo tôn giáo,…, phương pháp lượng hóa các thuộc tính như
vậy là thiết lập các biến nhân tạo với giá trị 1 biểu thị xuất hiện thuộc tính đó,
và giá trị 0 biểu thị không xuất hiện thuộc tính đó. Các biến nhận giá trị 0 và 1
được gọi là các biến giả.
Các biến giả có thể được sử dụng trong mô hình hồi quy một cách dễ
dàng như các biến định lượng.
1.6. Phương pháp bình phương cực tiểu
Cho các biến độc lập X và biến phụ thuộc Y, giả sử ta có hàm hồi quy
tổng thể dạng tuyến tính: Yi E Y / X i ui 1 2 X i ui
(1.8)
Với mẫu quan sát (X1, Y1), (X2, Y2), …, (Xn, Yn)
Ta có hàm hồi quy mẫu: Yi 1 2 X i
Và Yi 1 2 X i ui Yi ui
(1.9)
(1.10)
22
xi X i x
1 , 2 là các ước lượng của
yi Yi y
ui là ước lượng của ui , ui được coi là phần dư.
Từ (1.10) ta có ui Yi Yi
Vấn đề đặt ra là sử dụng các dữ liệu của X và Y để tìm ước lượng tốt nhất
cho 1, 2 thỏa mãn tổng bình phương các phần tử dư đạt giá trị nhỏ nhất.
Tức là ta cần phải xác định 1 , 2 sao cho
n
n
f 1 , 2 ui Yi 1 2 X i
2
i 1
i 1
2
đạt giá trị nhỏ nhất
Vậy 1 , 2 phải là nghiệm của hệ phương trình:
f
f
,
1
2
1
2 Y
n
,
1
2
i
i 1
2
1
2 X i 0
(1.11)
2 X Y
n
i 1
i
i
1
2 X i 0
n
n
n 1 2 X i Yi
i 1
i 1
n
n
n
2
X
X
X iYi
i
2
i
1
i 1
i 1
i 1
Ta có: X
(1.12)
1 n
1 n
1 n
X
,
Y
Y
,
XY
X iYi
i n
i
n i 1
n
i 1
i 1
1 2 X Y
Phương trình (1.12) dẫn đến:
2
1 X 2 X XY
23
(1.13)
XY X Y
2
2
Giải hệ (1.13) ta được:
X2 X
1 Y 2 X
Phương pháp tìm các ước lượng 1 , 2 như trên gọi là phương pháp
bình phương cực tiểu.
KẾT LUẬN CHƯƠNG 1
Trong chương này, khóa luận đã đưa ra được một số cơ sở lý thuyết:
khái niệm, phân loại và đặc trưng của biến ngẫu nhiên, mẫu ngẫu nhiên; khái
niệm, tính chất của hàm phân phối và một số loại phân phối; khái niệm về bài
toán kiểm định giả thuyết và mô hình hồi quy; phương pháp bình phương cực
tiểu. Đây là các tiền đề lý luận để xây dựng kiến thức trong các chương sau.
24
Chương 2. PHÂN TÍCH PHƯƠNG SAI
Phân tích phương sai là một trong những nội dung của thống kê phân
tích. Nội dung cơ bản của phân tích phương sai về mặt kĩ thuật là tìm cách
phân chia tổng sai số bình phương của một biến ngẫu nhiên X thành những
bộ phận khác nhau mà mỗi bộ phận này phản ánh tổng bình phương sai số
của X theo một đặc trưng nào đó. Đặc trưng được xác định tùy thuộc mục
đích nghiên cứu thống kê. Trong giới hạn chương 2, phân tích phương sai sẽ
được đề cập như một ứng dụng thống kê trong phân tích số liệu.
2.1. Bài toán phân tích phương sai
2.1.1. Bài toán phân tích phương sai cổ điển
Cho X là một biến ngẫu nhiên có trung bình E(X), biến F định tính hay
được định tính hóa nhờ các dấu hiệu F1, F2 ,..., Fk . Giả sử có căn cứ nào đó
cho rằng các giá trị trung bình E X / Fi không bằng nhau.
Khi đó bài toán phân tích phương sai là bài toán kiểm định giả thuyết
H0: E X / Fi m (đồng nhất bằng m) và giả thuyết đối H1: E X / Fi m
(không đồng nhất bằng m).
F được gọi là nhân tố phân tích phương sai.
Mô hình phân tích phương sai một nhân tố (F) đối với biến ngẫu nhiên
X có thể mô tả như sau:
Với cá thể thứ i có dấu hiệu Fj ta có: X ij m a j uij
(2.1)
Trong đó: a j là trung bình của các cá thể nhóm j (dấu hiệu Fj ).
U j : i.d.d N(0, 𝜎 2 )
Kiểm định giả thuyết H 0 : a j 0 với giả thuyết đối H1 : a j 0 .
Có thể mở rộng mô hình (2.1) cho hai hay nhiều nhân tố, chẳng hạn mô
hình phân tích phương sai hai nhân tố có thể mô tả như sau:
25