1
PHÂN TÍCH THỐNG KÊ HIỆU QUẢ ĐÀO TẠO
CAO ĐẲNG TẠI TRƯỜNG ĐẠI HỌC SAO ĐỎ
LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội – Năm 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
PHAN VĂN TÁC
1
PHÂN TÍCH THỐNG KÊ HIỆU QUẢ ĐÀO TẠO
CAO ĐẲNG TẠI TRƯỜNG ĐẠI HỌC SAO ĐỎ
Chuyên ngành: Lí thuyết Xác suất và Thống kê toán học
Mã số: 60 46 15
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:PGS.TS HỒ ĐĂNG PHÚC
Hà Nội – Năm 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
PHAN VĂN TÁC
2
MỤC LỤC
LỜI MỞ ĐẦU 3
Chương 1: CÁCMÔ HÌNH TUYẾN TÍNH TRONG PHÂN TÍCH THỐNG KÊ 7
1.1 Mô hình Hồi quy tuyến tính cổ điển 7
1.1.1. Hồi quy tuyến tính đơn 7
1.1.2 Hồi quy tuyến tính bội 16
1.2 Mô hình Phân tích phương sai 22
1.2.1 Mô hình Phân tích phương sai một nhân tố 23
1.2.2 Mô hình Phân tích phương sai hai nhân tố 28
1.2.3 Mô hình ba nhân tố 31
1.2.4 Mô hình bốn nhân tố 32
1.2.5 Cơ sở lý thuyết của các phép kiểm định trong phân tích phương sai 33
1.3 Mô hình tuyến tính tổng quát 35
1.3.1 Ký hiệu 38
1.3.2. Mô hình 38
1.3.3 Phân bố mẫu của các tổng bình phương 40
1.3.4. Kiểm tra tham số trên tập hợp con 40
1.3.5 Phép kiểm định phù hợp 42
1.3.6 Trường hợp độ biến động không thuần nhất 45
1.3.7 Phân bố không chuẩn và mô hình tuyến tính suy rộng 46
Chương 2: PHÂN TÍCH SỐ LIỆU 49
2.1 Khái quát về trường Đại học Sao Đỏ 49
2.2 Dữ liệu dùng trong nghiên cứu 50
2.3 Phân tích số liệu 51
2.3.1 Phân tích tác động riêng rẽ các nhân tố lên kết quả học tập 51
2.3.2 Phân tích tác động đồng thời của nhiều nhân tố lên kết quả học tập 65
2.3.3 Phân tích tác động của nhiều nhân tố lên mức độ tiến bộ của sinh viên 78
KẾT LUẬN 90
TÀI LIỆU THAM KHẢO 93
PHỤ LỤC 94
3
LỜI MỞ ĐẦU
Trong suốt cuộc đời cách mạng của mình, Chủ tịch Hồ Chí Minh đã dành
những tâm tư và tình cảm đặc biệt đối với sự nghiệp giáo dục của nước nhà.
Trong di sản tư tưởng của Người để lại, có tới hơn 592 lần nhắc đến “giáo
dục”, 159 lần nhắc đến “đào tạo”, trên 190 lần nhắc đến “trường học”, gần
100 lần nhắc đến “đại học”, 92 lần nhắc đến “trường học, giáo sư”, 81 lần
nhắc đến “giáo viên”, 80 lần nhắc đến “thầy giáo”, khoảng 145 lần nhắc đến
“sinh viên” và đến 225 lần nhắc đến “học sinh” Người coi “con người” là
vốn quý nhất, là yếu tố quyết định của sự nghiệp cách mạng. Người cũng
thường xuyên nhắc nhở rằng: “Vì lợi ích mười năm thì phải trồng cây, vì lợi
ích trăm năm thì phải trồng người”.
Tư tưởng phát triển con người toàn diện của Chủ tịch Hồ Chí Minh đã góp
phần to lớn vào việc đào tạo những người con ưu tú, làm thay đổi căn bản vị
thế của nước ta trên trường quốc tế. Theo người, con người toàn diện phải
được tự do, được hạnh phúc, con người phải được giải phóng, được giáo dục
– đào tạo và được sống trong xã hội hòa bình ổn định.
Đại hội Đảng lần thứ X đã khẳng định “Phát triển giáo dục và đào tạo là một
trong những động lực quan trọng thúc đẩy sự nghiệp công nghiệp hóa, hiện
đại hóa, là điều kiện để phát huy nguồn lực con người – yếu tố cơ bản để phát
triển xã hội, tăng trưởng kinh tế nhanh và bền vững” [6]. Nhiệm vụ trọng
yếu, nền tảng của chương trình giáo dục Đại học là xây dựng và đào tạo cho
đất nước một đội ngũ trí thức có nhân cách, có đạo đức, có chuyên môn
nghiệp vụ tốt, với thể chất mạnh khỏe để đáp ứng tốt yêu cầu của sự nghiệp
công nghiệp hóa, hiện đại hóa.
4
Trong những năm qua, giáo dục và đào tạo có những đóng góp nhất định
trong giải quyết các vấn đề kinh tế, khai thác nội lực và phát huy tiềm năng,
lợi thế của đất nước, tạo ra vị thế trên trường quốc tế. Tuy nhiên, thực tế công
tác giáo dục còn nhiều tồn tại , điều kiện giáo dục còn trong tình trạng lạc
hậu, trì trệ, chất lượng thấp. Có không ít sinh viên ra trường không đáp ứng
được với thực tế xã hội.
Đã có rất nhiều bài báo, bài tham luận xuất hiện và phân tích thực trạng dạy
và học ở các trường một cách định tính, nhưng rất ít nghiên cứu với cách tiếp
cận định lượng để có được những kết luận thực sự mang tính thuyết phục.
Việc nghiên cứu và dự đoán những nhân tố ảnh hưởng đến chất lượng học tập
của sinh viên từ đó tạo đầu ra tốt nhất cho xã hội cũng đang là một trong
những yêu cầu cơ bản và cấp thiết hiện nay.
Bản luận văn này là một thử nghiệm nghiên cứu định lượng về tình trạng dạy
và học tại trường Đại học Sao Đỏ. Với số liệu thu thập được từ ba khoa: khoa
Điện, khoa Điện tử -Tin học và khoa Kinh tế của trường Đại học Sao Đỏ,
bằng các phương pháp thống kê thích hợp, luận văn này mong muốn chỉ ra
được các nhân tố ảnh hưởng đến kết quả học tập của sinh viên nhằm đưa ra
những đề xuất giúp nâng cao chất lượng học tập của sinh viên trường Đại học
Sao Đỏ.
Sau Lời mở đầu, luận văn này sẽ có hai chương, Kết luận, Danh mục tài liệu
tham khảo và phần phụ lục chứa các câu hỏi điều tra. Chương 1 sẽ trình bày
các phương pháp phân tích thống kê được dùng chủ yếu trong nghiên cứu cụ
thể ở đây. Phương pháp phân tích bằng mô hình hồi quy tuyến tính được mô
tả súc tích, cô đọng, đảm bảo chính xác về mặt toán học. Mô hình phân tích
phương sai sẽ được trình bày dựa trên cơ sở phân tích phương sai một nhân
tố, hai nhân tố rồi mở rộng ba nhan tố và bốn nhân tố. Sau cùng là mô hình
tuyến tính tổng quát mở rộng của hai mô hình trên.
5
Chương 2 gồm ba mục lớn. Mục một và hai được dành riêng cho việc mô tả
đối tượng nghiên cứu, phương pháp lấy mẫu, thu thập và tổ chức giữ liệu.
Mục ba sử dụng phần mềm SPSS tiến hành tất cả các tính toán và phân tích.
Để đánh giá các nhân tố ảnh hưởng thực sự đến kết quả học tập của từng học
kỳ và tác động lên sự tiến bộ của học kỳ sau so với kỳ trước.
Cuối cùng là phần Kết luận để bàn luận về các kết quả thu được. Các nhân tố
ảnh hưởng thực sự đến kết quả học tập của sinh viên đưa ra một số đề suất
nhằm nâng cao chất lượng học tập của sinh viên.
Luận văn này được hoàn thành dưới sự hướng dẫn của PGS.TS Hồ Đăng
Phúc, chuyên gia của Viện toán học, Viện KHCN Việt Nam. Tôi xin bày tỏ
biết tỏ lòng biết ơn sâu sắc đối với sự quan tâm chỉ dẫn đầy nhiệt huyết của
thầy.
Tôi xin chân thành cám ơn các thầy giáo của khoa Toán -Cơ -Tin trường Đại
học tự nhiên –ĐHQG Hà Nội đã tham gia giảng dạy lớp cao học khóa 2009-
2011, cùng các thầy cô trong phòng đào tạo sau đại học của trường ĐHQGHN
đã nhiệt tình giúp đỡ tôi trong suốt thời gian học tập. Tôi xin gửi lời cảm ơn
tới anh chị em khóa học 2009-2011, nhóm Semina Xác suất Thống kê –Viện
toán học cùng các bạn đồng nghiệp và gia đình đã đóng góp ý kiến nhiệt tình,
động viên, giúp đỡ tôi trong suốt quá trình học tập và hoàn thiện luận văn.
Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc tới các em sinh viên cùng gia đình, tập
thể giáo viên, phòng Đào tạo và phòng Công tác học sinh- sinh viên trường
Đại học Sao đỏ đã nhiệt tình cung cấp thông tin chính xác và quý báu mà nếu
thiếu nguồn số liệu này thì nghiên cứu của tôi không thực hiện được.
Tôi xin chân thành cảm ơn các thầy cô trong khoa Khoa học cơ bản, Ban
giám hiệu trường Đại học Sao Đỏ đã tạo điều kiện thuận lợi cho tôi hoàn
thành kế hoạch học tập và nghiên cứu.
6
Tuy đã có nhiều cố gắng nhưng bản luận văn cũng không tránh khỏi những
thiếu sót. Tác giả rất mong có được sự tham gia đóng góp ý kiến các thầy cô
giáo, các nhà nghiên cứu Xác suất Thống kê, nghiên cứu Giáo dục và các độc
giả quan tâm đến luận văn này.
Hà nội, ngày 28/1/2013
Phan Văn Tác
7
Chương 1: CÁC MÔ HÌNH TUYẾN TÍNH TRONG PHÂN TÍCH THỐNG
KÊ
1.1 Mô hình Hồi quy tuyến tính cổ điển
1.1.1. Hồi quy tuyến tính đơn
Mô hình hồi quy tuyến tính giữa 2 biến Y và X có dạng sau:
Y= b
0
+ b
1
X + e (1.1)
trong đó
e
là sai số ngẫu nhiên của mô hình. Y được gọi biến phụ thuộc hay
biến được giải thích hay đáp ứng. X được gọi biến độc lập hay biến giải thích.
Với (X,Y), giả sử ta đã biết n cặp giá trị quan sát {(X
1
, Y
1
),…(X
n
,Y
n
)} tạo
thành một “đám mây điểm” trên mặt phẳng (X,Y). Hãy tìm một đường thẳng
01
(1.2)Y b b X
để xấp xỉ đám mây điểm trên. Tại quan sát thứ i, (1.1) và (1.2) có dạng:
Y
i
=b
0
+ b
1
X
i
+ e
i
01
i
i
Y b b X
Sai lệch hay phần dư (residual) do dùng hồi quy
ˆ
Y
thay cho Y là:
01
( )
i
i
ii
e Y Y b b X
Ta muốn tìm
01
ˆˆ
,bb
là các giá trị ước lượng của
01
,bb
sao cho tổng bình
phương các sai lệch:
22
0 1 0 1
11
S ( , ) ( )
nn
i i i
ii
S b b e Y b b X
đạt cực tiểu.
Lấy đạo hàm riêng của S theo
0
b
và
1
b
rồi gán bằng 0, ta được hai phương
trình:
01
1
( ) 0
n
ii
i
Y b b X
8
01
1
( ) 0
n
i i i
i
Y b b X X
hay hai phương trình chuẩn sau:
01
11
nn
ii
ii
b n b X Y
2
0
1 1 1
n n n
i i i i
i i i
b X X X Y
Nghiệm của chúng là
0
1
(1.3)b Y b X
1 1 1 1 1
1
2 2 2 2 2
X
1 1 1 1
XY [( )( )]/ ( )( )
X ( ) / ( )
n n n n n
i i i i i i i i
i i i i i XY
n n n n
X
i i i i
i i i i
X Y n X Y X Y n X X Y Y
S
b
S
X n X X n X X
Thay (1.3) vào (1.2) ta có
1
( ), 1, , (1.4)
i
i
Y Y b X X i n
Phương trình (1.4) được gọi là hồi quy tuyến tính đơn trong đó các hệ số được
xác định theo phương pháp bình phương bé nhất.
Chú ý 1:
0
ˆ
b
,
1
ˆ
b
là các điểm dừng. Để khẳng định
0
ˆ
b
,
1
ˆ
b
làm cực tiểu S, cần
lấy đạo hàm riêng bậc 2 của S theo
01
,bb
, ta có ma trận Hessian:
22
2
0 0 1
2
22
2
0 1 1
22
22
i
ii
SS
b b b
nX
H
XX
SS
b b b
Do
2
2 2 2 2
()
4( ( ) ) 4 ( ) 4 ( ) 0
i
i i i i
X
H n X X n X n X X
n
nên H là ma trận xác đinh dương và điểm dừng chính là điểm cực tiểu của S.
Các giả thiết của mô hình hồi quy tuyến tính đơn
9
1) Các giá trị của biến độc lập X là không ngẫu nhiên (tất định) và
được xác định từ trước.
2) Sai số ngẫu nhiên có kỳ vọng bằng 0:
( ) 0Ee
3) Sai số ngẫu nhiên có phương sai cố định:
2
ar(e)= V
4) Các sai số không tương quan với nhau:
cov( , ) 0,
ij
e e i j
5) Sai số là đại lượng ngẫu nhiên có phân bố chuẩn:
2
0,
i
eN
Các tính chất của ước lượng
a) Trung bình của các sai lệch bằng 0 :
1
1
ˆˆ
0
n
i
i
ee
n
b) Đường thẳng hồi quy luôn đi qua điểm trung bình mẫu
01
Y b b X
c) Trung bình các giá trị dự báo bằng trung bình mẫu của Y :
11
11
ˆˆ
nn
ii
ii
Y Y Y Y
nn
d) Các giá trị dự báo không tương quan với các sai lệch:
ˆ
ˆ
cov( , ) 0eY
e) Sai lệch không tương quan với biến độc lập:
ˆ
cov( , ) 0eX
Định lý Gaus-Markov
Với các giả thiết từ 1 đến 5 của mô hình HQTT đơn, ước lượng BPBN của các
hệ số hồi quy là các ước lượng
- Tuyến tính
10
- Không chệch
- Có phương sai bé nhất (ước lượng hiệu quả) trong lớp các ước lượng
tuyến tính không chệch của các hệ số hồi quy.
Hệ số xác định
Tại mỗi quan sát của mẫu, ta xét sai lệch giữa giá trị quan sát và giá trị ước
lượng:
( ) ( )
i
i i i
Y Y Y Y Y Y
hay
( ) ( )
i i i i
Y Y Y Y Y Y
Bình phương hai vế đẳng thức trên rồi lấy tổng theo các quan sát và lưu ý
11
2 ( )( ) 2 ( ){( )- ( )}=0
i i i i i i
Y Y Y Y b X X Y Y b X X
ta suy ra
2 2 2
( ) ( ) ( ) (1.5)
i
ii
Y Y Y Y Y Y
Đặt
2
()
i
YY
= SST, tổng bình phương này thể hiện sự biến động của Y.
2
ˆ
()
i
YY
= SSR thể hiện sự biến động được giải thích bằng hồi quy.
2
ˆ
()
i
YY
= SSE thể hiện sự biến động không được giải thích bằng hồi
quy. Đây chính là độ biến động ngẫu nhiên của sai số.
Khi đó (1.5) trở thành
SST=SSR+SSE
Từ những khái niệm trên, ta có thể định nghĩa hệ số xác định
2
R
như sau:
2
R
= Biến động được giải thích bằng hồi quy/ Biến động tổng cộng
2
R
=
SSR SST SSE
SST SST
11
2
R
càng gần 1 càng tốt vì khi đó mô hình hồi quy tuyến tính sẽ phù hợp (có ý
nghĩa) vì nó giải thích hầu hết các biến động của Y; phần biến động không
được giải thích bởi hồi quy (SSE) sẽ nhỏ.
Các tổng bình phương trên đều gắn với một số gọi là bậc tự do (viết tắt là df).
Ví dụ để tính SST, chỉ cần biết n-1 quan sát độc lập, lúc đó bậc tự do của SST
là n-1. Để tính SSR=
2
2
1 i
b X X
chỉ cần 1 số hạng, bậc tự do của SSR là 1.
Bằng phép trừ, ta suy ra để tính biến động không được giải thích bằng hồi
quy, cần (n-1) –1 = n-2 số hạng độc lập, bậc tự do của sai số ngẫu nhiên là n-
2. Với các khái niệm như trên, ta có thể thiết lập bảng phân tích phương sai
đối với hồi quy tuyến tính đơn như sau:
Nguồn biến
động
Bậc tự
do (df)
Tổng bình phương
Trung bình bình phương
F
Hồi quy
Sai lệch
1
n-2
SSR=
2
ˆ
()
i
YY
SSE=
2
ˆ
()
ii
YY
MSR=
2
ˆ
()
i
YY
MSE=
2
ˆ
()
ii
YY
/(n-2)
MSR
MSE
Tổng cộng
n-1
SST=
2
()
i
YY
Ta có thể sử dụng bảng phân tích phương sai để kiểm tra tính phù hợp của dữ
liệu với mô hình. Cụ thể dữ liệu được coi là phù hợp với mô hình (hay nói
cách khác, mô hình Hồi quy tuyến tính đơn có ý nghĩa đối với số liệu), nếu
[1- ;1;n-2]
SR
S
M
FF
ME
.
Khoảng tin cậy và kiểm định giả thuyết và trong phân tích hồi quy
a) Ta muốn kiểm định giả thuyết
0
H
:
1
0b
(đường hồi quy song song với trục
X) so với đối thuyết
1
H
:
1
0b
dựa trên giá trị
1
ˆ
b
và phân phối của nó. Độ
lệch chuẩn của
1
ˆ
b
được ký hiệu là S(
1
ˆ
b
) và được cho bởi
1
2
()
()
e
i
S
Sb
XX
12
trong đó
2
2
()
( S )
2
ii
e
YY
S M E
n
Khoảng tin cậy
1%
của
1
b
là:
11
,
lh
bb
Trong đó,
1 1 1 /2; 2)
2
()
l
e
n
i
S
b b t
XX
1 1 1 /2; 2)
2
()
h
e
n
i
S
b b t
XX
với
(1 /2; 2)n
t
là giá trị phân vị có được bằng cách tra bảng phân phối Student
với (n-2) bậc tự do và với mức ý nghĩa
.
Liên quan đến việc kiểm định
0
H
, Ta có thể dùng khoảng tin cậy trên đây:
Nếu
11
, 0
lh
bb
thì chấp nhận giả thiết b
1
=0. Nêu ngược lại, ta bác bỏ giả
thiết.
Ta cũng có thể kiểm định
0
H
bằng cách tính thống kê
1
1
ˆ
ˆ
c
b
t
Sb
rồi so
c
t
với
(1 /2; 2)n
t
là giá trị thu được bằng cách tra bảng.Nếu
(1 /2; 2)cn
tt
thì chấp nhận giả thuyết H
0
: b
1
= 0 . Nếu ngược lại, ta bác bỏ giả thuyết H
0
.
b) Tương tự, ta tìm khoảng tin cậy của
0
b
và kiểm định giả thuyết
0
H
:
0
b
=0 so
với đối thuyết:
10
:0Hb
. Độ lệch chuẩn của
0
ˆ
b
được ký hiệu là S(
0
ˆ
b
) và được
cho bởi
2
0
2
()
()
i
e
i
X
S b S
n X X
Khoảng tin cậy của
0
b
được xác định bằng
00
,
lh
bb
.
13
Trong đó,
2
0 0 1 /2; 2)
2
()
i
l
ne
i
X
b b t S
n X X
2
0 0 1 /2; 2)
2
()
i
h
ne
i
X
b b t S
n X X
Liên quan đến việc kiểm định
0
H
, Ta có thể dùng khoảng tin cậy trên đây:
Nếu
00
, 0
lh
bb
thì chấp nhận giả thiết b
1
=0. Nếu ngược lại thì bác bỏ giả
thiết.
Ta cũng có thể kiểm định giả thuyết
00
:" 0"Hb
so với đối thuyết
10
:" 0"Hb
,
bằng cách tính giá trị của thống kê
0
ˆ
ˆ
0
b
t
c
Sb
rồi so sánh
c
t
với giá trị tới hạn
(1 /2; 2)n
t
có được qua tra bảng. Lúc đó,
nếu
(1 /2; 2)cn
tt
thì chấp nhận giả thuyết H
0
: b
0
= 0 . Nếu ngược lại, ta bác bỏ
giả thuyết H
0
.
c) Xác định độ lệch chuẩn của
ˆ
p
Y
. Ta đã chứng minh
1
ˆ
ˆ
Y Y b X X
. Với
một giá trị mới
p
XX
, ta có
1
ˆ
ˆ
pp
Y Y b X X
. Độ lệch chuẩn của dự báo đối
với một quan sát mới là
1/ 2
2
2
1
ˆ
1
p
pe
i
XX
S Y S
n
XX
Giá trị trên đạt cực tiểu khi
p
XX
và tăng dần khi
p
X
dịch chuyển xa dần
X
theo cả 2 hướng. Như vậy, khi khoảng cách giữa
p
X
và
X
càng lớn, sai số
ước lượng càng lớn (xem Hình 1.2).
Các bước cần thực hiện khi dùng mô hình hồi quy tuyến tính đơn
14
1. Xác định mô hình:
01i i i
Y b b X e
2. Ước lượng tham số:
ˆ
1
2 2 2
X X Y Y
XY nXY
ii
b
X nX
XX
i
;
01
ˆˆ
b Y b X
3. Phân tách các nguồn biến động:
SST= SSR+SSE
SSR = SST-SSE
4. Tính hệ số xác định:
2
2
2
ˆ
11
ii
i
YY
SSR SST SSE SSE
R
SST SST SST
YY
và hệ số xác định hiệu chỉnh
2
1
11
a
n
RR
np
5. Xác định bậc tự do của các nguồn biến động: Các tổng bình phương sai
số SST, SSR và SSE sẽ có các bậc tự do tương ứng là (n-1), 1 và (n-2).
6. Tính độ lệch chuẩn của sai số:
2
SSE
S
e
n
7. Tính độ lệch chuẩn của các tham số:
1/ 2
2
22
0
1
b
X
sS
e
n
X nX
1/ 2
1
22
b
S
e
s
X nX
8. Tính giá trị dự báo: Với một quan sát mới
p
XX
ta có dự báo
01pp
Y b b X
9. Tính độ lệch chuẩn của dự báo:
15
2
22
ˆ
1
1
p
Y
p
XX
sS
e
n
X nX
Ví dụ 1: Số lần vào/ ra đĩa và thời gian sử dụng CPU của 7 chương trình máy
tính được thống kê như sau: (14,2) (16,5), (27,7), (42,9) (39,10), (50,13),
(83,20). Hãy lập một mô hình tuyến tính để dự đoán thời gian sử dụng CPU
theo số lần vào/ra đĩa.
Ta có n=7,
22
3375, 13.855, 271, 66, 828XY X X Y Y
. Do
đó
38,71X
và
9,43.Y
và
3375 7 38.71 9,43
ˆ
0,2438
1
2 2 2
13.855 7 (38.71)
XY nXY
b
X nX
01
ˆ
9,43 0,2438 38.71 0,0083b Y b X
Mô hình hồi quy tuyến tính dự báo thời gian sử dụng CPU có dạng:
Thời gian sử dụng CPU = -0,0083 + 0,2438( số lần vào/ ra đĩa)
Hình 1 cho ta đồ thị của dữ liệu và đường thẳng hồi quy với độ dốc 0,2438 và
hệ số chặn -0.0083. Hệ số xác định
2
0,9715R
chứng tỏ mô hình hồi quy
tuyến tính đơn là tốt và có ý nghĩa.
Hình 1.1: Hồi quy tuyến tính đơn
Hình 1.2: Khoảng tin cậy của dự báo
16
i
Y
i
X
01
ˆˆ
ˆ
ii
Y b b X
2
ˆ
ˆ
i i i
e Y Y
2
ˆ
i
e
2
5
7
9
10
13
20
14
16
27
42
39
50
83
3,4043
3,8918
6,5731
10,2295
9,4982
12.1795
20,2235
-1,4043
1,1082
0,4269
-1,2295
0,5018
0,8205
-0,2235
1,9721
1,2281
0,1822
0,1516
0,2518
0,6732
0,0500
66
271
66,000
0,0000
5,8690
1.1.2 Hồi quy tuyến tính bội
Mô hình và ước luợng BPBN
Mô hình hồi quy tuyến tính bội cho phép ta dự báo một biến đáp ứng Y nhờ
một hàm tuyến tính của k biến dự báo
1, 2
, ,
k
X X X
:
0 1 1
, 1, ,
i i k ki i
Y b b X b X e i n
trong đó
01
, ,
k
b b b
là k+1 tham số và e là sai số ngẫu nhiên. Giả sử ta có một
mẫu gồm n quan sát
11 21 1 1 1 2
, , , , , , , , , ,
k n n kn n
X X X Y X X X Y
. Mô hình bao
gồm n phương trình sau:
1 0 1 11 2 21 1 1
kk
Y b b X b X b X e
2 0 1 12 2 22 2 2
kk
Y b b X b X b X e
………………………………
0 1 1 2 2
n n n k kn n
Y b b X b X b X e
Dùng ký hiệu véc tơ và ma trận, các phương trình trên được viết gộp lại thành
1 11 21 1 0 1
2 12 22 2 1 2
12
1
1
. . . . . . .
. . . . . . .
. . . . . . .
1
k
k
n n n kn k n
Y X X X b e
Y X X X b e
Y X X X b e
hay
17
Y=Xb + e, (1.6)
trong đó
Y là véc tơ cột gồm n giá trị quan sát được của Y =
12
, , ,
n
Y Y Y
;
X là ma trận n hàng k+1 cột, với các giá trị của cột 1 luôn bằng 1;
b
là véc tơ cột gồm k+1 phần tử
01
, ,
k
b b b
e
là véc tơ cột gồm n số hạng sai số
12
, , ,
n
e e e
Ta có thể giả thiết
E
()e
=0 và D
()e
= I
2
(1.7)
trong đó I là ma trận đơn vị cấp n với n phần tử trên đường chéo bằng 1, các
phần tử còn lại bằng 0.
Với giả thiết (1.7), mô hình (1.6) có thể viết lại như sau:
()E Y Xb
(1.8)
Đặt véc tơ
ˆ
Y Xb
. Phần tử thứ i của phương trình véc tơ
ˆ
ˆ
e Y Y Y Xb
có
dạng
0 1 1 2 2
ˆ
( )
i i i i k ki
e Y b b X b X b X
Véc tơ
'
12
ˆ ˆ ˆ ˆ
, , ,
n
e e e e
là véc tơ các sai số. Véc tơ b được chọn sao cho tổng
bình phương các sai lệch sau đạt cực tiểu,
' ' ' ' ' ' ' ' ' ' ' ' '
( ) ( ) 2ee Y Xb Y Xb Y Y b X Y Y Xb b X Xb Y Y b X Y b X Xb
(1.9)
(điều này suy ra từ việc
'
'b X Y
là ma trận 1
1 tức là hằng số nên ma trận
chuyển vị của nó chính bằng nó, (
' ' ' '
()b X Y Y Xb
).
Ước lượng bình phương bé nhất
ˆ
b
của bđược tính bằng cách đạo hàm (1.9)
theo
b
rồi gán bằng 0 và được phương trình sau:
''
()X X b X Y
(1.10)
Nếu
'
XX
không suy biến, nghiệm của phương trình (1.10) là
' 1 '
ˆ
()b X X X Y
Các giả thiết của mô hình
18
1) Các giá trị của các biến độc lập
12
, , ,
k
X X X
là không ngẫu nhiên (tất định)
và được xác định từ trước
2) Sai số ngẫu nhiên có kỳ vọng bằng 0 :
( ) 0Ee
3) Sai số ngẫu nhiên có phương sai cố định:
2
ar(e)= V
4) Các sai số không tương quan với nhau:
cov( , ) 0,
ij
e e i j
5) Sai số là đại lượng ngẫu nhiên có phân bố chuẩn:
2
0,
i
eN
Các tính chất của ước lượng
a) Ước lượng của các hệ số hồi quy là ước lượng không chệch:
1
2'
ˆˆ
;covE b b b X X
b) Các sai lệch có kỳ vọng bằng 0 :
1
2 ' '
ˆˆ
0;cov( )E e e I X X X X
c) Ước lượng của phương sai:
2 ' 2
1
11
ˆ ˆ ˆ ˆ
11
n
i
i
ee e
n k n k
là ước lượng không chệch của
2
tức là:
22
ˆ
E
d) Các giá trị dự báo của các tham số và sai lệch không tương quan với
nhau:
2
ˆˆ
ˆˆ
cov , 0;cov , 0b e b
Các bước thực hiện khi dùng mô hình hồi quy tuyến tính bội
1. Xác định mô hình:
0 1 1
k k i
Y b b X b X e
haydưới dạng ma trận
19
Y Xb e
trong đó
Y là véc tơ cột gồm n phân tử
'
12
, , ,
n
Y Y Y Y
01
, , ,
k
b b b b
;
X là ma trận n hàng, k+1 cột, cột 1 gồm các số 1.
2. Ước lượng tham số:
1
''
ˆ
()b X X X Y
trong đó
'
X
là ma trận chuyển vị của ma trận X.
3. Phân tách các nguồn biến động:
SST= SSR+SSE
4. Tính hệ số xác định:
2
R
=
SSR SST SSE
SST SST
5. Tính hệ số tương quan bội:
SSR
R
SST
6. Xác định bậc tự do cho các nguồn biến động: Các tổng bình phương sai số
SST, SSR và SSE có các bậc tự do tương ứng là (n-1), k và (n-k+1);
7. Tính các độ biến động trung bình
MSR=
SSR
k
;
1
SSE
MSE
nk
và tiến hành kiểm định tính phù hợp của số liệu với mô hình, tức là đánh giá ý
nghĩa của mô hình đối với số liệu. Mô hình hồi quy tuyến tính có nghĩa với số
liệu khi
MSR/MSE
1 ; , 1k n k
F
8. Tínhđộ lệch chuẩn của sai số:
e
S MSE
9. Tínhđộ lệch chuẩn của ước lượng:
j
b e jj
S S C
trong đó
jj
C
là phần tử
20
thứ j trên đường chéo của ma trận
'1
()C X X
.
10. Tiến hành dự báo: Với một quan sát mới, ta có
0 1 2
12
p
k
p p kp
Y b b X b X b X
11. Xác định độ lệch tiêu chuẩn của dự báo:
' ' 1
ˆ
S 1 ( ) .
p
e p p
Y
S X X X X
trong đó
'
12
1, , , ,
p p P kp
X X X X
Ví dụ2 Số liệu trong Bảng 1.1 cho biết thời gian sử dụng CPU (mili giây),
dung lượng bộ nhớ (tính bằng kilobyte) và số lần vào/ ra đĩa của7 chương
trình máy tính.Ta muốn tìm một hàm tuyến tính để ước lượng thời gian sử
dụng CPU dạng
Thời gian sử dụng CPU =
01
bb
số lần vào/ ra đĩa +
2
b
dung lượng bộ nhớ
Bảng 1.1. Số liệu thông số kỹ thuật của chương trình máy tính
Thời gian sử dụng
CPU
i
Y
Số lần vào/ra đĩa
1i
X
Dung lượng bộ
nhớ
2i
X
2
5
7
9
10
13
20
14
16
27
42
39
50
83
70
75
144
190
210
235
400
Trong trường hợp này ta có:
X =
1 14 70
1 16 75
1 27 144
1 42 190
1 39 210
1 50 235
1 83 400
21
'
XX
=
7 271 1324
271 13855 67188
1324 67188 326686
C=
1
'
XX
=
0,6297 0,0223 0,0071
0,0223 0,0280 0,0058
0,0071 0,0058 0,0012
Các hệ số hồi quy sẽ là
' 1 '
ˆ
()b X X X Y
= (-0,1614, 0,1182, 0,0265)
Như vậy, ta có phương trình
Thời gian sd CPU = - 0,1614 +0,1182 lần vào ra đĩa +0,0265 dung lượng bộ
nhớ
Bảng các 1.2 trình bàycác giá trị dự báo theo phương trình hồi quy trên đây
cùng các sai số dự báo tương ứng
Bảng 1.2. Giá trị dự báo thời gian sử dụng CPU
i
Y
1i
X
2i
X
ˆ
i
Y
ˆ
i
e
2
ˆ
i
e
2
5
7
9
10
13
20
14
16
27
42
39
50
83
70
75
144
190
210
235
400
3,3490
3,1780
6,8472
9,8400
10.0151
11.9793
30,2589
-1,3490
1,2820
0,1528
-0,8400
-0,0151
1,0217
-0,2529
1,8198
1,6436
0,0233
0,7053
0,0002
1,0439
0,0639
66
271
1324
66,000
-0,0003
5,3000
Dựa vào Bảng 1.2, ta tính được
SST= SSY-SS0 = 828-622,20 =205,71
SSR= SST-SSE = 205,71-5,3= 200,41
Do đó, hệ số xác định của phương trình hồi quy sẽ là
2
200,41
0,97
205,71
SSR
R
SST
.
Ngoài ra, ta còn có hệ số tương quan bội R
0,97 0,99
; độ lệch chuẩn của
sai số
22
3
5,3/ 4 1.2
SSE
e
n
s
.
Để minh hoạ cho dự báo, ta xét trường hợp một quan sát riêng lẻ trong tương
lai với
1
100x
và
2
550x
. Giá trị trung bình dự báo được cho bởi
1 0 1 1 2 2
ˆ ˆ ˆ
ˆ
0,1614 0,1182(100) 0,0265(550) 26,2375
p
Y b b X b X
Độ lệch tiêu chuẩn của quan sát dự báo là
1
''
ˆ
1 1.2 1 7,4118 3,3435
p
e
Y
s s X X X X
Khoảng tin cậy 90% của giá trị dự báo, với t = 2,132 sẽ là
26,2375
(2,132)(3,1385)=(19,1096;33,3363)
1.2 Mô hình Phân tích phương sai
Phân tích phương sai (ANOVA) là phương pháp phân tích thống kê rất tổng
quát, được sử dụng hữu ích một cách rất rộng rãi cho các bài toán kể từ các
thiết kế thí nghiệm đơn giản đến các mô hình thực sự phức tạp. Về cơ bản,
ANOVA được sử dụng để đánh giá cách thức và mức độ thay đổi của giá trị
trung bình của một số biến định lượng, được gọi là biến phụ thuộc hoặc biến
mô tả, trên một tập hợp các điều kiện khác nhau trong cùng một thí nghiệm.
Các điều kiện khác nhau được so sánh trong thí nghiệm được xác định qua
một hay nhiều biến định tính gọi là biến độc lập. Nói một cách ngắn gọn,
ANOVA được sử dụng để đánh giá mối quan hệ giữa giá trị trung bình của
một biến phụ thuộc định lượng và giá trị của một hay nhiều biến độc lập định
tính.
Ta có thể biểu diễn tóm tắt cấu trúc của mô hình ANOVA qua phương trình
sau:
Giá trị biến PT = TB chung + Ảnh hưởng của nhân tố + Tương tác + Sai số
Sử dụng ký hiệu tương ứng trong Bảng 1.2, phương trình trên được viết lại
thành
Y = µ + A + B + C + … + AB + AC + BC +…+S(nhóm)
23
trong đó,
Y là giá trị thực nghiệm đo được của đại lượng cần nghiên cứu;
µ là phần trung bình chung cho tất cả các quan sát, đại diện cho hiệu
quả chung của thí nghiệm;
A, B, C,…, là các phần tác động chính của các nhân tố trong mô hình,
ảnh hưởng lên giá trị của đại lượng cần nghiên cứu.
AB, BC, CA, … là tương tác giữa các nhân tố, AB, BC, CA là tương tác
hai chiều, trong mô hình còn có thể có các tương tác ba chiều ABC;
ABD; ACD; BCD và tương tác bốn chiều ABCD.
S(nhóm) là sai số ngẫu nhiên trong mô hình, được tính bằng độ sai lệch
giữa giá trị của đại lượng cần nghiên cứu tại mỗi quan sát so với giá trị
trung bình tính riêng cho nhóm chứa quan sát đó.
Bảng 1.3. Các thành phần của dữ liệu thực nghiệm trong phân tích phương sai
Khía cạnh của thí nghiệm
Thành phần của mô hình
Ký hiệu
Biến phụ thuộc định lượng
Giá trị đo được của biến
Y
Ảnh hưởng chung của thí
nghiệm
Giá trị cơ bản (giá trị trung
bình chung)
µ
Nhân tố ảnh hưởng của thực
nghiệm
Ảnh hưởng chính
A, B, C, …
Hiệu ứng tương tác giữa các
nhân tố
Tương tác
AB, AC, BC,…
Sai số ngẫu nhiên
Sai số ngẫu nhiên
S(nhóm)
1.2.1 Mô hình Phân tích phương sai một nhân tố
Giả sử để nghiên cứu chất lượng học tập của sinh viên, ta chọn ngẫu nhiên ra
ba nhóm sinh viên được giảng dạy bằng ba phương pháp khác nhau, sau đó
cho làm bài kiểm tra chung để thu được điểm số phản ánh chất lượng học tập.
Gọi µ
1
, µ
2
, µ
3
là trung bình thật sự của điểm kiểm tra ứng với ba phương pháp
giảng dạy. Chúng ta có thể sử dụng phương pháp Phân tích phương sai một
24
nhân tố để giải quyết bài toán này. Bài toán kiểm định giả thuyết trong mô
hình Phân tích phương sai một nhân tố được phát biểu như sau:
Bài toán kiểm định: Thành lập giả thuyết và đối thuyết
0 1 2
1
:
: ( ); , 1,2, ,
K
hk
H
H h k h k K
trong đó μi là kỳ vọng của biến ngẫu nhiên cần nghiên cứu trong nhóm thứ i,
i=1,…,K. Với một mức ý nghĩa α cho trước, ta cần đưa ra quyết định chấp
nhận hay bác bỏ giả thuyết.
Dữ liệu của mô hình thiết kế ngẫu nhiên có dạng trong Bảng 1.1.
Mức của nhân tố
1
2
3
….
k
11
Y
12
Y
.
.
.
1
1n
Y
21
Y
22
Y
.
.
.
2
1n
Y
31
Y
32
Y
.
.
.
3
1n
Y
…
…
.
.
.
1K
Y
2K
Y
.
.
.
1
K
n
Y
Nếu biến ngẫu nhiên của thiết kế thỏa mãn điều kiện của Định lý 1 và giả
thuyết H
0
được xem là đúng, thì theo các Định lý 1 và Định lý 2,các thống kê
2
ij
11
22
()
S
i
n
K
N
ij
Y
YY
S
2
1
22
()
SS
i
K
i n n
i
A
n Y Y
có phân phối Khi - bình phương với bậc tự do tương ứng là N-1và K-1. Phần
biến động do sai số gây ra,
()
2 2 2
SS
SS SS
SA
YA