Tải bản đầy đủ (.docx) (179 trang)

Bài tập lớn Phân tích thông kê số liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (825.87 KB, 179 trang )

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
======***======

Báo cáo bài tập lớn
PHÂN TÍCH THƠNG KÊ SỐ LIỆU
ĐỀ TÀI: Phân tích sản lượng và diện tích của lúa, ngơ, mía, và diện tích
lúa, ngơ, khoai lang phân theo địa phương qua các năm từ 2010 - 2019

Hà Nội _ 2021

1


Mục lục

2


CHƯƠNG 1: CƠ SỞ LÍ THUYẾT
1. Các khái niệm về đặc trưng cơ bản của số liệu
1.1. Các đặc trưng cề sự tập trung của tập số liệu.
1.1.1.
Tần suất
Tần suất (): Giả thiết có một tập số liệu kết quả nghiên cứu gồm có N số liệu,
trong đó có giá trị có (xuất hiện lần) gọi là tần số của giá trị khi đó, tần suất của
giá trị được tính như sau:
=

0< <1


là tần xuất xuất hiện của , khi N- >∞ thì -> ( là xác xuất xuất hiện của ).
Vd 1: Cho tập số liệu về diện tích mía (nghìn ha) từ 2010-2019
Năm

Diện tích mía
(nghìn ha)

2010
2011
2012
2013
2014
2015
2016
2017
2018
2019

269.1
282.2
301.9
310.4
305
284.2
267.6
281
269.3
233.7

Tổng 10 số => N=10

Số lần xuất hiện :
i

X

1

233.7

1

0.1

2

267.6

1

0.1

3

269.1

1

0.1

3



1.1.2.

4

269.3

1

0.1

5

281

1

0.1

6

282.2

1

0.1

7


284.2

1

0.1

8

301.9

1

0.1

9

305

1

0.1

10

310.4

1

0.1


Số trội (:
Số trội là số có tần suất lớn nhất ( chính là số có tần xuất xuất hiện lớn nhất)
trong tập số liệu kết thực nghiệm.
Vd 2: Từ tập số liệu của vd1 tất cả các X có tần suất bằng nhau

1.1.3.

Khoảng cách của tập số (R)
Bảng số liệu diện tích mía (nghìn ha) từ 2010-2019 sau khi sắp xếp:

STT
1
2
3
4
5
6
7
8
9
10

Diện
tích
mía
(nghìn
Năm
ha)
2019 233.7
2016 267.6

2010 269.1
2018 269.3
2017
281
2011 282.2
2015 284.2
2012 301.9
2014
305
2013 310.4

4


Khoảng cách của tập số (R) khoảng cách giữa giá trị lớn nhất và giá trị nhỏ nhất
của tập số liệu và kết quả thực nghiệm.
Công thức : R= 1.1.4.

Vd3 : Từ tập số liệu của vd1 ta được : R=310.4-233.7=76.7
Số trung vị (Med) và số tứ phẩn vị (Q)
Số trung vị (Med) là số đứng giữa tập số liệu đã được sắp xếp theo thứ tự từ bé
đến lớn, chia dãy số đó thành hai phần bằng nhau về số liệu.
Ví dụ:
===
= trùng với số trung vị Med
-Đối với các số liệu khơng nhóm lại:
+ Sơ trung vị của tập N số lẻ được tính:Med=
+ Số trung vị của tập N số chẵn được tính:Med=[+]
+ Số tứ phân vị của tập N giá trị chia hết cho 4
=[+]

=[+]
+ Số tứ phân vị của tập N không chia hết cho 4
=
=
-Đối với số liệu gộp thành nhiều nhóm:
Med=( -) +
= [-] +
Ví dụ: cho số liệu diện tích mía (nghìn ha) từ năm 2010-2019 được sắp xếp tăng
dần:
STT

Năm

Diện
tích
mía
5


(nghìn
ha)
1
2
3
4
5
6
7
8
9

10

2019
2016
2010
2018
2017
2011
2015
2012
2014
2013

233.7
267.6
269.1
269.3
281
282.2
284.2
301.9
305
310.4

Từ bảng trên ta có N=10, N lẻ
=>Sơ trung vị của tập N số chẵn được tính: Med= = = (281+282.2)/2 = 281.6
 Số tứ phân vị của tập N không chia hết cho 4:
= = = 269.1
== = 301.9
1.1.5.

Trung bình cộng
Gọi X là giá trị trung bình cộng của 1 tập số liệu thì X được tính theo cơng thức:
=

với N =

Ví dụ : Cho tập số liệu về diện tích mía (nghìn ha) từ năm 2010-2019. Tính
Năm

Diện tích mía
(nghìn ha)

2010
2011
2012
2013
2014
2015
2016
2017
2018

269.1
282.2
301.9
310.4
305
284.2
267.6
281

269.3
6


2019

233.7

Ví dụ: Từ bảng trên
=280.44
1.2. Các tham số đặc trưng cho sự phân tán của tập số liệu:

1.2.1.

Phương sai (² hay S² )
Phương sai là trung bình của tổng bình phương sai khác giữa các giá trị của tập
số liệu so với giá trị trung bình của tập số liệu kết quả thực nghiệm:
Hay:
Cơng thức thực dụng để tìm phương sai:

N’ có bản chất là bậc tự do của tập số liệu
Với N’ = N nếu N>30
N’=N-1 Nếu N<=30
Phương sai đặc trưng cho sự sai biệt của các số liệu trong kết quả thực nghiệm ,
phương sai càng lớn, sai biệt càng lớn. Ngược lại phương saicafng nhỏ thì sự sai
biệt càng nhỏ.
Phương sai còn biểu diễn độ phân tán của tập số liệu kết quả thực nghiệm đối
với giá trị trung bình. Phương sai càng lớn độ phân tán xung quanh giá trị trung
bình càng lớn và ngược lại.


VD: Cho tập số liệu về chỉ số phát triển sản lượng lúa từ 2009-2016. Tính
phương sai
Năm
2009
2010
2011
2012

Chỉ số phát triển sản
lượng lúa
100.60
102.70
106.00
103.20
7


2013
2014
2015
2016

100.70
102.10
100.30
95.70

= = 101.413
S² ={(100.6-101.413)2+(102.7-101.413)2+(106-101.413)2+(103.2-101.413)2 +


1.2.2.

(100.7.101.413.2 +(102.1-101.413)2 +(100.3-101.413)2 (95.7-101.413)2 =
8.77268
Độ lệch chuẩn
Độ lệch chuẩn của 1 tập số liệu kết quả thực nghiệm là giá trị căn bậc 2 trị số
phương sai của nó:
= hoặc =
Ví dụ: Cho tập số liệu về chỉ số phát triển sản lượng lúa từ 2009-2016. Tính độ
lệch chuẩn Sf

Năm

Chỉ số phát triển sản
lượng lúa

2009
2010
2011
2012
2013
2014
2015
2016

100.60
102.70
106.00
103.20
100.70

102.10
100.30
95.70

Từ bảng số liệu trên ta tính được Sf == = 2.96
1.2.3. Độ sai chuẩn
Độ sai chuẩn của 1 tập số liệu kết quả thực nghiệm là giá trị khi lấy Sf chia cho
= hoặc =
8


Ví dụ 8: Cho tập số liệu về chỉ số phát triển sản lượng lúa từ 2009-2016. Tính
độ sai chuẩn Sx
Năm

Chỉ số phát triển sản
lượng lúa

2009
2010
2011
2012
2013
2014
2015
2016

100.60
102.70
106.00

103.20
100.70
102.10
100.30
95.70

Sx = = 1.0465
1.2.4. Hệ số biến thiên (Cv)
Dựa vào hệ số biến thiên để so sánh gần đúng độ sai biệt của kết quả thực
nghiệm.
Cv = .100
Ví dụ 9: Cho tập số liệu về chỉ số phát triển sản lượng lúa từ 2009-2016. Tính hệ
số biến thiên Cv
Năm

Chỉ số phát triển sản
lượng lúa

2009
2010
2011
2012
2013
2014
2015
2016

100.60
102.70
106.00

103.20
100.70
102.10
100.30
95.70

Cv = .100 = = 2.919%
9


1.2.5. Mối quan hệ giữa độ lệch chuẩn và hệ số biến thiên.
Độ lệch chuẩn càng lớn (tức sai biệt càng lớn) thì Cv càng lớn.
Độ lệch chuẩn càng nhỏ (tức sai biệt càng nhỏ) thì Cv càng nhỏ.

2. Phân tích phương sai cho các bài tốn một nhân tố, 2 nhân tố ảnh hưởng
đến kết quả thí nghiệm
2.1. Bài toán 1 nhân tố
Phát biểu: Bài toán 1 nhân tố, có k mức nghiên cứu, mỗi mức thực nghiệm làm
lại n lần
So sánh sự sai khác giữa các giá trị kết quả thực nghiệm (yij) do thay đổi các
mức thực nghiệm (ai) của nhân tố A với tồn thí nghiệm
- Cần so sánh phương sai của sự thay đổi các mức thực nghiệm với phương
sai của sai số thực nghiệm có khác nhau đáng tin cậy hay khơng
- Nếu khác nhau không đáng tin cậy, nhân tố A k ảnh hưởng lên kết quả
thực nghiệm, nếu khác nhau đáng tin cậy thì nhân tố A đã ảnh hưởng đến
kết quả thực nghiệm.
N và A
1
2
3


J

N
Tổng





Y11
Y12
Y13

Y21
Y22
Y23

Y31
Y32
Y33

Yi1
Yi2
Yi3

Yk1
Yk2
Yk3


Y1j

Y2j

Y3j

Yiị

Ykj

Y1n

Y2n

Y3n

Yin

Ykn

Sử dụng chuẩn Fisher để so sánh phương sai
=

so với (p,f1,f2)

2

: đặc trưng cho sự khác nhau của kết quả thực nghiệm (yij) do sự khác
nhau giữa các mức (Ai) gây ra
10



2

: Đặc trưng cho sai số thực nghiệm nói chung, (làm thực nghiệm bao giờ
cũng mắc sai số)
f1 : Bậc tự do của số mức thực nghiệm đã làm f1=k-1
f2: Bậc tự do của số nghiên cứu đã tiến hành trong qui hoạch thực nghiệm
= k(n-1)
Với H0 : S12 S22

Ha : S12 S22

Nếu Ftính < Fbảng thì Ftính khơng đáng tin cậy, tức là S12 khác S22 không
đáng tin cậy cho nên chúng được coi là giống nhau => Nhân tố A khi thay
đổi đã khơng có tác động đến kết quả thí nghiệm.
Nếu Ftính > Fbảng thì Ftính đáng tin cậy, tức là S12 S22 đáng tin cậy => Nhân tố
A khi thay đổi đã tác động đến kết quả thí nghiệm.
- Bảng cơng đoạn để tính phương sai nhằm so sánh cho bài toán 1 nhân tố k
mức thực nghiệm và n lần lặp: Phương sai:

S2

Nhân tố

f

A

k-1


SSA=SS2 – SS3

SSA2 =

Thực nghiệm

k(n-1)

SSTN=SS1 – SS3

SSTN2 =

Trong đó:
Ai =
SS2 =2
SS3 =2
SS1 =2
F tính =
So sánh với F bảng, trong đó fA=k-1 ; fTN = k(n-1)

Ta có thể tóm gọn bài tốn 1 nhân tố bằng các bước làm sau:
B1: Tính trung bình tất cả các phần tử:
B2: tính X B3: Tính bình phương các giá trị ở B2
11


B4: Tính tổng bình phương của B3
B5: Tính trung bình từng nhân tố Ai với
i= 1,2,3…n

B6: Lấy Ai - B5
B7: Tính bình phương các giá trị ở B6
B8: Tính tổng của B7
B9: Tính S2 =
B10: Tính STN2 =
B11: Tính F tính =
Ví dụ : Yếu tố thí nghiệm A có 3 nghiệm thức , , với mức lặp là 3.
Nhân tố

Lần lặp
1

2

3

1

4

9

4

9

16

9


16

23

=371.22 ,Fbảng=5.14, =49.61, =, =1317, = 345.041 ,
= -99.35, =40.5
F tính==2,45< F bảng =>F tính khơng đáng tin cậy
=>giống nhau -> A khơng có tác dụng lên kết quả thực nghiệm

2.2 Bài toán 2 nhân tố
Phát biểu: Bài toán 2 nhân tố, nhân tố A có k mức thực nghiệm, nhân tố B có m
mức thực nghiệm. Mỗi mức thực nghiệm lặp lại n lần.

A

12


b1
b2
B

b3

bj

bm

a1


a2



ai



ak

Y111,Y112,
…,Y11n
Y121,Y122,
…,Y12n
Y131,Y132,
…,Y13n

Y211,Y212,
…,Y21n
Y221,Y222,
…,Y22n
Y231,Y232,
…,Y23n

Yi11,Yi12,
…,Yi1n
Yi21,Yi22,
…,Yi2n
Yi31,Yi32,
…,Yi3n


Yk11,Yk12,
…,Yk1n
Yk21,Yk22,
…,Yk2n
Yk31,Yk32,
…,Yk3n

Y1j1,Y1j2,
…,Y1jn

Y2j1,Y2j2,
…,Y2jn

Yij1,Yij2,
…,Yijn

Ykj1,Ykj2,
…,Ykjn

Y1m1,Y1m2,
…,Y1mn

Y2m1,Y2m2,
…,Y2mn

Yim1,Yim2,
…,Yimn

Ykm1,Ykm2,

…,Ykmn

Gần giống với bài toán 1 nhân tố, tuy nhiên có sự thay đổi ở Bảng cơng đoạn để
tính phương sai nhằm so sánh cho bài toán 2 nhân tố là:
S2

Nhân tố

f

A

k-1

SSA=SS2 – SS4

SSA2 =

B

m-1

SSB=SS3 – SS4

SSB2 =

AB

(k-1)*(m-1) SSAB=SS1 – SS2 – SS3 +SSAB2 =
+SS4


Thực nghiệm

mk(n-1)

SSTN=SS1 – SS4

SSTN2 =

SA 2: Đặc trưng cho ảnh hưởng của nhân tố A lên kết quả nghiên cứu
SB 2: Đặc trưng cho ảnh hưởng của nhân tố B lên kết quả nghiên cứu
SAB 2: Đặc trưng cho ảnh hưởng của nhân tố A và cả B lên kết quả nghiên cứu
STN2 : Đặc trưng cho sai số nghiên cứu
Các bước tính phương sai theo bảng:
Yij =iju
(Với u: nghiên cứu lặp thứ u, i:mức đối với A, j: mức đối với B)
13


Y2ij =(iju )2
Ai=iju
i

=iju =j

SS1 =iju
SS2 =i2
SS3 =j2
SS4 =(iju)2 =(i)2 =(j)2
Có ba TH so sánh và kết luận:

FA=
F B=
FAB=
Với FA=k-1;FB=m-1;FAB=(k-1)(m-1)
FTN=m.k.(n-1)
Ta có thể làm bài toán 2 nhân tố ảnh hưởng bằng các bước sau:
Bước 1: Tính tổng ai và bi (từng ơ)
Bước 2: Tính bình phương tổng giá trị trong 1 ô
Bước 3: Tính tổng số đối với các cột
Bước 4: Tính tổng số đối với các hàng
Bước 5: Tổng tất cả các kết quả
Bước 6: Tìm tổng bình phương của tổng các cột chia cho (số hàng*số lần lặp)
Bước 7: Tìm tổng bình phương của tổng các hàng chia (số cột*số lần lặp)
Bước 8: Tìm số hạng bổ chính được định nghĩa như là phép chia của bình
phương của tổng tất cả các kết quả cho tổng số kết quả
Bước 9: Tìm tổng bình phương của sự sai khác của A và B
Bước 10: Tìm tổng bình phương của phương sai sai số
Bước 11: Tìm tổng của tổng bình phương
Bước 12: Tìm tổng bình phương của số hạng tương tác
Bước 13: Tìm phương sai tương ứng
Ví dụ:

14


Đề bài : Hàm lượng saponin (mg) của cùng một loại dược liệu được thu hái
trong 2 mùa (khô và mưa : trong mỗi mùa lấy mẫu 3 lần – đầu mùa, giữa mùa,
cuối mùa) và từ 3 miền (Nam, Trung, Bắc) thu được kết quả sau :
Mùa
Khô

Mưa

Thời điểm

Miền
Trung
2.1
2.2
2.2
2.2
2.3
2.3

Nam
2.4
2.4
2.5
2.5
2.5
2.6

Đầu mùa
Giữa mùa
Cuối mùa
Đầu mùa
Giữa mùa
Cuối mùa

Bắc
3.2

3.2
3.4
3.4
3.5
3.5

Bước 1: Tính tổng ai và bi (từng ơ)
Mùa
Khơ

Nam
7.3

Trung
6.5

Bắc
9.8

Tổng hàng
23.6

Mưa

7.6

6.8

10.4


24.8

Tổng cột

14.9

13.3

20.2

48.4

Bước 2: Tính bình phương Bước 1
Mùa
Khơ

Nam
53.29

Trung
42.25

Bắc
96.04

Mưa

57.76

46.24


108.16

Bước 3: Tính tổng các cột
Mùa
Nam
Trung
Tổng cột
14.9
13.3
Bước 4: Tính tổng các hàng
Mùa

Bắc
20.2

Tổng hàng
15


Khơ

23.6

Mưa

24.8

Bước 5: Tổng tất cả các kết quả
Tính tổng kq: 23.6+24.8=48.4

Bước 6: Tìm tổng bình phương của tổng các cột chia cho (số cột*số lần lặp)
SS2= ( (14.9*14.9) + (13.3*13.3) + (20.2*20.2) ) /(2*3) = 134.49
Bước 7: Tìm tổng bình phương của tổng các hàng chia (số hàng*số lần lặp)
SS3 = ( (23.6*23.6) + (24.8*24.8) )/(3*3)= 130.22
Bước 8: Tìm số hạng bổ chính được định nghĩa như là phép chia của bình
phương của tổng tất cả các kết quả cho tổng số kết quả
SS4 = (48.4*48.4)/ 18 = 130.14
Bước 9: Tìm tổng bình phương của sự sai khác của A và B
SSA = SS2 - SS4 = 134.49 – 130.14 = 4.35
SSB = SS3 - SS4 =130.22 – 130.14 = 0.08

Bước 10: Tìm tổng bình phương của phương sai sai số
SS1 : Tổng của từng ơ bình phương
SSSai Số = SS1 - bình phương từng các ơ / n
SSSai Số = 134.64 – (403.74/ 3) =0.06
Bước 11: Tìm tổng của tổng bình phương
SSTổng= SS1 - SS4 =134.64 – 130.14 = 4.5
Bước 12: Tìm tổng bình phương của số hạng tương tác
SSAB= SSTổng – SSA – SSB – SSSai Số =0.01
Bước 13: Tìm phương sai tương ứng
16


SA = = 4.35/(3-1) = 2.175
SB = = 0.08/(2-1 ) = 0.08
SAB = = 0.01/(3-1)(2-1) = 0.005
Ssai số = = 0.06/((2*3*(3-1))= 0.005
FA = SA / Ssaiso = 435
FB = SB / Ssaiso = 16
FAB = SAB / Ssaiso = 1

Ta thấy :
FA > Fbảng(A)= F(0.95,2,12) = 3.89
FB > Fbảng(B)= F(0.95,1,12) = 4.75
FAB < Fbảng(AB)= F(0.95,2,12) = 3.89
= 3.89
Kết luận: Hai nhân tố A,B ảnh hưởng mạnh lên kết quả. 2 yếu tố mùa và miền
khơng có sự tương tác với nhau
3. Mơ hình hồi quy
3.1 Mơ hình hồi quy đơn biến
Giả sử ta có x là biến độc lập, y là biến phụ thuộc. Điều ta quan tâm là sự ảnh
hưởng của x đến y?
Xét trường hợp đơn giản nhất: y = f(x) có dạng tuyến tính
y = A + Bx + e
Trong đó: y là biến phụ thuộc (biến được mơ hình hóa, cịn gọi là biến đáp ứng)
x = biến độc lập
e = lỗi ngẫu nhiên
A = hệ số tự do
B = độ nghiêng của đường thẳng

17


Để làm khớp một mơ hình hồi quy tuyến tính đơn giản với một tập dữ liệu, ta phải
tìm ước lượng cho biết các tham số A và B của đường trung bình y = A + Bx.
Ta cần đưa ra các giả định cụ thể về tính chất của nó.
Các giả định cần thiết cho một mơ hình hồi quy tuyến tính:
1. Các trung bình của phân bố sai số ngẫu nhiên là 0, E (e) = 0. Khi đó giá trị
trung bình của y, E (y), với một giá trị nhất định x, là y = A + B x.
2. Các phương sai của sai số ngẫu nhiên bằng một hằng số, , cho mọi x.
3. Sự phân bố xác suất của sai số ngẫu nhiên là phân bố chuẩn.

4. Các lỗi liên kết với hai quan sát khác nhau bất kỳ là độc lập.
Phương pháp bình phương cực tiểu.
Vấn đề đầu tiên của phân tích hồi quy đơn giản là tìm ước lượng của A và B của
mơ hình hồi quy dựa trên một dữ liệu mẫu. Giả sử chúng ta có một mẫu của n
điểm dữ liệu (x1, y1), (x2, y2), ..., (xn, yn). Mơ hình đường thẳng cho các y tương
ứng với x là: y = A + B x + e.
Đường thẳng của các trung bình là E (y) = A + B x và đường được làm khớp với
dữ liệu mẫu.
Như vậy, là một ước lượng của các giá trị trung bình của y, và a, b là ước lượng
của A và B, tương ứng. Đối với một điểm số liệu, nói rằng các điểm (xi, yi), giá trị
quan sát của y là yi và các giá trị dự đoán của y sẽ là:
SSE = 2

Các giá trị của a và b làm cho tối thiểu SSE được gọi là các ước tính theo phương
pháp bình phương cực tiểu của các tham số quần thể A và B và phương trình dự
báo được gọi là đường bình phương cực tiểu.
Độ nghiêng:

b= = , a=

Trong đó:
SSxy =
,

, SSxx = 2
n = kích thước mẫu
18


Đánh giá phương sai


2

Trong hầu hết các tình huống thực tế, phương sai 2 của sai số ngẫu nhiên e chưa
biết và phải được ước tính từ dữ liệu mẫu. Với 2 đo phương sai của các giá trị y về
đường hồi quy, trực giác ta ước tính 2 bằng cách chia tổng lỗi SSE cho một số thích
hợp.
s2 =
Trong đó
SSE = SSyy –
SSyy = 2
Từ định lý sau đây có thể chứng minh rằng s 2 là một ước lượng không chệch của
2
, nghĩa là
E(s2) = 2
Cho khi các giả định thỏa mãn, thống kê x 2 = có phân phối chi-square với bậc tự
do v = (n - 2)

Kiểm định mơ hình
Kiểm định một phía

Kiểm định hai phía

Ho: B = 0

Ho: B = 0

Ha: B < 0 (hoặc B > 0)

Ha: B 0


Kiểm định thống kê:

Kiểm định thống kê:

t=

t=

Vùng bác bỏ

Vùng bác bỏ

t < - t ( Hoặc t > t ),

t < -t or t > t ,

Trong đó t dựa trên bậc tự do

Trong đó t dựa trên bậc tự do

df = (n-2).

df=(n - 2).

Ví dụ : Cho bảng số liệu về lượng phân bón và năng suất lúa bình quân theo các
năm từ 1996 – 2010.
19



a. Hãy dựng đường hồi qui tuyến tính giữa x và y (quan hệ hàm giữa chúng).
b. Kiểm định mô hình.
Năm
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010



Mơ hình đường hồi qui đơn biển của năng suất lúa phụ thuộc vào lượng phân bón
 là : 
Nangsuatluabinhquan = 1.96876 + 0.0178976*LuongPhanbon
Ta có: b= 0.0178976>0 => mơ hình hình hơi qui đồng biến 
20





Kiểm định:  
Đặt: H0: B= 0 
       Ha: B!=0  
= 22.5356
= (0.025,n-(k+1))= (0.025, 13)= 2.16
>
 Bác bỏ H0, chấp nhận Ha có nghĩa là B!=0
 Năng suất lúa phụ thuộc vào lượng phân bón
3.2. Mơ hình hồi quy đa biến
Giả sử thời gian trung bình E (y) yêu cầu để thực hiện một công việc xử lý dữ liệu
tăng nếu tăng việc sử dụng máy tính và các mối quan hệ đó là đường cong. Thay vì
sử dụng mơ hình đường thẳng E(y) = A +B để mơ hình hóa mối quan hệ, chúng ta
có thể sử dụng mơ hình bậc hai E (y) = A + + 2,
trong đó x1 là một biến đo việc sử dụng máy tính.
Nếu, ngồi ra, ta nghĩ rằng thời gian là cần thiết để xử lý một công việc cũng liên
quan đến kích thước x2 của cơng việc, chúng tơi có thể bao hàm trong mơ hình. Ví
dụ, mơ hình đầu tiên trong trường hợp này là
E (y) = + +
và mơ hình thứ hai:
E (y) = + + + + 2 +2.
Tất cả các mơ hình mà chúng ta đã xét gọi là mơ hình tuyến tính, bởi vì E (y) là
một hàm tuyến tính của các tham số chưa biết , , , ...
Mơ hình

E (y) = A

khơng phải là một mơ hình tuyến tính vì E (y) khơng phải là một hàm tuyến tính
của các tham số mơ hình chưa biết A và B.
Lưu ý rằng bằng cách đưa ra các biến số mới để mơ hình bậc hai có thể được viết
dưới dạng các mơ hình bậc nhất. Ví dụ, đặt x2 = x12, mơ hình bậc hai

E (y) = + + 2
trở thành mơ hình bậc nhất
21


E (y) = + + .
Do vậy, trong tương lai chúng ta chỉ xem xét mơ hình hồi quy bậc nhất đa biến.
Mơ hình tuyến tính đa biến tổng qt:
y = + + ... + + e,
trong đó
y = biến phụ thuộc (biến được mơ hình hóa – sometimes called the response
variable)
, , ..., = Biến độc lập ( variable used as a predictor of y)
e = Lỗi ngẫu nhiên
xác định sự đóng góp của các biến độc lập
Các giả định cần thiết cho một mơ hình hồi quy tuyến tính đa biến
 y = + + ... + + e. Trong đó e là sai ngẫu nhiên
2.
Kiểm định một phía

Kiểm định hai phía

Ho: Bi = 0

Ho: Bi = 0

Ha: Bi < 0 (or Bi > 0)
trị
Kiểm định thống kê:
kỳ

t=

Ha: Bi 0
Kiểm định thống kê:

Đối
với
các
giá
bất

t=

vùng loại bỏ

vùng loại bỏ

t < - t( hoặc t> t),

t < - t or t > t,

tdựa trên [ n- (k+1)] = df,

trong đó tdựa trên [ n- (k+1)]=df,

n = số các quan sát,

n = số các quan sát,

k= số các biến độc lập trong mơ hình k= số các biến độc lập trong mơ

hình
của , , ..., , lỗi ngẫu nhiên e có phân bố chuẩn với trung bình bằng 0 và phương sai
bằng 2 .
3. Các lỗi ngẫu nhiên là độc lập.
4. Ví dụ: Cho bảng số liệu về lượng phân bón, năng suất lúa bình quân và sản lượn
lúa các năm 1996-2010 như sau :
22


Năm

Lượng Phân Bón (kg/ha) Năng suất lúa bình qn (tạ/ha) Sản lượng
lúa (tạ/ha)

1996

65.3

3.113204

26396.7

70.5

3.33427

27523.9

78.2


3.481492

29145.5

89.9

3.565635

31393.8

97.3

3.689798

32529.5

102.2

3.768911

32108.4

110.6

3.876769

34447.2

118.9


3.958534

34568.8

125.5

4.101834

36148.9

127.8

4.243181

35832.9

135.1

4.285291

35849.5

140.8

4.590328

35942.7

146.2


4.638738

38729.8

153.3

4.855264

38950.2

162.7

4.88906

40005.6

1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010




Mơ hình hồi qui đa biến năng suất Lúa bình quần phụ thuộc vào lượng phân bón
và sảnlượng lúa : 
Nangsuatluabinhquan = 1.61504 + 0.0103457*LuongPhanbon +
0.0000423628*Sanluonglua
Kiểm định  
+ Lượng phân bón
Đặt:
23


H0: B1=0;  
Ha: B1!=0 
= 1.94339 < = (0.025,15-(2+1)) = 2.179
 Chấp nhận H0, bác bỏ Ha có nghĩa là B1=0
 Năng suất lúa bình qn khơng phụ thuộc vào lượng phân bón
+ Sản lượng lúa
Đặt:
Ho: B2=0;  
Ha: B2!=0 
= 1.43344 <= (0.025,15-(2+1)) = 2.179 
 Chấp nhận H0, bác bỏ Ha có có nghĩa là B2= 0
 Năng suất lúa bình qn khơng phụ thuộc vào sản lượng lúa

4. Mơ hình tương quan
Phân tích tương quan là cơng cụ thống kê có thể sử dụng để mô tả mức độ các biến
quan hệ tuyến tính liên quan. Thường thường, phân tích mối tương quan được sử
dụng kết hợp với phân tích hồi quy để đánh giá mơ hình tìm theo bình phương cực

tiểu là phù hợp với những dữ liệu hay không. Phân tích tương quan cũng có thể
được sử dụng để đo lường mức độ liên kết giữa hai biến. Trong phần này chúng tơi
trình bày hai phương pháp để mơ tả sự tương quan giữa hai biến: Dùng Hệ số xác
định và hệ số tương quan.
4.1. Hệ số tương quan
Cho một tập mẫu gồm n các số đo trên x và y Các hệ số tương quan r là một độ đo
cường độ của quan hệ tuyến tính giữa hai biến x và y. Nó được tính như sau :
r=
Trong đó:
SSxy =
SSxx = 2
SSyy = 2

24


4.2. Một số tính chất của hệ số tương quan
-1 R 1 (theo bất đẳng thức Cauchy-Bunhiacopskij)
r và b (độ dốc của đường hồi qui bình phương cực tiểu) có cùng dấu
Một giá trị của r gần hoặc bằng 0 có nghĩa là ít hoặc khơng có mối quan hệ tuyến
tính giữa x và y. Các r gần 1 hoặc -1, thì mối quan hệ tuyến tính giữa x và y là
mạnh mẽ .
Hệ số tương quan r do sự tương quan giữa giá trị x và giá trị y trong mẫu, và tương
tự hồi qui tuyến tính, hệ số tương quan tồn tại cho quần thể từ đó các điểm dữ liệu
được lựa chọn. Các hệ số tương quan quần thể được kí hiệu là (rho). được tính từ
các số liệu thống kê mẫu tương ứng r. Thay vì tính , ta có thể kiểm định giả thuyết
H0: = 0 hoặc Ha: 0, nghĩa là, kiểm tra giả thuyết rằng x khơng góp phần thơng tin
cho dự đốn y sử dụng mơ hình đường thẳng, hoặc ngược lại, hai biến ít nhất có
liên quan tuyến tính. Nhưng đã chứng minh được giả thuyết H0: r = 0 tương đương
với giả thuyết H0: B = 0. Vì vậy, chúng ta bỏ qua kiểm tra giả thuyết cho sự tương

quan tuyến tính.
- Các hệ số xác định
Một cách khác để đo sự đóng góp của x trong việc dự đốn y là xem xét có bao
nhiêu sai số trong dự đốn về y có thể được giảm bằng cách sử dụng các thông tin
được cung cấp bởi x.
Các hệ số xác định từ tập mẫu được khai triển từ mối quan hệ giữa hai kiểu của
phương sai: Phương sai của các giá trị y trong một tập dữ liệu so với:
1. Đường hồi quy được “làm khớp”
2. Trung bình của chúng
Các biểu thức phương sai trong cả hai trường hợp được sử dụng theo ý nghĩa
thống kê của nó là "sự tổng hợp của một nhóm các bình phương độ lệch ".
SSE = SSyy Phương sai đầu tiên là phương sai của các giá trị y xung quanh đường hồi quy, tức
là xung quanh các giá trị dự đoán của chúng.
Phương sai này là tổng bình phương các lỗi (SSE) của mơ hình hồi quy.
Phương sai thứ hai là tổng hợp sự biến động của giá trị y so với trung bình của nó
SSyy = 2
Hệ số xác định là
, r2 = = 1Trong đó r là hệ số tương quan.
Vì vậy, thông thường ta gọi , r2 là hệ số xác định.
Ý nghĩa của hệ số xác định, r2
25


×