Tải bản đầy đủ (.docx) (44 trang)

phân tích giá trị sản xuất công nghiệp trong nền kinh tế trong những năm gần đây

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (458.65 KB, 44 trang )

LỜI MỞ ĐẦU
gày nay, công nghệ thông tin đang ngày càng phát
triển và trở thành một phần quan trọng không thể
thiếu đối với cuộc sống mỗi con người cũng như các
lĩnh vực trong đời sông xã hội. Phân tích thống kê số
liệu là một môn học mới, đòi hỏi kiến thức hiểu biết sâu rộng, ham học hòi,
tìm hiểu, số lượng chính xác từ sinh viên. Việc phân tích tập số liệu mẫu,
đánh giá các tham số đặc trưng, phân tích phương sai, xây dựng các mô hình
hồi quy và tương quan đóng một vai trò vô cùng quan trọng cho các nghiên
cứu khoa học về mọi lĩnh vực của đời sống con người.
N
Nghiên cứu là một lĩnh vực khó tìm hiểu , mất nhiều thời gian, cần sự
kiên trì và tập trung nghiên cứu. Đòi hỏi các nhà khoa học không chỉ có kiến
thức chuyên ngành mà còn cần sự hiểu biết ở mọi mặt của xã hội.
Nhận định được những điều trên, mặc dù vốn kiến thức chưa nhiều,
nhưng với mong muốn nghiên cứu tập số liệu và đưa ra năng lực dự báo khác
nhau. Nhóm 16 – lớp KHMT3 – K6 đã lựa chọn đề tài “phân tích gía trị sản
xuất công nghiệp trong nền kinh tế trong những năm gân đây” với mong muốn
tìm hiểu chuyên sâu hơn về lĩnh vực cũng như có cơ hội tiếp cận nghiên cứu
các đề tài có tính chất ứng dụng cao cho một lĩnh vực cụ thể của đời sống.
Vì kiến thức còn hạn chế nên bài tập lớn của nhóm chúng em chưa
được hoàn hảo.Vì vậy, nhóm chúng em mong muốn nhận được những ý kiến
đóng góp của thầy cô.
Chúng em xin chân thành cảm ơn !!!
Nhóm 16– KHMT3 – K6
1
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
I PHÂN TÍCH CHUỖI THỜI GIAN: không thường xuyên
1 Định nghĩa
• Chuỗi thời gian là tập hợp các giá trị của một biến ngẫu nhiên được sắp xếp theo
thứ tự thời gian


• Chuỗi thời gian còn được gọi là dãy số thời gian. Đơn vị thời gian có thế là ngày,
tháng, quý, năm
• Phân tích chuỗi thời gian có mục đích là làm rõ cấu trúc của chuỗi thời gian( túc là
các thành phần của nó) trong sự biến động của bản thân no. Trên cơ sở đó có thể
thẩy rõ bản chất cũng như quy luật của các hiện tượng thông qua một chỉ tiêu cụ
thể, từ đó có thể dự báo ngắn hạn giá trị của chuôi đó.
• Phương pháp phân tích chuỗi thời gian có:
 Phương pháp phân rã
 Phương pháp Box – Renkins
2 Phương pháp phân rã
 Phân tích xu thế
Đây là một phân tích liên quan đến chuỗi nhiều năm, do đó ta sẽ sử dụng số liệu
hàng năm để phân tích. Một cách tổng quát ta cần phải có một chuỗi dài ra ít ra là 10-
15 năm.
Để đánh giá yếu tố xu thế , phương pháp sử dụng phổ biến là:Phương pháp
bình phương tối thiểu (BPTT)
2
Đây là phương pháp cho phép xác định được đường cong ( thẳng ) hoặc mặt phẳng
( Siêu mặt phẳng ) biểu thị xu thế số liệu, giới thiệu “tốt nhất “ số liệu trong quá khứ
( “ gần với số liệu quan sát “).
Trong trường hợp cá biệt khi nhận thấy xu thế của biến khảo sát trong thời gian
dài là tuyến tính , phương trình sẽ xác định bởi
Y=a+bt
Trong đó t biểu thị thời gian ( năm ) và a,b chỉ các thong số được xác định
đường thẳng tính được từ phương án BPTT
Gọi Δy
i
là khoảng cách thẳng đứng từ điểm quan sát (t
i, ,
Y

i
) đến đường thẳng
cần xác định .Ta định nghĩa hàm mục tiêu
D =
1
N
i=

ΔY
i
2 =
2
1
[ ( )]
N
i
i
Y a bt
=
− +

->min
Đây là một hàm 2 biến a và b , để cho D cực trị ( với ý nghĩa vật lí của bài toán ta
biết đó là cực tiểu ) ta phải có
0
0
D
a
D
b



=






=



3
Từ đó:
0)]([2 =+−

i
i
i
btay
[1]
0)].([2 =+−

ii
i
i
tbtay
[2]
Giải hệ phương trình trên ta có:





=
i
i
i
i
i
tNt
ytNyt
b
2
2
.)(

ii
tbya
−=
N
t
N
t
t
n
t
N
i
i

++
=
==

1
1
N-> tổng số quan trắc
Chú ý :Trong trường hợp xu thế không phải là tuyến tính , ta có thể xét đến
dạng đường cong hàm mũ y=ab
t
hoặc dạng parabol y = a + bt + ct
2
II PHÂN TÍCH CÁC ĐẶC ĐIỂM CỦA TẬP DỮ LIỆU
1 CÁC ĐẶC TRƯNG THỐNG KÊ CỦA TẬP SỐ LIỆU
1 Các tham số đặc trưng về sự tập trung của tập số liệu
• Tần suất (P
i
)
Giả thiết có một tập số liệu kết quả nghiên cứu gồm có N số liệu, trong đó
có n
i
giá

trị có X
i
(X
i
xuất hiện n
i
lần) n

i
gọi là tần số của giá trị X
i
, khi đó, tần suất của
giá trị X
i
đươcj tính như sau:
p
i =
p
i
: là tần xuất xuất hiện giá trị X
i
, khi N thì p
i
P
i
(P
i
là xác xuất xuất hiện X
i
).
• Số trội(M
0
):
Số trội(M
0
) là số có tần soó lớn nhất(chính là số có tần số xuất hiện lớn
nhất) trong tập số liệu kết thực nghiệm.
• Khoảng của tập số (R)

4
Là khoảng cách giữa các giá trị lớn nhất và giá trị nhor nhất của tập số
liệu kết quả thực nghiệm. Như vậy, khoảng của tập số được tính theo công thức sau:
R = X
max
X
min
• Số trung vị (Med) và số tứ phẩn vị (Q):
Số trung vị (med): là số đứng giữa tập số kiệu đã được sắp xếp theo
thứ tự từ bé đến lớn, chia dãy số đó thành 2 phần bằng nhau về số liệu.
Cách tìm số trung vị Med: Lấy ra số ở vị trí giữa (middle), đó là
median. Trong trường hợp không có vị trí chính xác giữa ta có thể xét lấy median một
cách tương đối. Vì dụ với tập số nguyên, nếu số lượng phần tử chẳn, vậy sẽ không có 1 vị
trí giữa, nên ta lấy Mean của 2 phần tử nằm giữa làm Median.
Số tứ phân vị là các số mà chia tập số liệu thành 4 phần tư. Có 3 số
tứ phân vị là Q
1
=X
1/1,
Q
2
= X
2/4
và Q
3
= X
3/4
. Số Q
2
= X

2/4
trùng với số trung vị Med.
 Đối với các số liệu không nhóm lại:
Giả sử X
1,
X
2,
…X
n
là dãy các giá trị của tập số liệu kết quả thực
nghiệm, được sắp xếp theo thứ tự tăng dần, thì:
- Số trung vị của tập N số lẻ được tính theo công thức:
Med =
- Số trung vị của tập N số chẵn được tính theo công thức sau:
Med = [ + ]
- Số tứ phân vị của tập N giá trị chia hết cho 4, thì:
Q
1
=
Q
2
=
- Số tứ phân vị của tập N không chia hết cho 4, thì:
Q
1
= và Q
3
=
 Đối với số liệu gộp thành nhiều nhóm:
Gỉa sử nhóm thứ i(X

i
, X
i+1
) có n
i
giá trị nằm trong nhóm đó và ta có:
= N
Thì Med(trung vị của nhóm) nằm trong nhóm thứ k(X
k
, X
k+1)
được tính
như sau:
Med = (X
k+1
- X
k
)+X
k
Tương tự, các tứ phân vị được xác định theo công thức chung sau đây:
Q
s
= (X
k+1
- X
k
)+X
k
với S = 1,2,3
• Mode

Mode: là giá trị xuất hiện thường xuyên nhất trong tập hợp, danh sách
các giá trị, phần tử. Trong trường hợp không có giá trị nào được lặp lại thì không có
Mode.
5
• Trung bình cộng
Trung bình cộng đơn giản trong thống kê là một đại lượng mô tả thống
kê, được tính ra bằng cách lấy tổng giá trị của toàn bộ các quan sát trong tập chia cho số
lượng các quan sát trong tập.
Gọi X là giá trị trung bình cộng của 1 tập số liệu thì X được tính theo
công thức sau:
= hay = với N=
2 Các tham số đặc trưng cho sự phân tán của tập số liệu
• Phương sai(hoặc S
2
)
Phương sai là trung bình của tổng bình phương sai khác giữa các giá trị
của tập số liệu so với giá trị trung bình của tập số liệu kết quả thực nghiệm:
hay S
2
=
2
Hay:
hay S
2
=
2
Công thức thực dụng để tìm phương sai:
S
2
= {)

2
}
Với N

= N khi N >30(, N

= N khi N<30(
N

có bản chất là bậc tự do của tập số liệu kết quả thực nghiệm.
Phương sai đặc trưng cho sự sai biệt của các số liệu trong kết quả thực
nghiệm. Phương sai càng lớn, sai biệt càng lớn. Ngược lại phương sai càng nhỏ thì sự sai
biệt càng nhỏ.
Phương sai còn biểu diễn độ phân tán của tập số liệu kết quả thực nghiệm
đối với giá trị trung bình. Phương sai càng lớn độ phân tán chung quang có giá trị trung
bình càng lớn và ngược lại.
• Độ lệch chuẩn( hoặc ):
Độ lệch chuẩn của một tập số liệu kết quả thực nghiệm là giá trị căn bậc 2
trị số phương sai của nó:
hoặc
Độ lệch chuẩn có cùng thứ nguyên và cùng ý nghĩa như phương sai.
6
• Độ sai chuẩn():
Độ sai chuẩn bằng đọ lệch chuẩn chia cho căn bậc 2 của số giá trị kết quả
nghiệm:
= hoặc S
x
=
Độ sai chuẩn có thể hiểu là trung bình phân tán của các giá trị kết quả thực
nghiệm.

• Hệ số biến thiên(Cv)
Hệ số biến thiên là tỉ số giữa độ lệch chuẩn với giá trị trung bình:
Cv =
Vì hệ số biến thiên không có thứ nguyên, cho nên có thể dựa vào hệ số
biến thiên để so sánh gần đúng độ sai biệt của các kết quả thực nghiệm thu nhận được
bằng cách khác nhau.
Khi độ lệch chuẩn (S
f
) (tức sai biệt của các số liệu thực nghiệm lớn). Thì
Cv loứn và ngược lại.
3 Các đặc trưng phân phối thống kê của tập số liệu
Đặc trưng phân phối thongs kê của một tập số liệu kết quả thực nghiệm
là qui luật phân bố ngẫu nhiên các giá trị kết quả thực nghiệm trên trục số thực. Đặc
trưng phân phối thống kê riêng và thường tuân theo 1 trong 6 qui luâtj phân phối thống
kê ngẫu nhiên, đó là:
• Phân phối chuẩn(phân phối chuẩn gauss) (u) :
- Hàm số của phân phối chuẩn được biểu diễn bằng phương trinhf toán học:
Y(X) =
Trong đó:
X: là biến cố ngẫu nhiên
: là hằng số, bănggiá trị kì vọng của biến ngẫu nhiên.
: là hằng số, bằng giá trị phương sai của biến ngẫu nhiên.

Đặt u =
Thay vào phương trình trên ta được dạng chính tắc của hàm phân phối
chuẩn:
Y(u) =
Dạng chính tắc của hàm phân phối là dạng của hàm phân phối chuẩn đã
chuyên hệ tọa độ từ Y(X) sang Y(u).
• Phân phối Student(phân phối t)

7
Hàm phân phối student có dạng:
Y(t,f) = B
Với tf = hoặc S
f
là độ lệch chuẩn, S
x
là độ sai chuẩn
= = =
Hàm này phụ thuộc và biến cố t là 1 biến ngẫu nhiên.
f: là bậc tự do ( f = N )
B: là hằng số
S
f
= là độ lệch chuẩn.
Vậy t bao giờ cũng phụ thuộc vào bậc tự do
Đối với phân phối chuẩn Student cũng có bảng tra chuẩn Student tính sẵn.
Dựa vào bảng này, cho một cặp giá trị P và f thì xác định được 1 giá trị t và ngược lại, khi
biết t và f thì xác định được P
- Có 2 lại bảng tra giá trị( gọi là bảng phân phối của chuẩn t). Khi giả thiết thống
kê đặt là:
Nếu giả thiết Nếu giả thiết
Ho:Xi = Xk Ho:Xi = Xk
Ha: Xi>Xk hoặc Xi<Xk Ha:Xi
Thì tra bảng phân vị của chuẩn t
theo 1 phía.
Thì tra bảng phân vị của chuẩn t
theo 2 phía.
• Phân phối Fisher:
Hàm phân phối Fisher có dạng:

Y(F, f1, f2) = A
Trong đó: F là biến cố ngẫu nhiên
F1, f2 là các bậc tự do.
A là hằng số phụ thuộc vào f1,f2
F phụ thuộc vào hai laoij bậc tự do và đươcj tính theo công thức sau:
F= = với 0<F<1
8
Hàm phân phối Fisher cũng có tính chất như các hàm phân phối khác.
Người ta cũng lập những bảng tra sẵn khi cho(P, f
1
, f
2
) sẽ tra được các giá trị của
chuẩn F, ngược lại cho 3 trong 4 thông số( F, P, f
1,
f
2
) sẽ tra được thông số thứ 4.
• Phân phối khi bình phương:
Hàm phân phối khi bình phương có dạng:
Y(x
2
,f) = Cc
Với x
2
= khi lấy các giá trị : 0<x<t
Hàm khi bình phương chỉ phụ thuộc một bậc tự do.
• Phân phối Poisson:
Hàm phân phối Poisson có dạng:
Y(X) = với e=

Như vậy, kỳ vọng và phương sai của hàm phân phối Poisson trùng nhau.
• Phân phối nhị thức:
Hàm phân phối của phép thử lặp (phép thử Becnuli) có dạng:
P{X = n} =
Trong đó: N = số lần thử nghiệm.
n = số lần biến cố A xuất hiện
Khi đó, nếu X là biến ngẫu nhiên có đặc trưng phân phối thống kê với tham
số(N, p) là phân phối nhị khi đó.
- Kỳ vọng của biến ngẫu nhiên X là: Np
- Phương sai của biến ngẫu nhiên X là: C
2
= Npq
- Độ lệch chuẩn của biến ngẫu nhiên X là: =
- Độ sai chuẩn của biến ngẫu nhiên X là : Cx = Npq
• Mối quan hệ giữa các hàm phân phối và các chuẩn phân phối
Nhận xét:
- Tập số liệu kết quả thực nghiệm phụ thuộc vào bậc tự do
- 2 bậc tự do tuân theo hàm F
- 1 bậc tự do thì tuân theo hàm t hoặc hàm x
2
Không phụ thuộc vào tự do thì tuân theo hàm u hoặc hàm P.
Cách xác định định tính luật phân phối của một tập số liệu kết quả thực nghiệm
Nếu N>30 và có 1 trong 3 tính chất sau thì tập số liệu kết quả thực nghiệm
có quy luật phân phối chuẩn:
1 Đồ thị phân phối tần suất có dạng chuông
2 M
0
M
e
X

3 Xi nhận giá trị ở ngoài khoảng X
9
Xi nhận giá trị ở trong khoảng X.
2 ĐÁNH GIÁ TẬP SỐ LIỆU KẾT QUẢ THỰC NGHIỆM
1 Sai số thực nghiệm
Có 4 loại tham số thực nghiệm:
- Sai số tuyệt đối:
= X
i
=
- Sai số tương đối:
= .100 = .100
Sai số tương đối không có thứ nguyên cho nên được dung để so sánh sai số
tương đối của cả phương pháp thực nghiệm cho các kết quả không cùng(thử nghiệm) thứ
nguyên.
- Sai số hệ thống:
Hiệu này khác 0 là đáng tin cậy thì thử nghiệm đã mắc sai số hệ thống.
- Sai số ngẫu nhiên:
Mắc sai số ngẫu nhiên khi hiệu số giữa giá trị trung bình cộng X với giá trị
thật gần = 0 là đáng tin cậy. Các gía trị Xi phân phối đều 2 phía của giá trị thực trên trục
số. Sai số ngẫu nhiên bao giờ cũng mắc phải và chỉ có thể tìm các giải pháp để giảm pháp
giảm sai số ngẫu nhiên.
2 Độ chính xác của tập số liệu kết quả thực nghiệm.
- Giá trị trung bình cộng sai khác với giá trị thật càng nhỏ thì độ chính xác của thực
nghiệm càng lớn và ngược lại.
- Nguyên nhân dẫn đến độ chính xác kém có thể là:
+ Chọn mẫu không đúng về chất lượng và số lượng
+ Giải pháp do số liệu không chính xác
3 Độ sai biệt của tập số liệu kết quả thực nghiệm
- Phương sai biểu diễn độ sai biệt trung bình. Phương sai càng nhỏ thì độ sai biệt

càng nhỏ và ngược lại.
- Nguyên nhân dẫn đến độ sai biệt lớn:
+ Chọn mẫu về chất lượng và số lượng không đặc trưng cho mục
tiêu thực nghiệm.
+ Tay nghề kém.
4 Sai số tối đa cho phép
Sai số tối đa cho phép của một tập số liệu kết quả thực nghiệm được qui
định: Cho phép lấy các giá trị X
i
sai khác với giá trị trung bình X lớn nhất là . Nó pahnr
ánh tính thống kê của kết quả thực nghiệm. Sai số tôí đa cho phép chia làm 2 loại:
10
- Sai số tối đa cho phép tuyệt đối:
- Sai số tối đa cho phép tương đối:
100
Những giá trị kết quả thực nghiệm nào nằm ngoài khoảng sai số tối đa cho
phép tuyệt đối khi phải loại bỏ.
5 Khoảng chính xác tin cậy:
Trong đó: P: độ tin cậy thống kê.
f: bậc tự do của tập số liệu kết quả thực nghiệm
S
x
: Độ sai chuẩn.
Khoảng chính xác tin cậy của một tập số liệu phụ thuộc vào độ tin cậy
thống kê(P) và bậc tự do (f).
Khoảng chính xác tin cậy của mỗi giá trị kết quả được tính:
(P,f) = = t(P,f).
giá trị tra ở bảng phân vị của hàm phân phối Student.
với =
6 Khoảng giới hạn tin cậy của một tập số liệu kết quả thực nghiệm:

Khoảng giới hạn tin cậy của một tập số liệu kết quả thực nghiệm được
nằm trong khoảng:
=
Giá trị Xi bất kì của một tập số liệu kết quả thực nghiệm được chấp nhận
theo độ tin cậy thống kê(P) cho trước, có bậc tự do f=N-1 phải luôn nằm trong khoảng
giới hạn tin cậy và thường biểu diễn như sau:
Xi(X
Hay:
P = {}
III XÂY DỰNG MÔ HÌNH
1 MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN BIẾN
1 Khái niệm
Giả xử nhận thấy giá trị của y có xu hướng tăng hoặc giảm một cách tuyến tính khi
tăng x, ta có thể chọn một mô hình biểu diễn quan hệ của y theo x bằng cách vẽ một
đường cũng được “làm khớp ” cho một tập dữ liệu. Tuy nhiên vấn đề là: Làm thế nào vẽ
một đường đi qua tất cả các điểm, ít nhất là một điểm sẽ lệch đáng kể so với đường thẳng
được làm khớp.
11
Các giải pháp cho vẫn đề:
Xây dựng một mô hình hồi quy tuyến tính đơn giản, sao cho giá trị trung bình của
y tương ứng với giá trị của x. Đồ thị là đường thẳng và các điểm đi chệch so với đường
thẳng này do ngẫu nhiên, và bằng e, tức là:
a y=A+Bx+e
Trong đó: A và B là các tham số chưa biết trong xác định mô hình. Nếu ta giả xử
giá trị kỳ vọng E(e)=0, thì giá trị trung bình của y là:
b y= A+Bx
Do đó, xét giá trị trung bình của y tương ứng giá trị xác định của x, đồ thị là
đường thẳng.
Viết dạng tổng quát, với một mô hình tuyến tính đơn giản, ta có
c y= A+Bx+e

Trong đó :
- y là biến phụ thuộc (biến được mô hình hóa, còn gọi là biến đáp ứng)
- x là biến độc lập
- e là lỗi ngẫu nhiên
- A hệ số tự do
- B độ nghiêng của đường thẳng
2 Tính hệ số tự do (A), độ nghiêng (B) theo phương pháp bình phương
cực tiểu
Vấn đề đầu tiên của phân tích hồi quy đơn giản là tìm ước lượng của A và B của mô
hình hồi quy dựa trên một dữ liệu mẫu.
Giả sử chúng ta có một mẫu của n điểm dữ liệu (x1,y1), (x2,y2), , (xn,yn). Mô
hình đường thẳng cho các y tương ứng với x là:
y=AB + x+e
Đường thẳng của các trung bình là E(y) = A+Bx và đường được làm khớp với dữ
liệu mẫu . Như vậy, là một ước lượng của các giá trị trung bình của y, và a, b là ước
lượng của A và B tương ứng. Đối với một điểm số liệu, nói rằng các điểm (xi,yi), giá trị
quan sát của y là yi và các giá trị dự đoán của y sẽ là:
và độ lệch của giá trị thứ i của y từ giá trị dự đoán của nó là:
12
Các giá trị của a và b làm cho tối thiểu SSE được gọi là các ước tính theo phương
pháp bình phương cực tiểu của các tham số quần thể A và B và phương trình dự báo được
gọi là đường bình phương cực tiểu.
Công thức tính toán cho đường bình phương cực tiểu:
3 Đánh giá phương sai ()
Trong hầu hết các tình huống thực tế, phương sai của số ngẫu nhiên e chưa biết và
phải được ước tính từ dữ liệu mẫu. Với đo phương sai của cá giá trị y về đường hồi quy,
trực giác ta ước tính bằng cách chia tổng số lỗi SSE cho một số thích hợp.
Tính toán phương sai
Trong đó
2

Từ đingj lý sau đây có thể chứng minh rằng s
2
là một ước lượng không chệch của
nghĩa là: E(s
2
) =
13
Cho s
2
=
có phân phối chi – square với bậc tự do
v=(n—2)
Thông thường s được gọi là độ sai chuẩn của ước lượng.
4 Xét độ dốc B
Các tính chất của B (tính theo phương pháp bình phương cực
tiểu)
1 Giả định b có phân phối mẫu là phân phối chuẩn.
2 Các trung bình của b tính theo bình phưowng cực tiểu là B,
E(b) = B, có nghĩa là, b là một ước lượng không chệch cho B.
3 Độ lệch chuẩn của phân phối mẫu của b là:
Ta sẽ sử dụng các kết quả này để kiểm định giả thuyết về xây dựng một khoảng
chính xác tin cậy cho các độ dốc B của đương fhooif qui quần thể , vì
. Ta sử dụng ước lượng của nó
5 Kiểm định về năng lực mô hình.
Một tiện ích kiểm định mô hình
Kiểm định 1 phía
Kiểm định thống kê:
Vùng bác bỏ
Kiểm định 2 phía
Kiểm định thống kê:

Vùng bác bỏ
14
(dựa trên bậc tự do df = (n-2))
(dựa trên bậc tự do df = (n-
2))
2 MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐA BIẾN
1 Giới thiệu các mô hình tuyến tính tổng quát
 Một số mô hình:
 Ta có thể chuyển mô hình bậc hai về mô hình bậc nhất:
Mô hình bậc hai:
Đặt
Trở thành mô hình bậc nhất:
Do vậy, chúng ta chỉ xét mô hình hồi quy bậc nhất đa biến.
Mô hình tuyến tính đa biến tổng quát
Trong đó:
y: biến phụ thuộc (biến được mô hình hóa)
x
1
, x
2
, … , x
k
: biến độc lập
e: lỗi ngẫu nhiên
B
i
: xác định sự đóng góp của các biến độc lập x
i
2 Hồi quy đa biến
 Giả định

Các giả định cần thiết cho một mô hình hồi quy tuyến tính đa biến
15
Trong đó e là sai số ngẫu nhiên :
- Đối với các giá trị bất kỳ của x
1
, x
2
,…, x
k
lỗi ngẫu nhiên e có phân bố chuẩn
với trung bình bằng 0 và phương sai bằng
- Các lỗi ngẫu nhiên là độc lập
3 Phương pháp bình phương tối thiểu
Xét tương tự mô hình hồi quy tuyến tính một biến đơn giản.
Giả sử ta có bảng dữ liệu mẫu:
Điểm
dữ liệu
Giá trị y x
1
x
2
… x
k
1 y
1
x
11
x
21
… x

k1
2 y
2
x
12
x
22
… x
k2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
N y
n
x

1n
x
2n
… x
kn
Ta sẽ sử dụng phương pháp bình phương tối thiểu và tính B
0
, B
1
, B
2
,…., B
k
sao
cho cực tiểu.
SSE =
=
Chúng ta có có thể viết ngắn gọn:
Y=, X=, b=
Sau đó chúng ta viết biểu biểu thức dưới dạng ma trận sau:
(X’X)b = X’Y
Trong đó X’ là chuyển vị của . Suy ra : b = (X’X)
-1
XY
4 Đánh giá phương sai
Vì phương sai sẽ hiếm khi được biết trước, chúng ta phải sử dụng các dữ liệu mẫu
để ước tính giá trị của nó.
16
Ước lượng của , phương sai trong mô hình hồi quy đa biến
Trong đó

Đã chứng minh rằng s
2
là một ước lượng không chênh lệch của . Đó là E(s
2
) =
5 Đánh giá và kiểm định
Kiểm định một hệ số tham số cụ thể trong mô hình hồi quy đa biến
y= B
0
+B
1
x
1
+…+B
k
x
k
+e
 Kiểm định một phía:
H
0
: B
i
=0;
H
a
: B
i
<0 (hoặc B
i

>0)
Kiểm định thống kê
t =
Vùng loại bỏ
t < -tα (hoặc t > t α)
trong đó dựa trên [n-(k+1)]=df
n = số các quan sát
k= số các biến độc lập trong mô
hình
Kiểm định hai phía:
H
0
: B
i
=0;
H
a
: B
i
≠0
Kiểm định thống kê
t =
Vùng loại bỏ
t < -tα/2 (hoặc t > tα/2
trong đó dựa trên [n-(k+1)]=df
n = số các quan sát
k= số các biến độc lập trong mô
hình
The values of such that P()=
17

Các tính chất của các phân bố mẫu của b
0
, b
1
,…,b
k
Phân bố mẫu của b
i
(i=0,1,…,k) là chuẩn với:
Trung bình E(B
i
)= B
i
Phương sai V(b
i
) = ,
Độ lệch chuẩn: (i=0,1,…k)
6 Kiểm tra năng lực của mô hình
Hệ số xác định đa biến R
2
được định nghĩa:
Trong đó:
,
Và là gía trị dự báo của trong mô hình hồi qui đa biến.
Vậy R
2
là một đại lượng thống kê mẫu nói lên sự phù hợp của mô hình với dữ
liệu, và do đó đại diện cho một biện pháp tổng thể về năng lực của mô hình. Nó có thể
được sử dụng để suy diễn về năng lực của mô hình để dự báo giá trị y cho từng biến độc
lập.

Kiểm định năng lực tổng thể của mô hình:
E(y) = B
0
+ B
1x1
+ … + B
kxk
H
0
: B
i
=0 (Giả thuyết không : y không phụ thuộc vào tất cả các biến độc lập x
i
)
H
a
: B
i
≠0 : (Giả thuyết khác không : y phụ thuộc vào ít nhất một biến độc lập x
i
)
Kiểm định thống kê:
F=
Vùng bác bỏ: F > Fα, trong đó là giá trị định vị vùng trong phần đuôi phải của
phân bố F với n
1
= k và n
2
n-(k+1)
n = số các quan sát

k = số các tham số trong mô hình
R
2
= Hệ số xác định đa biến
IV SỬ DỤNG MÔ HÌNH
1 Sử dụng mô hình để ước lượng và dự báo
Thủ tục hình thành một khoảng thời dự báo cho y cho a
*
x được thể hiện trong hộ
sau:
18
Một khoảng tin cậy(1-α)100% đối với E(y)
t
α/2
s
Trong đó:
= b
0
+b
1
x
1
*
+b
2
x
2
*
+…+b
χ

x
χ
*
x*=(1 x
1
*
x
2
*
… x
χ
*
)’ là một giá trị cụ thể của x
s và (X’X)
-1
đạt được từ phân tích bình phương cực tiểu
t
α/2
dựa trên số bậc tự do kết hợp với s, là [n-(k+1)]
Thủ tục hình thành một khoảng thời dự báo y tại một giá trị cụ thể x
*
của biến độc
lập:
2 Mô hình tương quan
Phân tích tương quan là công cụ thống kê có thể sử dụng để mô tả mức độ
các biến quan hệ tuyến tính liên quan. Thường thường, phân tích mối tương quan được sử
dụng kết hợp với phân tích hồi qui để đánh giá mô hình tìm theo bình phương cực tiếu là
phù hợp với những dữ liệu hay không. Phân tích tương quan cũng có thể được sử dụng để
đo lường mức độ liên kết giữa hai biến.: Dùng hệ số xác định và hệ số tương quan.
a Hệ số tương quan

Cho một tập mẫu gồm n các số đo trên x và y. các hệ số tương quan r là một độ
đo cường độ của quan hệ tuyến tính giữ hai biến x và y. Nó được tính như sau:
Trong đó:
,
)
2
,
19
Một khoảng dự báo(1-α)100% đối với E(y)
t
α/2
s
Trong đó:
= b
0
+b
1
x
1
*
+b
2
x
2
*
+…+b
χ
x
χ
*

x*=(1 x
1
*
x
2
*
… x
χ
*
)’ là một giá trị cụ thể của x
s và (X’X)
-1
đạt được từ phân tích bình phương cực tiểu
t
α/2
dựa trên số bậc tự do kết hợp với s, là [n-(k+1)]
 Một số tính chất của hệ tương quan:
- -1 theo bất đẳng thức Cauchy – Bunhiacopskij
- R và b độ dốc của đường hồi qui bình phương cực tiểu có cùng dấu.
- Một giá trị của r gần hoặc bằng 0 có nghĩa là ít hoặc không có mối quan hệ
tuyến tính giữa x và y. Các r gần 1 hoặc -1, thì mối quan hệ tuyến tính giữa x
và y là mạnh mẽ.
b Các hệ số tương quan
Hệ số xác định:
Hệ số xác định =
Chứng minh được r
2
=
Trong đó r là hệ số tương quan
Vì vậy thông thường ta gọi r

2
là hệ số xác định.
Thống kê các hệ số xác định bằng cách nhìn vào sự biến động về y được
giải thích bởi đường hồi qui.
- Ý nghĩa của hệ số xác định r
2
Khoảng 100(r
2
)% của tổng các bình phương của độ lệch giữa các gía trị y trong
tập mẫu với trung bình của chúng có thể được giải thích bởi sử dụng x để dự báo y trong
mô hình đường thẳng.
c Sử dụng mô hình cho tính toán và dự báo
Việc sử dụng phổ biến nhất của một mô hình có thể đưoực chia thành 2
loại:
 Sử dụng các mô hình để tính giá trị trung bình của y, E(y), cho một giá trị
cụ thể của x
 Sử dụng các mô hình để tính giá trị trung bình của y theo một giá trị x đã
cho
Các độ lệch chuẩn đối với việc tính giá trị trung bình và dưj báo
một giá trị y cụ thể
Độ lệch chuẩn của phân bố
mẫu của giá trị tính toán với trung
bình của y tại một giá trị cụ thể x
là:
Độ lệch chuẩn của lỗi dự
báo với giá trị dự báo cho một giá
trị cụ thể y tại một giá trị cụ thể x
là:
Trong đó là căn bậc hai của , phương sai cuả lỗi ngẫu nhiên
20

Giá trị thật của sẽ hieém khi được biến đến. Vì vậy, chúng ta ước lượng giá
trị của bởi s và tìm khoảng tính toán vaf dự báo như sau:
Một khoảng tin cậy (1-)100% cho
trung bình của y tại x=x
p
Một khoảng tin cậy (1-)100% của
dự báo một giá trị cụ thể y tại x=x
p
(Estimate std of )
Trong đó

[(Estimate std of )]
Trong đó

CHƯƠNG 2: BÀI TOÁN ÁP DỤNG
2.1 . Dữ liệu thu thập
21
Bảng gía trị sản xuất công nghiệp trong nền kinh tế ( theo thành phần
kinh tế )từ năm 2005-2012:

2005 2006 2007 2008 2009 2010 2011
Tỷ đồng
TỔNG SỐ
988540,
0 1199139,5 1466480,1 1903128,1 2298086,6 2963499,7 3695091,9
Kinh tế Nhà nước
246334,
0 265117,9 291041,5 345278,3 420956,8 567108,0 649272,3
Trung ương
189275,

9 207964,0 232495,7 286593,7 352573,5 497407,4 576755,8
Địa phương 57058,1 57153,9 58545,8 58684,6 68383,3 69700,6 72516,5
Kinh tế ngoài Nhà nước
309087,
6 401869,6 520073,5 709903,3 885517,2 1150867,3 1398720,2
Tập thể 4009,8 4650,3 4910,3 6640,9 8730,3 10926,9
Tư nhân 225053,6 306967,0 407537,2 572723,3 722550,9 962409,4
Cá thể 80024,2 90252,3 107626,0 130539,1 154236,0 177531,0
Khu vực có vốn đầu tư
nước ngoài
433118,
4 532152,0 655365,1 847946,5 991612,6 1245524,4 1647099,4
2.2 .Chọn phương pháp để phân tích dữ liệu
- Đề tài : Phân tích gía trị sản xuất công nghiệp trong những năm gần
đây(2005-2012)
- Tập dữ liệu nhóm 16 sưu tập gồm 9 đối tượng , 8 bộ dữ liệu được lấy
từ tổng cục thống kê .
- Lựa chọn phương pháp phân tích bài toán
+ Phương pháp phân tích đặc trưng
+ Phân tích hồi quy tuyến tính đơn, đa biến
+ Phân tích chuỗi thời gian
22
a) Phương pháp phân tích đặc trưng
Chúng ta tiến hành phân tích từng thành phần số liệu riêng của từng sản
lượng của từng yếu tốvà rút ra các bảng kết quả sau:
 Chú thích
• Count: Số lượng mẫu.
• Average: Số trung bình.
• Median: Trung vị.
• Mode: Số trội.

• Variance: Phương sai.
• Standard deviation: Độ lệch chuẩn.
• Coeff. of variation: Hệ số biến thiên.
• Standard Error: Sai số chuẩn.
• Minimum: Trị số quan sát bé nhất.
• Maximum: Trị số quan sát lớn nhất.
• Range: Độ biến thiên.
• Skewness: Độ lệch của phân bố.
• Kurtosis: Độ nhọn của phân bố.
Sum: Tổng các trị số quan sát
b) Phương pháp hồi quy tuyến tính đơn
Xét độ nghiêng của đồ thị để xem mô hình có thể chấp nhận Ho hay Ha.
Tức là ta phải tính giá trị tính và so sánh với giá trị t bảng :
- Nếu t tính> t bảng : chấp nhận Ha và kết luận mô hình đưa ra khá
thích hợp với dự báo
- Ngược lại nếu t tính< t bảng : chấp nhận Ho và kết luận mô hình
không có ý nghĩa, không đủ năng lực dự báo.
c) Phương pháp hồi quy tuyến tính đa biến
- Hàm hồi quy bộ tổng thể(PRF) : Y=
Trong đó:
+ : là hệ số tự do( hệ số chặn)
+ : là hệ số hồi qui riêng
: sai số ngẫu nhiên
- Hàm hồi quy mẫu(SRF):
Trong đó:
+ là ước lượng của giá trị trung bình của đối với biến đã biết
+ là ước lượng của
23
ứng dụng trong StatGraphic -> Chương 3
d) Phân tích chuỗi thời gian

Dùng phương pháp chuỗi thời gian để dự đoán chỉ số sản xuất công nghiệp
năm tiếp theo của kinh tế nhà nước, kinh tế ngoài nhà nước,khu vực có vốn
đầu tư nước ngoài…
Sử dụng mô hình tuyến tính đơn và phân tích chuỗi thời gian để dự báo.
3.1 Sử dụng phương pháp phân tích đặc trưng trong StatGraphics.
Bảng 3.1 Phân tích đặc trưng giá trị của từng thành phần kinh tế
Summary Statistics
X1 X2 X3 Y
Count 8 8 8 8
Average 442810. 887932. 1.06197E6 2.39271E6
Standard deviation 192809. 503291. 590014. 1.28286E6
Coeff. of variation 43.5422% 56.6812% 55.5584% 53.6155%
Minimum 246334. 309088. 433118. 988540.
Maximum 757375. 1.72742E6 2.14294E6 4.62773E6
Range 511041. 1.41833E6 1.70982E6 3.63919E6
Stnd. skewness 0.743135 0.65362 1.06533 0.85194
Stnd. kurtosis -0.686936 -0.493863 0.0268721 -0.296822
3.1.1 Đặc trưng kinh tế nhà nước
24
Box-and-Whisker Plot
24 34 44 54 64 74 84
(X 10000)
X1
Histogram
22 42 62 82 102
(X 10000)
X1
0
0.5
1

1.5
2
2.5
3
frequency
Quan sát hai biểu biểu đồ, ta thấy:
kinh tế nhà nước từ hơn 246334 (tỷ đồng)tới gần 757375(tỷ đồng)
kinh tế nhà nước tập trung chủ yếu trong khoảng 280000(tỷ đồng) đến
600000 (tỷ đồng)
kinh tế nhà nước chủ yếu là 220000(tỷ đồng) cho đến 820000(tỷ đồng)
Điều này cho thấy kinh tế nhà nước tăng dần rồi giảm mạnh
Dựa vào bảng mô tả đặc trưng , ta thấy:
Giá trị của độ lệch chuẩn nhỏ, điều đó cho thấy kinh tế nhà nước có xu
hướng tản ra xung quanh giá trị trung bình là rất ít.
Giá trị độ lệch của phân bố có giá trị> 0 nên tập số liệu có xu hướng nhỏ
hơn giá trị trung bình và đồ thị phân bố có xu hướng lệch phải so với giá
trị trung bình.
Giá trị độ nhọn của phân bố có giá trị < 0 nên tập số liệu có xu hướng
phân bố xung quanh giá trị trung bình.
25

×