Tải bản đầy đủ (.docx) (33 trang)

PHÂN TÍCH THỐNG KÊ SỐ LIỆU NGÀNH HÀNG MAY MẶC

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (550.97 KB, 33 trang )

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
o0o
BÁO CÁO BÀI TẬP LỚN
MÔN: PHÂN TÍH THỐNG KÊ SỐ LIỆU
ĐỀ TÀI: PHÂN TÍCH THỐNG KÊ SỐ LIỆU NGÀNH HÀNG MAY MẶC
GV hướng dẫn: Ths. Nguyễn Phương Nga
Lớp: KHMT3 – K6
Nhóm thực hiện: Nhóm 6
STT Họ Tên
1 Lê Văn Minh Thuận
2 Hoàng Ngọc Vinh
3 Trương Việt Anh
1
1
2
2
LỜI NÓI ĐẦU
Trước kia việc nghiên cứu, tính toán cho một tập dữ liệu là một công việc tương
đối khó khăn và mất thời gian. Nhưng ngày nay, với sự trợ giúp của CNTT thì các công
việc đó đơn giản hơn rất nhiều, trợ giúp con người trong lĩnh vực phân tích thống kê số
liệu. Ngày nay phân tích thống kê được ứng dụng trong thực tiễn đời sống rất nhiều.
Người ta có thể dùng các phương pháp thích hợp để dự báo thời tiết, phân tích các thành
phần ảnh hưởng để chế tạo thuốc giúp chữa bệnh cho con người… và rất nhiều lĩnh vực
khác giúp ích cho đời sống con người.
Đặc biệt STATGRAPHICScung cấp một hệ thống quản lý dữ liệu, và phân tích
thống kê trong một môi trường đồ họa, sử dụng các trình đơn mô tả (menu) và các hộp
thoại (dialogue box) đơn giản để thực hiện hầu hết các công việc cho bạn. Phần lớn các
nhiệm vụ có thể được hoàn thiện bằng cách rê và nhắp chuột.
Trong phần trình bày này, nhóm chúng em xin đưa ra một số đánh giá, phân tích
về “Tổng mục lưu trữ xuất nhập khẩu của Việt Nam trong các năm” từ 1995-2011,…


Bằng việc sử dụng phần mềm STATGRAPHICS.
Do thời gian nghiên cứu và sự hiểu biết còn nhiều hạn chế. Chính vì vậy bài trình
bày không tránh được những sai sót, rất mong nhận được sự đóng góp của cô giáo và các
bạn.
Và chúng em xin cảm ơn Ths. Nguyễn Phương Nga đã tận tình hướng dẫn nhóm
chúng em làm bài báo cáo này
Nhóm chúng em xin chân thành cảm ơn!
3
3
CHƯƠNG I
CƠ SỞ LÝ THUYẾT
I:Nghiên cứu về chuỗi thời gian theo xu thế
1.Định nghĩa:
• Chuỗi thời gian là tập hợp các giá trị của một biến ngẫu nhiên được sắp xếp theo
thứ tự thời gian
• Chuỗi thời gian còn được gọi là dãy số thời gian. Đơn vị thời gian có thể là ngày,
tháng, quý, năm.
• Phân tích chuỗi thời gian có mục đích là làm rõ cấu trúc của chuỗi thời gian( túc là
các thành phần của nó) trong sự biến động của bản thân nó. Trên cơ sởđó có thể
thẩy rõ bản chất cũng như quy luật của các hiện tượng thông qua một chỉ tiêu cụ
thể, từđó có thể dự báo ngắn hạn giá trị của chuỗi đó
• Phương pháp phân tích chuỗi thời gian có 2 phương pháp chính:
• Phương pháp phân rã
• Phương pháp Box – Renkins
1.4.2:Phương pháp phân rã
4
4
-Chuỗi số liệu được nghiên cứu tách biệt theo 2 yếu tố:
->Xu thế số liệu(vĩ mô).
->Biến đổi mùa(vi mô).

1.4.2.1:Phân tích xu thế:
- Đây là một phân tích liên quan đến chuỗi nhiều năm,do đó ta sẽ sử dụng số liệu hàng
năm để phân tích.Một cách tổng quát ta cần phải có một chuỗi dài ít nhất là 10->15 năm.
-Để đánh giá yếu tố xu thế,phương pháp sử dụng phổ biến là phương pháp bình phương
tối thiểu(BPTT).
- Đây là phương pháp cho phép xác định được đường cong ( thẳng ) hoặc mặt phẳng
( Siêu mặt phẳng ) biểu thị xu thế số liệu, giới thiệu “tốt nhất “ số liệu trong quá khứ ( “
gần với số liệu quan sát “).
-Trong trường hợp cá biệt khi nhận thấy xu thế của biến khảo sát trong thời gian dài là
tuyến tính, phương trình sẽ xác định bởi
Y=a+bt
Trong đó t biểu thị thời gian ( năm ) và a,b chỉ các thong số được xác định đường thẳng
tính được từ phương án BPTT.
5
5
Gọi Δy
i
là khoảng cách thẳng đứng từ điểm quan sát (t
i, ,
Y
i
) đến đường thẳng cần xác định
.Ta định nghĩa hàm mục tiêu
Đây là một hàm 2 biến a và b , để cho D cực trị ( với ý nghĩa vật lí của bài toán ta biết đó
là cực tiểu ) ta phải có
Từ đó:
Giải hệ phương trình trên ta có:
6
6
N-> tổng số quan trắc

Chú ý :Trong trường hợp xu thế không phải là tuyến tính , ta có thể xét đến dạng đường
cong hàm mũ y=ab
t
hoặc dạng parabol y = a + bt + ct
2
Các thông số a , b, c vẫn xác định dựa vào khái niệm bình phương tối thiểu mà ta vừa
nghiên cứu ở trên.
II:Phân tích đặc điểm dữ liệu
1.Các tham số đặc trưng về sự tập trung của tập số liệu:
1.1:Tần suất(p
i
):
Giả thiết 1 tập số liệu kết quả nghiên cứu gồm N dữ liệu, trong đó có n
giá trị X
i
(X
i
xuất hiện n
i
lần) n
i
gọi là tần số của giá trị X
i
, khi đó tần xuất của
giá trị X
i
được tính như sau:
P
i
=n

i
/Mb 0< p
i
< 1
P
i
là tần xuất xuất hiện giá trị X
i
, khi N →∞ thì p
i
→P
i
( P
i
là xác suất
xuất hiện X)
1.2:Số trội(Mo):
Số trội(Mo) là tần số có tần số lớn nhất(chính là số có tần số xuất hiện
lớn nhất) trong tập số liệu thực nghiệm.
1.3:Khoảng của tập số (R) :
Khoảng của tập số (R) là khoảng cách giữa giá trị lớn nhất và giá trị nhỏ
nhất của tập số liệu kết quả thực nghiệm. Như vậy, khoảng của tập số liệu được
tính theo công thức sau:
R = X
max
- X
min
Ví dụ: tập dữ liệu gồm 10 mẫu
7
7

3
.93
3
.94
3
.94
3
.95
3
.96
3
.98
4
.00
4
.00
4
.03
4
.04
• Theo công thúc trên : X
max
=4.04
X
min
=3.93
→ R = 4.04 – 3.93 = 0.11
1.4:Số trung vị (Med) và số tứ phần vị (Q):
• Số trung vị( Med) là số đứng giữa tập số liệu đã được sắp xếp theo thứ
tự từ bé tới lớn, chia dãy đó làm 2 phần bằng nhau về số liệu.

• Đới với số liệu không nhóm lại :
• Số trung vị của tập N số lẻ được tính theo công thức :
Med =
• Số trung vị của tập N số chẵn :
Med =
• Số trung vị của tập N giá trị chia hết cho 4:
• Đối với số liệu gộp thành nhiều nhóm :
Med=
Ví dụ: cho tập các số X={14,15,19,16,30}
Do số phần tử của tập X là 5, lẻ nên ta áp dụng công thức :
=
19
1.5:Trung bình cộng:
Gọi X là giá trị trung bình cộng của 1 tập số liệu thì X được tính theo
công thức sau :
=
2: Các tham số đặc trưng cho tập số liệu
2.1:Phương sai(hoặc )
8
8
• Phương sai là trung bình tổng của tổng binh phương sai khác giữa các giá
trị của tập số liệu so với giá trị trung bình của tập số liệu kết quả thực
nghiệm :
hoặc =
Hay
hoặc
• Với = N khi N>30. Khi đó ta sử dụng kí hiệu:
• Với = N -1 khi N<30 . Khi đó ta sử dụng kí hiệu :
• Phương sai đặc trưng cho sự sai biệt của các số liệu. Phương sai càng lớn
thì khác biệt càng lớn và ngược lại

• Phương sai biểu diễn độ phân tán của tập số liệu kết quả thực nghiệm đối
với giá trị trung bình. Phương sai càng lớn độ phân tán càng lớn và ngược
lại.
2.2:Độ lệch chuẩn(hoặc )
• Độ lệch chuẩn của 1 tập số liệu kết quả thực nghiệm là giá trị căn bậc 2 trị
số phương sai của nó :
= hoặc =
• Độ lệch chuẩn có ý nghĩa như phương sai.
2.3:Độ sai chuẩn ( hoặc S):
• Độ sai chuẩn bằng độ lệch chuẩn chia cho căn bậc 2 của số giá trị kết quả
nghiệm:
= hoặc
• Độ sai chuẩn có thể được hiểu là trung bình phân tán của các giá trị kết quả
thực nghiệm.
2.4Hệ số biến thiên():
• Hệ số biến thiên là tỷ số giữa độ lệch chuẩn với các giá trị trung bình :
.100
• Dựa vào độ biến thiên để so sánh độ gần đúng độ sai biệt của các kết quả
thực nghiệm thu nhận được.
9
9
3:Các đặc trưng phân phối thống kê của tập số liệu:
3.1:Phân phối chuẩn(phân phối chuẩn gauss(u):
Y(X)= với u=
• Xác suất thống kê gắn liền với khái niệm độ tin cậy thống kê (P).
• Độ tin cậy thống kê luôn là 1 số nhỏ hơn hoặc bằng 1.
• Nếu kí hiệu Độ không tin cậy thống kê, thì :
P+∝=1 hay P=1-∝ hoặc ∝=P-1
• Trong xác suất người t qui ước :
• Biến cố=0.9999 là biến cố hoàn toàn chắc chắn

• Biến cố có P=0.999 là biến cố hết sức chắc chắn
• Biến cố có P=0.99 là biến cố rất chắc chắn.
• Biến cố có P=0.90 là biến cố có chiều hướng chắc chắn.
3.2. Phân phối Student(phân phối t)
• Hàm phân phối student có dạng:tf=
• Trong đó : f : là bậc tự do(f=N-1)
B: là hằng số.
: là độ lệch chuẩn
• Đối với phân phối student có bảng tra chuẩn Student tính sẵn.
Có 2 loại bảng tra giá trị(gọi là bảng phân phối chuẩn của t). Khi giả thiết thống kê đặt
là :
• Nếu giả thiết: • Nếu giả thiết:
• Ho:Xi=Xk • Ho:Xi=Xk
• Ha: Xi>Xa hoặc Xi<Xk • Ha: Xi≠Xa
10
10
• Thì tra bảng phân vị của • Thì tra bảng phân vị của
• Chuẩn t theo 1 phía • Chuẩn t theo 2 phía
4.Đánh giá tập số liệu kết quả thực nghiệm
4.1Sai số thực nghiệm:
-Có 4 loại sai số thực nghiệm:
• Sai số tuyệt đối :
= Xi - = Xi-µ
Sai số tuyệt đối là sự sai khác của 1 số thực nghiệm nào đó với giá trị
trung bình(hoặc giá trị thật). Sai khác này có thể âm hoặc dương.
• Sai số tương đối :
=.100
• Sai số này được dùng để so sánh sai số tương đối của các phương pháp
khác nhau thực nghiệm cho các kết quả không cùng thứ nguyên….
• Sai số hệ thống :

∆X= ≠0
• Nếu số hiệu này là đáng tin cậy tức là khác không là đáng tin cậy thì
thực nghiệm đã mắc sai số hệ thống. Sai số hệ thống có thể tìm được
nguyên nhân gây ra sai số hệ thống để loại bỏ.
• Sai số ngẫu nhiên :
∆X=
• Thực nghiệm mắc sai số ngẫu nhiên khi hiệu số giữa giá trị trung bình
cộng X với giá trị thật gần bằng 0 là đáng tin cậy.
4.2.Sai số cho phép ∆P(X).
• Sai số tối đa cho phép tuyệt đối :
∆P(X) = ±3
• Sai số cho phép tương đối
.100
4.3.Khoảng chính xác tin cậy :
11
11
• Khoảng chính xác tin cậy được tính theo công thức :
∆x(p,f)=
• Trong đó :
P : độ tin cậy thống kê
f : bậc tự do của tập số liệu kết quả thực nghiệm.
Sx : độ sai chuẩn
4.4.Khoảng giới hạn tin cậy của 1 tập số liệu kết quả thực nghiệm.
• Được giới hạn trong khoảng :
III.Xây dựng mô hình
1.Phân tích hồi quy đơn.
1.1.Mô hình.
Phân tích hồi quy: Tìm mối quan hệ giữa nhân tố X và kết quả Y xem chúng tuân theo
quy luật nào (có thể mô tả bằng mô hình toán học nào). Các quy luật đó đều được biểu
diễn bằng một hệ số.

Giả xử nhận thấy giá trị của y có xu hướng tăng hoặc giảm một cách tuyến tính khi
tăng x, ta có thể chọn một mô hình biểu diễn quan hệ của y theo x bằng cách vẽ một
đường cũng được “làm khớp ” cho một tập dữ liệu. Tuy nhiên vấn đề là: Làm thế nào vẽ
một đường đi qua tất cả các điểm, ít nhất là một điểm sẽ lệch đáng kể so với đường thẳng
được làm khớp.
Các giải pháp cho vấn đề này:
Xây dựng một mô hình hồi quy tuyến tính đơn giản sao cho giá trị trung bình của y
tương ứng với giá trị x. Đồ thị làđường thẳng và các điểm đi chệnh so với đường thẳng
do ngẫu nhiên, và bằng e tức là:
y=A+Bx+e
12
12
Trong đó A và B là các tham số chưa biết trong xác định mô hình. Nếu ta giả sử giá
trị kỳ vọng E(e)=0, thì giá trị trung bình của y là:
y=A+Bx
Do đó, xét giá trị trung bình của y tương ứng giá trị của x, đồ thị làđường thẳng.
Hồi quy tuyến tính giữa x và y được biểu diễn bằng hàm số có dạng :
y=A+Bx+e
Trong đó :
• y là biến phụ thuộc (biến được mô hình hóa còn được gọi là biến đáp
ứng)
• x là biến độc lập
• e là lỗi ngẫu nhiên
• A là hệ số tự do
• B là độ nghiêng của đường thẳng
Để làm khớp một mô hình hồi quy tuyến tính đơn giản với một tập dữ liệu, ta phải tìm
ước lượng cho biết các tham số A và B của đường trung bình y=A+Bx. Cần đưa ra các
giả định cụ thể về tính chất của nó.
1.1.1.Tính A và B theo phương pháp bình phương cực tiểu.
Vấn đề đầu tiên của phân tích hồi quy đơn là tìm ước lượng của A và B của mô

hình hồi quy dựa trên một dữ liệu mẫu. Giả sử chúng ta có một mẫu dữ liệu n điểm dữ
liệu (x1,y1), (x2,y2),…(xn,yn). Mô hình đường thẳng tương ứng cho các y và x là
y=A+Bx+e.
Đường thẳng của các trung bình là E(y) = A+Bx và đường được làm khớp với dữ
liệu mẫu . Như vậy, là một ước lượng của các giá trị trung bình của y, và a, b là ước
lượng của A và B tương ứng. Đối với một điểm số liệu, nói rằng các điểm (xi,yi), giá trị
quan sát của y là yi và các giá trị dựđoán của y sẽ là:
và độ lệch của giá trị thứ i của y từ giá trị dự đoán của nó là:
Các giá trị của a và b làm cho tối thiểu SSE được gọi là các ước tính theo phương
pháp bình phương cực tiểu của các tham số quần thể A và B và phương trình dự báo
được gọi là đường bình phương cực tiểu.
13
13
Công thức tính toán cho đường bình phương cực tiểu:
1.1.2.Đánh giá phương sai.
14
14
Trong hầu hết các tình huống thực tế, phương sai của số ngẫu nhiên e chưa biết và
phải được ước tính từ dữ liệu mẫu. Với đo phương sai của cá giá trị y vềđường hồi quy,
trực giác ta ước tính bằng cách chia tổng số lỗi SSE cho một số thích hợp.
Trong đó:
1.1.3.Kiểm định năng lực mô hình.
• Kiểm định 1 phía
Kiểm định thống kê:
Vùng bác bỏ
(dựa trên bậc tự do df = (n-2))
• Kiểm định 2 phía
Kiểm định thống kê:
Vùng bác bỏ
(dựa trên bậc tự do df = (n-2))

2.Phân tích hồi quy đa biến.
2.1.Mô hình.
Việc phân tích hồi quy đa biến tương tự như hồi quy đơn biến trừ việc nó chứa
nhiều hạng tử hơn.
15
15
Một số mô hình:
Ta có thể chuyển mô hình bậc hai về mô hình bậc nhất:
Mô hình bậc hai:
Đặt
Trở thành mô hình bậc nhất:
Do vậy, chúng ta chỉ xét mô hình hồi quy bậc nhất đa biến.
Mô hình tuyến tính đa biến tổng quát
Trong đó:
• y: biến phụ thuộc (biến được mô hình hóa)
• x
1
, x
2
, … , x
k
: biến độc lập
• e: lỗi ngẫu nhiên
• B
i
: xác định sự đóng góp của các biến độc lập x
i
Các giả định cần thiết cho một mô hình hồi quy tuyến tính đa biến
Trong đó e là sai số ngẫu nhiên :
• Đối với các giá trị bất kỳ của x

1
, x
2
,…, x
k
lỗi ngẫu nhiên e có phân bố
chuẩn với trung bình bằng 0 và phương sai bằng
• Các lỗi ngẫu nhiên là độc lập
3.Mô hình làm khớp : phương pháp bình phương tối thiểu.
16
16
Xét tương tự mô hình hồi quy tuyến tính một biến đơn giản.
Giả sử ta có bảng dữ liệu mẫu:
Điể
m dữ liệu
Giá trị y x
1
x
2
… x
k
1 y
1
x
11
x
21
… x
k1
2 y

2
x
12
x
22
… x
k2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
N y
n
x
1n
x

2n
… x
kn
Ta sẽ sử dụng phương pháp bình phương tối thiểu và tính B
0
, B
1
, B
2
,…., B
k
sao
cho cực tiểu.
SSE =
=
Chúng ta có có thể viết ngắn gọn:
Y=, X=, b=
Sau đó chúng ta viết biểu biểu thức dưới dạng ma trận sau:
(X’X)b = X’Y
Trong đó X’ là chuyển vị của X
Suy ra : b = (X’X)
-1
XY
4.Kiểm tra năng lực mô hình.
Kiểm tra năng lực của mô hình:
E(y) = B
0
+ B
1x1
+ … + B

kxk
H
0
: B
i
=0; H
a
: B
i
≠0
Kiểm định thống kê:
F=
Vùng bác bỏ: F > Fα
5.Đánh giá năng lực mô hình.
• Kiểm định một phía:
17
17
H
0
: B
i
=0; H
a
: B
i
<0 (hoặc B
i
>0)
Kiểm định thống kê
t =

Vùng loại bỏ
t < -tα (hoặc t > t α)
Trong đó : t
α/2
dựa trên [n-(k+1)]=df
n là các số quan sát
k là các số biến độc lập trong mô hình
• Kiểm định hai phía:
H
0
: B
i
=0; H
a
: B
i
≠0
Kiểm định thống kê
t =
Vùng loại bỏ
t < -t
α/2
(hoặc t > t
α/2
)
Trong đó : t
α/2
dựa trên [n-(k+1)]=df
n là các số quan sát
k là các số biến độc lập trong mô hình

IV:Sử dụng mô hình
1.Sử dụng mô hình để dự báo.
• Một khoảng tin cậy(1-α)100% đối với E(y)
t
α/2
s
Trong đó:
= b
0
+b
1
x
1
*
+b
2
x
2
*
+…+b
χ
x
χ
*
x*=(1 x
1
*
x
2
*

… x
χ
*
)’ là một giá trị cụ thể của x
s và (X’X)
-1
đạt được từ phân tích bình phương cực tiểu
t
α/2
dựa trên số bậc tự do kết hợp với s, là [n-(k+1)]
• Một khoảng dự báo(1-α)100% đối với E(y)
18
18
t
α/2
s
Trong đó:
= b
0
+b
1
x
1
*
+b
2
x
2
*
+…+b

χ
x
χ
*
x*=(1 x
1
*
x
2
*
… x
χ
*
)’ là một giá trị cụ thể của x
s và (X’X)
-1
đạt được từ phân tích bình phương cực tiểu
t
α/2
dựa trên số bậc tự do kết hợp với s, là [n-(k+1)]
2.Phân tích tương quan.
Phân tích tương quan là công cụ thống kê có thể sử dụng để mô tả mức độ các
biến quan hệ tuyến tính liên quan. Khi phân tích mối tương quan được sử dụng khi kết
hợp với phân tích hồi quy đểđánh giá mô hình tìm theo bình phương cực tiểu là phù
hợp với những dữ liệu hay không. Phân tích tương quan cũng có thểđược sử dụng
đểđo lường mức độ liên kết giữa hai biến.
2.1Hệ số tương quan.
Để mô tả độ tương quan giữa hai biến, chúng ta cần phải ước tính hệ số tương
quan (coefficient of correlation)
Cho tập mẫu gồm n các số đo trên x và y. Cho các hệ số tương r là một độđo

cường độ của quan hệ tuyến tính giữa hai biến x và y. Nóđược tính nhưsau :
Trong đó :
Một số tính chất của hệ số tương quan :

• r và b có cùng dấu.
• Một giá trị của r gần bằng 0 có nghĩa là ít hoặc không có mối quan hệ tuyến tính
giữa x và y. Các r gần 1 hoặc -1 thì mối quan hệ tuyến tính giữa x và y là mạnh
mẽ.
Hệ số tương quan r đo sự tương quan giữa giá trị x và giá trị y trong mẫu và tương
tự hồi quy tuyến tính, hệ số tương quan tồn tại cho quần thể từđó các điểm dữ liệu
19
19
được lựa chọn. Các hệ số tương quan quần thểđược ký hiệu là ρ(rho).ρ được tính từ
các số liệu thống kê mẫu tương ứng r.
Ý nghĩa của hệ số tương quan :
Hệ số tương quan Ý nghĩa
±0.01 đến ±0.1 Mối tương quan quá thấp, không đáng kể
±0.2 đến ±0.3 Mối tương quan thấp
±0.4 đến ±0.5 Mối tương quan trung bình
±0.6 đến ±0.7 Mối tương quan cao
±0.8 trở lên Mối tương quan rất cao
Cần nhấn mạnh một lần nữa, đây chỉ là những giá trị tham chiếu, nó không có
nghĩa là những “tiêu chuẩn vàng” để ứng dụng.
• Khoảng tin cậy 95% của hệ số tương quan:
Cũng như các thông số thống kê khác như số trung bình và độ lệch chuẩn, hệ số
tương quan cũng chịu ảnh hưởng của dao động giữa các mẫu. Do đó, chúng ta cần phải
ước tính khoảng tin cậy 95% của hệ số tương quan. Xin nhắc lại rằng, chúng ta không
biết hệ số tương quan thật (tức là hệ số trong quần thể, và hãy gọi hệ số này là ρ) là bao
nhiêu, nên phải sử dụng hệ số r để ước tính ρ.
Muốn ước tính khoảng tin cậy 95% của ρ, chúng ta cần phải ước tính độ lệch

chuẩn của r.
Lý thuyết thống kê cho biết độ lệch chuẩn của r là: . Khó khăn ở đây, như công
thức này cho thấy, là độ lệch chuẩn của r tùy thuộc vào r, tức là mất tính độc lập. Do đó,
cần phải tìm một phương pháp khác sao cho khách quan hơn. Nhà thống kê học (và cũng
là cha đẻ của khoa học thống kê hiện đại và cha đẻ của lí thuyết di truyền hiện đại)
Ronald A. Fisher chứng minh rằng thay vì tính độ lệch chuẩn của r, có thể tính độ lệch
chuẩn của một hàm số của r và sẽ đạt được mục tiêu khách quan.
20
20
Theo phương pháp của Fisher, trước hết chúng ta cần phải hoán chuyển r sang một
chỉ số mới z, qua công thức sau đây:
Và có thể chứng minh độ lệch chuẩn của z là:
Do đó, khoảng tin cậy 95% của z là: z ± 1.96*s
z
. Tất nhiên, sau khi đã ước tính
được khoảng tin cậy 95% của z, chúng ta có thể hoán chuyển ngược lại cho khoảng tin
cậy 95% của ρ.
• Kiểm định 2 hệ số tương quan
Giả sử chúng ta có hai hệ số tương quan r1 và r2, làước số của hai hệ sốρ1 và ρ2
trong một quần thể.Hai hệ số r1 và r2 được ước tính từ hai mẫu độc lập n1 và n2 đối
tượng. Để kiểm định giả định rằng ρ1=ρ2 và giả định ρ1≠ρ2 , chúng ta trước hết cần
phải hoán chuyển r thành chỉ số z:

Gọi d = z
1
-z
2
, chúng ta có thể chứng minh rằng phương sai của d là:
Hay, nói cách khác, độ lệch chuẩn của d là:
Và kiểm định cho giả thuyết ρ

1

2
có thể tính toán chỉ số t như sau:
Có thể chứng minh rằng nếu giả thuyết ρ
1

2
là đúng thì t tuân theo luật phân
phối chuẩn với trung bình 0 và phương sai 1. Điều này có nghĩa là nếu giá trị của t thấp
hơn -2 hay cao hơn +2, chúng ta có thể nói hai hệ số tương quan khác nhau có ý nghĩa
thống kê.
21
21
CHƯƠNG II
ĐỀ XUẤT BÀI TOÁN
I. Tập dữ liệu
- Tập dữ liệu được lấy từ trang web của tổng cục thống kê Việt Nam
ề sản lượng len, sợi, bông; tổng doanh thu của 3 sản phẩm và
nhiệt độ trung bình từ năm 2001 tới năm 2012
II. Phương
hướng giải quyết bài
toán
- Giải quyết bài
toán bằng phương pháp
xu thế với sự hỗ trợ của
phần mêm
STATGRAPHIC
- Lần lượt phân
tích Các biến X1, X2,

X3. Dự báo số liệu các
năm tới của từng sản
phẩm
- Đánh giá sự ảnh
hưởng của nhiệt độ lên 3
thành phẩm
22
22
CHƯƠNG III
GIẢI QUYẾT BÀI TOÁN
I. Đánh giá tập số liệu kết quả thực nghiệm qua xét các tham số đăc trưng về sự
tập trung và sự phân tán của tập dữ liệu.
1. Phân tích biến X1
Sử dụng phần mềm Statgraphics Centurion XV để phân tích biến. Các bước
thực hành trên phần mềm:
23
23
Analyze / Variable Data / One – Variable Analysis. Tại ô Data thì ta đưa
biến cần phân tích x1 (Vốn đầu tư trực tiếp nước ngoài FDI) sang rồi nhấn nút OK. Kết
quả ta thu được như sau:
Bảng Summary Statistics :
Bảng Frequency Tabulation:
Cùng với đồ thị Frequency Histogram :
24
24
2. Phân tích biến X2
Bảng Summary Statistics :
Bảng Frequency Tabulation:
25
25

×