Khái niệm thống kê
Chương 2
Các định luật phân bố
Giá trị trung bình và biến lượng
Khoảng tin cậy và mức ý nghĩa
Kiểm nghiệm giả thuyết
Loại bỏ dữ liệu sai
2.1.Các hàm phân bố
Biến ngẫu nhiên là biến mà trong điều kiện thí
nghiệm xác định sẽ nhận một giá trị khơng tiên đốn
được. Giá trị của biến ngẫu nhiên là một tập hợp giá
trị, trong điều kiện thí nghiệm nào đó biến sẽ nhận
một giá trị trong tập hợp này.
Một đại lượng mà giá trị của nó chỉ thay đổi khi thay
đổi điều kiện thí nghiệm thì khơng phải là biến ngẫu
nhiên.
Biến ngẫu nhiên có thể liên tục hay rời rạc.
Hàm phân bố là hàm mô tả xác xuất để giá trị nhận
được của biến X nhỏ hơn giá trị x xác định
F(x) = P (X < x)
Hàm phân bố là một hàm đồng biến
Hàm phân bố được đặc trưng bởi 2 thơng số thống
kê là vị trí và thang độ
Với hàm phân bố chuẩn
= 0
2
= 1
Các hàm phân bố khơng chuẩn đều có thể đưa về
hàm chuẩn bằng cách đổi biến số
z
x
Hàm phân bố Gauss
Phương trình phân bố mật độ xác xuất với các đại
lượng thống kê và 2
2
1 x
1
f ( x)
e2
,
x
2
Hàm phân bố chuẩn có = 0 và 2 = 1
Hàm phân bố chuẩn Gauss
Hàm phân bố tích lủy (CDF) (cumulative distribution function)
( x)
1
2
x
e
t2
2
dt
Hàm mật độ xác xuất (PDF)
(probability density function)
f ( x)
e
x2
2
2
Khi x < 0: (x) = 1 (x)
Hàm phân bố chuẩn Gauss
+ 1 SD ~ 68%
+ 2 SD ~ 95%
+ 3 SD ~ 99.9%
Hàm phân bố Gauss chuẩn được áp dụng để kiểm
nghiệm giả thuyết khi đã biết giá trị của độ lệch
chuẩn của khơng gian mẫu
Tiêu chí đánh giá zstat
zstat
x
/ n
Giá trị so sánh p là phần diện tích
dưới đường cong phân bố khi
z ≥ zstat
Hàm phân bố t
Khác với hàm phân bố chuẩn Gauss, hàm phân bố t
ngồi đặc trưng thống kê và , cịn có độ tự do – df
Để ước tính giá trị trung bình của khơng gian mẫu,
độ tự do bằng N – 1. N là độ lớn của mẫu
Ở độ tự do thấp, hàm phân bố t phân tán hơn hàm
phân bố Gauss – nghĩa là với độ tin cậy 95% khoảng
tin cậy sẽ rộng hơn
Khi độ tự do tăng, hàm phân bố t sẽ tiến dần đến
hàm phân bố Gauss
Với giá trị 95% số liệu nằm chung quanh giá trị trung
bình
Phân bố chuẩn: 1.960 x
Phân bố t : 2.242 x
với x = / n
Hàm phân bố t mơ tả phân bố
x
s/ n
tstat
Hàm mật độ xác xuất
f ( x)
(1
x2
(
)
1)
2
B (0.5, 0.5 )
B( , )
1
0
t
1
1 t
1
dt
Các hàm tìm giá trị t trong Excel: TDIST(x, ,tails) và
TINV(p, )
Hàm PDF của t ở các thơng số hình dạng khác nhau
Khi = 1 hàm phân bố t trở thành hàm phân bố Cauchy
Khi rất lớn hàm phân bố t có dạng hàm phân bố Gauss
Bảng giá trị t(p,df)
p : mức ý nghĩa
df: độ tự do
Hàm phân bố
2
Hàm phân bố 2 được sử dụng để tính biến lượng
khơng gian mẫu 2 của biến ngẫu nhiên trên cơ sở
mẫu tương tự của nó, tức từ s2.
i n
2
xi
x
2
i 1
Hàm 2 này có độ tự do = (n1)
i n
vì
s2
i 1
( xi
x )2
n 1
= s2 / 2
2
Hàm mật độ xác xuất
f x;
là độ tự do
2
1
x
/2
2
/2 1
e
/2
Hàm phân bố F
Hàm phân bố F được hình thành bởi tỉ số 2 biến 2
chia cho độ tự do tương ứng của chúng
2
s
1. 1
F
2
1
2
.
s
2 2
2
2
/
1
/
2
Hàm phân bố F khơng đối xứng và chỉ sử dụng giá trị
dương
Các hàm tìm giá trị F trong excel: FDIST(x, 1, 2) và
FINV(p, 1, 2)
Hàm phân bố F( 1, 2)
1
, 2 : Độ tự do
Hàm F chỉ lấy giá trị dương. Khi 1, 2 > 4 hàm F có giá trị gần bằng 1
Nếu X có phân bố t có độ tự do là 1, thì 2 có phân bố F(1, )
Hàm phân bố F được dùng để xác định 2 ước tính biến
lượng độc lập có phải là một hay khơng. Nếu khác biệt
của các mẫu này đáng kể thì khác biệt của giá trị trung
bình của mẫu lớn hơn trường hợp do ngẫu nhiên
Dạng biểu thức của F
Fstat = SA2 / SB2
SA2 : biến lượng của yếu tố A
SB2 : biến lượng của yếu tố B
Nếu giá trị Fstat > F ( A, B) với là mức ý nghĩa, A và B
là độ tự do của yếu tố A và B, thì yếu tố A và B khơng
cùng chung một khơng gian mẫu, nghĩa là chúng khác
nhau