một số vấn đề cơ bản về xác suất thống kê

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.18 MB, 55 trang )

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

BÀI GIẢNG 3

MỘT SỐ VẤN
ĐỀ CƠ BẢN VỀ XÁC
SUẤT THỐNG KÊ
TRONG KINH TẾ LƯỢNG
MỤCmẫuTIÊU
2. Phép thử, không gian
và biếnBÀI
cố

GIẢNG:

1. Ký hiệu tổng

3. Biến ngẫu nhiên
4. Xác suất

5. Biến ngẫu nhiên và hàm phân phối xác suất
6. Hàm mật độ xác suất đa biến
7. Đặc điểm của các phân phối xác suất
8. Một số phân phối xác suất quan trọng
9. Một số phép toán ma trận
10. Suy diễn thống kê

ĐỐI TƯỢNG BÀI GIẢNG:
1. Tài liệu bài giảng cho sinh viên đại học
2. Tài liệu tham khảo ôn tập cho học viên cao học

KÝ HIỆU TỔNG
Ký hiệu tổng
Ký tự Σ
tổng:

(sigma) được thống nhất sử dụng để chỉ
(3.1)

n

∑Thao
X itác
= với
∑ Eviews
Xi =

X1 +

Trên cửa sổ lệnh của Eviews
nhập:
scalar
sumX=@sum(x)
X 2 +ta ...
+ X
n
i= 1

1

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

Tính chất của phép toán tổng
1. Khi k
là

một hằng số
n

∑

2. Khi k
là
3. Tổng
của
4. Tổng
của

(3.2)

k

=
n
n
nk
∑ 1 kX i
i=

i=
i= 11
= biến
k ∑ Xi và
tổng hai
một
hằng
Yi
Xi
số
∑
(X i + Yi )
= ∑ Xi +
∑
Yi

(3.3)

(3.4)
(3.5)

mộtKHÔNG
hàm tuyếnGIAN
tính MẪU, VÀ BIẾN CỐ
PHÉP THỬ,
∑
(a + bXi )
= na + b ∑
Phép thử
i tính:

Một phép thử có haiXđặc
1) Không biết chắc kết quả nào xảy ra
2) Nhưng biết được các kết quả có thể xảy ra

Không gian mẫu hay tổng thể
Tập hợp tất cả các kết quả có thể xảy ra của một phép thử
được gọi là tổng thể hay không gian mẫu.

Biến cố
là một nhóm các kết quả có thể xảy ra củ một
Một biến
phép
thử. Nói cách khác, đó là một tập hợp con của không
cố
gian mẫu.
Các phép tính về biến cố:
• Biến cố hội (A∪

B): A xảy ra hay B xảy

• Biến ra cố giao (A∩

B): A xảy ra vả B

• Biến xảy ra cố phụ ( A ): A xảy ra, A
• Biến không xảy ra cố xung khắc: A∩

2

B = φ

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

BIẾN NGẪU NHIÊN
Ví dụ, tung hai đồng xu, quan sát và lập thành bảng kết
quả của các phép thử như sau:
 BẢNG 3.1:
nghĩa khái niệm biến ngẫu nhiên
Định
Số mặt ngửa
Đồng xu thứ
Đồng xu thứ
nhất
hai
T
T
0
T
H
1
T
H
1
H
T
1
H
H

2
Nguồn: Gujarati, 2006, trang 25
Ta gọi biến “số mặt ngửa” là một biến ngẫu nhiên. Nói một
cách tổng quát, một biến mà giá trị (bằng số) của nó được
xác định bởi kết quả của một phép thử được gọi là một
biến ngẫu nhiên. Như vậy, biến ngẫu nhiên là biến mà giá
trị của nó được xác định một cách ngẫu nhiên.
Một biến ngẫu nhiên có thể có giá trị rời rạc hoặc
liên tục. Một biến ngẫu nhiên rời rạc chỉ có một số giá
trị hữu hạn (hoặc vô hạn có thể đếm được). Một biến ngẫu
nhiên liên tục là một biến ngẫu nhiên có bất kỳ giá trị
nào trong một khoảng giá trị nào đó.

XÁC SUẤT
Xác suất của một biến cố: Định nghĩa cổ điển
Nếu một phép thử có thể có n kết quả loại trừ nhau và có
khả năng xảy ra như nhau, và nếu m kết quả từ phép thử
này hợp thành biến cố A, thì P(A), xác suất để A xảy ra,
là tỷ số m/n.

P(A) =

m

(3.6)

n suất tương đối
X xem ví dụ sau đây. Dữ
Để giới thiệu khái niệm này, ta
ác suất

một
cố: phối
Tần điểm điểm thi mô kinh tế
liệu
trongcủa
bảng
3.1biến
là phân
vi mô của 200 sinh viên. Đây là một ví dụ về phân phối
3

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

tần suất cho biết các điểm ngẫu nhiên được phân phối như
thế nào. Các con số trong cột 3 là các tần suất tuyệt
đối, nghĩa là số lần xảy ra của một biến cố nhất định.
Các con số trong cột 4 được gọi là các tần suất tương
đối, nghĩa là số tần suất tuyệt đối chia tổng số lần xảy
ra.
 BẢNG 3.2: Phân phối điểm KTL của 200 sinh viên
Điểm
0-9

Điểm giữa của
khoảng
5

Tần suất

tuyệt đối
0

Tần suất tương
đối
0

10-19

15

0

0

20-29

25

0

0

30-39

35

10

0.050

40-49

45

20

0.100

50-59

55

35

0.175

50

0.250

75

45

0.225

85

30

0.150

95

10

0.050

Nguồn:
trang 28
60-69Gujarati, 2006,
65
70-79
80-89
90-99

PHÂN PHỐI XÁC SUẤT

Phân phối xác suất của một biến ngẫu nhiên rời rạc
200rạc với các
1.000
Giả sử X là một biến ngẫu Tổng
nhiên rời
giá trị
x1, x2, ... thì hàm f được
định bởi
xác
f(X=xi) = P(X=xi) i = 1, 2, …
=0 nếu x ≠ (3.7)

xi suất của biến ngẫu nhiên X,
được gọi là hàm phân phối xác
ký hiệu là PMF hay PF, trong đó, P(X=xi) là xác suất X có
giá trị xi. Hàm PMF có các tính chất sau:
0 ≤ f(xi) ≤
n

∑

1

f (x i ) =

1

(3.8)
(3.9)
tung hai đồng xu, ta xét

i= 1

Ví dụ, biến X là số mặt ngửa khi
bảng sau đây:
4

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

 BẢNG 3.3: PMF của biến ngẫu nhiên rời rạc

Số mặt ngửa
PMF
X
f(X)
0.25
0
¼
1

½
¼

2
Tổng

0.5

0.25

0

1.00

1

2

H ình 3.1: P M F c ủa biến ngẫ u nhiên
rời rạ c

Nguồn: Gujarati, 2006, trang 34

Phân phối xác suất của biến ngẫu nhiên liên tục
Ví dụ, gọi X là biến chiều cao của một người, được đo
bằng mét. Giả sử ta muốn tính xác suất để chiều cao của
một người trong khoảng 1.56m đến 1.80m.

Xác suất để chiều cao trong
khoảng 1.56 đến 1.8

1.4 1.44
1.56

1.48

1.52

1.6 1.64
1.68

1.72
1.88

1.76

1.8

1.84

1.92

1.96

Hình 3.2: PDF của một biến ngẫu nhiên liên tục

Xác suất để chiều cao của một cá nhân nằm trong khoảng từ
1.56m đến 1.80m là diện tích dưới dường phân phối giữa
hai giá trị 1.56 và 1.80. Đối với một biến ngẫu nhiên
liên tục X, thì hàm mật độ xác suất f(X) như sau:
x2

P(x1<
f (x)dx

X < x2) =

∫

x1

Hàm mật độ xác suất của một biến
ngẫu nhiên
5
chất sau đây:

(3.10)
X có các tính

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ

ThS Phùng Thanh Bình

• Tổng diện tích dưới đường f(x) bằng 1
• P(x1 < X < x2) là diện tích dưới đường f(x) giữa
x1 và x2, với x2 > x1.
• Vì xác suất để một biến ngẫu nhiên nhận một giá trị
nhất định bằng không, nên các công thức dưới đây là
tương đương nhau:
P(x1 ≤ X ≤ x2) = P(x1 < X ≤ x2) = P(x1 ≤ X < x2) =
P(x1 < X < x2)

(3.11)

Hàm phân phối tích lũy của một biến ngẫu nhiên
Liên quan đến PMF hay PDF của một biến ngẫu nhiên X là
hàm phân phối tích lũy của biến đó, được xác định như
sau:
F(X) = P(X ≤
(3.12)
x)
P(X ≤
x) nghĩa là xác suất để một biến ngẫu nhiên X
có giá trị nhỏ thua hoặc bằng x, với x đã biết. CDF có
các tính chất như sau:
•

F(-∝

) = 0 và F(+∝

) = 1

• F(x) là một hàm không giảm, nghĩa là nếu x2
thì F(x2) ≥ F(x1)
•

P(X ≥

•

P(x1

> x1,

k) = 1 – F(k)
≤

X ≤

x2) = F(x2) – F(x1)

 BẢNG 3.4: Hàm phân phối xác suất tích lũy của một biến ngẫu nhiên
Số mặt ngửa
(X)
0
0
1
1
2
2

3
3
4
Nguồn: Gujarati,

PDF
X
≤ X < 1
≤ X < 2
≤ X < 3
≤ X < 4
4 ≤ X
2006, trang

CDF
PDF
1/16
4/16
6/16
4/16
1/16
37

X
X
X
X
X
X

≤
≤
≤
≤
≤

CDF
0
1
2
3
4

1/16
5/16
11/16
15/16
16/16

Như vậy, CDF chỉ là tích lũy hay đơn giản là tổng của các
PDF của các giá trị X nhỏ thua hoặc bằng x.

Các hàm mật độ xác suất đa biến
Ví dụ, một đại lý bán lẻ máy tính bán hai loại thiết bị
là máy tính cá nhân và máy in. Số máy tính và máy in được
6

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

bán thay đổi giữa các ngày khác nhau, nhưng giám đốc đại
lý đã thu thập doanh số của 200 ngày qua như trong bảng
sau.
 BẢNG 3.5: Phân phối tần suất của hai biến ngẫu nhiên X và Y
Số máy in được bán
Số máy tính được bán (X)
(Y)
0
1
2
3
4
0
1
2
3
4
Tổng

6
4
2
2
2
16

6
10
4

2
2
24

4
12
20
10
2
48

4
4
10
20
10
48

2
2
10
20
30
64

Tổng
22
32
40
54

46
200

Nguồn: Gujarati, 2006, trang 39
Bảng trên cho thấy trong 200 ngày có 30 ngày đại lý bán
được 4 máy tính và 4 máy in, có 2 ngày bán được 4 máy
tính nhưng không bán được máy in nào. Giải thích tương tự
cho các con số còn lại. Đây là một ví dụ về phân phối tần
suất kết hợp. Nếu chia từng con số trong bảng trên cho
200, ta sẽ có các tần suất tương đối.
 BẢNG 3.6: Phân phối xác suất của hai biến ngẫu nhiên X và Y
Số máy in được bán
(Y)

Số máy tính được bán (X)
0
1
2
3
4

0
0.03 0.03
1
0.02 0.05
2
0.01 0.02
3
0.01 0.01
4

0.01 0.01
Tổng
0.08 0.12
Nguồn: Gujarati, 2006, trang 39

0.02
0.06
0.01
0.05
0.01
0.24

0.02
0.02
0.05
0.10
0.05
0.24

0.01
0.01
0.05
0.10
0.05
0.32

Tổng
0.11
0.16
0.23

0.27
0.23
1.00

Do hai biến X và Y là các biến ngẫu nhiên rời rạc, nên
bảng 3.6 được gọi là hàm phân phối xác suất kết hợp của
hai biến ngẫu nhiên.
f(X,Y) = P(X = x và Y = y)
= 0 khi X ≠
≠

x và Y

y Hàm xác suất kết hợp có các tính chất

sau:

Y) = 1

•

f(X,Y) ≥

•

∑
7
x y

∑

0

f (X,

(3.13)

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

Hàm xác suất biên
Xác suất X nhận một giá trị nhất định bất kể Y nhận giá
trị gì được gọi là xác suất biên của X, và phân phối của
các xác suất này được gọi là hàm phân phối xác suất biên.
 BẢNG 3.7: Phân phối xác suất biên của X và Y
X
f(X)
0
0.08
1
0.12
2
0.24
3
0.24
4
0.32
Tổng
1.00.

Nguồn: Gujarati, 2006, trang

Y
0
1
2
3
4

f(Y)
0.11
0.16
0.23
0.27
0.23
1.00

41

Từ bảng xác suất kết hợp giữa X và Y ta có thể tính các
hàm xác suất biên như sau:
f(X) =

f
(X, Y)
f(Y)
= y∑ f
Y)ngẫu
là hai(X,
biến

∑

Nếu hai biến X và Y
nhiên liện tục thì
x
ta sẽ thay ký hiệu tổng thành ký hiệu tích phân.

Hàm xác suất điều kiện
Giả sử ta muốn tìm xác
có 4 máy tính được bán
có điều kiện. Hàm phân
biến ngẫu nhiên có thể

suất có 4 máy in được bán nếu biết
trong này, và đó chính là xác suất
phối xác suất có điều kiện của một
được định nghĩa như sau:
(3.14)
F(YX) = P(Y=yX=x)
F(XY) = P(X=xY=y)

(3.15)

Một công thức đơn giản để tính hàm phân phối xác suất có
điều kiện sẽ như sau:
f (X,
F(Y X)
(3.16)
Y)
f

(X)
=
F(X Y)
=

f (X,
f (Y)
Y)

8

(3.17)

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

CÁC ĐẶC ĐIỂM CỦA PHÂN PHỐI XÁC SUẤT
Giá trị kỳ vọng: Thước đo định tâm
Giá trị kỳ vọng của một biến ngẫu nhiên rời rạc, ký hiệu
là E(X), được định nghĩa như sau:
E(X) = µ X
(3.18)
∑
xf
=
Giá trị kỳ vọng của một biến (X)
là trung bình có
x
trọng số của các giá trị có thể có của biến đó, với xác

suất của các giá trị này, f(X),
đóng vai trò như các
ngẫu nhiên
trọng số. Giá trị kỳ vọng của một biến ngẫu nhiên cũng
được gọi là giá trị trung bình, mặc dù chính xác hơn là
giá trị trung bình tổng thể.
Tính chất của giá trị kỳ vọng
• E(b) = b

(3.19)

• E(X+Y) = E(X) + E(Y)

(3.20)

•

E(X/Y) ≠

E(X)
E(Y)

(3.21)

• E(XY) ≠
(3.22)
E(X)E(Y)
Nếu
X và Y là hai biến ngẫu nhiên độc lập, thì
E(XY) = E(X)E(Y)

•
E(X2)

≠

(3.23)

[E(X)]2

(3.24)

= aE(X)

(3.25)

• E(aX
E(aX+b) = aE(X) + b
)

(3.26)

•

Phương sai: Thước đo phân tán
Giá trị kỳ vọng của một biến ngẫu nhiên đơn giản chỉ cho
biết trọng tâm của biến đó ở đâu chứ không cho biết các
giá trị riêng lẻ của biến đó phân tán như thế nào
biến nhất cho sự
quanh giá trị trung bình. Thước đo phổ xung
phân tán này là phương sai, và được định nghĩa như sau:

var(X) = σ x 2 = E(Xµ x)2
var(X) =
∑
(X −

µ x )2 f
(X)
9

(3.27
)
(3.28)

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

Phương sai cho biết các giá trị X riêng lẻ được phân phối
hay phân tán xung quanh giá trị trung bình như thếnào.
Nếu các giá trị X phân tán rộng quanh giá trị trungbình
thì phương sai sẽ tương đối lớn (xem Hình 3.3). Căn bậc
hai
là độ lệch chuẩn, ký hiệu là
của
σ x.
phư
ơng
Phương sai
sai
quá nhỏ

Phương sai
quá lớn

X

Hình 3.3: PDF của các biến ngẫu nhiên liên tục cùng giá trị kỳ vọng

Tính chất của phương sai
• Phương sai của một hằng số bằng không.
• Nếu X và Y là hai biến ngẫu nhiên độc lập, thì
var(X+Y) = var(X) + var(Y)

(3.29)

var(X-Y) = var(X) – var(Y)
• Nếu b là hằng số, thì
var(aX) = a2var(X)

(3.30)

• Nếu a và b là hằng số, thì
var(aX+b) = a2var(X)

(3.31)

• Nếu X và Y là hai biến độc lập và a và b là hằng số,
thì
var(aX+bY) = a2var(X) +
(3.32)

b2var(Y)
10

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

• Để tiện lợi cho việc tính toán, công thức phương sai
cũng có thể được viết lại như sau:
(3.33)
var(X) = E(X2) –
[E(X)]2
Hệ số biến

thiên
Lưu ý rằng, vì độ lệch chuẩn (hay phương sai) phụ thuộc
vào các đơn vị đo lường khác nhau, cho nên sẽ khó cho
việc so sánh giữa các độ lệch chuẩn nếu chúng có các
thước đo khác nhau. Để giải quyết vấn đề này, ta có thể
sử dụng hệ số biến thiên (V) như sau:
σ x
(3.34)
V =
.100
Hiệp phương sai
µ x
Giả sử X và Y là hai biến ngẫu nhiên với E(X) =
và E(Y)
µ phương
x

= µ y, thì hiệp
sai (cov) giữa hai biến
như sau:
sẽ
Cov(X,Y) = E[(X-µ x)(Y-µ y)]

(3.35)
=
E(XY)
µ
x
µ
y
Hiệp phương sai giữa hai biến có thể dương, âm, hoặc bằng
không. Nếu hai biến vận động theo cùng chiều, thì hiệp
phương sai sẽ dương, nếu khác chiều, thì hiệp phương sai
sẽ âm. Nếu hiệp phương sai giữa hai biến bằng không, thì
có nghĩa là không có mối quan hệ tuyến tính nào giữa hai
biến đó.
Ta có thể tính hiệp phương sai theo công thức sau
đây:

(X −
= µ x )(Y − µ
∑
∑
XYf
(X,
Y)
(X, Y) −

cov(X,Y) =

∑

∑

y
= xE(XY)
µ
x
µ
µ xµ y

yx

y )f

(3.36)

y

Tính chất của hiệp phương sai
• Nếu X và Y là hai biến ngẫu nhiên độc
hiệp
phương sai của chúng bằng không vì lập, đó
khiE(XY) =
E(X)E(Y) =
µ xµ y.
= bdcov(X,Y)

(3.37)
• cov(a+bX,
cov(X,X) =c+dY)
var(X)
•

(3.38)

11

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

• Nếu X và Y là hai biến ngẫu nhiên nhưng không nhất
thiết phải độc lập, thì công thức tính phương sai
(3.29) được viết lại như sau:
var(X+Y) = var(X) + var(Y) + 2cov(X,Y)

(3.39)

var(X-Y) = var(X) + var(Y) – 2cov(X,Y)

(3.40)

Hệ số tương quan
Hệ số tương quan là thước đo mối quan hệ tuyến tính giữa
hai biến ngẫu nhiên, nghĩa là nó cho biết hai đó có quan
hệ với nhau như thế nào: mạnh hay yếu. Hệ số tương quan
sau:

tổng thể (ρ , rho) được xác định
như
cov(X,
ρ
(3.36)
Y)
=
σ xσ
Tính chất của hệ số tương quan

y

• Giống hiệp phương sai, hệ số tương quan có thể âm
hoặc dương.
• Hệ số tương quan là một thước đo mối quan hệ tuyến
tính giữa hai biến.
(3.37)
• -1 ≤
ρ ≤ 1
• Hệ số tương quan là một con số thuần túy không có đơn
vị đo lường.
• Nếu hai biến độc lập, hệ số tương quan bằng không.
• Hệ số tương quan không hàm ý mối quan hệ nhân quả.

Kỳ vọng có điều kiện
Một khái niệm thống kê khác đặc biệt quan trọng trong
phân tích hồi qui là khái niệm kỳ vọng có điều kiện.
E(X|Y=y) =

Độ nghiêng và độ nhọn

Xf
(X / Y =
ta y)
biết điều
∑

(3.38)

Độ nghiêng và độ nhọn cho
gì đó về hình dạng
X
của phân phối xác suất. Độ nghiêng
(S) là một thước đo sự
mất cân xứng của đồ thị phân phối xác suất, và độ nhọn
(K) là một thước đo độ cao hay thấp của đồ thị phân phối
xác suất.
Mô men thứ ba: E(X-

(3.39)

µ x)3 Mô men thứ tư:

(3.40)

E(X-µ x)4

12

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

E(X −
S =
µ xσ)3

3

(3.41)

x
Đối xứng

Nghiêng trái

Nghiêng phải

X

Hình 3.4: Độ nghiêng của phân phối

Có ba khả năng xảy ra như sau:
 Nếu S = 0, PDF đối xứng quanh giá trị trung bình
 Nếu S > 0, PDF bị nghiêng phải
 Nếu S < 0, PDF bị nghiêng trái

E(X −
K =
µ x− )

[E(X

4

(3.42)

2 2

x ) năng
]
Có baµ khả
xảy ra như sau:
 Nếu K = 3, PDF có độ nhọn chuẩn và được gọi là
mesokurtic
 Nếu
K < 3, PDF có
gọi là
ngắn
và
platykurtic
đuôi
 Nếu
K > 3, PDF
đuôi leptokurtic

có

được dài và
được

13

gọi

là

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

Đuôi ngắn

Độ nhọn chuẩn

Đuôi dài

X

Hình 3.5: Độ nhọn của phân phối

TỪ TỔNG THỂ ĐẾN MẪU
Trung bình mẫu
Trung bình mẫu của một biến ngẫu nhiên X có n quan sát
được ký hiệu là X (đọc là X ngang) và được định nghĩa như
sau:
n

i

X i= 1

n một
= là
xem

(3.43)

Trung bình mẫu được
ước lượng của E(X), từ
∑ ước lượng đơn giản là một qui
trung bình tổng thể. Một
tắc, một công thức, hay một thống kê cho ta biết làm sao
để ước lượng một đại lượng của tổng thể. Giả sử X có 7
quan sát với các giá trị như sau: 8, 9, 10, 11, 12, 13,
14. Vậy X = 11, và con số 11 này được gọi là một giá trị
ước lượng của trung bình tổng thể.
Thao tác với Eviews
Trên cửa sổ lệnh của Eviews ta nhập: scalar
meanX=@mean(x)
14

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

Phương sai mẫu
Phương sai mẫu được ký hiệu bằng Sx2 , là ước lượng
của
phương sai tổng thể σx 2 . Phương sai mẫu được định
như
sau:

nghĩa

n (Xi −
Sx i=X)2 n
2

(3.44)

1
= tự1 do− (d.f.).
n-1 được gọi là số bậc
Bậc tự do là số
nguồn thông tin (piece ∑of information) về một biến ngẫu
nhiên. Để hiểu khái niệm này, ta xét ví dụ sau đây.
 BẢNG 3.8: Định nghĩa khái niệm bậc tự do
Quan sát
1
2
3
4
5
6
7

(X- X)
-3
-2
-1
0
1

2
3
0

X
8
9
10
11
12
13
14
Tổng

(X- X) 2
9
4
1
0
1
4
9
28

Nguồn: Tác giả
Ta biết rằng tổng độ lệch luôn luôn bằng không1, nên
xem độ lệch của các giá trị X so với giá để trị trung
ta phải lấy độ lệch bình phương. Tổng của bình
phương là 28, nhưng thực
6

con số 28 7 này
chỉ
độ lệch
sự
“nguồn”
đóng góp, vì quan sát do thứ
tư trùng
với giá trị
bình
trung bình. Như vậy, để xem độ lệch trung bình ta chỉ lấy
28 chia cho số nguồn thực sự tạo ra nó, tức 7-1 = 6. Vậy
phương sai là 4.67 (là một giá trị ước lượng của phương
sai tổng thể) và căn bậc hai của phương sai mẫu được gọi
là độ lệch chuẩn mẫu (s.d.). Độ lệch chuẩn (2.16) được
xem như một thước đo sấp xỉ cho trung bình của 6 độ lệch
tuyệt đối ở trên. Mở rộng cho trường hợp một biến ngẫu
nhiên liên tục.
Thao tác với Eviews
Trên cửa sổ lệnh của Eviews ta nhập: scalar varX=@var(x)

1 Chứng minh:

=

∑

∑

X − nX =

(X − X) =

∑

∑

X−

X−

∑

15

∑

X= 0

X

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

Hiệp phương sai mẫu
Hiệp phương sai mẫu giữa hai biến ngẫu nhiên X và Y là
ước lượng của hiệp phương sai tổng thể, và được
nghĩa như sau:
định

(X i −
n
X)(Y
−i −
1
tác với
Eviews
Y) Eviews ta nhập:
của

Cov(X,Y) = ∑
Thao
Trên cửa sổ lệnh

(3.45)

scalar

covXY=@cov(x,y)

Hệ số biến thiên mẫu
Hệ số biến thiên mẫu của X được xác định bằng công
thức sau đây:
V = S
Xx .

(3.46)

100
Thao tác với Eviews

Trên cửa sổ lệnh của Eview ta nhập: scalar
cvX=@stdev(x)/@mean(x)

Hệ số tương quan mẫu
Hệ số tương quan mẫu giữa hai biến ngẫu nhiên X và Y là
ước lượng của hệ số tương quan tổng thể, và được định
nghĩa như sau:

r = ∑ (Xi − X)
s.d.(X)s.d.
(Yi − (Y)Y) /(n − 1)

(3.47)

Thao tác với Eviews

Trên cửa sổ lệnh của Eviews ta nhập: scalar
corXY=@cor(x,y)

Độ nghiêng và độ nhọn mẫu
Để tính độ nghiêng và độ nhọn mẫu, ta sử dụng các mô men
mẫu thứ ba và thứ tư như sau:

(X
Mô men thứ ba: ∑
(n − 1)

(3.48)

Mô men thứ tư:

(3.49)

− X)3
∑
(X
(n −
− 1) X) 4

16

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

Thao tác với Eviews
Trên cửa sổ lệnh của Eviews ta nhập:
scalar skewX=@skew (x)
scalar kurtX=@kurt(x)

MỘT SỐ PHÂN PHỐI XÁC SUẤT
QUAN TRỌNG
Phân phối chuẩn

hợp lý cho một biến ngẫu nhiên liên tục với giá trị của
phối mỗi yếu tố chỉ có
nóKinh
phụ nghiệm
thuộc cho
vào thấy

nhiềurằng
yếu phân
tố, nhưng
hình
ảnh hưởng chuẩn
tương là
đốimột
nhỏmôlên
giá trị của biến số đó. Phân
ngẫu
nhiên X được thể hiện thông
phối chuẩn của một biến
qua hai tham số cơ bản là giá trị trung bình và phương
sai. Cụ thể như sau:
X ~ N(µ x,x
σ 2)

-3σ

-2σ

-σ

µ
khoảng 68%
khoảng 95%
khoảng 99.7%

Hình 3.6: Đồ thị phân phối chuẩn

17

(3.50)

σ

2σ

3σ

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

Tính chất của phân phối chuẩn
• Đường phân phối chuẩn đối xứng quanh giá trị trung
bình µ x.
• Hàm phân phối xác suất PDF của một biến ngẫu nhiên
theo phân phối chuẩn cao nhất tại giá trị trung bình
nhưng nhỏ dần về các cực trị của nó. Nghĩa là, xác
suất để có một giá trị của một biến ngẫu nhiên theo
phân phối chuẩn càng xa giá trị trung bình càng nhỏ.
68% diện tích dưới
• Theo kinh nghiệm,
khoảng
đường
phân phối chuẩn nằm giữa giá trị µx±σx, khoảng 95%
diện tích nằm giữa µ x±2σ x, và
99.7% diện tích
khoảng

nằm giữa
µ x±3σ x.

• Một phân phối chuẩn được định nghĩa hoàn toàn bởi hai
tham số µ x và x σ 2 . Một khi biết hai tham số này
được ta có thể tính được xác suất của X nằm trong một
thì
khoảng nhất định theo công thức sau:


2

1 X x 

exp


σ x 2Π
−
2 μ

σ x

• Một kết hợp (hay một hàm)
tuyến tính
 - theo phân phối
hay nhiều biến ngẫu nhiên
theo phân phối chuẩn – đây
tính chất
 là một 

quan trọng của phân phối chuẩn trong kinh tế
f(X) =

1

(3.51)
của hai
chuẩn sẽ
đặc biệt
lượng.

• Đối với phân phối chuẩn, thì độ nghiêng S là 0 và độ
nhọn K là 3.
Phân phối chuẩn hóa
Mặc dù một phân phối chuẩn hoàn
hai tham số, giá trị trung bình
nhưng các phân phối chuẩn có thể
trung bình, hoặc phương sai, hoặc

18

toàn được xác định bằng
và phương sai tổng thể,
khác nhau hoặc ở giá trị
cả hai.

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

µ
1

µ
2

Hình 3.7: So sánh các phân phối chuẩn có trung bình và phương sai khác
nhau

Ta không thể so sánh các phân phối chuẩn có các tính chất
khác nhau. Cho nên, người ta qui về cùng một biến chuẩn
hóa Z như sau:

Z=

X

(3.52)
σ
x
− µ x
Theo tính chất của phân phối chuẩn, nếu X là một biến
ngẫu nhiên có trung bình là µ x và
sai là σ x, X
N(µ
σ 2X),
thì Z là một
kế hợp tuyến tính của
~ X sẽ là một
phương

biến
ngẫu nhiên có phân phối chuẩn với trung bình là
X,
không và phương sai là một, Z ~ N(0, 1)2.
Như vậy, bất kỳ một biến ngẫu nhiên theo phân phối
chuẩn với một giá trị trung bình và phương sai nhất định
đều có thể được chuyển đổi thành một biến chuẩn hóa, điều
này giúp đơn giản hóa rất nhiều việc tính xác suất. Để
hiểu vai trò của phân phối chuẩn hóa, ta xem xét ví dụ
sau đây.
 −
2 Chứng minh: E(Z) = E  σµ


X

x



x 
µ

σ= 1 E(X − µ
= 0. Và Var(Z) =

x

x )= x0



 − x 2 =
E[Z-E(Z)]2 = E(Z2), do E(Z) = 0, vậy E(Z2) = E
σ
µ
 x  =
 X
σ x 19

2

1

do E(X-µ

x

x
) = E(X)
–x E(µ

1

x − µ 2 )x2
E(X
σ
σ 2 = 1

x

)=µ

-

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

Giả sử X, số lượt khách du lịch quốc tế hàng ngày của một
công ty du lịch, theo phân phối chuẩn với giá trị trung
bình là 70 và phương sai là 9; nghĩa là, X ~ N(70,9). Hãy
tính xác suất cho một ngày bất kỳ công ty có số khách du
lịch quốc tế nhiều hơn 75 khách?
Ta thấy, do X theo phân phối chuẩn với giá trị trung
bình và phương sai đã biết, nê ta có:
Z = 75
3 − 70
= ≈ 1.67
sẽ theo phân phối chuẩn hóa với trung bình bằng 0 và
phương sai bằng 1. Thay vì tìm P(X > 75), ta có thể tìm
P(Z > 1.67). Lưu ý, trong các sách thống kê và kinh tế
lượng thường có kèm phụ lục bảng thống kê giá trị
phân phối xác suất tích lũy (CDF) hay giá trị xác
hàmsuất
tích lũy của phân phối chuẩn hóa giữa các giá trị Z = -3
và Z = 3 (tại sao?). Theo bảng thống kê này thì xác suất
Z nằm từ -3 đến 1.67 là 0.95253. Cho nên,
P(Z > 1.67) = 1 – P(Z < 1.67) = 1 – 0.9525 = 0.0475
Vây xác suất để một ngày bất kỳ công ty có số lượt khách

du lịch nhiều hơn 75 người là 4.75%.
Tóm lại, một biến ngẫu nhiên bất kỳ mà giá trị của nó
phụ thuộc vào rất nhiều yếu tố, nhưng không có yếu tố nào
có ảnh hưởng quyết định giá trị đó, thì biến ngẫu nhiên
đó sẽ theo phân phối chuẩn4. Và bất kỳ một biến X có
phối chuẩn phân với giá trị trung bình và phương sai đã
thể chuyển được sang biến chuẩn hóa Z có giá
thì đều có biết
trị trung bình là 0 và phương sai là 1.
Thao tác với Eviews
Trên cửa sổ lệnh của Eviews ta nhập:
scalar probm167=1-@cnorm(1.67) = 0.0475
scalar probs167=@cnorm(1.67) = 0.9525
scalar probs_167=@cnorm(-1.67) = 0.0475
scalar Zval09525=@qnorm(0.9525) = 1.67
3 Nếu quí vị đang sử dụng máy vi tính mà lụi cụi tra bảng thống kê thì cô ấy nhà bên nhìn qua cười khúc khít
đó. Hãy mở Excel ra là làm thế này: = NORMDIST(X, Mean, Standard_dev, Cumulative). Trong đó, “X” là
giá trị cần tính xác suất tích lũy (1.67), “Mean” và “Standard_dev” ở đây lần lượt là trung bình (0) và độ lệch
chuẩn (1) của biến X, và “Cumulative” có hai lựa chọn là “True” (đồng ý tính xác suất tích lũy) và “False”
(không tính xác suất tích lũy). Ở trường hợp đang xét, ta chọn “True”. Ngược lại, nếu ta đã biết xác suất
tích lũy, giá trị trung bình và phương sai thì ta dễ dàng tính giá trị của biến đó như sau:
=NORMINV(0.9525,0,1) = 1.67.
4 Đây là cơ sở quan trọng cho việc giả định rằng hạn nhiễu ui có phân phối chuẩn (sẽ được nói đến ở bài
giảng 6).
20

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

Phân phối xác suất của trung bình mẫu

X

Giả sử ta chọn ngẫu nhiên một mẫu với n quan sát gồm các
giá trị X1, X2, …, Xn từ một tổng thể có cùng hàm phân
phối xác suất. Nếu ta thực hiện m mẫu như thế thì giá trị
trung bình mẫu X sẽ là một biến ngẫu nhiên. Như vậy, vấn
đề đặt ra là X sẽ có phân phối như thế nào?
 BẢNG 3.9: Định nghĩa biến trung bình mẫu và phương sai mẫu

Mẫu

Giá trị của mẫu

Giá trị trung bình mẫu X

Phương sai mẫu S2
x

1
2
3
.
.
M

X11 X12 . . .
X
S2

X1n X21 X22
x1
1
. . . X2n X31
X
S2
X32 . . . X3n
x2
2
.
S2
X
.
x3
Xm1 Xm2 . . .
3
.
Ví dụ, một
Xmntổng thể có . phân phối chuẩn với giá trị trung
S2 tổng thể
bình là 10 và phương sai
là 4, tức N(10,4). Từ
.
xn sát/mẫu.
này ta thu thập 20 mẫu ngẫu nhiên với 20 quan
Xm
Như vậy ta sẽ có các giá trị trung bình, X như sau.
 BẢNG 3.10: Phân phối xác suất của trung bình mẫu
Các trung bình
Khoảng của trung

Tần suất
Tần suất
mẫu ( X )
bình mẫu
tuyệt đối
tương đối
8.5 – 8.9
1
0.05
9.641
10.134
10.040
10.249
9.174
9.0 – 9.4
1
0.05
10.321
10.840
9.5 – 9.9
5
0.25
10.399
10.0 – 10.4
8
0.40
10.480
9.404
11.386
Nguồn:

8.621 Gujarati, 2006, trang 86
9.740
10.5 – 10.9
4
0.20
Tổng
9.739của 20 giá trị trung bình là 201.05, X = ∑
Xi
n
11.02 – 11.4
1
0.05
9.937
= 10.052 ,
10.184
và var( X ) ∑ (X = 0.339
19
= 10.250
− X) .
9.765
10.334
Tổng
20
1.00
10.410
21

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

0.45
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00

8.75

9.25
10.75

9.75

10.25

11.2

Hình 3.8: Phân phối của 20 giá trị trung bình mẫu từ tống thể có N(10,4)

Lý thuyết thống kê cho rằng, nếu X1, X2, …, Xn là một
mẫu ngẫu nhiên từ một tổng thể có phân phối chuẩn với
trung
bình µ x và phương saix σ 2 , thì trung bình mẫu, X ,cũng
theo

σx
phân phối chuẩn với trung bình µ x nhưng phương sai 2
n5.
Nghĩa là,
X ~

N(µ x,

σx
2n
)

(3.53)

σ x được gọi
,n
là sai số chuẩn (se) của X , tương tự như khái niệm độ
lệch chuẩn. Lưu ý, căn bậc hai của phương sai của một
Căn bậc hai của phương sai trung bình mẫu,

1

∑

5 Chứng minh: Do X =n
n
nên ta có:1
i= 1
E(X) =
E(X n )] =

µ x ]X1
= + X
var(X)
n
n

Xi
1

1
[E(X1 ) + E(X 2 ) + ...+
[µ x + µ x + ...+
(nµ x ) = µ x n n

2  = [var( X1) + var(X 2 )
+
...+ 2 X n + n1...+ var(Xn )]
= var

σ
1
2
(nσ x
=
 2
n
) x
=

2

n

22

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

biến ngẫu nhiên được gọi là độ lệch chuẩn (s.d.), và căn
bậc hai của một ước lượng được gọi là sai số chuẩn (se).
Định lý giới hạn trung tâm
Như ta vừa phân tích, trung bình mẫu của một mẫu rút ra
từ một tổng thể phân phối chuẩn cũng theo phân phối chuẩn
(bất kể cở mẫu bao nhiêu). Vấn đề đặt ra là nếu các mẫu
rút ra từ các tổng thể khác không theo phân phối chuẩn
thì sao? Định lý giới hạn trung tâm cho rằng nếu X1,
…,
là một mẫu ngẫu nhiên từ bất kỳ tổng thể nào với
X2,
Xn
bình là µ x và phương làx thì trung bình mẫu X
2 , theo phân phối chuẩn sẽ với trung bình là
trung σhướng
µ x và
có xu
σ2
phương sai là
lên vô
khi

cỡ
mẫu
tăng
x
cùng6.
n
Phân phối mẫu của giá
trị trung bình

Tổng thể không có phân
phối chuẩn

Tổng thể có phân
phối chuẩn

µ
Hình 3.9: Định lý giới hạn trung tâm: Các mẫu được rút ra từ một tổng thể chuẩn
hay không chuẩn đều có phân phối chuẩn

Phân phối t
Phân phối xác suất được sử dụng rất nhiều trong phần kinh
tế lượng căn bản là phân phối t, cũng được gọi là phân
phối t Student.

6 Trên thực tế, cho dù phân phối xác suất nền tảng là gì, trung bình mẫu của một cở mẫu ít nhất có 30 quan sát
sẽ có thể xấp xỉ chuẩn (Gujarati, 2006, pp.88).

23

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

σ

~ N(µ x2, x ),
n
X
thì
(X −
như sau: Z =
µσ x )
x n
Nếu

2

σn

x đều

biến chuẩn hóa Z được định nghĩa
cả hai tham số µ x

~ N(0,1)
nếu

và

biết. Nhưng giả sử ta chỉ biết µx và giá trị

được
lượng mẫu Sx2
ước lượng của σ x 2 bởi
ước
∑
nếu thay σ x bằng Sx ta sẽ có một biến
mới
X)
(X −
t =
µSxx )
n

2

=
.
n
(X
như
−i −
1sau:

Như vậy,

(3.54)

Lý thuyết thống kê cho rằng biến t sẽ theo phân phối t
với số bậc tự do là (n-1), đây là tham số duy nhất của

phân phối t.
Phân phối chuẩn
Phân phối t với df=1
Phân phối t với df=4
Phân phối t với
df=10

t
-4

-3

-2

-1

0

1

Hình 3.10: Phân phối t với một số bậc tự do khác
nhau

24

2

3

4

BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình

Tính chất của phân phối t
• Giống như phân phối chuẩn, phân phối t đối xứng quanh
giá trị trung bình.
• Trung bình của phân phối t, giống như phân phối chuẩn
hóa, là không, nhưng phương sai là k/(k-2), với k là
số bậc tự do. Vì vậy, phương sai của phân phối t chỉ
được xác định khi số bậc tự do d.f. > 2.
Để mimh họa ứng dụng của phân phối t trên thực tế ta xét
tiếp ví dụ về số lượt khách du lịch quốc tế tại một công
ty du lịch như đã đề cập. Biết rằng, trong giai đoạn 15
ngày qua, số lượt khách quốc tế trung bình một ngày là 72
và phương sai mẫu là 4. Hãy tính xác suất để có được số
lượt khách trung bình đó, biết rằng giá trị trung bình
thực là 70 khách một ngày?
Nếu biết độ lệch thực của tổng thể (σ ) thì ta có
thể dễ
dàng
sử
dụng phân
phối chuẩn
hóa để
tính xác suất
trên. Nhưng ở đây ta có S, là một ước lượng của σ ,
nên ta có thể sử dụng phân phối t như sau:
3

t = 15
72hóa
− với
70 =1.9365
sẽ theo phân phối chuẩn
trung bình bằng 0 và
tìm
phương sai bằng 1.17. Thay vì tìm P(X > 72) , ta có
thể
P(t > 1.9365). Áp dụng hàm phân phối t cho trường hợp một
7
đuôi ta có:
P(t > 1.9365) = 1 – P(t < 1.9365) = 0.0366
Vây xác suất để số lượt khách trung bình một ngày của
công ty du lịch này là 3.66%.
Thao tác với Eviews
Trên cửa sổ lệnh của Eviews ta nhập:
scalar probm19365=1-@ctdist(1.9365,14) = 0.0366
scalar probs19365=@ctdist(1.9365,14) = 0.9634
scalar probs_19365=@ctdist(-1.9365,14) = 0.0366
scalar tval09634=@qtdist(0.9634,14) = 1.9365
7 Hàm phân phối xác suất t trên Excel là: =TDIST(X, Deg_freedom, Tails). “X” nghĩa là giá trị t cần tính
xác suất (1.9365), nghĩa là diện tích dưới đường phân phối t từ t đến +∞
(ta sẽ biết đây chính là vùng bác bỏ
giả thiết H0). “Deg_freedom” là số bậc tự do (14). “Tails” có hai lựa chọn: “1” (một đuôi), và “2” (hai đuôi).
Giá trị xác suất ta tính được từ công thức này chính là P-Value (sẽ được giới thiệu ở bài giảng 4). Nếu ta đã
biết mức ý nghĩa (sẽ được trình bày ở bài giảng 4) và số bậc tự do, ta sẽ tìm được giá trị t theo
công thức sau:
=TINV(Probability, Deg_freedom). Ví dụ, =TINV(3.66%,14) = 1.9365. Lưu ý, Phụ lục B ở cuối bài giảng 3 sẽ
hướng dẫn cách vẽ đồ thị phân phối t bằng Excel.

một số vấn đề cơ bản về xác suất thống kê

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về