NGUYÊN LÝ CƠ BẢN CỦA
THỐNG KÊ
Principles of Statistics
KE
CHƯƠNG 0: KHÁI NiỆM XÁC SUẤT
(PROBABILITIES)
0.1- BiẾN NGẨU NHIÊN
(Random Variables)
•
Biến ngẩu nhiên (ký hiệu x) là biến mà các
giá trị nó nhận được là các số thực được
cho từ một hiện tượng ngẩu nhiên nào đó.
•
Ví dụ: Số photon (x) phát ra từ
đèn laser trong một giây
•
Năng lượng tia gamma phóng xạ
•
Tọa độ của một electron (1D)
0.2- Phân Loại
•
* Phân ra 2 loại: biến rời rạc và liên tục
(discrete and continuous).
* Biến rời rạc (discrete random variable):Biến chỉ
nhận một số các giá trị phân biệt (VD: số bước
sóng của quang phổ nguyên tử H
2
)
* Biến liên tục (continuous random variable) nhận
vô số các giá trị liên tục khác nhau. Như các
giá trị của bước sóng ánh sáng tự nhiên đến
từ Mặt Trời (0,76 0,38 µm).
Bài tập 0.1
•
Phân loại các biến sau đây:
•
Điện tích của một vật, các bước
sóng của ánh sáng mặt trời, bước
sóng của tia gamma bức xạ từ
phản ứng hạt nhân, quang
electron, spin của electron,
mômen từ của electron….
Q, quang electron, spin của electron là rời rạc
0.3- Phân bố (Distribution)
Trong một biến cố (một lần đếm) của HTNN thì kết quả có thể
chia ra nhiều nhóm (phân bố) khác nhau
TD buồng khí có số nguyên tử (NT) bên trong là x = 50 chia 2
nhóm H
2
có 20 NT (40%) và N
2
có 30 NT (60%).
•
Hình sau mô tả phân bố những elctron có E (Kev) khác nhau
bị bức ra từ hiệu ứng quang điện
Động năng (KeV):
Phần lớn các phương pháp mô tả biến đơn là biểu
diễn tần suất phân bố (a frequency distribution) theo
hai cách là tỉ lệ % và biểu đồ
Bài tập 0.2
Tính tỉ lệ và vẽ biểu đồ số bi: đỏ, cam, vàng, đen và trắng trên bàn.
Đỏ :4/26
VÀNG 1/26
CAM 1/26
TRẮNG 8/26
ĐEN 12/26
0.4- Phân bố xác suất
(PROBABILITY DISTRIBUTION)
•
Với biến rời rạc
•
Khi thống kê, ta đo biến cố nhiều lần
và thu các kết quả rất khác nhau, mỗi
kết quả thường có tần xuất lập lại khác
nhau
TD: khi gieo xúc xắc 100 lần có 25 lần
xuất hiện mặt (6), 20 xuất hiện mặt (5),
10 xuất hiện mặt (4) , 17 xuất hiện mặt
(3), 10 xuất hiện mặt (2), còn lại là số
lần xuất hiện mặt (1)
Các giá trị P = 25/100, 20/100… là biểu
diễn phân bố xác suất của các lần gieo
tương ứng các kết quả xuất hiện mặt
( x = 6, x = 5, x = 4…)
Phân bố (xác suất)
(PROBABILITY DISTRIBUTION)
Hàm p(x) được gọi là hàm phân bố xác suất
•
Giá trị p(x) thỏa :
0 < pi < 1 với mọi i thống kê (STATISTICS) (1.1)
p
1
+ p
2
+ ... + p
k
= 1. Chuẩn hóa (NORMALIZATION) (1.2)
x
1
x
2
x
3
x
4
X
5
x
6
P
1
= P
2
P
3
P
4
P
5
P
6
Bài tập 0.3
Bài tập: Hãy điền các giá trị P vào bảng (Ở
slide trước) cho phù hợp sau đó chuẩn hóa
các giá trị của P
k
x
1
=6 x
2
=5 x
3
=4 x
4
=3 X
5
=2 x
6
=1
P
1
=25 P
2
=20 P
3
=10 P
4
=17 P
5
=10 P
6
=18
Bài tập 0.4
Tính phần trăm (P
i
%
) theo phân bố tuổi trong lớp cao
học của chúng ta
X 22 23 24 25 26 27 28 29 30
(P
22
P
23
X 31 32 33 34 35 36 37 38 39
(P
31
P
32
X 40 41 42 43 44 45 46 47 48
(P
40
P
41
Kiểm tra điều kiện chuẩn hóa
(NORMALIZATION CONDITION)
vẽ biều đồ quạt
p1 + p2 + ... + pk = 1.
Ý nghĩa phân bố xác suất
•
P(x) nhận giá trị từ 0 đến 1.
0.0 - Không bao giờ có
VD: tìm số người biết hết tất cả các
thứ tiếng trên thế giới.
•
0.5 - Khả năng có là phân nửa
VD: chơi lật đồng xu (mặt chữ và
Hình)
•
1 - Luôn luôn có
VD Tìm một electron trong vật thể
bất kỳ
0.5- Khuynh hướng trung tâm CT
central tendency
•
Sứ tính toán xấp xĩ giá trị trung tâm của một biến cố
nào đó trong phân bố ngẩu nhiên.
•
Được chia ra 3 dạng:
1- Trị trung bình (Mean
or average)
2- Trị ở giữa (Median)
3- Trị có tần suất cao (Mode)
1-Trị trung bình là trung bình cộng của tất cả các giá trị
mà biến X nhận được
Bài tập 0.5
•
Tìm giá trị trung bình của tuổi học viên cao
học trong lớp chúng ta theo BT 1.1
==
∑
=
)x(Pxx
ii
n
1i
i
Kết quả là :
P
i
phải thỏa điều kiện chuẩn hóa
48242322
P.48...P.24P.23P.22
++++
•
Trị ở giữa (Median) là giá trị nằm ở giữa giá
trị lớn nhất và nhỏ nhất của biến:
•
X
C
= (X
max
+ X
min
) / 2
22 23 24 25 26 27 28 29 30
(p
22
p
23
31 32 33 34 35 36 37 38 39
(p
31
p
32
40 41 42 43 44 45 46 47 48
(p
40
p
41
0.5- Khuynh hướng trung tâm CT
central tendency
Bài tập 0.6
Tính trị ở giữa của phân bố tuổi ở lớp
•
Giá trị có tần suất cao (The mode) là giá trị
x
K
mà ở đó xác suất p
K
là cực đại (sau khi
đã chuẩn hóa)
•
(mode = k)
Bài tập 7 tìm Mode tuổi trong lớp cao học của chúng ta
22 23 24 25 26 27 28 29 30
(p
22
p
23
31 32 33 34 35 36 37 38 39
(p
31
p
32
40 41 42 43 44 45 46 47 48
(p
40
p
41
0.5- Khuynh hướng trung tâm CT
central tendency
(22+48)/2=35
0.6- Độ lệch
(Dispersion)
•
Thường dùng cho các phép đo nhiều lần một
đại lượng vật lý nào đó và thu được các giá trị
gần như nhau
•
Độ lệch là giá trị sai lệch so với trị trung tâm.
Có 2 cách tính độ lệch:
•
Độ lệch cấp (range deviation) và độ lệch chuẩn
(the standard deviation).
•
Độ lệch cấp được xác định bằng
độ lệch của giá trị lớn nhất và giá
trị nhỏ nhất khi đo đại lượng x
Bài tập 0.7
•
Tính độ lệch cấp ở
lớp ta khi xét tuổi
học viên cao học?
Độ lệch= 48-22=26
•
Độ lệch chuẩn (Standard Deviation) là độ sai lệch
được phép khi tính xấp xĩ. Để tính SD (standard
deviation), Chúng ta tính lần lượt:
•
Rồi tính bình phương của nó sau đó lấy tổng
•
Kết quả chia cho (N-1) (called variance) căn
(N-1) gọi là bậc tự do của phương sai
)4.0(xxx
ii
−=∆
( ) ( ) ( )
)5.0()1N/(xiancevarxx
1i
2
i
1i
2
i
2
i
−∆=→∆→∆
∑∑
==
(0.6)
0.6- Độ lệch
(Dispersion)
Bài tập 0.8
Phân bố năng lượng của electron trên các mức quĩ đạo
Ký hiệu
electron
A B C D E F G H I
E (KeV) 4 20 21 20 29 15 25 16 6
Tính 1- Trung bình năng
lượng, 2- trị E ở giữa, 3-
Năng lượng Mode, 4- Độ
lệch cấp 5- phương sai và
Variance, 6- Độ lệch
chuẩn
Tóm lại
•
Khi xét đại lượng biến thiên ngẫu nhiên
(VD: Đo vận tốc nhiệt của một giọt nước)
ta cần tính giá trị trung bình và độ lệch
chuẩn của nó.
•
Giá trị trung bình giúp ta ước lượng xấp
xỉ vận tốc của các hạt khi không phân
biệt chúng
•
Độ lệch chuẩn cho biết sai lệch của phép
tính xấp xỉ vận tốc
Đại lượng trung bình thống kê
•
Là trung bình của một biến khác được tính gián
tiếp qua biến được lấy thống kê
•
Ví dụ thống kê cho ta sự phân bố hạt theo tọa
độ là hàm P(x), nhưng tại mỗi tọa độ Thế năng
đàn hồi tác dụng lên hạt là f= -kx
2
. Ta cần tính
giá trị trung bình của thế năng tác dụng lên hạt:
)x(P)x(ff
i
n
1i
i
∑
=
=
Bài tập tổng hợp 0.9
•
Nguyên tố K có thể có ba dạng đồng vị khác nhau với các
khối lượng nhân là n, n+1, n +2. với n là một số nguyên. Xác
suất ứng với các khối lượng nhân đó lần lượt là (1/2, 1/3,
1/6). Khi xảy ra tán xạ của nơtron với hạt nhân, Biên độ của
nơtron tán xạ phụ thuộc vào khối lượng nhân và được xác
định qua hàm f mô tả như sau:
•
f(n)= 2A,
•
f(n+1) = A,
•
f(n+2) = 4A (A là hằng số). Xác định:
•
1- Đồ thị hàm phân bố theo khối lượng.
•
2- Tìm trị trung bình của biên độ tán xạ < f > và [< f >
2
]
•
3- Tính Variance V = (<f
2
>- [< f >
2
])
•
4- Nếu có một tinh thể nano với 64 nguyên tố K nói trên, thì
khối lượng nhỏ nhất có thể có của tinh thể nano là bao nhiêu
0-7 Biến Liên tục
Continuous random variable
Biến nhận mọi giá trị khả hữu liên tục. Thí dụ vận tốc
chuyển động nhiệt của một hạt electron trong kim loại có
giá trị dương và liên tục đến c = 3.10
8
m/v.
Với biến liên tục, người ta xác
định mật độ xác suất thông
qua một khoảng của biến số
TD: [-pi, pi ]
Không xác định tại từng giá trị
x riêng biệt.
Nó được tính bởi vùng diện
tích giới hạn ở dưới đường
cong
0-8 Hàm phân bố liên tục
(Continous distribution function)
•
Là một hàm, P(X), được minh họa bởi đồ thị p(x)
•
Thỏa mản hai tính chất :
1: Không âm (p(x) > 0 for all x) thống kê (STATISTICS)
2: Tồng diện tích = 1 chuẩn hóa (NORMALIZATON).
Đường cong thỏa 2
tính chất trên là
đường cong mất độ
Bài tập 0.10
17.5%
Kháo sát phân bố Gauss
Tìm xác suất trong
khoảng sau:
1 -∞ µ- 2σ : 2,5%
2 µ- 2σ µ- σ:
3 µ- σ µ:
4 µ µ + σ:
5 µ + σ µ + 2σ:
6 µ + 2σ + ∞ :2,5%