Lý thuyết mẫu – bài toán ước lượng điểm
Thống kê toán học là khoa học thu thập, tổ chức sắp xếp, tổng hợp, phân tích và
rút ra các kết luận từ các dữ liệu thực nghiệm. Đối tượng của thống kê toán được
chia làm hai lĩnh vực:
+ Thống kê mô tả: nội dung của nó gồm việc thu thập số liệu, tổ chức sắp xếp,
tổng hợp, phân tích và biểu diễn các số liệu thực nghiệm.
+ Các kết luận thống kê bao gồm: thiết kế các kết luận thống kê, kiểm định giả
thiết, xác định các quan hệ và lập các dự báo.
Một trong những bài toán đầu tiên của thống kê toán học là bài toán ước lượng
tham số của phân phối. Trước khi đề cập tới vấn đề đó, ta cần các khái niệm về
mẫu ngẫu nhiên, hàm phân phối mẫu và các số đặc trưng mẫu.
1. Mẫu ngẫu nhiên, hàm phân phối mẫu và các số đặc trưng mẫu
Mẫu ngẫu nhiên
Giả sử là một đại lượng chưa biết nào đó biến thiên trong tập U. Để xác định
được giá trị gần đúng của ta phải tiến hành thực nghiệm, chẳng hạn ta tiến hành
n thí nghiệm. Kết quả của các thí nghiệm này được đặc trưng bởi dãy n biến ngẫu
nhiên X
1
,…, X
n
mà phân phối của chúng là F(x, ) phụ thuộc vào (thậm chí nó
còn phụ thuộc vào các tham số chưa biết khác).
Ta gọi (X
1
, X
2
,…, X
n
) là một mẫu ngẫu nhiên từ phân phối F(x, ). Số n được gọi
là kích thước mẫu (hay cỡ mẫu). Giá trị của mẫu thường kí hiệu bằng chữ (x
1
,
x
2
,…, x
n
). Không gian R
n
mà phần tử của nó là các điểm (X
1
, X
2
,…, X
n
) được gọi
là không gian mẫu.
Chú ý: Thông thường ta hay xét (X
1
,X
2
,…,X
n
) là dãy các biến ngẫu nhiên độc lập
có cùng phân phối.
Hàm phân phối mẫu
Giả sử (X
1
,X
2
,…,X
n
) là mẫu ngẫu nhiên từ phân phối F(x, ).
Định nghĩa 1.1. Hàm phân phối mẫu được định nghĩa bởi
, x R
trong đó n là kích thước mẫu, m là số các giá trị mẫu X
i
< x.
Ví dụ 1.2. Kiểm tra ngẫu nhiên 10 học sinh. Kết quả điểm là (3, 3, 4, 5, 5, 6, 6, 7,
7, 9). Viết hàm phân phối mẫu.
Giải. Hàm phân phối mẫu là
Tính chất 1.3. (Tính chất của hàm phân phối mẫu)
0 F
n
(x) 1 vì 0 m n.
F
n
(x) là hàm đơn điệu tăng.
F
n
(x) = 0 với x min (X
1
,…, X
n
) và F
n
(x) = 1 với x > max (X
1
, X
2
,…,
X
n
)
F
n
(x) hội tụ hầu chắc chắn về hàm phân phối lí thuyết F(x) khi n
Các số đặc trưng mẫu
Ø Trung bình mẫu
Định nghĩa 1.4. Ta gọi số là trung bình mẫu.
- Nếu mẫu cho dưới dạng
X X
1
X
2
.… X
k
n
i
n
1
n
2
…. n
k
với n = n
1
+ n
2
+ … + n
k
thì
- Nếu mẫu cho dưới dạng khoảng
Khoảng Tần số n
i
x
1
– x
2
n
1
x
2
– x
3
n
2
………. ………
x
k
– x
k + 1
n
k
thì trong đó .
Ø Phương sai mẫu
Định nghĩa 1.5. Phương sai mẫu là một số, ký hiệu được xác định bởi
Số được gọi là phương sai mẫu điều chỉnh.
Ví dụ 1.6. Cho mẫu quan sát đối với đại lượng ngẫu nhiên X là
X
i
1 2 3 4
n
i
20 15 10 5
Tìm
Giải. Ta có
Từ đó,
2. Bài toán ước lượng điểm
Giả sử (X
1
, X
2
,…, X
n
) là mẫu ngẫu nhiên từ phân phối F(x, ), U.
Định nghĩa 2.1. Hàm (X) = (X
1
, X
2
,…, X
n
) xác định trên không gian đo (R
n
, A)
nhận giá trị trong không gian đo (T, B(R)) được gọi là một thống kê nếu với B
B(R) thì
- 1
(B) A trong đó A là - đại số các tập con Borel của R
n
, B(R) là
-đại số các tập con của T.
Ví dụ 2.2. Giả sử (X
1
, X
2
,…, X
n
) là mẫu ngẫu nhiên độc lập từ phân phối chuẩn
dạng tổng quát N(a;
2
). Các đại lượng ; là
các thống kê.
Định nghĩa 2.3. (Thống kê đủ)
Thống kê (X) = (X
1
, X
2
,…, X
n
) (có thể (X) là một vectơ (X) = (
1
(X),…,
s
(X)) được gọi là thống kê đủ đối với tham số (hoặc đối với họ phân phối F(x,
)) nếu phân phối điều kiện của X = (X
1
, X
2
,…, X
n
) cho bởi (X) = t không phụ
thuộc vào .
Ví dụ 2.4. Giả sử (X
1
, X
2
,…, X
n
) là mẫu ngẫu nhiên độc lập từ phân phối Poisson
với tham số > 0. Khi đó (X) = là thống kê đủ đối với .
Giải. Ta có
P[ : X
1
=x
1
; X
2
=x
2
;…; X
n
=x
n
, = t] = P[ : X
1
= x
1
; X
2 =
x
2
;…; X
n
= x
n
,]
=
Vì X
1
,…, X
n
độc lập và có phân phối Poisson với tham số > 0 nên cũng có
phân phối Poisson với tham số n . Từ đó
P[ = t] =
Vậy phân phối điều kiện
P[X
1
= x
1
; X
2
= x
2
;…; X
n
= x
n
/ = t] = =
không phụ thuộc vào . Từ đó suy ra là thống kê đủ đối với .
Định lí 2.5. (Định lí tách)
Giả sử {x; f(x, ) > 0} không phụ thuộc vào tham số . Điều kiện cần và đủ để
thống kê T(X) = (T
1
(X),…, T
s
(X)) là thống kê đủ đối với là họ phân phối xác
suất f(x, ) có dạng:
f(x, ) = g(T
1
(X),…, T
s
(X), ).h(x) (1)
Chứng minh. Ta chứng minh Định lí trong trường hợp X là biến ngẫu nhiên rời
rạc.
Đặt S là tập những điểm (x
1
,…, x
n
) sao cho:
T
1
(x
1
,…, x
n
) = t
1
; T
2
(x
1
,…, x
n
) = t
2
; ; T
s
(x
1
,…, x
n
) = t
s
* Điều kiện đủ
Giả sử f(x, ) = g(T(x), )h(x). Ta có
Từ đó