Cao Hào Thi 13
Chương 2
THỐNG KÊ
Thống kê là một khoa học có mục đích thu thập, xếp đặt và phân tích các dữ liệu về một
tập hợp gồm các phân tử cùng loại
2.1 TẬP HỢP CHÍNH VÀ MẪU (Population and Sample)
2.1.1 Tập hợp chính (tập hợp tổng quát, tổng thể)
Tập hợp chính là tập hợp tất cả các đối tượng mà ta quan tâm nghiên cứu trong một vấn
đề nào đó. Số phần tử của tập hợp chính được ký hiệu là N.
2.1.2 Mẫu
Mẫu là tập hợp con của tập hợp chính. Mẫu gồm một số hữu hạn n phần tử. Số n được gọi
là cỡ mẫu:
Tập hợp chính = {x
1
,x
2
…x
N
}
Mẫu = {x
1
,x
2
…x
n
}
2.1.3 Cách chọn mẫu
Có nhiều cách chọn mẫu khác nhau, nhưng nguyên tắc quan trọng nhất là làm sao mẫu
phải phản ảnh trung thực tập hợp chính.
Các cách chọn mẫu thường dùng:
• Chọn mẫu ngẫu nhiên : đó là cách chọn n phần tử từ tập hợp chính N phần tử sao cho
mỗi tổ hợp trong
n
N
C
tổ hợp đều có cùng khả năng được chọn như nhau.
• Cách chọn máy móc.
• Cách chọn phân lớp
• Cách chọn hàng loạt
• Cách chọn kết hợp (nhiều bậc)
2.2 BẢNG KÊ VÀ BIỂU ĐỒ
Để mô tả các dữ liệu một cách cụ thể ta dùng bảng kê và các biểu đồ.
2.2.1 Bảng kê (Table)
• Xếp đặt các dữ liệu vào một bảng theo một qui tắc nào đó ta được một bảng kê.
• Bảng kê thường bắt đầu bằng tiêu đề và chấm dứt bằng một xuất xứ.
+ Tiêu đề : Mô tả đơn giản nội dung của bảng kê
+ Xuất xứ : Ghi nguồn gốc các dữ liệu trong bảng kê.
Cao Hào Thi 14
Thí dụ:
Bảng 2.1: Diện tích các đại dương trên thế giới
Đại dương Diện tích (triệu km²)
Thái Bình Dương
Đại Tây Dương
Ấn Độ Dương
Nam Băng Dương
Bắc Băng Dương
183
106,7
73,8
19,7
12,4
nguồn : Liên Hiệp Quốc
2.2.2 Biểu đồ
Để có ấn tượng rõ và mạnh hơn về dữ liệu người ta trình bày dữ liệu bằng các biểu đồ:
a) Biểu đồ hình thanh (Bar chart)
Biểu đồ hình thanh dọc Biểu đồ hình thanh ngang
b) Biểu đồ hình gẫy khúc (Line Chart)
Biểu đồ này thích hợp với việc biểu diễn một sự liên hệ giữa hai đại lượng với nhau:
Dieän tích (trieäu km²)
183
106.7
73.8
19.7
12.4
0 50 100 150 200
TBD
DTD
ADD
NBD
BBD
Dieän tích (trieäu km²)
183
106.7
73.8
19.7
12.4
0
50
100
150
200
TBD DTD ADD NBD BBD
Cao Hào Thi 15
18.5
19
19.5
20
20.5
21
21.5
22
22.5
23
23.5
123456789101112
Nhiệt độ trung bình tại Đà Lạt năm 1969
c) 2.2.2.3 Biểu đồ hình tròn (Pie Chart)
Dieän tích (%)
TBD
DTD
ADD
NBD
BBD
Biểu đồ hình tròn là một vòng tròn chia thành nhiều hình quạt. Cả hình tròn tượng trưng
toàn thể đại lượng, mỗi hình quạt tương trưng một thành phần mà góc ở tâm tỷ lệ với số
dữ kiện thuộc thành phần đó.
2.3 TẦN SỐ
• Nếu mỗi biến cố sơ đẳng A thuộc tập hợp biến cố ω nào đấy có thể đặt tương ứng với
một đại lượng xác định X = X(A), thì X được gọi là một biến ngẫu nhiên. Biến ngẫu
nhiên X có thể xem như hàm của biến cố A với miền xác định là ω.
• Các biến ngẫu nhiên được ký hiệu bằng các chữ lớn X,Y,Z … còn các giá trị c
ủa
chúng được ký hiệu bằng các chữ nhỏ x,y,z…
• Biến ngẫu nhiên được chia ra là biến ngẫu nhiên rời rạc và biến ngẫu nhiên liên tục.*
*
- Nếu các giá trị mà biến ngẫu nhiên X cho trước có thể lập thành dãy số rời rạc các số x
1
,x
2
…,x
n
(dãy
hữu hạn hay vô hạn) thì chính biến ngẫu nhiên X được gọi là biến ngẫu nhiên rời rạc.
- Nếu các giá trị mà biến ngẫu nhiên X cho trước có thể lấp đầy toàn bộ khoảng hữu hạn hay vô hạn
[a,b] của trục số thì biến ngẫu nhiên X được gọi là biến ngẫu nhiên liên tục.
Cao Hào Thi 16
2.3.1 Tần số (Frequency)
• Gọi x
i
là các giá trị quan sát được của biến ngẫu nhiên X (i = 1,2,…l)
• Số lần xuất hiện của giá trị x
i
trong khối dữ liệu được gọi là tần số của x
i
và được ký
hiệu là f
i
.
nf
l
i
i
=
∑
=1
với n là cỡ mẫu
2.3.2 Tần số tương đối (Relative frequency, tần suất)
Tỉ số giữa tần số f
i
và cỡ mẫu n gọi là tần số tương đối
n
f
i
n
f
W
i
i
=
1
1
=
∑
=
l
i
Wi
2.3.3 Tần số tích lũy (Cumulative Frequency)
Tần số tích lũy của một giá trị x
i
là tổng số tần số của giá trị này với tần số của các giá trị
nhỏ hơn x
i
.
2.3.4 Bảng phân phối tần số
Bảng phân phối tần số là bảng thiết lập sự tương quan giữa các giá trị x
i
của biến ngẫu
nhiên X và các tần số của x
i
. Tùy thuộc vào loại tần số ta có:
•
Bảng phân phối tần số
•
Bảng phân phối tần số tương đối (Bảng phân phối thống kê)
•
Bảng phân phối tần số tích lũy.
Thí dụ:
•
Bảng phân phối tần số tương đối của biến ngẫu nhiên rời rạc.
X x
1
x
2
x
3
… x
l
W
i
w
1
w
2
w
3
… w
l
•
Bảng phân phối tần số của biến ngẫu nhiên liên tục.
X
[
ξ
o
,
ξ
1
) [
ξ
1
,
ξ
2
) [
ξ
2
,
ξ
3
)
…
[
ξ
l-1
,
ξ
l
)
f
i
f
1
f
2
f
3
... f
l
2.3.5 Đa giác phân phối và biểu đồ tổ chức
a) Đa giác phân phối
Đối với biến ngẫu nhiên rời rạc, để dễ nhận biết người ta trình bày phân phối thống kê của
biến ngẫu nhiên rời rạc dưới dạng đa giác phân phối. Muốn vậy, ta biểu diễn các điểm
liên tiếp (x
1
,w
1
),(x
2
,w
2
)…(x
l
,w
l
) trên mặt phẳng tọa độ và nối chúng bằng các đoạn thẳng.
Cao Hào Thi 17
x1 x2 xi xl
b) Biểu đồ tổ chức
Là biểu đồ thiết lập sự liên hệ giữa tần số (hay tần số tương đối) và các khoảng chia mà
các giá trị của biến ngẫu nhiên rơi vào đó.
X
[
ξ
o
,
ξ
1
) [
ξ
1
,
ξ
2
)
…
[
ξ
i-1
,
ξ
i
) [
ξ
l-1
,
ξ
l
)
f
i
f
1
f
2
… f
i
f
l
y
i
= f
i
/h
h =
ξ
i
-
ξ
i-1
= Const
S
i
= y
i
* h = f
i
S
i
= f
i
Ghi chú :
Đối với tần số tương đối y
i
= w
i
/h
i
và S
i
= W
i
y y
i
f
i
/h
0
ξ
ξ
i-1
ξ
i
ξ
l-1
ξ
l
X
W
i
X