PHẦN 2
THỐNG KÊ
Thống kê là khoa học về các phương pháp thu thập, tổ chức, trình
bày, phân tích và xử lý số liệu.
1
Ví dụ
1. Tỷ lệ sinh viên đại học cảm thấy thiếu ngủ?
2. Xác suất để chọn ngẫu nhiên được một sinh viên tại FTU ngủ nhiều hơn 7 tiếng mỗi ngày?
3. Phụ nữ có xu hướng khóc nhiều hơn đàn ông?
4. Số thẻ tín dụng của sinh viên lớp này là thông thường là bao nhiêu?
2
Ví dụ mở đầu
•
•
•
•
Trung bình xe của bạn đi được bao nhiêu km trên 1 lít xăng?
Sinh viên A:
Khoảng 40km. Ta có ước lượng điểm
Từ 35 - 45 km. Ta có ước lượng khoảng
3
Tổng thể và Mẫu
Tổng thể (population)
Mẫu (Sample)
Tham số (parameter)
Thống kê (statistic)
4
Bài tập
Hãy mô tả tổng thể và mẫu tương ứng với các câu hỏi khảo sát sau:
•
•
•
•
Tỷ lệ sinh viên đại học cảm thấy thiếu ngủ?
Xác suất để chọn ngẫu nhiên được một sinh viên tại FTU ngủ nhiều hơn 7 tiếng mỗi ngày?
Phụ nữ có xu hướng khóc nhiều hơn đàn ông?
Số thẻ ATM của sinh viên lớp này là thông thường là bao nhiêu?
5
Tổng thể và Mẫu
Ta khơng nghiên cứu được tồn bộ các phần tử của tổng thể vì:
-
6
Chọn mẫu ngẫu nhiên
Mẫu ngẫu nhiên (random sample)
-
Mỗi phần tử chọn ngẫu nhiên và độc lập
-
Mỗi phần tử có khả năng được chọn như nhau
-
Mọi mẫu cỡ n có cùng khả năng được chọn
Phương pháp chọn mẫu đơn giản
-
Đánh số
-
Chọn ngẫu nhiên, lần lượt, hoàn lại
7
Thống kê mô tả & suy luận
TK mô tả (descriptive statistics) : thu thập, tổng hợp, xử lý dữ liệu để biến đổi dữ liệu thành
thông tin
-
Thu thập dữ liệu: khảo sát, đo đạc …
-
Biểu diễn dữ liệu: dùng bảng, đồ thị …
-
Tổng hợp dữ liệu: trung bình mẫu, phương sai mẫu, trung vị …
8
Thống kê mô tả & suy luận
Suy luận: rút ra các kết luận hoặc đưa ra các quyết định về tổng thể dựa trên các nghiên cứu
trên mẫu.
TK suy luận (inferential statistics): xử lý các thơng tin có được từ thống kê mơ tả, từ đó đưa ra
các cơ sở để dự đoán, dự báo, ước lượng…
-
Ước lượng:…
-
Kiểm định giả thuyết:…
9
Thống kê mô tả
Bảng biểu
Phân phối tần số
Đồ thị
Số đặc trưng
10
Mơ tả dữ liệu bằng đồ thị
•
•
•
•
Bảng
Đồ thị
Tùy thuộc vào loại biến quan sát
Hay dùng: biểu đồ đường, tần số, nhánh và lá, phân tán…
11
Đồ thị
12
Ví dụ
•
•
Vẽ đồ thị:
Mục tiêu của phân phối tần số:
–
–
–
Tạo ra phân phối không quá lởm chởm, nhiều đỉnh và khơng có dạng khối
Chỉ ra sự biến thiên trong dữ liệu
Là một quá trình “thử - sai”
13
Hình dạng phân phối
•
Đối xứng
14
Hình dạng phân phối
•
Bất đối xứng
15
Đồ thị Stem and Leaf
•
•
Sắp xếp số liệu tăng dần
Gồm 2 phần:
–
–
Stem: gồm các chữ số đầu
Leaf: gồm các chữ số đuôi
16
Đồ thị Stem and Leaf
•
Ví dụ 1:
21, 24, 24, 26, 27, 27,30,32,38, 41
Stem
Leaves
2
144677
3
028
4
1
17
Đồ thị Stem and Leaf
•
Ví dụ 2:
613, 632, 658, 717, 722,
Stem
Leaves
750, 776,827,841,859,
863,891,894,906,928,
933,955,982,1034,1047,
1056,1140,1169,1224
6
136
7
2258
8
346699
9
13368
10
356
11
47
12
2
18
Ví dụ
•
Vẽ đồ thị Stem-leaf cho tập dữ liệu sau
19
Đồ thị phân tán (tham khảo)
•
•
Scatter plot
Được sử dụng để xác định mối liên hệ giữa hai biến X, Y
20
Mơ tả dữ liệu số
•
•
Độ đo trung tâm:
–
–
–
Trung bình
Trung vị
Mode
Sự biến thiên
–
–
–
–
–
Miền giá trị
Miền phân vị
Phương sai
Độ lệch tiêu chuẩn
Hệ số biến thiên
21
Độ đo trung tâm
22
Trung bình
•
Trung bình tổng thể:
N
∑x
•
Trung bình mẫu:
x1 + x2 + ... + xN
à=
=
= E( X )
N
N
i =1
i
n
ã
X=
X
i
X + X 2 + ... + X N
=
n
Trung bình bị ảnh hưởng bởi các giá trị
i =ngoại
1 lai (outliers) 1
n
23
Trung vị
•
•
•
Là giá trị chính giữa của tập dữ liệu khi sắp tăng dần.
•
Nếu i chẵn
•
Nếu i lẻ
Khơng bị ảnh hưởng bởi các giá trị outliers
Gọi i là vị trí trung vị
n +1
i=
2
median = X i
median =
X [ i] + X [ i] +1
2
24
Mode
•
•
•
•
•
Đo xu hướng trung tâm của dữ liệu
Khơng bị ảnh hưởng bởi outliers
Là giá trị thường xảy ra nhất
Dùng cho cả biến định tính và định lượng
Có thể có nhiều mode hoặc khơng có mode
25