Tải bản đầy đủ (.pdf) (85 trang)

Bài giảng Lý thuyết thống kê Đoàn Hồng Chương

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (492.53 KB, 85 trang )

BÀI GIẢNG LÝ THUYẾT THỐNG KÊ
Đoàn Hồng Chương
1
1
Bộ môn Toán - TKKT, Đại học Kinh Tế - Luật
Lý t huyết t hống kê
GIỚI THIỆU MÔN HỌC
1. Giới thiệu đề cương
• Thống kê mô tả
• Hướng dẫn sử dụng SPSS
• Ước lượng
• Kiểm định tham số
• Kiểm định phi tham số
2. Kiểm tra đánh giá
• Kiểm tra cuối kì: Trắc nghiệm (20 câu hỏi - 60 phút) - Tỉ lệ 100%
• Đề mẫu sẽ gửi vào tuần học cuối.
3. Thông tin liên lạc
• Email:
• Blog: www.chuongdh.wordpress.com
Trang 1
Lý t huyết t hống kê
Chương 1
CÁC KHÁI NIỆM CƠ BẢN VỀ THỐNG KÊ
1.1 Thống kê là gì?
Định nghĩa 1.1 (STATISTICS). Thống kê là khoa học về việc thu thập, tổ chức,
trình bày, phân tích và diễn giải các dữ liệu nhằm đưa ra những quyết định hiệu
quả.
Về mặt lịch sử, khoa học t hống kê ra đời và phát triển nhờ:
1. Nhu cầu của nhà nước về việc thu thập, xử lý và giải thích các dữ liệu.
2. Sự phát triển của lý thuyết xác suất trong Toán học.
Phân loại:


1. Thống kê mô tả (DESCRIPTION STATISTICS) là phương pháp tổ chức,
tổng hợp và trình bày các dữ liệu dưới dạng thông tin.
2. Thống kê suy diễn (INFERENTIAL STATISTICS) là phương pháp dùng
ước lượng các tính chất của một tổng thể dựa trên mẫu.
Trang 2
Lý t huyết t hống kê
1.2 Tổng t hể và mẫu
Định nghĩa 1.2 (POPULATION). Tổng thể là tập hợp toàn bộ các cá thể hoặc sự
vật được nghiên cứu.
Định nghĩa 1.3 (SAMPLE). Mẫu là một phần của tổng thể. Số lượng các phần
tử được gọi là kích thước mẫu. Kí hiệu: n.
1.3 Các loại dữ liệu
Định nghĩa 1.4 (QUALITATIVE DATA). Dữ liệu định tính là loại dữ liệu chỉ
thể hiện tính chất của đối tượng được nghiên cứu.
Định nghĩa 1.5 (QUANTITATIVE DATA). Dữ liệu định lượng là loại dữ liệu
được thể hiện dưới dạng các con số.
Ví dụ 1.1. Dữ liệu định tính & Dữ liệu định lượng
• Giới tính (Nam, Nữ), xếp loại (Giỏi, Khá, Trung bình ), tỉ lệ khách hàng hài
lòng, xếp hạng (Rating).
• Số tiền trong tài khoản (Balance account), tuổi, khối lượng của một vật, khoảng
cách, nhiệt độ.
Trang 3
Lý t huyết t hống kê
1.4 Cấp bậc dữ liệu
Định nghĩa 1.6 (NOMINAL LEVEL DATA). Dữ liệu định danh là loại dữ liệu
có các đặc tính sau:
• các giá trị được chia thành nhóm hoặc phạm trù.
• giữa các nhóm hoặc phạm trù không có sự phân biệt thứ tự.
Ví dụ 1.2. Lĩnh vực kinh doanh của công ty
1. Kinh doanh 2. Tài chính 3. Vận tải 4. Dịch vụ

Định nghĩa 1.7 (ORDINAL LEVEL DATA). Dữ liệu thứ bậc là loại dữ liệu có
các đặc tính sau:
• các giá trị được chia thành nhóm hoặc phạm trù.
• giữa các nhóm hoặc phạm trù có thể sắp thứ tự và do đó có thể xếp hạng các
nhóm hoặc phạm trù.
Ví dụ 1.3. Student rating of a Prof. Finance
1
.
1
Doughlas A. Lind, William G. Marchal, and Samuel A. Wathen., "Basic Statistics for Business & Economics", McGraw Hill, Singapore, 2008.
Trang 4
Lý t huyết t hống kê
Rating Superior Good Average Poor Inferior
Frequency 6 28 25 12 3
Định nghĩa 1.8 (INTERVAL LEVEL DATA) . Dữ liệu khoảng là loại dữ liệu có
các đặc tính sau:
• các giá trị có thể so sánh và thực hiện được các phép tính số học.
• điểm gốc 0 của loại dữ liệu này chỉ mang tính tương đối.
Ví dụ 1.4. Nhiệt độ, cỡ giày, cỡ quần áo là các dữ liệu khoảng.
Định nghĩa 1.9 (RATIO LEVEL DATA). Dữ liệu tỉ lệ là loại dữ liệu có các đặc
tính sau:
• các giá trị có thể so sánh và thực hiện được các phép tính số học
• điểm gốc 0 và tỉ lệ giữa các giá trị của loại dữ liệu này thực sự có ý nghĩa.
Ví dụ 1.5. Father-son income combinations
2
2
Doughlas A. Lind, William G. Marchal, and Samuel A. Wathen., "Basic Statistics for Business & Economics", McGraw Hill, Singapore, 2008.
Trang 5
Lý t huyết t hống kê
Name Father Son

Lahey $80000 $40000
Nale $90000 $30000
Rho $60000 $120000
Steele $75000 $130000
1.5 Kỹ thuật chọn mẫu
1. Chọn mẫu ngẫu nhiên đơn giản (PROBABILITY SAMPLING): là cách
chọn ngẫu nhiên n phần tử bất kì từ N phần tử của tổng thể.
Các bước tiến hành
• Lập danh sách sắp thứ tự các đơn vị của tổng thể.
• Thực hiện lấy mẫu bằng cách bốc thăm, quay số hoặc sử dụng phần
mềm máy tính chọn ngẫu nhiên.
2. Chọn mẫu ngẫu nhiên hệ thống (SYSTEMATIC SAMPLING): là cách
chọn ngẫu nhiên n phần tử từ N phần từ của tổng thể theo các bước sau
• Lập danh sách và đánh số thứ tự các phần tử của tổng thể.
Trang 6
Lý t huyết t hống kê
• Xác định cỡ mẫu n.
• Xác định khoảng cách chọn mẫu k theo công thức
k =


N
n

, nếu

N
n

< 0, 5;


N
n

+ 1, nếu

N
n

≥ 0, 5.
• Trong k phần tử đầu tiên của tổng thể, chọn ngẫu nhiên 1 phần tử.
Phần tử được chọn tiếp theo cách phần tử đầu tiên k vị trí và cứ thế
tiếp tục chọn đến phần tử cuối cùng của mẫu.
Ví dụ 1.6. Giả sử tổng thể bao gồm N=13, kích thước mẫu n=4. Vì
N
n
= 3, 25
nên k = 3. Khi đó ta chọn mẫu theo tắc:
• Chọn ngẫu nhiên một phần tử trong 3 phần tử đầu tiên.
• Phần tử tiếp theo được chọn cách phần tử đầu tiên 3 vị trí.
Công việc trên được mô tả qua sơ đồ sau (ô vuông màu đen thể hiện phần tử
được chọn của mẫu)
            
Trang 7
Lý t huyết t hống kê
Ví dụ 1.7. Giả sử tổng thể bao gồm N=10, kích thước mẫu n=6. Vì
N
n
= 1, 67
nên k = 2. Khi đó ta chọn mẫu theo tắc:

• Chọn ngẫu nhiên một phần tử trong 2 phần tử đầu tiên.
• Phần tử tiếp theo được chọn cách phần tử đầu tiên 2 vị trí.
Công việc trên được mô tả qua sơ đồ sau (ô vuông màu đen thể hiện phần tử
được chọn của mẫu)
         
Lưu ý. Trong trường hợp này, chúng ta chỉ chọn được mẫu có kích thước n = 5.
3. Lấy mẫu phân tầng (STRATIFIED SAMPLING) được sử dụng khi có sự
khác biệt lớn về tính chất giữa các phần tử của tổng thể. Khi chọn mẫu
phân tầng, chúng ta cần lưu ý 2 vấn đề:
• phân tầng theo đặc điểm gì?
• phân bố số lượng mẫu trong các tầng.
Trang 8
Lý t huyết t hống kê
Chương 2
TÓM TẮT VÀ TRÌNH BÀY DỮ LIỆU
2.1 Bảng phân phối tần số, tần suất, tần số tích lũy và tần suất tích lũy
Định nghĩa 2.1. FREQUENCY-RELATIVE FREQUENCY
• Tần số n
i
là số lần xuất hiện của giá trị quan sát X
i
.
• Tần suất f
i
là tỉ lệ xuất hiện của giá trị quan sát X
i
.
Ví dụ 2.1. Bảng tần số, tần suất về nhiệt độ trung bình của 18 ngày mùa đông
(tính bằng độ
0

F ) tại một vùng:
Nhiệt độ X
i
(
0
F ) Tần số n
i
Tần suất f
i
12 2 11,11%
15 3 16,67%
17 4 22,22%
18 4 22,22%
20 3 16,67%
21 2 11,11%
Trang 9
Lý t huyết t hống kê
Định nghĩa 2.2 (CUMULATIVE FREQUNECY). Tần số tích lũy S
i
được xác
định bởi công thức
S
i
= n
1
+ n
2
+ . . . + n
i
(2.1)

Định nghĩa 2.3 (CUMULATIVE RELATIVE FREQUENCY). Tần suất tích lũy
F
i
được xác định bởi công thức
F
i
= f
1
+ f
2
+ . . . + f
i
(2.2)
Ví dụ 2.2. Bảng tần số tích lũy, tần suất tích lũy của ví dụ (2.1) là
Nhiệt độ X
i
(
0
F ) Tần số n
i
Tần suất f
i
Tần số tích lũy S
i
Tần suất tích lũy F
i
12 2 11,11% 2 11,11%
15 3 16,67% 5 27,78%
17 4 22,22% 9 50,00%
18 4 22,22% 13 72,22%

20 3 16,67% 16 88,89%
21 2 11,11% 18 100,0%
Trang 10
Lý t huyết t hống kê
Ví dụ 2.3. Năng suất lúa (tạ/ha) của 50 hộ dân tại một địa phương được cho như
sau
35 41 32 44 33 41 38 44 43 42
30 35 35 43 48 46 48 49 39 49
46 42 41 51 36 42 44 34 46 34
36 47 42 41 37 47 49 38 41 39
40 44 48 42 46 52 43 41 52 43
Hãy lập bảng phân phối tần số, tần suất, tần số tích lũy, tần suất tích lũy của dữ
liệu trên.
2.2 Biểu đồ cột
Trang 11
Lý t huyết t hống kê
2.3 Histogram
Định nghĩa 2.4. Đồ thị phân phối tần số (Histogram) là một dạng biểu đồ cột
trong đó diện tích của mỗi cột tỉ lệ với tần số của các giá trị X
i
.
Ví dụ 2.4. Cho bảng tần số về nhiệt độ của một vùng như sau:
Nhiệt độ X
i
(
0
F ) 12-15 15-18 18-24 24-27
Tần số n
i
2 5 12 2

Khi đó Histogram của dữ liệu này là
Trang 12
Lý t huyết t hống kê
2.4 Biểu đồ hình tròn
2.5 Biểu đồ thân và lá
Biểu đồ thân và lá là công cụ hữu hiệu để tóm tắt và trình bày dữ liệu mà
vẫn giúp người xem thấy được cách thức phân tán dữ liệu gốc một cách chi
tiết.
Qui tắc lập biểu đồ này là dữ liệu định lượng dưới dạng những con số sẽ
được tách thành 2 phần: thân và lá. Các chữ số bên phải của dữ liệu đóng
vai trò là lá; các chữ số bên trái đóng vai trò là thân.
Trang 13
Lý t huyết t hống kê
Ví dụ 2.5. Xét dữ liệu về độ tuổi của một nhóm nhân viên trong công ty A như
sau
28 23 30 24 19 21 39 22 22
Biểu đồ thân và lá của dữ liệu trên là
1 9
2 12 23 48
3 09
2.6 Phân tổ/nhóm dữ liệu
Định nghĩa 2.5. Công thức phân tổ dữ liệu
• Cho một mẫu có kích thước là n. Số tổ/nhóm dữ liệu được xác định bởi công
thức sau:
k 
3

2n. (2.3)
• Độ rộng mỗi tổ
h 

X
max
− X
min
k
. (2.4)
Trang 14
Lý t huyết t hống kê
Nhận xét 2.1. Các điều kiện phân tổ
• Các tổ phải rời nhau.
• Các tổ được phân chia phải đầy đủ (nghĩa là phủ hết toàn bộ các giá trị của dữ
liệu).
• Không được có tổ là tập rỗng.
Ví dụ 2.6. Hãy thực hiện phân tổ cho ví dụ (2.3) và lập bảng tần số tương ứng.
Đáp số.

3

100 = 4, 64 nên số tổ k = 5.
Độ rộng mỗi tổ: h =
X
max
− X
min
k
= 4, 4  5
Năng suất lúa (tấn/ha) Tần số
≤35 8
35-40 8
40-45 19

45-50 12
50-55 3
Trang 15
Lý t huyết t hống kê
Chương 3
THỐNG KÊ MÔ TẢ
3.1 Số trung bình
Định nghĩa 3.1 (Trung bình tổng thể). Giả sử tổng thể Ω có N phần tử. Khi đó
giá trị
µ =
N

i=1
X
i
N
, (3.1)
được gọi là trung bình tổng thể.
Định nghĩa 3.2 (Trung bình mẫu). Giả sử mẫu có kích thước là n. Khi đó giá
trị
X =
n

i=1
x
i
n
, (3.2)
được gọi là trung bình mẫu.
Ví dụ 3.1. Tính giá trị trung bình của mẫu số liệu được cho như sau

Trang 16
Lý t huyết t hống kê
Tuổi 19 23 25 30 45
Tần số 2 4 5 3 2
Giải.
X =
19.2 + 23.4 + 25.5 + 30.3 + 45.2
2 + 4 + 5 + 3 + 2
= 27, 1875
Ví dụ 3.2. Tính giá trị trung bình của mẫu số liệu được cho như sau
Năng suất lúa (tấn/ha) 30-35 35-40 40-45 45-50 50-55
Tần số 8 8 19 12 3
Giải.
Trước tiên chúng ta tính các giá trị đại diện của mỗi nhóm t heo công thức
a
i
=
x
α
+ x
β
2
. (3.3)
Khi đó ta có bảng tần số
Năng suất lúa (tấn/ha) 32,5 37,5 42,5 47,5 52,5
Tần số 8 8 19 12 3
Trang 17
Lý t huyết t hống kê
Khi đó giá trị trung bình mẫu
X =

32, 5.8 + 37, 5.8 + 42, 5.19 + 47, 5.12 + 52, 5.3
8 + 8 + 19 + 12 + 3
= 41, 9.
3.2 Số yếu vị - Mode
Định nghĩa 3.3 (Trường hợp dữ liệu nhận giá trị rời rạc). Mode là giá trị
xuất hiện nhiều lần nhất trong dãy số liệu. Kí hiệu là ModX hoặc X
0
.
Ví dụ 3.3. Cho bảng số liệu
Số nhân khẩu x
i
1 2 3 4 5 6 ≥ 7
Số gia đình n
i
10 30 75 45 20 15 5
Khi đó ModX = 3.
Định nghĩa 3.4 (Trường hợp dữ liệu dạng phân tổ đều nhau). Giá trị của
ModX được xác định gần đúng theo công thức
ModX = L + h.
f
Mo
− f
Mo−1
(f
Mo
− f
Mo−1
) + (f
Mo
− f

Mo+1
)
, (3.4)
Trang 18
Lý t huyết t hống kê
trong đó
L là giới hạn dưới của nhóm chứa Mode,
h là khoảng cách của nhóm chứa Mode,
f
Mo
là tần số của nhóm chứa Mode,
f
Mo−1
, f
Mo+1
là tần số của nhóm đứng trước và đứng sau nhóm chứa Mode.
Ví dụ 3.4. Cho bảng số liệu về nhiệt độ trung bình trong ngày ở một vùng trong
60 ngày.
Nhiệt độ x
i
(
0
C) 15-18 18-21 21-24 24-27 27-30 30-33 ≥ 33
Tần số n
i
5 7 8 10 14 11 5
Khi đó nhóm chứa Mode là nhóm có nhiệt độ trung bình trong khoảng 27 −30
0
C.
Giá trị gần đúng của

ModX = 27 + 3.
14 −10
(14 −10) + (14 − 11)
=
201
7
 28, 71.
Điều này có nghĩa là đa số các ngày, nhiệt độ trung bình là 28,71
0
C.
3.3 Số trung vị - Median
Trang 19
Lý t huyết t hống kê
Định nghĩa 3.5. Giả sử mẫu gồm n giá trị rời rạc, được sắp xếp theo thứ tự tăng
dần (hoặc giảm dần).
• Nếu n là số lẻ thì trung vị, kí hiệu MedX, là giá trị ở vị trí thứ
n + 1
2
.
• Nếu n là số chẵn thì trung vị là trung bình cộng của giá trị ở vị trí
n
2

n
2
+ 1.
Ví dụ 3.5. Cho bảng số liệu
6 12 21 22 24 35 41.
Khi đó MedX = 22.
Ví dụ 3.6. Cho bảng số liệu

10 11 13 15 16 18 30 45.
Khi đó MedX =
15 + 16
2
= 15, 5.
Định nghĩa 3.6. Giả sử mẫu số liệu gồm n phần tử được cho dưới dạng phân tổ
đều nhau. Khi đó trung vị MedX được xác định gần đúng như sau
1. Tính tần số tích lũy.
Trang 20
Lý t huyết t hống kê
2. Xác định nhóm chứa trung vị Med, là nhóm có tần số tích lũy ≥
n + 1
2
.
3. Áp dụng công thức
MedX = L + h.
n
2
− S
Me−1
f
Me
, trong đó (3.5)
L là giới hạn dưới của nhóm chứa Med,
h là khoảng cách của nhóm chứa Med,
S
Me−1
là tần số tích lũy của nhóm đứng trước nhóm chứa Med,
f
Me

là tần số của nhóm chứa Med.
Ví dụ 3.7. Cho bảng số liệu sau
Trọng lượng (gram) 484-490 490-496 496-502 502-508 508-514
Tần số n
i
5 10 15 13 7
Tần số tích lũy S
i
5 15 30 43 50
Khi đó nhóm chứa Med là nhóm có trọng lượng nằm trong khoảng 496−502 gram.
Trang 21
Lý t huyết t hống kê
Áp dụng công thức (3.5), ta có
MedX = 496 + 6.
50
2
− 15
15
= 500.
Điều này có nghĩa là sẽ có khoảng 50% giá trị của dãy dữ liệu nhỏ hơn MedX.
3.4 Phân vị
Định nghĩa 3.7 (Tứ phân vị). Giả sử dãy dữ liệu có n phần tử.
• Q
1
được gọi là tứ phân vị thứ nhất và là giá trị ở vị trí thứ
n + 1
4
.
• Q
2

được gọi là tứ phân vị thứ hai và chính là trung vị.
• Q
3
được gọi là tứ phân vị thứ ba và là giá trị ở vị trí thứ
3(n + 1)
4
.
Ví dụ 3.8. Tìm tứ phân vị của dữ liệu sau
6 12 21 22 24 35 41.
10 11 13 15 16 18 30 45.
Định nghĩa 3.8. Nếu dữ liệu được cho dưới dạng phân tổ đều nhau thì
Trang 22
Lý t huyết t hống kê
• Tứ phân vị thứ nhất
Q
1
= L + h.
n
4
− S
Q
1
−1
f
Q
1
, trong đó (3.6)
L là giới hạn dưới của nhóm chứa Q
1
,

h là khoảng cách của nhóm chứa Q
1
,
S
Q
1
−1
là tần số tích lũy của nhóm đứng trước nhóm chứa Q
1
,
f
Q
1
là tần số của nhóm chứa Q
1
.
• Tứ phân vị thứ ba
Q
3
= L + h.
3n
4
− S
Q
3
−1
f
Q
3
, trong đó (3.7)

L là giới hạn dưới của nhóm chứa Q
3
,
h là khoảng cách của nhóm chứa Q
3
,
S
Q
3
−1
là tần số tích lũy của nhóm đứng trước nhóm chứa Q
3
,
f
Q
3
là tần số của nhóm chứa Q
3
.
Trang 23
Lý t huyết t hống kê
Ví dụ 3.9. Tìm các tứ phân vị của dữ liệu
Trọng lượng (gram) 484-490 490-496 496-502 502-508 508-514
Tần số n
i
5 10 15 13 7
Tần số tích lũy S
i
5 15 30 43 50
3.5 Khoảng biến thiên - Range

Định nghĩa 3.9. Khoảng biến thiên là sai biệt giữa giá trị lớn nhất và giá trị nhỏ
nhất của các dữ liệu.
R := X
max
− X
min
. (3.8)
3.6 Độ trải giữa
Định nghĩa 3.10. Độ trải giữa là sai biệt giữa tứ phân vị thứ ba Q
3
và thứ nhất
Q
1
của dãy dữ liệu.
R
1
:= Q
3
− Q
1
. (3.9)
Ví dụ 3.10. Tìm độ trải giữa của dữ liệu trong ví dụ (3.9)
3.7 Phương sai & Độ lệch chuẩn
Trang 24

×