Tải bản đầy đủ (.pdf) (26 trang)

Chuong 3 thong ke mo ta cac dai luong so

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (484 KB, 26 trang )

Chương 3

THỐNG KÊ MÔ TẢ:
CÁC ĐẠI LƯỢNG SỐ
1


1. CÁC ĐẠI LƯỢNG ĐO LƯỜNG VỊ TRÍ

2


Trung bình
o Trung bình:


Là đại lượng đo lường vị trí trung tâm của dữ liệu.



Được xem là đại lượng quan trọng nhất để đo lường vị trí.

o Phương pháp tính trung bình:


Trung bình mẫu:

𝑥ҧ =




Trung bình tổng thể:

𝜇=

𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛 σ 𝑥𝑖
=
𝑛
𝑛
𝑥1 + 𝑥2 + 𝑥3 + ⋯ + 𝑥𝑛 σ 𝑥𝑖
=
N
N

Trong đó:
• 𝑥ҧ : trung bình mẫu


𝜇: trung bình tổng thể



n: quy mơ mẫu



N: quy mơ tổng thể



𝑥𝑖 : giá trị của biến x cho quan sát thứ i

3


Trung bình (tt)
o Phương pháp tính trung bình có trọng số:

▪ Trung bình mẫu có trọng số:

▪ Trung bình tổng thể có trọng số:

𝑥ҧ =

𝑥1 𝑤1 + 𝑥2 𝑤2 + 𝑥3 𝑤3 + ⋯ + 𝑥𝑛 𝑤𝑛 σ 𝑥𝑖 𝑤𝑖
=
σ 𝑤𝑖
𝑤1 + 𝑤2 + 𝑤3 + ⋯ + 𝑤𝑛

𝑥1 𝑤1 + 𝑥2 𝑤2 + 𝑥3 𝑤3 + ⋯ + 𝑥𝑛 𝑤𝑛 σ 𝑥𝑖 𝑤𝑖
𝜇=
=
σ 𝑤𝑖
𝑤1 + 𝑤2 + 𝑤3 + ⋯ + 𝑤𝑛

Trong đó:
• 𝑤𝑖 : trọng số cho quan sát thứ i
4


Trung bình (tt)
o Phương pháp tính trung bình dữ liệu đã phân nhóm:


▪ Trung bình mẫu cho dữ liệu nhóm:

▪ Trung bình tổng thể cho dữ liệu nhóm:

𝑀1 𝑓1 + 𝑀2 𝑓2 + 𝑀3 𝑓3 + ⋯ + 𝑀𝑛 𝑓𝑛 σ 𝑀𝑖 𝑓𝑖
𝑥ҧ =
=
𝑛
𝑛

𝑀1 𝑓1 + 𝑀2 𝑓2 + 𝑀3 𝑓3 + ⋯ + 𝑀𝑛 𝑓𝑛 σ 𝑀𝑖 𝑓𝑖
𝜇=
=
𝑁
N

Trong đó:
• 𝑀𝑖 : trị số giữa của nhóm i
• 𝑓𝑖 : tần số của nhóm i
5


o Ví dụ:

Bảng 3.3: Phân phối tần số thời gian kiểm toán
Thời gian kiểm toán (ngày)

Tần số


10-14

4

15-19

8

20-24

5

25-29

2

30-34

1

Tổng

20

Thời gian kiểm toán trung bình:
σ 𝑀𝑖 𝑓𝑖 12 × 4 + 17 × 8 + 22 × 5 + 27 × 2 + 32 × 1
𝑥ҧ =
=
= 19 (𝑛𝑔à𝑦)
n

20
6


Trung vị (𝐌𝐞 )
o Trung vị:
▪ Là giá trị đứng ở vị trí giữa khi các dữ liệu được sắp xếp theo thứ tự tăng dần.

o Phương pháp xác định trung vị:
▪ Đối với một số lẻ của các quan sát, trung vị là giá trị đứng ở chính giữa.
▪ Đối với một số chẵn của các quan sát, trung vị là trung bình của hai giá trị đứng ở chính giữa.

Ví dụ: Xác định trung vị
▪ Cho số liệu về quy mô sinh viên của 5 lớp học : 50

47

52

60

58

▪ Cho số liệu về quy mô sinh viên của 6 lớp học : 50

47

52

60


58

65
7


Mode (𝐌𝟎 )
o Mode:

▪ Là giá trị có tần số xuất hiện lớn nhất.

o Ví dụ:
▪ Cho số liệu về quy mô sinh viên của 7 lớp học : 50

47

52

60

58

60

55

8



Phân vị
o Phân vị:
▪ Phân vị cung cấp thông tin về phân phối của dữ liệu trên khoảng từ giá trị nhỏ nhất đến
giá trị lớn nhất.

o Phân vị thứ p:
▪ Là giá trị mà có ít nhất p% số quan sát có giá trị nhỏ hơn hoặc bằng giá trị phân vị mức
p và có ít nhất (100-p)% số quan sát có giá trị lớn hơn hoặc bằng giá trị phân vị mức p.
▪ Ví du: một sinh viên được 8 điểm môn Thống kê kinh doanh 1, nếu điểm 8 của sinh
viên tương ứng với phân vị thứ 60 thì có nghĩa là sẽ có khoảng 60% số sinh viên có

điểm thấp hơn hoặc bằng 8 và có khoảng 40% số sinh viên có điểm cao hơn hoặc bằng 8.
9


o Phương pháp xác định phân vị thứ p:
▪ Bước 1: Sắp xếp dữ liệu theo thứ tự tăng dần.
▪ Bước 2: Tính chỉ số i:

𝑝
𝑖=
𝑛
100

Trong đó:

• p: là phân vị cần tính
• n: số quan sát
▪ Bước 3:
✓ Nếu i khơng phải là số ngun thì phải làm trịn lên, số nguyên đứng ngay sau i là phân

vị thứ p.

✓ Nếu i là số nguyên thì phân vị thứ p là trung bình của giá trị đứng thứ i và i+1.

10


Tứ phân vị
o Tứ phân vị:

▪ Tứ phân vị chia dữ liệu thành 4 phần, mỗi phần có ¼ hoặc 25% số quan sát.

25%

25%

25%

25%

𝐐𝟏

𝐐𝟐

𝐐𝟑

Tứ phân vị thứ 1
(Phân vị thứ 25)

Tứ phân vị thứ 2

(Phân vị thứ 50)

Tứ phân vị thứ 3
(Phân vị thứ 75)

o Phương pháp xác định tứ phân vị::
▪ Tứ phân vị thứ 2 𝐐𝟐 chính là trung vị.
▪ Tứ phân vị thứ 1 𝐐𝟏 và tứ phân vị thứ 3 𝐐𝟑 được xác định giống như phương pháp xác định
phân vị thứ p.
11


Mối quan hệ giữa Trung bình, Trung vị, Mode và hình dáng phân phối
o Đại lượng đo lường hình dáng của một phân phối được gọi là Hệ số bất đối xứng (Skewness)
o Cơng thức tính Skewness cho dữ liệu mẫu:

Skewness=

𝑥ҧ 𝑀𝑒 𝑀0

Phân phối lệch trái
𝐱ത< 𝐌𝐞 <𝐌𝟎

𝑛
𝑥𝑖 −𝑥ҧ 3
σ
(𝑛−1)(𝑛−2)
s

𝑥ҧ

𝑀𝑒
𝑀0
Phân phối đối xứng
𝐱ത = 𝐌𝐞 = 𝐌𝟎

𝑀0 𝑀𝑒

𝑥ҧ

Phân phối lệch phải
𝐌𝟎 < 𝐌𝐞 < 𝐱ത

12


2. CÁC ĐẠI LƯỢNG ĐO LƯỜNG
ĐỘ PHÂN TÁN

13


Khoảng biến thiên (R)
o Khoảng biến thiên:
▪ Là chênh lệch giữa giá trị nhỏ nhất và giá trị lớn nhất.

𝐑 = 𝒙𝒎𝒂𝒙 − 𝒙𝒎𝒊𝒏
Trong đó:
• R: khoảng biến thiên
• 𝑥𝑚𝑎𝑥 : giá trị lớn nhất
• 𝑥𝑚𝑖𝑛 : giá trị nhỏ nhất

▪ Khoảng biến thiên càng lớn thì dữ liệu biến thiên càng nhiều (và ngược lại).
▪ Tính tốn chỉ dựa vào hai giá trị lớn nhất và nhỏ nhất, bỏ qua các giá trị quan sát khác,
cho nên bị ảnh hưởng nhiều bởi các giá trị đột biến.
14


Độ trải giữa (IQR)
o Độ trải giữa:
▪ Là chênh lệch giữa tứ phân vị thứ 3 và tứ phân vị thứ 1 (là khoảng biến thiên của 50% dữ
liệu ở giữa dãy số).

𝐈𝐐𝐑 = 𝐐𝟑 − 𝐐𝟏
Trong đó:
• IQR: độ trải giữa
• Q 3 : tứ phân vị thứ 3 (phân vị thứ 75)
• Q1 : tứ phân vị thứ 1 (phân vị thứ 25)
▪ Độ trải giữa càng lớn thì dữ liệu biến thiên càng nhiều (và ngược lại).
▪ Khi tính tốn sẽ khắc phục được sự phụ thuộc vào các giá trị đột biến.
15


Phương sai
o Phương sai:


Là trung bình của tổng bình phương các độ lệch giữa các giá trị của mỗi quan sát 𝑥𝑖 và trung bình các giá trị
của quan sát.




Phương pháp tính:


Phương sai tổng thể: 𝜎 2

=

σ(𝑥𝑖 −𝜇)2

𝑁
σ(𝑥𝑖 −𝑥)ҧ 2
2
• Phương sai mẫu:
𝑠 =
𝑛−1
▪ Phương sai càng lớn thì dữ liệu biến thiên càng nhiều (và ngược lại).

▪ Khi tính toán đã dựa trên tất cả các giá trị dữ liệu, tuy nhiên đơn vị sẽ bị bình phương và không phù hợp với
thực tế.

o Phương sai cho dữ liệu phân nhóm:


Phương pháp tính:


Phương sai tổng thể: 𝜎 2




Phương sai mẫu:

=

𝑠2 =

σ(𝑀𝑖 −𝜇)2 𝑓𝑖

𝑁
σ(𝑀𝑖 −𝑥)ҧ 2 𝑓𝑖
𝑛−1
16


Độ lệch chuẩn
o Độ lệch chuẩn:


Là căn bậc 2 của phương sai.



Phương pháp tính:




Độ lệch chuẩn tổng thể:

Độ lệch chuẩn mẫu:


𝜎=

𝜎2

𝑠=

𝑠2

σ(𝑥𝑖 −𝜇)2

=

𝑁
σ(𝑥𝑖 −𝑥)ҧ 2

=

𝑛−1

▪ Độ lệch chuẩn càng lớn thì dữ liệu biến thiên càng nhiều (và ngược lại).

o Độ lệch chuẩn cho dữ liệu phân nhóm:


Phương pháp tính:





Độ lệch chuẩn tổng thể:

Độ lệch chuẩn mẫu:

𝜎=

𝜎2

𝑠=

𝑠2

=
=

σ(𝑀𝑖 −𝜇)2 𝑓𝑖
𝑁
σ(𝑀𝑖 −𝑥)ҧ 2 𝑓𝑖
𝑛−1
17


Hệ số biến thiên (V)
o Hệ số biến thiên:
▪ Là tỷ số giữa độ lệch chuẩn và trung bình.
▪ Phương pháp tính:

• Hệ số biến thiên tổng thể:

• Hệ số biến thiên mẫu:


𝝈
𝝁

𝐕 = × 𝟏𝟎𝟎
𝒔

𝒙

𝐕 = × 𝟏𝟎𝟎

(đơn vị %)

(đơn vị %)

▪ Hệ số biến thiên càng lớn thì dữ liệu biến thiên càng nhiều (và ngược lại).

▪ Hệ số biến thiên rất hữu ích trong việc so sánh độ phân tán của các biến có độ lệch chuẩn khác
nhau và trung bình khác nhau.
18


o Ví dụ: Dữ liệu về mức lương khởi điểm (nghìn đồng) của một mẫu gồm 12 người trong 1 doanh nghiệp
như sau:
3300

3500

3650


3800

4000 4340

4500

4650

4700

4850

4980

5120

Tính các đại lượng đo lường độ phân tán?

19


3. PHÂN TÍCH DỮ LIỆU THĂM DỊ

20



×