Tải bản đầy đủ (.pdf) (26 trang)

Bài giảng Thống kê ứng dụng trong kinh doanh: Chương 4 (ThS. Nguyễn Tiến Dũng)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (895.1 KB, 26 trang )

CHƯƠNG 4
TÓM TẮT VÀ TRÌNH BÀY DỮ LIỆU
BẰNG ĐẠI LƯỢNG SỐ
ThS. Nguyễn Tiến Dũng
Bộ môn Quản trị Kinh doanh, Viện Kinh tế và Quản lý
Email:


MỤC TIÊU CỦA CHƯƠNG
● Sau khi kết thúc chương này, người học có thể:
● Kể tên và biết cách tính các đại lượng đặc trưng cho độ tập








trung: trung bình, trung vị, mốt, tứ phân vị, phân vị
Nói tên và biết cách tính các đại lượng đặc trưng cho độ
phân tán của tập DL: khoảng biến thiên, độ trải giữa,
phương sai và độ lệch chuẩn
Nắm được ý nghĩa của hệ số biến thiên
Phát biểu được quy tắc thực nghiệm và quy tắc Chebysev
về quy luật phân phối của tập DL
Biết cách vẽ và khám phá đặc điểm của tập DL qua biểu đồ
hộp và râu
Phân biệt được các tham số tổng thể và tham số mẫu

© Nguyễn Tiến Dũng



Thống kê ứng dụng

2


CÁC NỘI DUNG CHÍNH

4.1 Các đại lượng đo lường độ tập trung và
phương pháp mô tả hình dáng tập DL
4.2 Các đại lượng đo lường độ phân tán
4.3 Các đại lượng TK mô tả cho bảng tần số
4.4 Các đại lượng TK mô tả cho tổng thể
4.5 Khám phá DL qua biểu đồ hộp và râu (box
plot)
4.6 Sử dụng kết hợp TB và độ lệch chuẩn
4.7 Phân biệt một số cặp khái niệm
© Nguyễn Tiến Dũng

Thống kê ứng dụng

3


4.1 CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ TẬP TRUNG VÀ
PHƯƠNG PHÁP MÔ TẢ HÌNH DÁNG TẬP DỮ LIỆU
● 4.1.1 Các ĐL đo lường độ tập trung phổ biến
● 4.1.2 Sử dụng Excel để tính các ĐL TK mô tả

độ tập trung

● 4.1.3 Nhóm các ĐL khác mô tả sự phân bố
của tập DL
● 4.1.4 Hình dáng của phân phối

© Nguyễn Tiến Dũng

Thống kê ứng dụng

4


4.1.1 Các ĐL đo lường độ tập trung phổ biến
● 4.1.1.1 Trung bình cộng (arithmetic mean)
● 4.1.1.2 Trung vị (Median)
● 4.1.1.3 Mốt (Mode)
● 4.1.1.4 Trung bình nhân (geometric mean)

© Nguyễn Tiến Dũng

Thống kê ứng dụng

5


4.1.1.1 Trung bình cộng
● TB cộng đơn giản
● TD:
● Điểm của 3 HP gần đây (mỗi HP 3 tín
chỉ) là x1 = 6; x2 = 7; và x3= 9.
● Điểm TB của 3 HP nói trên


1 n
x   xi
n i 1

6  7  9 22
x

 7,333
3
3

© Nguyễn Tiến Dũng

Thống kê ứng dụng

6


Trung bình cộng (tiếp)
● Trung bình cộng có trọng số
● TD: Điểm của 3 HP của 1 SV là

như sau:
Học phần

Số tín chỉ

Điểm HP


Thống kê

3

6

Anh văn

2

7

Marketing

4

9

n

x

wx

i i

i 1
n

w


i

i 1

3  6  2  7  4  9 68
x
  7,556
3 2  4
9
© Nguyễn Tiến Dũng

Thống kê ứng dụng

7


4.1.1.2 Trung vị (Median)
● Giá trị của quan sát đứng giữa dãy

DL đã sắp xếp
● Thông thường: sắp xếp từ nhỏ tới lớn

(theo thứ tự tăng dần)
● x 1 x 2 … xn
● Me = x(n+1)/2
● n = 2k +1  Me = xk+1
● n = 2k  Me = 0,5.(xk + xk+1)

i


xi

1

10

2

2

3

4

4

7

5

5

6

2

● TD:

© Nguyễn Tiến Dũng


Thống kê ứng dụng

8


4.1.1.3 Mốt (Mode)
● Giá trị của quan sát có tần số lớn nhất
● TD
● 1 1 2 3 3 4 4 4 5 5 6 6  Mo = 4
● 1 1 2 3 4 4 4 5 5 6 6 6  Mo = 4; 6
● 1 1 2 2 3 3 4 4 5 5 6 6  Không có mode

● Số lượng mode của một tập DL: 1, nhiều

hoặc 0.

© Nguyễn Tiến Dũng

Thống kê ứng dụng

9


4.1.1.4 Trung bình nhân

x

n


x1 x2 ...xn 1 xn

● Ứng dụng: tính tốc độ phát triển bình quân
● TD: Doanh thu của một DN
t

0
(2011)

1
(2012)

2
(2013)

3
(2014)

Dt

100

110

140

145

xt


-

1,100

1,273

1,036

x

3

© Nguyễn Tiến Dũng

x1 x2 x3  3 1,100  1, 273  1, 036  1,132
Thống kê ứng dụng

10


4.1.2 Sử dụng Excel để tính các đại lượng TK mô tả độ
tập trung
Mean
Standard Error

26,933
0,927

Median


27

Mode

21

Standard Deviation

5,078

Sample Variance

25,789

Kurtosis

-0,127

Skewness

20

Minimum

19

Maximum

39


Count

Confidence Level(95,0%)
© Nguyễn Tiến Dũng

trong Excel:
● Data Analysis 
Descriptive Statistics
● Dùng MegaStat

0,533

Range

Sum

● Dùng hàm trực tiếp

808
30

1,896
Thống kê ứng dụng

11


Độ lệch (Skewness) và Độ nhọn (Kurtosis) của phân
phối


© Nguyễn Tiến Dũng

Lệch trái

Đối xứng

Lệch phải

Xẹp

Chuẩn

Nhọn

Applied Statistics for Business

12


4.1.3 Nhóm các đại lượng khác mô tả sự phân bố của
tập dữ liệu

● 4.1.3.1 Tứ phân vị (quartiles)
● Dãy DL đã sắp xếp tăng dần: x1 < x2 < … < xn

© Nguyễn Tiến Dũng

Thống kê ứng dụng

13



Tính các tứ phân vị: BT tại lớp
● Theo SGK
● Q1 = xq1
● Q2 = xq2
● Q3 = xq3

q1 = (n+1)/4
q2 = (n+1)/2
q3 = 3.(n+1)/4

● Theo GV và Excel
● Q1 = xq1
● Q2 = xq2
● Q3 = xq3
© Nguyễn Tiến Dũng

q1 = (n+3)/4
q2 = (n+1)/2
q3 = (3n+1)/4
Thống kê ứng dụng

i

xi

1

2


2

2

3

4

4

5

5

7

6

10

14


4.1.3.2 Phân vị / Bách phân vị (percentiles)
● Dãy DL đã sắp xếp tăng dần: x1 ≤ x2 ≤ … ≤ xn
● Phân vị thứ K (PK): giá trị của quan sát thứ k, mà chia dãy DL làm

2 phần, trong đó có K% quan sát đứng phía dưới của phân vị này
● PK = xk

 K 
● Theo SGK:
● Theo GV và Excel:
● Thí dụ: Tính
● Phân vị thứ 25: P25 = Q1 = ?
● Phân vị thứ 50: P50 = Q2 = ?

k 
  ( n  1)
 100 

 K 
k 
  ( n  1)  1
 100 

● Phân vị thứ 75: P75 = Q3 = ?
● Phân vị thứ 60: P60 = ?
© Nguyễn Tiến Dũng

Thống kê ứng dụng

15


4.2 CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ PHÂN TÁN
● 4.2.1 Khoảng biến thiên (Range): R = xmax - xmin
● 4.2.2 Độ trải giữa (InterQuartile Range) IQR = Q3 –

Q1

● 4.2.3 Phương sai và độ lệch chuẩn của mẫu
n

s2 

2
(
x

x
)
 i
i 1

© Nguyễn Tiến Dũng

n 1

n

s  s2 

Thống kê ứng dụng

2
(
x

x
)

 i
i 1

n 1

16


4.3 CÁC ĐẠI LƯỢNG TK MÔ TẢ CHO BẢNG TẦN SỐ
(DỮ LIỆU ĐÃ PHÂN TỔ)
● 4.3.1 Trung bình cộng
● 4.3.2 Trung vị
● 4.3.3 Mốt

● 4.3.4 Phương sai và độ lệch chuẩn
● Tính tương tự công thức lý thuyết đối với DL không

phân tổ
● Lưu ý về tần số và giá trị đại diện của mỗi tổ
● TD: Quay lại TD về tính tuổi của 30 SV -> tính GTTB
theo 2 cách: Cách 1 là tính từ tập DL gốc. Cách 2 là
tính dựa trên DL đã phân thành 4 tổ. So sánh kết
17
quả
© Nguyễn Tiến Dũng

Thống kê ứng dụng


4.4 CÁC ĐẠI LƯỢNG TK MÔ TẢ CHO TỔNG THỂ

● 4.4.1 TB cộng của tổng

1

N

thể

N

x

i

i 1

N

● 4.4.2 Phương sai và độ

2 

lệch chuẩn của tổng thể

2
(
x


)

 i
i 1

N

● Phương sai tổng thể
N

● Độ lệch chuẩn tổng thể

© Nguyễn Tiến Dũng

  2 

Thống kê ứng dụng

2
(
x


)
 i
i 1

N

18



4.5 KHÁM PHÁ DL QUA BIỂU ĐỒ HỘP VÀ RÂU
(BOX-AND-WHISKER PLOT)
● Bước 1: Vẽ hộp
● Xác định Q1, Q2, Q3
● Vẽ hình hộp xung quanh
● Vẽ đường qua trung vị

● Bước 2: Vẽ râu trên
● Nếu xmax – Q3 ≤ 1,5.IQR, thì râu trên = xmax
● Nếu xmax – Q3 > 1,5.IQR, thì râu trên = Q3+1,5.IQR và

vẽ 1 dấu chấm/sao ở vị trí xmax

● Bước 3: Vẽ râu dưới
● Nếu Q1 - xmin ≤ 1,5.IQR, thì râu dưới = xmin
● Nếu Q1 - xmin > 1,5.IQR, thì râu dưới = Q1 – 1,5.IQR và

vẽ thêm 1 dấu chấm/sao ở vị trí xmin

● Giá trị ngoại lệ: cách mép trên (Q3) hoặc mép dưới

(Q1) hộp hơn 1,5 IQR
● Giá trị cực đoan: cách mép trên (Q3) hoặc mép dưới
(Q1) hộp hơn 3.IQR
© Nguyễn Tiến Dũng

Thống kê ứng dụng

19



Biểu đồ hộp và râu: So sánh lương khởi điểm của
những người mới ra trường

© Nguyễn Tiến Dũng

Thống kê ứng dụng

20


4.6 SỬ DỤNG KẾT HỢP GIÁ TRỊ TRUNG BÌNH VÀ
ĐỘ LỆCH CHUẨN
● 4.6.1 Hệ số biến thiên CV

● 4.6.2 Quy tắc thực nghiệm
● 4.6.3 Quy tắc Chebysev
● 4.6.4 Chuẩn hoá dữ liệu

© Nguyễn Tiến Dũng

Thống kê ứng dụng

21


4.6.1 Hệ số biến thiên CV
● Thước đo mức độ phân tán tương đối của

một tập dữ liệu


CV   100%


hoặc

s
CV   100%
x

● Thí dụ Trang 95
● 2 danh mục đầu tư / cổ phiếu
● Cổ phiếu A: µA = 16%; A = 4%
● Cổ phiếu B: µB =9%; B =3%
● Cổ phiếu nào có sự biến thiên về tỷ suất lợi nhuận nhiều

hơn?

© Nguyễn Tiến Dũng

Thống kê ứng dụng

22


4.6.2 Quy tắc thực nghiệm
● Với phân phối đối xứng, có khoảng
● 68% quan sát (điểm dữ liệu) rơi vào µ±
● 95% quan sát (điểm dữ liệu) rơi vào µ± 2
● 99,7% quan sát (điểm dữ liệu) rơi vào µ± 3


© Nguyễn Tiến Dũng

Thống kê ứng dụng

23


4.6.3 Quy tắc Chebysev
● Với một phân phối bất kỳ, luôn có ít nhất

(1-1/k2).100% quan sát rơi vào khoảng µ± k. (k>1)
1821 - 1894

© Nguyễn Tiến Dũng

Thống kê ứng dụng

24


4.6.4 Chuẩn hoá dữ liệu
● Biến X ~ N(µ; 2)  Z ~ N(0; 12)

hoặc
● Biến X ~ N(𝑥; 𝑠2) Z ~ N(0; 12)

zi 

xi  




xi  x
zi 
s

● z-score:
● lệch mấy lần độ lệch chuẩn tính

từ GT TB

© Nguyễn Tiến Dũng

Thống kê ứng dụng

25


×