Tải bản đầy đủ (.pdf) (36 trang)

Bài giảng Thống kê học ứng dụng trong quản lý xây dựng: Phần 2 - TS. Nguyễn Duy Long

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.84 MB, 36 trang )

9/7/2010

Phần 02
Nguyễn Duy Long, Tiến Sỹ
Bộ môn Thi Công và QLXD

©2010, Nguyễn Duy Long, Tiến Sỹ





1

Trình bày dữ liệu định lượng
Mô tả phân phối bằng số
Độ lệch chuẩn như thước đo và mô hình
chuẩn

©2010, Nguyễn Duy Long, Tiến Sỹ

2

1


9/7/2010

©2010, Nguyễn Duy Long, Tiến Sỹ






3

Tóm tắt dữ liệu giúp xem xét tập hợp các dữ
liệu định lượng lớn.
Nế không
Nếu
khô
tóm
ó tắt,
ắ sẽ
ẽ rất
ấ khó để biết
biế các
á dữ
liệu cho chúng ta biết điều gì.
Không dùng biểu đồ bánh cho các biến định
lượng.

©2010, Nguyễn Duy Long, Tiến Sỹ

4

2


9/7/2010


1997

1998

1999

2000

2001

Tháng 1

-$1.44

0.78

3.28

5.72

14.38

Tháng 2

-0.75

0.62

3.34


21.06

-1.08

Tháng 3

-0.69

2.44

-1.22

4.50

-10.11

Tháng 4

-0.88

-0.28

0.47

4.56

-12.11

Tháng 5


0.12

2.22

5.62

-1.25

5.84

Tháng 6

0.75

-0.50

-1.59

-1.19

-9.37

Tháng 7

0.81

2.06

4.31


-3.12

-4.74

Tháng 8

-1.75

-0.88

1.47

8.00

-2.69

Tháng 9

0.69

-4.50

-0.72

9.31

-10.61

Tháng 10


-0.22

4.12

-0.38

1.12

-5.85

Tháng 11

-0.16

1.16

-3.25

-3.19

-17.16

Tháng 12

0.34

-0.50

0.03


-17.75

-11.59

(Nguồn: De Veaux et al., 2006)
©2010, Nguyễn Duy Long, Tiến Sỹ



Chia khoản giá trị của biến định lượng thành các
cột có cùng chiều rộng, gọi là hộc (bins).
Các hộc và số đếm trong mỗi hộc cho ra phân
phối của biến định lượng.
Giá thay đổi hàng
tháng của cổ
phiếu
hiế Cty
C Enron:
E

Số tháng



5

Thay đổi giá ($)
©2010, Nguyễn Duy Long, Tiến Sỹ

6


3


9/7/2010



Biểu đồ tần suất tương đối mô tả phần trăm của các
trường hợp cho mỗi hộc thay vì số đếm.

% số ttháng

Biểu đồ tần suất tương đối:
Thay đổi giá hàng tháng của cổ phiếu Enron

Thay đổi giá ($)
©2010, Nguyễn Duy Long, Tiến Sỹ





7

Biểu đồ cành-và-lá (stem-and-leaf displays)
biểu diễn p
phân p
phối của biến định


lượng
ợ g
như biểu đồ tần suất, nhưng vẫn giữ các giá
trị riêng rẽ.
Biểu đồ cành-và-lá:
◦ chứa tất cả thông tin có trong biểu đồ tần suất
◦ thỏa mãn nguyên lý diện tích, và
◦ biểu
ể thị sự phân phối.


©2010, Nguyễn Duy Long, Tiến Sỹ

8

4


9/7/2010






Cắt giá trị dữ liệu thành các con số chủ đạo (cành)
và các con số kéo theo (lá).
Dùng các cành để gán hộc.
Chỉ dùng một con số cho mỗi lá – hoặc làm tròn
hoặc cắt các giá trị dữ liệu để có một vị trí thập

phân phía sau cành.

©2010, Nguyễn Duy Long, Tiến Sỹ



9

Xây dựng biểu đồ cành và lá cho dữ liệu sau:
◦ Với hộc 10 triệu VNĐ
◦ Với hộc 5 triệu VNĐ

Công trình

Chi phí móng (triệu VNĐ)

01

33

02

35

03

50

04


41

05

48

06

33

07

45

08

47

09

52

10

63

11

45


12

71

©2010, Nguyễn Duy Long, Tiến Sỹ

10

5


9/7/2010

So sánh biểu đồ tần suất và biểu đồ cành-và-lá hiển
thị nhịp tim của 24 phụ nữ ở một trạm y tế. Sự hiển
thị nào có nhiều thông tin hơn?



Biểu đồ cành-và-lá:
Nhịp tim của 24 phụ nữ

Tần suất
T

Biểu đồ tần xuất

Nhịp tim (nhịp/phút)
11








Đồ thị điểm (dotplot) là
một sự hiển thị đơn giản chỉ đặt một dấu chấm
(dot) dọc một trục cho mỗi
trường hợp trong dữ liệu.
Đồ thị điểm có thể biểu
diễn theo phương ngang
hoặc phương đứng.
Thời gian chiến thắng của
đua ngựa Kentucky Derby,
1875-2004 (hình bên)

Thời gia
an chiến thắng (giây)

©2010, Nguyễn Duy Long, Tiến Sỹ

Nguồn: />©2010, Nguyễn Duy Long, Tiến Sỹ

Số cuộc đua
12

6



9/7/2010





Khi mô tả một phân phối, luôn nói về ba
điều: hình dạng
ạ g ((shape),
p ), trung
g tâm ((center),
),
và sải (spread).
Hình dạng của phân phối là gì?

◦ Phân phối có một gò (hump) ở trung tâm hay có vài
mỏm (bump) phân tán?
ể đồ tần
ầ suất
ấ có
ó đối
đố xứng??
◦ Biểu
◦ Có các đặc điểm bất thường lộ ra không?

©2010, Nguyễn Duy Long, Tiến Sỹ



13


Câu hỏi 1: Phân phối có một gò (hump) ở trung tâm
hay có vài mỏm (bump) phân tán?
◦ Gò trên biểu đồ tần suất gọi là mốt (mode).
◦ Biểu đồ tần suất có một đỉnh gọi là một mốt
(unimodal), hai đỉnh gọi là hai mốt (bimodal), và
ba đỉnh trở lên gọi là nhiều (đa) mốt (multimodal).

©2010, Nguyễn Duy Long, Tiến Sỹ

14

7


9/7/2010

Biểu đồ tần suất hai mốt có hai đỉnh:

Lượng số đếm



©2010, Nguyễn Duy Long, Tiến Sỹ

Tần suất đều (uniform): Biểu đồ tần suất dường
như không có mốt và tất cả các thanh có chiều cao
gần
ầ như nhau:
Lượ

ợng số đếm



15

©2010, Nguyễn Duy Long, Tiến Sỹ

16

8


9/7/2010



Câu hỏi 2: Biểu đồ tần suất có đối xứng?
Gấp
ấ dọc
đường
đứt

Biểu đồ tần suất đối xứng…

… có thể gấp ở giữa sao cho
hai bên gần như trùng nhau

©2010, Nguyễn Duy Long, Tiến Sỹ


17

Số nữ bệnh tim

Số nữ bệnh tim

◦ Các đầu mỏng hơn của phân phối gọi là đuôi
(tails). Nếu một đuôi trải xa hơn đuôi còn lại, biểu
đồ tần suất là lệch (skewed) về phía có đuôi dài
hơn.
◦ Biểu đồ tần suất màu xanh bên dưới gọi là lệch
trái (skewed left), biểu đồ màu hồng là lệch phải
(skewed right).

Tuổi

Lệ phí ($)
©2010, Nguyễn Duy Long, Tiến Sỹ

18

9


9/7/2010



Câu hỏi 3: Có các đặc điểm bất thường lộ ra
g

không?

◦ Thỉnh thoảng những đặc điểm bất thường cho ta
biết có gì đó lý thú về dữ liệu
◦ Luôn đề cập đến các giá trị ngoại lệ (outliers) mà nó
đứng tách ra trong phần thân của phân phối
◦ Có các chỗ gián đoạn (gap) trong phân phối? Nếu
vậy, dữ liệu có thể có từ hơn một nhóm.

©2010, Nguyễn Duy Long, Tiến Sỹ



Biểu đồ tần suất sau đây có giá các trị ngoài lệ. Có
ba thành phố ở thanh xa nhất bên trái.
Theo bạn,
bạn điều gì đang xảy ra?
Số nhân khẩu trong một hộ ở các thành phố được chọn lựa

Số thà
ành phố



19

Nhân khẩu/hộ
©2010, Nguyễn Duy Long, Tiến Sỹ

20


10


9/7/2010






Nếu bạn phải lấy một số để mô tả tất cả dữ liệu,
bạn sẽ lấy số gì?
Dễ dàng

để tìm
tì trung
t
tâ khi biểu
tâm
biể đồ tần
tầ suất
ất là
một mốt và đối xứng – nó ngay ở giữa.
Ngược lại, sẽ rất khó để tìm trung tâm nếu biểu đồ
tần suất là bị lệch hoặc có hai hay nhiều mốt.
Đến đây ta chỉ cần chỉ ra trung tâm của phân phối
băng mắt thường.

©2010, Nguyễn Duy Long, Tiến Sỹ








21

Vấn đề ở sự biến đổi (thống kê học là về sự biến

đổi).

Các giá trị của phân phối là gom lại xung quanh
trung tâm hay sải ra?
Các phần tiếp theo ta nói về sải…

©2010, Nguyễn Duy Long, Tiến Sỹ

22

11


9/7/2010








Thường ta muốn so sánh hai hay nhiều phân phối
với nhau thay vì chỉ xem một phân phối.
Khi xem xét hai phân phối, điều quan trọng là các
biểu đồ tần suất có cùng tỷ lệ.
Khi so sánh các phân phối, chúng ta nói về hình
dạng, trung tâm, và sải của các phân phối.

So sánh hai biểu đồ
bên:
◦ Chúng có gì chung?
◦ Chúng khác nhau ra
sao?

Các phân phối của bệnh
nhân nữ và nam bị nhồi
máu
á cơ tim:
i

ân nam
Số bệnh nhâ



23

Số bệnh nh
hân nữ


©2010, Nguyễn Duy Long, Tiến Sỹ

Tuổi

Tuổi
©2010, Nguyễn Duy Long, Tiến Sỹ

24

12


9/7/2010



Với một số tập dữ liệu, chúng ta quan tâm đến dữ
liệu cư xử thế nào theo thời gian – vẽ biểu đồ thời
gian (time
(time-plots)
plots) cho dữ liệu.
◦ Cổ phiểu của Enron như thế nào theo thời gian?

Thay đổi về giá ($)

Thay đổi về giá của cổ phiếu Enron, 1997-2002

Năm
©2010, Nguyễn Duy Long, Tiến Sỹ




25

Biểu đồ số người mắc bệnh và tử vong do
cúm A/H1N1:

Nguồn: Báo Tuổi Trẻ, 28/09/2009

©2010, Nguyễn Duy Long, Tiến Sỹ

26

13


9/7/2010

©2010, Nguyễn Duy Long, Tiến Sỹ





27

Để đo trung tâm, khoảng giữa (midrange, trị trung
bình của các giá trị nhỏ và lớn nhất) là rất nhạy với
các phân phối

ố lệch hoặc giá trị ngoại lệ.
Trung vị (median) là lựa chọn hợp lý cho trung tâm
hơn là khoảng giữa…

©2010, Nguyễn Duy Long, Tiến Sỹ

28

14


9/7/2010

Trung vị là giá trị mà một nửa các giá trị của dữ liệu
nhỏ hơn nó và một nửa lớn hơn nó.
◦ Đó là g
giá trịị g
giữa của dữ
Tuổi thọ của các nước thành
liệu khi sắp xếp theo thứ
viên của Liên Hiệp Quốc (2001)
tự và chia biểu đồ tần
suất ra hai phần có diện
tích bằng nhau.
◦ Với số điểm dữ liệu là
chẵn, lấy trung bình hai
số ở giữa:
Số nước
S




 median(2,4,6,7,8,9) =6.5

Tuổi thọ
©2010, Nguyễn Duy Long, Tiến Sỹ







29

Luôn cho biết độ sải (spread) cùng với trị trung tâm
khi mô tả phân phối bằng số.
Khoảng (vùng) (range) của dữ liệu là sự khác nhau
giữa các giá trị lớn và nhỏ nhất:
Vùng (range) = max – min
Bất lợi của khoảng là nếu có một giá trị cực hạn có
thể làm nó rất lớn và vì thế không đại diện cho dữ
liệu nói chung.

©2010, Nguyễn Duy Long, Tiến Sỹ

30

15



9/7/2010





Khoảng tứ phân vị (interquartile range, IQR) bỏ qua các
giá trị cực hạn và tập trung vào vùng giữa của dữ liệu.
Để tìm IQR,
IQR trước tiên tìm các điểm tứ phân vị
(quartiles), mà chia dữ liệu thành bốn đoạn bằng nhau.
◦ Điểm tứ phân vị dưới (lower quartile, Q1) là trung vị
của nửa dữ liệu nằm dưới trung vị.
◦ Điểm tứ phân vị trên (upper quartile, Q3) là trung vị
của nửa dữ liệu nằm trên trung vị..
◦ Nếu số điểm trong dữ liệu là chẵn, việc phân chia là
rõ ràng.
g Nếu số lẻ, tính trung
g vị trong
g cả hai nửa của
dữ liệu.
Sự khác nhau giữa hai điểm tứ phân vị là IQR
IQR = điểm tứ phân vị trên – điểm tứ phân vị dưới
31

©2010, Nguyễn Duy Long, Tiến Sỹ





Điểm tứ phân vị dưới và trên là các phân vị
(percentiles) thứ 25 và 75 của dữ liệu.
IQR chứa
hứ 50% giá
iá trị
t ị ở giữa
iữ của
ủ phân
hâ phối
hối

Tuổi thọ của các nước thành
viên của Liên Hiệp Quốc (2001)

“Tóm tắt năm số” về tuổi thọ:
max = 73.6
Q3 = 62.65
Median = 57.7
Q1 = 48.9
min = 26.5

Số nước
S



©2010, Nguyễn Duy Long, Tiến Sỹ

Tuổi thọ


năm
32

16


9/7/2010

Tóm tắt năm số (fivenumber summary) của
phân phối
ố cho biết
ế về

trung vị, hai điểm tứ
phân vị, và các giá trị
cực hạn (maximum and
minimum).
◦ Ví dụ: Tóm tắt năm số về
tuổi lúc mất của 66 người
xem các buổi diễn nhạc
rock do chen lấn như bên
phải

Chết tại các buổi diễn nhạc Rock,
1999-2000
Số lượng chết




Max

47 năm

Q3

22

Median

19

Q1

17

Min

13

©2010, Nguyễn Duy Long, Tiến Sỹ





33

Biểu đồ hộp (boxplot) là biểu thị đồ họa về tóm tắt
năm số*.

Biểu đồ hộp đặc biệt hữu ích khi so sánh các nhóm
(groups).

* Và một số thông tin khác, ví dụ là các giá trị ngoại lệ (outliers)
©2010, Nguyễn Duy Long, Tiến Sỹ

34

17


9/7/2010

1.

Vẽ một trục bao hàm
khoảng giá trị của dữ liệu
Vẽ ba đường ngang ngắn
tại Q1, Q3, và trung vị.
Nối chúng lại bằng các
đường đứng để hình thành
một hộp (box).




©2010, Nguyễn Duy Long, Tiến Sỹ

2.




35

Dựng “hàng rào” xung
quyanh phần chính của
dữ liệu.

Hàng rào trên là 1.5xIQR
trên Q3.
Hàng rào dưới là 1.5xIQR
dưới Q1.

©2010, Nguyễn Duy Long, Tiến Sỹ

36

18


9/7/2010

3.




Dùng hàng rào để phát triển
“đuôi”


Vẽ các đường từ các đầu của hộp
lên và xuống đến các giá trị dữ
liệu cực hạn trong hàng rào.
Nếu một giá trị dữ liệu nằm ngoài
các hàng rào, đừng nối nó để trở
thành đuôi.

©2010, Nguyễn Duy Long, Tiến Sỹ

37

4. Thêm các giá trị ngoại lệ nằm
ngoài hàng rào bằng các ký
hiệu khác.

©2010, Nguyễn Duy Long, Tiến Sỹ

38

19


9/7/2010



So sánh biểu đồ tần suất và biểu đồ hộp
Số lượng chết

Chết tại các buổi diễn nhạc Rock, 1999-2000


Tuổi



Biểu đồ trên biểu thị dữ liệu như thế nào?
©2010, Nguyễn Duy Long, Tiến Sỹ

Biểu đồ hộp so sánh hiệu quả của các bình chứa cà
phê:
Thay đổi nhiệt độ theo các nhãn hiệu của bình chứa cà phê
Tahy đổi về nhiệt độ (oF)



39

Bình chứa

©2010, Nguyễn Duy Long, Tiến Sỹ

40

20


9/7/2010

Trung vị là rất tốt để xác định trung tâm của các
p

phân p
phối lệch.

Khi dữ liệu đối xứng, trị trung bình (mean) xác định
trung tâm tốt.
Tìm trị trung bình:







n

y

 yi
i 1

n

41

©2010, Nguyễn Duy Long, Tiến Sỹ



Phân phối về nhịp tim của 52 người lớn này đối
xứng, với trị trung bình 72.7 (nhịp/phút) và trung vị

là 73 (nhịp/phút):
nhịp/phút

Số người lớn

Nhịp tim của 52 người lớn

Nhịp tim (nhịp/phút)
©2010, Nguyễn Duy Long, Tiến Sỹ

Slide 5- 42

21


9/7/2010

Bất kể hình dạng
của phân phối,
phối trị
trung bình là
điểm mà biểu đồ
tần suất cân
bằng:

Tuổi thọ của các nước thành
viên của Liên Hiệp Quốc (2001)

Số nước




Tuổi thọ
Điểm cân bằng
©2010, Nguyễn Duy Long, Tiến Sỹ





43

Phân phối đối xứng có giá trị trung bình và trung vị
gần nhau, nên có thể dùng trị bất cứ trị nào để chỉ
trung tâm.
â
Với phân phối lệch nhiều thì dùng trung vị để xác
định trung tâm.

©2010, Nguyễn Duy Long, Tiến Sỹ

44

22


9/7/2010






Độ lệch chuẩn (standard deviation) đo lường sải
(spread) tốt hơn IQR, bằng cách xem xét mỗi giá trị
dự liệu cách trị trung bình bao xa.
Độ lệch (deviation) là khoảng cách từ một giá trị dữ
liệu đến trị trung bình.

©2010, Nguyễn Duy Long, Tiến Sỹ



Phương sai (variance), với ký hiệu s2:

s2


45

 y  y

i

2

i

n 1

Vấn đề của phương sai khi đo lường sải là được đo

lường theo bình phương đơn vị đo của dữ liệu ban
đầu.

©2010, Nguyễn Duy Long, Tiến Sỹ

46

23


9/7/2010



Độ lệch chuẩn (standard deviation), s, (hay SD):

s

 i  yi  y 

2

n 1

©2010, Nguyễn Duy Long, Tiến Sỹ







47

Vì thống kê học là về sự biến đổi (variation), sải là
một khái niệm quan trọng của thống kê học.
Đ độ sải
Đo
ải giúp
iú chúng

t bàn
ta
bà về
ề những
hữ
cái
ái chúng

t
ta
không biết.
Khi các giá trị dữ liệu cụm lại xung quyanh trung
tâm của phân phối, IQR và SD là nhỏ.
Khi các giá trị dữ liệu phân tán xa trung tâm của
phân phối, IQR và SD sẽ lớn.

©2010, Nguyễn Duy Long, Tiến Sỹ

48


24


9/7/2010



Khi mô tả biến định lượng, luôn cho biết về hình
dạng phân phối của nó, cùng với trung tâm và sải.

◦ Nếu hình dạng bị lệch, cho biết trung vị và khoảng tứ phân
vị.
◦ Nếu hình dạng đối xứng, cho biết trị trung bình và độ lệch
chuẩn và có thể cả trung vị và khoảng tứ trung vị.

©2010, Nguyễn Duy Long, Tiến Sỹ





49

Nếu có các trị ngoại lề rõ ràng mà cho biết về trị
trung bình và độ lệch chuẩn thì cho biết chúng khi
có trị ngoại lệ và không có trị ngoại lệ. Sự khác
nhau có thể bộc lộ.
Chú ý: Trung vị và khoảng tứ trung vị ít khả năng bị
ảnh hưởng bởi các trị ngoại lệ như trị trung bình và
độ lệch chuẩn.


©2010, Nguyễn Duy Long, Tiến Sỹ

50

25


×