9/7/2010
Nguyễn Duy Long, Tiến Sỹ
Bộ môn Thi Công và QLXD
©2010, Nguyễn Duy Long, Tiến Sỹ
1
Phần 01
Nguyễn Duy Long, Tiến Sỹ
Bộ môn Thi Công và QLXD
©2010, Nguyễn Duy Long, Tiến Sỹ
2
1
9/7/2010
Tư duy thống kê
Giới thiệu về thống kê học
Trình bày dữ liệu định tính
©2010, Nguyễn Duy Long, Tiến Sỹ
3
©2010, Nguyễn Duy Long, Tiến Sỹ
4
2
9/7/2010
Thời gian của dự án:
g việc của nó
◦ Dự án hoàn thành khi tất cả các công
hoàn thành
◦ Thời gian hoàn thành các công việc là không chắc
chắn.
◦ Hiểu và giảm thiểu sự không chắc chắn này sẽ giúp
quản lý tiến độ thành công.
Phần ngầm
Phần khung
Hoàn thiện
Nguồn: Glossary oi Statistical Terms, ASQ Quality Press
©2010, Nguyễn Duy Long, Tiến Sỹ
5
Là một triết lý của việc học và hành động dựa
g y lý
ý cơ bản sau:
trên các nguyên
◦ Tất cả công việc đều xảy ra trong một hệ thống của
các qui trình kết nối nhau
◦ Sự biến thiên (variation) tồn tại trong tất cả các qui
trình
◦ Hiểu và giảm thiểu sự biến thiên là chìa khóa để
thành công
Nguồn: Glossary oi Statistical Terms, ASQ Quality Press
©2010, Nguyễn Duy Long, Tiến Sỹ
6
3
9/7/2010
Tư duy
thống kê
Qui trình
Sự biến đổi
Các dữ liệu
Các công cụ
thống kê
Phươ
há
Phương
pháp
thống kê
©2010, Nguyễn Duy Long, Tiến Sỹ
7
©2010, Nguyễn Duy Long, Tiến Sỹ
8
4
9/7/2010
Đánh giá các kết luận sau đây:
g người
g
g đại học thì có khả
◦ “Những
có cha mẹ có bằng
năng (likely) lấy bằng đại học hơn là những người
có cha mẹ không có bằng đại học.”
◦ “Lượng xe máy ở Sài Thành có liên hệ với lượng
nhà và đất ở ở Hà Thành.”
Nguồn:
©2010, Nguyễn Duy Long, Tiến Sỹ
9
©2010, Nguyễn Duy Long, Tiến Sỹ
10
5
9/7/2010
Thống kê: Với
thông
tin
hô
i trong
tay bạn, cái gì
trong thùng?
Xác suất: Với
thông tin trong
thùng, cái gì
trong tay bạn?
Nguồn: MIT OCW, dựa trên Gilbert, 1976
©2010, Nguyễn Duy Long, Tiến Sỹ
11
Thống kê học (statistics, số ít): Một cách lý
ậ , cùng
g với các công
g cụ
ụ và p
gp
p đi
luận,
phương
pháp
kèm, được thiết kế để giúp chúng ta hiểu biết
về thế giới.
Thống kê (satistics, số nhiều): các phép tính
cụ thể được thực hiện trên các dữ liệu (data).
©2010, Nguyễn Duy Long, Tiến Sỹ
12
6
9/7/2010
Dữ liệu
(Data)
Suy nghĩ (think)
Biểu thị (show)
Trình bày (tell)
Thống kê
(Statistics)
Thông tin
(Information)
©2010, Nguyễn Duy Long, Tiến Sỹ
13
©2010, Nguyễn Duy Long, Tiến Sỹ
14
7
9/7/2010
©2010, Nguyễn Duy Long, Tiến Sỹ
15
Quần thể (population): một nhóm gồm tất cả
ự hành thống
g kê
các thành p
phần mà nhà thực
quan tâm.
◦ v.d. tất cả các nhà thầu ở Sài Gòn
Mẫu (sample): một tập hợp các dữ liệu rút ra
từ quần thể
◦ v.d. một mẫu 75 nhà thầu ở Sài Gòn
©2010, Nguyễn Duy Long, Tiến Sỹ
16
8
9/7/2010
Thông số (parameter): một đại lượng mô tả
q
quần thể
◦ v.d. doanh thu bình quân của tất các nhà thầu là
100 tỷ đồng.
Trị (tham) số thống kê (statistic): một đại
lượng mô tả mẫu
◦ v.d. doanh thu bình quân của mẫu 75 nhà thầu là
đồng
120 tỷ đồng.
©2010, Nguyễn Duy Long, Tiến Sỹ
17
Quần thể
Mẫu
Tập con
Thông số
Trị số thống kê
Các quần thể có các thông số; các mẫu có các trị số thống kê
©2010, Nguyễn Duy Long, Tiến Sỹ
18
9
9/7/2010
©2010, Nguyễn Duy Long, Tiến Sỹ
19
Phương pháp thông kê
Thống kê học mô tả
(descriptive statistics)
Thông kê học suy luận
(inferential statistics)
©2010, Nguyễn Duy Long, Tiến Sỹ
20
10
9/7/2010
Thu thập số liệu
◦ v.d.
khảo sát,
d khả
á quan sát,
á thí
hí
nghiệm
Trình bày dữ liệu
◦ v.d. biểu đồ và đồ thị
Xác định đặc điểm của dữ liệu
◦ v.d. trung bình của mẫu
= xi
n
21
©2010, Nguyễn Duy Long, Tiến Sỹ
Quá trình tạo ra một ước lượng, dự đoán, hay
q
y định
ị
ự trên mẫu.
quyết
về q
quần thể dựa
Quần thể
Mẫu
Suy luận
Thông số
Trị số thống kê
©2010, Nguyễn Duy Long, Tiến Sỹ
22
11
9/7/2010
©2010, Nguyễn Duy Long, Tiến Sỹ
23
Dữ liệu (data): là các đại lượng cùng ngữ
cảnh đi kèm.
Ngữ cảnh của dữ liệu: “Five W’s”: Who, What,
When, Where, and Why. Có thể có cả “How.”
Dữ liệu không có ngữ cảnh đi kèm thì hầu
như vô nghĩa.
©2010, Nguyễn Duy Long, Tiến Sỹ
24
12
9/7/2010
Họ Tên
Tuổi
Loại lao
động
Lương
ngày
Đội Thi
Công
Bảo hiểm
Phan Cam
18
Phổ thông
50,000
1
Không
Vũ Phu
35
Nề
90,000
1
Có
Cao Giá
28
Nề
95,000
2
Không
Trần Ai
45
Sắt
90,000
1
Có
Lê La
30
Điện
85,000
2
Có
Lâm Tặc
30
Mộc
90
000
90,000
1
Không
Ngô Khoai
32
Phổ thông
45,000
2
Có
Phạm
Thượng
22
Phổ thông
50,000
2
Không
(Trích từ bảng lương tháng 9/2009, Dự Án “Xây Nhà Từ Nóc”)
©2010, Nguyễn Duy Long, Tiến Sỹ
Biến của dữ
liệu
25
Định tính
(categorical)
Định lượng
(quantitative)
©2010, Nguyễn Duy Long, Tiến Sỹ
26
13
9/7/2010
©2010, Nguyễn Duy Long, Tiến Sỹ
27
Biểu đồ số người mắc bệnh và tử vong do
cúm A/H1N1:
Nguồn: Báo Tuổi Trẻ, 28/09/2009
©2010, Nguyễn Duy Long, Tiến Sỹ
28
14
9/7/2010
Ba qui tắc:
1. Vẽ/tạo hình ảnh — có thể lộ ra những điều mà
chúng ta không thấy
ấ từ dữ liệu thô.
2. Vẽ/tạo hình ảnh — những đặc điểm quan trọng của
dữ liệu sẽ được thể hiện. Chúng ta có thể thấy
những điều chúng ta không mong đợi.
3. Vẽ/tạo hình ảnh — cách tốt nhất để nói với người
khác rằng dữ liệu của bạn có hình ảnh trình bày
được chọn lựa kỹ.
ỹ
©2010, Nguyễn Duy Long, Tiến Sỹ
29
Đếm số lượng của các giá trị dữ liệu cho mỗi
loại.
Tổ chức chúng vào một bảng chỉ số đếm, thể
hiện tổng số lượng và loại.
Ví dụ hạng vé tàu Titanic:
Hạng vé
Hạng nhất
Hạng nhì
Hạng ba
Thủy thủ đoàn
Đếm
325
285
706
885
(Nguồn: De Veaux et al., 2006)
©2010, Nguyễn Duy Long, Tiến Sỹ
30
15
9/7/2010
Bảng tần suất tương đối cũng tương tự,
nhưng thể hiện dạng phần trăm (thay vì số
đếm)
đế ) cho
h mỗi
ỗ loại.
l
Hạng vé
Hạnh nhất
Hạng nhì
H ng ba
Hạng
Thủy thủ đoàn
%
14.77
12.95
32
08
32.08
40.21
©2010, Nguyễn Duy Long, Tiến Sỹ
31
©2010, Nguyễn Duy Long, Tiến Sỹ
32
Thủy thủ đoàn
Hạng ba
Hạng hai
Hạng nhất
16
9/7/2010
Biểu đồ thanh tần suất tương đối mô tả sự phân phối
tương đối của số đếm cho mỗi loại.
Thỏa
tích.”
h mãn “nguyên
“
ê lý diện
d
í h”
Nhì
Ba
Hạng
Nhất
Thủy thủ đoàn
©2010, Nguyễn Duy Long, Tiến Sỹ
Slide 3- 33
Khi quan tâm các phần trong tổng thể, biểu đồ
bánh là chọn lựa hay.
Hạng
Nhất
Hạng hai
Thủy thủ
Hạnn ba
©2010, Nguyễn Duy Long, Tiến Sỹ
34
17
9/7/2010
Sống só
ót
Cho phép trình bày hai biến định tính cùng nhau.
Cho phép thể hiện các thành phần được phân phối như
thế nào theo mỗi biến,
biến và tùy thuộc vào giá trị của biến
khác.
◦ v.d. xem xét hạng vé và sự sống sót của hành khách
trên tàu Titanic:
Sống
Chết
Tổng
Nhất
203
122
325
Hạng
Nhì
Ba
118
167
285
178
528
706
Thủy thủ Tổng
212
711
673
1490
885
2201
©2010, Nguyễn Duy Long, Tiến Sỹ
Các cột và hàng lề bên phải và bên dưới cho ra tổng số
và các phân phối tần suất (frequency distributions) cho
mỗi một biến.
biến
Mỗi phân phối tần suất gọi là phân phối lề (marginal
distribution) của biến tương ứng.
◦ Phân phối lề cho biến sống sót (survival) của tàu
Titanic:
Sống só
ót
35
Sống
Chết
Nhất
203
122
Hạng
Ba
Nhì
118
178
167
528
Thủy thủ
212
673
©2010, Nguyễn Duy Long, Tiến Sỹ
36
18
9/7/2010
Mỗi phần tử của bảng cho ra số đếm của sự kết hợp giá
trị của hai biến.
◦ Ví dụ,
dụ phân tử thứ hai ở cột thủy thủ đoàn (crew) chỉ ra
673 thủy thủ chết khi tàu Titanic bị chìm.
Sống
g sót
Sống
ế
Chết
Tổng
Nhất
203
122
325
Hạng
Nhì
Ba
118
178
167
285
528
706
Thủy thủ Tổng
212
711
673
885
1490
2201
37
©2010, Nguyễn Duy Long, Tiến Sỹ
Phân phối có điều kiện (conditional
ộ biến
distribution)) cho ra p
phân p
phối của một
chỉ cho các thành phần thỏa mãn một điều
kiện nào đó của biến khác.
◦ Phân phối có điều kiện của hạng vé với điều kiện
sống:
Sống
Nhất
203
28.6%
Nhì
118
16.6%
Hạng
Ba
Thủy thủ
178
212
25.0%
29.8%
©2010, Nguyễn Duy Long, Tiến Sỹ
Tổng
711
100%
38
19
9/7/2010
Chết
◦ Phân phối có điều kiện của hạng vé, với điều kiện
thiệt mạng:
Nhất
122
8.2%
Nhì
167
11.2%
Hạng
Ba
Thủy thủ
528
673
35.4%
45.2%
Tổng
1490
100%
©2010, Nguyễn Duy Long, Tiến Sỹ
39
Các phân phối có điều kiện cho thấy rằng có sự
khác nhau về hạng vé và tỷ lệ sự sống sót.
sót
Sống sót
Chết
Nhất
Nhì
Ba
Thủy thủ
©2010, Nguyễn Duy Long, Tiến Sỹ
40
20
9/7/2010
Sự phân phối của hạng vé với người sống sót
và sự phân phối của hạng vé với người không
sống sót là khác nhau.
Hạng vé và sự sống sót là có sự liện hệ, nhưng
chúng không độc lập.
Các biến được coi là độc lập khi sự phân phối
của một
giống
ộ biến trong
g bảng
g tùy
y thuộc
ộ là g
g
nhau cho mỗi loại của biến còn lại.
©2010, Nguyễn Duy Long, Tiến Sỹ
Biểu đồ thanh phân đốt (segmented bar charts)
trình bày lượng thông tin giống với biểu đồ bánh.
Biểu đồ thanh phân đốt giữa hạng vé và tình trạng
Hạng
sống sót:
Nhất
Phần trăm
41
Nhì
Ba
Thủy thủ
Sống sót
Chết
©2010, Nguyễn Duy Long, Tiến Sỹ
42
21
9/7/2010
©2010, Nguyễn Duy Long, Tiến Sỹ
43
“Căn hộ giá trung bình bán chạy”:
Nguồn: Báo Tuổi Trẻ, 24/10/2009
©2010, Nguyễn Duy Long, Tiến Sỹ
44
22
9/7/2010
Trình bày thành thật—đảm bảo biểu đồ nói ra
những gì đang thể hiện.
◦ Có vấn đề gì trong biểu đồ trên?
©2010, Nguyễn Duy Long, Tiến Sỹ
45
Đừng cường điệu hóa. Không kết luận những
ậ
điều chưa thể kết luận
Đừng sử dụng trị trung bình không hợp lý—
mà có thể dẫn đến cái gọi là nghịch lý
Simpson (Simpson’s Paradox).
©2010, Nguyễn Duy Long, Tiến Sỹ
46
23
9/7/2010
Hương có điểm TBTL 7.00 ở trường ĐHBK
Thủy có điểm TBTL 7.50 ở trường ĐHBK
Ai có vẻ học tốt hơn trong các môn học ở
ĐHBK? Hương hay Thủy?
Theo bạn thì ai có khả năng đạt điểm cao hơn
trong môn học này?
47
©2010, Nguyễn Duy Long, Tiến Sỹ
Chất lượng thi công công trình của hai nhà thầu
A và B theo đánh giá của các chủ đầu tư
(đạt/tổng số hợp đồng):
Nhà thầu A
Nhà thầu B
Dân dụng
40/60
(66.6%)
5/8
(62.5%)
Loại công trình
Công nghiệp Tổng
13/15
53/75
(86.7%)
(70.7%)
42/50
(84.0%)
47/58
(81.0%)
Chọn nhà thầu nào để thi công chất lượng hơn?
©2010, Nguyễn Duy Long, Tiến Sỹ
48
24
9/7/2010
©2010, Nguyễn Duy Long, Tiến Sỹ
49
25