Tải bản đầy đủ (.pdf) (30 trang)

Bài giảng Thống kê học ứng dụng trong quản lý xây dựng: Phần 3 - TS. Nguyễn Duy Long

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.71 MB, 30 trang )

9/7/2010

Phần 03
Nguyễn Duy Long, Tiến Sỹ
Bộ môn Thi Công và QLXD

©2010, Nguyễn Duy Long, Tiến Sỹ





1

Biểu đồ phân tán, sự liên hợp và sự tương
q
quan
Phân tích hồi qui tuyến tính

©2010, Nguyễn Duy Long, Tiến Sỹ

2

1


9/7/2010

©2010, Nguyễn Duy Long, Tiến Sỹ






3

Đồ thị phân tán (scatter-plots) là biểu thị phổ biến
và hiểu quả cho dữ liệu.
Đồ thị phân tán là cách tốt nhất để bắt đầu quan
sát mối liên hệ và cách lý tưởng để xem sự liên hợp
của hai biến định lượng.

©2010, Nguyễn Duy Long, Tiến Sỹ

4

2


9/7/2010





Với đồ thị phân tán, xem hướng (direction), dạng
(form), độ chặt (strength), và các đặc điểm bất
thường (unusual features).
(1) Hướng:

◦ Hướng âm: giá trị dữ liệu đi theo chiều từ trái qua phải và

từ trên xuống dưới.
◦ Hướng dương: theo chiều ngược lại.

©2010, Nguyễn Duy Long, Tiến Sỹ

% trả lời “Có”





5

Mối liện hợp dương
(
(positive
i i association)
i i )
giữa năm (từ 1900) và
% số người sẵn sàng
bầu phụ nữ làm tổng
thổng ở Mỹ.
Nhận
h xét...
é

Năm (từ 1900)

©2010, Nguyễn Duy Long, Tiến Sỹ


6

3


9/7/2010

Ch
hi phí trên đầu người
($/người/năm)



Tốc độ lúc cao điểm ở xa lộ
(dặm/giờ)



Mối liện hợp âm
(negative association)
giữa tốc độ lúc cao
điểm ở xa lộ và chi phí
trên đầu người do
chậm trễ giao thông.
xét
Nhận xét...



(2) Dạng:

◦ Nếu liên hệ đường
thẳng (tuyến tính):
như đám mây hay
một đám chấm phân
tán có dạng thẳng.

Ch
hi phí trên đầu người
($/người/năm)

©2010, Nguyễn Duy Long, Tiến Sỹ

7

Tốc độ lúc cao điểm ở xa lộ
(dặm/giờ)

©2010, Nguyễn Duy Long, Tiến Sỹ

8

4


9/7/2010



Dạng:


◦ Nếu mối liên hệ
ệ không
g thẳng,
g, nhưng
g cong
g cong,
g,
trong khi vẫn tăng hay giảm dần…

… chúng ta có cách để làm nó thẳng hơn.

©2010, Nguyễn Duy Long, Tiến Sỹ



9

Dạng:

◦ Nếu mối liên hệ là rất cong,
cong

… chúng ta nói nó là liên hợp không tuyến tính
©2010, Nguyễn Duy Long, Tiến Sỹ

10

5



9/7/2010



(3) Độ chặt:

◦ Các điểm có vẻ như theo một
ộ dòng
g thẳng
g

(dù thẳng, cong, hay uốn).

©2010, Nguyễn Duy Long, Tiến Sỹ



11

Độ chặt:

◦ Các điểm trông
g như một
ộ đám mây
y mờ mà không
g
có một hướng xác định nào:

◦ Ghi chú: chúng ta sẽ định lượng sự phân tán
“scatter” sau.

©2010, Nguyễn Duy Long, Tiến Sỹ

12

6


9/7/2010



(4) Các đặc điểm bất thường:
◦ Tìm các điều không kỳ vọng.
◦ Điều thú vị nhất là khi quan sát đồ thị phân tán là
thấy những điều không mong đợi sẽ tìm thấy.
◦ Ví dụ: các giá trị ngoại lệ đứng tách ra.
◦ Nên nghi vấn với các cụm (clusters) hay các nhóm
phụ (subgroups).

©2010, Nguyễn Duy Long, Tiến Sỹ





13

Xác định biến nào là trục x, biến nào trục y.
Việc
ệ xác định


dựa
ự trên các vai trò của các
biến.
Khi vai trò là rõ ràng
◦ Biến khám phá hay dự đoán (explanatory hay
predictor variable) là trục x,
◦ Biến hưởng ứng (response variable) là trục y.

©2010, Nguyễn Duy Long, Tiến Sỹ

14

7


9/7/2010







Chọn vai trò cho các biến phần nhiều về
việc chúng ta suy nghĩ như thế nào về các
biến
ế hơn là về
ề chính các biến
ế đó.

Chỉ đặt một biến ở trục hoành không nhất
thiết có nghĩa là nó giả thích hay dự báo cái
gì đó….
… Biến ở trục tung có thể không hưởng ứng
nó trong bất cứ cách nào.

©2010, Nguyễn Duy Long, Tiến Sỹ



Dữ liệu thu thập từ sinh viên các lớp thống kê
ọ g
gồm chiều cao ((in.)) và cân nặng
ặ g ((lb):
)
học
Mối liên hợp dương
(positive association)
và khá thẳng, mặc dù
có một trị ngoại lệ.
Cân nặng (lb)



15

Chiều cao (in.)
©2010, Nguyễn Duy Long, Tiến Sỹ

16


8


9/7/2010





ặng (kg)
Cân nặ



Sự liên hợp giữa chiều cao và cân nặng của sinh
viên các lớp thống kê học chặt (strong) ra sao?
Nếu đinh lượng độ chặt, chúng ta muốn nó không
phụ thuộc vào loại đơn vị.
Biểu đồ phân tán giữa
chiều cao (cm) và cân
nặng (kg) không thay
đổi dạng phân tán.

Chiều cao (in.)
©2010, Nguyễn Duy Long, Tiến Sỹ








Vì đơn vị không quan
ọ g, tại
ạ sao không
g
trọng,
bỏ nó?
Có thể chuẩn hóa
các biến và viết tọa
độ của một điểm là
(zx, zy).
Biểu đồ phân tán của
chiều cao và cân
nặng được chuẩn
hóa.

17

Zchiều cao

Zcân nặng
©2010, Nguyễn Duy Long, Tiến Sỹ

18

9



9/7/2010








Dạng tuyến tính của biều đồ chuẩn hóa có vẻ dốc
hơn biểu đồ phân tán ban đầu.
Vì cả hai trục có tỷ lệ giống nhau.
Tỷ lệ bằng nhau tạo khách quan cho biểu đồ phân
tán và độ chặt của sự liện hợp.
Giá trị chuẩn hóa được xác định như sau:

( z x , z y )  ( xsxx , ysy y )

©2010, Nguyễn Duy Long, Tiến Sỹ







19

Các điểm màu xanh lá cây


sự
ự liên hợp
ợp
làm mạnh
dương giữa chiều cao và
cân nặng.
Các điểm màu nâu có
khuynh hướng làm yếu sự
liên hợp dương.
Các điểm màu xanh
dương có điểm z bằng Zchiều cao
không không theo cách
liên hợp nào.
Zcân nặng
©2010, Nguyễn Duy Long, Tiến Sỹ

20

10


9/7/2010



Hệ số tương quan (r, correlation coefficient) đo
lường độ chặt giữa biến khám phá và biến hưởng
ứng.
ứng


r 

z

x

zy

n 1

©2010, Nguyễn Duy Long, Tiến Sỹ





21

Sự tương quan đo độ chặt của sự liên hợp tuyến
tính giữa các biến định lượng.
Kiểm tra các điều kiện sau trước khi dùng sự
tương quan:

1.
2.
3.

Điều kiện các biến định lượng
Điều kiện khá thẳng (“Straight Enough”)
Điều kiện trị ngoại lệ


©2010, Nguyễn Duy Long, Tiến Sỹ

22

11


9/7/2010

1.

Điều kiện biến định lượng:
◦ Sự tương quan chỉ áp dụng cho các biến định
lượng.
◦ Không dùng sự tương quan cho biến định tính.
◦ Kiểm tra đơn vị của các biến và chúng đo lường
cái gì.

©2010, Nguyễn Duy Long, Tiến Sỹ

2.

23

Điều kiện khá thẳng:
◦ Có thể tính (calculate) hệ số tương quan cho
bất cứ cặp biến nào.
◦ Nhưng sự tương quan chỉ đo lường độ chặt của
sự liên hợp tuyến tính và sẽ gây sai lệch

(misleading) nếu mối quan hệ không tuyến tính.

©2010, Nguyễn Duy Long, Tiến Sỹ

24

12


9/7/2010

3.

Điều kiện trị ngoại lệ:





Các trịị ngoại
g ạ lệ
ệ có thể g
gây
y lệch
ệ ((distort)) sự

tương quan rất lớn.
Một trị ngoại lệ có thể gây sự tương quan nhỏ
thành lớn hay dấu sự tương quan lớn.
Khi gặp trị ngoại lệ, nên trình bày sự tương

quan khi có và không có trị ngoại lệ đó.

©2010, Nguyễn Duy Long, Tiến Sỹ







25

Dấu của hệ số tương quan chỉ hướng của sự liên
hợp.
Hệ số tương quan luôn trong khoảng [-1, +1].
Sự tương quan đối xử x và y giống nhau
Không có đơn vị.

©2010, Nguyễn Duy Long, Tiến Sỹ

26

13


9/7/2010






Sự tương quan không bị ảnh hưởng bởi các thay
đổi trung tâm hay tỷ lệ của biến.
Sự tương quan đo độ chặt của sự liên hợp tuyến
tính giữa hai biến.
◦ Các biến có thể có sự liên hợp mạnh nhưng vẫn có sự
tương quan nhỏ nếu sự liên hợp là không tuyến tính.



Sự tương quan là rất nhạy với trị ngoại lệ.

©2010, Nguyễn Duy Long, Tiến Sỹ



Không đo tương quan các biến định tính.
Không nói sự tương quan khi có ý là sự liên hợp

Điểm



27

Nhiệt độ nướng (oF)

©2010, Nguyễn Duy Long, Tiến Sỹ

28


14


9/7/2010

Chú ý các trị ngoại lệ.

Hệ số IQ



Cở giày

©2010, Nguyễn Duy Long, Tiến Sỹ



29

Đừng nhầm sự tương quan (correlation) với
quan hệ nhân quả (causation).

Chứng minh: Cò
mang trẻ thơ đến
cho làng

Dân số của làng

◦ Không


phải
h mọi sự liên
l ê hệ
h là quan hệ
h nhân
hâ quả.

Số cò
©2010, Nguyễn Duy Long, Tiến Sỹ

30

15


9/7/2010



Chú ý các biến ẩn (lurking variables).

◦ Biến ẩn có thể đứng sau sự liên hệ và xác định nó bằng
cách tác động đồng thời hai biến
biến.



Ví dụ- Bài tập 26 (tr.163): Điều tra năm 2004 về
các quốc gia trên thế giới thấy rằng có độ tương

quan dương giữa phần trăm dân số dùng điện
thoại di động và tuổi thọ trung bình của quốc gia.

◦ Điều này có nghĩa là dùng điện thoại di động tốt cho sức
khỏe?
◦ Hay ngược lại, bạn càng sống lâu thì khả năng gọi di động
nhiều hơn?
◦ Cái gì có thể giải thích độ tương quan dương này?

©2010, Nguyễn Duy Long, Tiến Sỹ

31

Linear Regression

©2010, Nguyễn Duy Long, Tiến Sỹ

32

16


9/7/2010



Từ biểu đồ phân tán bên dưới:
◦ Có sự liên hợp chặt (mạnh)?
◦ Sự liên hợp có vẽ tuyến tính?


Dữ liệu từ 30 món trên
menu của Burger King

Chất b
béo (g)

Lượng chất béo và đạm cho thức ăn của Burger King

Đạm (g)
©2010, Nguyễn Duy Long, Tiến Sỹ







33

Sự tương quan lớn (âm hay dương) cho biết “có vẻ
có sự liên hợp tuyến tính giữa hai biến,” nhưng
không cho biết chính xác sự liên hợp đó là gì.

Chúng ta có thể biết nhiều hơn về sự liên hợp tuyến
tính giữa hai biến định lượng với một mô hình.
Mô hình tuyến tính (linear model) chỉ là một phương
trình đường thẳng qua dữ liệu.

©2010, Nguyễn Duy Long, Tiến Sỹ


34

17


9/7/2010

C
Chất béo (g)

• Bằng mắt thường, có thể vẽ đường thẳng qua dữ liệu?
• Phương pháp để xác định mô hình phù hợp nhất (“best fit”)

Đạm (g)
35







Mô hình sẽ không bao
g
giờ hoàn hảo bất kể vẽ
đường nào.
Một số điểm nằm trên
và một số nằm dưới
đường thẳng.
Sự ước lượng từ mô

hình gọi là giá trị dự
báo (predicted value)
(ký hiệu là ŷ)

Chất béo (g)

©2010, Nguyễn Duy Long, Tiến Sỹ

(số dư)

Đạm (g)

©2010, Nguyễn Duy Long, Tiến Sỹ

36

18


9/7/2010





Sự khác nhau giữa giá trị quan sát (observed value)
và giá trị dự báo tương ứng (predicted value) gọi là
số
ố (phần)
ầ dư (residual).

Tìm số dư:

Số dư = quan sát – dự báo = y – ŷ

©2010, Nguyễn Duy Long, Tiến Sỹ







37

Một số số dư dương, một số âm nên chung qui thì
có thể triệt tiêu lẫn nhau.
Vì thế không
khô
thể đánh
đá h giá
iá đường
đườ
thẳ
thẳng
vừa
ừ hợp
h
thế nào bằng cách cộng các số dư lại.
Tương tự như độ lệch chuẩn, chúng ta bình
phương số dư rồi cộng lại.

Tổng càng nhỏ thì các vừa hợp.
Đường phù hợp nhất là đường có tổng các bình
phương số dư nhỏ nhất.

©2010, Nguyễn Duy Long, Tiến Sỹ

38

19


9/7/2010



Thông số thứ nhất của mô hình, b1, là độ
nghiêng (slope):

b1  r



s

y

sx

Thông số thứ hai của mô hình, b0, là điểm chặn
(intercept):


b0  y  b1 x



trên
Với ví dụ về Burger King ở trên…

©2010, Nguyễn Duy Long, Tiến Sỹ

Đường hồi qui cho dữ liệu của Burger King:

yˆ (chatbeo)  6.8  0.97 x(dam)
Chất béo (g)
C



39

Đạm (g)
©2010, Nguyễn Duy Long, Tiến Sỹ

40

20


9/7/2010




Dịch một độ lệch chuẩn từ trị trung bình của x sẽ dịch
r lần độ lệch chuẩn từ trị trung bình của y.
◦ Biể
Biểu đồ phân
hâ tán
tá theo
th điểm
điể z
cho chất béo và đạm:

©2010, Nguyễn Duy Long, Tiến Sỹ





41

r không thể lớn hơn1, vì thế mỗi giá trị dự báo y có
khuynh hướng tiến gần trị trung bình hơn là giá trị
tương đối
ố của x.
Đặc điểm này của mô hình tuyến tính gọi là hồi qui
đến trị trung bình (regression to the mean); đường
thẳng gọi là đường hồi qui (regression line).

©2010, Nguyễn Duy Long, Tiến Sỹ


42

21


9/7/2010



Mô hình tuyến tính giả định sự liên hệ giữa hai biến
là đường thẳng hoàn hảo. Các số dư là một phần
của dữ liệu mà không được mô hình.
hay…
hay…

Dữ liệu = Mô hình + Số dư
Số dư = Dữ liệu – Mô hình

e  y  yˆ

©2010, Nguyễn Duy Long, Tiến Sỹ







43


Số dư giúp chúng ta xem mô hình có hợp lý
không.
Khi mô hình hồi qui hợp lý, không có điều lý thú
nào còn lại.
Sau khi có mô hình hồi qui, thường biểu diển
các số dư với hy vọng không tìm thấy gì.

◦ Không có đường cong hay các đường thẳng
◦ Không có sự biến thiên tăng hay giảm khi di chuyển dọc
trục x

©2010, Nguyễn Duy Long, Tiến Sỹ

44

22


9/7/2010

Các số dư cho hồi qui menu của Burger King trong
“chán”– không có dạng gì
Số dư (g chất béo)



Đạm (g)
45

©2010, Nguyễn Duy Long, Tiến Sỹ








Sự biến đổi của các số dư là chìa khóa để
đánh giá mô hình phù hợp ra sao.
Trong menu của Burger King,
chất béo có độ lệch chuẩn
là 16.4 gam. Độ lệch chuẩn
của các số dư từ sự dự báo
chất béo của mô hình là
9.2 gam.

Cái nào chỉ biến đổi nhiều hơn?
Chất béo

©2010, Nguyễn Duy Long, Tiến Sỹ

Số dư

46

23


9/7/2010








Nếu độ tương quan là1.0 và mô hình dự báo giá trị
chất béo hoàn hảo, tất cả các số dư sẽ băng không
và không có sự biến đổi
Với menu của Burger King, độ tương quan là 0.83 –
không hoàn hảo.
Tuy nhiên, chúng ta đã thấy các số dư của mô hình
ít biến đổi hơn so với chất béo.
Chúng ta có thể xác định sự biến đổi bao nhiêu
trong mô hình và bao nhiêu còn lại trong các số
dư.

©2010, Nguyễn Duy Long, Tiến Sỹ






47

Bình phương độ tương quan, R2, (“R-squared”) cho
biết phần biến đổi được xét trong mô hình.
1 R2 là phần biến đổi còn lại trong các số dư.
1–


Khi diễn tả mô hình hồi qui, cần cho biết ý nghĩa
của R2.

◦ Với mô hình về Burger King, R2 = 0.832 = 0.69,
◦ 69% của sự biến đổi của chất béo được xác định trong mô
hình.
◦ 31% (100% - 69%) sự biến đổi của chất béo còn lại trong
g các
số dư.

©2010, Nguyễn Duy Long, Tiến Sỹ

48

24


9/7/2010




R2 luôn giữa 0% và 100%.
Giá trị R2 tốt phụ thuộc vào loại dữ liệu đang phân
tích
í và
à muốn
ố làm
à gìì với kết

ế quả.

©2010, Nguyễn Duy Long, Tiến Sỹ





49

Điều kiện các biến định lượng:
◦ Các thống kê học cao hơn sẽ cho ta biết kết hợp
các dữ liệu định tính.
Điều kiện khá thẳng:
◦ Mô hình tuyến tính giả định sự liên hệ giữa hai
biến là tuyến tính.
◦ Biểu đồ phân tán sẽ giúp kiểm tra giả định này
hợp
p lý
ý không.
g

©2010, Nguyễn Duy Long, Tiến Sỹ

50

25



×