Tải bản đầy đủ (.doc) (16 trang)

Tiểu luận môn Hệ hỗ trợ quyết định Tương quan tuyến tính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.05 MB, 16 trang )

Tiểu luận môn Hệ hỗ trợ quyết định
I. Tương quan tuyến tính (Linear Correlation):
1. Đồ thị phân tán (Scatter Diagram):
Đồ thị phân tán của biến Y đối với biến X là tập hợp các điểm M(x
i
, y
i
)
trong hệ tọa độ vuông góc.
Dựa vào đồ thị phân tán ta có thể xác định được dạng quan hệ giữa 2
biến Y và X.
2. Tương quan tuyến tính (Linear Correlation)
Trong đồ thị phân tán, nếu các điểm M(x
i
, y
i
) qui tụ xung quanh một
đường thẳng (D) ta nói hai biến ngẫu Y và X có một sự tương quan tuyến tính.
Đường thẳng (D) được gọi là đường hồi qui tuyến tính (đường hòa hợp thẳng).
3. Hệ số tương quan ρ của tập hợp chính (The Population Correlation
Coefficient)
Gọi X, Y là cặp giá trị của các biến ngẫu nhiên với số trung bình là μx ,
μy và phương sai là
σ
2
x
,
σ
2
y
. Để đo lường mức độ quan hệ giữa X và Y người ta


dùng đại lượng hiệp tương quan (covariance) và hệ số tương quan (correlation
coefficent).
Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013
Trang 3
Y
X
Hình 1:Quan hệ tuyến tính
X
Hình 2:Quan hệ phi tuyến
Y
X
Hình 3: Không quan hệ
Tiểu luận môn Hệ hỗ trợ quyết định
a. Hiệp tương quan (Covariance)
)])([(),(
µµ
σ
yx
xy
yxEYXCov
−−==
b. Hệ số tương quan của tập hợp chính:
* Tính chất:
− ρ = +1 : X, Y tương quan tuyến tính dương tuyệt đối
− ρ = - 1 : X, Y tương quan tuyến tính âm tuyệt đối
− ρ = 0: X, Y không tương quan tuyến tính.
Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013
Trang 4
N
YXCov

N
i
y
i
x
i
xy
y
x

=
−−
==
1
))((
),(
µµ
σ
-1 ≤ ρ ≤ 1
Tiểu luận môn Hệ hỗ trợ quyết định
4. Hệ số tương quan r của mẫu
a. Hiệp tương quan của mẫu (Sample Covariance)
b. Hệ số tương quan của mẫu r (Sample Correlation Coefficient)
Ghi Chú
− -1 ≤ r ≤ 1
− r được dùng để ước lượng hướng và độ mạnh của mối quan hệ giữa
X,Y.
| r | > 0,8 tương quan mạnh
| r | = 0,4 - 0,8 tương quan trung bình
| r | < 0,4 tương quan yếu

| r | càng lớn thì tương quan giữa X và Y càng chặt
r > 0 hướng TN - ĐB, r < 0 hướng TB - ĐN
0 < r ≤ 1 : gọi là tương quan tuyến tính thuận (X↑, Y↑)
-1 ≤ r ≤ 0 : gọi là tương quan tuyến tính nghịch (X↑, Y↓)
− r là ước lượng của ρ
Ví dụ 1:
− Tính hệ số tương quan giữa 2 biến X, Y cho bởi bảng tương quan sau:
Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013
Trang 5
Tiểu luận môn Hệ hỗ trợ quyết định
X 0 1 2 3 4
Y 6 7 8 9 4
Giải
Số phần tử của mẫu n = 5
x
i
y
i
)( x
x
i

)( y
y
i

2
)( x
x
i


2
)( y
y
i

)( x
x
i

)( y
y
i

0
1
2
3
4
6
5
7
8
4
-2
-1
0
1
2
0

-1
1
2
-2
4
1
0
1
4
0
1
1
4
4
0
1
0
2
-4
10 30 10 10 -1
2
5
10
==x

6
5
30
==y
n=5

1,0
1010
1
)()(
)).((
5
1
5
1
22
5
1
−=
×

=
−×−
−−
=
∑ ∑

= =
=
i i
ii
i
ii
yyxx
yyxx
r

r = - 0,1 tương quan yếu.
Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013
Trang 6
Tiểu luận môn Hệ hỗ trợ quyết định
5. Kiểm định giả thuyết về ρ
Nếu chúng ta muốn kiểm định giả thuyết cho rằng các biến không có
tương quan tuyến tính thì ta phải kiểm định giả thuyết H0: ρ = 0. Ta có 3 trường
hợp:
Trường hợp 1:
Với
)2/()1(
2
2
−−
=

nr
r
t
n
r : hệ số tương quan của mẫu
n : cỡ mẫu
t
n-2
: tuân theo phân phối Student t với độ tự do n-2
Trường hợp 2:
Trường hợp 3
Ví dụ 2: Lấy mẫu ngẫu nhiên 2 biến X và Y ta có các giá trị (xi, yi) cho
bởi bảng sau:
X 13 18 9 25 36 19

Y 70 55 100 40 15 20
a. Tìm hệ số tương quan giưa hai biến X, Y
b. Kiểm định giả thiết cho rằng biến giữa X và Y không tương quan, với
α = 0.05
Giải:
a. Tính r
Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013
Trang 7
H
0
: ρ = 0
H
1
: ρ > 0
R : bác bỏ H0 nếu t
n-2
> - t
n - 2, α
Tiểu luận môn Hệ hỗ trợ quyết định
y
i
x
i
2
i
y
2
i
x
x

i
y
i
70
55
100
40
15
20
13
18
9
25
36
19
4900
3025
10000
1600
225
400
169
324
81
625
1296
361
910
991
900

1000
540
380
Tổng 300 120 20150 2856 4720
Hệ số tương quan
835,0
1030*2,91
256
−=

==
ss
s
yx
xy
r
tương quan mạnh
b) Kiểm định giả thuyết:
1. H
0
: ρ = 0
2. H
1
: ρ ≠ 0
3. α = 0,05 => α/2 = 0,025
n = 6 => n - 2 = 4
t
n -2, α/2
= t
4, 0,025

= 2,776
-t
n - 2 , α/2
= -2,776
4. r = -0,835
4/])835,0(1[
835,0
)2/()1(
22
2
−−

=
−−
=

nr
r
t
n
Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013
Trang 8
Tiểu luận môn Hệ hỗ trợ quyết định
t
n-2
= - 3,03
5. Ra quyết định
t
n - 2
= - 3,03 < - t

n -2, α/2
= -2,776
=> Bác bỏ H
0
.
Giữa 2 biến Y và X có tương quan nghịch.
II. Phân tích hồi qui tuyến tính:
1.Khái niệm:
Phân tích hồi qui là nghiên cứu sự phụ thuộc của một biến (biến phụ
thuộc hay còn gọi là biến được giải thích) vào một hay nhiều biến khác (biến
độc lập hay còn gọi là biến giải thích) với ý tưởng cơ bản là ước lượng (hay dự
đoán) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị đã biết của biến
độc lập.
* Một số ví dụ:
Vd1: Công ty địa ốc rất quan tâm đến việc liên hệ giữa giá bán một ngôi
nhà với các đặc trưng của nó như kích thước, diện tích sử dụng, số phòng ngủ và
phòng tắm, các loại thiết bị gia dụng, có hồ bơi hay không, cảnh quan có đẹp
không,
Vd2: Để nghiên cứu về chiều cao và cân nặng của các em học sinh trong
một trường, chúng ta lấy mẫu ngẫu nhiên gồm n học sinh và thu thập các số liệu
về chiều cao và cân nặng của n học sinh. Gọi X là biến ngẫu nhiên để đo chiều
cao của học sinh và Y là biến ngẫu nhiên chỉ cân nặng của học sinh. Với n học
sinh ta có n cặp giá trị (Y
i
, X
i
).
X(m) x
1
x

2
x
3
… x
i
… x
n
Y(kg) y
1
y
2
y
3
… y
i
… y
n
Trong phân tích hồi qui người ta lại xác định quan hệ giữa hai biến Y và
X dưới dạng phương trình toán học, từ đó ta có thể dự đoán được biến Y (biến
phụ thuộc, dependent variable) dựa vào biến X (biến độc lập, independent
variable)
2. Phân tích hồi qui giải quyết các vấn đề sau:
− Ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của
biến độc lập.
− Kiểm định giả thiết về bản chất của sự phụ thuộc.
− Dự đoán giá trị trung bình của biến phụ thuộc khi biết giá trị của các
biến độc lập.
− Kết hợp các vấn đề trên.
3. Mô hình hồi quy tuyến tính cổ điển:
Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013

Trang 9
Tiểu luận môn Hệ hỗ trợ quyết định
Giả sử X
1
, X
2
,…, X
k
là k biến độc lập dùng để dự báo và Y là biến phụ
thuộc cần dự báo.
Chẳng hạn, trong VD1 ở trên, Y là giá trị hiện hành. Khi đó Y phụ thuộc
chủ yếu vào các yếu tố sau :
1) X
1
là diện tích sử dụng (m
2
),
2) X
2
là vị trí vùng (thành phố, quận, huyện, …),
3) X
3
là giá của năm trước (qúy trước, tháng trước, …),
4) X
4
là chất lượng xây dựng (giá xây dựng trên một m
2
)
Sự phụ thuộc của biến Y theo các biến X
1

, X
2
,…, X
k
nói chung là phức
tạp. Mô hình hối quy tuyến tính cổ điển khẳng định Y phụ thuộc tuyến tính vào
các X
i
.
Y =
β
0
+
β
1
X
1
+ … +
β
k
X
k
+
ε
Trong đó
ε
là sai số ngẫu nhiên và
β
i
, với

ki ,1=
là các hệ số chưa biết .
Giả sử ta có n mẫu (bản ghi) nhận được từ thực nghiệm với các số liệu
của các thuộc tính X
1
, X
2
,…, X
k
và Y tương ứng tuân theo mô hình sau:
y
1
=
β
0
+
β
1
x
11
+ … +
β
k
x
1k
+
ε
1
y
2

=
β
0
+
β
1
x
21
+ … +
β
k
x
2k
+
ε
2

Y
n
=
β
0
+
β
1
x
n1
+ … +
β
k

x
1k
+
ε
n
Trong đó các sai số
ε
1
, …,
ε
n
thỏa ba điều kiện:
1) E(
ε
j
) = 0: việc đo đạc không chịu sai lệch hệ thống.
2) D(
ε
j
) = σ
2
: phương sai không đổi hay độ chuẩn xác đo đạc như nhau.
3) Cov(
ε
i
,
ε
j
) = 0 với i ≠ j.
Sự phụ thuộc trên có thể biểu diễn bằng ma trận:



được gọi là ma trận thiết kế.
Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013
Trang 10
+
y
1
y
2
y
4

1 x
11
x
12
… x
1k
1 x
21
x
22
… x
2k
1
1 x
n1
x
n2

… x
nk
  

=
β
1
β
2
β
k

ε
1
ε
2
ε
k

1 x
11
x
12
… x
1k
1 x
21
x
22
… x

2k
1
1 x
n1
x
n2
… x
nk
  

Ma trận X =
Với
β
=
β
1
β
2
β
k

ε
1
ε
2
ε
n


ε

=
Tiểu luận môn Hệ hỗ trợ quyết định
biểu thức phụ thuộc trên có thể viết lại: Y = X
β
+
ε
III. Ứng dụng minh họa:
1. Mô tả dữ liệu:
Dữ liệu lấy từ địa chỉ:
Tập dữ liệu được sử dụng trong tiểu luận được lấy từ một nghiên cứu đo lường
cholesterol trong máu của 18 bệnh nhân nam. Trong đó có 2 thuộc tính điều kiện là
Age (tuổi) và Bmi (Body Mass Index - Chỉ số khối lượng cơ thể là khối tượng cơ thể
tính theo đơn vị kg chia cho bình phương chiều cao tính bằng m
2
), thuộc tính quyết
định là Cholesterol (Chol).
Đồ thị phân bố của tập dữ liệu là
như sau:
Phân bố của tập dữ liệu cho thấy
mối liên hệ giữa độ tuổi (age) và
cholesterol là một đường thẳng (tuyến
tính), vì vậy chúng tôi chọn mô hình
hồi quy tuyến tính đơn: đầu vào có 2
biến, đầu ra 1 biến.
2. Giải bài toán:
Gọi x
1
là age, x
2
là bmi và y

là chol. Ta có mô hình hồi quy tuyến
tính như sau: y = β
0
+ β
1
x
1
+ β
2
x
2
. Với
18 mẫu thu được từ thực nghiệm ta có số liệu của các thuộc tính x
1,
x
2
và y. Có thể viết
lại dưới dạng ma trận Y = βX
Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013
Age Bmi Chol
46 25.4 3.5
20 20.6 1.9
52 26.2 4.0
30 22.6 2.6
57 25.4 4.5
25 23.1 3.0
28 22.7 2.9
36 24.9 3.8
22 19.8 2.1
43 25.3 3.8

57 23.2 4.1
33 21.8 3.0
22 20.9 2.5
63 26.7 4.6
40 26.4 3.2
48 21.2 4.2
28 21.2 2.3
49 22.8 4.0
Trang 11
chol
2.0 2.5 3.0 3.5 4.0 4.5
20 30 40 50 60
age
Tiểu luận môn Hệ hỗ trợ quyết định
1 46 25.4
1 20 20.6
1 52 26.2
1 30 22.6
1 57 25.4
1 25 23.1
X = 1 28 22.7
1 36 24.9
1 22 19.8
1 43 25.3
1 57 23.2
1 33 21.8
1 22 20.9
1 63 26.7
1 40 26.4
1 48 21.2

1 28 21.2
1 49 22.8
Ma trận chuyển vị
Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013
Trang 12
Tiểu luận môn Hệ hỗ trợ quyết định
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
X’= 46 2 0 52 30 57 25 2 8 36 22 43 57 3 3 2 2 63 40 48 2 8 49
25.4 20.6 26.2 22.6 25.4 23.1 22.7 24.9 19.8 25.3 23.2 21.8 20.9 26.7 26.4 21.2 21.2 22.8
Từ đó ta có :
X
T
X=
Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013
Trang 13
0.0018 0.0699 0.0420
0.0699 3.0287 1.6670
0.0420 1.6670 0.9892
Tiểu luận môn Hệ hỗ trợ quyết định
Đặt (X
T
X)
-1
=
=> (X
T
X) (X
T
X)
-1

=

=> (X
T
X)
-1
X
T
=
Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013
Trang 14
a b c
d e g
i h k
1 0 0
0 1 0
0 0 1
0.0018 0.0699 0.0420
0.0699 3.0287 1.6670
0.0420 1.6670 0.9892
a b c
d e g
i h k
1 0 0
0 1 0
0 0 1
a b c
d e g
i h k
8.9207 0.0371 -0.4414

0.0371 0.0006 -0.0026
-0.4414 -0.0026 0.0232
-0.5861 0.5687 -0.7168 0.0566 -0.1782 -0.3495 -0.0617 -0.7362 0.9960 -0.6532 0.7929 0.5210 0.5104 -0.5296 -1.2500 1.3421 0.6005 0.6729
-0.0010 -0.0043 0.0006 -0.0034 0.0057 -0.0078 -0.0049 -0.0058 -0.0010 -0.0025 0.0115 0.0005 -0.0039 0.0060 -0.0072 0.0112 -0.0010 0.0076
0.0291 -0.0148 0.0321 0.0057 0.0005 0.0303 0.0132 0.0435 -0.0386 0.0346 -0.0506 -0.0207 -0.0130 0.0151 0.0680 -0.0737 -0.0216 -0.0391
=
=>
=
Tiểu luận môn Hệ hỗ trợ quyết định
Ta có :
Y=
=>(X
T
X)
-1
X
T
Y =
Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013
3.5
1.9
4.0
2.6
4.5
3.0
2.9
3.8
2.1
3.8
4.1

3.0
2.5
4.6
3.2
4.2
2.3
4.0
Trang 15
0.4555
0.0541
0.0334
Tiểu luận môn Hệ hỗ trợ quyết định
=>
Vậy ta có phương trình hồi quy tuyến tính :
y = 0.4555 + 0.0541x
1
+ 0.0334x
2
Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013
Trang 16
β
0
= 0.4555
β
1
= 0.0541
β
2
= 0.0334
Tiểu luận môn Hệ hỗ trợ quyết định

MỤC LỤC
Mục lục 2
I. Tương quan tuyến tính (Linear Correlation) 3
1. Đồ thị phân tán (Scatter Diagram): 3
2. Tương quan tuyến tính (Linear Correlation) 3
3. Hệ số tương quan ρ của tập hợp chính (The Population Correlation
Coefficient) 3
4. Hệ số tương quan r của mẫu 5
5. Kiểm định giả thuyết về ρ 7
II. Phân tích hồi qui tuyến tính 9
1.Khái niệm 9
2. Phân tích hồi qui giải quyết các vấn đề sau 9
3. Mô hình hồi quy tuyến tính cổ điển 9
III. Ứng dụng minh họa 11
1. Mô tả dữ liệu 11
2. Giải bài toán 12
Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013
Trang 17
Tiểu luận môn Hệ hỗ trợ quyết định
Bảng phân công nhiệm vụ
I. Tương quan tuyến tính : Hưng, Ngọc
II. Phân tích hồi quy tuyến tính : Chiến, Cự
III. Ứng dụng minh họa : Hoàng
Nhóm thực hiện: Nhóm 4, lớp KHMT khóa 2011 – 2013
Trang 18

×