1
1
Ch
Ch
ươ
ươ
ng
ng
3:
3:
Hồi
Hồi
qui
qui
dữ
dữ
liệu
liệu
Họckỳ 1 – 2011-2012
Khoa
Khoa
Khoa
Khoa
Học
Học
&
&
Kỹ
Kỹ
Thuật
Thuật
Máy
Máy
Tính
Tính
Tr
Tr
ư
ư
ờng
ờng
Đ
Đ
ại
ại
Học
Học
Bách
Bách
Khoa
Khoa
Tp
Tp
.
.
Hồ
Hồ
Chí
Chí
Minh
Minh
Cao
Cao
Học
Học
Ngành
Ngành
Khoa
Khoa
Học
Học
Máy
Máy
Tính
Tính
Giáo
Giáo
trình
trình
đ
đ
iện
iện
tử
tử
Biên
Biên
soạn
soạn
bởi
bởi
: TS.
: TS.
Võ
Võ
Thị
Thị
Ngọc
Ngọc
Châu
Châu
(
(
)
)
2
2
Tài liệuthamkhảo
[1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and
Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006.
[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data
Mining”, MIT Press, 2001.
[3] David L. Olson, Dursun Delen, “Advanced Data Mining
Techniques”, Springer-Verlag, 2008.
[4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory,
Methodology, Techniques, and Applications”, Springer-Verlag, 2006.
[5] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and
Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis
Group, LLC, 2009.
[6] Daniel T. Larose, “Data mining methods and models”, John Wiley
& Sons, Inc, 2006.
[7] Ian H.Witten, Eibe Frank, “Data mining : practical machine
learning tools and techniques”, Second Edition, Elsevier Inc, 2005.
[8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,
“Successes and new directions in data mining”, IGI Global, 2008.
[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge
Discovery Handbook”, Second Edition, Springer Science + Business
Media, LLC 2005, 2010.
3
3
Nộidung
Chương 1: Tổng quan về khai phá dữ liệu
Chương 2: Các vấn đề tiềnxử lý dữ liệu
Chương 3: Hồiqui dữ liệu
Chương 4: Phân loạidữ liệu
Chương 5: Gom cụmdữ liệu
Chương 6: Luậtkếthợp
Chương 7: Khai phá dữ liệuvàcôngnghệ cơ sở dữ
liệu
Chương 8: Ứng dụng khai phá dữ liệu
Chương 9: Các đề tài nghiên cứutrongkhaiphádữ
liệu
Chương 10: Ôn tập
4
4
Chương 3: Hồiqui dữ liệu
3.1. Tổng quan về hồiqui
3.2. Hồiqui tuyếntính
3.3. Hồiqui phi tuyến
3.4. Ứng dụng
3.5. Các vấn đề vớihồiqui
3.6. Tóm tắt
5
5
3.0. Tình huống 1
Ngày mai
giá cổ phiếu
STB sẽ là
bao nhiêu???
6
6
3.0. Tình huống 2
x
y
y = x + 1
X1
Y1
Y1’
Mô hình phân bố dữ liệucủa y theo x???
7
7
3.0. Tình huống 3
Bàitoánphântíchgiỏ hàng thị
trường (market basket analysis)
Æ sự kếthợpgiữacácmặthàng?
8
8
3.0. Tình huống 4
Khảosátcácyếutố tác động đếnxuhướng
sử dụng quảng cáo trựctuyếntạiViệtNam
Sự giảitrícảmnhận (+0.209)
Chấtlượng thông tin (+0.261)
Chấtlượng thông tin cảmnhận (+0.199)
Sự khó chịucảmnhận (-0.175)
Sự tin cậycảmnhận
Thái độ về tính riêng tư
Sự tương tác (+0.373)
Chuẩnchủ quan (+0.254)
Nhậnthứckiểm soát hành vi (+0.377)
9
9
3.0. Tình huống …
Hồi qui (regression)
Khai phá dữ liệucótínhdự báo (Predictive data
mining)
Tình huống ???
Khai phá dữ liệucótínhmôtả (Descriptive data
mining)
Tình huống ???
10
10
3.1. Tổng quan về hồiqui
Định nghĩa-Hồi qui (regression)
J. Han et al (2001, 2006): Hồiqui làkỹ thuậtthống
kê cho phép dựđoán các trị (số) liên tục.
Wiki (2009): Hồi qui (Phân tích hồiqui –regression
analysis) là kỹ thuậtthống kê cho phép ướclượng
các mốiliênkếtgiữacácbiến
R. D. Snee (1977): Hồi qui (Phân tích hồiqui) làkỹ
thuậtthống kê trong lĩnh vựcphântíchdữ liệuvà
xây dựng các mô hình từ thựcnghiệm, cho phép
mô hình hồiqui vừa được khám phá được dùng cho
mục đích dự báo (prediction), điềukhiển (control),
hay học (learn) cơ chếđãtạoradữ liệu.
R. D. Snee, Validation of Regression Models: Methods and Examples, Technometrics,
Vol. 19, No. 4. (Nov., 1977), pp. 415-428.
11
11
3.1. Tổng quan về hồiqui
Môhìnhhồi qui (regression model): mô hình mô
tả mối liên kết (relationship) giữamộttậpcác
biếndự báo (predictor variables/independent
variables) và một hay nhiều đáp ứng
(responses/dependent variables).
Y = f(X, β)
X: các biếndự báo (predictor/independent variables)
Y: các đáp ứng (responses/dependent variables)
β: các hệ số hồi qui (regression coefficients)
12
12
3.1. Tổng quan về hồiqui
Phương trình hồiqui: Y = f(X, β)
X: các biếndự báo (predictor/independent
variables)
Y: các đáp ứng (responses/dependent variables)
β: các hệ số hồi qui (regression coefficients)
Æ X dùng để giảithíchsự biến đổicủacácđáp ứng Y.
Æ Y dùng đề mô tả các hiệntượng (phenomenon)
được quan tâm/giảithích.
Æ Quan hệ giữaY vàX đượcdiễntả bởisự phụ thuộc
hàm củaY đốivớiX.
Æ β mô tả sựảnh hưởng của X đối với Y.
13
13
3.1. Tổng quan về hồiqui
Phân loại
Hồi qui tuyến tính (linear) và phi tuyến
(nonlinear)
Hồi qui đơnbiến (single) và đabiến (multiple)
Hồi qui có thông số (parametric), phi thông số
(nonparametric), và thông số kếthợp
(semiparametric)
Hồi qui đốixứng (symmetric) và bất đốixứng
(asymmetric)
14
14
3.1. Tổng quan về hồiqui
Phân loại
Hồi qui tuyến tính
(linear) và phi tuyến
(nonlinear)
Linear in parameters:
kếthợptuyến tính các
thông số tạonênY
Nonlinear in
parameters: kếthợp
phi tuyến các thông số
tạonênY
[Regression and Calibration.ppt]
15
15
3.1. Tổng quan về hồiqui
Phân loại
Hồi qui đơnbiến (single) và đabiến (multiple)
Single: X = (X1)
Multiple: X = (X1, X2, …, Xk)
12
ˆ
6.3972 20.4921 0.2805yxx=+ +
ˆ
26.89 4.06yx
=
+
[Chapter 6 Regression and Correlation.ppt]
16
16
3.1. Tổng quan về hồiqui
Phân loại
Hồiqui cóthôngsố (parametric), phi thông số (nonparametric),
và thông số kếthợp (semiparametric)
Parametric: mô hình hồiqui vớihữuhạn thông số
Nonparametric: mô hình hồiqui vớivôhạn thông số
Semiparametric: mô hình hồi qui vớihữuhạn thông sốđược quan tâm
[Wikipedia]
[GAM - nonparameteric regression technique.ppt]
P. Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003.
Y = β0 + β1*X1 + f(X2)
Semiparametric
Y = β0 + f(X)
Nonparametric
Y = β0 + β1*X
Parametric
Mathematical FormTypes of (Additive) Model
17
17
3.1. Tổng quan về hồiqui
Phân loại
Hồi qui đốixứng (symmetric) và bất đốixứng
(asymmetric)
Symmetric: mô hình hồiqui cótínhmôtả (descriptive) (eg.
log-linear models)
The objective of the analysis is descriptive – to describe
the associative structure among the variables.
Asymmetric: mô hình hồi qui có tính dự báo (predictive)
(eg. linear regression models, logistic regression models )
The variables are divided in two groups, response and
explanatory – to predict the responses on the basis of the
explanatory variables.
Æ Generalized linear models: symmetric vs. asymmetric
P. Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003.
18
18
3.2. Hồi qui tuyếntính
Hồiqui tuyếntínhđơnbiến
Đường hồi qui (regression line)
Hồiqui tuyếntínhđabiến
Mặtphẳng hồi qui (regression plane)
19
19
3.2.1. Hồiqui tuyếntínhđơnbiến
Cho N đốitượng đã được quan sát, mô hình hồiqui tuyến
tính đơnbiến đượcchodướidạng sau với ε
i
dùng giữ phần
biếnthiêncủa đáp ứng Y không đượcgiảithíchtừ X:
-Dạng đường thẳng
-Dạng parabola
20
20
3.2.1. Hồiqui tuyếntínhđơnbiến
•Y= β0 + β1*X1 → Y = 0.636 + 2.018*X
•Dấucủa β1 cho biếtsựảnh hưởng củaX đốivớiY.
21
21
3.2.1. Hồiqui tuyếntínhđơnbiến
Ướclượng bộ thông sốβ( ) để đạt đượcmô
hình hồiqui tuyếntínhđơnbiến
Thặng dư (residual)
Tổng thặng dư bình
phương (sum of
squared residuals)
Æ tốithiểuhóa
Trịướclượng của β
Giảđịnh (assumptions): thành phầnlỗicóphương sai (variance) là hằng số,
tuân theo phân bố chuẩn (normal distribution).
x
i
, y
i
: trị củax, y từ tậpdữ liệu
huấnluyện
x, y: trị trung bình từ tậpdữ liệu
huấnluyện
ŷ
i
: trịướclượng vớibộ thông số β
22
22
3.2.2. Hồiqui tuyếntínhđabiến
Hồiqui tuyếntínhđabiến: phân tích mối
quan hệ giữabiếnphụ thuộc
(response/dependent variable) và hai hay
nhiềubiến độclập (independent variables)
y
i
= b
0
+ b
1
x
i1
+ b
2
x
i2
+ … + b
k
x
ik
i = 1 n vớin làsốđốitượng đã quan sát
k = số biến độclập(số thuộc tính/tiêu chí/yếutố…)
Y = biếnphụ thuộc
X = biến độclập
b
0
= trị củaY khiX = 0
b
1 k
= trị củacáchệ số hồiqui
23
23
3.2.2. Hồiqui tuyếntínhđabiến
01122
ˆ
kk
y
bbxbx bx
=
++ ++K
(
)
YXXXb
TT
1−
=
1,1 1,2 1,
10
2,1 2,2 2,
21
,1 ,2 ,
1
1
, ,
1
k
k
nn nk
nk
xx x
Yb
xx x
Yb
xx x
Yb
== =
YX b
K
K
MM M M
MM
K
Trịướclượng củaY
Trịướclượng của
bộ thông số b
24
24
3.2.2. Hồiqui tuyếntínhđabiến
Example: a sales manager of Tackey Toys,
needs to predict sales of Tackey products in
selected market area. He believes that
advertising expenditures and the population
in each market area can be used to predict
sales. He gathered sample of toy sales,
advertising expenditures and the population
as below. Find the linear multiple
regression equation which the best fit to
the data.
[Chapter 6 Regression and Correlation.ppt]
25
25
3.2.2. Hồiqui tuyếntínhđabiến
40060010.0F
1001003.0E
2004006.0D
4008008.0C
3007005.0B
1002001.0A
Toy sales
(Thousands of Dollars) y
Population
(Thousands)
x2
Advertising Expenditures
(Thousands of Dollars)
x1
Market
Area
[Chapter 6 Regression and Correlation.ppt]