Tải bản đầy đủ (.pdf) (52 trang)

Hồi quy dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (735.35 KB, 52 trang )

1
1
Ch
Ch
ươ
ươ
ng
ng
3:
3:
Hồi
Hồi
qui
qui
dữ
dữ
liệu
liệu
Họckỳ 1 – 2011-2012
Khoa
Khoa
Khoa
Khoa
Học
Học
&
&
Kỹ
Kỹ
Thuật
Thuật


Máy
Máy
Tính
Tính
Tr
Tr
ư
ư
ờng
ờng
Đ
Đ
ại
ại
Học
Học
Bách
Bách
Khoa
Khoa
Tp
Tp
.
.
Hồ
Hồ
Chí
Chí
Minh
Minh

Cao
Cao
Học
Học
Ngành
Ngành
Khoa
Khoa
Học
Học
Máy
Máy
Tính
Tính
Giáo
Giáo
trình
trình
đ
đ
iện
iện
tử
tử
Biên
Biên
soạn
soạn
bởi
bởi

: TS.
: TS.


Thị
Thị
Ngọc
Ngọc
Châu
Châu
(
(


)
)
2
2
Tài liệuthamkhảo

[1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and
Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006.

[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data
Mining”, MIT Press, 2001.

[3] David L. Olson, Dursun Delen, “Advanced Data Mining
Techniques”, Springer-Verlag, 2008.

[4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory,

Methodology, Techniques, and Applications”, Springer-Verlag, 2006.

[5] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and
Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis
Group, LLC, 2009.

[6] Daniel T. Larose, “Data mining methods and models”, John Wiley
& Sons, Inc, 2006.

[7] Ian H.Witten, Eibe Frank, “Data mining : practical machine
learning tools and techniques”, Second Edition, Elsevier Inc, 2005.

[8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,
“Successes and new directions in data mining”, IGI Global, 2008.

[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge
Discovery Handbook”, Second Edition, Springer Science + Business
Media, LLC 2005, 2010.
3
3
Nộidung

Chương 1: Tổng quan về khai phá dữ liệu

Chương 2: Các vấn đề tiềnxử lý dữ liệu

Chương 3: Hồiqui dữ liệu

Chương 4: Phân loạidữ liệu


Chương 5: Gom cụmdữ liệu

Chương 6: Luậtkếthợp

Chương 7: Khai phá dữ liệuv
àcôngnghệ cơ sở dữ
liệu

Chương 8:
Ứng dụng
khai phá dữ liệu

Ch
ương 9: Các đề tài nghiên cứutrongkhaiphádữ
liệu

Chương 10: Ôn tập
4
4
Chương 3: Hồiqui dữ liệu

3.1. T
ổng quan về hồiqui

3.2. H
ồiqui tuyếntính

3.3. H
ồiqui phi tuyến


3.4.
Ứng dụng

3.5. C
ác vấn đề vớihồiqui

3.6. Tóm tắt
5
5
3.0. Tình huống 1
Ngày mai
giá cổ phiếu
STB sẽ là
bao nhiêu???
6
6
3.0. Tình huống 2
x
y
y = x + 1
X1
Y1
Y1’
Mô hình phân bố dữ liệucủa y theo x???
7
7
3.0. Tình huống 3
Bàitoánphântíchgiỏ hàng thị
trường (market basket analysis)
Æ sự kếthợpgiữacácmặthàng?

8
8
3.0. Tình huống 4

Khảosátcácyếutố tác động đếnxuhướng
sử dụng quảng cáo trựctuyếntạiViệtNam

Sự giảitrícảmnhận (+0.209)

Chấtlượng thông tin (+0.261)

Chấtlượng thông tin cảmnhận (+0.199)

Sự khó chịucảmnhận (-0.175)

Sự tin cậycảmnhận

Thái độ về tính riêng tư

Sự tương tác (+0.373)

Chuẩnchủ quan (+0.254)

Nhậnthứckiểm soát hành vi (+0.377)
9
9
3.0. Tình huống …

Hồi qui (regression)


Khai phá dữ liệucótínhdự báo (Predictive data
mining)

Tình huống ???

Khai phá dữ liệucótínhmôtả (Descriptive data
mining)

Tình huống ???
10
10
3.1. Tổng quan về hồiqui

Định nghĩa-Hồi qui (regression)

J. Han et al (2001, 2006): Hồiqui làkỹ thuậtthống
kê cho phép dựđoán các trị (số) liên tục.

Wiki (2009): Hồi qui (Phân tích hồiqui –regression
analysis) là kỹ thuậtthống kê cho phép ướclượng
các mốiliênkếtgiữacácbiến

R. D. Snee (1977): Hồi qui (Phân tích hồiqui) làkỹ
thuậtthống kê trong lĩnh vựcphântíchdữ liệuvà
xây dựng các mô hình từ thựcnghiệm, cho phép
mô hình hồiqui vừa được khám phá được dùng cho
mục đích dự báo (prediction), điềukhiển (control),
hay học (learn) cơ chếđãtạoradữ liệu.
R. D. Snee, Validation of Regression Models: Methods and Examples, Technometrics,
Vol. 19, No. 4. (Nov., 1977), pp. 415-428.

11
11
3.1. Tổng quan về hồiqui

M
ôhìnhhồi qui (regression model): mô hình mô
tả mối liên kết (relationship) giữamộttậpcác
biếndự báo (predictor variables/independent
variables) và một hay nhiều đáp ứng
(responses/dependent variables).
Y = f(X, β)
X: các biếndự báo (predictor/independent variables)
Y: các đáp ứng (responses/dependent variables)
β: các hệ số hồi qui (regression coefficients)
12
12
3.1. Tổng quan về hồiqui

Phương trình hồiqui: Y = f(X, β)

X: các biếndự báo (predictor/independent
variables)

Y: các đáp ứng (responses/dependent variables)

β: các hệ số hồi qui (regression coefficients)
Æ
X dùng để giảithíchsự biến đổicủacácđáp ứng Y.
Æ
Y dùng đề mô tả các hiệntượng (phenomenon)

được quan tâm/giảithích.
Æ
Quan hệ giữaY vàX đượcdiễntả bởisự phụ thuộc
hàm củaY đốivớiX.
Æ
β mô tả sựảnh hưởng của X đối với Y.
13
13
3.1. Tổng quan về hồiqui

Ph
ân loại

Hồi qui tuyến tính (linear) và phi tuyến
(nonlinear)

Hồi qui đơnbiến (single) và đabiến (multiple)

Hồi qui có thông số (parametric), phi thông số
(nonparametric), và thông số kếthợp
(semiparametric)

Hồi qui đốixứng (symmetric) và bất đốixứng
(asymmetric)
14
14
3.1. Tổng quan về hồiqui

Ph
ân loại


Hồi qui tuyến tính
(linear) và phi tuyến
(nonlinear)

Linear in parameters:
kếthợptuyến tính các
thông số tạonênY

Nonlinear in
parameters: kếthợp
phi tuyến các thông số
tạonênY
[Regression and Calibration.ppt]
15
15
3.1. Tổng quan về hồiqui

Ph
ân loại

Hồi qui đơnbiến (single) và đabiến (multiple)

Single: X = (X1)

Multiple: X = (X1, X2, …, Xk)
12
ˆ
6.3972 20.4921 0.2805yxx=+ +
ˆ

26.89 4.06yx
= +
[Chapter 6 Regression and Correlation.ppt]
16
16
3.1. Tổng quan về hồiqui

Ph
ân loại

Hồiqui cóthôngsố (parametric), phi thông số (nonparametric),
và thông số kếthợp (semiparametric)

Parametric: mô hình hồiqui vớihữuhạn thông số

Nonparametric: mô hình hồiqui vớivôhạn thông số

Semiparametric: mô hình hồi qui vớihữuhạn thông sốđược quan tâm
[Wikipedia]
[GAM - nonparameteric regression technique.ppt]
P. Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003.
Y = β0 + β1*X1 + f(X2)
Semiparametric
Y = β0 + f(X)
Nonparametric
Y = β0 + β1*X
Parametric
Mathematical FormTypes of (Additive) Model
17
17

3.1. Tổng quan về hồiqui

Ph
ân loại

Hồi qui đốixứng (symmetric) và bất đốixứng
(asymmetric)

Symmetric: mô hình hồiqui cótínhmôtả (descriptive) (eg.
log-linear models)
 The objective of the analysis is descriptive – to describe
the associative structure among the variables.

Asymmetric: mô hình hồi qui có tính dự báo (predictive)
(eg. linear regression models, logistic regression models )
 The variables are divided in two groups, response and
explanatory – to predict the responses on the basis of the
explanatory variables.
Æ Generalized linear models: symmetric vs. asymmetric
P. Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003.
18
18
3.2. Hồi qui tuyếntính

Hồiqui tuyếntínhđơnbiến

Đường hồi qui (regression line)

Hồiqui tuyếntínhđabiến


M
ặtphẳng hồi qui (regression plane)
19
19
3.2.1. Hồiqui tuyếntínhđơnbiến
Cho N đốitượng đã được quan sát, mô hình hồiqui tuyến
tính đơnbiến đượcchodướidạng sau với ε
i
dùng giữ phần
biếnthiêncủa đáp ứng Y không đượcgiảithíchtừ X:
-Dạng đường thẳng
-Dạng parabola
20
20
3.2.1. Hồiqui tuyếntínhđơnbiến
•Y= β0 + β1*X1 → Y = 0.636 + 2.018*X
•Dấucủa β1 cho biếtsựảnh hưởng củaX đốivớiY.
21
21
3.2.1. Hồiqui tuyếntínhđơnbiến

Ướclượng bộ thông sốβ( ) để đạt đượcmô
hình hồiqui tuyếntínhđơnbiến
Thặng dư (residual)
Tổng thặng dư bình
phương (sum of
squared residuals)
Æ tốithiểuhóa
Trịướclượng của β
Giảđịnh (assumptions): thành phầnlỗicóphương sai (variance) là hằng số,

tuân theo phân bố chuẩn (normal distribution).
x
i
, y
i
: trị củax, y từ tậpdữ liệu
huấnluyện
x, y: trị trung bình từ tậpdữ liệu
huấnluyện
ŷ
i
: trịướclượng vớibộ thông số β
22
22
3.2.2. Hồiqui tuyếntínhđabiến

Hồiqui tuyếntínhđabiến: phân tích mối
quan hệ giữabiếnphụ thuộc
(response/dependent variable) và hai hay
nhiềubiến độclập (independent variables)
y
i
= b
0
+ b
1
x
i1
+ b
2

x
i2
+ … + b
k
x
ik
i = 1..n vớin làsốđốitượng đã quan sát
k = số biến độclập(số thuộc tính/tiêu chí/yếutố…)
Y = biếnphụ thuộc
X = biến độclập
b
0
= trị củaY khiX = 0
b
1..k
= trị củacáchệ số hồiqui
23
23
3.2.2. Hồiqui tuyếntínhđabiến
01122
ˆ
kk
y bbxbx bx= ++ ++K
( )
YXXXb
TT
1−
=
1,1 1,2 1,
10

2,1 2,2 2,
21
,1 ,2 ,
1
1
, ,
1
k
k
nn nk
nk
xx x
Yb
xx x
Yb
xx x
Yb

 

 

 
== =

 

 
 


YX b
K
K
MM M M
MM
K
Trịướclượng củaY
Trịướclượng của
bộ thông số b
24
24
3.2.2. Hồiqui tuyếntínhđabiến

Example: a sales manager of Tackey Toys,
needs to predict sales of Tackey products in
selected market area. He believes that
advertising expenditures and the population
in each market area can be used to predict
sales. He gathered sample of toy sales,
advertising expenditures and the population
as below. Find the linear multiple
regression equation which the best fit to
the data.
[Chapter 6 Regression and Correlation.ppt]
25
25
3.2.2. Hồiqui tuyếntínhđabiến
40060010.0F
1001003.0E
2004006.0D

4008008.0C
3007005.0B
1002001.0A
Toy sales
(Thousands of Dollars) y
Population
(Thousands)
x
2
Advertising Expenditures
(Thousands of Dollars)
x
1
Market
Area
[Chapter 6 Regression and Correlation.ppt]

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×