HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
NGUYỄN THANH HẢI
ĐỀ TÀI
NGHIÊN CỨU PHƯƠNG PHÁP HỌC CHUYỂN GIAO CHO
LỌC CỘNG TÁC
8
LUẬN VĂN THẠC SĨ KỸ THUẬT
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
NGUYỄN THANH HẢI
ĐỀ TÀI
NGHIÊN CỨU PHƯƠNG PHÁP HỌC CHUYỂN GIAO CHO
LỌC CỘNG TÁC
60.48.01.04 8
LUẬN VĂN THẠC SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN DUY PHƯƠNG
i
LỜI CẢM ƠN
Trong thi gian hc tp ti Hc vi
c s y bng dn tin gi li
cc bit xin gi li cng nht
ti thy n Duy ng dn em trong sut
c hit nghi
12CQCT01
.
-
k thut
.
!
Học viên
Nguyễn Thanh Hải
ii
LỜI CAM ĐOAN
u c liu, kt
qu trong bt
k
Hà Nội, ngày tháng năm 2013
Tác giả luận văn
Nguyễn Thanh Hải
iii
MỤC LỤC
MỤC LỤC iii
DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT v
DANH MỤC CÁC BẢNG vi
DANH MỤC CÁC HÌNH vii
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀ HỌC CHUYỂN GIAO 3
1.1. Gii thiu chung 3
1.2. 3
1.3. c chuyn giao 4
1.3.1. Hc chuyn giao quy np (Inductive transfer learning) 4
1.3.2. Hc chuyng (Transductive transfer learning) 5
1.3.3. Hc chuy 5
1.3.4. Tng kc chuyn giao: 6
1.4. Chuyn giao tri th hun luyn (Transferring knowledge of instances) . 7
1.4.1. Chuyn giao tri th hun luyn trong hc quy np 7
1.4.2. Chuyn giao tri th hun luyn trong hng 8
1.5. Chuyn giao tri thc t biu di 9
1.5.1. Chuyn giao tri thc t biu dic chuyn giao quy np 9
1.5.2. Chuyn giao tri thc t biu dic chuyng 9
1.5.3. Chuyn giao tri thc t biu di 9
1.6. Chuyn giao tri thc t 10
1.7. ng dng ca hc chuyn giao 10
1.8.Kết luận chương 1 10
CHƯƠNG 2: LỌC CỘNG TÁC BẰNG PHƯƠNG PHÁP HỌC CHUYỂN GIAO 12
2.1. c c 12
2.2. Mt s 13
iv
2.3. Lc c nh 14
2.3.1. 15
2.3.2. Hn ch c--Based 16
2.3.3. i tin 17
2.4. c chuyn giao cho lc c 18
2.4.1. Hc chuyn giao t n sn phm 18
2.4.2. Hc chuyn giao t sn ph 20
2.4.3. Kt hp gia hai ki 22
2.4.3.1. - UserBased 23
2.4.3.2. -ItemBased 27
2.5. minh ha 30
2.6. Kết luận chương 2 37
CHƯƠNG 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ 38
3.1. D liu th nghim 38
3.2. nghim 39
3.3. Kt qu th nghim 40
3.4. t qu 43
3.5. Kết luận chương 3 45
KẾT LUẬN 47
TÀI LIỆU THAM KHẢO 48
v
DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT
Từ viết tắt
Từ đầy đủ
Nghĩa của từ
CF
Collaborative Filtering
Lc c
ITL
Inductive Transfer Learning
Hc chuyn giao quy np
MAE
Mean Absolute Error
tuyi
li
TL
Transfer Learning
Hc chuyn giao
TTL
Transductive Transfer Learning
Hc chuyn giao ng
STC
Self-Taught Clustering
T m
UTL
Unsupervised Transfer Learning
Hc chuy
vi
DANH MỤC CÁC BẢNG
Bảng 1.1 Phân loại các phương pháp học chuyển giao 6
Bảng 1.2 Phân loại theo tình trạng dữ liệu 7
Bảng 2.1 Ma trận đánh giá người dùng - sản phẩm 13
Bảng 2.2 Ma trận đánh giá theo quan sát từ người dùng 20
Bảng 2.3 Ma trận đánh giá theo quan sát từ sản phẩm 22
Bảng 2.4 Ma trận đánh giá ban đầu 31
Bảng 2.5 Ma trận đánh giá quan sát theo người dùng 33
Bảng 2.6 Ma trận đánh giá quan sát theo sản phẩm 34
Bảng 2.7 Bảng mức độ tương tự giữa các sản phẩm 35
Bảng 2.8 Ma trận kết quả Transfer – UserBased sau vòng lặp t=1 36
Bảng 2.9 Bảng mức độ tương quan giữa các người dùng 36
Bảng 2.10 Ma trận kết quả của phương pháp Transfer-UserBased 37
Bảng 3.1 Bảng ví dụ đánh giá độ đo trung bình tuyệt đối 40
Bảng 3.2 Kết quả thực nghiệm phương pháp học chuyển giao dựa vào người dùng 41
Bảng 3.3: Kết quả thực nghiệm phương pháp học chuyển giao dựa vào sản phẩm 42
Bảng 3.4 Giá trị MAE trên tập ml -100K 44
vii
DANH MỤC CÁC HÌNH
Hình 2.1 Thuật toán Transfer -UserBased 23
Hình 2.2 Thuật toán Transfer-ItemBased 27
Hình 3.1 Kết quả thực nghiệm phương pháp học chuyển giao dựa vào người dùng 42
Hình 3.2 Kết quả thực nghiệm phương pháp học chuyển giao dựa vào sản phẩm 43
Hình 3.3 Giá trị MAE trên tập ml-100K 44
1
MỞ ĐẦU
i s ci din
vi v thii phi din vi v
h thn dch v ng dn t
n trn thit trong vi a
chc nhng sn ph thu l
h thlc theo ni dung Content-c c
Collaborative Filtering. Tronc cch
dng sn phm ca c
gng sn php cho m
hiu qu c c ng u h thng
n t.
u trin khai ng d nh nhng v
chung cc ct d liu hun luyn, x i
thut h
t qu d c cu.
ng ti m a em s
hc chuyn giao cho lc c ci thin kt qu d a lc c
nng ca h thn.
Lu gu nhng v sau:
Chương 1: Tổng quan về học chuyển giao
ng quan v c chuyn giao. Ni dung
ng kin thc cn v hc chuyi
c chuyn giao tri th
li th n ch ca mc chuy u
c chuyn giao, la ch th gii quy
lc c
2
Chương 2: Lọc cộng tác bằng phương pháp học chuyển giao
c cmt s truyn
thng thc hic c
n ch c xui
ti i cho lc c thut hc
chuyp Transfer--ItemBased.
Chương 3: Thử nghiệm và đánh giá
c hin th nghi xut
Tranfer- - d liu MovieLens c
u GroupLens thui ht qu v
n th u qu c
i.
3
CHƯƠNG 1: TỔNG QUAN VỀ HỌC CHUYỂN GIAO
1.1. Giới thiệu chung
th liu truyn th
dt gi thuyng d liu hun luyng
d liu thc t
b c t
ra gi s i trong mt min m
d liu hun luyn trong mit nhiu d liu s
mt mic thu thi t c, m
d li
ng hn giao tri thc t min mi n
ci thin hiu qu ca vic h cho vic thu thi
d liu mi. Trong nhc chuyt nn
tng hi nhm gii quyt v
1.2. Khái niệm và định nghĩa
c chuy
(task).
Mt min D bao gn: Th nh
X, th m
1
n
} X.
u hai min gnhau ch
m
t min D = { X c, m bao g
phn, mY c k
hiu bi T ={Y
h liu hun luyn, d liu hun luyn bao gp {x
i
,y
i
}
i
X, y
i
Y d
f(x) ca mt ca mt mu x mi.
4
m d liu min ngun D
S
= {(x
S1
,y
S1
Sn
,y
Sn
)}
Si
X
S
u d liu, y
Si
Y
S
m d
liu mi
T
={(x
T1
,y
T1
Tn
,y
Tn
x
Ti
X
T
li
Ti
Y
T
ng. Trong hu h ng h u gi thit
n mng d liu rt ln min ngun so vi d liu mi
n
S
>>n
T
.
t cho hc chuyn giao:
Định nghĩa học chuyển giao: Cho mt min ngun D
S
T
S
,
mt miD
T
T
T
, hc chuy dng tri thc
c t D
S
, T
S
ci thi i f
T
(.) ca T
T
trong min D
T
u kin D
S
D
T
hoc T
S
T
T
.
1.3. Phân loại các phương pháp học chuyển giao
T hc chuyn giao, d ng ca d liu
min ngu liu mi c chuyn
giao sau:
1.3.1. Học chuyển giao quy nạp (Inductive transfer learning)
Định nghĩa học chuyển giao quy nạp: Cho mt min ngun D
S
v T
S
, mt miD
T
T
T
, hc chuyn giao quy n
hc chuyn giao nhm ci thi i f
T
(.) ca T
T
trong min D
T
s dc ca D
S
, T
S
u kin T
S
!= T
T
.
c chuyn giao quy n T
T
!=T
S
n bit
D
S
, D
T
T
T
!=T
S
i ph
d lii trong mi vic h
f
T
(.) ca T
T
thc hi c, vic hc chuyn giao ch nhm ci thi
ng h t nhiu d li c g i min
ngu tic T
S
,T
T
ng thc
m,
5
n vic ci thin chng ca vic hc T
T
dng tri thc thc t
T
S
.
ng h li i min
ngun, hc chuyn giao s hc.
1.3.2. Học chuyển giao tăng cường (Transductive transfer learning)
Định nghĩa học chuyển giao tăng cường: Cho mt min ngun D
S
t
T
S
, mt miD
T
T
T
, hc chuyn giao ng
c chuyn giao nhm ci thi i f
T
(.) ca
T
T
trong min D
T
s dc ca D
S
, T
S
u kin T
S
= T
T
,D
S
!= D
T
ng d lii trong mi
c chuyn giao ng li
i ti mit nhiu d lii
min ngun tu kin thun li cho vic h
T
n
luyn do T
T
= T
S
t D
S
!= D
T
ng tri thc hc
min ngun s phu chm th
ng hp D
S
!= D
T
do P
S
(X) != P
T
(X), hai mic
nhau ch m u kin
t ging vu kin c n mn
lc.
ng hp D
S
!= D
T
do X
S
!=X
T
a hai
mic tn dng li nhng tri thc trong min ngun cho mi
rt hn ch.
1.3.3. Học chuyển giao không giám sát (Unsupervised transfer learning)
Định nghĩa học chuyển giao không giám sát: Cho mt min ngun D
S
m T
S
, mt miD
T
T
T
, hc chuyn giao dn n
c chuyn giao nhm ci thi i f
T
(.) ca
T
T
trong min D
T
s dc ca D
S
, T
S
u kin T
S
!= T
T
Y
S
,
Y
T
c.
6
T
S
!= T
T
ging c chuyn giao
quy nc chuy
h mim, gim chi. Vi
h li trong
min ngun ln mi
1.3.4. Tổng kết phân loại các phương pháp học chuyển giao:
T gia min ngun
vi mi ngun v
p hc truyn giao theo bng sau:
Bảng 1.1 Phân loại các phương pháp học chuyển giao
c
T
S
= T
T
D
S
= D
T
Hc truyn thng
Hc chuyn giao
ng
p/
Dng ca d liu min ngu liu mi
ng hp sau:
7
Bảng 1.2 Phân loại theo tình trạng dữ liệu
c
D
T
D
S
Hc quy np
i/
Hi quy
Hm
T hc
Hc ng
i/
Hi quy
n,
ly mn
lc
H
m/
Gim chiu
1.4. Chuyển giao tri thức thông qua ví dụ huấn luyện (Transferring
knowledge of instances)
Chuyn giao tri th hun luyn thc chc s dng
li mng lu d lia min ngun m
chn lu chnh mim ci thing hc min
y chuyn giao tri th hun luy s dc
c chuyn giao nc chuyn giao ng.
1.4.1. Chuyển giao tri thức thông qua ví dụ huấn luyện trong học quy
nạp
ng h li trong min
ngun ln mi
S
ging ho
T
c trong
ng hp D
S
T
n gi thuyt rt m
quan nhy m dng trc tic tt c
hun luyn ca min ngu s dc pht hp
v liu hun luyn min ci thic.
8
ng hp D
S
T
t s mu d liu min ngu c,
trong khi mt s mu l c mi
s dng hiu qu hun luyn min ngu
dc cu d liu hun luy
ta cn phi li trng s c hun luyp vi min
1.4.2. Chuyển giao tri thức thông qua ví dụ huấn luyện trong học tăng
cường
c chuyn giao ng liu
min ngung
nhau. Vng hp chuyn giao tri th hun luy
li min nguy vic h
h thc hin ngun.
c m
c tng vi mt tham s c ti d kin. Trong
thc t t d li bit
b liu hun luy liu hun luy
c ng vi tham s c ti thc nghim.
Do P(D
S
T
liu min ngu
c ti trng s c
mu d liu b s phng vi t s P(D
T
)/P(D
S
i
vi tng m t s
T
(x
Ti
,y
Ti
)/P
S
(x
Si
,y
Si
). Do T
S
= T
T
T
|X
T
)
= P(Y
S
|X
S
s pht P
T
(x
Ti
,y
Ti
)/P
S
(x
Si
,y
Si
) = P(x
Ti
)/P(x
Si
) ch thuc
Ti
Si
t nhi
liu min ngu
9
1.5. Chuyển giao tri thức từ biểu diễn đặc trưng
Trong chuyn giao tri thc t biu di g
mt biu dit nhm s t gia hai mim t l
li quy. Chin thu t biu dit theo mc
rng d liu ca hai min.
1.5.1. Chuyển giao tri thức từ biểu diễn đặc trưng trong học chuyển giao
quy nạp
Trong hc chuyn giao quy n thuyt s d li
i miy nt nhi li
min ngu ng biu dic
ng hp d liu min ngun
ng biu di
ng biu di
hc mt biu dip chiu t nha c hai
min.
1.5.2. Chuyển giao tri thức từ biểu diễn đặc trưng trong học chuyển giao
tăng cường
Trong hc chuyn giao ng thuy li
miy trong chuyn giao tri thc t biu di
hc chuyn giao ng biu di
1.5.3. Chuyển giao tri thức từ biểu diễn đặc trưng trong học không giám
sát
Trong hc chuy li
c min ngun ln mi
trong hn cm chiu.
10
i vi chuyn giao tri thc t biu dic chuyn giao
t m, mm
b d liu nh mii s ca mt b d liu ln
min ngun bc m
chia s gia hai min.
i vi chuyn giao tri thc t biu dic chuyn giao
gim chi ng gi lp mt
b dng gii thut gim chin
ngu chy lp l t nht cho mi
1.6. Chuyển giao tri thức từ các quan hệ
n giao tri thn giao tri thc t
ch ng trong hc chuyng hp hai mi
mi quan h v liu gia hai mic lng
gng chuyi quan h t gia d liu
min ngun d liu mi thut hc th c s dng
gii quyt v
1.7. Ứng dụng của học chuyển giao
Trong nhc chuyc ng d
trong rt nhiu ng dng thc t. Hc chuyn giao ci thi chng ca
i d liu. Hc chuy
dng r n t nhiu ngu
ng ca lc c thng lc email spam,
chuyn giao tri thnh v thi gian.
1.8.Kết luận chương 1
i thiu chung v hc chuyn giao, nh nh
i thiu ba hc chuym:
Hc chuyn giao quy np
11
Hc chuyn giao ng
Chuy
3 p cn gm:
Hc chuyn giao tri th hun luyn
Hc chuyn giao tri thc t biu di
Hc chuyn giao tri thc t quan h
T nhng ph d n thy vic s dng hc
chuyn giao li hiu qu rt cao i vng d liu ln hay s d
n ph ng li tp hun luyn t u y
c chuyn giao s c s dng cho bc c phn
sau.
12
CHƯƠNG 2: LỌC CỘNG TÁC BẰNG PHƯƠNG PHÁP HỌC
CHUYỂN GIAO
-
2.1. Phát biểu bài toán lọc cộng tác
U = {u
1
, u
2
u
N
N P = {p
1
,
p
2
, , p
M
M p
x
P
p
x
P xP
u
i
U iU.
U P
R={ r
ix
}, i = 1 N, x = 1 Mr
ix
i
U x
Pr
ix
13
r
ix
= i
x.
i
i
x
(P \
Bảng 2.1 Ma trận đánh giá người dùng - sản phẩm
Người dùng
Sản phẩm
p
1
p
2
p
3
p
4
p
5
p
6
p
7
u
1
4
2
5
3
3
u
2
5
5
5
4
u
3
4
4
3
4
3
u
4
3
5
5
5
u
5
?
5
?
?
4
4
2.1 R = (r
ij
U = {u
1
, u
2
, u
3
, u
4
, u
5
P = {p
1
, p
2
, p
3
, p
4
, p
5
, p
6
, p
7
,
r
ij
= u
i
p
j
r
5,1
u
5
.
2.2. Một số nghiên cứu liên quan
--
14
Based)[1, 21
4,8,15,19
5, 19].
Pearson [8]. Sarwar
4
18].
2.3. Lọc cộng tác dựa vào bộ nhớ
8
(ItemBased [4
15
2.3.1. Phương pháp UserBased và ItemBased
quan
quan
Bước 1. Tính toán mức độ tương tự giữa các cặp người dùng hoặc sản phẩm.
4, 8, 15, 19].
u
ij
iU jU, p
xy
x
P yP
i
U j
U 2.
x
P j
P .2) [4, 8].
22
jiji
ji
PPx
jjx
PPx
iix
PPx
jjxiix
ij
rrrr
rrrr
u
(2.1)
22
yxyx
yx
UUi
yiy
UUi
xix
UUi
yiyxix
xy
rrrr
rrrr
p
(2.2)
ji
PPx
ix
ji
i
r
PP
r
1
(2.3)
ji
PPx
jx
ji
j
r
PP
r
1
(2.4)
yx
UUi
ix
yx
x
r
UU
r
1
(2.5)
16
yx
UUx
jx
yx
y
r
UU
r
1
(2.6)
Bước 2. Xác định tập láng giềng cho người dùng cần tư vấn
u
ij
p
xy
i
U
x
PK
i K
x [4, 8].
Bước 3. Sinh ra dự đoán cho người dùng cần tư vấn
i
U x
P
2.2.8)[4,8, 15, 19].
i
i
Kj
ij
ij
Kj
jjx
iix
u
urr
rr
(2.7)
x
x
Ky
xy
Ky
iyxy
ix
p
rp
r
||
(2.8)
K
i
i
U; K
x
x
P.
2.3.2. Hạn chế của phương pháp User-Based và Item-Based
- -
Vấn đề dữ liệu thưa
i, jU
P
i
P
j
=
u
5
u
2
2.1). Khi hai