Tải bản đầy đủ (.pdf) (58 trang)

NGHIÊN CỨU PHƯƠNG PHÁP HỌC CHUYỂN GIAO CHO LỌC CỘNG TÁC 8 LUẬN VĂN THẠC SĨ KỸ THUẬT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.06 MB, 58 trang )





HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG




NGUYỄN THANH HẢI

ĐỀ TÀI
NGHIÊN CỨU PHƯƠNG PHÁP HỌC CHUYỂN GIAO CHO
LỌC CỘNG TÁC



8


LUẬN VĂN THẠC SĨ KỸ THUẬT














HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG




NGUYỄN THANH HẢI

ĐỀ TÀI
NGHIÊN CỨU PHƯƠNG PHÁP HỌC CHUYỂN GIAO CHO
LỌC CỘNG TÁC

  

 60.48.01.04 8


LUẬN VĂN THẠC SĨ KỸ THUẬT

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN DUY PHƯƠNG






i


LỜI CẢM ƠN

Trong thi gian hc tp ti Hc vi 
c s y bng dn tin gi li
cc bit xin gi li cng nht
ti thy n Duy ng dn em trong sut
c hit nghi


12CQCT01
.
-

k thut 
.
!
Học viên
Nguyễn Thanh Hải





ii

LỜI CAM ĐOAN

u c liu, kt
qu  trong bt
k 

Hà Nội, ngày tháng năm 2013
Tác giả luận văn


Nguyễn Thanh Hải


iii

MỤC LỤC
MỤC LỤC iii
DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT v
DANH MỤC CÁC BẢNG vi
DANH MỤC CÁC HÌNH vii
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀ HỌC CHUYỂN GIAO 3
1.1. Gii thiu chung 3
1.2.  3
1.3. c chuyn giao 4
1.3.1. Hc chuyn giao quy np (Inductive transfer learning) 4
1.3.2. Hc chuyng (Transductive transfer learning) 5
1.3.3. Hc chuy 5
1.3.4. Tng kc chuyn giao: 6
1.4. Chuyn giao tri th hun luyn (Transferring knowledge of instances) . 7
1.4.1. Chuyn giao tri th hun luyn trong hc quy np 7
1.4.2. Chuyn giao tri th hun luyn trong hng 8
1.5. Chuyn giao tri thc t biu di 9
1.5.1. Chuyn giao tri thc t biu dic chuyn giao quy np 9
1.5.2. Chuyn giao tri thc t biu dic chuyng 9
1.5.3. Chuyn giao tri thc t biu di 9

1.6. Chuyn giao tri thc t  10
1.7. ng dng ca hc chuyn giao 10
1.8.Kết luận chương 1 10
CHƯƠNG 2: LỌC CỘNG TÁC BẰNG PHƯƠNG PHÁP HỌC CHUYỂN GIAO 12
2.1. c c 12
2.2. Mt s  13
iv

2.3. Lc c nh 14
2.3.1.  15
2.3.2. Hn ch c--Based 16
2.3.3. i tin 17
2.4. c chuyn giao cho lc c 18
2.4.1. Hc chuyn giao t n sn phm 18
2.4.2. Hc chuyn giao t sn ph 20
2.4.3. Kt hp gia hai ki 22
2.4.3.1. - UserBased 23
2.4.3.2. -ItemBased 27
2.5.  minh ha 30
2.6. Kết luận chương 2 37
CHƯƠNG 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ 38
3.1. D liu th nghim 38
3.2.  nghim 39
3.3. Kt qu th nghim 40
3.4. t qu 43
3.5. Kết luận chương 3 45
KẾT LUẬN 47
TÀI LIỆU THAM KHẢO 48






v

DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT


Từ viết tắt
Từ đầy đủ
Nghĩa của từ
CF
Collaborative Filtering
Lc c
ITL
Inductive Transfer Learning
Hc chuyn giao quy np
MAE
Mean Absolute Error
  tuyi
li
TL
Transfer Learning
Hc chuyn giao
TTL
Transductive Transfer Learning
Hc chuyn giao ng
STC
Self-Taught Clustering
T m

UTL
Unsupervised Transfer Learning
Hc chuy


vi

DANH MỤC CÁC BẢNG

Bảng 1.1 Phân loại các phương pháp học chuyển giao 6
Bảng 1.2 Phân loại theo tình trạng dữ liệu 7
Bảng 2.1 Ma trận đánh giá người dùng - sản phẩm 13
Bảng 2.2 Ma trận đánh giá theo quan sát từ người dùng 20
Bảng 2.3 Ma trận đánh giá theo quan sát từ sản phẩm 22
Bảng 2.4 Ma trận đánh giá ban đầu 31
Bảng 2.5 Ma trận đánh giá quan sát theo người dùng 33
Bảng 2.6 Ma trận đánh giá quan sát theo sản phẩm 34
Bảng 2.7 Bảng mức độ tương tự giữa các sản phẩm 35
Bảng 2.8 Ma trận kết quả Transfer – UserBased sau vòng lặp t=1 36
Bảng 2.9 Bảng mức độ tương quan giữa các người dùng 36
Bảng 2.10 Ma trận kết quả của phương pháp Transfer-UserBased 37
Bảng 3.1 Bảng ví dụ đánh giá độ đo trung bình tuyệt đối 40
Bảng 3.2 Kết quả thực nghiệm phương pháp học chuyển giao dựa vào người dùng 41
Bảng 3.3: Kết quả thực nghiệm phương pháp học chuyển giao dựa vào sản phẩm 42
Bảng 3.4 Giá trị MAE trên tập ml -100K 44


vii

DANH MỤC CÁC HÌNH

Hình 2.1 Thuật toán Transfer -UserBased 23
Hình 2.2 Thuật toán Transfer-ItemBased 27
Hình 3.1 Kết quả thực nghiệm phương pháp học chuyển giao dựa vào người dùng 42
Hình 3.2 Kết quả thực nghiệm phương pháp học chuyển giao dựa vào sản phẩm 43
Hình 3.3 Giá trị MAE trên tập ml-100K 44
1

MỞ ĐẦU
i s  ci din
vi v thii phi din vi v 
h thn dch v ng dn t 
 n trn thit trong vi a
chc nhng sn ph thu l
h thlc theo ni dung Content-c c
Collaborative Filtering. Tronc cch 
 dng sn phm ca c 
 gng sn php cho m
hiu qu  c c   ng    u h thng
n t.
    u trin khai ng d  nh nhng v 
chung cc ct d liu hun luyn, x i
 thut h
t qu d c cu.
ng ti m a em s 
hc chuyn giao cho lc c ci thin kt qu d a lc c
nng ca h thn.
Lu gu nhng v sau:
Chương 1: Tổng quan về học chuyển giao
ng quan v c chuyn giao. Ni dung
ng kin thc cn v hc chuyi

c chuyn giao tri th
li th n ch ca mc chuy u
c chuyn giao, la ch th gii quy
lc c

2

Chương 2: Lọc cộng tác bằng phương pháp học chuyển giao
c cmt s truyn
thng  thc hic c
n ch c xui
ti  i cho lc c   thut hc
chuyp Transfer--ItemBased.
Chương 3: Thử nghiệm và đánh giá
  c hin th nghi       xut
Tranfer-  -   d liu MovieLens c 
u GroupLens thui ht qu v
n th u qu c
i.

3

CHƯƠNG 1: TỔNG QUAN VỀ HỌC CHUYỂN GIAO
1.1. Giới thiệu chung
 th  liu truyn th 
dt gi thuyng d liu hun luyng
d liu thc t 
b c t 
ra gi s  i trong mt min m
 d liu hun luyn trong mit nhiu d liu s

mt mic thu thi t c, m 
  d li
ng hn giao tri thc t min mi n
 ci thin hiu qu ca vic h cho vic thu thi
d liu mi. Trong nhc chuyt nn
tng hi nhm gii quyt v 
1.2. Khái niệm và định nghĩa
c chuy
 (task).
Mt min D bao gn: Th nh
X, th  m 
1

n
}  X.
u hai min gnhau  ch  
  m 
t min D = { X c, m bao g
phn, mY  c k
hiu bi T ={Y 
h liu hun luyn, d liu hun luyn bao gp {x
i
,y
i
}

i
 X, y
i
 Y  d 

f(x) ca mt ca mt mu x mi.
4

m d liu min ngun D
S
= {(x
S1
,y
S1

Sn
,y
Sn
)}

Si
 X
S
u d liu, y
Si
 Y
S
m d
liu mi
T
={(x
T1
,y
T1


Tn
,y
Tn
x
Ti
 X
T
 li
Ti

 Y
T
   ng. Trong hu h ng h u gi thit
n mng d liu rt ln  min ngun so vi d liu  mi
n
S
>>n
T
.
 t cho hc chuyn giao:
Định nghĩa học chuyển giao: Cho mt min ngun D
S
 T
S
,
mt miD
T
 T
T
, hc chuy dng tri thc

c t D
S
, T
S
 ci thi i f
T
(.) ca T
T

trong min D
T
u kin D
S
 D
T
hoc T
S
T
T
.
1.3. Phân loại các phương pháp học chuyển giao
T    hc chuyn giao, d   ng ca d liu
min ngu liu mi c chuyn
giao sau:
1.3.1. Học chuyển giao quy nạp (Inductive transfer learning)
Định nghĩa học chuyển giao quy nạp: Cho mt min ngun D
S

v T
S

, mt miD
T
 T
T
, hc chuyn giao quy n
hc chuyn giao nhm ci thi i f
T
(.) ca T
T

trong min D
T
s dc ca D
S
, T
S
u kin T
S
!= T
T
.
c chuyn giao quy n T
T
!=T
S
n bit
D
S
, D
T

T
T
!=T
S
i ph
d lii trong mi vic h
f
T
(.) ca T
T
 thc hi c, vic hc chuyn giao ch nhm ci thi

 ng h  t nhiu d li c g   i  min
ngu tic T
S
,T
T
ng thc
m,   
5

n vic ci thin chng ca vic hc T
T
dng tri thc thc t
T
S
.
 ng h    li      i  min
ngun, hc chuyn giao s   hc.
1.3.2. Học chuyển giao tăng cường (Transductive transfer learning)

Định nghĩa học chuyển giao tăng cường: Cho mt min ngun D
S
t
 T
S
, mt miD
T
 T
T
, hc chuyn giao ng 
c chuyn giao nhm ci thi i f
T
(.) ca
T
T
trong min D
T
s dc ca D
S
, T
S
u kin T
S
= T
T
,D
S
!= D
T


ng d lii trong mi
c chuyn giao ng li
i ti mit nhiu d lii 
min ngun tu kin thun li cho vic h 
T
   n
luyn do T
T
= T
S
 t D
S
!= D
T
ng tri thc hc
 min ngun s phu chm th  
ng hp D
S
!= D
T
do P
S
(X) != P
T
(X), hai mic
 nhau ch  m u kin
t ging vu kin c n mn
lc.
ng hp D
S

!= D
T
do X
S
!=X
T
a hai
mic tn dng li nhng tri thc trong min ngun cho mi
rt hn ch.
1.3.3. Học chuyển giao không giám sát (Unsupervised transfer learning)
Định nghĩa học chuyển giao không giám sát: Cho mt min ngun D
S

m T
S
, mt miD
T
 T
T
, hc chuyn giao dn n
c chuyn giao nhm ci thi i f
T
(.) ca
T
T
trong min D
T
s dc ca D
S
, T

S
u kin T
S
!= T
T
Y
S
,
Y
T
c.
6

 T
S
!= T
T
ging c chuyn giao
quy nc chuy
h mim, gim chi. Vi
 h li trong
min ngun ln mi
1.3.4. Tổng kết phân loại các phương pháp học chuyển giao:
T  gia min ngun
vi mi ngun v  
p hc truyn giao theo bng sau:
Bảng 1.1 Phân loại các phương pháp học chuyển giao
c
T
S

= T
T

D
S
= D
T

Hc truyn thng


Hc chuyn giao
ng


p/






Dng ca d liu min ngu liu mi
ng hp sau:








7

Bảng 1.2 Phân loại theo tình trạng dữ liệu
c
D
T

D
S



Hc quy np


i/
Hi quy
Hm

T hc
Hc ng


i/
Hi quy
n,
ly mn
lc
H



m/
Gim chiu


1.4. Chuyển giao tri thức thông qua ví dụ huấn luyện (Transferring
knowledge of instances)
Chuyn giao tri th hun luyn thc chc s dng
li mng lu d lia min ngun m
chn lu chnh  mim ci thing hc  min
y chuyn giao tri th hun luy s dc
c chuyn giao nc chuyn giao ng.
1.4.1. Chuyển giao tri thức thông qua ví dụ huấn luyện trong học quy
nạp
ng h li trong min
ngun ln mi
S
 ging ho
T
 c trong
ng hp D
S

T
n gi thuyt rt m 
quan nhy m  dng trc tic tt c 
hun luyn ca min ngu s dc pht hp
v liu hun luyn  min  ci thic.
8


ng hp D
S

T
 
 t s mu d liu min ngu c,
trong khi mt s mu l c  mi
 s dng hiu qu  hun luyn  min ngu
dc cu d liu hun luy
ta cn phi li trng s c hun luyp vi min

1.4.2. Chuyển giao tri thức thông qua ví dụ huấn luyện trong học tăng
cường
c chuyn giao ng liu
 min ngung
nhau. Vng hp chuyn giao tri th hun luy
li min nguy vic h 
h thc hin ngun.
c m
c tng vi mt tham s c ti d kin. Trong
thc t  t d li bit
b liu hun luy liu hun luy
c ng vi tham s c ti thc nghim.
Do P(D
S
 
T
 liu min ngu 
c ti trng s c

mu d liu b s phng vi t s P(D
T
)/P(D
S
i
vi tng m t s  
T
(x
Ti
,y
Ti
)/P
S
(x
Si
,y
Si
). Do T
S
= T
T

T
|X
T
)
= P(Y
S
|X
S

  s pht P
T
(x
Ti
,y
Ti
)/P
S
(x
Si
,y
Si
) = P(x
Ti
)/P(x
Si
) ch   thuc

Ti

Si
t nhi 
 liu  min ngu
9

1.5. Chuyển giao tri thức từ biểu diễn đặc trưng
Trong chuyn giao tri thc t biu di g
mt biu dit nhm s t gia hai mim t l
li quy. Chin thu t biu dit theo mc
 rng d liu ca hai min.

1.5.1. Chuyển giao tri thức từ biểu diễn đặc trưng trong học chuyển giao
quy nạp
Trong hc chuyn giao quy n thuyt s d li
i miy nt nhi li
 min ngu ng biu dic
ng hp d liu min ngun
  ng biu di

ng biu di 
hc mt biu dip chiu t nha c hai
min.
1.5.2. Chuyển giao tri thức từ biểu diễn đặc trưng trong học chuyển giao
tăng cường
Trong hc chuyn giao ng  thuy li
 miy trong chuyn giao tri thc t biu di
hc chuyn giao ng biu di

1.5.3. Chuyển giao tri thức từ biểu diễn đặc trưng trong học không giám
sát
Trong hc chuy li
c min ngun ln mi  
trong hn cm chiu.
10

i vi chuyn giao tri thc t biu dic chuyn giao
 t m, mm
b d liu nh mii s  ca mt b d liu ln
 min ngun bc m
chia s gia hai min.
i vi chuyn giao tri thc t biu dic chuyn giao

 gim chi ng gi lp mt
b dng gii thut gim chin
ngu chy lp l t nht cho mi
1.6. Chuyển giao tri thức từ các quan hệ
n giao tri thn giao tri thc t
 ch ng trong hc chuyng hp hai mi
mi quan h v liu gia hai mic lng
 gng chuyi quan h t gia d liu
min ngun d liu mi thut hc th c s dng
 gii quyt v 
1.7. Ứng dụng của học chuyển giao
Trong nhc chuyc ng d
trong rt nhiu ng dng thc t. Hc chuyn giao ci thi chng ca
i d liu. Hc chuy
dng r n t nhiu ngu
ng ca lc c thng lc email spam,
chuyn giao tri thnh v  thi gian.
1.8.Kết luận chương 1
  i thiu chung v hc chuyn giao, nh   nh
i thiu ba  hc chuym:
 Hc chuyn giao quy np
11

 Hc chuyn giao ng
 Chuy
3 p cn gm:
 Hc chuyn giao tri th hun luyn
 Hc chuyn giao tri thc t biu di
 Hc chuyn giao tri thc t quan h
T nhng ph   d n thy vic s dng hc

chuyn giao li hiu qu rt cao i vng d liu ln hay s d
    n ph  ng li tp hun luyn t u   y
c chuyn giao s c s dng cho bc c phn
sau.

12

CHƯƠNG 2: LỌC CỘNG TÁC BẰNG PHƯƠNG PHÁP HỌC
CHUYỂN GIAO





-
              
      

 
              
           


2.1. Phát biểu bài toán lọc cộng tác
U = {u
1
, u
2
u
N

N P = {p
1
,
p
2
, , p
M
M p
x
P 

p
x
P xP
u
i
U iU.
U P 
R={ r
ix
}, i = 1 N, x = 1 Mr
ix

i

U x

Pr
ix



13

r
ix
=  i 
x.

i

i
x
 

 
 (P \ 

Bảng 2.1 Ma trận đánh giá người dùng - sản phẩm
Người dùng
Sản phẩm
p
1

p
2

p
3

p

4

p
5

p
6

p
7

u
1

4
2
5

3

3
u
2

5

5
5
4



u
3

4


4
3
4
3
u
4


3
5
5

5

u
5

?
5
?
?

4

4

2.1 R = (r
ij

U = {u
1
, u
2
, u
3
, u
4
, u
5
 P = {p
1
, p
2
, p
3
, p
4
, p
5
, p
6
, p
7


 ,
r
ij
= u
i

p
j
r
5,1

u
5
.
2.2. Một số nghiên cứu liên quan


--
14

Based)[1, 21 

4,8,15,19
      



 
              5, 19].


Pearson [8]. Sarwar 
4

18].



   

2.3. Lọc cộng tác dựa vào bộ nhớ
              
      8    
(ItemBased [4 
   


15

2.3.1. Phương pháp UserBased và ItemBased
 quan 
quan 
    



Bước 1. Tính toán mức độ tương tự giữa các cặp người dùng hoặc sản phẩm.

4, 8, 15, 19].
u
ij

iU jU, p
xy

x

P yP
i

U j

U 2.
x

P j

P .2) [4, 8].
  
   
22







jiji
ji
PPx
jjx

PPx
iix
PPx
jjxiix
ij
rrrr
rrrr
u


(2.1)
  
   
22







yxyx
yx
UUi
yiy
UUi
xix
UUi
yiyxix
xy

rrrr
rrrr
p


(2.2)




ji
PPx
ix
ji
i
r
PP
r


1
(2.3)



ji
PPx
jx
ji
j

r
PP
r


1
(2.4)



yx
UUi
ix
yx
x
r
UU
r


1
(2.5)
16




yx
UUx
jx

yx
y
r
UU
r


1
(2.6)
Bước 2. Xác định tập láng giềng cho người dùng cần tư vấn
u
ij
p
xy
i

U 
x

PK 
i K 
x [4, 8].
Bước 3. Sinh ra dự đoán cho người dùng cần tư vấn
 i

U x

P
2.2.8)[4,8, 15, 19].
 







i
i
Kj
ij
ij
Kj
jjx
iix
u
urr
rr
(2.7)





x
x
Ky
xy
Ky
iyxy
ix

p
rp
r
||
(2.8)
K
i
i

U; K
x

x

P.
2.3.2. Hạn chế của phương pháp User-Based và Item-Based

   - -    

 Vấn đề dữ liệu thưa


 i, jU 
P
i

P
j
=



u
5
u
2
2.1). Khi hai

×