L I CAM OAN
Tôi xin cam oan ây là công trình nghiên c u c a riêng tôi. Các k t qu
ư c vi t chung v i các tác gi khác
u ư cs
ng ý c a
ng tác gi trư c
khi ưa vào lu n án. Các k t qu nêu trong lu n án là trung th c và chưa t ng
ư c công b trong các công trình nào khác.
Tác gi
Nguy n Duy Ph
1
ng
L i c m ơn
Th c hi n lu n án ti n s là m t th thách l n, òi h i s kiên trì và t p
trung cao
. Tôi th c s h nh phúc v i k t qu
tài nghiên
t ư c không ch là n l c cá nhân, mà còn có
c u c a mình. Nh ng k t qu
s h tr và giúp
t ư c trong
c a t p th giáo viên hư ng d n, nhà trư ng, b môn,
nghi p và gia ình. Tôi mu n bày t tình c m c a mình
Trư c tiên, tôi xin bày t s bi t ơn sâu s c
d n PGS TS T Minh Phương và PGS TS
ng
nv ih .
n t p th giáo viên hư ng
inh M nh Tư ng.
ư c làm vi c
v i hai th y là m t cơ h i l n cho tôi h c h i phương pháp nghiên c u. C m ơn
hai th y r!t nhi u vì s hư ng d n t n tình, nghiêm túc và khoa h c.
Tôi xin trân tr ng c m ơn B môn Khoa h c máy tính, Khoa Công ngh
thông tin, Phòng ào t o, Ban giám hi u trư ng
i h c Công ngh
ãt o i u
ki n thu n l i cho tôi trong su t quá trình th c hi n lu n án.
Tôi xin c m ơn t p th Lãnh
o H c Vi n Công ngh Bưu chính Vi"n
thông, cán b , gi ng viên khoa Công ngh thông tin – H c Vi n Công ngh
Bưu chính Vi"n thông ã c# v$
ng viên tôi trong quá trình nghiên c u.
Tôi c m ơn t!t c nh ng ngư i b n c a tôi, nh ng ngư i luôn chia s% và c#
v$ tôi trong nh ng lúc khó kh&n và tôi luôn ghi nh
Cu i cùng, tôi xin bày t lòng bi t ơn vô h n
luôn bên c nh ng h , giúp
tôi.
2
i u ó.
i v i cha m' và gia ình ã
M CL C
PH(N M)
(U .........................................................................................................
1. Tính c!p thi t c a lu n án ........................................................................... 11
2. M*c tiêu c a lu n án ................................................................................... 12
3. Các óng góp c a lu n án ........................................................................... 13
4. B c*c c a lu n án ...................................................................................... 15
CH+ƠNG 1. T-NG QUAN V. L/C THÔNG TIN CHO H0 T+ V1N .........16
1.1. GI2I THI0U CHUNG................................................................................ 16
1.1.1. Ki n trúc t#ng quát c a h th ng l c thông tin .................................. 17
1.1.2. L c thông tin và truy v!n thông tin..................................................... 18
1.1.3. H c máy và l c thông tin..................................................................... 19
1.1.4. L c thông tin và các h tư v!n............................................................ 21
1.2. PH+ƠNG PHÁP L/C THEO N3I DUNG.............................................. 24
1.2.1. Bài toán l c theo n i dung .................................................................. 25
1.2.2. Các phương pháp pháp l c theo n i dung............................................ 25
1.2.2.1. L c n i dung d a vào b nh ........................................................ 25
1.2.2.2. L c n i dung d a vào mô hình...................................................... 28
1.2.3. Nh ng v!n
t n t i............................................................................. 29
1.3. PH+ƠNG PHÁP L/C C3NG TÁC .......................................................... 30
1.3.1. Bài toán l c c ng tác............................................................................. 30
1.3.2. Các phương pháp l c c ng tác............................................................. 32
1.3.2.1. L c c ng tác d a trên b nh ....................................................... 32
1.3.2.2. L c c ng tác d a vào mô hình ..................................................... 35
1.3.3. Nh ng v!n
t n t i............................................................................. 38
1.4. PH+ƠNG PHÁP L/C K4T H5P.............................................................. 39
1.4.1. Bài toán l c k t h p .............................................................................. 39
1.4.2. Các phương pháp l c k t h p............................................................... 40
1.4.3. Nh ng v!n
còn t n t i .................................................................... 42
1.5. K4T LU6N ................................................................................................. 42
3
CH+ƠNG 2. L/C C3NG TÁC B7NG PH+ƠNG PHÁP H/C A NHI0M......
2.1. 8T V1N .............................................................................................. 44
2.1.1. V!n
d li u thưa c a l c c ng tác .................................................. 44
2.1.2. 9nh hư:ng c a v!n
d li u thưa .................................................... 45
2.1.3. Các phương pháp h n ch v!n
d li u thưa................................... 46
2.2. L/C C3NG TÁC B7NG PHÂN LO;I ................................................... 48
2.2.1. Phát bi u bài toán l c c ng tác b
2.2.2. Phân lo i b
2.3. PHÂN LO;I V2I CÁC 8C TR+NG CHUNG .................................... 56
2.3.1. Phương pháp h c a nhi m ................................................................. 56
2.3.2. Boosting
ng th i cho nhi u bài toán phân lo i............................... 59
2.3.2.1. Xây d ng hàm m*c tiêu................................................................ 59
2.3.2.2. Xây d ng b phân lo i y u........................................................... 60
2.2.2.3.
ph c t p thu t toán .................................................................. 63
2.4. TH= NGHI0M VÀ K4T QU9 ................................................................. 65
2.4.1. Phương pháp th nghi m..................................................................... 65
2.4.2. D li u th nghi m .............................................................................. 65
2.4.3. So sánh và ánh giá d a vào giá tr> MAE .......................................... 67
2.4.4. K t qu th nghi m.............................................................................. 67
2.4.5. Phân tích k t qu .................................................................................. 69
2.5. K4T LU6N ................................................................................................. 72
CH+ƠNG 3. L/C K4T H5P D?A TRÊN MÔ HÌNH @ THA............................
3.1. V1N . L/C K4T H5P........................................................................... 73
3.2. L/C C3NG TÁC D?A TRÊN MÔ HÌNH @ THA ............................... 75
3.2.1. Phương pháp bi u di"n
3.2.2. Phương pháp d
3.2.2.1. CDch
th>.............................................................. 75
oán trên
th> Ngư i dùng- S n phBm ................ 76
EFG> Ngư i HIng-EJ n phBm FGKnh LDc
EFG>Econ .............. 78
3.2.2.2. Phương MGDp d E NDn trên
EFG>EG+................................................ 80
3.2.2.3. Phương MGDp d E NDn trên
EFG>EG- ................................................ 83
4
3.2.2.4. Phương MGDp d E NDn theo t!t L E Dnh OPD...................................... 85
3.3. K4T H5P L/C C3NG TÁC VÀ L/C N3I DUNG ............................... 88
3.3.1. Bi u di"n
th> k t h p....................................................................... 88
3.3.2. Xây d ng liên k t ngư i dùng và n i dung s n phBm ....................... 91
3.3.3. Phương pháp d
oán .......................................................................... 95
3.3.3.1. L c c ng tác d a trên mô hình
th> k t h p............................. 95
3.3.3.2. L c n i dung d a trên mô hình
th> k t h p ............................ 95
3.3.3.3. Phương pháp l c k t h p ơn gi n............................................... 96
3.3.3.4. Phương pháp k t h p
xu!t ....................................................... 96
3.3.4. Thu t toán lan truy n m ng ............................................................... 102
3.4. TH= NGHI0M VÀ K4T QU9 ............................................................... 103
3.4.1. D li u th nghi m ............................................................................ 104
3.4.2. Phương pháp th nghi m................................................................... 105
3.4.3. So sánh và ánh giá d a vào Precision, Recall và F-measure......... 105
3.4.4. Phân tích k t qu ................................................................................ 107
3.4.5. Trư ng h p d li u thưa .................................................................... 110
3.5. K4T LU6N ............................................................................................... 111
K4T LU6N....................................................................................................... 113
DANH MQC CÁC CÔNG TRÌNH CÔNG BR............................................. 116
TÀI LI0U THAM KH9O (TI4NG VI0T):.................................................... 117
TÀI LI0U THAM KH9O (TI4NG ANH): .................................................... 117
PHQ LQC 1 XÂY D?NG H0 THRNG T+ V1N L?A CH/N PHIM D?A
TRÊN MÔ HÌNH @ THA K4T H5P.................................................................127
5
DANH M C CÁC CH
KÝ HI U
VI T T T
DI N GI I
AM
Aspect Model (Mô hình >nh hư ng)
AU
Active User (Ngư i dùng hi n th i)
CBF
Content-Based Filtering (L c d a trên n i dung)
CF
Collaborative Filtering (L c c ng tác)
DAC
Data Analyser Component (Thành ph n phân tích d li u)
DBC
Data-Based Concept (Nguyên lý d a vào d li u)
DF
Degree of Freedom (S b c t do)
EM
Expectation Maximization (C c
FC
Filtering Component (Thành ph n l c)
FMM
Flexible Mixture Model (Mô hình pha tr n linh ho t)
IBL
Instance-Based Learning (H c d a trên ví d*)
IDF
Inverse Document Frequency (T n su!t xu!t hi n ngư c)
IE
Information Extraction (CDch thông tin)
IF
Information Filtering (L c thông tin)
IO
Information Overload (Quá F i thông tin)
IR
Information Retrieval (Truy v!n thông tin)
KNN
K Neareast Neighbor (K ngư i láng gi ng g n nh!t)
KPC
i kS v ng)
KNN Pearson Correlation (Phương pháp K ngư i láng gi ng g n
nh!t d a trên
tương quan Pearson)
LC
Learning Component (Thành ph n h c)
LL
Lazy Learning (H c lư i)
LSE
Least Square Estimation (+ c lư ng bình phương t i thi u)
LSM
Latent Semantic Model (Mô hình ng ngh a Bn)
MAE
Mean Absolute Error (Trung bình giá tr> tuy t
MBF
Memory-Based Filtering (L c d a vào b nh )
MC
Multiclass Classification (Phân lo i nhi u l p)
MDBF
Model-Based Filtering (L c d a vào mô hình)
ML
Machine Learning (H c máy)
MM
Multinomial Model (Mô hình a th c)
6
i l i)
MMM
Multinomial Mixture Model (Mô hình pha tr n a th c)
MTL
Multi Task Learning (H c a nhi m)
PCA
Principal Components Analysis (Phân tích thành ph n chính)
RS
Recommender System (H th ng tư v!n)
SD
Standard Deviation (
SDP
Sparsity Data Problem (V!n
SE
Standard Error (L i chuBn)
STL
Single Task Learning (Phương pháp h c ơn l%)
SVD
Singular Value Decomposition (Phân TUEgiá tr> riêng)
SVM
Support Vector Machine (VDy h Etr EWXctơ)
TF
Term Frequency (T n su!t)
UMC
User-Model Component (Thành ph n mô hình ngư i dùng)
URP
User Rating Profile (H Esơ Dnh OPDEngư i HIng)
l ch chuBn)
7
d li u thưa)
DANH M C CÁC HÌNH
Hình 1.1. Ki n trúc t#ng quát c a h th ng l c thông tin. ...................................17
Hình 1.2. Các thành ph n c a h th ng l c c ng tác ...........................................31
Hình 2.1. Thu t toán GentleBoost. ........................................................................52
Hình 2.2. Phương pháp STL cho b n bài toán phân lo i
c l p nhau...............58
Hình 2.3. Phương pháp h c MTL cho b n bài toán phân lo i
ng th i............58
Hình 2.4. Thu t toán MC-Boost c i ti n s d*ng Yc trưng chung cho nhi u bài
toán. ..........................................................................................................................62
Hình 2.5. Phương pháp duy t t p con các bài toán phân lo i..............................64
Hình 3.1.
th> Ngư i dùng- S n phBm ..............................................................76
Hình 3.2.
th> G+ bi u di"n các ánh giá thích h p ..........................................79
Hình 3.3.
th> G- bi u di"n các ánh giá không thích h p. ..............................80
Hình 3.4. Thu t toán d
oán trên
EFG>EG+ .........................................................81
Hình 3.5. Thu t toán d
oán trên
EFG>EG- .........................................................84
Hình 3.6. Thu t toán d
oán trên t!t c
ánh giá................................................86
Hình 3.7.
th> k t h p ngư i dùng và n i dung s n phBm ...............................90
Hình 3.8.
th> thi t l p liên k t gi a ngư i dùng và Yc trưng n i dung ........94
Hình 3.9. Thu t toán d
oán trên
th> k t h p.................................................99
Hình 3.10. Thu t toán lan truy n m ng...............................................................103
Hình 3.11. Giá tr> F-Measure : các m c
8
thưa th t d li u...........................111
DANH M C CÁC B NG
B ng 1.1. Phân lo i các phương pháp tư v!n và m t s nghiên c u i n hình...23
B ng 1.2. Ví d* v ma tr n ánh giá c a l c c ng tác..........................................31
B ng 2.1. Ma tr n ánh giá ngư i dùng.................................................................45
B ng 2.2. Ma tr n
u vào c a l c c ng tác ..........................................................49
B ng 2.3. Ma tr n
u vào bài toán phân lo i theo ngư i dùng...........................50
B ng 2.4. Ma tr n
u vào bài toán phân lo i theo s n phBm ..............................50
B ng 2.5. K t qu th nghi m v i MovieLens .....................................................68
B ng 2.6. K t qu th nghi m v i EachMovie .....................................................68
B ng 2.7. Các tham s th ng kê v i K=5 ánh giá bi t trư c..............................70
c a t p d li u MovieLens......................................................................................70
B ng 2.8. Các tham s th ng kê v i K=10 ánh giá bi t trư c............................70
c a t p d li u MovieLens......................................................................................70
B ng 2.9. Các tham s th ng kê v i K=20 ánh giá bi t trư c............................71
c a t p d li u MovieLens......................................................................................71
B ng 2.10. Các tham s th ng kê v i K=5 ánh giá bi t trư c............................71
c a t p d li u EachMovie .....................................................................................71
B ng 2.11. Các tham s th ng kê v i K=10 ánh giá bi t trư c .........................71
c a t p d li u EachMovie .....................................................................................71
B ng 2.12. Các tham s th ng kê v i K=20 ánh giá bi t trư c .........................72
c a t p d li u EachMovie .....................................................................................72
B ng 3.1. Ma tr n ánh giá R.................................................................................74
B ng 3.2. Ma tr n S n phBm – N i dung Y...........................................................74
B ng 3.3. Ma tr n X bi u di"n ánh
th> Ngư i dùng- S n phBm ...................76
+
B ng 3.4. Ma tr n X bi u di"n LDc ánh giá thích h p........................................79
B ng 3.5. Ma tr n X- bi u di"n LDc ánh giá không thích h p ............................80
B ng 3.6. Ma tr n ánh giá R.................................................................................89
B ng 3.7. Ma tr n Ngư i dùng- S n phBm X........................................................89
9
B ng 3.8. Ma tr n S n phBm- N i dung Y ............................................................90
B ng 3.9. Giá tr> Precision, Recall, F-Measure ki m nghi m trên t p
MovieLens1 ...........................................................................................................106
B ng 3.10. Giá tr> Precision, Recall, F-Measure ki m nghi m trên t p
MovieLens2 ...........................................................................................................107
B ng 3.11. K t qu ki m nghi m paired t-test v i K=10 s n phBm c n tư v!n ......
trên t p MovileLens1 ............................................................................................108
B ng 3.12. K t qu ki m nghi m paired t-test v i K=20 s n phBm c n tư v!n ......
trên t p MovileLens1 ............................................................................................109
B ng 3.13. K t qu ki m nghi m paired t-test v i K=50 s n phBm c n tư v!n ......
trên t p MovieLens1..............................................................................................109
B ng 3.14. K t qu ki m nghi m paired t-test v i K=10 s n phBm c n tư v!n ......
trên t p MovileLens2 ............................................................................................109
B ng 3.15. K t qu ki m nghi m paired t-test v i K=20 s n phBm c n tư v!n ......
trên t p MovileLens2 ............................................................................................110
B ng 3.16. K t qu ki m nghi m paired t-test v i K=50 s n phBm c n tư v!n ......
trên t p MovileLens2 ............................................................................................110
10
PH N M
U
1. Tính c p thi t c a lu n án
V!n
l n
quá t i thông tin (Information Overload) ư c J.Denning nêu ra
u tiên vào n&m 1982 [49]. V i nh ng lý lZ và b
Denning kh[ng >nh kh n&ng l a ch n thông tin h u ích c a ngư i dùng máy
tính sZ gYp khó kh&n nghiêm tr ng b:i s gia t&ng không ng ng lư ng thông tin
kh#ng l
n t hàng tr&m kênh truy n hình, hàng tri u b&ng hình, sách, báo, t p
chí, tài li u thông qua các h th ng giao d>ch i n t . V!n
ngay l p t c ư c c ng
Denning công b
ng các nhà khoa h c máy tính nhi t tình hư:ng ng và
t p trung nghiên c u phương pháp h n ch
nh hư:ng c a v!n
quá t i thông tin
i v i ngư i dùng, thúc By m t l nh v c nghiên c u m i ó là l c thông tin.
L c thông tin (Information Filtering) là l nh v c nghiên c u các quá trình
\ c ] Enh ng thông tin không thích h p và cung c!p thông tin thích h p
nv i
m i ngư i dùng. L c thông tin ư c xem là phương pháp hi u qu h n ch tình
tr ng quá t i thông tin ư c quan tâm nhi u nh!t hi n nay.
L c thông tin ư c ti p c n theo hai xu hư ng chính, ó là l c d a trên tri
th c và l c d a trên d li u. Trong trư ng h p d a vào tri th c, h th ng th c
hi n l c thông tin b
phương pháp này là
có ư c m t t p lu t
t t òi h i chi phí nhi u th i gian
và kinh nghi m c a chuyên gia; vi c c p nh t các lu t không th th c hi n ư c
t
bi n
ng vì ngu n d li u vào thư ng không có c!u trúc và luôn trong tr ng thái
ng. Chính vì v y, l c d a trên tri th c có xu hư ng ít ư c s d*ng.
i v i các h th ng l c d a trên d li u, các quy t c l c ư c xây d ng t
d li u mà h th ng thu th p ư c b
h c máy. Cách ti p c n này cho phép t
ng c p nh t các quy t c l c và không
l thu c vào tri th c chuyên gia. H th ng l c d a trên d li u có kh n&ng thích
nghi cao và t n d*ng ư c ngu n d li u. Chính vì v y, cách ti p c n này ư c
quan tâm nghiên c u hơn so v i phương pháp d a vào tri th c.
11
H tư v!n (Recommender System) là h th ng có kh n&ng t
ng phân
tích, phân lo i, l a ch n và cung c!p cho ngư i dùng nh ng thông tin, hàng hóa
hay d>ch v* mà h quan tâm. H tư v!n ư c xem như m t bi n th
i n hình có
vai trò quan tr ng trong l c thông tin. Nhi u h tư v!n ã ư c thương m i hóa và
tri n khai thành công, tiêu bi u là h
tư v!n c a các hãng Amazon.com,
Netflix.com, Procter & Gamble.
H tư v!n ư c xây d ng d a trên hai k^ thu t l c thông tin chính: L c
theo n i dung (Content-Based Filtering) và l c c ng tác (Collaborative Filtering).
L c theo n i dung khai thác nh ng khía c nh liên quan
n n i dung thông tin s n
phBm ngư i dùng ã t ng s d*ng hay truy nh p trong quá kh
Trái l i, l c c ng tác khai thác nh ng khía c nh liên quan
s n phBm c a c ng
ng ngư i dùng có cùng s: thích
t o nên tư v!n.
n thói quen s d*ng
t o nên tư v!n.
Trong quá trình nghiên c u và ng d*ng, bên c nh nh ng v!n
c a bài toán l c thông tin thông thư ng, xu!t hi n m t s v!n
thù
chung
mang tính Yc
i v i thông tin tư v!n như tính thưa th t d li u hu!n luy n, x lý ngư i
dùng m i, hàng hóa m i, yêu c u k t h p các d ng thông tin khác nhau, làm vi c
v i d li u kích thư c l n ư c c p nh t thư ng xuyên. MYc dù ã có nhi u
nghiên c u nh m t i n i dung này, nhưng ây v n là nh ng v!n
m:, có tính th i s và thu hút s qua tâm c a c ng
tài “Phát tri n m t s ph
nghiên c u
ng nghiên c u.
ng pháp l c thông tin cho h t v n” ư c
th c hi n trong khuôn kh# lu n án ti n s chuyên ngành khoa h c máy tính nh
góp ph n gi i quy t m t s v!n
còn t n t i c a l c thông tin cho các h tư v!n.
2. M c tiêu c a lu n án
M*c tiêu c a lu n án là nghiên c u áp d*ng, c i ti n m t s k^ thu t h c
máy nh
chính xác c a l c thông tin trong các h tư v!n.
nghiên c u t p trung vào vi c nâng cao k t qu d
Yc bi t,
oán nhu c u ngư i dùng
trong trư ng h p d li u thưa, c$ng như trong trư ng h p có c d li u s: thích
ngư i dùng và thông tin n i dung s n phBm.
12
3. Các óng góp c a lu n án
óng góp th nh t c a lu n án là
xu t áp d ng m t k thu t Boosting
c i ti n cho nhi u bài toán phân lo i vào l c c ng tác [3, 81], bao g m:
-
xu!t phương pháp gi i quy t bài toán l c c ng tác b
Boosting d a trên bi u di"n d li u phù h p cho bài toán phân lo i c a
h c máy;
-
_p H*ng k^ thu t Boosting L i ti n cho nhi u bài toán phân lo i b
phương pháp h c a nhi m d a trên g c quy t >nh (Decision Stump) cho
\ c c ng FDc nh
-
Ed Eli u thưa;
Th nghi m và ánh giá k t qu phương pháp c i ti n, Yc bi t chú tr ng
ánh giá k t qu d
oán trong trư ng h p d li u thưa c a l c c ng tác.
H u h t các phương pháp h c máy cho l c c ng tác hi n nay
u th c hi n
nh ng nhi m v* h c ơn l% (Single Task Learning) v i gi thi t d li u hu!n
luy n và d li u ki m tra ư c mô t trong cùng m t không gian các giá tr> Yc
trưng v i cùng m t phân b . Khi phân b thay #i, t p d li u hu!n luy n và d
li u ki m tra ph i xây d ng l i. Trên th c t , vi c làm này không ph i lúc nào
c$ng th c hi n ư c làm cho k t qu d
oán các phương pháp kém tin c y.
MYt khác, t i m i th i i m, phương pháp ch th c hi n m t nhi m v* ơn
l%, k t qu c a m i nhi m v* c* th hoàn toàn
c l p v i các nhi m v* khác.
Chính vì v y, phương pháp ti p c n này sZ gYp khó kh&n khi d li u hu!n luy n
thưa th t.
gi i quy t v!n
này, lu n án
xu!t áp d*ng phương pháp h c a
nhi m (Multi-Task Learning) cho l c c ng tác nh
gi a các nhi m v* h c ơn l%. T p thông tin chung tìm ư c óng vai trò chia s%
và b# sung thông tin vào quá trình hu!n luy n cho m i ngư i dùng khác nhau,
góp ph n nâng cao k t qu d
oán và h n ch
li u thưa trong l c c ng tác.
13
ư c nh hư:ng c a tình tr ng d
óng góp th hai c a lu n án là
trên mô hình
-
xu t m t ph
ng pháp l c k t h p d a
th [2, 80], bao g m:
Bi u di"n m i liên h gi a các
i tư ng tham gia h th ng l c (Ngư i
dùng, s n phBm và n i dung s n phBm) d a vào mô hình
th>;
-
Xây d ng phương pháp d
oán cho l c c ng tác d a trên mô hình
th>.
-
Xây d ng phương pháp trích ch n Yc trưng n i dung s n phBm d a trên
thói quen s d*ng s n phBm c a ngư i dùng;
-
Cá nhân hóa nh hư:ng c a các Yc trưng n i dung
i v i thói quen s
d*ng s n phBm c a ngư i dùng;
-
Áp d*ng thu t toán lan truy n m ng trên
th> k t h p
d
oán, phân
b# các s n phBm cho m i ngư i dùng;
-
Th nghi m và ánh giá k t qu phương pháp
xu!t.
t n d*ng l i th c a m i phương pháp l c, lu n án
xu!t phương pháp
k t h p gi a l c c ng tác và l c n i dung d a trên bi u di"n
th> các
i tư ng
tham gia quá trình l c, bao g m: ngư i dùng, s n phBm, ánh giá ngư i dùng và
n i dung s n phBm.
tránh nh ng h n ch c a các phương pháp l c k t h p trư c ây (phương
pháp trích ch n Yc trưng n i dung ch d a vào n i dung s n phBm), lu n án
xu!t phương pháp trích ch n Yc trưng n i dung d a vào thói quen ngư i dùng
i v i s n phBm. D a trên phương pháp này, nh ng Yc trưng n i dung ư c
xem là quan tr ng v i m i ngư i dùng ư c gi l i
Vi c tìm ra nh ng Yc trưng có nh hư:ng quan tr ng
ph*c v* m*c tiêu d
oán.
n thói quen ngư i dùng
không ch làm gi m chi phí tính toán c a phương pháp (vì s lư ng các Yc trưng
n i dung quan tr ng
i v i m i ngư i dùng còn l i r!t ít), mà còn lo i b
nh ng Yc trưng không nh hư:ng hoYc nh hư:ng không t t
ư c
n thói quen s
d*ng s n phBm c a ngư i dùng.
Phương pháp d
oán ư c ưa v bài toán tìm ki m trên
t n d*ng ư c các thu t toán hi u qu trên
h gián ti p gi a các
th> mà còn t n d*ng ư c m i liên
i tư ng tham gia h th ng.
14
th> không ch
Phương pháp l c k t h p
xu!t ư c th nghi m và áp d*ng cho h th ng
tư v!n l a ch n phim ã cho l i k t qu d
oán t t. H th ng cho phép xem,
ánh giá, bình lu n và g i ý nh ng phim ư c xem h p v i s: thích ng v i m i
ngư i dùng. H th ng g m b n ch c n&ng chính: Ch c n&ng c p nh t, phân tích
thông tin ngư i dùng và s n phBm; ch c n&ng h c; ch c n&ng l c và ch c n&ng tư
v!n. Trong ó, ch c n&ng h c và l c ư c th c hi n theo phương pháp l c k t
h p
xu!t.
4. B c c c a lu n án
N i dung lu n án ư c xây d ng thành ba chương và m t ph* l*c, trong ó:
Ch ơng 1. gi i thi u t#ng quan v l c thông tin. Trình bày nh ng nghiên
c u cơ b n c a l c thông tin, các phương pháp l c thông tin cho h tư v!n và
nh ng v!n
c n ti p t*c nghiên c u c a m i phương pháp. Trên cơ nh ng
nghiên c u cơ b n, xác >nh rõ hư ng nghiên c u c a
tài. M t k t qu nghiên
tài ư c công b trong [4].
c u cơ b n c a
Ch ơng 2. trình bày phương pháp h n ch
nh hư:ng c a v!n
d li u
thưa trong l c c ng tác b
trong chương này ư c t#ng h p d a trên k t `a Enghiên c u UEcông b Etrong [3,
81].
Ch ơng 3. trình bày phương pháp k t h p gi a l c c ng tác và l c n i dung
d a trên mô hình
th>. N i dung trình bày trong chương này ư c t#ng h p t
k t qu nghiên c u UEcông b Etrong [2, 80]. Cu i cùng là m t s k t lu n và
xu!t các nghiên c u ti p theo.
Ph n ph l c. trình bày thi t k và xây d ng ng d*ng cho phương pháp l c
k th p ư c
xu!t trong Chương 3.
15
CHƯƠNG 1
T NG QUAN V L C THÔNG TIN CHO H TƯ V N
Chương này trình bày nh ng v!n
t#ng quan v l c thông tin, các
phương pháp l c thông tin cho h tư v!n cùng v i nh ng h n ch t n t i m i
phương pháp. Trên cơ s: nh ng nghiên c u cơ b n, xác >nh rõ hư ng nghiên
c u c* th c a
tài. Nh ng k t qu nghiên c u c a
tài sZ ư c trình bày
trong các chương ti p theo c a lu n án.
Do l c thông tin là l nh v c nghiên c u có ph m vi r ng l n, sau khi trình
bày ng n v l c thông tin nói chung, lu n án t p trung trình bày vào ch
nghiên c u chính c a lu n án ó là v!n
l c trong các h tư v!n.
1.1. GI I THI U CHUNG
L c thông tin (IF) là l nh v c nghiên c u các quá trình cung c!p thông tin
thích h p, ng&n ng a và g b thông tin không thích h p cho m i ngư i dùng
[75, 99]. Thông tin ư c cung c!p (còn ư c g i là s n phBm) có th là v&n b n,
trang web, phim, nh, d>ch v* hoYc b!t kS d ng thông tin nào ư c s n sinh ra t
các phương ti n truy n thông. Ph m vi ng d*ng c a l c thông tin tr i r ng
trong nhi u ng d*ng th c t khác nhau c a khoa h c máy tính. bng d*ng tiêu
bi u nh!t c a l c thông tin ư c k
n là l c k t qu tìm ki m trong các cDy
Fdm ki m (Search Engine), l c e-mail d a trên n i dung thư WKE h sơ ngư i
dùng, l c thông tin v&n b n trên các máy ch
cung c!p thông tin cho t p th
hoYc cá nhân thích h p, lo i b nh ng trang thông tin có nh hư:ng không t t
i v i ngư i dùng.
Yc bi t, l c thông tin có vai trò quan tr ng cho các h
th ng tư v!n (RS) ng d*ng trong thương m i i n t .
Các h th ng l c thông tin có th khác nhau v nguyên lý, phương pháp,
k^ thu t, ph m vi ng d*ng nhưng
u th c hi n m*c tiêu cung c!p cho ngư i
dùng nh ng thông tin c n thi t nh!t, lo i b nh ng thông tin không có giá tr>
hoYc không thích h p
i v i ngư i dùng. Nguyên lý ph# bi n ư c dùng trong
16
l c thông tin là nguyên lý d a vào d li u (Data-Based) và nguyên lý d a vào tri
th c (Knowledge-Based) [99]. Các phương pháp l c có th
ư c th c hi n d a
vào n i dung thông tin s n phBm hoYc l c d a trên thói quen s: thích ngư i
dùng. Các k^ thu t l c ư c phát tri n d a trên n n t ng t l nh v c truy v!n
thông tin (Information Retrieval), tách thông tin (Information Extraction), phân
lo i thông tin (Information Classificarion). Ph m vi ng d*ng c a các h th ng
l c ư c áp d*ng cho t!t c các mô hình thương m i i n t th c t : Khách hàng
- Khách hàng (Customer to Customer), Nhà cung c!p - Khách hàng (Business to
Customer), Nhà cung c!p - Nhà cung c!p (Business to Business) [75].
1.1.1. Ki n trúc t ng quát c a h th ng l!c thông tin
M t h th ng l c thông tin t#ng quát bao g m b n thành ph n cơ b n
[99]: Thành ph n phân tích d li u (Data Analyser Component), thành ph n mô
hình ngư i dùng (User Model Component), thành ph n h c (Learning
Component) và thành ph n l c ( Filtering Component).
Thành ph n mô
hình ngư i dùng
H sơ ngư i
dùng
Thành ph n
h c
Thông tin Yc t
ngư i dùng
Ngư i dùng
Ph n h i
ngư i dùng
S n phBm
phù h p v i
ngư i dùng
C p nh t thông
tin hu!n luy n
Bi u di"n Thông
tin s n phBm
Thành ph n l c
Nhà cung c!p
thông tin
Thông tin các
s n phBm
Bi u di"n Thông
tin s n phBm
Thành ph n
phân tích d
li u
Hình 1.1. Ki n trúc t ng quát c a h th ng l c thông tin.
• Thành ph n phân tích d li u (DAC) có nhi m v* thu th p d li u v s n
phBm t các nhà cung c!p thông tin (ví d* tài li u, thư i n t , sách, báo, t p
chí, phim, nh...). D li u v s n phBm ư c phân tích và bi u di"n theo m t
khuôn d ng thích h p, sau ó chuy n
17
n b ph n l c như Hình 1.1.
• Thành ph n mô hình ng
i dùng (UMC) có th “hi n” hoYc “Bn” dùng
l!y
thông tin v ngư i dùng, như gi i tính, tu#i, nơi sinh s ng và thông tin ngư i
dùng ã truy v!n trư c ó
t o nên h sơ ngư i dùng. H sơ ngư i dùng
sau khi t o ra ư c chuy n
n thành ph n h c
th c hi n nhi m v* hu!n
luy n.
• Thành ph n h c (LC) th c hi n hu!n luy n trên t p h sơ và ph n h i c a
ngư i dùng theo m t thu t toán h c máy c* th . Thu t toán h c l!y d li u t
thành ph n mô t ngư i dùng; l!y d li u v s n phBm ã ư c bi u di"n t
thành ph n l c k t h p v i thông tin ph n h i ngư i dùng
th c hi n nhi m
v* hu!n luy n. K t qu quá trình h c ư c chuy n l i cho b ph n l c
th c hi n nhi m v* ti p theo.
• Thành ph n l c (FC) là thành ph n quan tr ng nh!t c a h th ng, có nhi m
v* xem xét s phù h p gi a h sơ ngư i dùng và bi u di"n d li u s n phBm
ưa ra quy t >nh phân b# s n phBm. N u d li u s n phBm phù h p v i
h sơ ngư i dùng, s n phBm sZ ư c cung c!p cho ngư i dùng ó. Trong
trư ng h p ngư c l i, h th ng lo i b s n phBm kh i danh sách nh ng s n
phBm phân b# cho ngư i dùng. Ngư i dùng nh n ư c nh ng s n phBm thích
h p, xem xét, ánh giá, ph n h i l i cho thành ph n h c
ph*c v* quá
trình l c ti p theo.
1.1.2. L!c thông tin và truy v n thông tin
Belkin và Croft [75] nhìn nh n l c thông tin và truy v!n thông tin như hai
mYt c a cùng m t v!n
. Chính vì v y, nhi u Yc trưng cơ b n c a l c thông tin
có th tìm th!y trong l nh v c truy v!n thông tin (IR). Tuy nhiên, ta có th phân
bi t s khác bi t gi a hai h th ng này thông qua vi c so sánh m t s
Yc trưng
cơ b n dư i ây.
• Ki u ng
i dùng. H th ng truy v!n thông tin áp ng nhu c u cho t!t c
ngư i dùng t i m i th i i m mà không c n quan tâm
18
n h là ai. Trái
l i, l c thông tin quan tâm
n nh ng ngư i dùng thư ng xuyên s d*ng
h th ng dùng, có h sơ rõ ràng, có m i quan tâm dài h n
i v i h
th ng và luôn nh n ư c thông tin thích h p t h th ng : m i th i i m.
• Bi u di n nhu c u thông tin. H th ng truy v!n thông tin bi u di"n nhu
c u ngư i dùng b!t kS dư i d ng m t câu truy v!n. L c thông tin bi u
di"n nhu c u ngư i dùng lâu dài h th ng dư i d ng m t h sơ ngư i
dùng. H sơ ngư i dùng không ch ghi l i các Yc trưng thông tin cá nhân,
mà còn bao hàm các Yc trưng liên quan
n l>ch s truy c p hay thói
quen s d*ng thông tin c a ngư i dùng này.
• M c tiêu h th ng. H th ng truy v!n thông tin quan tâm
n các phương
pháp cung c!p thông tin thích h p cho m i ngư i dùng phù h p v i truy
v!n c a ngư i dùng này. L c thông tin quan tâm
n các phương pháp g
b d li u hơn là vi c n l c tìm ki m thêm d li u. C$ng vì lý do này,
l c thông tin ư c xem là phương pháp gi m t i thông tin chính ư c
quan tâm nh!t hi n nay.
• C s d li u. H th ng truy v!n thông tin th c hi n cung c!p thông tin
trên các cơ s: d li u t nh. L c thông tin cung c!p thông tin trên cơ s: d
li u
ng, có c!u trúc khác nhau và thư ng xuyên bi n #i.
• Ph m vi t
ng tác. H th ng truy v!n không quan tâm
n s tương tác
gi a nh ng ngư i dùng khác nhau. L c thông tin quan tâm
n s tương
ng theo s: thích, thói quen hay nh ng Yc trưng xã h i, t nhiên khác
nhau c a t p ngư i dùng. H th ng luôn có m t mô hình ngư i dùng
gi l i nh ng Yc trưng c n thi t cho m i ngư i dùng.
1.1.3. H!c máy và l!c thông tin
H!c máy (Machine Learning). H c máy là l nh v c nghiên c u c a trí
tu nhân t o t p trung vào vi c ra quy t >nh hoYc phát hi n tri th c d a trên
d li u [1, 85, 97]. Các k^ thu t h c máy ư c s d*ng trong vi c d
19
oán (ví
d* d
oán nhu c u ngư i dùng), phân lo i, x p h ng (ví d* phân lo i, x p
h ng thông tin, phân lo i ngư i dùng).
L c thông tin có cùng chung m*c tiêu v i h c máy (ML) ó là cung c!p
thông tin c n thi t cho m i ngư i dùng d a trên nh ng gì có th h c t nh ng
kinh nghi m c a c ng
ng trong quá kh . Chính vì v y, thành ph n l c thông
tin ư c xây d ng theo hai cách ti p c n chính c a h c máy: l c d a trên tri
th c và l c d a trên d li u.
L!c d"a trên tri th#c (KBC). Thông tin ư c l c b
các lu t. M i lu t bi u di"n nhu c u thông tin ngư i dùng hoYc m t m u thông
tin c n l c. M i quy t >nh l c sZ ư c th c hi n n u nh ng i u ki n c a lu t
ưa ra ư c th a mãn. Ví d* trong h th ng l c thư i n t , m i lu t có th
ư c >nh ngh a và áp d*ng cho các trư ng tiêu
ch
thư (Ngư i g i, ngày g i,
...).
i m quan tr ng c a cách ti p c n này là các lu t do ngư i dùng
(chuyên gia) cung c!p d a trên kinh nghi m hay tri th c c a mình. +u i m
c a cách ti p c n này là h th ng sZ ơn gi n hơn do không c n s d*ng các k^
thu t h c t
ng. Như c i m là vi c xây d ng các lu t l c t t òi h i nhi u
th i gian, kinh nghi m c a chuyên gia. Vi c c p nh t các lu t c$ng không th
th c hi n t
ng. Do như c i m này, l c d a trên tri th c có xu hư ng ít
ư c s d*ng.
L!c d"a trên d$ li u (DBC). Khác v i l c d a trên tri th c, trong cách
ti p c n d a trên d li u, các quy t c cho thành ph n l c ư c xây d ng t d
li u mà h th ng thu th p ư c b
thu t toán h c máy. Cách ti p c n này cho phép t o ra và c p nh t quy t c l c
thông tin mà không c n t i tri th c chuyên gia,
ng th i ch!t lư ng l c có th
t t hơn so v i cách ti p c n d a trên tri th c, Yc bi t khi có lư ng d li u l n
và thư ng xuyên bi n
ng.
20
Do vi c thu th p d li u ngày càng nhanh và d", l c d a trên d li u
ang d n tr: thành cách ti p c n chính trong l c thông tin. Chính vì v y, lu n
án s t p trung nghiên c u k thu t l c thông tin cho h t v n d a trên cách
ti p c n này.
1.1.4. L!c thông tin và các h t v n
H t v n (RS) là trư ng h p riêng c a các h th ng l c thông tin. D a
trên thông tin ã có v ngư i dùng, h tư v!n xem xét trong s lư ng r!t l n
hàng hóa hay thông tin và tư v!n cho ngư i dùng m t danh sách ng n g n
nhưng
y
nh ng hàng hóa mà ngư i dùng có kh n&ng quan tâm [25, 26,
40, 51, 53, 54, 67, 70, 83].
S d*ng h tư v!n trong các ng d*ng thương m i i n t sZ h tr
khách hàng không c n th c hi n các thao tác tìm ki m s n phBm, mà ch c n
l a ch n hàng hóa hoYc d>ch v* ưa thích do h th ng cung c!p.
i u này sZ
làm gia t&ng n&ng l c mua, bán c a toàn b h th ng. Chính vì lý do này, hàng
lo t các công ty a qu c gia (Amazon.com, Netflix.com, CDNOW, J.C. Penney,
Procter & Gamble..) ã
u tư và phát tri n thành công công ngh tư v!n
gia t&ng h th ng khách hàng và bán hàng qua m ng [7].
Do là trư ng h p riêng c a h th ng l c tin, h tư v!n có nhi u Yc i m
c a h l c tin tiêu bi u. Tuy nhiên, do Yc i m c a d li u, ngư i dùng và n i
dung, h tư v!n c$ng như các k^ thu t ư c s d*ng có m t s khác bi t nh!t
>nh. Tùy vào phương pháp l c tin, các h tư v!n ư c phân lo i thành ba lo i:
T
v n d a vào ph
ng pháp l c theo n i dung (Content-Based Filtering
Recommendation), t v n d a vào ph
ng pháp l c c ng tác (Collaborative
Filtering Recommendation) và t v n d a vào ph
Filtering Recommendation)[36, 107].
21
ng pháp l c k t h p (Hybrid
• Ph
ng pháp t v n d a vào l c n i dung: H th ng tư v!n cho ngư i
dùng nh ng s n phBm m i có n i dung tương t v i m t s s n phBm h
ã t ng mua hoYc t ng truy nh p trong quá kh .
• Ph
ng pháp t v n d a vào l c c ng tác: Ngư i dùng sZ ư c tư v!n
ã t ng ưa thích
m t s s n phBm c a nh ng ngư i có s: thích gi ng h
trong quá kh .
• Ph
ng pháp t v n d a vào l c k t h p: H th ng tư v!n cho ngư i
dùng nh ng s n phBm tương t v i m t s s n phBm h
ã t ng mua
hoYc t ng truy nh p trong quá kh và s n phBm c a nh ng ngư i có s:
thích gi ng h
ã t ng ưa thích trong quá kh .
M i phương pháp l c áp d*ng cho các h tư v!n ư c phân thành hai
hư ng ti p c n [36, 107]: l c d a vào b nh (Memory-Based Filtering) và l c
d a vào mô hình (Model-Based Filtering).
• Các ph
69]:
d
ng pháp l c d a vào b nh (MBF) [21, 22, 29, 52, 57, 63, 64,
ây là phương pháp lưu l i toàn b các ví d* hu!n luy n. Khi c n
oán, h th ng tìm các ví d* hu!n luy n gi ng trư ng h p c n d
oán nh!t và ưa ra tư v!n d a trên các ví d* này. Trư ng h p tiêu bi u
c a l c d a vào b
nh
là thu t toán K ngư i láng gi ng g n nh!t
(KNN). +u i m chính c a phương pháp ti p c n này là ơn gi n, d" cài
Yt. Tuy nhiên, phương pháp này có th i gian l c ch m do vi c d
oán
òi h i so sánh và tìm ki m trên toàn b lư ng ngư i dùng và s n phBm.
• Ph
ng pháp l c d a trên mô hình (MDBF) [27, 30, 32, 33, 34, 35, 37,
41, 43, 45, 90, 95, 96, 108, 109, 121]. Trong phương pháp này, d li u
ư c s d*ng
xây d ng mô hình rút g n, ví d* mô hình xác su!t hay
cây quy t >nh. Mô hình này sau ó ư c s d*ng
Phương pháp này cho phép th c hi n vi c d
d
oán th c hi n trên mô hình ã h c trư c ó.
22
ưa ra các tư v!n.
oán nhanh, do quá trình
B ng 1.1 th ng kê m t s nghiên c u tiêu bi u các phương pháp l c
thông tin cho h tư v!n [36].
B ng 1.1. Phân lo i các phương pháp tư v!n và m t s nghiên c u i n hình
PHƯƠNG PHÁP TƯ V N D%A VÀO L C N&I DUNG
L!c n'i dung d"a vào b' nh(
L!c n'i dung d"a vào mô hình
Các k thu t thông d ng:
Các k thu t thông d ng:
• T n su!t xu!t hi n ngư c
• Mô hình m ng Bayes
• Phân c*m (Clustering)
• Mô hình phân c*m
• Mô hình cây quy t >nh
• Mô hình m ng nơ ron nhân t o
Nh ng nghiên c u i n hình:
Nh ng nghiên c u i n hình:
• Balabanovic và Shoham [69]
• Pazzani [74]
• Pazzani và Billsus [73]
• Mooney và Roy [92]
• Billsus và Pazzani [30]
• Zhang và các c ng s [113]
PHƯƠNG PHÁP TƯ V N D%A VÀO L C C&NG TÁC
L!c c'ng tác d"a vào b' nh(
L!c c'ng tác d"a vào mô hình
Các k thu t thông d ng:
Các k thu t thông d ng:
• K ngư i láng gi ng g n nh!t (K• Mô hình m ng Bayes
Nearest Neighbour) s d*ng
• Mô hình phân c*m
tương t cosin hoYc các
• Mô hình cây quy t >nh
tương quan.
• Mô hình m ng nơ ron nhân t o
• Phân c*m
• Mô hình h i qui tuy n tính
•
tương quan gián ti p
• Mô hình th ng kê
(Indirect Similarity)
• Mô hình
th>
Nh ng nghiên c u i n hình:
Nh ng nghiên c u i n hình:
• Resnick và các c ng s [83]
• Nakamura và Abe [11]
• Breese và các c ng s [52]
• Umyarov và Alexander
• Nakamura và Abe [11]
Tuzhilin [15, 16, 17]
• M. Deshpande and G. Karypis
• Ungar và Foster [68]
[72]
• Aggarwal và các c ng s [24]
• Sarwar và các c ng s [21]
• Chien và George [114]
• Yu và các c ng s [63, 64]
• Condliff và các c ng s [71]
• Herlocker và các c ng s [55]
• Kumar và các c ng s [89]
• Wang và các c ng s [57]
• Shani và các c ng s [41]
• Bell và Koren [86]
• Hofmann [95, 96]
• Desrosiers và Karypis [24]
• Marlin [18]
23
• Goldberg và các c ng s [62]
•
•
•
•
•
•
Si và Jin [66]
Getoor và Sahami [65]
Huang và các c ng s [119]
DeCoste [31]
Nikovski và Kulev [33]
Su và các c ng s [105, 106,
107]
PHƯƠNG PHÁP TƯ V N D%A VÀO L C K T H)P
L!c k t h*p d"a vào b' nh(
L!c k t h*p d"a vào mô hình
Các k thu t thông d ng:
Các k thu t thông d ng:
• T# h p tuy n tính k t qu d
• H p nh!t mô hình bi u di"n d
oán c a c hai phương pháp.
li u.
• K t h p các Yc tính c a l c
• H p nh!t mô hình d oán.
c ng tác vào l c n i dung.
• H p nh!t mô hình bi u di"n d
• K t h p các Yc tính c a l c n i
li u và mô hình d oán.
dung vào l c c ng tác.
• H p nh!t l c c ng tác và l c n i
dung trong cùng mô hình.
Nh ng nghiên c u i n hình:
Nh ng nghiên c u i n hình:
• Gunawardana và Meek [8]
• Basu và các c ng s [23]
• Billsus và Pazzani [29]
• Claypool và các c ng s [70]
•
Lazanas và Karacapilidis [10]
• Soboroff và Nicolas [46]
• Popescul và các c ng s [12]
• Billsus và Pazzani [30]
• Hofmann [96]
• Tran và Cohen [98]
• Huang và các c ng s [120,
• Melville và các c ng s [82]
121, 122]
• Adomavicius và các c ng s
• Su và các c ng s [104]
[37, 38, 39]
• Balisico và Hofmann [47]
• Anand và Bharadwaj [28]
• Good và các c ng s [76]
1.2. PHƯƠNG PHÁP L C THEO N&I DUNG
L c theo n i dung là phương pháp th c hi n d a trên vi c so sánh n i
dung thông tin hay mô t hàng hóa, nh
nh ng gì mà ngư i dùng ã t ng quan tâm
gi i thi u cho h nh ng s n
phBm này [4, 6, 19, 69, 73, 84, 92]. Các phương pháp ti p c n cho l c theo n i
dung có ngu n g c t l nh v c truy v!n thông tin, trong ó m i s n phBm ư c
bi u di"n b
24
h sơ ngư i dùng. Phương pháp d
oán n i dung nguyên b n c a s n phBm
th c hi n d a vào vi c xem xét các h sơ s n phBm có m c
phù h p cao v i
h sơ ngư i dùng [84].
1.2.1. Bài toán l!c theo n'i dung
Bài toán l c theo n i dung ư c phát bi u như sau. Cho P= {p1, p2,.., pN}
là t p g m N s n phBm. N i dung s n phBm p ∈P ư c ký hi u là Content(p)
ư c bi u di"n thông qua t p K Yc trưng n i dung c a P. T p các Yc trưng
s n phBm p ư c xây d ng b
m*c ích d
th c hi n
oán nh ng s n phBm khác tương t v i p.
Cho U = {u1, u2,.., u M} là t p g m M ngư i dùng. V i m i ngư i dùng
u ∈U, g i ContentBasedProfile(u) là h sơ ngư i dùng u. H sơ c a ngư i
dùng u th c ch!t là l>ch s truy c p hoYc ánh giá c a ngư i ó
i v i các s n
phBm. ContentBasedProfile(u) ư c xây d ng b
các s n phBm mà ngư i dùng u ã t ng truy nh p hoYc ánh giá d a trên các
k^ thu t truy v!n thông tin.
Bài toán l c theo n i dung khi ó là d
oán nh ng s n phBm m i có n i
dung thích h p v i ngư i dùng d a trên t p h sơ s n phBm Content(p) và h
sơ ngư i dùng ContendBasedProfile(u).
1.2.2. Các ph ơng pháp pháp l!c theo n'i dung
Như ã trình bày : trên, l c theo n i dung ư c ti p c n theo hai xu hư ng:
l c d a trên b nh và l c d a trên mô hình. N i dung c* th các phương pháp
ư c th c hi n như dư i ây.
1.2.2.1. L!c n'i dung d"a vào b' nh(
L c n i dung d a vào b nh là phương pháp s d*ng toàn b t p h sơ s n
phBm và t p h sơ ngư i dùng
th c hi n hu!n luy n và d
oán. Trong phương
pháp này, các s n phBm m i ư c tính toán và so sánh v i t!t c h sơ ngư i
dùng. Nh ng s n phBm m i có m c
tương t cao nh!t v i h sơ ngư i dùng sZ
25