Tải bản đầy đủ (.pdf) (135 trang)

Phát triển một số phương pháp lọc thông tin cho hệ tư vấn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.62 MB, 135 trang )

L I CAM OAN

Tôi xin cam oan ây là công trình nghiên c u c a riêng tôi. Các k t qu
ư c vi t chung v i các tác gi khác

u ư cs

ng ý c a

ng tác gi trư c

khi ưa vào lu n án. Các k t qu nêu trong lu n án là trung th c và chưa t ng
ư c công b trong các công trình nào khác.

Tác gi

Nguy n Duy Ph

1

ng


L i c m ơn

Th c hi n lu n án ti n s là m t th thách l n, òi h i s kiên trì và t p
trung cao

. Tôi th c s h nh phúc v i k t qu

tài nghiên



t ư c không ch là n l c cá nhân, mà còn có

c u c a mình. Nh ng k t qu
s h tr và giúp

t ư c trong

c a t p th giáo viên hư ng d n, nhà trư ng, b môn,

nghi p và gia ình. Tôi mu n bày t tình c m c a mình
Trư c tiên, tôi xin bày t s bi t ơn sâu s c
d n PGS TS T Minh Phương và PGS TS

ng

nv ih .

n t p th giáo viên hư ng

inh M nh Tư ng.

ư c làm vi c

v i hai th y là m t cơ h i l n cho tôi h c h i phương pháp nghiên c u. C m ơn
hai th y r!t nhi u vì s hư ng d n t n tình, nghiêm túc và khoa h c.
Tôi xin trân tr ng c m ơn B môn Khoa h c máy tính, Khoa Công ngh
thông tin, Phòng ào t o, Ban giám hi u trư ng

i h c Công ngh


ãt o i u

ki n thu n l i cho tôi trong su t quá trình th c hi n lu n án.
Tôi xin c m ơn t p th Lãnh

o H c Vi n Công ngh Bưu chính Vi"n

thông, cán b , gi ng viên khoa Công ngh thông tin – H c Vi n Công ngh
Bưu chính Vi"n thông ã c# v$

ng viên tôi trong quá trình nghiên c u.

Tôi c m ơn t!t c nh ng ngư i b n c a tôi, nh ng ngư i luôn chia s% và c#
v$ tôi trong nh ng lúc khó kh&n và tôi luôn ghi nh
Cu i cùng, tôi xin bày t lòng bi t ơn vô h n
luôn bên c nh ng h , giúp

tôi.

2

i u ó.
i v i cha m' và gia ình ã


M CL C

PH(N M)


(U .........................................................................................................

1. Tính c!p thi t c a lu n án ........................................................................... 11
2. M*c tiêu c a lu n án ................................................................................... 12
3. Các óng góp c a lu n án ........................................................................... 13
4. B c*c c a lu n án ...................................................................................... 15
CH+ƠNG 1. T-NG QUAN V. L/C THÔNG TIN CHO H0 T+ V1N .........16
1.1. GI2I THI0U CHUNG................................................................................ 16
1.1.1. Ki n trúc t#ng quát c a h th ng l c thông tin .................................. 17
1.1.2. L c thông tin và truy v!n thông tin..................................................... 18
1.1.3. H c máy và l c thông tin..................................................................... 19
1.1.4. L c thông tin và các h tư v!n............................................................ 21
1.2. PH+ƠNG PHÁP L/C THEO N3I DUNG.............................................. 24
1.2.1. Bài toán l c theo n i dung .................................................................. 25
1.2.2. Các phương pháp pháp l c theo n i dung............................................ 25
1.2.2.1. L c n i dung d a vào b nh ........................................................ 25
1.2.2.2. L c n i dung d a vào mô hình...................................................... 28
1.2.3. Nh ng v!n

t n t i............................................................................. 29

1.3. PH+ƠNG PHÁP L/C C3NG TÁC .......................................................... 30
1.3.1. Bài toán l c c ng tác............................................................................. 30
1.3.2. Các phương pháp l c c ng tác............................................................. 32
1.3.2.1. L c c ng tác d a trên b nh ....................................................... 32
1.3.2.2. L c c ng tác d a vào mô hình ..................................................... 35
1.3.3. Nh ng v!n

t n t i............................................................................. 38


1.4. PH+ƠNG PHÁP L/C K4T H5P.............................................................. 39
1.4.1. Bài toán l c k t h p .............................................................................. 39
1.4.2. Các phương pháp l c k t h p............................................................... 40
1.4.3. Nh ng v!n

còn t n t i .................................................................... 42

1.5. K4T LU6N ................................................................................................. 42
3


CH+ƠNG 2. L/C C3NG TÁC B7NG PH+ƠNG PHÁP H/C A NHI0M......
2.1. 8T V1N .............................................................................................. 44
2.1.1. V!n

d li u thưa c a l c c ng tác .................................................. 44

2.1.2. 9nh hư:ng c a v!n

d li u thưa .................................................... 45

2.1.3. Các phương pháp h n ch v!n

d li u thưa................................... 46

2.2. L/C C3NG TÁC B7NG PHÂN LO;I ................................................... 48
2.2.1. Phát bi u bài toán l c c ng tác b2.2.2. Phân lo i b2.3. PHÂN LO;I V2I CÁC 8C TR+NG CHUNG .................................... 56
2.3.1. Phương pháp h c a nhi m ................................................................. 56

2.3.2. Boosting

ng th i cho nhi u bài toán phân lo i............................... 59

2.3.2.1. Xây d ng hàm m*c tiêu................................................................ 59
2.3.2.2. Xây d ng b phân lo i y u........................................................... 60
2.2.2.3.

ph c t p thu t toán .................................................................. 63

2.4. TH= NGHI0M VÀ K4T QU9 ................................................................. 65
2.4.1. Phương pháp th nghi m..................................................................... 65
2.4.2. D li u th nghi m .............................................................................. 65
2.4.3. So sánh và ánh giá d a vào giá tr> MAE .......................................... 67
2.4.4. K t qu th nghi m.............................................................................. 67
2.4.5. Phân tích k t qu .................................................................................. 69
2.5. K4T LU6N ................................................................................................. 72
CH+ƠNG 3. L/C K4T H5P D?A TRÊN MÔ HÌNH @ THA............................
3.1. V1N . L/C K4T H5P........................................................................... 73
3.2. L/C C3NG TÁC D?A TRÊN MÔ HÌNH @ THA ............................... 75
3.2.1. Phương pháp bi u di"n
3.2.2. Phương pháp d
3.2.2.1. CDch

th>.............................................................. 75

oán trên

th> Ngư i dùng- S n phBm ................ 76


EFG> Ngư i HIng-EJ n phBm FGKnh LDc

EFG>Econ .............. 78

3.2.2.2. Phương MGDp d E NDn trên

EFG>EG+................................................ 80

3.2.2.3. Phương MGDp d E NDn trên

EFG>EG- ................................................ 83
4


3.2.2.4. Phương MGDp d E NDn theo t!t L E Dnh OPD...................................... 85
3.3. K4T H5P L/C C3NG TÁC VÀ L/C N3I DUNG ............................... 88
3.3.1. Bi u di"n

th> k t h p....................................................................... 88

3.3.2. Xây d ng liên k t ngư i dùng và n i dung s n phBm ....................... 91
3.3.3. Phương pháp d

oán .......................................................................... 95

3.3.3.1. L c c ng tác d a trên mô hình

th> k t h p............................. 95

3.3.3.2. L c n i dung d a trên mô hình


th> k t h p ............................ 95

3.3.3.3. Phương pháp l c k t h p ơn gi n............................................... 96
3.3.3.4. Phương pháp k t h p

xu!t ....................................................... 96

3.3.4. Thu t toán lan truy n m ng ............................................................... 102
3.4. TH= NGHI0M VÀ K4T QU9 ............................................................... 103
3.4.1. D li u th nghi m ............................................................................ 104
3.4.2. Phương pháp th nghi m................................................................... 105
3.4.3. So sánh và ánh giá d a vào Precision, Recall và F-measure......... 105
3.4.4. Phân tích k t qu ................................................................................ 107
3.4.5. Trư ng h p d li u thưa .................................................................... 110
3.5. K4T LU6N ............................................................................................... 111
K4T LU6N....................................................................................................... 113
DANH MQC CÁC CÔNG TRÌNH CÔNG BR............................................. 116
TÀI LI0U THAM KH9O (TI4NG VI0T):.................................................... 117
TÀI LI0U THAM KH9O (TI4NG ANH): .................................................... 117
PHQ LQC 1 XÂY D?NG H0 THRNG T+ V1N L?A CH/N PHIM D?A
TRÊN MÔ HÌNH @ THA K4T H5P.................................................................127

5


DANH M C CÁC CH
KÝ HI U

VI T T T

DI N GI I

AM

Aspect Model (Mô hình >nh hư ng)

AU

Active User (Ngư i dùng hi n th i)

CBF

Content-Based Filtering (L c d a trên n i dung)

CF

Collaborative Filtering (L c c ng tác)

DAC

Data Analyser Component (Thành ph n phân tích d li u)

DBC

Data-Based Concept (Nguyên lý d a vào d li u)

DF

Degree of Freedom (S b c t do)


EM

Expectation Maximization (C c

FC

Filtering Component (Thành ph n l c)

FMM

Flexible Mixture Model (Mô hình pha tr n linh ho t)

IBL

Instance-Based Learning (H c d a trên ví d*)

IDF

Inverse Document Frequency (T n su!t xu!t hi n ngư c)

IE

Information Extraction (CDch thông tin)

IF

Information Filtering (L c thông tin)

IO


Information Overload (Quá F i thông tin)

IR

Information Retrieval (Truy v!n thông tin)

KNN

K Neareast Neighbor (K ngư i láng gi ng g n nh!t)

KPC

i kS v ng)

KNN Pearson Correlation (Phương pháp K ngư i láng gi ng g n
nh!t d a trên

tương quan Pearson)

LC

Learning Component (Thành ph n h c)

LL

Lazy Learning (H c lư i)

LSE

Least Square Estimation (+ c lư ng bình phương t i thi u)


LSM

Latent Semantic Model (Mô hình ng ngh a Bn)

MAE

Mean Absolute Error (Trung bình giá tr> tuy t

MBF

Memory-Based Filtering (L c d a vào b nh )

MC

Multiclass Classification (Phân lo i nhi u l p)

MDBF

Model-Based Filtering (L c d a vào mô hình)

ML

Machine Learning (H c máy)

MM

Multinomial Model (Mô hình a th c)
6


i l i)


MMM

Multinomial Mixture Model (Mô hình pha tr n a th c)

MTL

Multi Task Learning (H c a nhi m)

PCA

Principal Components Analysis (Phân tích thành ph n chính)

RS

Recommender System (H th ng tư v!n)

SD

Standard Deviation (

SDP

Sparsity Data Problem (V!n

SE

Standard Error (L i chuBn)


STL

Single Task Learning (Phương pháp h c ơn l%)

SVD

Singular Value Decomposition (Phân TUEgiá tr> riêng)

SVM

Support Vector Machine (VDy h Etr EWXctơ)

TF

Term Frequency (T n su!t)

UMC

User-Model Component (Thành ph n mô hình ngư i dùng)

URP

User Rating Profile (H Esơ Dnh OPDEngư i HIng)

l ch chuBn)

7

d li u thưa)



DANH M C CÁC HÌNH

Hình 1.1. Ki n trúc t#ng quát c a h th ng l c thông tin. ...................................17
Hình 1.2. Các thành ph n c a h th ng l c c ng tác ...........................................31
Hình 2.1. Thu t toán GentleBoost. ........................................................................52
Hình 2.2. Phương pháp STL cho b n bài toán phân lo i

c l p nhau...............58

Hình 2.3. Phương pháp h c MTL cho b n bài toán phân lo i

ng th i............58

Hình 2.4. Thu t toán MC-Boost c i ti n s d*ng Yc trưng chung cho nhi u bài
toán. ..........................................................................................................................62
Hình 2.5. Phương pháp duy t t p con các bài toán phân lo i..............................64
Hình 3.1.

th> Ngư i dùng- S n phBm ..............................................................76

Hình 3.2.

th> G+ bi u di"n các ánh giá thích h p ..........................................79

Hình 3.3.

th> G- bi u di"n các ánh giá không thích h p. ..............................80


Hình 3.4. Thu t toán d

oán trên

EFG>EG+ .........................................................81

Hình 3.5. Thu t toán d

oán trên

EFG>EG- .........................................................84

Hình 3.6. Thu t toán d

oán trên t!t c

ánh giá................................................86

Hình 3.7.

th> k t h p ngư i dùng và n i dung s n phBm ...............................90

Hình 3.8.

th> thi t l p liên k t gi a ngư i dùng và Yc trưng n i dung ........94

Hình 3.9. Thu t toán d

oán trên


th> k t h p.................................................99

Hình 3.10. Thu t toán lan truy n m ng...............................................................103
Hình 3.11. Giá tr> F-Measure : các m c

8

thưa th t d li u...........................111


DANH M C CÁC B NG
B ng 1.1. Phân lo i các phương pháp tư v!n và m t s nghiên c u i n hình...23
B ng 1.2. Ví d* v ma tr n ánh giá c a l c c ng tác..........................................31
B ng 2.1. Ma tr n ánh giá ngư i dùng.................................................................45
B ng 2.2. Ma tr n

u vào c a l c c ng tác ..........................................................49

B ng 2.3. Ma tr n

u vào bài toán phân lo i theo ngư i dùng...........................50

B ng 2.4. Ma tr n

u vào bài toán phân lo i theo s n phBm ..............................50

B ng 2.5. K t qu th nghi m v i MovieLens .....................................................68
B ng 2.6. K t qu th nghi m v i EachMovie .....................................................68
B ng 2.7. Các tham s th ng kê v i K=5 ánh giá bi t trư c..............................70
c a t p d li u MovieLens......................................................................................70

B ng 2.8. Các tham s th ng kê v i K=10 ánh giá bi t trư c............................70
c a t p d li u MovieLens......................................................................................70
B ng 2.9. Các tham s th ng kê v i K=20 ánh giá bi t trư c............................71
c a t p d li u MovieLens......................................................................................71
B ng 2.10. Các tham s th ng kê v i K=5 ánh giá bi t trư c............................71
c a t p d li u EachMovie .....................................................................................71
B ng 2.11. Các tham s th ng kê v i K=10 ánh giá bi t trư c .........................71
c a t p d li u EachMovie .....................................................................................71
B ng 2.12. Các tham s th ng kê v i K=20 ánh giá bi t trư c .........................72
c a t p d li u EachMovie .....................................................................................72
B ng 3.1. Ma tr n ánh giá R.................................................................................74
B ng 3.2. Ma tr n S n phBm – N i dung Y...........................................................74
B ng 3.3. Ma tr n X bi u di"n ánh

th> Ngư i dùng- S n phBm ...................76

+

B ng 3.4. Ma tr n X bi u di"n LDc ánh giá thích h p........................................79
B ng 3.5. Ma tr n X- bi u di"n LDc ánh giá không thích h p ............................80
B ng 3.6. Ma tr n ánh giá R.................................................................................89
B ng 3.7. Ma tr n Ngư i dùng- S n phBm X........................................................89
9


B ng 3.8. Ma tr n S n phBm- N i dung Y ............................................................90
B ng 3.9. Giá tr> Precision, Recall, F-Measure ki m nghi m trên t p
MovieLens1 ...........................................................................................................106
B ng 3.10. Giá tr> Precision, Recall, F-Measure ki m nghi m trên t p
MovieLens2 ...........................................................................................................107

B ng 3.11. K t qu ki m nghi m paired t-test v i K=10 s n phBm c n tư v!n ......
trên t p MovileLens1 ............................................................................................108
B ng 3.12. K t qu ki m nghi m paired t-test v i K=20 s n phBm c n tư v!n ......
trên t p MovileLens1 ............................................................................................109
B ng 3.13. K t qu ki m nghi m paired t-test v i K=50 s n phBm c n tư v!n ......
trên t p MovieLens1..............................................................................................109
B ng 3.14. K t qu ki m nghi m paired t-test v i K=10 s n phBm c n tư v!n ......
trên t p MovileLens2 ............................................................................................109
B ng 3.15. K t qu ki m nghi m paired t-test v i K=20 s n phBm c n tư v!n ......
trên t p MovileLens2 ............................................................................................110
B ng 3.16. K t qu ki m nghi m paired t-test v i K=50 s n phBm c n tư v!n ......
trên t p MovileLens2 ............................................................................................110

10


PH N M

U

1. Tính c p thi t c a lu n án
V!n
l n

quá t i thông tin (Information Overload) ư c J.Denning nêu ra

u tiên vào n&m 1982 [49]. V i nh ng lý lZ và b
Denning kh[ng >nh kh n&ng l a ch n thông tin h u ích c a ngư i dùng máy
tính sZ gYp khó kh&n nghiêm tr ng b:i s gia t&ng không ng ng lư ng thông tin

kh#ng l

n t hàng tr&m kênh truy n hình, hàng tri u b&ng hình, sách, báo, t p

chí, tài li u thông qua các h th ng giao d>ch i n t . V!n
ngay l p t c ư c c ng

Denning công b

ng các nhà khoa h c máy tính nhi t tình hư:ng ng và

t p trung nghiên c u phương pháp h n ch

nh hư:ng c a v!n

quá t i thông tin

i v i ngư i dùng, thúc By m t l nh v c nghiên c u m i ó là l c thông tin.
L c thông tin (Information Filtering) là l nh v c nghiên c u các quá trình
\ c ] Enh ng thông tin không thích h p và cung c!p thông tin thích h p

nv i

m i ngư i dùng. L c thông tin ư c xem là phương pháp hi u qu h n ch tình
tr ng quá t i thông tin ư c quan tâm nhi u nh!t hi n nay.
L c thông tin ư c ti p c n theo hai xu hư ng chính, ó là l c d a trên tri
th c và l c d a trên d li u. Trong trư ng h p d a vào tri th c, h th ng th c
hi n l c thông tin bphương pháp này là


có ư c m t t p lu t

t t òi h i chi phí nhi u th i gian

và kinh nghi m c a chuyên gia; vi c c p nh t các lu t không th th c hi n ư c
t
bi n

ng vì ngu n d li u vào thư ng không có c!u trúc và luôn trong tr ng thái
ng. Chính vì v y, l c d a trên tri th c có xu hư ng ít ư c s d*ng.
i v i các h th ng l c d a trên d li u, các quy t c l c ư c xây d ng t

d li u mà h th ng thu th p ư c bh c máy. Cách ti p c n này cho phép t

ng c p nh t các quy t c l c và không

l thu c vào tri th c chuyên gia. H th ng l c d a trên d li u có kh n&ng thích
nghi cao và t n d*ng ư c ngu n d li u. Chính vì v y, cách ti p c n này ư c
quan tâm nghiên c u hơn so v i phương pháp d a vào tri th c.
11


H tư v!n (Recommender System) là h th ng có kh n&ng t

ng phân

tích, phân lo i, l a ch n và cung c!p cho ngư i dùng nh ng thông tin, hàng hóa
hay d>ch v* mà h quan tâm. H tư v!n ư c xem như m t bi n th


i n hình có

vai trò quan tr ng trong l c thông tin. Nhi u h tư v!n ã ư c thương m i hóa và
tri n khai thành công, tiêu bi u là h

tư v!n c a các hãng Amazon.com,

Netflix.com, Procter & Gamble.
H tư v!n ư c xây d ng d a trên hai k^ thu t l c thông tin chính: L c
theo n i dung (Content-Based Filtering) và l c c ng tác (Collaborative Filtering).
L c theo n i dung khai thác nh ng khía c nh liên quan

n n i dung thông tin s n

phBm ngư i dùng ã t ng s d*ng hay truy nh p trong quá kh
Trái l i, l c c ng tác khai thác nh ng khía c nh liên quan
s n phBm c a c ng

ng ngư i dùng có cùng s: thích

t o nên tư v!n.

n thói quen s d*ng

t o nên tư v!n.

Trong quá trình nghiên c u và ng d*ng, bên c nh nh ng v!n
c a bài toán l c thông tin thông thư ng, xu!t hi n m t s v!n
thù


chung

mang tính Yc

i v i thông tin tư v!n như tính thưa th t d li u hu!n luy n, x lý ngư i

dùng m i, hàng hóa m i, yêu c u k t h p các d ng thông tin khác nhau, làm vi c
v i d li u kích thư c l n ư c c p nh t thư ng xuyên. MYc dù ã có nhi u
nghiên c u nh m t i n i dung này, nhưng ây v n là nh ng v!n
m:, có tính th i s và thu hút s qua tâm c a c ng
tài “Phát tri n m t s ph

nghiên c u

ng nghiên c u.

ng pháp l c thông tin cho h t v n” ư c

th c hi n trong khuôn kh# lu n án ti n s chuyên ngành khoa h c máy tính nhgóp ph n gi i quy t m t s v!n

còn t n t i c a l c thông tin cho các h tư v!n.

2. M c tiêu c a lu n án
M*c tiêu c a lu n án là nghiên c u áp d*ng, c i ti n m t s k^ thu t h c
máy nh
chính xác c a l c thông tin trong các h tư v!n.

nghiên c u t p trung vào vi c nâng cao k t qu d


Yc bi t,

oán nhu c u ngư i dùng

trong trư ng h p d li u thưa, c$ng như trong trư ng h p có c d li u s: thích
ngư i dùng và thông tin n i dung s n phBm.

12


3. Các óng góp c a lu n án
óng góp th nh t c a lu n án là

xu t áp d ng m t k thu t Boosting

c i ti n cho nhi u bài toán phân lo i vào l c c ng tác [3, 81], bao g m:
-

xu!t phương pháp gi i quy t bài toán l c c ng tác bBoosting d a trên bi u di"n d li u phù h p cho bài toán phân lo i c a
h c máy;

-

_p H*ng k^ thu t Boosting L i ti n cho nhi u bài toán phân lo i bphương pháp h c a nhi m d a trên g c quy t >nh (Decision Stump) cho
\ c c ng FDc nh
-


Ed Eli u thưa;

Th nghi m và ánh giá k t qu phương pháp c i ti n, Yc bi t chú tr ng
ánh giá k t qu d

oán trong trư ng h p d li u thưa c a l c c ng tác.

H u h t các phương pháp h c máy cho l c c ng tác hi n nay

u th c hi n

nh ng nhi m v* h c ơn l% (Single Task Learning) v i gi thi t d li u hu!n
luy n và d li u ki m tra ư c mô t trong cùng m t không gian các giá tr> Yc
trưng v i cùng m t phân b . Khi phân b thay #i, t p d li u hu!n luy n và d
li u ki m tra ph i xây d ng l i. Trên th c t , vi c làm này không ph i lúc nào
c$ng th c hi n ư c làm cho k t qu d

oán các phương pháp kém tin c y.

MYt khác, t i m i th i i m, phương pháp ch th c hi n m t nhi m v* ơn
l%, k t qu c a m i nhi m v* c* th hoàn toàn

c l p v i các nhi m v* khác.

Chính vì v y, phương pháp ti p c n này sZ gYp khó kh&n khi d li u hu!n luy n
thưa th t.

gi i quy t v!n


này, lu n án

xu!t áp d*ng phương pháp h c a

nhi m (Multi-Task Learning) cho l c c ng tác nhgi a các nhi m v* h c ơn l%. T p thông tin chung tìm ư c óng vai trò chia s%
và b# sung thông tin vào quá trình hu!n luy n cho m i ngư i dùng khác nhau,
góp ph n nâng cao k t qu d

oán và h n ch

li u thưa trong l c c ng tác.

13

ư c nh hư:ng c a tình tr ng d


óng góp th hai c a lu n án là
trên mô hình
-

xu t m t ph

ng pháp l c k t h p d a

th [2, 80], bao g m:

Bi u di"n m i liên h gi a các


i tư ng tham gia h th ng l c (Ngư i

dùng, s n phBm và n i dung s n phBm) d a vào mô hình

th>;

-

Xây d ng phương pháp d

oán cho l c c ng tác d a trên mô hình

th>.

-

Xây d ng phương pháp trích ch n Yc trưng n i dung s n phBm d a trên
thói quen s d*ng s n phBm c a ngư i dùng;

-

Cá nhân hóa nh hư:ng c a các Yc trưng n i dung

i v i thói quen s

d*ng s n phBm c a ngư i dùng;
-

Áp d*ng thu t toán lan truy n m ng trên


th> k t h p

d

oán, phân

b# các s n phBm cho m i ngư i dùng;
-

Th nghi m và ánh giá k t qu phương pháp

xu!t.

t n d*ng l i th c a m i phương pháp l c, lu n án

xu!t phương pháp

k t h p gi a l c c ng tác và l c n i dung d a trên bi u di"n

th> các

i tư ng

tham gia quá trình l c, bao g m: ngư i dùng, s n phBm, ánh giá ngư i dùng và
n i dung s n phBm.
tránh nh ng h n ch c a các phương pháp l c k t h p trư c ây (phương
pháp trích ch n Yc trưng n i dung ch d a vào n i dung s n phBm), lu n án
xu!t phương pháp trích ch n Yc trưng n i dung d a vào thói quen ngư i dùng
i v i s n phBm. D a trên phương pháp này, nh ng Yc trưng n i dung ư c
xem là quan tr ng v i m i ngư i dùng ư c gi l i

Vi c tìm ra nh ng Yc trưng có nh hư:ng quan tr ng

ph*c v* m*c tiêu d

oán.

n thói quen ngư i dùng

không ch làm gi m chi phí tính toán c a phương pháp (vì s lư ng các Yc trưng
n i dung quan tr ng

i v i m i ngư i dùng còn l i r!t ít), mà còn lo i b

nh ng Yc trưng không nh hư:ng hoYc nh hư:ng không t t

ư c

n thói quen s

d*ng s n phBm c a ngư i dùng.
Phương pháp d

oán ư c ưa v bài toán tìm ki m trên

t n d*ng ư c các thu t toán hi u qu trên
h gián ti p gi a các

th> mà còn t n d*ng ư c m i liên

i tư ng tham gia h th ng.


14

th> không ch


Phương pháp l c k t h p

xu!t ư c th nghi m và áp d*ng cho h th ng

tư v!n l a ch n phim ã cho l i k t qu d

oán t t. H th ng cho phép xem,

ánh giá, bình lu n và g i ý nh ng phim ư c xem h p v i s: thích ng v i m i
ngư i dùng. H th ng g m b n ch c n&ng chính: Ch c n&ng c p nh t, phân tích
thông tin ngư i dùng và s n phBm; ch c n&ng h c; ch c n&ng l c và ch c n&ng tư
v!n. Trong ó, ch c n&ng h c và l c ư c th c hi n theo phương pháp l c k t
h p

xu!t.

4. B c c c a lu n án
N i dung lu n án ư c xây d ng thành ba chương và m t ph* l*c, trong ó:
Ch ơng 1. gi i thi u t#ng quan v l c thông tin. Trình bày nh ng nghiên
c u cơ b n c a l c thông tin, các phương pháp l c thông tin cho h tư v!n và
nh ng v!n

c n ti p t*c nghiên c u c a m i phương pháp. Trên cơ nh ng


nghiên c u cơ b n, xác >nh rõ hư ng nghiên c u c a

tài. M t k t qu nghiên

tài ư c công b trong [4].

c u cơ b n c a

Ch ơng 2. trình bày phương pháp h n ch

nh hư:ng c a v!n

d li u

thưa trong l c c ng tác btrong chương này ư c t#ng h p d a trên k t `a Enghiên c u UEcông b Etrong [3,
81].
Ch ơng 3. trình bày phương pháp k t h p gi a l c c ng tác và l c n i dung
d a trên mô hình

th>. N i dung trình bày trong chương này ư c t#ng h p t

k t qu nghiên c u UEcông b Etrong [2, 80]. Cu i cùng là m t s k t lu n và
xu!t các nghiên c u ti p theo.
Ph n ph l c. trình bày thi t k và xây d ng ng d*ng cho phương pháp l c
k th p ư c

xu!t trong Chương 3.

15



CHƯƠNG 1
T NG QUAN V L C THÔNG TIN CHO H TƯ V N
Chương này trình bày nh ng v!n

t#ng quan v l c thông tin, các

phương pháp l c thông tin cho h tư v!n cùng v i nh ng h n ch t n t i m i
phương pháp. Trên cơ s: nh ng nghiên c u cơ b n, xác >nh rõ hư ng nghiên
c u c* th c a

tài. Nh ng k t qu nghiên c u c a

tài sZ ư c trình bày

trong các chương ti p theo c a lu n án.
Do l c thông tin là l nh v c nghiên c u có ph m vi r ng l n, sau khi trình
bày ng n v l c thông tin nói chung, lu n án t p trung trình bày vào ch
nghiên c u chính c a lu n án ó là v!n

l c trong các h tư v!n.

1.1. GI I THI U CHUNG
L c thông tin (IF) là l nh v c nghiên c u các quá trình cung c!p thông tin
thích h p, ng&n ng a và g b thông tin không thích h p cho m i ngư i dùng
[75, 99]. Thông tin ư c cung c!p (còn ư c g i là s n phBm) có th là v&n b n,
trang web, phim, nh, d>ch v* hoYc b!t kS d ng thông tin nào ư c s n sinh ra t
các phương ti n truy n thông. Ph m vi ng d*ng c a l c thông tin tr i r ng
trong nhi u ng d*ng th c t khác nhau c a khoa h c máy tính. bng d*ng tiêu

bi u nh!t c a l c thông tin ư c k

n là l c k t qu tìm ki m trong các cDy

Fdm ki m (Search Engine), l c e-mail d a trên n i dung thư WKE h sơ ngư i
dùng, l c thông tin v&n b n trên các máy ch

cung c!p thông tin cho t p th

hoYc cá nhân thích h p, lo i b nh ng trang thông tin có nh hư:ng không t t
i v i ngư i dùng.

Yc bi t, l c thông tin có vai trò quan tr ng cho các h

th ng tư v!n (RS) ng d*ng trong thương m i i n t .
Các h th ng l c thông tin có th khác nhau v nguyên lý, phương pháp,
k^ thu t, ph m vi ng d*ng nhưng

u th c hi n m*c tiêu cung c!p cho ngư i

dùng nh ng thông tin c n thi t nh!t, lo i b nh ng thông tin không có giá tr>
hoYc không thích h p

i v i ngư i dùng. Nguyên lý ph# bi n ư c dùng trong

16


l c thông tin là nguyên lý d a vào d li u (Data-Based) và nguyên lý d a vào tri
th c (Knowledge-Based) [99]. Các phương pháp l c có th


ư c th c hi n d a

vào n i dung thông tin s n phBm hoYc l c d a trên thói quen s: thích ngư i
dùng. Các k^ thu t l c ư c phát tri n d a trên n n t ng t l nh v c truy v!n
thông tin (Information Retrieval), tách thông tin (Information Extraction), phân
lo i thông tin (Information Classificarion). Ph m vi ng d*ng c a các h th ng
l c ư c áp d*ng cho t!t c các mô hình thương m i i n t th c t : Khách hàng
- Khách hàng (Customer to Customer), Nhà cung c!p - Khách hàng (Business to
Customer), Nhà cung c!p - Nhà cung c!p (Business to Business) [75].
1.1.1. Ki n trúc t ng quát c a h th ng l!c thông tin
M t h th ng l c thông tin t#ng quát bao g m b n thành ph n cơ b n
[99]: Thành ph n phân tích d li u (Data Analyser Component), thành ph n mô
hình ngư i dùng (User Model Component), thành ph n h c (Learning
Component) và thành ph n l c ( Filtering Component).
Thành ph n mô
hình ngư i dùng

H sơ ngư i
dùng

Thành ph n
h c

Thông tin Yc t
ngư i dùng

Ngư i dùng

Ph n h i

ngư i dùng

S n phBm
phù h p v i
ngư i dùng

C p nh t thông
tin hu!n luy n
Bi u di"n Thông
tin s n phBm

Thành ph n l c

Nhà cung c!p
thông tin
Thông tin các
s n phBm

Bi u di"n Thông
tin s n phBm

Thành ph n
phân tích d
li u

Hình 1.1. Ki n trúc t ng quát c a h th ng l c thông tin.
• Thành ph n phân tích d li u (DAC) có nhi m v* thu th p d li u v s n
phBm t các nhà cung c!p thông tin (ví d* tài li u, thư i n t , sách, báo, t p
chí, phim, nh...). D li u v s n phBm ư c phân tích và bi u di"n theo m t
khuôn d ng thích h p, sau ó chuy n


17

n b ph n l c như Hình 1.1.


• Thành ph n mô hình ng

i dùng (UMC) có th “hi n” hoYc “Bn” dùng

l!y

thông tin v ngư i dùng, như gi i tính, tu#i, nơi sinh s ng và thông tin ngư i
dùng ã truy v!n trư c ó

t o nên h sơ ngư i dùng. H sơ ngư i dùng

sau khi t o ra ư c chuy n

n thành ph n h c

th c hi n nhi m v* hu!n

luy n.
• Thành ph n h c (LC) th c hi n hu!n luy n trên t p h sơ và ph n h i c a
ngư i dùng theo m t thu t toán h c máy c* th . Thu t toán h c l!y d li u t
thành ph n mô t ngư i dùng; l!y d li u v s n phBm ã ư c bi u di"n t
thành ph n l c k t h p v i thông tin ph n h i ngư i dùng

th c hi n nhi m


v* hu!n luy n. K t qu quá trình h c ư c chuy n l i cho b ph n l c
th c hi n nhi m v* ti p theo.
• Thành ph n l c (FC) là thành ph n quan tr ng nh!t c a h th ng, có nhi m
v* xem xét s phù h p gi a h sơ ngư i dùng và bi u di"n d li u s n phBm
ưa ra quy t >nh phân b# s n phBm. N u d li u s n phBm phù h p v i
h sơ ngư i dùng, s n phBm sZ ư c cung c!p cho ngư i dùng ó. Trong
trư ng h p ngư c l i, h th ng lo i b s n phBm kh i danh sách nh ng s n
phBm phân b# cho ngư i dùng. Ngư i dùng nh n ư c nh ng s n phBm thích
h p, xem xét, ánh giá, ph n h i l i cho thành ph n h c

ph*c v* quá

trình l c ti p theo.
1.1.2. L!c thông tin và truy v n thông tin
Belkin và Croft [75] nhìn nh n l c thông tin và truy v!n thông tin như hai
mYt c a cùng m t v!n

. Chính vì v y, nhi u Yc trưng cơ b n c a l c thông tin

có th tìm th!y trong l nh v c truy v!n thông tin (IR). Tuy nhiên, ta có th phân
bi t s khác bi t gi a hai h th ng này thông qua vi c so sánh m t s

Yc trưng

cơ b n dư i ây.
• Ki u ng

i dùng. H th ng truy v!n thông tin áp ng nhu c u cho t!t c


ngư i dùng t i m i th i i m mà không c n quan tâm
18

n h là ai. Trái


l i, l c thông tin quan tâm

n nh ng ngư i dùng thư ng xuyên s d*ng

h th ng dùng, có h sơ rõ ràng, có m i quan tâm dài h n

i v i h

th ng và luôn nh n ư c thông tin thích h p t h th ng : m i th i i m.
• Bi u di n nhu c u thông tin. H th ng truy v!n thông tin bi u di"n nhu
c u ngư i dùng b!t kS dư i d ng m t câu truy v!n. L c thông tin bi u
di"n nhu c u ngư i dùng lâu dài h th ng dư i d ng m t h sơ ngư i
dùng. H sơ ngư i dùng không ch ghi l i các Yc trưng thông tin cá nhân,
mà còn bao hàm các Yc trưng liên quan

n l>ch s truy c p hay thói

quen s d*ng thông tin c a ngư i dùng này.
• M c tiêu h th ng. H th ng truy v!n thông tin quan tâm

n các phương

pháp cung c!p thông tin thích h p cho m i ngư i dùng phù h p v i truy
v!n c a ngư i dùng này. L c thông tin quan tâm


n các phương pháp g

b d li u hơn là vi c n l c tìm ki m thêm d li u. C$ng vì lý do này,
l c thông tin ư c xem là phương pháp gi m t i thông tin chính ư c
quan tâm nh!t hi n nay.
• C s d li u. H th ng truy v!n thông tin th c hi n cung c!p thông tin
trên các cơ s: d li u t nh. L c thông tin cung c!p thông tin trên cơ s: d
li u

ng, có c!u trúc khác nhau và thư ng xuyên bi n #i.

• Ph m vi t

ng tác. H th ng truy v!n không quan tâm

n s tương tác

gi a nh ng ngư i dùng khác nhau. L c thông tin quan tâm

n s tương

ng theo s: thích, thói quen hay nh ng Yc trưng xã h i, t nhiên khác
nhau c a t p ngư i dùng. H th ng luôn có m t mô hình ngư i dùng
gi l i nh ng Yc trưng c n thi t cho m i ngư i dùng.
1.1.3. H!c máy và l!c thông tin
H!c máy (Machine Learning). H c máy là l nh v c nghiên c u c a trí
tu nhân t o t p trung vào vi c ra quy t >nh hoYc phát hi n tri th c d a trên
d li u [1, 85, 97]. Các k^ thu t h c máy ư c s d*ng trong vi c d
19


oán (ví


d* d

oán nhu c u ngư i dùng), phân lo i, x p h ng (ví d* phân lo i, x p

h ng thông tin, phân lo i ngư i dùng).
L c thông tin có cùng chung m*c tiêu v i h c máy (ML) ó là cung c!p
thông tin c n thi t cho m i ngư i dùng d a trên nh ng gì có th h c t nh ng
kinh nghi m c a c ng

ng trong quá kh . Chính vì v y, thành ph n l c thông

tin ư c xây d ng theo hai cách ti p c n chính c a h c máy: l c d a trên tri
th c và l c d a trên d li u.
L!c d"a trên tri th#c (KBC). Thông tin ư c l c bcác lu t. M i lu t bi u di"n nhu c u thông tin ngư i dùng hoYc m t m u thông
tin c n l c. M i quy t >nh l c sZ ư c th c hi n n u nh ng i u ki n c a lu t
ưa ra ư c th a mãn. Ví d* trong h th ng l c thư i n t , m i lu t có th
ư c >nh ngh a và áp d*ng cho các trư ng tiêu
ch

thư (Ngư i g i, ngày g i,

...).
i m quan tr ng c a cách ti p c n này là các lu t do ngư i dùng

(chuyên gia) cung c!p d a trên kinh nghi m hay tri th c c a mình. +u i m

c a cách ti p c n này là h th ng sZ ơn gi n hơn do không c n s d*ng các k^
thu t h c t

ng. Như c i m là vi c xây d ng các lu t l c t t òi h i nhi u

th i gian, kinh nghi m c a chuyên gia. Vi c c p nh t các lu t c$ng không th
th c hi n t

ng. Do như c i m này, l c d a trên tri th c có xu hư ng ít

ư c s d*ng.
L!c d"a trên d$ li u (DBC). Khác v i l c d a trên tri th c, trong cách
ti p c n d a trên d li u, các quy t c cho thành ph n l c ư c xây d ng t d
li u mà h th ng thu th p ư c bthu t toán h c máy. Cách ti p c n này cho phép t o ra và c p nh t quy t c l c
thông tin mà không c n t i tri th c chuyên gia,

ng th i ch!t lư ng l c có th

t t hơn so v i cách ti p c n d a trên tri th c, Yc bi t khi có lư ng d li u l n
và thư ng xuyên bi n

ng.

20


Do vi c thu th p d li u ngày càng nhanh và d", l c d a trên d li u
ang d n tr: thành cách ti p c n chính trong l c thông tin. Chính vì v y, lu n
án s t p trung nghiên c u k thu t l c thông tin cho h t v n d a trên cách

ti p c n này.
1.1.4. L!c thông tin và các h t v n
H t v n (RS) là trư ng h p riêng c a các h th ng l c thông tin. D a
trên thông tin ã có v ngư i dùng, h tư v!n xem xét trong s lư ng r!t l n
hàng hóa hay thông tin và tư v!n cho ngư i dùng m t danh sách ng n g n
nhưng

y

nh ng hàng hóa mà ngư i dùng có kh n&ng quan tâm [25, 26,

40, 51, 53, 54, 67, 70, 83].
S d*ng h tư v!n trong các ng d*ng thương m i i n t sZ h tr
khách hàng không c n th c hi n các thao tác tìm ki m s n phBm, mà ch c n
l a ch n hàng hóa hoYc d>ch v* ưa thích do h th ng cung c!p.

i u này sZ

làm gia t&ng n&ng l c mua, bán c a toàn b h th ng. Chính vì lý do này, hàng
lo t các công ty a qu c gia (Amazon.com, Netflix.com, CDNOW, J.C. Penney,
Procter & Gamble..) ã

u tư và phát tri n thành công công ngh tư v!n

gia t&ng h th ng khách hàng và bán hàng qua m ng [7].
Do là trư ng h p riêng c a h th ng l c tin, h tư v!n có nhi u Yc i m
c a h l c tin tiêu bi u. Tuy nhiên, do Yc i m c a d li u, ngư i dùng và n i
dung, h tư v!n c$ng như các k^ thu t ư c s d*ng có m t s khác bi t nh!t
>nh. Tùy vào phương pháp l c tin, các h tư v!n ư c phân lo i thành ba lo i:
T


v n d a vào ph

ng pháp l c theo n i dung (Content-Based Filtering

Recommendation), t v n d a vào ph

ng pháp l c c ng tác (Collaborative

Filtering Recommendation) và t v n d a vào ph
Filtering Recommendation)[36, 107].

21

ng pháp l c k t h p (Hybrid


• Ph

ng pháp t v n d a vào l c n i dung: H th ng tư v!n cho ngư i

dùng nh ng s n phBm m i có n i dung tương t v i m t s s n phBm h
ã t ng mua hoYc t ng truy nh p trong quá kh .
• Ph

ng pháp t v n d a vào l c c ng tác: Ngư i dùng sZ ư c tư v!n
ã t ng ưa thích

m t s s n phBm c a nh ng ngư i có s: thích gi ng h
trong quá kh .

• Ph

ng pháp t v n d a vào l c k t h p: H th ng tư v!n cho ngư i

dùng nh ng s n phBm tương t v i m t s s n phBm h

ã t ng mua

hoYc t ng truy nh p trong quá kh và s n phBm c a nh ng ngư i có s:
thích gi ng h

ã t ng ưa thích trong quá kh .

M i phương pháp l c áp d*ng cho các h tư v!n ư c phân thành hai
hư ng ti p c n [36, 107]: l c d a vào b nh (Memory-Based Filtering) và l c
d a vào mô hình (Model-Based Filtering).
• Các ph
69]:
d

ng pháp l c d a vào b nh (MBF) [21, 22, 29, 52, 57, 63, 64,

ây là phương pháp lưu l i toàn b các ví d* hu!n luy n. Khi c n
oán, h th ng tìm các ví d* hu!n luy n gi ng trư ng h p c n d

oán nh!t và ưa ra tư v!n d a trên các ví d* này. Trư ng h p tiêu bi u
c a l c d a vào b

nh


là thu t toán K ngư i láng gi ng g n nh!t

(KNN). +u i m chính c a phương pháp ti p c n này là ơn gi n, d" cài
Yt. Tuy nhiên, phương pháp này có th i gian l c ch m do vi c d

oán

òi h i so sánh và tìm ki m trên toàn b lư ng ngư i dùng và s n phBm.
• Ph

ng pháp l c d a trên mô hình (MDBF) [27, 30, 32, 33, 34, 35, 37,

41, 43, 45, 90, 95, 96, 108, 109, 121]. Trong phương pháp này, d li u
ư c s d*ng

xây d ng mô hình rút g n, ví d* mô hình xác su!t hay

cây quy t >nh. Mô hình này sau ó ư c s d*ng
Phương pháp này cho phép th c hi n vi c d
d

oán th c hi n trên mô hình ã h c trư c ó.

22

ưa ra các tư v!n.

oán nhanh, do quá trình



B ng 1.1 th ng kê m t s nghiên c u tiêu bi u các phương pháp l c
thông tin cho h tư v!n [36].
B ng 1.1. Phân lo i các phương pháp tư v!n và m t s nghiên c u i n hình
PHƯƠNG PHÁP TƯ V N D%A VÀO L C N&I DUNG
L!c n'i dung d"a vào b' nh(
L!c n'i dung d"a vào mô hình
Các k thu t thông d ng:
Các k thu t thông d ng:
• T n su!t xu!t hi n ngư c
• Mô hình m ng Bayes
• Phân c*m (Clustering)
• Mô hình phân c*m
• Mô hình cây quy t >nh
• Mô hình m ng nơ ron nhân t o
Nh ng nghiên c u i n hình:
Nh ng nghiên c u i n hình:
• Balabanovic và Shoham [69]
• Pazzani [74]
• Pazzani và Billsus [73]
• Mooney và Roy [92]
• Billsus và Pazzani [30]
• Zhang và các c ng s [113]
PHƯƠNG PHÁP TƯ V N D%A VÀO L C C&NG TÁC
L!c c'ng tác d"a vào b' nh(
L!c c'ng tác d"a vào mô hình
Các k thu t thông d ng:
Các k thu t thông d ng:
• K ngư i láng gi ng g n nh!t (K• Mô hình m ng Bayes
Nearest Neighbour) s d*ng
• Mô hình phân c*m

tương t cosin hoYc các
• Mô hình cây quy t >nh
tương quan.
• Mô hình m ng nơ ron nhân t o
• Phân c*m
• Mô hình h i qui tuy n tính

tương quan gián ti p
• Mô hình th ng kê
(Indirect Similarity)
• Mô hình
th>
Nh ng nghiên c u i n hình:
Nh ng nghiên c u i n hình:
• Resnick và các c ng s [83]
• Nakamura và Abe [11]
• Breese và các c ng s [52]
• Umyarov và Alexander
• Nakamura và Abe [11]
Tuzhilin [15, 16, 17]
• M. Deshpande and G. Karypis
• Ungar và Foster [68]
[72]
• Aggarwal và các c ng s [24]
• Sarwar và các c ng s [21]
• Chien và George [114]
• Yu và các c ng s [63, 64]
• Condliff và các c ng s [71]
• Herlocker và các c ng s [55]
• Kumar và các c ng s [89]

• Wang và các c ng s [57]
• Shani và các c ng s [41]
• Bell và Koren [86]
• Hofmann [95, 96]
• Desrosiers và Karypis [24]
• Marlin [18]
23


• Goldberg và các c ng s [62]








Si và Jin [66]
Getoor và Sahami [65]
Huang và các c ng s [119]
DeCoste [31]
Nikovski và Kulev [33]
Su và các c ng s [105, 106,
107]

PHƯƠNG PHÁP TƯ V N D%A VÀO L C K T H)P
L!c k t h*p d"a vào b' nh(
L!c k t h*p d"a vào mô hình
Các k thu t thông d ng:

Các k thu t thông d ng:
• T# h p tuy n tính k t qu d
• H p nh!t mô hình bi u di"n d
oán c a c hai phương pháp.
li u.
• K t h p các Yc tính c a l c
• H p nh!t mô hình d oán.
c ng tác vào l c n i dung.
• H p nh!t mô hình bi u di"n d
• K t h p các Yc tính c a l c n i
li u và mô hình d oán.
dung vào l c c ng tác.
• H p nh!t l c c ng tác và l c n i
dung trong cùng mô hình.
Nh ng nghiên c u i n hình:
Nh ng nghiên c u i n hình:
• Gunawardana và Meek [8]
• Basu và các c ng s [23]
• Billsus và Pazzani [29]
• Claypool và các c ng s [70]

Lazanas và Karacapilidis [10]
• Soboroff và Nicolas [46]
• Popescul và các c ng s [12]
• Billsus và Pazzani [30]
• Hofmann [96]
• Tran và Cohen [98]
• Huang và các c ng s [120,
• Melville và các c ng s [82]
121, 122]

• Adomavicius và các c ng s
• Su và các c ng s [104]
[37, 38, 39]
• Balisico và Hofmann [47]
• Anand và Bharadwaj [28]
• Good và các c ng s [76]
1.2. PHƯƠNG PHÁP L C THEO N&I DUNG
L c theo n i dung là phương pháp th c hi n d a trên vi c so sánh n i
dung thông tin hay mô t hàng hóa, nhnh ng gì mà ngư i dùng ã t ng quan tâm

gi i thi u cho h nh ng s n

phBm này [4, 6, 19, 69, 73, 84, 92]. Các phương pháp ti p c n cho l c theo n i
dung có ngu n g c t l nh v c truy v!n thông tin, trong ó m i s n phBm ư c
bi u di"n b24


h sơ ngư i dùng. Phương pháp d

oán n i dung nguyên b n c a s n phBm

th c hi n d a vào vi c xem xét các h sơ s n phBm có m c

phù h p cao v i

h sơ ngư i dùng [84].
1.2.1. Bài toán l!c theo n'i dung
Bài toán l c theo n i dung ư c phát bi u như sau. Cho P= {p1, p2,.., pN}

là t p g m N s n phBm. N i dung s n phBm p ∈P ư c ký hi u là Content(p)
ư c bi u di"n thông qua t p K Yc trưng n i dung c a P. T p các Yc trưng
s n phBm p ư c xây d ng bm*c ích d

th c hi n

oán nh ng s n phBm khác tương t v i p.

Cho U = {u1, u2,.., u M} là t p g m M ngư i dùng. V i m i ngư i dùng
u ∈U, g i ContentBasedProfile(u) là h sơ ngư i dùng u. H sơ c a ngư i
dùng u th c ch!t là l>ch s truy c p hoYc ánh giá c a ngư i ó

i v i các s n

phBm. ContentBasedProfile(u) ư c xây d ng bcác s n phBm mà ngư i dùng u ã t ng truy nh p hoYc ánh giá d a trên các
k^ thu t truy v!n thông tin.
Bài toán l c theo n i dung khi ó là d

oán nh ng s n phBm m i có n i

dung thích h p v i ngư i dùng d a trên t p h sơ s n phBm Content(p) và h
sơ ngư i dùng ContendBasedProfile(u).
1.2.2. Các ph ơng pháp pháp l!c theo n'i dung
Như ã trình bày : trên, l c theo n i dung ư c ti p c n theo hai xu hư ng:
l c d a trên b nh và l c d a trên mô hình. N i dung c* th các phương pháp
ư c th c hi n như dư i ây.

1.2.2.1. L!c n'i dung d"a vào b' nh(

L c n i dung d a vào b nh là phương pháp s d*ng toàn b t p h sơ s n
phBm và t p h sơ ngư i dùng

th c hi n hu!n luy n và d

oán. Trong phương

pháp này, các s n phBm m i ư c tính toán và so sánh v i t!t c h sơ ngư i
dùng. Nh ng s n phBm m i có m c

tương t cao nh!t v i h sơ ngư i dùng sZ

25


×