Tải bản đầy đủ (.pdf) (69 trang)

Phương pháp lọc cộng tác và ứng dụng trong hệ thông tin tư vấn (LV thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.2 MB, 69 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LÊ THANH HUYỀN

PHƢƠNG PHÁP LỌC CỘNG TÁC VÀ ỨNG DỤNG
TRONG HỆ THÔNG TIN TƢ VẤN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2015

Số hóa bởi Trung tâm Học liệu – ĐHTN




ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

LÊ THANH HUYỀN

PHƢƠNG PHÁP LỌC CỘNG TÁC VÀ ỨNG DỤNG
TRONG HỆ THÔNG TIN TƢ VẤN
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Ngƣời hƣớng dẫn khoa học: PGS.TS ĐOÀN QUANG BAN


THÁI NGUYÊN - 2015

Số hóa bởi Trung tâm Học liệu – ĐHTN




i

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này c a t
is h

ng

n th n tôi t m hi u, nghi n c u

n c a PGS TS Đoàn Văn an

c ch

ng tr nh o ch nh

n th n tôi lập tr nh c c k t qu là hoàn toàn trung th c
kh o đ

c tr ch

c tài liệu tham


n và ch th ch đ y đ .
Tác giả

Lê Thanh Huyền

Số hóa bởi Trung tâm Học liệu – ĐHTN




ii

LỜI CẢM ƠN
Tôi xin

y t l i c m n ch n thành t i tập th c c Th y cô Viện ông

nghệ thông tin - Viện Hàn L m Khoa h c và công nghệ Việt Nam c c Th y cô
gi o Đ i h c ông nghệ thông tin và truy n thông - Đ i h c Th i Nguy n đ
ch ng tôi trong su t qu tr nh h c tập ch

ng tr nh cao h c t i tr

y

ng.

Đ c iệt tôi xin ày t l ng i t n s u sắc t i Th y gi o PGS TS
Đoàn Văn


an đ quan t m đ nh h

ch nh s a qu
nh

n

ng và đ a ra nh ng g p

g i

u cho tôi trong qu tr nh làm luận văn t t nghiệp

đ ng nghiệp gia đ nh và ng

i th n đ quan t m gi p đ

ng
chia

s v i tôi trong su t qu tr nh làm luận văn t t nghiệp
đ c gắng nh ng chắc chắn s không tr nh kh i nh ng thi u s t v
vậy r t mong nhận đ
luận văn đ

c s đ ng g p

ki n c a c c Th y

ô và c c




c hoàn thiện h n

Tôi xin ch n thành c m n

Th i Ngu n th ng n m

5

L Th nh Hu ền

Số hóa bởi Trung tâm Học liệu – ĐHTN




iii

MỤC LỤC
Trang
LỜI AM ĐOAN ................................................................................................. i
M N ..................................................................................................... ii

LỜI

MỤC LỤC ......................................................................................................... iii
DANH MỤC CÁC CHỮ VIẾT TẮT .................................................................. vi
DANH MỤC CÁC B NG ................................................................................. vii

DANH MỤC CÁC HÌNH ................................................................................. viii

MỞ ĐẦU .......................................................................................................... 1
Chƣơng 1: PHƢƠNG PHÁP LỌC TIN ........................................................ 4
11

c ph

1 1 1 Ph

ng ph p l c thông tin ................................................................ 4
ng ph p l c tin theo nội dung ....................................................... 4

1.1.1.1 Bài toán l c theo nội dung .................................................................. 4
1112
1 1 2 Ph

c ph

ng ph p ph p l c theo nội dung .......................................... 5

ng ph p l c tin theo cộng tác ....................................................... 6

1.1.2.1 Bài toán l c cộng tác........................................................................... 6
1122
1 1 3 Ph

c ph

ng ph p l c cộng tác............................................................ 7


ng pháp l c tin k t h p ............................................................... 11

1.1.3.1 Bài toán l c k t h p .......................................................................... 11
1132

c ph

ng ph p l c k t h p ........................................................... 12

1.1.4. Ứng dụng c a c c ph

ng ph p l c tin .............................................. 13

1.2. Hệ th ng thông tin t v n ...................................................................... 13
1.2.1. Ki n trúc tổng quan c a hệ th ng l c thông tin.................................. 13
1.2.2. L c thông tin và các hệ t v n ............................................................ 15
Chƣơng 2: MỘT SỐ PHƢƠNG PHÁP LỌC CỘNG TÁC ...................... 17
2.1. L c cộng tác d a trên s n phẩm. ........................................................... 17
2.1.1.Thuật to n t nh độ t

ng t ................................................................. 19

Số hóa bởi Trung tâm Học liệu – ĐHTN




iv


2 1 1 1 Độ t

ng t Cosine........................................................................... 19

2 1 1 2 Độ t

ng t t

2 1 1 3 Độ t

ng t

ng quan ................................................................... 20
osine đi u ch nh. ........................................................ 21

2.1.2.Tính toán d đo n và t v n ................................................................ 23
2.1.2.1 Công th c d đo n

a tr n trung nh đ nh gi s n phẩm lân cận .... 23

2.1.2.2 Công th c d đo n

a trên tổng tr ng s . ...................................... 24

2.1.2.3 Công th c d đo n

a trên tổng tr ng s v i đ nh gi trung

c a ng


nh

i dùng ............................................................................................. 25

2.1.2.4 Công th c d đo n

a trên tổng tr ng s v i trung

nh đ nh gi

lên s n phẩm ................................................................................................. 26
2.1.3. Thuật toán l c cộng tác d a trên s n phẩm ........................................ 27
2 1 3 1 Độ t

ng t Cosine........................................................................... 28

2.1.3.2 Độ t

ng t

osine đi u ch nh ......................................................... 28

2.1.3.3 D đo n

a tr n trung

2.1.3.4 D đo n

a trên tổng tr ng s ........................................................ 29


2.1.3.5 D đo n

a trên tổng tr ng s v i trung nh đ nh gi l n ng i dùng . 30

2 1 4 Đ nh gi c c y u t
2 1 4 1 Đ nh gi ch t l
2.1.4.2 Các y u t

nh đ nh gi s n phẩm lân cận ................. 29

nh h ởng đ n độ chính xác k t qu t v n ..... 31

ng c a hệ th ng t v n ......................................... 31

nh h ởng đ n độ ch nh x c t v n................................ 31

2.2. L c cộng tác d a tr n mô h nh đ th .................................................... 32
2 2 1 Ph

ng ph p i u diễn đ th ............................................................. 32

2 2 2 Ph

ng pháp d đo n tr n đ th ng

i dùng - s n phẩm ................. 34

2 2 2 1 T ch đ th Ng

i dùng-S n phẩm thành c c đ th con ................ 35


2 2 2 2 Ph

ng ph p

đo n tr n đ th có tr ng s

2 2 2 3 Ph

ng ph p

đo n tr n đ th các c nh có tr ng s âm G- ........ 39

2 2 2 4 Ph

ng ph p

đo n theo t t c đ nh gi ...................................... 41

ng G+ ................. 37

2.3. L c cộng tác d a vào l c đ ng hu n luyện ........................................... 43
Số hóa bởi Trung tâm Học liệu – ĐHTN




v

2.3.1. Mô t thuật to n đ ng hu n luyện ...................................................... 44

2.3.2. Thuật toán l c cộng tác bằng ph
ng

ng ph p đ ng hu n luyện theo

i dùng .................................................................................................... 44

2.3.3 L c cộng tác bằng ph

ng ph p đ ng hu n luyện theo s n phẩm..... 46

Chƣơng 3: XÂY DỰNG HỆ THÔNG TIN TƢ VẤN SẢN PHẨM SỮA
DÀNH CHO NGƢỜI TIÊU DÙNG ............................................................ 51
3.1. Phát bi u bài toán................................................................................... 51
3.2. Phân tích thi t k hệ th ng t v n s n phẩm s a................................... 51
3.2.1. Phân tích các yêu c u.......................................................................... 51
3.2.2. Thi t k hệ th ng t v n s n phẩm s a. ............................................. 53
3.3. Xây d ng ch

ng tr nh ng dụng.......................................................... 54

3.4. K t luận. ................................................................................................... 56
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ................................................... 57
TÀI LIỆU THAM KHẢO ............................................................................ 57

Số hóa bởi Trung tâm Học liệu – ĐHTN





vi

DANH MỤC CÁC CHỮ VIẾT TẮT

KÝ HIỆU

DIỄN GI I

IF

Information Filtering (L c thông tin)

IR

Information Retrieval (Truy v n thông tin)

RS

Recommender System (Hệ th ng t v n)

u

User (Ng

i

Item (S n phẩm)

Số hóa bởi Trung tâm Học liệu – ĐHTN


i dùng)




vii

DANH MỤC CÁC BẢNG
Trang
B ng 1.1.Ví dụ v ma trận đ nh gi c a l c cộng tác ....................................... 7
B ng 2.1. B ng đ nh gi ng

i dùng v i các s n phẩm ................................. 18

B ng 2.2. B ng t nh độ t

ng t theo công th c Cosine ................................ 20

B ng 2.3. B ng t nh độ t

ng t theo công th c t

B ng 2.4. B ng t nh độ t

ng t theo công th c osine đi u ch nh .............. 22

B ng 2.5. B ng d đo n và t v n theo ph
B ng 2.6. B ng d đo n và t v n theo ph

ng quan ......................... 21


ng ph p t nh trung nh

đo n . 24

ng pháp Weigth Sum ............... 25

B ng 2.7. B ng d đo n và t v n theo ph ng ph p tổng tr ng s v i đ nh giá
trung bình c a ng i dùng và s dụng độ t ng t Ajusted Cosine. ...... 26
B ng 2.8. B ng d đo n và t v n theo ph

ng ph p tổng tr ng s v i đ nh

giá trung bình s n phẩm và s dụng độ t

ng t Ajusted Cosine. .... 27

B ng 2.9. Ma trận đ nh gi R ......................................................................... 33
B ng 2.10. Ma trận X bi u diễn đ nh đ th Ng

i dùng- S n phẩm ............ 33

B ng 2.12. Ma trận X+ bi u diễn c c đ nh gi th ch h p .............................. 36
B ng 2.12. Ma trận X- bi u diễn c c đ nh gi không th ch h p ..................... 36
B ng 2.13: Ng

i dùng và s n phẩm .............................................................. 48

B ng 2.14: B ng giá tr đ nh gi theo ng


i dùng. ........................................ 48

B ng 2.15: B ng giá tr đ nh gi theo s n phẩm ............................................ 49

Số hóa bởi Trung tâm Học liệu – ĐHTN




viii

DANH MỤC CÁC HÌNH
Trang
Hình 1.1. Ki n trúc tổng quát c a hệ th ng l c thông tin. .............................. 14
Hình 2.1. Mô hình hệ th ng l c cộng tác d a trên s n phẩm ......................... 31
Hình 2.2. Đ th ng

i dùng - s n phẩm......................................................... 34

Hình 2.3. Đ th G bi u diễn c ch đ nh gi th ch h p.................................... 36
Hình 2.4. Đ th G bi u diễn c ch đ nh gi không th ch h p......................... 37
Hình 3.3: Giao diện ch
Hình 3.4: Ng

i

ng tr nh

đo n s n phẩm s a. ............................. 55


ng đăng nhập vào hệ th ng. ............................................. 55

Hình 3.5: Hệ th ng l c cộng tác d a vào bộ nh ........................................... 55
Hình 3.6: Hệ th ng l c cộng tác d a vào đ th ............................................. 56

Số hóa bởi Trung tâm Học liệu – ĐHTN




1
MỞ ĐẦU
Xã hội loài ng

i ch ng ki n s ph t tri n m nh m và sôi động c a

thông tin trong m i l nh v c đ c biệt là s gia tăng không ngừng l

ng thông

tin khổng l đ n từ hàng trăm k nh truy n hình, hàng triệu ăng h nh s ch
báo, t p chí, tài liệu thông qua các hệ th ng giao d ch điện t . Vì vậy ng

i

dùng s g p kh khăn trong việc l a ch n thông tin h u ch Nhi u nhà khoa
h c m y t nh tr n th gi i nhiệt t nh h ởng ng và quan t m nghi n c u
ph

ng ph p h n ch


nh h ởng c a v n đ quá t i thông tin đ i v i ng

i

ng th c đẩy một l nh v c nghiên c u m i đ là l c thông tin.
L c thông tin (Infomation Filtering) [1] là l nh v c nghiên c u quá
trình l c b nh ng thông tin không thích h p và cung c p thông tin thích h p
đ n v i m i ng

i dùng. L c thông tin đ

qu h n ch tình tr ng quá t i thông tin đ

c xem là một ph

ng ph p hiệu

c quan tâm nhi u nh t hiện nay.

Hệ t v n (Recommender System) [1,2] là hệ th ng có kh năng t
động phân tích, phân lo i, l a ch n và cung c p cho ng

i dùng nh ng thông

tin, hàng hóa hay d ch vụ mà h quan tâm. Hệ t v n đ

c xem nh một bi n

th đi n hình có vai trò quan tr ng trong l c thông tin. Nhi u hệ t v n đ

đ

c th

ng m i hóa và tri n khai thành công, tiêu bi u là hệ t v n c a các

hãng Amazon.com, Netflix.com, Procter & Gamble.
Hệ t v n đ

c xây d ng d a trên hai kỹ thuật l c thông tin chính: L c

theo nội dung (Content-Based Filtering) và l c cộng tác (Collaborative
Filtering) [1]. L c theo nội dung khai thác nh ng khía c nh li n quan đ n nội
dung thông tin s n phẩm ho c ng

i

ng đ từng s dụng hay truy nhập

trong quá kh đ t o n n t v n. Trái l i, l c cộng tác khai thác nh ng khía
c nh li n quan đ n thói quen sở thích c a ng
đ ng ng

i s dụng s n phẩm c a cộng

i dùng có cùng sở th ch đ t o nên t v n.

Số hóa bởi Trung tâm Học liệu – ĐHTN





2
So v i l c theo nội dung, l c cộng tác không ph i phân tích, bóc tách,
hi u đ nh ch mục cho c c đ c tr ng nội dung s n phẩm, l c cộng tác có th
l c hiệu qu trên nhi u d ng s n phẩm kh c nhau nh hàng h a s a, nh, tài
liệu. Chính vì vậy tác gi đ l a ch n đ tài “Phương ph p lọc cộng tác và
ứng dụng trong hệ thông tin tư vấn” đ th c hiện trong khuôn khổ luận văn
th c s chuy n ngành khoa h c máy tính.
Đối tƣợng và phạm vi nghiên cứu
- Nghiên c u ph

ng ph p l c cộng tác d a trên bộ nh

l c cộng tác d a trên mô hình và ph

ph

ng pháp

ng ph p l c cộng tác k t h p bộ nh và

mô hình.
- Nghiên c u l c cộng tác d a trên s n phẩm v i thuật to n t nh độ t

ng

t , l c cộng tác d a tr n mô h nh đ th v i thuật toán d a tr n mô h nh đ th
ng


i dùng - s n phẩm nhằm c i thiện độ chính xác c a l c thông tin cho hệ

t v n và thuật toán l c bằng ph
ng

ng ph p đ ng hu n luyện theo s n phẩm và

i dùng Đ c biệt xây d ng ng dụng hệ thông tin t v n s n phẩm s a

ành cho ng

i tiêu dùng.

Hƣớng nghiên cứu củ đề tài
Tập trung nghiên c u hai v n đ chính.
1. Trình bày c c ph

ng ph p l c thông tin, ng dụng c a c c ph

ng

pháp l c thông tin, hệ th ng thông tin t v n v i ki n trúc tổng quan c a hệ
th ng l c thông tin, l c thông tin và các hệ t v n.
2. Nghiên c u l c cộng tác d a trên s n phẩm v i thuật to n t nh độ
t

ng t , l c cộng tác d a tr n mô h nh đ th v i thuật toán d a trên mô hình

đ th ng


i dùng - s n phẩm nhằm c i thiện độ chính xác c a l c thông tin

cho hệ t v n và thuật toán l c bằng ph
phẩm và ng

ng ph p đ ng hu n luyện theo s n

i dùng.

Phƣơng pháp nghi n cứu

Số hóa bởi Trung tâm Học liệu – ĐHTN




3
- Nghiên c u lý thuy t: Nghiên c u các khái niệm v l c thông tin,
trong đ đi s u vào nghi n c u l c cộng tác. Nghiên c u thuật toán tính
độ t

ng t

ph

ng ph p i u diễn đ th và ph

ng ph p l c d a vào

l c đ ng hu n luyện.

- Nghiên c u th c nghiệm: Xây d ng ph n m m ng dụng hệ thông tin
t v n s n phẩm s a ành cho ng

i tiêu dùng.

Ý nghĩ kho học củ đề tài
- Khai th c đ

c thuật to n t nh độ t

- Khai th c ph
đ th ng

ng t .

ng pháp bi u diễn đ th và ph

ng ph p

đo n tr n

i dùng.

- Khai th c đ

c thuật toán l c đ ng hu n luyện theo s n phẩm và l c

đ ng hu n luyện theo ng

i dùng.


Bố cục luận văn
h

ng 1: Ph

ng ph p l c tin.

Trình bày tổng quan v c c ph

ng ph p l c thông tin và hệ th ng

thông tin t v n.
h

ng 2: Một s ph

ng ph p l c cộng tác.

Trình bày thuật toán l c cộng tác d a trên s n phẩm, thuật toán d a
tr n mô h nh đ th ng
h

ng 3: h

i dùng - s n phẩm và thuật to n đ ng hu n luyện.

ng tr nh ng dụng.

Xây d ng ch


ng tr nh ng dụng s n phẩm s a ành cho ng i tiêu dùng.

Số hóa bởi Trung tâm Học liệu – ĐHTN




4
Chƣơng 1
PHƢƠNG PHÁP LỌC TIN
1.1. Các phƣơng pháp lọc thông tin
L c thông tin (Information Filtering) [1] là l nh v c nghiên c u quá
trình l c b nh ng thông tin không thích h p và cung c p thông tin thích h p
đ n v i m i ng

i dùng. L c thông tin đ

qu h n ch tình tr ng quá t i thông tin đ
3 ph

c xem là một ph

ng ph p hiệu

c quan tâm nhi u nh t hiện nay.

ng ph p l c thông tin.

1.1.1. Phương pháp lọc tin theo nội dung

L c theo nội ung là ph

ng ph p th c hiện d a trên việc so sánh nội

dung thông tin hay mô t hàng hóa, nhằm tìm ra nh ng s n phẩm t
nh ng gì mà ng

i

ng đ từng quan tâm đ gi i thiệu cho h nh ng s n
ng ph p ti p cận cho l c theo nội dung có ngu n g c

phẩm này [3]. Các ph

từ l nh v c truy v n thông tin trong đ m i s n phẩm đ
một h s s n phẩm, m i ng
ng Ph

ng t v i

ng ph p

i dùng đ

c bi u diễn bằng

c bi u diễn bằng một h s ng

i


đo n nội dung nguyên b n c a s n phẩm th c hiện

d a vào việc xem xét các h s s n phẩm có m c độ phù h p cao v i h s
ng

i dùng.

1.1.1.1 Bài toán lọc theo nội dung
Bài toán l c theo nội ung đ

c phát bi u nh sau

ho P = {p1, p2,..,

pN} là tập g m N s n phẩm. Nội dung s n phẩm p∈ P đ
Content(p) đ

c bi u diễn thông qua tập K đ c tr ng nội dung c a P. Tập các

đ c tr ng s n phẩm p đ
th c hiện mục đ ch

c xây d ng bằng các kỹ thuật truy v n thông tin đ

đo n nh ng s n phẩm kh c t

ng t v i p.

Cho U = { u1, u2,.., uM} là tập g m M ng
dùng u∈ U, g i ContentBasedProfile(u) là h s ng

ng

c ký hiệu là

i dùng. V i m i ng

i dùng u. H s c a

i dùng u th c ch t là l ch s truy cập ho c đ nh gi c a ng
Số hóa bởi Trung tâm Học liệu – ĐHTN

i

iđ đ iv i




5
các s n phẩm. ContentBasedProfile(u) đ
nội dung các s n phẩm mà ng

c xây d ng bằng cách phân tích

i dùng u đ từng truy nhập ho c đ nh gi

a

trên các kỹ thuật truy v n thông tin.
Bài toán l c theo nội dung khi đ là

nội dung thích h p v i ng
h s ng

đo n nh ng s n phẩm m i có

i dùng d a trên tập h s s n phẩm Content(p) và

i dùng ContendBasedProfile(u).

1.1.1.2 C c phương ph p ph p lọc theo nội dung
L c theo nội ung đ

c ti p cận theo hai xu h

ng: L c d a trên bộ

nh và l c d a trên mô hình.
Lọc nội dung dựa vào bộ nhớ
L c nội dung d a vào bộ nh là ph
s s n phẩm và tập h s ng
Trong ph

ng đ th c hiện hu n luyện và d đo n

ng ph p này c c s n phẩm m i đ

c h s ng
h s ng

i


ng ph p s dụng toàn bộ tập h
c tính toán và so sánh v i t t

i dùng. Nh ng s n phẩm m i có m c độ t

i dùng s đ

c dùng đ t v n cho ng

ng t cao nh t v i

i dùng này.

Lọc nội dung dựa vào mô hình
L c nội dung d a tr n mô h nh là ph
phẩm và tập h s ng

ng ph p s dụng tập h s s n

i dùng đ xây d ng nên mô hình hu n luyện. Mô hình

d đo n sau đ s s dụng k t qu c a mô hình hu n luyện đ sinh ra t v n
cho ng

i dùng. Trong cách ti p cận này, l c nội dung có th s dụng các kỹ

thuật h c m y nh m ng Bayes, phân cụm, cây quy t đ nh, m ng n ron nh n
t o đ t o nên d đo n
Pazzani và Billsus [9] s dụng bộ phân lo i Bayes d a trên nh ng đ nh

gi “thích” ho c “không thích” c a ng
Trong đ

ph

ng ph p

cl

i

ng đ phân lo i các s n phẩm.

ng xác su t s n phẩm pj có thuộc l p Ci hay

không d a vào tập c c đ c tr ng nội dung k1j,..,knj c a s n phẩm đ
P( Ci| k1j&k2j & .. &knj )

Số hóa bởi Trung tâm Học liệu – ĐHTN

(1.1)




6
Panzanni và Billsus gi thi t c c đ c tr ng nội dung xu t hiện độc lập nhau, vì
vậy xác su t ở tr n t

ng ng v i:


P( Ci) ∏ P(kxj| Ci)
x: là ng

i dùng ch y từ 1

Vì P(kxj| Ci) và P(Ci) có th
vậy, s n phẩm pj đ
j)

(1.2)

cl

n
ng d a vào tập d liệu hu n luyện. Do

c xem là thuộc l p Ci n u xác su t P( Ci| k1j&k2 j & .. &kn

có giá tr cao nh t thuộc l p này.
Solombo[5] đ xu t mô hình l c thích nghi, trong đ ch tr ng đ n việc

quan sát m c phù h p c a t t c các s n phẩm.
1.1.2. Phương pháp lọc tin theo cộng tác
Không gi ng nh l c theo nội dung, l c cộng tác khai thác nh ng khía
c nh li n quan đ n thói quen sở thích c a ng
d đo n c c s n phẩm m i cho ng

i s dụng s n phẩm đ đ a ra


i dùng này. So v i l c theo nội dung, l c

cộng tác không ph i phân tích, bóc tách, hi u, đ nh ch mục cho c c đ c
tr ng nội dung s n phẩm. Chính vì vậy, l c cộng tác có th l c hiệu qu trên
nhi u d ng s n phẩm kh c nhau nh hàng hóa, s a, nh, tài liệu [4]. Cùng
trên một hệ t v n ng

i dùng s đ

c t v n nhi u lo i m t hàng khác nhau

cho dù các m t hàng này có th bi u diễn tr n không gian c c đ c tr ng nội
dung khác nhau.
1.1.2.1 Bài toán lọc cộng tác
Ký hiệu U= {u1, u2 … uN} là tập g m N ng
pM} là tập g m M s n phẩm mà ng

i dùng, P= {p1, p2,..,

i dùng có th l a ch n. M i s n phẩm

pi∈ P có th là hàng hóa, s a, nh, t p chí, tài liệu, sách, báo, d ch vụ ho c b t
kỳ d ng thông tin nào mà ng

i dùng c n đ n.

Ti p theo, ký hiệu R={rij}, i = 1..N, j = 1..M là ma trận đ nh gi trong
đ m i ng

i dùng ui∈ U đ a ra đ nh gi c a mình cho một s s n phẩm pj∈


P bằng một tr ng s rij. Giá tr rij ph n ánh m c độ a th ch c a ng
Số hóa bởi Trung tâm Học liệu – ĐHTN

i dùng ui




7
đ i v i s n phẩm pj. Giá tr rij có th đ
ki n ng

c thu thập tr c ti p bằng cách h i ý

i dùng ho c thu thập gián ti p thông qua c ch ph n h i c a ng

dùng. Giá tr rij = Ø trong tr

ng h p ng

i

i dùng ui ch a đ nh gi ho c ch a

bao gi bi t đ n s n phẩm pj.
V i một ng
th i ng

i dùng c n đ


i dùng c n đ

c t v n ua (đ

c t v n hay ng

c g i là ng

i dùng hiện

i dùng tích c c), bài toán l c

cộng tác là bài toán d đo n đ nh gi c a ua đ i v i nh ng m t hàng mà u a
ch a đ nh gi (r aj = Ø) tr n c sở đ t v n cho ua nh ng s n phẩm đ

c

đ nh gi cao
B ng 1.1 th hiện một ví dụ v i ma trận đ nh gi R = (rij) trong hệ g m
5 ng
ng

i dùng U = {u1, u2, u3, u4, u5} và 4 s n phẩm P= {p1, p2, p3, p4}. M i
i dùng đ u đ a ra c c đ nh gi c a mình v các s n phẩm theo thang bậc

{Ø, 1, 2, 3, 4, 5}. Giá tr rij = Ø đ

c hi u là ng


i dùng ui ch a đ nh gi

ho c ch a bao gi bi t đ n s n phẩm pj. Các giá tr r5,2 = ? là s n phẩm hệ
th ng c n d đo n cho ng

i dùng u5.

Bảng 1.1.Ví dụ v ma trận đ nh gi c a l c cộng tác
p1

p2

p3

p4

u1

2

1

3

5

u2

4


2

1

Ø

u3

3

Ø

2

4

u4

4

4

Ø

Ø

u5

4


?

5

5

Ma trận đ nh gi R= (rij) là thông tin đ u vào duy nh t c a c c ph
pháp l c cộng tác. D a trên ma trận đ nh gi c c ph
hiện hai tác vụ: D đo n quan đi m c a ng
các s n phẩm mà h ch a đ nh gi

ng

ng ph p l c cộng tác th c

i dùng hiện th i (Active User) v

đ ng th i đ a ra một danh sách các s n

phẩm có đ nh gi cao nh t phân bổ cho ng

i dùng hiện th i.

1.1.2.2 C c phương ph p lọc cộng tác
Số hóa bởi Trung tâm Học liệu – ĐHTN




8

ng gi ng nh l c theo nội dung, l c cộng tác ti p cận theo hai xu
h

ng chính: L c cộng tác d a trên bộ nh và l c cộng tác d a trên mô hình.

M i ph

ng ph p ti p cận có nh ng u đi m và h n ch riêng, khai thác các

m i liên hệ trên ma trận đ nh gi ng
ph

ng ph p đ

i dùng. Cách ti p cận cụ th m i

c th c hiện nh sau.

Lọc cộng tác dựa trên bộ nhớ
c ph

ng ph p l c d a trên bộ nh s dụng toàn bộ ma trận đ nh gi

đ sinh ra d đo n c c s n phẩm cho ng
là ph
Ph

ng ph p h c l
ng ph p đ


i dùng hiện th i. V th c ch t đ y

i hay h c d a trên ví dụ đ

c th c hiện theo hai

c s dụng trong h c máy.

c: Tính toán m c độ t

ng t và

c t o nên d đo n
• T nh to n m c độ t
tr ng s gi a hai ng


ng t

i dùng x và y (ho c gi a hai s n phẩm x và y).

đo n: Đ a ra

đo n cho ng

đ nh tập láng gi ng c a ng
t v nđ

sim(x, y): Mô t kho ng cách, s liên quan, hay
i dùng c n đ


c t v n bằng cách xác

i dùng này. Tập láng gi ng c a ng

c xác đ nh d a trên m c độ t

ng t gi a các c p ng

i dùng c n
i dùng ho c

s n phẩm.
Việc tính toán m c độ t

ng t gi a hai ng

xét d a vào tập s n phẩm c hai ng
toán m c độ t
ng

i dùng x và y đ

i dùng đ u đ nh gi T

ng t gi a hai s n phẩm x và y đ

i dùng cùng đ nh gi c hai s n phẩm Sau đ

đ xác đ nh m c độ t


ng t gi a hai ng

Chú ý rằng c hai ph

c xem

ng t , việc tính

c xem xét d a vào tập
s dụng một độ đo cụ th

i dùng ho c s n phẩm.

ng ph p l c theo nội dung và l c cộng tác đ u

s dụng độ đo cosin gi ng nhau trên tập các s n phẩm. Tuy nhiên, l c theo
nội dung s dụng độ t

ng t cosin cho các véc t c a tr ng s đ

theo độ đo t n su t và t n su t xu t hiện ng
gi a hai véc t

i u diễn đ nh gi c a ng

c tính

c, l c cộng tác s dụng cosin


i dùng.

Lọc cộng tác dựa vào mô hình

Số hóa bởi Trung tâm Học liệu – ĐHTN




9
Khác v i ph

ng ph p

ph

a trên bộ nh

ng ph p l c d a trên mô

hình [2] s dụng tập đ nh giá đ xây d ng mô hình hu n luyện. K t qu c a
mô hình hu n luyện đ

c s dụng đ sinh ra d đo n quan đi m c a ng

dùng v các s n phẩm ch a đ

c h đ nh gi Ưu đi m c a c a ph

này là mô hình hu n luyện c k ch th


i

ng ph p

c nh h n r t nhi u so v i ma trận

đ nh gi và th c hiện d đo n nhanh Mô h nh ch c n cập nhật l i khi có
nh ng thay đổi l n và ch th c hiện l i ph n xây d ng mô hình.
Mô hình mạng Bayes
Mô hình m ng Bayes [6] bi u diễn m i s n phẩm nh một đ nh c a đ
th , tr ng thái c a đ nh t
s n phẩm đ đ

ng ng v i giá tr đ nh gi c a ng

c đ nh gi

u trúc c a m ng đ

hu n luyện. Breese [6] đ xu t ph

c phận bi t từ tập d liệu

ng ph p m ng

cộng t c trong đ nh ng đ nh gi ch a i t đ

i dùng đ i v i


ayes đ n gi n cho l c

c tính toán theo công th c

(1.3). Breese gi thi t các giá tr đ nh gi đ

c xem xét nh nh ng s nguyên

nằm gi a 0 và n. Đ nh gi ch a bi t c a ng

i dùng u đ i v i s n phẩm p là

ru,p đ

c

cl

ng thông qua nh ng đ nh gi tr

G i Pu= { p’∈ P| rup’ ≠ Ø} Khi đ
v i s n phẩm p đ

c đ c a ng

đ nh gi ch a i t c a ng

i dùng u.

i dùng u đ i


c tính theo công th c

 i  Prr
n

rup = E(rup) =

i 0

up

 i rup' , p' Pu



(1.3)

Billsus và Pazzani [9] chuy n đổi d liệu có nhi u m c đ nh giá thành d liệu
nh ph n Khi đ

ma trận đ nh gi đ

c chuy n đổi thành ma trận bao g m

đ c tr ng nh phân. Việc chuy n đổi này làm cho việc s dụng mô hình m ng
r trở nên thuận tiện h n Tuy nhi n k t qu phân lo i theo c c đ c tr ng nh
phân không ph n nh đ ng c c ộ d liệu th c
Mô hình phân cụm
Một cụm là tập các đ i t


ng d liệu có các ph n t trong cụm gi ng

nhau nhi u nh t, và khác nhau nhi u nh t đ i v i các ph n t thuộc các cụm
khác

c ph

ng ph p ph n cụm cho l c cộng t c đ

Số hóa bởi Trung tâm Học liệu – ĐHTN

c s dụng đ phân




10
chia tập ng

i dùng (ho c tập s n phẩm) thành các cụm ng

phẩm) có sở th ch t
cụm nào s đ

ng t nhau Khi đ

i dùng (ho c s n phẩm) thuộc

c d đo n và t v n các s n phẩm đ


cụm đ [7] Độ đo
d liệu th

ng

ng đ

ng đ

cl

i dùng (ho c s n

c đ nh gi cao trong

ng m c độ gi ng nhau gi a c c đ i t

c s dụng là kho ng cách Minkowski và độ t

ng

ng quan

Pearson.
Cho hai đ i t

ng d liệu X = (x1, x2,..,xn), Y = (y1, y2,..,yn). Khi

đ kho ng c ch Minkowski đ


c đ nh ngh a theo công th c

n

d(X,Y) =

q

x y
i 1

Trong đ

i

q

i

n là s chi u c a X và Y; xi, yi là giá tr thành ph n th

ic a

ng N u q =1, thì d(X,Y) là kho ng cách

X và Y; q là một s nguyên

Minkowski. N u q =2, thì d(X,Y)là kho ng cách Euclid.
Sarwar và Herlocker [7] cùng các cộng s s dụng các kỹ thuật phân

cụm chia tập ng

i dùng thành các cụm Ph

thuật toán d a trên bộ nh nh độ t

ng ph p

đo n s dụng các

ng quan Pearson đ th c hiện trên m i

cụm d liệu.
Si và Jin [8] đ xu t mô hình phân cụm bằng mô hình pha trộn linh
ho t (Flexible Mixture Mo el) Ph
ng

ng ph p ph n cụm đ ng th i cho c

i dùng và s n phẩm và cho phép m i ng

i dùng ho c s n phẩm có th

thuộc nhi u cụm khác nhau, sau đ mô h nh h a c c cụm ng

i dùng và các

cụm s n phẩm độc lập nhau đ th c hiện d đo n K t qu th nghiệm đ
ch ng t ph
t


ng ph p cho l i k t qu t t h n so v i ph

ng quan Pearson và mô h nh đ nh h

ng ph p

a trên độ

ng (Aspect Model).

Mô hình ngữ nghĩa ẩn:
Mô hình ng ngh a ẩn cho l c cộng tác d a vào các kỹ thuật th ng kê,
trong đ c c tham i n ẩn đ
phá ra cộng đ ng ng

c thi t lập trong một mô hình h n h p đ khám

i dùng phù h p v i m u h s thích h p.

Số hóa bởi Trung tâm Học liệu – ĐHTN




11
Si và Jin [8] đ xu t mô h nh đa th c (Multinomial Model) phân lo i
tập ng

i dùng v i gi thi t ch có một ki u ng


i dùng duy nh t. Marlin [5]

đ xu t mô hình pha trộn đa th c (Multinomial Mixture Model), k t h p v i
mô hình đ nh h

ng đ t o nên mô hình h s đ nh gi ng

Rating Profile) v i gi thi t có nhi u ki u ng
ng

i

i dùng(User

ng và c c đ nh giá m i

i dùng độc lập nhau. Marlin khẳng đ nh, h s đ nh gi ng

th c hiện t t h n so v i mô h nh đ nh h

ng và mô hình pha trộn đa th c.

Mô hình phân lo i và h i qui: Cho tập g m N véct

M chi u {xi}. Mục tiêu

c a phân lo i hay h i qui là d đo n ch nh x c gi tr đ u ra t
Trong tr


ng ng {ci}.

ng h p phân lo i, ci nhận một giá tr từ một tập h u h n g i là tập

các nhãn. Trong tr

ng h p h i qui, ci có th nhận một giá tr th c Đ áp

dụng mô hình phân lo i cho l c cộng tác, m i s n phẩm (ho c ng
đ

i dùng

i dùng)

c xây d ng một bộ phân lo i riêng. Bộ phân lo i cho s n phẩm y phân

lo i tập ng

i dùng d a trên nh ng ng

y. Các bộ phân lo i đ

i dùng kh c đ đ nh gi s n phẩm

c ti n hành hu n luyện độc lập nhau trên tập các ví

dụ hu n luyện.
1.1.3. Phương pháp lọc tin kết hợp
L c k t h p hay còn g i là ph


ng ph p lai [1] là ph

ng ph p k t h p

gi a cộng tác và l c nội dung nhằm tận dụng l i th và tránh nh ng h n ch
c a m i ph

ng ph p So v i c c ph

ng pháp khác, l c k t h p cho l i k t

qu d đo n t t và có nhi u tri n v ng áp dụng trong các ng dụng th c t .
1.1.3.1 Bài toán lọc kết hợp
Ngoài ng
đ

i dùng U, tập s n phẩm P, ma trận l c cộng t c R nh đ

c trình bày ở trên, kí hiệu C = {c1,c2 … ck} là tập K đ c tr ng bi u diễn

nội dung thông tin các s n phẩm p  P ho c ng

i dùng u U . Ví dụ n u

p  P là một lo i s a khi đ ta c th bi u diễn s a thông qua c c đ c tr ng ci
”thể loại", "thành phần", "hãng sản xuất" và c c đ c tr ng khác c a s a; n u

Số hóa bởi Trung tâm Học liệu – ĐHTN





12
u U là một ng

i dùng thì ta có th xem xét c c đ c tr ng ci: "tuổi", " giới

tính", "nghề nghiệp" và c c đ c tr ng kh c ph n nh thông tin ng
Bài toán c a l c k t h p là d đo n cho ng
s n phẩm pk  P ch a đ

c ua đ nh gi

i dùng.

i dùng hiện th i ua nh ng

a trên ma trận đ nh gi rij và c c đ c

tr ng nội dung C = {c1,c2 … ck}.
1.1.3.2 C c phương ph p lọc kết hợp
L ck th pđ

c ti p cận theo 4 xu h

ng chính: K t h p tuy n tính,

k t h p đ c tính c a l c nội dung vào l c cộng tác, k t h p đ c tính c a l c
cộng tác vào l c nội dung và xây d ng mô hình h p nh t gi a l c cộng tác và

l c nội dung.
Kết hợp tuyến tính [3] là ph

ng ph p x y

ng hai l

c đ l c nội dung và

l c cộng t c độc lập nhau. K t qu d đo n c a toàn bộ mô hình có th đ
l a ch n từ ph
là k thừa đ
ph p Nh

ng ph p cho k t qu t t h n Ưu đi m c a ph
c ph

ng ph p này

ng ph p i u diễn và tính toán v n có c a c c ph
i dùng.

K t h p đ c tính c a l c nội dung và l c cộng t c là ph

ng ph p

trên các kỹ thuật l c cộng tác thu n t y nh ng v n duy trì h s ng
t gi a các c p ng

i


ng t v i h s ng

ng Ph

i dùng ho c không t

ng h p d liệu th a ho c ng

h s ng

i dùng và s n phẩm s đ

ng t v i h s ng

i dùng m i, m c độ t

i dùng.

ng t gi a

c xem xét đ n đ t o nên d đo n

Kết hợp đặc tính cuả lọc cộng tác và lọc nội dung là ph
i

ng

ng ph p c th phát hiện ra nh ng s n phẩm


Trong tr

c c đ nh gi ng

a

i dùng

ContentBasedProfile(u) nh một tham bi n tham kh o khi tính toán s t

s ng

ng

c đi m l n nh t c a mô hình này là cho k t qu không cao v ch a

có s k t h p hiệu qu gi a nội ung và đ nh gi ng

t

c

ng ph p xem xét

i dùng c a l c cộng t c nh một thành ph n trong m i h

ng Ph

ng ph p


đo n th c hiện theo l c nội dung thu n túy

và so sánh v i k t qu d a trên bi u diễn h s ng

i dùng mở rộng Ph

ng

pháp phổ bi n nh t th hiện theo mô hình này là s dụng các kỹ thuật gi m s
chi u cho h s ng

i

ng tr

c khi k t h p v i đ nh gi ng

Số hóa bởi Trung tâm Học liệu – ĐHTN

i dùng.




13
1.1.4. Ứng dụng của các phương pháp lọc tin
L c thông tin (IF) là l nh v c nghiên c u các quá trình cung c p thông
tin thích h p ngăn ngừa và g b thông tin không thích h p cho m i ng
dùng. Thông tin đ


c cung c p (c n đ

c g i là s n phẩm) có th là văn

trang web, phim, nh, d ch vụ ho c b t kỳ d ng thông tin nào đ
từ c c ph

i
n,

c s n sinh ra

ng tiện truy n thông. Ph m vi ng dụng c a l c thông tin tr i

rộng trong nhi u ng dụng th c t khác nhau c a khoa h c máy tính. Ứng
dụng tiêu bi u nh t c a l c thông tin đ

ck

đ n là l c k t qu tìm ki m

trong các máy tìm ki m (Search Engine), l c e-mail d a trên nội ung th và
h s ng

i dùng, l c thông tin văn

n trên các máy ch đ cung c p thông

tin cho tập th ho c cá nhân thích h p, lo i b nh ng trang thông tin có nh
h ởng không t t đ i v i ng


i dùng. Đ c biệt, l c thông tin có vai trò quan

tr ng cho các hệ th ng t v n (RS) ng dụng trong th

ng m i điện t .

1.2. Hệ thống thông tin tƣ vấn
Hệ th ng l c thông tin t v n cung c p cho ng

i dùng nh ng thông tin

c n thi t nh t, lo i b nh ng thông tin không có giá tr ho c không thích h p
đ i v i ng

i dùng. Nguyên lý phổ bi n đ

nguyên lý d a vào d

c dùng trong l c thông tin là

liệu (Data-Based) và nguyên lý d a vào tri th c

(Knowledge-Based). Các ph

ng ph p l c có th đ

c th c hiện d a vào nội

dung thông tin s n phẩm ho c l c d a trên thói quen sở thích ng

kỹ thuật l c đ

i dùng. Các

c phát tri n d a trên n n t ng từ l nh v c truy v n thông tin

(Information Retrieval), tách thông tin (Information Extraction), phân lo i
thông tin (Information Classification). Ph m vi ng dụng c a các hệ th ng l c
đ

c áp dụng cho t t c c c mô h nh th

ng m i điện t th c t : Khách hàng

- Khách hàng (Customer to Customer), Nhà cung c p - Khách hàng (Business
to Customer), Nhà cung c p - Nhà cung c p (Business to Business) [6].
1.2.1. Kiến trúc tổng quan của hệ thống lọc thông tin
Một hệ th ng l c thông tin tổng quát bao g m b n thành ph n c

n

[6]: Thành ph n phân tích d liệu (Data Analyser Component), thành ph n
Số hóa bởi Trung tâm Học liệu – ĐHTN




14
mô hình ng


i dùng (User Model Component), thành ph n h c (Learning

Component) và thành ph n l c (Filtering Component).
Thông tin đ c
t ng i dùng

Thành ph n mô
h nh ng i dùng

Ph n h i
ng i dùng

H s
ng i dùng

Thành ph n h c

Ng

Ng

i dùng

Thông tin các
s n phẩm

S n phẩm
phù h p v i
ng i dùng


Cập nhật thông
tin hu n luyện

i cung c p
thông tin

Bi u diễn thông
tin s n phẩm
Thành ph n l c

Bi u diễn thông
tin s n phẩm

Thành ph n
phân tích d
liệu

Hình 1.1. Ki n trúc tổng quát c a hệ th ng l c thông tin.
• Thành phần phân tích dữ liệu có nhiệm vụ thu thập d liệu v s n phẩm từ
các nhà cung c p thông tin (ví dụ tài liệu th điện t , sách, báo, t p chí, s a,
nh...). D liệu v s n phẩm đ

c phân tích và bi u diễn theo một khuôn d ng

thích h p sau đ chuy n đ n bộ phận l c nh Hình 1.1.
• Thành phần mô hình người dùng có th “hiện” ho c “ẩn”
tin v ng

i dùng, nh gi i tính, tuổi n i sinh s ng và thông tin ng


đ truy v n tr
t o ra đ

ng đ l y thông

c đ đ t o nên h s ng

i dùng. H s ng

i dùng

i dùng sau khi

c chuy n đ n thành ph n h c đ th c hiện nhiệm vụ hu n luyện.

• Thành phần học th c hiện hu n luyện trên tập h s và ph n h i c a ng

i

dùng theo một thuật toán h c máy cụ th . Thuật toán h c l y d liệu từ thành
ph n mô t ng

i dùng; l y d liệu v s n phẩm đ đ

ph n l c k t h p v i thông tin ph n h i ng
hu n luyện. K t qu quá trình h c đ

i

c bi u diễn từ thành


ng đ th c hiện nhiệm vụ

c chuy n l i cho bộ phận l c đ th c

hiện nhiệm vụ ti p theo.
• Thành phần lọc là thành ph n quan tr ng nh t c a hệ th ng, có nhiệm vụ
xem xét s phù h p gi a h s ng

i dùng và bi u diễn d liệu s n phẩm đ

Số hóa bởi Trung tâm Học liệu – ĐHTN




15
đ a ra quy t đ nh phân bổ s n phẩm. N u d liệu s n phẩm phù h p v i h s
ng

i dùng, s n phẩm s đ

ng

c l i, hệ th ng lo i b s n phẩm kh i danh sách nh ng s n phẩm phân bổ

cho ng

i


ng Ng

c cung c p cho ng

i dùng nhận đ

i

ng đ Trong tr

ng h p

c nh ng s n phẩm thích h p, xem xét,

đ nh gi ph n h i l i cho thành ph n h c đ phục vụ quá trình l c ti p theo.
1.2.2. Lọc thông tin và các hệ tư vấn
Hệ tƣ vấn (RS) là tr
trên thông tin đ c v ng

ng h p riêng c a các hệ th ng l c thông tin. D a
i dùng, hệ t v n xem xét trong s l

hàng hóa hay thông tin và t v n cho ng
nh ng đ y đ nh ng hàng h a mà ng

ng r t l n

i dùng một danh sách ngắn g n

i dùng có kh năng quan tâm.


S dụng hệ t v n trong các ng dụng th

ng m i điện t s h tr

khách hàng không c n th c hiện các thao tác tìm ki m s n phẩm, mà ch c n
l a ch n hàng hóa ho c d ch vụ a th ch o hệ th ng cung c p. Đi u này s
làm gia tăng năng l c mua, bán c a toàn bộ hệ th ng. Chính vì lý do này,
hàng lo t c c công ty đa qu c gia (Amazon.com, Netflix.com, CDNOW, J.C.
Penney, Procter & Gam le ) đ đ u t và phát tri n thành công công nghệ t
v n đ gia tăng hệ th ng khách hàng và bán hàng qua m ng [6].
o là tr

ng h p riêng c a hệ th ng l c tin, hệ t v n có nhi u đ c

đi m c a hệ l c tin tiêu bi u Tuy nhi n o đ c đi m c a d liệu ng
và nội dung, hệ t v n c ng nh các kỹ thuật đ
biệt nh t đ nh. T y vào ph

i dùng

c s dụng có một s khác

ng ph p l c tin, các hệ t v n đ

c phân lo i

thành ba lo i:
• Phương ph p tư vấn dựa vào lọc nội dung: Hệ th ng t v n cho ng
nh ng s n phẩm m i có nội ung t


i dùng

ng t v i một s s n phẩm h đ từng

mua ho c từng truy nhập trong quá kh .
• Phương ph p tư vấn dựa vào lọc cộng tác: Ng
một s s n phẩm c a nh ng ng

i dùng s đ

ct v n

i có sở thích gi ng h đ từng a th ch

trong quá kh .
Số hóa bởi Trung tâm Học liệu – ĐHTN




×