Tải bản đầy đủ (.pdf) (18 trang)

Lọc cộng tác dựa trên mô hình đồ thị hai phía

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (686.48 KB, 18 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG




MAI THỊ NHƯ

ĐỀ TÀI: LỌC CỘNG TÁC DỰA TRÊN MÔ HÌNH
ĐỒ THỊ HAI PHÍA

CHUYÊN NGÀNH: TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH
MÃ SỐ: 60.48.15



TÓM TẮT LUẬN VĂN THẠC SĨ


HÀ NỘI - 2012



Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG


Người hướng dẫn khoa học.: TS Nguyễn Duy Phương

Phản biện 1:
…………………………………………………………………
Phản biện 2:


…………………………………………………………………

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ
tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm ……

Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

PHẦN MỞ ĐẦU
1. Tính cấp thiết của đề tài nghiên cứu
Vấn đề quá tải thông tin (Information Overload) được J.Denning nêu ra lần đầu
tiên vào năm 1982. Với những lý lẽ và bằng chứng thuyết phục, Denning khẳng định khả
năng lựa chọn thông tin hữu ích của người dùng máy tính sẽ gặp khó khăn nghiêm trọng
bởi sự gia tăng không ngừng lượng thông tin khổng lồ đến từ hàng trăm kênh truyền hình,
hàng triệu băng hình, sách, báo, tạp chí, tài liệu thông qua các hệ thống giao dịch điện tử.
Vấn đề Denning công bố ngay lập tức được cộng đồng các nhà khoa học máy tính nhiệt
tình hưởng ứng và tập trung nghiên cứu phương pháp hạn chế ảnh hưởng của vấn đề quá
tải thông tin đối với người dùng, thúc đẩy một lĩnh vực nghiên cứu mới đó là lọc thông tin.
Lọc thông tin (Information Filtering) là lĩnh vực nghiên cứu các quá trình lọc bỏ
những thông tin không thích hợp và cung cấp thông tin thích hợp đến với mỗi người dùng.
Lọc thông tin được xem là phương pháp hiệu quả hạn chế tình trạng quá tải thông tin được
quan tâm nhiều nhất hiện nay.
Hệ tư vấn (Recommender System) là hệ thống có khả năng tự động phân tích, phân
loại, lựa chọn và cung cấp cho người dùng những thông tin, hàng hóa hay dịch vụ mà họ
quan tâm. Hệ tư vấn được xem như một biến thể điển hình có vai trò quan trọng trong lọc
thông tin. Nhiều hệ tư vấn đã được thương mại hóa và triển khai thành công, tiêu biểu là hệ
tư vấn của các hãng Amazon.com, Netflix.com, Procter & Gamble.
Hệ tư vấn được xây dựng dựa trên hai kỹ thuật lọc thông tin chính: Lọc theo nội
dung (Content-Based Filtering) và lọc cộng tác (Collaborative Filtering). Lọc theo nội

dung khai thác những khía cạnh liên quan đến nội dung thông tin sản phẩm hoặc người
dùng đã từng sử dụng hay truy nhập trong quá khứ để tạo nên tư vấn. Trái lại, lọc cộng tác
khai thác những khía cạnh liên quan đến thói quen sở thích của người sử dụng sản phẩm
để đưa ra dự đoán các sản phẩm mới cho người dùng này.
Lọc cộng tác được tiếp cận theo hai xu hướng chính: Lọc cộng tác dựa vào bộ nhớ
(Memory Based Collaborative Filtering) và Lọc cộng tác dựa trên mô hình (Model Based
Collborative Filtering). So với lọc cộng tác dựa vào bộ nhớ, lọc cộng tác dựa trên mô hình
cho lại kết quả tốt hơn. Chính vì vậy, em đã lựa chọn đề tài “Lọc cộng tác dựa trên mô
hình đồ thị hai phía” để thực hiện trong khuôn khổ luận văn thạc sĩ chuyên ngành truyền
số liệu và mạng máy tính.
2. Mục tiêu của luận văn
Mục tiêu của luận án là nghiên cứu áp dụng, cải tiến phương pháp lọc cộng tác dựa
trên mô hình, cụ thể là mô hình đồ thị hai phía nhằm cải thiện độ chính xác của lọc thông
tin trong các hệ tư vấn. Đặc biệt, nghiên cứu tập trung vào việc nâng cao kết quả dự đoán
nhu cầu người dùng trong trường hợp dữ liệu thưa.
3. Các kết quả đạt được của luận văn
Luận văn đã thực hiện đầy đủ những nội dung theo đề cương đã được phê duyệt.
Những kết quả đạt được của luận văn bao gồm:
Nghiên cứu và tổng hợp được những vấn đề tổng quan về lọc cộng tác, bao gồm:
- Kiến trúc tổng quát của các hệ thống lọc thông tin, phân biệt hệ thống lọc thông
tinh với các hệ thống khác như hệ thống truy vấn thông tin (Information Retrieval)
hệ thống tách thông tin (Information Extraction);
- Phát biểu bài toán lọc cộng tác tổng quát và những vấn đề liên quan.
- Nghiên cứu và tổng hợp lại các phương pháp lọc cộng tác tổng quát: Lọc cộng tác
dựa trên bộ nhớ (MBCF), lọc cộng tác dựa trên mô hình (MDBCF). Phân tích rõ
lợi thể và hạn chế của mỗi phương pháp để xác định mục tiêu nghiên cứu cụ thể
của đề tài.
Nghiên cứu và mở rộng mô hình đồ thị hai phía cho lọc cộng tác, bao gồm:
- Nghiên cứu và mở rộng phương pháp biểu diễn đồ thị hai phía cho lọc cộng tác.
Trong đó, phương pháp biểu diễn mở rộng trực tiếp mô hình của Huang.

- Nghiên cứu và mở rộng phương pháp dự đoán cho lọc cộng tác bằng cách xem xét
bài toán lọc cộng tác như bài toán tìm kiếm trên đồ thị.
- Thử nghiệm, so sánh và đánh giá kết quả của mô hình so với các phương pháp
khác. Kết quả cho kiểm nghiệm cho thấy, mô hình đã cải thiện đáng kể chất lượng dự
đoán cho lọc cộng tác. Đặc biệt, mô hình hạn chế được vấn đề dữ liệu thưa của lọc
cộng tác.
Xây dựng hệ thống tư vấn lựa chọn phim dựa trên mô hình đồ thị hai phía. Mô
hình phản ánh đầy đủ các chức năng cơ bản của một hệ thống lọc và cho lại kết quả
tư vấn tốt trong trường hợp dữ liệu thưa.
4. Bố cục của luận văn
Nội dung luận văn được xây dựng thành ba chương, trong đó:
Chương 1. giới thiệu tổng quan về lọc cộng tác. Trình bày những nghiên cứu cơ bản
của lọc cộng tác, các phương pháp lọc cộng tác và những vấn đề cần tiếp tục nghiên cứu
của mỗi phương pháp. Trên cơ những nghiên cứu cơ bản, xác định rõ hướng nghiên cứu cụ
thể của đề tài.
Chương 2. trình bày phương pháp biểu diễn, phương pháp dự đoán cho lọc cộng tác
bằng mô hình đồ thị hai phía. Đây cũng là kết quả nghiên cứu chính của đề tài.
Chương 3. Trình bày thiết kế và xây dựng ứng dụng hệ tư vấn lưạ chọn phim. Ứng
dụng được thiết kế và cài đặt theo phương pháp lọc cộng tác được trình bày trong chương
2. Cuối cùng là phần kết luận.
CHƯƠNG 1: TỔNG QUAN VỀ LỌC CỘNG TÁC
Mục tiêu chính của chương này trình là bày những vấn đề tổng quan về lọc cộng
tác, các phương pháp lọc cộng tác, phân tích rõ những hạn chế tồn tại mỗi phương pháp
để từ đó xác định rõ hướng nghiên cứu cụ thể của đề tài. Những kết quả nghiên cứu của
đề tài sẽ được trình bày trong các chương tiếp theo của luận văn.
1.1. Tổng quan về lọc thông tin
1.1.1. Kiến trúc tổng quát của hệ thống lọc thông tin
Một hệ thống lọc thông tin tổng quát bao gồm bốn thành phần cơ bản. Thành phần
phân tích dữ liệu (Data Analyser Component), thành phần mô hình người dùng (User
Model Component), thành phần học (Learning Component) và thành phần lọc ( Filtering

Component).

Hinh 1.1. Kiến trúc tổng quát của hệ thống lọc thông tin
1.1.2. Lọc thông tin và truy vấn thông tin
1.1.3. Lọc thông tin và các hệ tư vấn
1.2. Phát biểu bài toán lọc cộng tác
Cho tập hợp hữu hạn U = {u
1
, u
2
,…, u
N
} là tập gồm N người dùng, P = {p
1
, p
2
, ,
p
M
} là tập gồm M sản phẩm. Mỗi sản phẩm p
x
P có thể là hàng hóa, phim, ảnh, tạp chí,
tài liệu, sách, báo, dịch vụ hoặc bất kỳ dạng thông tin nào mà người dùng cần đến. Để
thuận tiện trong trình bày, ta viết p
x
P ngắn gọn thành xP; và u
i
U là iU.
Mối quan hệ giữa tập người dùng U và tập sản phẩm P được biểu diễn thông qua
ma trận đánh giá R={ r

ix
}, i = 1 N, x = 1 M. Mỗi giá trị r
ix
thể hiện đánh giá của người
dùng i

U cho một số sản phẩm x

P. Giá trị r
ix
có thể được thu thập trực tiếp bằng cách
hỏi ý kiến người dùng hoặc thu thập gián tiếp thông qua cơ chế phản hồi của người dùng.
Giá trị r
ix
=  được hiểu người dùng i chưa đánh giá hoặc chưa bao giờ biết đến sản
phẩm x.
Tiếp đến ta ký hiệu, P
i
P là tập các sản phẩm được đánh giá bởi người dùng iU và
U
x
U là tập các người dùng đã đánh giá sản phẩm xP. Với một người dùng cần được tư
vấn aU (được gọi là người dùng hiện thời, người dùng cần được tư vấn, hay người dùng
tích cực), bài toán lọc cộng tác là dự đoán đánh giá của a đối với những mặt hàng x (P \
P
a
), trên cơ sở đó tư vấn cho người dùng a những sản phẩm được đánh giá cao.
Ma trận đánh giá R = (r
ix
) là đầu vào duy nhất của các phương pháp lọc cộng tác. Dựa

trên ma trận đầu vào, các phương pháp lọc cộng tác thực hiện như được mô tả trong Hình
1.2.

Hinh 1.2. Các thành phần của hệ thống lọc cộng tác
Có nhiều phương pháp đề xuất khác nhau để giải quyết bài toán lọc cộng tác. Tuy
vậy ta có thể phân loại các phương pháp thành hai cách tiếp cận chính: Lọc cộng tác dựa
vào bộ nhớ và lọc cộng tác dựa vào mô hình. Nội dung cụ thể của hai phương pháp này
được trình bày trong những mục tiếp theo.
1.3. Phương pháp lọc cộng tác dựa trên bộ nhớ
Lọc cộng tác dựa trên độ bộ nhớ được tiếp cận theo hai phương pháp chính:
Phương pháp lọc dựa vào người dùng (UserBased) và lọc dựa vào sản phẩm (ItemBased).
Mỗi phương pháp đều có những ưu điểm riêng khai thác những khía cạnh liên quan đến
người dùng hoặc sản phẩm. Đặc điểm chung của cả hai phương pháp này là sử dụng toàn
bộ tập dữ liệu đánh giá để dự đoán quan điểm của người dùng cần được tư vấn về các sản
phẩm mà họ chưa hề biết đến.
1.3.1. Phương pháp UserBased và ItemBased
1.3.2. Ví dụ minh họa
1.3.3. Hạn chế của phương pháp User-Based và Item-Based
1.4. Phương pháp dựa trên mô hình
Việc thiết kế và phát triển các mô hình (như các thuật toán học máy, khai phá dữ
liệu) có thể cho phép hệ thống học cách nhận biết các mẫu phức tạp dựa trên dữ liệu
huấn luyện, và sau đó đưa ra các dự đoán thông minh cho nhiệm vụ lọc cộng tác cho dữ
liệu kiểm thử hay dữ liệu thực, dựa trên các mô hình đã học được. Các thuật toán CF dựa
trên mô hình, như là các mô hình Bayesian, các mô hình phân cụm và các mạng phụ
thuộc đã được nghiên cứu để giải quyết những hạn chế của các thuật toán CF dựa trên bộ
nhớ
1.4.1. Các thuật toán CF mạng bayes tin cậy
1.4.2. Các thuật toán CF phân cụm
1.4.3. Những vấn đề còn hạn chế


1.5. Mục tiêu nghiên cứu của đề tài.
Mục tiêu nghiên cứu chính của đề tài là:
 Đưa ra phương pháp biểu diễn đồ thị phù hợp với các bộ dữ liệu hiện nay.
Phương pháp xây dựng dựa trên mô hình đồ thị hai phía gồm các đỉnh
người dùng và đỉnh sản phẩm. Các đỉnh người dùng và đỉnh sản phẩm được
liên kết với nhau dựa trên dữ liệu đánh giá của người dùng với các sản
phẩm.
 Xây dựng và đưa ra phương pháp huấn luyện và dự đoán dựa trên mô hình
đồ thị trọng số.
 Thử nghiệm và đánh giá dựa trên các tập dữ liệu thực hiện nay, từ đó rút ra
kết quả để so sánh với các nghiên cứu trước đây để thấy được hiệu quả của
các phương pháp.
CHƯƠNG 2:LỌC CỘNG TÁC DỰA TRÊN MÔ HÌNH ĐỒ THỊ
HAI PHÍA
Nội dung chương này trình bày một mô hình lọc cộng tác dựa trên đồ thị hai phía.
Phương pháp biểu diễn phù hợp với tất cả các bộ dữ liệu hiện nay của lọc cộng tác.
Phương pháp dự đoán được đưa về bài toán tìm kiếm trên đồ thị cho phép ta sử kế thừa
được các thuật toán hiệu quả trên đồ thị. Kết quả thử nghiệm trên dữ liệu thực về phim
cho thấy mô hình đề xuất cải thiện đáng kể chất lượng dự đoán cho lọc cộng tác.
2.1 Giới thiệu về đồ thị hai phía
Định nghĩa. Đồ thị vô hướng G= <T, E>, trong đó T là tập đỉnh, E là tập các cặp
là tập cạnh được gọi là đồ thị hai phía (Đồ thị lưỡng phân, đồ thị phân đôi, đồ thị đối
sánh) nếu T được chia thành hai tập U, V (T = UV) sao cho với mọi cạnh e =(s,t)

E thì
s

U và tV.



Hinh 2.1. Ví dụ về đồ thị hai phía.

2.2 Một số nghiên cứu liên quan
2.3 Mở rộng mô hình đồ thị hai phía
2.3.1. Phương pháp biểu diễn đồ thị
Không hạn chế tính tổng quát của bài toán, ta có thể giả sử r
ix
= +v nếu người
dùng i “thích” sản phẩm x ở mức độ v, r
ix
= -v nếu người dùng i “không thích” sản phẩm
x ở mức độ -v, trong đó v[-1,1].












v
v
r
ix

(2.3)

Đối với các tập dữ liệu thử nghiệm cho lọc cộng tác, ta dễ dàng chuyển đổi biểu
diễn thành ma trận đánh giá theo công thức (2.3) bằng cách chọn một giá trị ngưỡng .
Những giá trị r
ix
> được dịch chuyển thành các giá trị dương, ngược lại chuyển đổi thành
giá trị âm.
2.3.2. Phương pháp dự đoán
2.3.3. Ví dụ minh họa
2.4. Thử nghiệm và đánh giá
2.4.1. Dữ liệu kiểm nghiệm
2.4.2. Phương pháp thử nghiệm
2.5. Kết quả kiểm nghiệm
N
ế
u ngư

i dùng i thích s

n ph

m x


m

c đ


v.



Nếu người dùng i chưa biết đến sản phẩm x.
N
ế
u ngư

i dùng i không thích s

n ph

m x


m

c đ


-
v.

Bang 2.1. Kết quả kiểm nghiệm trên tập MovieLens
Phương pháp

Độ đo
S


đánh giá bi
ế

t trư

c trong t

p ki

m tra

5

10

15

20

UserBased
Đ


nh

y

0.144

0.157

0.162


0.279

Đ


chính xác

0.174

0.186

0.198

0.218

F
-
Measure

0.158

0.170

0.178

0.245

ItemBased
Đ



nh

y

0.098

0.118

0.144

0.259

Đ


chính xác

0.211

0.2
11

0.174

0.144

F
-
Measure


0.134

0.151

0.157

0.185

Huang-Graph
Đ


nh

y

0.142

0.165

0.234

0.381

Đ


chính xác


0.175

0.234

0.292

0.339

F
-
Measure

0.157

0.194

0.299

0.359

Bipart-Graph
Đ


nh

y

0.198


0.215

0.312

0.397

Đ


chính xác

0.211

0.284

0.325

0.377

F
-
Measure

0.204

0.245

0.318

0.387


Bang 2.2. Kết quả kiểm nghiệm trên tập BookCrossing
Phương pháp

Độ đo
S


đánh giá bi
ế
t trư

c trong t

p ki

m tra

5

10

15

20

UserBased
Đ



nh

y

0.102

0.121

0.142

0.149

Đ


chính xác

0.174

0.194

0.214

0.265

F
-
Measure

0.129


0.149

0.171

0.191

ItemBased
Đ


nh

y

0.092

0.114

0.124

0.152

Đ


chính xác

0.147


0.163

0.211

0.259

F
-
Measure

0.113

0.134

0.156

0.192

Huang-Graph
Đ


nh

y

0.113

0.129


0.134

0.156

Đ


chính xác

0.248

0.286

0.310

0.326

F
-
Measure

0.155

0.178

0.187

0.211

Bipart-Graph

Đ


nh

y

0.125

0.138

0.157

0.185

Đ


chính xác

0.287

0.256

0.234

0.473

F
-

Measure

0.174

0.179

0.188

0.266

2.6. Kết luận
Kết quả kiểm nghiệm trên các bộ dữ liệu thực về sách và phim có nhiều mức đánh
giá khác nhau cho thấy mô hình đề xuất cho lại độ chính xác, độ nhạy và tỷ lệ F cao hơn
hẳn các phương pháp ItemBased, UserBased và Huang-Graph. Điều đó có thể khẳng
định, phương pháp biểu diễn và dự đoán của mô hình đồ thị hai phía có trọng số đề xuất
cải thiện đáng kể chất lượng dự đoán cho lọc cộng tác. Ưu điểm nổi bật của mô hình so
với những mô hình trước đây là thỏa mãn biểu diễn hiện có của tất cả các tập dữ liệu của
lọc cộng tác. Phương pháp dự đoán được đưa về bài toán tìm kiếm trên đồ thị có trọng số
cho phép ta phân biệt được mức độ quan trọng của từng loại đường đi bằng cách sử dụng
các thuật toán hiệu quả đã được áp dụng thành công cho nhiều ứng dụng khác nhau trên
đồ thị. Chất lượng dự đoán được cải thiện bằng cách mở rộng các đường đi từ đỉnh người
dùng đến đỉnh sản phẩm. Điều ày cho phép ta tận dụng được các mối liên hệ gián tiếp
giữa người dùng và sản phẩm vào quá trình dự đoán.



CHƯƠNG 3:XÂY DỰNG HỆ THỐNG TƯ VẤN LỰA
CHỌN PHIM DỰA TRÊN MÔ HÌNH ĐỒ THỊ HAI PHÍA
Hệ thống tư vấn lựa chọn phim (Film Recommendation System) được xây dựng
dựa vào mô hình đồ thị hai phía đã được trình bày trong Chương2. Hệ thống cho phép

người dùng xem phim, tra cứu nội dung phim, đánh giá phim, tìm kiếm nội dung phim, tư
vấn phim và một số chức năng cập nhật thông tin về phim và thông tin người dùng. Toàn
bộ hệ thống được xây dựng dựa trên công nghệ JSP với giao diện Web thân thiện, đẹp và
dễ sử dụng.
3.1. Kiến trúc tổng quát của hệ thống
3.1.1. Tầng trình bày
3.1.2. Tầng Logic

3.1.3. Tầng dữ liệu
3.2. Mô hình các lớp cơ sở
3.3. Các chức năng chính của hệ thống
3.3.1. Giao diện trang chủ của FRS

3.3.2. Mô tả chi tiết phim
3.3.3. Giao diện tìm kiếm thông tin về phim
3.3.4. Hiển thị phim theo thể loại
3.3.5. Tư vấn phim cho người dùng
3.4. Kết luận
Hệ thống tư vấn lựa chọn phim được xây dựng dựa vào mô hình đồ thị hai phía đã
mô tả đầy đủ các chức năng chính của một hệ thống lọc thông tin, bao gồm: chức năng
học, chức năng lọc, chức năng phân tích dữ liệu, chức năng người dùng. Ứng dụng cho
lại kết quả tư vấn tốt ngay cả trong trường hợp người dùng có ít dữ liệu đánh giá.
















KẾT LUẬN
Lọc cộng tác và lọc nội dung là hai phương pháp tiếp cận chính được áp dụng cho
các hệ thống lọc thông tin. Lọc nội dung thực hiện tốt trên các đối tượng dữ liệu được
biểu diễn dưới dạng các đặc trưng nội dung nhưng lại khó thực hiện trên các dạng thông
tin đa phương tiện. Lọc cộng tác có thể lọc được mọi loại thông tin nhưng gặp phải khó
khăn khi người dùng dữ liệu đánh giá thưa thớt, một người dùng mới chưa có đánh giá
nào về sản phẩm, một sản phẩm mới chưa được người dùng nào đánh giá. Dựa vào những
nghiên cứu cơ bản này, luận văn tập trung xây dựng mô hình đồ thị hai phía cho lọc cộng
tác để giải quyết vấn đề dữ liệu thưa và vấn đề nâng cao kết quả dự đoán.
Đối với vấn đề dữ liệu thưa của lọc cộng tác, luận văn sử dụng biểu diễn mô hình
đồ thị hai phía. Trong đó, một phía là tập người dùng, phía còn lại là tập các sản phẩm hệ
thống cần cung cấp cho người dùng. Mối liên hệ giữa tập người dùng và tập sản phẩm là
các cạnh đánh giá của người dùng đối với mỗi sản phẩm. Để khắc phục được những hạn
chế trước đây, mô hình sử dụng phương pháp ước lượng trọng số cho mỗi cạnh của đồ
thị. Phương pháp ước lượng trọng số cho phép ta thực hiện biểu diễn đồ thị phù hợp với
tất cả các bộ dữ liệu thực của lọc cộng tác.
Đối với vấn đề kết nâng cao kết quả dự đoán cho lọc cộng tác, luận văn đề xuất
phương pháp xem xét bài toán lọc cộng tác như bài toán tìm kiếm trên đồ thị. Phương
pháp dự đoán được qui về việc xem xét các đường đi có độ dài L giữa đỉnh người dùng
và đỉnh sản phẩm. Việc biểu diễn quan hệ Người dùng- Sản phẩm như một đồ thị hai phía
cho phép ta giảm thiểu không gian biểu diễn dữ liệu vì ma trận đánh giá R có rất ít dữ liệu
đánh giá. Dựa trên biểu diễn đồ thị này, hệ thống tư vấn có thể được triển khai dễ dàng
theo tất cả các khía cạnh: Phân bổ thông tin thích hợp hoặc gỡ bỏ thông tin không thích

hợp cho mỗi người dùng.
Để phân bổ thông tin phù hợp và loại bỏ thông tin không phù hợp cho mỗi người
dùng, đồ thị tổng quát được thực hiện tách thành hai đồ thị con: Đồ thị con G
+
biểu diễn
các đánh giá thích hợp và đồ thị con G
-
biểu diễn các đánh giá không thích hợp. Quá trình
suy diễn trên đồ thị G+ phản ánh mức độ phù hợp của sản phẩm tương ứng cho mỗi
người dùng. Quá trình suy diễn trên đồ thị G- phản ánh mức độ không phù hợp của sản
phẩm tương ứng cho mỗi người dùng. Cuối cùng, kết quả dự đoán được tổ hợp lại làm
kết quả dự đoán chung cho cả mô hình. Trong trường hợp dữ liệu thưa, mô hình cho phép
mở rộng độ là đường đi từ đỉnh người dùng đến đỉnh sản phẩm để tận dụng thông tin gián
tiếp giữa người dùng và sản phẩm.
Cuối cùng, phương pháp lọc trên mô hình đồ thị hai phía được sử dụng để xây
dựng hệ tư vấn lựa chọn phim. Hệ thống phản ánh đầy đủ các chức năng cơ bản của một
hệ thống lọc thông tin, bao gồm thành phần phân tích thông tin, thành phần mô hình
người dùng, thành phần học và thành phần lọc. Hệ thống cho lại kết quả tư vấn tốt trên bộ
dữ liệu MovieLens gồm 3900 phim và 6040 người dùng.
Hướng nghiên cứu tiếp theo của đề tài sẽ tập trung vào việc kết hợp giữa lọc cộng
tác và lọc nội dung. Đây cũng là chủ đề mang tính thời sự cao của cộng đồng nghiên cứu
về lọc thông tin.



×