Tải bản đầy đủ (.pdf) (26 trang)

Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (681 KB, 26 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-----------------------------------------

Trần Ngọc Hưng

NGHIÊN CỨU PHƯƠNG PHÁP
HỌC BÁN GIÁM SÁT CHO
HỆ TƯ VẤN LAI
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2017


1

Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: TS. Nguyễn Duy Phương
Phản biện 1: TS. Hoàng Xuân Dậu
Phản biện 2: PGS.TS. Bùi Thu Lâm

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc
sĩ tại Học viện Công nghệ Bưu chính Viễn thông.
Vào lúc: 10 giờ 30 ngày 11 tháng 3 năm 2017

Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông




2

MỞ ĐẦU
Hiện nay, hệ thống tư vấn (recomender system) đã trở
thành một trong những công cụ hữu dụng và phổ biến nhất
trong các hệ thống thương mại điện tử, tiêu biểu là hệ tư
vấn của các hãng Amazon, Yahoo, Google hay FaceBook.
Hệ tư vấn được xây dựng dựa trên hai kỹ thuật lọc thông tin
chính: Hệ tư vấn dựa vào phương pháp lọc theo nội dung
(ContentBased Filtering Recommendation) và hệ tư vấn
dựa vào phương pháp lọc cộng tác (Collaborative Filtering
Recommendation). Lọc theo nội dung khai thác những khía
cạnh liên quan đến các đặc trưng nội dung thông tin sản
phẩm người dùng đã từng sử dụng hay truy nhập trong quá
khứ để tạo nên tư vấn. Trái lại, lọc cộng tác chỉ sử dụng dữ
liệu đánh giá giữa người dùng sản phẩm để đưa ra dự đoán
nên thực hiện tốt trên tất cả các dạng thông tin nhưng gặp
phải vấn đề người dùng mới, sản phẩm mới và dữ liệu thưa
thớt. Chính vì vậy, vấn đề kết hợp giữa phương pháp tư vấn
theo nội dung và tư vấn cộng tác nhằm tận dụng lợi thế mỗi
phương pháp được cộng đồng quan tâm nghiên cứu trong
thời gian gần đây.


3

Trong luận văn này em sẽ trình bày mô hình kết hợp
(tư vấn lai) giữa lọc cộng tác và lọc nội dung. Mục đích của

phương pháp lọc kết hợp nhằm xác định các giá trị dự đoán
chắc chắn để chuyển giao cho quá trình huấn luyện tiếp
theo. Điều này sẽ góp phần cải thiện chất lựợng tư vấn và
khắc phục vấn đề thưa thớt dữ liệu của lọc cộng tác. Nội
dung của luận văn bao gồm 03 chương:
Chương 1: Lọc cộng tác bằng phương pháp học
bán giám sát
Nội dung chính của chương này, em giới thiệu về kỹ
thuật tư vấn cộng tác dựa trên bộ nhớ và phương pháp đồng
huấn luyện cho lọc cộng tác của TS. Từ Minh Phương và
TS. Nguyễn Duy Phương công bố. Đây cũng là mô hình cơ
sở để em phát triển mô hình đồng huấn luyện được trình
bày trong chương 2 của luận văn.
Chương 2: Phương pháp đồng huấn luyện cho lọc
kết hợp
Chương này em tập trung trình bày về phương pháp
đề xuất kết hợp giữa lọc cộng tác và lọc nội dung. Phương
pháp được thực hiện bằng cách tích hợp các đặc trưng nội
dung sản phẩm và đặc trưng người dùng vào lọc cộng tác.


4

Trên cơ sở các giá trị đặc trưng nội dung đã được tích hợp,
em mở rộng phương pháp ước lượng mức độ tương tự giữa
các cặp người dùng không chỉ thực hiện trên đánh giá người
dùng mà còn trên cả hồ sơ người dùng; mức độ tương tự
giữa các cặp sản phẩm không chỉ thực hiện trên đánh giá
sản phẩm mà con trên cả hồ sơ sản phẩm.
Chương 3: Thử nghiệm và đánh giá

Chương này cài đặt thử nghiệm các thuật toán với tập
dữ liệu MovieLen. Từ kết quả thử nghiệm thu được sẽ tiến
hành đánh giá, so sánh các thuật toán với nhau. Cuối cùng
là kết luận và hướng phát triển tiếp theo của đề tài.
Kết luận và hướng phát triển
Trình bày tóm tắt những kết quả đã đạt được, từ đó đề
xuất mục tiêu cũng như hướng nghiên cứu, phát triển tiếp
theo.


5

Chương 1 - LỌC CỘNG TÁC BẰNG
PHƯƠNG PHÁP HỌC BÁN GIÁM SÁT
Hệ tư vấn được xây dựng dựa trên hai kỹ thuật lọc
thông tin chính: lọc cộng tác và lọc nội dung. Trong đó, lọc
cộng tác được áp dụng rộng rãi hơn do tính đơn giản và hiệu
quả trong cài đặt. Lọc cộng tác được tiếp cận theo hai xu
hướng chính: lọc cộng tác dựa vào bộ nhớ và lọc cộng tác
dựa vào mô hình. Trong chương này, em tập trung trình bày
phương pháp đồng huấn luyện cho lọc cộng tác như phương
pháp cơ sở để mở rộng cho lọc kết hợp.

1.1. Phát biểu bài toán lọc cộng tác
Lọc cộng tác (collaborative filtering) là phương pháp
dự đoán quan điểm của người dùng hiện thời đối với các
sản phẩm phù hợp dựa trên thói quen sử dụng sản phẩm của
cộng đồng người dùng có cùng chung sở thích. Bài toán của
lọc cộng tác được phát biểu như sau:
Cho tập hợp hữu hạn U = {u1, u2,…, uN} là tập gồm N

người dùng, P = {p1, p2,.., pM} là tập gồm M sản phẩm. Mỗi
sản phẩm pxP có thể là hàng hóa, phim, ảnh, tạp chí, tài
liệu, sách, báo, dịch vụ hoặc bất kỳ dạng thông tin nào mà


6

người dùng cần đến. Để thuận tiện trong trình bày, ta viết
pxP ngắn gọn thành xP; và uiU là iU.
Mối quan hệ giữa tập người dùng U và tập sản phẩm
P được biểu diễn thông qua ma trận đánh giá R={ rix }, i =
1..N, x = 1..M. Mỗi giá trị rix thể hiện đánh giá của người
dùng iU cho một số sản phẩm xP. Giá trị rix có thể được
thu thập trực tiếp bằng cách hỏi ý kiến người dùng hoặc thu
thập gián tiếp thông qua cơ chế phản hồi của người dùng.
Giá trị rix =  được hiểu người dùng i chưa đánh giá hoặc
chưa bao giờ biết đến sản phẩm x.
Tiếp đến ta ký hiệu PiP là tập các sản phẩm được
đánh giá bởi người dùng iU và UxU là tập các người
dùng đã đánh giá sản phẩm xP. Với một người dùng cần
được tư vấn aU (được gọi là người dùng hiện thời, người
dùng cần được tư vấn, hay người dùng tích cực), bài toán
lọc cộng tác là dự đoán đánh giá của a đối với những mặt
hàng x (P\ Pa), trên cơ sở đó tư vấn cho người dùng a
những sản phẩm được đánh giá cao.
Học máy cho lọc cộng tác được tiếp cận theo ba xu
hướng chính: Học có giám sát (supervised learning),


7


(unsupervised learning) học không giám sát và học bán
giám sát (semi-supervised learning). Mỗi phương pháp học
khai thác những khía cạnh riêng của tập dữ liệu huấn luyện.

1.2.1. Lọc cộng tác bằng phương pháp học
không giám sát
Lọc cộng tác bằng phương pháp học không giám sát
được tiếp cận theo hai phương pháp chính: Phương pháp
học dựa vào người dùng và phương pháp học dựa vào sản
phẩm. Mỗi phương pháp đều có những ưu điểm riêng khai
thác những khía cạnh liên quan đến người dùng hoặc sản
phẩm. Đặc điểm chung của cả hai phương pháp này là sử
dụng toàn bộ tập dữ liệu đánh giá để dự đoán quan điểm
của người dùng cần được tư vấn về các sản phẩm mà họ
chưa hề biết đến.
Mỗi phương pháp đều được tiến hành theo ba bước như
sau:
Bước 1. Tính toán mức độ tương tự giữa các cặp người
dùng hoặc sản phẩm.
Bước 2. Xác định tập láng giềng cho người dùng cần
tư vấn.


8

Bước 3. Sinh ra dự đoán cho người dùng cần tư vấn.

1.2.2. Hạn chế của phương pháp học không
giám sát

 Vấn đề dữ liệu thưa
 Vấn đề dữ liệu thưa làm cho việc xác định tập láng
giềng của thuật toán tại Bước 2 trở nên kém tin cậy
 Vấn đề người dùng mới và sản phẩm mới

1.3. Phương pháp học bán giám sát cho lọc cộng
tác
Để giải quyết bài toán lọc cộng bằng phương pháp học
bán giám sát ta cần xây dựng hai kiểu quan sát trên tập dữ
liệu huấn luyện: Học bán giám sát dựa vào người dùng và
học bán giám sát dựa vào sản phẩm. Tiếp đến, ta cần phải
xây dựng được thuật toán chuyển giao đồng thời giữa các
kiểu quan sát để sinh ra dự đoán cho mỗi người dùng.


9

Chương 2 - PHƯƠNG PHÁP HỌC BÁN
GIÁM SÁT CHO LỌC KẾT HỢP
Trong chương này, em sẽ trình bày mô hình kết hợp
giữa lọc cộng tác và lọc nội dung bằng phương pháp lọc kết
hợp.

2.1. Phát biểu bài toán lọc kết hợp
Cho tập hợp hữu hạn gồm N người dùng U = {u1, u2,…,
uN}, P = {p1, p2,.., pM} là tập hữu hạn gồm M sản phẩm.
Mỗi sản phẩm pxP có thể là hàng hóa, phim, ảnh, tạp chí,
tài liệu, sách, báo, dịch vụ hoặc bất kỳ dạng thông tin nào
mà người dùng cần đến. Mối quan hệ giữa tập người dùng
U và tập sản phẩm P được biểu diễn thông qua ma trận đánh

giá R={ rix: i = 1, 2, ..N; x = 1, 2,..M }. Giá trị rix thể hiện
đánh giá của người dùng uiU cho một số sản phẩm pxP.
Thông thường giá trị rix nhận một giá trị thuộc miền F = {
1, 2,.., g} được thu thập trực tiếp bằng cách hỏi ý kiến người
dùng hoặc thu thập gián tiếp thông qua cơ chế phản hồi của
người dùng. Giá trị rix =  được hiểu người dùng ui chưa
đánh giá hoặc chưa bao giờ biết đến sản phẩm px. Ma trận


10

đánh giá của các hệ thống tư vấn thực tế thường rất thưa.
Mật độ các giá trị rix0 nhỏ hơn 1%, hầu hết các giá trị rix
còn lại là . Ma trận R chính là đầu vào của các hệ thống tư
vấn cộng tác. Để thuận tiện trong trình bày, ta viết pxP
ngắn gọn là xP; và uiU là iU. Các ký tự i, j luôn được
dùng để chỉ tập người dùng.
Mỗi sản phẩm xP được biểu diễn thông qua |C| đặc
trưng nội dung C = { c1, c2,.., c|C|}. Các đặc trưng csC nhận
được từ các phương pháp trích chọn đặc trưng (feature
selection) trong lĩnh vực truy vấn thông tin. Ví dụ xP là
một phim thì các đặc trưng nội dung biểu diễn một phim có
thể là C={thể loại phim, nước sản xuất, hãng phim, diễn
viên, đạo diễn…}. Gọi wi = {wi1, wi2,.., wi|C| } là vector
trọng số các giá trị đặc trưng nội dung sản phẩm csC đối
với mỗi người dùng iU. Khi đó, ma trận trọng số W ={wis:
i =1, 2, .., N; s =1, 2, .., |C|} chính là đầu vào của các hệ
thống tư vấn theo nội dung sản phẩm. Để thuận tiện trong
trình bày, ta viết csC ngắn gọn là sC. Ký tự s luôn được
dùng để chỉ tập đặc trưng nội dung sản phẩm.



11

Mỗi người dùng iU được biểu diễn thông qua |T|
đặc trưng nội dung T = {t1, t2,.., t|T|}. Các đặc trưng tqT
thông thường là thông tin cá nhân của mỗi người dùng
(Demographic Information). Ví dụ iU là một người dùng
thì các đặc trưng nội dung biểu diễn người dùng i có thể là
T={giới tính, độ tuổi, nghề nghiệp, trình độ,…}. Gọi vx =
{vx1, vx2,.., vx|T|} là vector trọng số biểu diễn các giá trị đặc
trưng nội dung tqT đối với mỗi sản phẩm xP. Khi đó,
ma trận trọng số V ={vxq: x = 1, 2, .., M;q = 1, 2, .., |T| }
chính là đầu vào của các hệ thống tư vấn theo nội dung
thông tin người dùng. Để thuận tiện trong trình bày, ta viết
tqT ngắn gọn là qT. Ký tự q luôn được dùng để chỉ tập
đặc trưng nội dung người dùng.
Tiếp đến ta ký hiệu, PiP là tập các sản phẩm xP
được đánh giá bởi người dùng iU và UxU là tập các
người dùng iU đã đánh giá sản phẩm xP. Với một người
dùng cần được tư vấn iU (được gọi là người dùng hiện
thời, người dùng cần được tư vấn, hay người dùng tích cực),
nhiệm vụ của các phương pháp tư vấn là gợi ý K sản phẩm
x(P\Pi) phù hợp nhất đối với người dùng i.


12

Bài toán tư vấn có thể phân loại thành ba hướng tiếp
cận chính: tư vấn theo nội dung, tư vấn cộng tác và tư vấn

kết hợp.

2.2. Hợp nhất biểu diễn giá trị các đặc trưng nội
dung
2.2.1. Hợp nhất hồ sơ người dùng của lọc nội
dung vào ma trận đánh giá
Phương pháp tư vấn theo nội dung thực hiện dự đoán
các sản phẩm có nội dung thông tin hay mô tả hàng hóa
tương tự với những sản phẩm mà người dùng đã từng sử
dụng hoặc truy nhập trong quá khứ. Chất lượng của các
phương pháp tư vấn theo nội dung phụ thuộc vào phương
pháp trích chọn đặc trưng để biểu diễn vector đặc trưng nội
dung sản phẩm và vector hồ sơ sử dụng sản phẩm của người
dùng. Hạn chế lớn nhất của phương pháp trích chọn đặc
trưng hiện nay là nhiều đặc trưng không quan trọng nhưng
vẫn tham gia vào việc xác định mức độ tương tự giữa vector
hồ sơ người dùng và vector đặc trưng sản phẩm. Để hạn chế
điều này, chúng ta cần phải xây dựng hồ sơ sử dụng sản
phẩm của người dùng thông qua đánh giá tự nhiên của
người dùng đối với sán phẩm


13

2.2.2. Hợp nhất hồ sơ sản phẩm của lọc nội dung
vào ma trận đánh giá
Tương tự như hồ sơ người dùng, hồ sơ sản phẩm lưu trữ
lại dấu vết các đặc trưng nội dung người dùng đã từng sử
dụng sản phẩm. Để xây dựng được hồ sơ sản phẩm ta cần
thực hiện hai nhiệm vụ: xác định được tập người dùng đã

từng sử dụng sản phẩm quá khứ và ước lượng trọng số mỗi
đặc trưng nội dung người dùng trong hồ sơ sản phẩm

2.3. Mô hình học bán giám sát cho lọc kết hợp
2.3.1. Bán giám sát tập đánh giá người dùng
cùng tập đặc trưng sản phẩm
Hệ tư vấn lai được xác định cho phép ta dễ dàng triển
khai các phương pháp lọc cộng tác dựa vào người dùng.
Phương pháp được tiến hành thông qua 4 bước: tính toán
mức độ tương tự giữa các cặp người dùng, xác định tập láng
giềng cho người dùng cần tư vấn, dự đoán quan điểm của
người dùng đối với các sản phẩm mới, và tư vấn top k sản
phẩm có giá trị dự đoán cao nhất cho người dùng. Do tính
chất thưa thớt của ma trận đánh giá làm cho việc xác định
mức độ tương tự giữa các cặp người dùng kém chính xác.
Điều này sẽ ảnh hưởng trực tiếp đến việc xác định tập láng


14

giềng và kết quả dự đoán các sản phẩm mới cho người dùng
cần được tư vấn. Để khắc phục điều này, với mỗi người
dùng iUem xây dựng tập Si được định nghĩa theo công
thức để giám sát việc tính toán mức độ tương tự giữa các
cặp người dùng.

2.3.2. Bán giám sát tập đánh giá sản phẩm cùng
tập đặc trưng người dùng
Hệ tư vấn lai được xác định theo cho phép ta dễ dàng
triển khai các phương pháp lọc cộng tác dựa vào sản phẩm.

Phương pháp được tiến hành thông qua 4 bước: tính toán
mức độ tương tự giữa các cặp sản phẩm, xác định tập láng
giềng cho sản phẩm cần tư vấn, dự đoán quan mức độ phù
hợp của sản phẩm đối với mỗi người dùng và tư vấn top k
sản phẩm có giá trị dự đoán cao nhất cho người dùng. Do
tính chất thưa thớt của ma trận đánh giá làm cho việc xác
định mức độ tương tự giữa các cặp sản phẩm kém chính
xác. Điều này sẽ ảnh hưởng trực tiếp đến việc xác định tập
láng giềng của sản phẩm và kết quả dự đoán mức độ phù
hợp của người dùng đối với sản phẩm. Để khắc phục điều
này, với mỗi sản phẩm xPem xây dựng tập Sx được định
nghĩa theo công thức để giám sát việc tính toán mức độ


15

tương tự giữa các cặp sản phẩm. Trong đó, Ux và Tx được
xác định theo công thức.

2.3.3. Thuật toán học bán giám sát cho lọc kết
hợp
Phương pháp bán giám sát theo đánh giá người dùng
cùng tập đặc trưng sản phẩm cho phép ta phát hiện những
sản phẩm mới phù hợp nhất đối với mỗi người dùng.
Phương pháp bán giám sát theo đánh giá sản phẩm cùng tập
đặc trưng người dùng cho phép ta phát hiện những người
dùng mới phù hợp nhất đối với mỗi sản phẩm. Chúng ta xây
dựng thuật toán học bán giám sát đồng thời để xử lý quá
trình chuyển giao kết quả dự đoán giữa quá trình bán giám
sát từ tập đánh giá người dùng cùng tập đặc trưng sản phẩm

đến quá trình bán giám sát từ tập đánh giá sản phẩm cùng
tập đặc trưng người dùng. Thuật toán được mô tả chi tiết
như trong Hình 1.
Thuật toán học bán giám sát ký hiệu là Semi-Learning
thực hiện tuần tự thông qua ba bước: bước khởi tạo, bước
lặp và tạo nên tư vấn.


16

Chương 3 - THỬ NGHIỆM VÀ ĐÁNH
GIÁ
Chương này trình bày phương pháp thử nghiệm các
thuật toán đã nêu trong chương 1 và chương 2. Dựa trên kết
quả thử nghiệm đưa ra so sánh và đánh giá về tính chính
xác, hiệu quả của các thuật toán.

3.1. Dữ liệu thử nghiệm
Thuật toán lọc cộng tác được thử nghiệm trên các bộ
dữ liệu MovieLens của nhóm nghiên cứu GroupLens thuộc
trường đại học Minnesota. Bộ dữ liệu thứ nhất ml-100K bao
gồm 100.000 đánh giá của 943 người dùng cho 1682 phim.
Giá trị đánh giá được thực hiện từ 1 đến 5. Mức độ thưa
thớt dữ liệu đánh giá là 98.7%. Bộ dữ liệu thứ hai ml-1M
bao gồm 1.000.000 đánh giá của 6.000 người dùng cho
4.000 phim. Bộ dữ liệu thứ ba ml-10M bao gồm 10.000.000
đánh giá của 72000 người dùng.

3.2. Phương pháp thử nghiệm
Thử nghiệm 1: Trước tiên, toàn bộ dữ liệu thử nghiệm

được chia thành hai phần, một phần Utr được sử dụng làm
dữ liệu huấn luyện, phần còn lại Ute được sử dụng để kiểm
tra. Tập Utr chứa 75% đánh giá và tập Ute chứa 25% đánh


17

giá. Dữ liệu huấn luyện được sử dụng để xây dựng mô hình
theo thuật toán mô tả ở trên. Với mỗi người dùng i thuộc
tập dữ liệu kiểm tra, các đánh giá (đã có) của người dùng
được chia làm hai phần Oi và Pi. Oi được coi là đã biết,
trong khi đó Pi là đánh giá cần dự đoán từ dữ liệu huấn
luyện và Oi.
Sai số dự đoán MAEu với mỗi khách hàng u thuộc tập
dữ liệu kiểm tra được tính bằng trung cộng sai số tuyệt đối
giữa giá trị dự đoán và giá trị thực đối với tất cả mặt hàng
thuộc tập Pu.
MAE u 

1
Pu

 rˆ

u

y

 ry


u

yPu

Sai số dự đoán trên toàn tập dữ liệu kiểm tra được tính
bằng trung bình cộng sai số dự đoán cho mỗi khách hàng
thuộc Ute.

MAE 

 MAE

u

uU te

U te

Giá trị MAE càng nhỏ càng tốt, tức là phương pháp
càng chính xác.


18

Thử nghiệm 2: Trước tiên, toàn bộ dữ liệu thử nghiệm
được chia thành hai phần, một phần Utr được sử dụng làm
dữ liệu huấn luyện, phần còn lại Ute được sử dụng để kiểm
tra. Tập Utr chứa 80% đánh giá và tập Ute chứa 20% đánh
giá. Dữ liệu huấn luyện được sử dụng để xây dựng mô hình
theo thuật toán mô tả ở trên. Với mỗi người dùng i thuộc

tập dữ liệu kiểm tra, các đánh giá (đã có) của người dùng
được chia làm hai phần Oi và Pi. Oi được coi là đã biết,
trong khi đó Pi là đánh giá cần dự đoán từ dữ liệu huấn
luyện và Oi.
Sai số dự đoán MAEu với mỗi khách hàng u thuộc tập
dữ liệu kiểm tra được tính bằng trung cộng sai số tuyệt đối
giữa giá trị dự đoán và giá trị thực đối với tất cả mặt hàng
thuộc tập Pu.
𝑀𝐴𝐸𝑢 =

1
|𝑃𝑢 |

∑𝑦∈𝑃𝑢 |𝑟̂𝑢𝑦 − 𝑟𝑢𝑦 |

Sai số dự đoán trên toàn tập dữ liệu kiểm tra được tính
bằng trung bình cộng sai số dự đoán cho mỗi khách hàng
thuộc Ute. Giá trị MAE nhỏ thì phương pháp dự đoán có độ
chính xác cao.
𝑀𝐴𝐸 =

∑𝑢∈𝑈𝑡𝑒 𝑀𝐴𝐸𝑢
|𝑈𝑡𝑒 |


19

3.3. So sánh và kết quả
Phương pháp Co-Training-UserBased (ký hiệu là CoUserBased) được so sánh với những phương pháp sau:
- Phương pháp UserBased sử dụng độ tương quan

Pearson. Đây là phương pháp lọc cộng tác dựa trên người
dùng đã được trình bày trong Mục 2.1.
- Phương pháp ItemBased sử dụng độ tương quan
Pearson. Đây là phương pháp lọc cộng tác dựa trên sản
phẩm người dùng đã được trình bày trong Mục 2.1.
- Trong trường hợp dữ liệu tương đối đầy đủ, cụ thể
là khi biết trước nhiều đánh giá của người dùng trong tập
kiểm tra, phương pháp Co-Training-UserBased và CoTraining-ItemBased cho lại kết quả tương đương nhau. Tuy
nhiên, khi dữ liệu ít đi, cụ thể là khi chỉ biết trước 5 hoặc
10 đánh giá của người dùng kiểm tra thì trong đa số trường
hợp, Co-Training-ItemBased cho sai số MAE nhỏ hơn so
với Co-Training-UserBased. Lý do chủ yếu là do lực lượng
của tập Cx xác định theo lớn hơn lực lượng của tập Si xác
định theo. Điều này cho phép dự đoán các nhãn phân loại
bổ sung vào quá trình huấn luyện theo người dùng tốt hơn.


20

Phương pháp học bán giám sát được thử nghiệm và so
sánh với những phương pháp sau:
- Phương pháp KNN dựa vào người dùng sử dụng độ
tương quan Pearson (ký hiệu là CF-UserBased). Đây là
phương pháp tư vấn cộng tác chuẩn dựa vào người dùng
được đề xuất trong.
- Phương pháp KNN dựa vào sản phẩm sử dụng độ
tương quan Pearson (ký hiệu là CF-ItemBased). Đây là
phương pháp tư vấn cộng tác chuẩn dựa vào sản phẩm được
đề xuất.
- Phương pháp KNN dựa vào hồ sơ người dùng sử

dụng độ tương quan Pearson (ký hiệu là CBF-UserBased).
Đây là phương pháp tư vấn dựa vào việc so sánh mức độ
tương tự giữa hai hồ sơ người dùng được đề xuất.
- Phương pháp KNN dựa vào hồ sơ sản phẩm sử dụng
độ tương quan Pearson (ký hiệu là CBF-ItemBased). Đây
là phương pháp tư vấn dựa vào việc so sánh mức độ tương
tự giữa hai hồ sơ sản phẩm được đề xuất.
- Phương pháp tư vấn kết hợp KNN dựa vào người
dùng và tập đặc trưng sản phẩm sử dụng độ tương quan
Pearson (ký hiệu là Hybrid-UserBased). Đây là phương


21

pháp tư vấn kết hợp dựa vào độ tương quan Pearson được
đề xuất.
- Phương pháp tư vấn kết hợp dựa theo sản phẩm và
tập đặc trưng người dùng sử dụng độ tương quan Pearson
(ký hiệu là Hybrid-ItemBased). Đây là phương pháp tư vấn
kết hợp dựa vào độ tương quan Pearson được đề xuất.
Phương pháp Hybrid-UserBased cho lại giá trị MAE
thấp hơn nhiều so với phương pháp CBF-UserBased và CFUserBased. Cụ thể ứng với số lượng đánh giá biết trước
trong tập kiểm tra là 5, 10, 15, 20 thì phương pháp CBFUserBased và CF-UserBased cho lại giá trị MAE lần lượt
là 0.865, 0.859, 855, 0.835 và 0.824, 0.817, 0.821, 0.813 so
với 0.793, 0.792, 0.791, 702 của phương pháp HybridUserBased. Phương pháp Hybrid-ItemBased cũng cho lại
giá trị MAE thấp hơn so với phương pháp CBF-ItemBased
và CF-ItemBased. Với số lượng đánh giá biết trước trong
tập kiểm tra là 5, 10, 15, 20 thì phương pháp CBFItemBased và CF-ItemBased cho lại giá trị MAE lần lượt
là 0.894, 0.833, 875, 0.845 và 0.846, 0.841, 0.836, 0.815 so
với 0.798, 0.788, 0.782, 0.695 của phương pháp HybridItemBased. Điều này chỉ có thể lý giải phương pháp tính



22

toán mức độ tương tự giữa các cặp người dùng trên tập đánh
giá người dùng cùng các đặc trưng sản phẩm chính xác hơn
so với phương pháp tính toán mức độ tương tự giữa các cặp
người dùng chỉ dựa vào đánh giá người dùng hoặc hồ sơ
người dùng. Phương pháp tính toán mức độ tương tự giữa
các cặp sản phẩm trên tập đánh giá sản phẩm cùng các đặc
trưng người dùng chính xác hơn so với phương pháp tính
toán mức độ tương tự giữa các cặp sản phẩm chỉ dựa vào
đánh giá sản phẩm hoặc hồ sơ sản phẩm.
Phương pháp Semi-Learning cho lại giá trị MAE thấp
nhất ở tất cả các mức độ thưa thớt dữ liệu khác nhau. Đối
với tập dữ liệu kiểm tra chỉ có 5 đánh giá biết trước, phương
pháp Hybrid-UserBased và Hybrid-ItemBased cho lại giá
trị MAE lần lượt là 0.793, 0.798 so với 0.672 của phương
pháp Semi-Learning. Với tập dữ liệu kiểm tra chỉ có 10
đánh giá biết trước, phương pháp Hybrid-UserBased và
Hybrid-ItemBased cho lại giá trị MAE lần lượt là 0.792,
0.788 so với 0.629 của phương pháp Semi-Learning. Với
tập dữ liệu kiểm tra chỉ có 15 đánh giá biết trước, phương
pháp Hybrid-UserBased và Hybrid-ItemBased cho lại giá
trị MAE lần lượt là 0.791, 0.782 so với 0.617 của phương


23

pháp Semi-Learning. Đặc biệt, với tập dữ liệu kiểm tra có

20 đánh giá biết trước, phương pháp cho lại giá trị MAE là
0.585. Điều này có thể khẳng định phương pháp xác định
độ tương tự dựa trên tập không thưa đối với người dùng và
sản phẩm là hoàn toàn tin cậy. Phương pháp chuyển giao
kết quả dự đoán giữa quá trình bán giám sát tập đánh giá
người dùng cùng tập đặc trưng sản phẩm và tập đánh giá
sản phẩm cùng tập đặc trưng người dùng đã hạn chế hiệu
quả vấn đề dữ liệu thưa của các phương pháp lọc.


24

KẾT LUẬN
Luận văn đã trình bày mô hình kết hợp giữa lọc cộng
tác với lọc nội dung bằng cách tích hợp các đặc trưng sản
phẩm, đặc trưng người dùng vào lọc cộng tác để tận dụng
được lợi thế của cả hai phương pháp. Dựa trên cách kết hợp
này luận văn đã trình bày các thuật toán lọc kết hợp dựa
trên người dùng, lọc kết hợp dựa trên sản phẩm. Đặc biệt là
phương pháp đồng huấn luyện cho mô hình kết hợp này.
Phương pháp đồng huấn luyện cho mô hình kết hợp về cơ
sở cũng dựa trên mô hình đồng huấn luyện của lọc cộng tác,
nó kết hợp hai cách quan sát: quan sát theo người dùng và
quan sát theo sản phẩm để huấn luyện bộ dữ liệu đánh giá.
Tuy nhiện mô hình đồng huấn luyện mới khác ở mô hình
cũ là sử dụng bộ dữ liệu đánh giá sau khi đã kết hợp với các
đặc trưng của sản phẩm hoặc đặc trưng của người dùng.
Trong thử nghiệm ban đầu cho thấy:
- Các phương pháp lọc kết hợp dựa trên người dùng
đều tốt hơn so với phương pháp lọc cộng tác dựa vào người

dùng.


×