Tải bản đầy đủ (.doc) (60 trang)

ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌCĐề tài NGHIÊN CỨU THUẬT TOÁN RBM TRONGDEEP LEARNING CHO HỆ LỌC CỘNG TÁC VÀVIẾT CHƯƠNG TRÌNH MÔ PHỎNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.26 MB, 60 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG

KHOA CƠNG NGHỆ THÔNG TIN I
--------

ĐỒ ÁN
TỐT NGHIỆP ĐẠI HỌC
Đề tài: NGHIÊN CỨU THUẬT TOÁN RBM TRONG
DEEP LEARNING CHO HỆ LỌC CỘNG TÁC VÀ
VIẾT CHƯƠNG TRÌNH MƠ PHỎNG

Giảng viên hướng dẫn: ThS. TRỊNH THỊ VÂN ANH
Sinh viên thực hiện: NGUYỄN ĐĂNG KHIÊM
Lớp: D11CNPM4
Khóa: 2011 - 2016
Hệ: CHÍNH QUY

Hà Nội, tháng 11 năm 2015


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

LỜI CẢM ƠN
Sau một thời gian dài được học tập, thực tập tại trường em cũng đã hồn
thành đồ án tốt nghiệp cuối khóa.
Lời đầu tiên cho em được phép gửi tới cô giáo ThS. Trịnh Thị Vân Anh –
giảng viên Khoa Công nghệ Thông tin I tại Học viện Cơng nghệ Bưu chính Viễn
thơng lời cảm ơn sâu sắc và chân thành nhất, cảm ơn cơ đã chỉ bảo, đơn đốc để em
có thể hồn thành bài đồ án tốt nghiệp của mình. Một cơ giáo đối với em là vơ cùng
nhiệt tình, cá tính, và năng động.
Em cũng xin gửi lời cảm ơn tới tồn thể các thầy, các cơ trong khoa đã hết


lịng dạy dỗ em trong q trình học tập tại trường. Mỗi thầy, mỗi cơ có những nét
đặc biệt. Đằng sau sự nghiêm khắc như mặc định là “luật” những “lệnh” là sự tâm
huyết của các thầy, các cơ vì kỹ năng, kiến thức và sự chuyên nghiệp thế hệ trẻ
tương lai. Ai từng là sinh viên của thầy cô cũng sẽ có những cảm nhận riêng, nhưng
đối với em. Thầy cô tuyệt vời lắm ạ!. Thầy cô giúp em trang bị được một khối kiến
thức và kinh nghiệm quý báu trong chuyên môn, cuộc sống để làm hành trang bước
vào đời.
Con xin gửi lời cảm ơn chân thành đến bố mẹ, ba anh trai và chị gái, đại gia
đình những người ln quan tâm, chăm sóc cho con cả về vật chất lẫn tinh thần,
luôn tạo điều kiện tốt nhất cho con để con có thể chuyên tâm học tập, nghiên cứu.
Nơi là nguồn động viên, tìm bến đỗ khi mệt mỏi là chỗ dựa vững chắc nhất cho con.
Cuối cùng, xin cảm ơn tất cả bạn bè đặc biệt những người đã đồng hành với
tôi trên suốt chặng đường vừa qua, những người đã giúp đỡ, khích lệ cũng như phê
bình góp ý giúp tơi hồn thành khóa luận thuận lợi nhất. Các bạn đã cho tơi những
tình cảm quý giá và thiêng liêng nhất, tôi sẽ không bao giờ quên.
Xin chân thành cảm ơn!.
Hà Nội, tháng 11 năm 2015
Nguyễn Đăng Khiêm


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

NHẬN XÉT
(Của giảng viên phản biện)
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………

………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
….
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
….
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
…………………………………………………………………………………
Điểm: …………………Bằng chữ:……………………………………….
……….., ngày….tháng ….năm 2015
CÁN BỘ- GIẢNG VIÊN PHẢN BIỆN
(Ký, ghi rõ họ tên)

.


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC


NHẬN XÉT, ĐÁNH GIÁ, CHO ĐIỂM
(Của người hướng dẫn)
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
….
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
….
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
…………………………………………………………………………………
Điểm: …………………Bằng chữ:……………………………………….

Đồng ý cho sinh viên bảo vệ trước hội đồng chấm đồ án tốt nghiệp.
……….., ngày….tháng ….năm 2015
CÁN BỘ- GIẢNG VIÊN HƯỚNG DẪN
(Ký, ghi rõ họ tên)

.

.


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

MỤC LỤC
MỤC LỤC..................................................................................................................................i
DANH MỤC CÁC HÌNH.......................................................................................................ii
DANH MỤC CÁC BẢNG......................................................................................................ii
PHẦN MỞ ĐẦU.......................................................................................................................1
CHƯƠNG 1: GIỚI THIỆU KỸ THUẬT LỌC CỘNG TÁC TRONG HỆ TƯ VẤN....1
1.3. Phân loại hệ thống tư vấn...........................................................................................................4
1.3.1. Phương pháp tư vấn dựa trên nội dung.............................................................................4
1.3.2. Phương pháp tư vấn dự trên kỹ thuật lọc cộng tác..........................................................10
1.3.3. Tư vấn dựa trên cách tiếp cận kết hợp.............................................................................16
1.4. Kết luận.....................................................................................................................................18

CHƯƠNG 2 MÁY HẠN CHẾ BOTLZMANN (RBMs) TRONG LỌC CỘNG TÁC. 19
CHƯƠNG 3 CÀI ĐẶT BÀI TOÁN.....................................................................................31

i



ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

DANH MỤC CÁC HÌNH

DANH MỤC CÁC BẢNG

ii


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

DANH MỤC CÁC CHỮ VIẾT TẮT
STT

Ký hiệu

Tiếng Anh

Tiếng Việt

1

BM

Botlzmann Machine

Máy Botlzmann

2


RBM

Restrict Botlzmann Machine

Máy hạn chế Botlzmann

3

CF

Collarborative Filter

Lọc cộng tác

4

v

visible unit

Nút hiện

5

h

hidden unit

Nút ẩn


6

RMSE

Root Mean Squared Error

Căn bậc hai của trung
bình bình phương sai số

7

CD

Contrastive Divergence

Phân kỳ tương phản

8

E

Energy function

Hàm năng lượng

9

u

user


Người dùng

10

DL

Deep Learning

Học sâu

11

ML

Machine Learning

Học máy

iii


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

PHẦN MỞ ĐẦU
Sự phát triển của Internet đã mở ra cho con người rất nhiều cơ hội và thách thức.
Thương mại điện tự ra đời và phát triển mạnh mẽ. Tất cả các sản phẩm, mặt hàng
đều có thể được trao đổi, mua bán trên mạng. Với mỗi từ khóa được tìm kiếm,
khách hàng có được một lượng lớn danh sách các sản phẩm có vẻ phù hợp. Danh
sách đó có thể lên tới hàng trăm, hàng nghìn sản phẩm có liên quan đến tìm kiếm.

Vấn đề là chúng ta chỉ cần một lượng sản phẩm vừa phải trong số những sản phẩm
đó, và khơng muốn bỏ thêm những chi phí tìm kiếm khác để có được những sản
phẩm đúng mong muốn hơn. Chính vì vậy mà hệ thống tư vấn ra đời nhằm mang
đến những lựa chọn phù hợp nhất, gần nhất với mong muốn của người dùng. Ngày
nay, hệ thống tư vấn được nghiên cứu và áp dụng trong rất nhiều lĩnh vực như tư
vấn phim, tư vấn âm nhạc, tư vấn sách…. Ví dụ như ở hệ thống tư vấn Amazon, các
sản phẩm gợi ý cho người dùng hầu hết xuất phát từ việc sử dụng thuật toán tư vấn
[7], khách hàng mua một mặt hàng A sẽ được giới thiệu mặt hàng B. Hay hệ giới
thiệu phim (ở Netfix (Netflix[12] nổi tiếng với hệ thống giới thiệu phim Cinematch
và là dịch vụ truyền hình qua Internet với nội dung chủ yếu là phim và các show
truyền hình đã thu hút tỷ giờ xem rất lớn vượt xa các hãng truyền hình cable truyền
thống), MovieLens), giới thiệu âm nhạc (tại Last.fm). Như vậy, hệ tư vấn là một
lĩnh vực rất được chú trọng và đang được nghiên cứu cả trong ngành và trong giới
học thuật.
Một số cơng ty có mơ hình kinh doanh hầu hết dựa vào hệ tư vấn mà họ sử
dụng. Cho thuê DVD tại công ty Netlfix là một trong những ví dụ nổi bật nhất [10].
Là CEO của Netlfix, Reed Hastings nói: ”Người dân có ít thời gian để nhận thức
được họ muốn chọn một bộ phim ”. Năm 2000, Netflix giới thiệu Cinematch, hệ
thống giới thiệu của riêng mình. Phiên bản đầu tiên làm việc rất kém nhưng nó được
cải thiện theo thời gian khi các lập trình viên thử những ý tưởng mới và tinh chỉnh
các thuật toán của họ. Điều thú vị là hệ thống không chỉ đơn giản là đề xuất các bộ
phim bom tấn mới nhất mà ngược lại, các phim nhỏ hơn hoặc độc lập thường được
đề xuất cho người dùng. Hệ thống tư vấn giúp người dùng tìm thấy những gì mò họ

SVTH: Nguyễn Đăng Khiêm _D11CNPM4

1


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC


muốn và đồng nghĩa rằng công ty sẽ tiêu thụ nhiều sản phẩm hơn. Điều mà Netlfix
rất coi trọng trong quá trình kinh doanh của họ.
Lọc cộng tác (Collaborative Filtering) là một trong những kỹ thuật lọc thơng tin
trong hệ tư vấn. Nó khai thác những khía cạnh liên quan đến thói quen sử dụng sản
phẩm của cộng đồng người dùng có cùng sở thích để tạo nên tư vấn.
Với sự có mặt ngày càng nhiều khách hàng và sản phẩm, hệ thống tư vấn đang
phải đối mặt với việc tư vấn mỗi giây cho hàng triệu khách hàng và sản phẩm. Đồng
thời, chất lượng của các đề xuất phải đủ cao, đủ tin tưởng để giúp người dùng tìm
thấy bất kỳ điều gì giống như mong muốn của họ. Hầu hết các thuật toán cho hệ tư
vấn đã không được xây dựng để phù hợp với dữ liệu lớn, người dùng mới, sản phẩm
mới, thưa thớt dữ liệu đánh giá của người dùng khi đó có thể gián tiếp ảnh hưởng
đến chất lượng tư vấn.
Đề tài: “Nghiên cứu giải thuật RBMs trong Deep Learning cho hệ lọc cộng
tác và viết chương trình mơ phỏng” sẽ góp phần nào đó trong việc giải quyết
những vấn đề cịn tồn tại của lọc thơng tin cho các hệ tư vấn.
Đồ án được chia làm ba chương, trong đó:
Chương 1. Giới thiệu kỹ thuật lọc cơng tác trong hệ tư vấn
Giới thiệu về hệ tư vấn, bài toán trong hệ tư vấn, phân loại hệ tư vấn, cụ thể là tư
vấn dựa trên nội dung và lọc cộng tác. Mơ tả các vấn đề cịn tồn tại trong lọc cộng
tác.
Chương 2. Máy hạn chế Botlzmann (RBMs) trong lọc cơng tác
Mơ hình, huấn luyện, và dự đốn về giải thuật máy Botlzmann (Botlzmann
Machine), máy hạn chế Botlzmann (Restricted Boltzmann Machine), máy hạn chế
Botlzmann (RBM’s) trong lọc cộng tác, cách giải thuật giải quyết trong bài toán lọc
cộng tác.
Chương 3. Cài đặt bài toán
Xác định bài toán, xây dựng hệ thống mà giải thuật sử dụng trong bài tốn, và
mơ tả dữ liệu trước khi đồ án sử dụng để cài đặt thực nghiệm, môi trường cài đặt,
kết quả và đánh giá độ chính xác của thuật tốn.

Cuối cùng là kết luận và tài liệu tham khảo
SVTH: Nguyễn Đăng Khiêm _D11CNPM4

2


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

CHƯƠNG 1: GIỚI THIỆU...

CHƯƠNG 1: GIỚI THIỆU KỸ THUẬT LỌC CỘNG TÁC
TRONG HỆ TƯ VẤN
1.1 Hệ thống tư vấn
1.1.1 Giới thiệu chung
Hệ thống tư vấn (Recommender Systems -RSs) là những công cụ hay kỹ thuật phần
mềm cung cấp các gợi ý về các sản phẩm cho người dùng. Các gợi ý này liên quan
đến quá trình ra quyết định về loại sản phẩm cần mua, loại âm nhạc cần nghe, hoặc
tin tức cần đọc,...
Vào giữa thập niên 1990, hệ thống tư vấn được xem như là một lĩnh vực nghiên cứu
độc lập khi bắt đầu tập trung vào những vấn đề liên quan đến tư vấn mà phụ thuộc
rõ ràng những cấu trúc trọng số. Trong hầu hết các trường hợp, tư vấn được đưa về
việc đánh giá trọng số cho những sản phẩm mà người dùng chưa chọn lựa (sử dụng)
Trong hình thức đơn giản nhất, các tư vấn mang tính cá nhân hóa cung cấp một
danh sách các sản phẩm đã được xếp hạng. Để thực hiện việc xếp hạng này, hệ
thống tư vấn cố gắng dự đoán các sản phẩm hoặc dịch vụ phù hợp nhất dựa trên sở
thích của người dùng. Để hồn thành một cơng việc như thế, hệ thống tư vấn thu
thập sở thích của các người dùng, bằng cách dựa trên các xếp hạng của họ về các
sản phẩm hoặc được suy diễn từ các hành động của người dùng. Ví dụ, một hệ
thống tư vấn có thể xem xét việc một người dùng xem thông tin trên website của
một trang sản phẩm như là một dấu hiệu ngầm định về sở thích của người đó đối

với sản phẩm trên trang đó.
Ví dụ minh họa hoạt động của một hệ thống tư vấn: Một người dùng đăng nhập vào
một hệ thống website đọc sách, người này cần xem một quyển sách về văn học
nhưng không biết là nên xem quyển sách nào, hệ thống website cần tư vấn cho
người đó xem một hoặc vài quyển sách mà dự đốn rằng người này sẽ thích quyển
sách mà được hệ thống tư vấn. Để tư vấn được cho người dùng, hệ thống cần thu
thập các thông tin về người dùng và các người dùng khác, thu thập thông tin các
quyển sách. Có một vài cách tư vấn truyền thống đơn giản nhất như, chọn những
quyển sách được nhiều người ưa thích nhất, hoặc chọn những quyển mới nhất để tư
vấn. Tuy nhiên để nâng cao chất lượng của tư vấn cho người dùng, hệ thống tư vấn

SVTH: Nguyễn Đăng Khiêm _D11CNPM4

1


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

CHƯƠNG 1: GIỚI THIỆU...

cần sử dụng các thông tin của tất cả những người dùng và thông tin của tất cả các
sản phẩm, sử dụng các thuật toán để đưa ra tư vấn phù hợp nhất cho người dùng.

Hình 1. 1: Minh họa hệ thống tư vấn sách cho người đọc

1.1.2 Ứng dụng của hệ tư vấn
Phạm vi ứng dụng của hệ thống tư vấn lựa chọn là rất rộng. Trong thương mại điện
tử, hầu hết các hệ thống này là các hệ thống bán sách, giới thiệu phim, tin tức, đĩa
CD ca nhạc, các trang Web...
-


Phim: Netflix, Firefly, MovieCritic, MovieLens, Mangarate, Morse

-

Âm nhạc: Firefly, CdNow

-

Sách: Amazon, Barnes&Noble

-

Web: Webwatcher, Webfilter, Webwasher, Select, Webdoggie, Gustos

-

Tin tức: Shift, Infoscan, NewsSieve, Borger, RAMA, GroupLens.

-

Thương mại điện tử: TripMatcher (du lịch), ShopMatcher, E-Markets

1.2 Bài toán tư vấn
Theo Adomavicius và Tuzhilin trong [7], trong hầu hết các trường hợp, bài toán tư
vấn được coi là bài toán ước lượng đánh giá (rating) của các sản phẩm (phim, cd,
sách, nhà hàng,…) chưa được người dùng xem xét. Việc ước lượng này thường dựa
trên các đánh giá đã có của chính người dùng đó hoặc những người dùng khác.

SVTH: Nguyễn Đăng Khiêm _D11CNPM4


2


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

CHƯƠNG 1: GIỚI THIỆU...

Những sản phẩm có hạng cao nhất sẽ được dùng để tư vấn. Một cách hình thức, bài
tốn tư vấn được mơ tả như sau:
-

Gọi U là tập các người dùng (Users) của hệ thống.

-

Gọi I là tồn bộ khơng gian đối tượng sản phẩm (Items).

-

Hàm r(u,i) là đánh giá (độ phù hợp) của người dùng u với sản phẩm i.

 Vậy bài toán là sự ánh xạ r: UxI  R. Trong đó R chính là tập hợp các đối
tượng được đưa ra giới thiệu. Tập R sẽ được sắp xếp theo thứ tự giảm dần
của r. Cơng việc chính của giải thuật là đi tìm giá trị hàm r = f(u, i), với r lớn
nhất là sản phẩm i được người dùng u ưa thích nhất.
Trong hệ thống tư vấn, độ phù hợp của một sản phẩm thường được cho bằng điểm.
Ví dụ người dùng A đánh giá bộ phim Walking dead được điểm 7/10. Tuy nhiên,
nhìn chung độ phù hợp có thể là một hàm bất kì tùy thuộc vào ứng dụng cụ thể. Giá
trị của r có thể được xác định bởi người dùng hoặc được tính tốn bởi cơng thức nào

đó. Mỗi người dùng trong khơng gian U được xác định bởi một hồ sơ (profile). Hồ
sơ này có thể gồm rất nhiều loại thơng tin: tuổi, giới tính, thu nhập, … hoặc có thể
chỉ gồm một mã người dùng (user id) duy nhất. Tương tự, mỗi sản phẩm trong
không gian I cũng được xác định bởi một tập các đặc trưng. Ví dụ, trong hệ thống tư
vấn phim, đặc trưng của mỗi bộ phim có thể là : tên phim, thể loại, đạo diễn, năm
sản xuất, diễn viên chính … Vấn đề chính của hệ thống tư vấn là r khơng được xác
định trên tồn khơng gian U × I mà chỉ trên một miền nhỏ của khơng gian đó. Điều
này dẫn tới việc hàm r phải được ngoại suy trong khơng gian U × I. Thông thường,
độ phù hợp được thể hiện bằng điểm và chỉ xác định trên tập các sản phẩm đã từng
được người dùng đánh giá từ trước. Ví dụ, bảng 1.1 mô tả đánh giá của một số
người dùng với các phim mà họ đã xem (thang điểm từ 1-5, kí hiệu Ø nghĩa là bộ
phim chưa được người dùng đánh giá). Từ những thơng tin đó, hệ thống tư vấn phải
dự đoán điểm cho các bộ phim chưa được người dùng đánh giá, từ đó đưa ra những
gợi ý phù hợp nhất.

SVTH: Nguyễn Đăng Khiêm _D11CNPM4

3


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

CHƯƠNG 1: GIỚI THIỆU...

Bảng 1. 1: Minh họa đánh giá của người dùng về 1 số bộ phim đã xem

Walking dead

X-Men


Iron Man

Spider Man

User A

3

Ø

2

Ø

User B

4

2

Ø

Ø

User C

Ø

4


4

5

1.3. Phân loại hệ thống tư vấn
Có rất nhiều cách để dự đoán, ước lượng hạng /điểm cho các sản phẩm như sử dụng
học máy, lí thuyết xấp sỉ, các thuật toán dựa trên kinh nghiệm … Theo [1], các hệ
thống tư vấn thường được phân thành ba loại:
-

Tư vấn dựa trên nội dung: Người dùng sẽ được tư vấn những sản
phẩm tương tự với những sản phẩm đã được người dùng đó ưa thích
trước đây.

-

Tư vấn dựa trên cộng tác: Người dùng sẽ được tư vấn những sản
phẩm được ưa chuộng xuất phát từ những người dùng có cùng thị hiếu
và sở thích với mình.

-

Tư vấn dựa trên cách tiếp cận kết hợp: Kết hợp hai phương pháp tiếp
cận dựa trên nội dung và cộng tác.

1.3.1. Phương pháp tư vấn dựa trên nội dung
Với phương pháp tư vấn dựa trên nội dung, độ phù hợp r(u,i) của sản phẩm i với
người dùng u được đánh giá dựa trên độ phù hợp r(u,i’) trong đó i’ ∈ I và “tương
tự” như i. Ví dụ, để gợi ý một bộ phim cho người dùng u, hệ thống tư vấn sẽ tìm các
đặc điểm của những bộ phim từng được u đánh giá cao như diễn viên, đạo diễn …

sau đó chỉ những bộ phim tương đồng với sở thích của u mới được giới thiệu.
Hướng tiếp cận dựa trên nội dung bắt nguồn từ những nghiên cứu về thu thập thông
tin (Information Retrieval) và lọc thơng tin (Information Filtering). Do đó, rất nhiều
hệ thống dựa trên nội dung hiện nay tập trung vào tư vấn các đối tượng chứa dữ liệu
văn bản như tin tức, website. Những tiến bộ so với hướng tiếp cận cũ của IR là do
việc sử dụng hồ sơ về người dùng (chứa thông tin về sở thích, nhu cầu,..). Hồ sơ
này được xây dựng dựa trên những thông tin được người dùng cung cấp trực tiếp

SVTH: Nguyễn Đăng Khiêm _D11CNPM4

4


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

CHƯƠNG 1: GIỚI THIỆU...

(khi trả lời khảo sát) hoặc gián tiếp (do khai phá thông tin từ các giao dịch của
người dùng).

Hình 1. 2: Minh họa phương pháp tư vấn dựa trên lọc nội dung

Giả sử ta xem Content(i) là một thông tin riêng của sản phẩm, nghĩa là một tập các
đặc tính đặc trưng cho sản phẩm i. Nó thường được tính tốn thơng qua việc trích
rút từ tập các đặc tính của sản phẩm i (nội dung của nó) và ứng với mỗi mục đích tư
vấn sẽ xác định ra sản phẩm thích hợp. Dễ dàng nhận thấy những hệ thống tư vấn
dựa trên nội dung thường thiết kế cho hầu hết những sản phẩm được tư vấn dựa trên
text (văn bản) và nội dung của những hệ thống này được mô tả như là một từ khóa
(keyword). Chẳng hạn, thành phần của hệ thống Fab.com dựa trên nội dung tư vấn
trang Web cho người dùng, trình bày nội dung trang Web đó với 100 từ quan trọng

nhất. “Tầm quan trọng” (việc cung cấp nhiều thông tin) của từ kj trong tài liệu dj
được xác định bằng độ đo trọng số w ij định nghĩa qua một vài phương pháp khác
nhau.
Một trong những thước đo phổ biến để xác định mức độ quan trọng của từ khóa
trong việc truy vấn thơng tin là đo tần suất xuất hiện của mục từ trong tài liệu (Term
Frequency) và tần số nghịch đảo của tần suất xuất hiện các tài liệu (Inverse
Document Frequency) được định nghĩa như sau: Giả sử N là tổng số tài liệu được tư
vấn cho người dùng và từ khóa k j xuất hiện trong ni của chúng (ni là tổng số tài liệu

SVTH: Nguyễn Đăng Khiêm _D11CNPM4

5


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

CHƯƠNG 1: GIỚI THIỆU...

có từ khóa k). Giả sử f i,j là số lần từ khóa k i xuất hiện trong tài liệu d j. TFi,j là tần số
xuất hiện từ khóa ki trong tài liệu dj:
TFi , j =

Trong đó:

max z f z , j

fi, j
max z f z , j

(1. 1)


là số lần xuất hiện cao nhất của từ khóa k z trong tồn tập tài

liệu dj. Tuy nhiên, những từ khóa xuất hiện trong nhiều tài liệu có thể khơng được
phân biệt với nhau giữa tài liệu liên quan và không liên quan. Vì vậy, tần số nghịch
đảo tần suất xuất hiện của các tài liệu IDFi được đưa ra để phân biệt giữa các từ
khóa này và thường dùng kết hợp với tần suất xuất hiện của từ khóa (TF i,j mang lại
tầm quan trọng cho từ khóa):
IDF = log

N
ni

(1. 2)

Vậy sự kết hợp của TF và IDF sẽ xác định mức độ quan trọng của từ khóa k i cần
xét.
wi , j = TFi , j × IDFi

(1. 3)

Và nội dung của tài liệu dj được xác định như sau:
Content (d j ) = (w1 j ,..., w kj )

(1. 4)

Như đã nói ở trên, hệ thống dựa trên nội dung thường được dùng để tư vấn những
những sản phẩm đã được người dùng đó trước đây ưa thích. Cụ thể, những sản
phẩm được tiến cử đem so sánh trọng số với các sản phẩm mà người dùng trước đây
đã sử dụng và từ đó tìm ra sản phẩm phù hợp nhất để tư vấn.

ContentBasedProfile(u) là hồ sơ cá nhân của người dùng u chứa những thị hiếu và
sở thích của người dùng. Hồ sơ cá nhân thu được thông qua việc phân tích nội dung
của những sản phẩm và trọng số do người dùng đánh giá trước đó, nó thường được
xây dựng bằng cách sử dụng kỹ thuật phân tích từ khóa từ việc truy vấn thơng tin.

SVTH: Nguyễn Đăng Khiêm _D11CNPM4

6


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

CHƯƠNG 1: GIỚI THIỆU...

Chẳng hạn, ContentBasedProfile(u) có thể được định nghĩa như là một véc-tơ của
những mức độ quan trọng (wu1, …., wuk) , mỗi mức này sẽ biểu diễn tầm quan trọng
của từ khóa ki với người dùng u và nó có thể được tính tốn từ các véc-tơ nội dung
đã được đánh trọng số cụ thể thông qua các kỹ thuật khác nhau. Ví dụ một vài
phương pháp tính trung bình cộng, tính tốn ContentBasedProfile (u) như là một
véc-tơ “trung bình” từ những véc-tơ nội dung cụ thể.
Trong những hệ thống dựa trên nội dung, hàm tiện ích r(u,i) thường được định
nghĩa như sau:
r (u,i) = Sim(ContentBaseProfile(u), content(i))

(1. 5)

Dựa trên việc truy vấn thông tin để tư vấn các trang Web, Web sites URLs hoặc các
thơng điệp tin tức Usenet, thì cả ContentBasedProfile (u) của người dùng u và
r


r

Content (i) của tài liệu i đều có thể được trình bày như các TF-IDF véc-tơ wu và wi
của các từ khóa quan trọng. Hàm r(u,i) được biểu diễn trong việc truy vấn thông tin
r

r

thường được xác định theo véc-tơ wu và wi như sau:
K

r r
w u .w i
r r
r (u,i) = cos(w u , w i ) = r
r
wu 2 × wi

=
2

∑W
j =1

K

W j ,i

j ,u


K

∑W ∑W
2
i ,u

j =1

j =1

(1. 6)
2
j ,i

Trong đó K là tổng số các từ khóa trong hệ thống.
Ví dụ, nếu user u đọc nhiều bài báo trực tuyến về chủ để Tin Sinh Học thì kỹ thuật
tư vấn dựa trên nội dung sẽ có khả năng tư vấn những bài báo khác về tin sinh học
cho user u nếu nó có nhiều thuật ngữ liên quan đến tin sinh học hơn vì vậy
r

ContentBasedProfile (u) sẽ được xác định bằng véc-tơ wu mô tả các thuật ngữ kj với
mức độ quan trọng cao wju. Hơn nữa, hệ thống tư vấn này còn sử dụng cosin hoặc
thước đo mức độ tương đồng để gán giá trị hàm r(u,i) cao cho những bài báo i có
nhiều thuật ngữ tin sinh học và giá trị hàm hàm r(u,i) thấp cho những bài báo có ít
r

thuật ngữ tin sinh học hơn thơng qua véc-tơ wi .
Bên cạnh phương pháp truy vấn thông tin mà cơ sở là dựa trên các hàm heuristic
truyền thống, tư vấn dựa trên nội dung còn sử dụng các kỹ thuật khác như phân loại
SVTH: Nguyễn Đăng Khiêm _D11CNPM4


7


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

CHƯƠNG 1: GIỚI THIỆU...

Bayes và nhiều kỹ thuật máy học khác bao gồm phân cụm, cây quyết định, và mạng
nơ-ron nhân tạo. Những kỹ thuật này khác với phương pháp dựa trên việc truy vấn
thông tin, ở đây chúng tính tốn hàm tiện ích khơng dựa trên hàm heuristic giống
như việc đánh giá độ tương quan bằng hàm cosin mà nó dựa trên các mơ hình được
biết từ dữ liệu phía dưới nhờ sử dụng các kỹ thuật máy học và thống kê. Chẳng hạn,
dựa trên tập các trang Web được đánh trọng số thể hiện mức độ liên quan đến người
dùng, sử dụng kỹ thuật phân loại Naïve Bayes để phân loại các trang Web không
được đánh trọng số. Hơn nữa, kỹ thuật phân loại Naïve Bayes thường được dùng để
đánh giá xác suất trang pj có thuộc lớp Ci khơng (có quan hệ hay khơng có quan hệ)
dựa vào tập các từ khóa k1,j ,……,kn,j trong trang đó:
P (Ci | k1, j &...& k n , j )

(1. 7)

Ngoài ra, giả thuyết rằng các khóa này độc lập với nhau vì vậy xác suất ở trên tương
ứng với:
P (Ci ∏ P (K x , j | Ci ))

(1. 8)

Mặc dù giả thuyết các từ khóa độc lập với nhau khơng nhất thiết phải áp dụng ở
nhiều ứng dụng nhưng kết quả thực nghiệm đã chứng minh kỹ thuật phân loại

Naïve Bayes vẫn đưa ra độ chính xác cao về mức độ phân loại. Hơn nữa cả P (kx,j|
Ci) và P (Ci) có thể được đánh giá từ dữ liệu hướng dẫn phía dưới. Với mỗi trang p j,
xác suất P (Ci| k1,j & …& kn,j) được tính tốn ứng với mỗi lớp C i và trang pj sẽ được
gán cho lớp Ci nếu nó có xác suất lớn nhất.
Khi việc cung cấp kỹ thuật tư vấn khơng rõ ràng thì tập truy vấn văn bản sẽ đưa ra
một vài kỹ thuật thường được sử dụng trong những hệ thống tư vấn nội dung. Một
trong số đó là kỹ thuật lọc thích ứng; nó tập trung vào việc nhận biết các tài liệu liên
quan cũng như là quan sát từng tài liệu trong những luồng tài liệu tiếp theo để tăng
thêm độ chính xác. Một ví dụ khác là đặt ngưỡng (threshold setting). Nó tập trung
vào việc xác định phạm vi tài liệu ăn khớp với những câu truy vấn được đưa ra liên
quan đến người dùng.
Theo như nhận xét Linden, Smith trong [7] hệ thống tư vấn hướng dựa trên nội
dung đưa ra một số những giới hạn sau:

SVTH: Nguyễn Đăng Khiêm _D11CNPM4

8


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

CHƯƠNG 1: GIỚI THIỆU...

- Giới hạn trong phân tích nội dung: Nếu hai sản phẩm khác nhau được
biểu diễn cùng một tập đặc trưng thì chúng khơng thể phân biệt được. Vì vậy khi
những tài liệu dựa trên văn bản thường được biểu diễn dưới những từ khóa quan
trọng, thì những hệ thống dựa trên nội dung không thể phân biệt được cái nào hợp,
cái nào không hợp nếu chúng cùng sử dụng một thuật ngữ.
- Q chun mơn hóa (Overspecialization): Khi hệ thống chỉ có thể tư vấn
những sản phẩm có trọng số cao dựa trên những thơng tin của người dùng, thì người

dùg sẽ bị giới hạn trong việc tư vấn những sản phẩm khác có liên quan sản phẩm
trên mà đã được đánh trọng số. Chẳng hạn, một người khơng có kinh nghiệm với
các món ăn của người Huế thì ngay cả những cửa hàng lớn nhất kiểu Huế trong
thành phố cũng không bao giờ được tư vấn. Đây là một vấn đề đã được nghiên cứu
trong nhiều lĩnh vực, nó thường được ấn định bằng việc giới thiệu một cách ngẫu
nhiên. Chẳng hạn, việc sử dụng những thuật toán di truyền được đề xuất như là khả
năng giải quyết các vấn đề về ngữ cảnh của việc lọc thông tin. Thêm vào đó, vấn đề
liên quan đến việc q chun mơn hóa cịn là những hệ thống dựa trên nội dung
khơng thể tư vấn những sản phẩm mà khác với những gì mà người dùng đã biết
trước đó. Trong trường hợp nào đó, những sản phẩm khơng nên được tư vấn nếu
chúng có q nhiều điểm tương đồng với những gì mà người dùng đã gặp, như một
bài báo tin tức tuy là khác nhau nhưng đưa về cùng một sự kiện. Vì vậy, một vài hệ
thống tư vấn dựa trên nội dung khơng chỉ lọc ra những sản phẩm có quá nhiều điểm
khác với sở thích của người dùng mà cịn lọc cả chính những sản phẩm có q
nhiều điểm giống của người dùng trước đó. Nói tóm lại, tính đa dạng của việc tư
vấn thường là những đặc điểm mô tả trong hệ thống tư vấn. Lý tưởng nhất là người
dùng sẽ tự đưa ra trọng số của những lựa chọn thay cho việc đưa ra một tập các khả
năng lựa chọn. Chẳng hạn, không phải là một ý kiến tuyệt vời nếu ta tư vấn tất cả
các bộ phim của Woody Allen tới người dùng mà chỉ ưa thích một trong số những
bộ phim đó.
- Vấn đề người dùng mới: Người dùng phải đánh giá đầy đủ cho những sản
phẩm trước khi hệ thống tư vấn dựa trên nội dung có thể hiểu những sở thích của
người dùng và từ đó đưa ra cho người dùng những tư vấn tin cậy. Vì vậy, với người

SVTH: Nguyễn Đăng Khiêm _D11CNPM4

9


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC


CHƯƠNG 1: GIỚI THIỆU...

dùng mới, thơng tin về việc đánh trọng số rất ít nên khó có thể đảm bảo việc tư vấn
sẽ tốt.
- Vấn đề thông tin sản phẩm mới: Lọc nội dung phân tích các đặc điểm của
sản phẩm để so sánh với những sản phẩm mà người dùng đã đánh giá trước đó, với
những sản phẩm có thơng tin khơng đầy đủ hoặc quá đặc biệt, rất khó để đưa ra 1 tư
vấn chính xác với các sản phẩm như vậy.

1.3.2. Phương pháp tư vấn dự trên kỹ thuật lọc cộng tác
Mục đích của giải thuật lọc cộng tác là gợi ý những sản phẩm mới hoặc dự đoán
một sản phẩm hợp lý cho người dùng, dựa trên những sở thích trước đây và lựa
chọn từ những sở thích của những người dùng khác.

Hình 1. 3: Minh họa phương pháp tư vấn dựa trên lọc cộng tác

Trong kịch bản điển hình của lọc cộng tác, có một danh sách m người dùng U ={u 1,
u2, … , um} và một danh sách n sản phẩm I = {i 1, i2,…, in}. Mỗi người dùng ui có
danh sách các sản phẩm Su, mà người dùng đã đánh giá về sản phẩm đó. Chú ý rằng
Su ⊆ I và Iui có thể là rỗng.

SVTH: Nguyễn Đăng Khiêm _D11CNPM4

10


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

CHƯƠNG 1: GIỚI THIỆU...


Hình 1. 4: Quy trình của hệ thơng tư vấn dựa trên lọc cộng tác

Hình 1.4 mơ tả quy trình lọc cộng tác bao gồm 2 nhiệm vụ chính là:
-

Dự đốn: cho ra giá trị Raj thể hiện đánh giá của người dùng a lên tài
nguyên j.
- Tư vấn: cho ra danh sách N tài nguyên {TiN} mà người dùng a thích nhất.
Trong phạm vi của đồ án chỉ tập trung vào phần sử dụng giải thuật trong lọc

cộng tác để dự đoán ra giá trị Raj đánh giá độ hiệu quả của thuật toán qua RMSE.
Giải thuật lọc cộng tác được mô tả thông qua một ma trận đánh giá R m x n người
dùng và sản phẩm. Mỗi phần tử ai,j trong mảng R biểu diễn đánh giá của người dùng
thứ i đối với sản phẩm thứ j. Mỗi đánh giá cá nhân là một số và nó có thể nhận giá
trị 0 khi người dùng chưa đánh giá sản phẩm đó. Các nhà nghiên cứu đã xây dựng
một số các giải thuật lọc cộng tác mà có thể chia thành 2 loại chính: dựa trên bộ nhớ
(Memory-based) và dựa trên mơ hình (Model-based).
Giải thuật lọc cơng tác dựa trên bộ nhớ (Memory-based): Giải thuật lọc cộng tác
dựa trên bộ nhớ sử dụng các cơ sở dữ liệu người dùng – sản phẩm để dự đoán.
Những hệ thống triển khai kỹ thuật thống kê để tìm những lựa chọn của người dùng,

SVTH: Nguyễn Đăng Khiêm _D11CNPM4

11


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

CHƯƠNG 1: GIỚI THIỆU...


như biết người lân cận, có lịch sử phù hợp với người dùng đích (ví dụ, người dùng
đánh giá tương tự các sản phẩm khác nhau hoặc có khuynh hướng mua những sản
phẩm tương tự nhau). Một khi lân cận của người dùng được hình thành, hệ thống sử
dụng những giải thuật khác nhau để kết hợp những sở thích của người dùng lân cận
để đề xuất một dự đoán hoặc một tư vấn top-N cho người dùng.
Theo [7], Thuật toán dựa trên bộ nhớ về căn bản sử dụng các độ do kinh nghiệm
(heuristics) để sinh ra dự đoán dựa trên tập các sản phẩm của người dùng. Cụ thể là,
đánh giá trị ru,i của người dùng u đối với sản phẩm i thường được tính tốn như là
một sự kết hợp trọng số của nhiều người dùng khác nhau với cùng một sản phẩm i
(thường là N sản phẩm giống nhau nhất):

ru ,i = aggr (ru ',i )
u∈Uˆ

(1. 9)

ˆ
Trong đó U biểu diễn tập người dùng N có trọng số về sản phẩm i giống nhất với
người dùng u (N có thể bắt đầu từ 1 đến tất cả người dùng). Một số ví dụ về đánh
giá ru,i là:

ru ,i =

1
N

∑r

u '∈U


(1. 10)

u ',i

ru ,i = k ∑ sim(u, u') × ru ',i

(1. 11)

ru ,i = ru + k ∑ sim(u, u') × (ru ',i − ru ' )

(1. 12)

u '∈U

u '∈U

Trong đó :
k: hệ số chuẩn hóa và thường được lựa chọn là k= 1 / ∑u '∈Uˆ sim(u, u ' )

ru : trọng số trung bình của người dùng u, được định nghĩa như sau:
ru =

1
Su

∑r

s∈Su


u ,i

(1. 13)

Với :

SVTH: Nguyễn Đăng Khiêm _D11CNPM4

12


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

CHƯƠNG 1: GIỚI THIỆU...

su = {s ∈ S | ru ,i ≠ ∅}

(1. 14)

Trường hợp đơn giản nhất, giá trị đánh giá có thể là trung bình cộng của các đánh
giá người dùng khác lên sản phẩm đó như cơng thức (1.10). Tuy nhiên, phương
pháp tiếp cận kết hợp phổ biến nhất thường được sử dụng tính tổng mức quan trọng
như theo cơng thức (1.11). Đánh giá sự giống nhau giữa người dùng u và u’,
sim(u,u’) về cơ bản là đo độ tương quan giữa những người dùng và thường được
xem là trọng số, nghĩa là với những người dùng giống nhau nhất thì r u’,i sẽ được thực
hiện dựa vào dự đoán của r u,i. Chú ý rằng sim(x,y) như 1 hàm heuristics, được được
giới thiệu để đánh giá mức khác nhau giữa các người dùng giống nhau, nhằm làm
đơn giản hóa việc sử dụng thừa số k như biểu diễn ở trên.
Những phương pháp tiếp cận khác nhau thường được tính tốn hàm tương quan
sim(u,u’) giữa những người dùng trong hệ thống tư vấn cộng tác. Trong hầu hết các

phương pháp tiếp cận này, sự tương đồng giữa hai người dùng dựa trên những đánh
giá về sản phẩm được cả u và u’ quan tâm. Một trong những phương pháp phổ biến
nhất là dựa trên sự tương quan và cosine. Cụ thể, đầu tiên, xem S xy là tập tất cả các
sản pẩm của người dùng x và y; nghĩa là Sxy={i ∈ S|rx,i ≠ ∅ & ry,i ≠ ∅ }. Trong hệ
thống tư vấn cộng tác, S xy thường được sử dụng để đưa ra kết quả tức thì cho việc
tính tốn “người hàng xóm gần nhất” của người dùng x và thường được tính tốn để
đưa ra xếp hạng rõ ràng, nghĩa là tính tốn tìm ra điểm giao nhau giữa tập Sx và Sy.
Giải thuật lọc cộng tác dựa trên mơ hình (Model-based): Giải thuật lọc cộng tác
dựa trên mơ hình cung cấp các tư vấn sản phẩm bằng việc phát triển một mơ hình
đánh giá của người dùng. Giải thuật loại này thuộc phương pháp tính xác suất và xử
lý lọc cộng tác như tính tốn giá trị kỳ vọng của một dự đoán người dùng, cho đánh
giá của người đó với các sản phẩm khác. Xử lý xây dựng mơ hình được thực hiện
bởi nhiều các giải thuật học máy khác nhau như mạng Bayes, phân cụm, và phương
pháp dựa trên luật (rule-based), mơ hình hồi quy tuyến tính, mơ hình entropy cực
đại…
Thuật tốn dựa trên mơ hình sử dụng tập đánh giá để đưa ra một mô hình mà sau
đó được sử dụng để tạo ra những dự đốn về trọng số. Chẳng hạn, phương pháp tính

SVTH: Nguyễn Đăng Khiêm _D11CNPM4

13


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

CHƯƠNG 1: GIỚI THIỆU...

xác suất để lọc cộng tác, trong đó những trọng số (đánh giá) chưa biết được tính
như sau:
n


ru .i = E (ru ,i ) = ∑ i × Pr(ru ,i = i | ru ,i ' ,i' ∈ Su )

(1. 15)

i =0

Giá trị trọng số (đánh giá) là những số nguyên nằm giữa 0 và n. Biểu thức xác suất
là xác suất mà người dùng u sẽ đưa ra trọng số cụ thể cho sản phẩm i, dựa trên
những trọng số của người dùng về những sản phẩm trước đó đã được đánh giá. Để
ước lượng xác suất này, sử dụng hai mơ hình xác suất tương đối sau: mơ hình phân
cụm (cluster) và mạng Bayes. Trong mơ hình đầu tiên, người dùng có sở thích giống
nhau được tập hợp lại thành một lớp. Trong lớp người dùng, sự đánh giá được xem
là độc lập với nhau, nghĩa là cấu trúc mô hình giống như mơ hình Bayes thơ sơ ban
đầu. Số lượng của các lớp và các thông số của mô hình được biết từ dữ liệu. Mơ
hình thứ hai biểu diễn mỗi sản phẩm như là một nút trong mạng Bayes, ở đó mỗi
trạng thái của nút tương ứng với giá trị trọng số của mỗi sản phẩm có thể nhận biết
được. Cả cấu trúc của mạng và xác suất điều kiện được nhận biết từ dữ liệu. Vì vậy
giới hạn của phương pháp này là mỗi người dùng có thể được tập hợp lại thành một
nhóm (cluster) đơn lẻ, trong khi một vài ứng dụng tư vấn có thể được lợi từ khả
năng hợp các người dùng thành một vài nhóm cùng một lúc. Chẳng hạn, trong tư
vấn về sách, người dùng quan tâm đến một chủ đề (ví dụ như lập trình) với mục
đích cơng việc nhưng hồn tồn có thể quan tâm đến chủ đề khác (ví dụ như cá) vào
những thời gian rảnh rỗi.
Phương pháp lọc cộng tác có thể được giải quyết bằng phương pháp học máy khác
nhau kết hợp với kỹ thuật phân tách đặc trưng (như sự phân tích giá trị đơn lẻ - một
kỹ thuật đại số làm giảm chiều của những ma trận) có thể được sử dụng. Các tác giả
đã đi so sánh phương pháp dựa trên mơ hình tương ứng của chúng với phương pháp
dựa trên bộ nhớ chuẩn và sau đó ghi lại chúng và thấy rằng trong một vài ứng dụng,
phương pháp dựa trên mơ hình thực hiện tốt hơn phương pháp dựa trên bộ nhớ tính

theo mức độ chính xác của những tư vấn. Tuy nhiên, việc so sánh cả hai trường hợp
này hoàn toàn đều do kinh nghiệm mà khơng có học thuyết nào chứng minh khẳng
định này.

SVTH: Nguyễn Đăng Khiêm _D11CNPM4

14


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

CHƯƠNG 1: GIỚI THIỆU...

Sự khác biệt chính giữa kỹ thuật dựa trên mơ hình cộng tác và những phương pháp
tiếp cận dựa trên hàm heuristic là những kỹ thuật dựa trên mơ hình tính tốn những
dự đốn tiện ích (đánh giá) khơng dựa trên những luật về heuristic mà thay vì đó,
dựa trên mơ hình được biết đến từ những dữ liệu nằm bên dưới bằng cách sử dụng
kỹ thuật học máy và thống kê. Một phương pháp kết hợp cả phương pháp tiếp cận
dựa trên bộ nhớ và dựa trên mơ hình đã được đề xuất, ở đó nó được phân tích dựa
vào kinh nghiệm và cách sử dụng những phương pháp phối hợp này có thể cung cấp
tư vấn tốt hơn những phương pháp cộng tác chỉ dựa trên mơ hình hoặc dựa trên bộ
nhớ.
Một phương pháp khác để cải thiện hiệu quả của những thuật toán lọc cộng tác
được đưa ra, ở đó đầu vào của tập các đánh giá dựa trên đặc tả của người dùng được
lựa chọn một cách cẩn thận thông qua việc sử dụng một vài kỹ thuật như loại trừ tạp
nhiễu, sự dư thừa và khai thác các dữ liệu thưa thớt để đánh giá. Những kết quả dựa
theo kinh nghiệm chứng minh mức độ chính xác và hiệu quả của những thuật toán
lọc cộng tác dựa trên mơ hình là tăng lên. Những kỹ thuật lựa chọn đầu ra được đề
xuất có thể giúp những thuật tốn dựa trên mơ hình chỉ rõ vấn đề cần nhận biết từ
cơ sở dữ liệu rộng lớn. Hơn nữa, giữa những sự phát triển gần đây nhất, đề xuất ra

phương pháp thống kê cho lọc cộng tác tạo ra các cách thức khác nhau để so sánh
những kỹ thuật dựa trên bộ nhớ và dựa trên mơ hình. Cụ thể, việc sử dụng phương
pháp học chủ động hơn để nhận biết ra mơ hình xác suất về sở thích của mỗi người
dùng và sử dụng việc lưu trữ những hồ sơ cá nhân của người dùng trong mơ hình
pha trộn để tính tốn những tư vấn.
Restrict Botlzmann Machine [9] là một mơ hình đồ thị xác suất, bản chất là mơ hình
mạng nơ -rơn. Mơ hình được chia làm hai qua q trình huấn luyện được dùng để
dự đốn. Mơ hình sẽ được đề xuất ở chương 2.
So với lọc theo nội dung, lọc cộng tác có ưu điểm là khơng địi hỏi biểu diễn sản
phẩm dưới dạng các đặc trưng nội dung. Ngoài ra, lọc cộng tác cho kết quả chính
xác hơn. Tuy nhiên, lọc cộng tác vẫn gặp phải những hạn chế cần được tiếp tục
nghiên cứu dưới đây [1]:
-

Vấn đề người dùng mới (New User Problem). Cũng giống như lọc theo nội
dung, để phân bố chính xác các sản phẩm người dùng quan tâm, lọc cộng tác

SVTH: Nguyễn Đăng Khiêm _D11CNPM4

15


ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

CHƯƠNG 1: GIỚI THIỆU...

phải ước lượng được sở thích của người dùng đối với các sản phẩm mới
thông qua những đánh giá của họ trong quá khứ. Trong trường hợp một người
dùng mới, số đánh giá của người dùng cho các sản phẩm là ∅, khi đó phương
pháp lọc cộng tác khơng thể đưa ra những tư vấn chính xác cho người dùng

-

này.
Vấn đề sản phẩm mới (New Item Problem). Trong lọc thông tin, các sản phẩm
thường xuyên được bổ sung, cập nhật vào hệ thống. Khi xuất hiện một sản
phẩm mới, tất cả đánh giá người dùng cho sản phẩm này đều là ∅. Do đó, lọc
cộng tác khơng thể tư vấn sản phẩm cho bất kỳ người dùng nào trong hệ

-

thống.
Vấn đề dữ liệu thưa (Sparsity Data Problem). Kết quả dự đoán của lọc cộng
tác phụ thuộc chủ yếu vào số các đánh giá có trước của người dùng đối với
các sản phẩm. Tuy nhiên, đối với các hệ thống thực tế, số lượng người dùng
và sản phẩm là rất lớn (hàng triệu người dùng và sản phẩm), số những đánh
giá biết trước thường rất nhỏ so với số lượng các đánh giá cần được dự đoán.

1.3.3. Tư vấn dựa trên cách tiếp cận kết hợp
Một vài hệ thống tư vấn sử dụng phương pháp kết hợp phương pháp dựa trên cộng
tác và dựa trên nội dung nhằm tránh những hạn chế của những hệ thống tư vấn dựa
trên cộng tác và dựa trên nội dung. Cách thức nhằm kết hợp phương pháp dựa trên
cộng tác và dựa trên nội dung thành hệ thống tư vấn kết hợp có thể phân loại như
sau:
- Thực thi những phương thức dựa trên nội dung và dựa trên cộng tác một
cách tách biệt cùng với đó là kết hợp những dự đoán của chúng.
- Kết hợp một vài đặc tính dựa trên nội dung vào trong phương pháp dựa trên
cộng tác.
- Kết hợp một vài đặc tính dựa trên cộng tác vào trong phương pháp dựa trên
nội dung.
- Xây dựng một số mơ hình hợp nhất tổng quát kết hợp những đặc tính dựa

trên nội dung và dựa trên cộng tác.

SVTH: Nguyễn Đăng Khiêm _D11CNPM4

16


×