ĐẠI HỌC HUẾ
TRƢỜNG ĐẠI HỌC KINH TẾ
KHOA HỆ THỐNG THÔNG TIN KINH TẾ
oOo
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG
TÁC CHO HỆ THỐNG TƢ VẤN PHIM
Sinh viên thực hiện: Nguyễn Thùy Trang Giảng viên hƣớng dẫn
Lớp: K43 Tin học kinh tế ThS. Lê Viết Mẫn
Niên khóa: 2009 – 2013
Huế, tháng 04 năm 2013
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang i
LỜI CẢM ƠN
Luận văn này là kết quả nghiên cứu của tôi qua 4 tháng thực tập trên cơ sở kiến
thức của quá trình học tập tại trƣờng Đại học Kinh tế Huế trong suốt 4 năm qua.
Với tình cảm chân thành, tôi xin bày tỏ lòng biết ơn cao quý đến ban chủ nhiệm
khoa Hệ thống thông tin Kinh tế - Đại học Kinh tế Huế, các thầy cô giáo, gia đình, bạn
bè và Công ty Cổ phần phần mềm dịch vụ Mặt Trời đã tạo điều kiện, động viên và
giúp đỡ tôi rất nhiều trong quá trình hoàn thành luận văn tốt nghiệp này.
Đặc biệt, tôi xin chân thành gửi lời cảm ơn sâu sắc đến Th.S Lê Viết Mẫn đã
tận tình hƣớng dẫn, quan tâm, thƣờng xuyên theo dõi, cung cấp các tài liệu và có
những đánh giá, nhận xét, góp ý thẳng thắn để tôi có thể hoàn thiện báo cáo khóa luận
tốt nghiệp một cách tốt nhất.
Mặc dù tôi đã rất cố gắng nhƣng chắc chắn luận văn sẽ không thể tránh khỏi
những thiếu sót, rất mong nhận đƣợc những ý kiến đóng góp, bổ sung của quý thầy cô
để tôi có thể sữa chữa, bổ sung và nghiên cứu kỹ hơn về đề tài này.
Tôi xin chân thành cảm ơn!
Huế, tháng 4 năm 2013
Sinh viên
Nguyễn Thùy Trang
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang ii
MỤC LỤC
LỜI CẢM ƠN i
MỤC LỤC ii
PHỤ LỤC HÌNH ẢNH v
PHỤ LỤC BẢNG BIỂU vi
PHỤ LỤC THUẬT NGỮ vii
MỞ ĐẦU 8
CHƢƠNG 1: TỔNG QUAN VỀ HỆ TƢ VẤN 10
1.1. Giới thiệu về hệ tƣ vấn 10
1.2. Chức năng của hệ tƣ vấn 12
1.3. Dữ liệu và các nguồn tri thức 16
1.4. Các phƣơng pháp của hệ tƣ vấn 18
1.4.1. Phương pháp tiếp cận dựa trên các tư vấn phổ biến 18
1.4.2. Phương pháp tiếp cận dựa trên nội dung 18
1.4.3. Phương pháp lọc cộng tác 19
1.4.4. Phương pháp tiếp cận dựa trên nhóm mặt hàng 20
1.4.5. Phương pháp tiếp cận dựa trên nhân khẩu học 21
1.4.6. Phương pháp tiếp cận dựa trên danh tiếng 21
1.4.7. Phương pháp lai 21
1.5. Ứng dụng và đánh giá 22
CHƢƠNG 2: GIỚI THIỆU PHƢƠNG PHÁP LỌC CỘNG TÁC VÀ KỸ THUẬT
LÁNG GIỀNG 24
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang iii
2.1. Phƣơng pháp lọc cộng tác 24
2.1.1. Định nghĩa phương pháp lọc cộng tác 24
2.1.2. Quy trình phương pháp lọc cộng tác 25
2.2. Kỹ thuật láng giềng 30
2.2.1. Giới thiệu kỹ thuật láng giềng 30
2.2.2. Phân loại kỹ thuật láng giềng 32
2.2.3. Các bước của kỹ thuật láng giềng 35
CHƢƠNG 3: HỆ THỐNG TƢ VẤN PHIM DỰA TRÊN KỸ THUẬT LÁNG GIỀNG
CỦA PHƢƠNG PHÁP LỌC CỘNG TÁC 40
3.1. Giới thiệu hệ thống tƣ vấn 40
3.1.1. Mô tả bài toán 40
3.1.2. Mô tả về bộ dữ liệu MovieLens 41
3.1.3. Ưu, nhược điểm của bộ dữ liệu MovieLens: 42
3.2. Phân tích và thiết kế hệ thống 43
3.2.1. Sơ đồ chức năng kinh doanh (BFD) 43
3.2.2. Sơ đồ ngữ cảnh 45
3.2.3. Sơ đồ luồng dữ liệu mức 0 (DFD mức 0) 45
3.2.4. Sơ đồ luồng dữ liệu mức 1.0 (DFD mức 1.0) 46
3.2.5. Sơ đồ luồng dữ liệu mức 2.0 (DFD mức 2.0) 46
3.2.6. Sơ đồ luồng dữ liệu mức 3.0 (DFD mức 3.0) 47
3.2.7. Sơ đồ mô hình cơ sở dữ liệu 48
3.3. Thuật toán 49
3.3.1. Kỹ thuật tư vấn dựa trên người dùng User-based 49
3.3.2. Kỹ thuật tư vấn mặt hàng phù hợp Matching Product 51
3.3.3. Kỹ thuật tư vấn dựa trên mặt hàng Item-based 52
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang iv
3.4. Demo chƣơng trình và một số kết quả 55
3.5. So sánh phƣơng pháp và một số vấn đề đƣợc rút ra 59
3.5.1. So sánh các phương pháp 59
3.5.2. Một số vấn đề được rút ra 60
KẾT LUẬN 63
TÀI LIỆU THAM KHẢO 64
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang v
PHỤ LỤC HÌNH ẢNH
Hình 1.1. Hệ tƣ vấn của trang web Amazon.com 11
Hình 1.2. Phƣơng pháp tiếp cận dựa trên nội dung 19
Hình 1.3. Phƣơng pháp lọc cộng tác 20
Hình 2.1. Hệ thống tƣ vấn lọc cộng tác của trang web Amazon.com 24
Hình 2.2. Quy trình phƣơng pháp lọc cộng tác 25
Hình 3.1. Sơ đồ chức năng kinh doanh BFD 44
Hình 3.2. Sơ đồ ngữ cảnh 45
Hình 3.3. Sơ đồ DFD mức 0 45
Hình 3.4. Sơ đồ DFD mức 1.0 46
Hình 3.5. Sơ đồ DFD mức 2.0 46
Hình 3.6. Sơ đồ DFD mức 3.0 47
Hình 3.7. Sơ đồ mô hình cơ sở dữ liệu 48
Hình 3.8. Giao diện trang chủ 56
Hình 3.9. Giao diện trang đăng nhập 56
Hình 3.10. Giao diện trang đăng ký 57
Hình 3.11. Giao diện trang đánh giá 57
Hình 3.12. Giao diện trang tƣ vấn dựa trên ngƣời dùng 58
Hình 3.13. Giao diện trang tƣ vấn dựa trên kỹ thuật mặt hàng phù hợp và phƣơng pháp
tƣ vấn dựa trên mặt hàng 59
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang vi
PHỤ LỤC BẢNG BIỂU
Bảng 3.1. Quá trình tính toán thuật toán tƣ vấn dựa trên ngƣời dùng 50
Bảng 3.2. Quá trình tính toán thuật toán tƣ vấn dựa trên mặt hàng 53
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang vii
PHỤ LỤC THUẬT NGỮ
Recommender System
Hệ tƣ vấn
Collaborative filtering
Lọc cộng tác
Neighborhood-based
Kỹ thuật láng giềng
Latent Semantic Indexing
Phƣơng pháp chỉ mục ngữ nghĩa tiềm ẩn
Mean-squared difference
Độ bất tƣơng tự trung bình bình phƣơng
Deviation-from-mean
Độ lệch chuẩn
Weighted average
Trọng số bình quân
User-based
Phƣơng pháp tƣ vấn dựa trên ngƣời dùng
Matching Product
Mặt hàng phù hợp
Item-based
Phƣơng pháp tƣ vấn dựa trên mặt hàng
k nearest-neighbors
k láng giềng gần nhất
Mean-centering
Phƣơng pháp điểm trung bình
Top-N filtering
Lọc top N
Threshold filtering
Lọc định mức
Negative filtering
Lọc đánh giá âm
BFD – Business Function Diagram
Sơ đồ chức năng kinh doanh
DFD – Data Flow Diagram
Sơ đồ luồng dữ liệu
Best Item
Mặt hàng tốt nhất
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 8
MỞ ĐẦU
Hiện nay, internet với các tiện ích của nó đang có ảnh hƣởng lớn đối với đại bộ
phận ngƣời sử dụng mạng. Với lƣợng thông tin khổng lồ, nhu cầu ngƣời dùng ngày
càng lớn, ngƣời dùng cần có sự tƣ vấn chính xác và kịp thời để có thể tìm kiếm thông
tin một cách nhanh chóng và tiết kiệm tối đa thời gian. Một khi dữ liệu càng lớn thì hệ
tƣ vấn càng có vai trò quan trọng. Có thể kể đến hệ tƣ vấn áp dụng đối với các website
thuộc các lĩnh vực âm nhạc, phim ảnh, sách báo… Tuy nhiên, các lĩnh vực trong cuộc
sống lại rất phong phú, đa dạng, và một khi nhu cầu đã lớn thì yêu cầu đặt ra cũng sẽ
cao hơn rất nhiều.
Thực tế hiện nay, kinh doanh mua bán là một trong các lĩnh vực đang phát triển
mạnh và áp dụng triệt để công nghệ thông tin. Một website thƣơng mại điện tử thu hút
không chỉ dừng lại ở mặt hàng phong phú, giao diện đẹp, thông tin cập nhật nhanh
chóng mà còn phải nắm bắt nhu cầu, đáp ứng yêu cầu và hỗ trợ khách hàng tối đa. Hệ
tƣ vấn thực sự cần thiết cho một website mua bán hàng hóa với số lƣợng hàng hóa
khổng lồ, số lƣợng chủng loại mặt hàng lớn cùng vô số thông tin về mặt hàng để giúp
khách nắm bắt thông tin mà họ tìm kiếm.
Khi cần tìm thông tin về một mặt hàng nào đó, giải pháp đƣợc hầu hết ngƣời
dùng sử dụng là đƣa câu hỏi vào máy tìm kiếm thay vì tìm đến những website/forum
chuyên ngành. Tuy nhiên, máy tìm kiếm chỉ có thể đƣa ra một danh sách các lựa chọn
chứ không thể nói đƣợc lựa chọn nào là tốt nhất.
Do đó, tôi thực hiện đề tài “Nghiên cứu phƣơng pháp lọc cộng tác cho hệ thống
tƣ vấn phim” với mục tiêu tìm hiểu lý thuyết về hệ tƣ vấn (Recommender System), các
kỹ thuật của hệ tƣ vấn, đặc biệt là phƣơng pháp lọc cộng tác (Collaborative filtering)
và kỹ thuật láng giềng thuộc phƣơng pháp lọc cộng tác. Tiếp đến, đề tài tập trung xây
dựng Website tƣ vấn phim sử dụng kỹ thuật láng giềng của phƣơng pháp lọc cộng tác,
phân tích, đánh giá hiệu quả của việc ứng dụng hệ tƣ vấn trong việc triển khai xây
dựng website.
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 9
Cấu trúc đề tài đƣợc chia thành 3 chƣơng:
Chương I: Tổng quan về hệ tƣ vấn – Recommender System. Chƣơng này sẽ
giới thiệu tổng quan về hệ tƣ vấn, các chức năng, dữ liệu và các
nguồn kiến thức, các phƣơng pháp và các ứng dụng, đánh giá của
hệ tƣ vấn.
Chương II: Giới thiệu phƣơng pháp lọc cộng tác và kỹ thuật láng giềng
(Neighborhood-based). Chƣơng này đi vào tìm hiểu sâu về
phƣơng pháp lọc cộng tác và kỹ thuật láng giềng (Neighborhood-
based) thuộc phƣơng pháp lọc cộng tác.
Chương III: Hệ thống tƣ vấn phim dựa trên kỹ thuật láng giềng của phƣơng
pháp lọc cộng tác. Nội dung chƣơng này đi vào phân tích hệ tƣ
vấn đƣợc sử dụng trong khóa luận, phân tích và thiết kế hệ thống,
các kỹ thuật ứng dụng trong khóa luận, mô tả thuật toán, giới
thiệu demo chƣơng trình và so sánh các phƣơng pháp, rút ra các
kết luận.
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 10
CHƢƠNG 1
TỔNG QUAN VỀ HỆ TƢ VẤN
1.1. Giới thiệu về hệ tƣ vấn
Trong cuộc sống hàng ngày, ngƣời ta đƣa ra các lựa chọn dựa trên những ý kiến
hay lời khuyên của mọi ngƣời xung quanh, có thể qua lời nói, các bản đánh giá sản
phẩm, khảo sát thị trƣờng, thƣ giới thiệu Nhƣng trong kỉ nguyên thông tin, mỗi ngày
có hàng triệu thông tin đƣợc đƣa lên Internet, ngƣời dùng thực sự khó khăn để nắm bắt
và tìm kiếm thông tin.
Một số công cụ tìm kiếm với từ khóa, điển hình nhƣ Google, Yahoo… và mới
đây nhất là Bing giúp chúng ta rất nhiều trong tìm kiếm những thông tin cần thiết.
Nhƣng với lƣợng thông tin tăng lên nhanh chóng, các công cụ tìm kiếm theo từ khóa
cũng đang dần tỏ ra không hoàn toàn đáp ứng đƣợc nhu cầu của con ngƣời. Hàng ngày
bạn phải bỏ ra quá nhiều thời gian để lọc những thông tin tìm kiếm đƣợc trên Google.
Thêm nữa, đôi khi ngƣời dùng cũng không hiểu hết nhu cầu của mình, không biết
đƣợc từ khóa chính xác mình muốn tìm kiếm, do đó rất khó để tìm đƣợc thông tin
mình cần. Chính những điều này dẫn tới yêu cầu phải có các phƣơng pháp tự động thu
thập thông tin và đƣa ra lời khuyên để hỗ trợ cho các phƣơng pháp truyền thống trên.
Hệ tƣ vấn (Recommender System) là một giải pháp nhƣ vậy.
Recommender Systems là công cụ phần mềm kỹ thuật cung cấp các mặt hàng
đề xuất cho ngƣời sử dụng. Những lời tƣ vấn liên quan đến các khía cạnh khác nhau
của quá trình ra quyết định, chẳng hạn nhƣ nên mua mặt hàng nào, nên nghe thể loại
nhạc nào, hoặc nên đọc loại tin tức trực tuyến nào. Hệ thống này đƣa ra gợi ý dựa trên
những gì ngƣời dùng đã làm trong quá khứ, hoặc dựa trên tổng hợp ý kiến của những
ngƣời dùng khác. Hệ tƣ vấn đã trở thành một ứng dụng quan trọng và thu hút đƣợc sự
quan tâm lớn của các nhà nghiên cứu cũng nhƣ các doanh nghiệp.
Hình dung đơn giản, các tƣ vấn đƣợc cung cấp dƣới dạng các danh sách xếp
hạng các mặt hàng. Trong việc thực hiện bảng xếp hạng này, hệ tƣ vấn cố gắng dự
đoán những sản phẩm hoặc dịch vụ phù hợp nhất, dựa trên sở thích và hạn chế của
ngƣời sử dụng. Để hoàn thành một nhiệm vụ tính toán nhƣ vậy, hệ tƣ vấn thu thập từ
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 11
ngƣời sử dụng sở thích của họ, ví dụ nhƣ đánh giá của ngƣời dùng cho các mặt hàng,
sản phẩm.
Hình 1.1. Hệ tƣ vấn của trang web Amazon.com
Hệ tƣ vấn bắt đầu đƣợc chú ý từ những quan sát sau: một ngƣời thƣờng dựa
trên những lời khuyên, tƣ vấn từ những ngƣời khác trong việc đƣa ra các quyết định.
Ví dụ, ngƣời ta thƣờng dựa vào lời giới thiệu của bạn bè khi chọn mua sách để đọc,
ngƣời sử dụng lao động dựa trên thƣ giới thiệu để tuyển dụng và ngƣời xem dựa vào
các đánh giá phê bình phim của nhà phê bình phim trong các tạp chí để chọn phim
xem.
Trong việc tìm kiếm để bắt chƣớc các hành vi này, các hệ tƣ vấn đầu tiên sẽ áp
dụng các thuật toán để tận dụng các tƣ vấn đƣợc đƣa ra bởi một cộng đồng ngƣời sử
dụng nhằm cung cấp các tƣ vấn cho một ngƣời dùng cần tƣ vấn. Hệ thống sẽ tƣ vấn
các mặt hàng mà ngƣời dùng tƣơng tự (những ngƣời có sở thích tƣơng tự) đã thích.
Cách tiếp cận này gọi là lọc cộng tác, tức là khi ngƣời dùng cần tƣ vấn có những
tƣơng đồng trƣớc đó trong quá khứ với một số ngƣời dùng khác, khi đó các tƣ vấn
khác sẽ đến từ những ngƣời sử dụng tƣơng tự.
Hệ tƣ vấn đã đƣợc chứng minh trong những năm gần đây là một phƣơng tiện
hiệu quả để đối phó với vấn đề quá tải thông tin. Khi có yêu cầu của ngƣời dùng, hệ tƣ
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 12
vấn tạo ra các tƣ vấn sử dụng các kiến thức và dữ liệu khác nhau về ngƣời sử dụng,
các mặt hàng có sẵn, và giao dịch trƣớc đó đƣợc lƣu trữ trong cơ sở dữ liệu. Sau đó
ngƣời dùng có thể duyệt các tƣ vấn. Tất cả những hành động và phản hồi của ngƣời sử
dụng có thể đƣợc lƣu trữ trong cơ sở dữ liệu tƣ vấn và có thể đƣợc sử dụng để tạo ra tƣ
vấn mới trong hệ thống cho ngƣời dùng tƣơng tác tiếp theo.
Việc nghiên cứu các hệ thống tƣ vấn là tƣơng đối mới so với nghiên cứu các
công cụ hệ thống thông tin và kỹ thuật khác. Hệ tƣ vấn nổi lên giữa những năm 1990.
Trong những năm gần đây, sự quan tâm đối với hệ thống tƣ vấn đã tăng lên đáng kể,
điển hình nhƣ các sự kiện sau:
1. Hệ tƣ vấn đóng một vai trò quan trọng trong các trang web Internet đƣợc đánh
giá cao nhƣ Amazon.com, YouTube, Netflix, Yahoo và IMDb. Hơn nữa, nhiều
công ty truyền thông đang phát triển và triển khai hệ tƣ vấn nhƣ là một phần của
các dịch vụ mà họ cung cấp cho các thuê bao của họ.
2. Có các buổi hội nghị và hội thảo liên quan đến lĩnh vực này. Ví dụ nhƣ hội nghị
ACM Recommender Systems (RecSys), thành lập năm 2007 và sự kiện hàng
năm hàng đầu trong nghiên cứu và ứng dụng công nghệ tƣ vấn.
3. Tại các tổ chức giáo dục đại học trên thế giới, đại học và sau đại học, khóa học
về hệ tƣ vấn này đƣợc dành riêng hoàn toàn, hƣớng dẫn về hệ tƣ vấn đang rất
phổ biến, bên cạnh đó là xuất bản sách giới thiệu về các kỹ thuật, phƣơng pháp
của hệ tƣ vấn.
4. Đã có một số tạp chí khoa học đề cập việc nghiên cứu và sự phát triển trong lĩnh
vực hệ tƣ vấn. Trong số các tạp chí có những vấn đề chuyên dụng hệ tƣ vấn là:
Truyền thông AI (2008); IEEE Intelligent Systems (2007); Tạp chí Thƣơng mại
điện tử (2006)…
1.2. Chức năng của hệ tƣ vấn
Trƣớc hết, chúng ta phải phân biệt giữa vai trò hệ tƣ vấn của nhà cung cấp so
với vai trò hệ tƣ vấn của ngƣời sử dụng. Ví dụ, một hệ thống tƣ vấn du lịch thƣờng
đƣợc giới thiệu bởi một trung gian du lịch hoặc một tổ chức quản lý để tăng doanh thu
của nó qua việc cho thuê phòng khách sạn nhiều hơn hoặc để tăng số lƣợng khách du
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 13
lịch. Trong khi đó, động cơ của ngƣời sử dụng khi truy cập vào hai hệ thống là tìm một
khách sạn phù hợp với nhu cầu, túi tiền cùng các sự kiện thú vị / các điểm hấp dẫn khi
đến thăm một điểm đến.
Trong thực tế, có những lý do khác nhau để giải thích tại sao các nhà cung cấp
dịch vụ có thể muốn khai thác công nghệ này:
Tăng số lượng hàng bán được. Đây có lẽ là chức năng quan trọng nhất đối với
hệ tƣ vấn thƣơng mại, nghĩa là, để có thể bán thêm một số lƣợng lớn các mặt
hàng so với những ngƣời bình thƣờng bán đƣợc mà không sử dụng bất kỳ 1 tƣ
vấn nào. Mục tiêu này đạt đƣợc bởi vì các mặt hàng đƣợc tƣ vấn có khả năng
phù hợp với nhu cầu và mong muốn của ngƣời sử dụng.
Bán các mặt hàng đa dạng hơn. Một chức năng quan trọng của một hệ tƣ vấn là
cho phép ngƣời sử dụng có thể chọn các mặt hàng mà có thể là khó tìm kiếm
nếu nhƣ không có một tƣ vấn chính xác. Ví dụ, trong một hệ tƣ vấn phim nhƣ
Netflix, các nhà cung cấp dịch vụ quan tâm đến việc cho thuê tất cả các đĩa
DVD trong danh mục, không chỉ các phim phổ biến nhất. Điều này có thể là khó
khăn nếu nhƣ không có một hệ tƣ vấn tƣ vấn, các nhà cung cấp dịch vụ có thể
gặp rủi ro nếu nhƣ quảng cáo mà không để ý đến việc phim có phù hợp với sở
thích của một ngƣời dùng cụ thể nào đó không. Do đó, hệ tƣ vấn sẽ là một gợi ý
hay để quảng cáo các loại phim không phổ biến cho ngƣời sử dụng.
Tăng sự hài lòng của người dùng. Ngƣời dùng sẽ tìm thấy các tƣ vấn thú vị, có
liên quan và giúp con ngƣời với máy tính tƣơng tác với nhau. Sự kết hợp của
hiệu quả, chính xác, tƣ vấn kịp thời và một giao diện đẹp có thể tối ƣu việc sử
dụng và làm tăng sự hài lòng của ngƣời dùng trong hệ thống. Điều này sẽ làm
tăng khả năng hệ thống đƣợc sử dụng và các tƣ vấn xảy ra sẽ đƣợc chấp nhận
nhiều hơn.
Tăng sự trung thành của người dùng. Một ngƣời sử dụng nên trung thành với
một trang web, khi truy cập, trang web sẽ nhận diện ngƣời dùng cũ và tƣơng tác
với ngƣời dùng đó nhƣ một ngƣời truy cập có giá trị. Điều này là bình thƣờng
đối với tính năng của một hệ tƣ vấn vì nhiều hệ tƣ vấn tƣ vấn tính toán, tận dụng
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 14
thông tin có đƣợc từ ngƣời sử dụng tƣơng tác trƣớc đây, ví dụ nhƣ: xếp hạng của
ngƣời dùng đối với các mặt hàng. Do đó, ngƣời dùng sẽ tƣơng tác với các trang
web, hệ thống sẽ nhận diện sở thích ngƣời dùng và số lƣợng tƣ vấn có thể tùy
chỉnh để phù hợp với ngƣời sử dụng trung thành.
Hiểu rõ hơn về những gì người dùng muốn. Một chức năng quan trọng của một
hệ tƣ vấn, có thể là đòn bẩy cho nhiều ứng dụng khác, là mô tả sở thích của
ngƣời sử dụng. Sau đó, nhà cung cấp dịch vụ có thể quyết định tái sử dụng dữ
liệu này cho một số mục tiêu khác nhƣ cải thiện việc quản lý kinh doanh hoặc đề
ra các ý tƣởng mới. Ví dụ, trong lĩnh vực du lịch, quản lý địa điểm tổ chức có
thể quyết định quảng cáo cho một nhóm các khách hàng mới cụ thể hoặc xác
định loại hình quảng cáo từ việc phân tích các dữ liệu thu thập bởi các hệ tƣ vấn
(các giao dịch của ngƣời sử dụng).
Bên cạnh đó, ngƣời dùng cũng có thể muốn sử dụng hệ tƣ vấn nếu nó hỗ trợ
hiệu quả nhiệm vụ hoặc mục tiêu của họ. Do đó một hệ tƣ vấn phải cân bằng nhu cầu
của hai nhóm ngƣời dùng này và cung cấp dịch vụ có hiệu quả cho cả hai. Các chức
năng cơ bản của hệ tƣ vấn đối với ngƣời sử dụng nhƣ sau:
Tìm một số nhóm hàng tốt: Tƣ vấn cho ngƣời dùng một số mặt hàng dƣới dạng
một danh sách xếp hạng cùng với dự đoán bao nhiêu ngƣời dùng muốn sử dụng.
Một số hệ thống không hiển thị đƣợc dự đoán đánh giá.
Tìm tất cả các mặt hàng tốt: Tƣ vấn tất cả các mặt hàng có thể đáp ứng một số
nhu cầu của ngƣời sử dụng. Trong những trƣờng hợp nhƣ vậy, nó không chỉ là
tìm thấy các mặt hàng tốt. Điều này đặc biệt đúng khi số lƣợng mặt hàng là
tƣơng đối nhỏ.
Chú thích trong ngữ cảnh: Tùy vào ngữ cảnh nhất định sẽ có một danh sách
nhấn mạnh các mặt hàng cụ thể nào đó tùy thuộc vào nhu cầu và sở thích của số
đông ngƣời dùng. Ví dụ, một hệ thống tƣ vấn truyền hình có thể chú thích
chƣơng trình lịch phát sóng là đáng xem.
Tư vấn một chuỗi các mặt hàng: Thay vì tập trung vào một tƣ vấn duy nhất, ý
tƣởng của hệ tƣ vấn là để giới thiệu một chuỗi các mặt hàng sẽ thu hút hơn. Ví
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 15
dụ điển hình nhƣ giới thiệu một loạt phim truyền hình, một cuốn sách về hệ tƣ
vấn sau khi đã giới thiệu một cuốn sách về khai thác dữ liệu.
Tư vấn một gói hàng: Tƣ vấn một nhóm các mặt hàng phù hợp với nhau. Ví dụ:
một kế hoạch du lịch có thể bao gồm các điểm tham quan khác nhau, điểm đến,
phƣơng thức giải trí, dịch vụ ăn nghỉ…
Tư vấn chỉ xem: Trong chức năng này, ngƣời dùng duyệt các mặt hàng mà
không có bất kỳ ý định mua một món hàng nào. Nhiệm vụ của hệ tƣ vấn là giúp
cho ngƣời dùng duyệt qua các mặt hàng có nhiều khả năng ngƣời dùng yêu thích
nhất.
Tìm tư vấn đáng tin cậy: Một số ngƣời dùng không tin tƣởng vào hệ thống tƣ
vấn, họ thử nghiệm với chính họ để xem nó tốt nhƣ thế nào trong việc đƣa ra các
tƣ vấn. Do đó, một số hệ thống cũng có thể cung cấp các chức năng cụ thể để
cho phép ngƣời sử dụng kiểm tra hoạt động của nó ngoài những yêu cầu để có
đƣợc tƣ vấn.
Cải thiện hồ sơ cá nhân: Điều này liên quan đến khả năng của ngƣời sử dụng
cung cấp thông tin đầu vào cho hệ thống tƣ vấn về những gì mình thích và
không thích. Đây là một nhiệm vụ cơ bản và thực sự cần thiết để cung cấp các
đề xuất đƣợc cá nhân hóa. Nếu hệ thống không có kiến thức cụ thể về ngƣời sử
dụng cần tƣ vấn thì sau đó nó có thể chỉ cung cấp cho anh ta với các tƣ vấn dành
cho một ngƣời dùng "trung bình".
Tự thể hiện: Một số ngƣời dùng có thể không quan tâm đến tất cả các tƣ vấn.
Thay vào đó, nó chỉ quan trọng với họ vì họ đƣợc phép đóng góp với đánh giá
của họ và bày tỏ ý kiến cũng nhƣ niềm tin của họ. Sự hài lòng của ngƣời sử
dụng cho hoạt động đó vẫn có thể đƣợc xem nhƣ một cách để giữ chân ngƣời
dùng cho các ứng dụng.
Giúp đỡ người khác: Một số ngƣời dùng hài lòng với việc đóng góp thông tin, ví
dụ nhƣ: đánh giá cho các mặt hàng (Ratings), bởi vì họ tin rằng đóng góp của họ
sẽ có ích. Điều này có thể là một động lực lớn để nhập thông tin thành một hệ
thống tƣ vấn. Ví dụ: với một hệ tƣ vấn về xe, một ngƣời dùng đã mua một chiếc
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 16
xe mới thì họ nhận thức đƣợc rằng ý kiến đánh giá của mình về chiếc xe đó có
thể sẽ hữu ích cho ngƣời khác.
Ảnh hưởng những người khác: Đối với hệ tƣ vấn dựa trên web, ngƣời dùng có
mục tiêu rõ ràng chính là ngƣời ảnh hƣởng đến những ngƣời dùng khác vào mua
các sản phẩm. Cũng có một số ngƣời sử dụng có thể sử dụng hệ thống chỉ để
thúc đẩy hoặc hạ thấp một số mặt hàng theo ý riêng của họ.
Nhƣ những điểm khác nhau cho thấy, vai trò của một hệ tƣ vấn trong một hệ
thống thông tin là khá đa dạng. Sự đa dạng này sẽ là khởi đầu cho việc khai thác một
loạt các nguồn kiến thức và các kỹ thuật khác nhau.
1.3. Dữ liệu và các nguồn tri thức
Hệ tƣ vấn là hệ thống xử lý thông tin thu thập từ các loại dữ liệu khác nhau để
xây dựng các tƣ vấn. Dữ liệu chủ yếu là về các mặt hàng cần tƣ vấn và ngƣời dùng sẽ
nhận đƣợc các tƣ vấn này. Tuy nhiên, dữ liệu và các nguồn tri thức sẵn có cho các hệ
thống tƣ vấn có thể rất đa dạng. Trong bất kỳ trƣờng hợp nào, dữ liệu đƣợc sử dụng
bởi hệ tƣ vấn thuộc ba loại: mặt hàng (Item), ngƣời sử dụng (User), và các giao dịch
(Transactions), đó chính là quan hệ giữa ngƣời sử dụng và các mặt hàng.
Mặt hàng (Item). Mặt hàng là các đối tƣợng đƣợc tƣ vấn. Các mặt hàng này
đặc trƣng bởi tiện ích và giá trị của nó. Giá trị của một mặt hàng có thể là tích cực nếu
hữu ích cho ngƣời sử dụng, hoặc tiêu cực nếu mặt hàng không phù hợp với ngƣời sử
dụng.
Mặt hàng có giá trị thấp là: tin tức, các trang web, sách, đĩa CD, phim. Mặt
hàng có giá trị lớn hơn là: máy ảnh kỹ thuật số, điện thoại di động, máy tính cá
nhân,… . Các mặt hàng phức tạp nhất nhƣ là những chính sách bảo hiểm, tài chính đầu
tƣ, tƣ vấn du lịch, công việc… Hệ tƣ vấn có thể sử dụng một loạt các thuộc tính và các
tính năng của các mặt hàng. Ví dụ trong một hệ thống tƣ vấn phim, thể loại (hài, kinh
dị, ) cũng nhƣ tên tuổi các đạo diễn và diễn viên có thể đƣợc sử dụng để mô tả một bộ
phim và là đặc điểm nổi bật của nó.
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 17
Ngƣời sử dụng (User). Ngƣời sử dụng của một hệ tƣ vấn có thể có các đặc
điểm và mục tiêu rất đa dạng. Để cá nhân hóa các tƣ vấn và hỗ trợ tƣơng tác giữa máy
tính và con ngƣời, hệ tƣ vấn khai thác một loạt các thông tin về ngƣời sử dụng. Thông
tin này có thể đƣợc cấu trúc theo nhiều cách khác nhau và hệ thống sẽ lựa chọn những
thông tin nào phụ thuộc vào kỹ thuật tƣ vấn.
Ví dụ: trong lọc cộng tác, ngƣời sử dụng đƣợc mô hình hóa bởi một danh sách
đơn giản có chứa các đánh giá đƣợc cung cấp bởi ngƣời sử dụng đối với một số mặt
hàng. Hệ tƣ vấn dựa trên nhân khẩu học lại dùng các thuộc tính nhƣ giới tính, tuổi,
nghề nghiệp, và giáo dục Các dữ liệu ngƣời dùng này sẽ đƣợc sử dụng để tạo thành
mô hình mã hóa sở thích và nhu cầu ngƣời sử dụng.
Giao dịch (Transaction). Giao dịch là sự tƣơng tác giữa một ngƣời dùng và hệ
tƣ vấn. Nó lƣu trữ dữ liệu, thông tin đăng nhập quan trọng đƣợc tạo ra trong quá trình
tƣơng tác giữa con ngƣời - máy tính và có ích cho thuật toán tƣ vấn mà hệ thống đang
sử dụng. Ví dụ: một bản ghi giao dịch có thể chứa một tham chiếu đến mặt hàng đƣợc
lựa chọn bởi ngƣời sử dụng và một mô tả về bối cảnh (mục tiêu ngƣời sử dụng / truy
vấn) cho tƣ vấn cụ thể. Nếu có sẵn, giao dịch cũng có thể bao gồm một thông tin phản
hồi rõ ràng của ngƣời sử dụng đã cung cấp, chẳng hạn nhƣ đánh giá cho các sản phẩm
đƣợc chọn.
Trong thực tế, xếp hạng là hình thức phổ biến nhất của các dữ liệu giao dịch
trong hệ tƣ vấn. Những đánh giá này có thể đƣợc thu thập một cách rõ ràng hoặc ngầm
định. Ngƣời dùng sẽ đƣợc yêu cầu cung cấp ý kiến của mình về một mặt hàng theo
một thang đánh giá. Thang đánh giá có thể là một trong các dạng sau:
Xếp hạng số từ 1-5 sao (đƣợc dùng trong trang web Amazon.com).
Xếp hạng theo thứ tự, chẳng hạn: "hoàn toàn đồng ý”,
Xếp hạng đơn giản. Ví dụ: tốt hay xấu, thích hay không thích,…
Hoặc có đánh giá hoặc không đánh giá.
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 18
1.4. Các phƣơng pháp của hệ tƣ vấn
Để thực hiện chức năng tƣ vấn, một hệ tƣ vấn phải dự đoán đƣợc một mặt hàng
để tƣ vấn. Muốn làm đƣợc điều này, hệ thống phải dự đoán sở thích của một số ngƣời
hoặc so sánh công dụng, chức năng của một số mặt hàng sau đó đƣa ra các mặt hàng
tƣ vấn cho ngƣời dùng dựa trên sự so sánh này. Sử dụng các thuật toán tƣ vấn có thể
đƣa ra các mặt hàng tƣ vấn không hoàn toàn chính xác, tuy nhiên chúng ta vẫn có thể
áp dụng nó để mô tả vai trò chung của một hệ tƣ vấn.
Dựa vào loại dữ liệu và kỹ thuật đƣợc sử dụng để đi đến quyết định tƣ vấn, hệ
thống tƣ vấn có thể đƣợc phân loại thành các phƣơng pháp tiếp cận sau đây:
1.4.1. Phương pháp tiếp cận dựa trên các tư vấn phổ biến
Trong thực tế, khách hàng thƣờng muốn biết về những mặt hàng đang phổ biến
nhất. Ví dụ: các danh sách bán chạy nhất của một cửa hàng. Tƣ vấn dựa trên sự phổ
biến là tiếp cận, tính toán sự phổ biến trong cộng đồng (ví dụ: tỷ lệ khách hàng mua
một mặt hàng) hoặc thống kê cho từng mặt hàng (ví dụ: số lƣợng khách hàng mua một
mặt hàng, xếp hạng trung bình cho một mặt hàng,…). Nhƣ vậy, các mặt hàng phổ biến
nhất sẽ đƣợc tƣ vấn cho ngƣời dùng. Phƣơng pháp tiếp cận dựa trên các tƣ vấn phổ
biến cung cấp các tƣ vấn mà không cần đến việc cá nhân hoá. Mặc dù phƣơng pháp
này chỉ có thể cung cấp các tƣ vấn không cá nhân nhƣng nó phổ biến bởi chính sự đơn
giản và hiệu quả của nó.
1.4.2. Phương pháp tiếp cận dựa trên nội dung
Các phƣơng pháp tiếp cận dựa trên nội dung tƣ vấn dựa trên việc tính năng của
các mặt hàng có thể có ích trong việc giới thiệu chúng. Với cách tiếp cận này, các tính
năng của các mặt hàng và sở thích riêng của ngƣời sử dụng là những yếu tố duy nhất
ảnh hƣởng đến việc tƣ vấn cho ngƣời sử dụng.
Trong phƣơng pháp lọc dựa trên nội dung, hệ thống sẽ phân tích và so sánh nội
dung của các thông tin, các mặt hàng từ đó đánh giá khả năng ngƣời dùng sẽ thích mặt
hàng đó. Phƣơng pháp lọc dựa trên nội dung dựa trên nguyên lý ngƣời dùng thích mặt
hàng hay thông tin A sẽ thích mặt hàng hay thông tin B tƣơng tự với mặt hàng A.
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 19
Phƣơng pháp lọc dựa trên nội dung còn so sánh nội dung của mặt hàng hay thông tin
với sở thích mà ngƣời dùng cung cấp. Chẳng hạn ngƣời dùng quan tâm tới những
thông tin về chứng khoán thì sẽ đƣợc tƣ vấn những bản tin nói về chứng khoán… Tuy
nhiên, phƣơng pháp lọc dựa trên nội dung cũng gặp một số khó khăn. Với những
thông tin mà nội dung không có sẵn (chẳng hạn nhƣ một đoạn video, một bản nhạc…)
thì sẽ rất khó phân tích, và khó có thể tƣ vấn đƣợc. Hơn nữa, vì hệ này chủ yếu so sánh
dựa trên nội dung nên khó có thể tạo ra đƣợc sự bất ngờ trong tƣ vấn, đôi khi nó còn tƣ
vấn cho ngƣời dùng những mặt hàng mà ngƣời dùng đã biết hoặc sử dụng trƣớc đó.
Hình 1.2. Phƣơng pháp tiếp cận dựa trên nội dung
1.4.3. Phương pháp lọc cộng tác
Lọc cộng tác là kỹ thuật sử dụng các sở thích cá nhân của ngƣời dùng để đƣa ra
tƣ vấn. Một hệ thống lọc cộng tác xác định ngƣời dùng có sở thích tƣơng tự những
ngƣời dùng trƣớc và tƣ vấn các mặt hàng mà họ có thể thích. Bản chất của phƣơng
pháp này chính là hình thức tƣ vấn truyền miệng tự động. Trong phƣơng pháp này, hệ
thống sẽ so sánh, tính toán độ tƣơng tự nhau giữa những ngƣời dùng hay mặt hàng, từ
đó ngƣời dùng sẽ đƣợc tƣ vấn những thông tin, mặt hàng đƣợc ƣa chuộng nhất bởi
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 20
những ngƣời dùng có cùng thị hiếu. Trong phƣơng pháp này, hệ thống thƣờng xây
dựng các ma trận đánh giá bởi ngƣời dùng lên các mặt hàng, bản tin. Từ đó tính toán
độ tƣơng tự giữa họ. Các hệ tƣ vấn dựa trên lọc cộng tác không yêu cầu quá nặng vào
việc tính toán, do đó nó có thể đƣa ra những tƣ vấn có độ chính xác cao và nhanh
chóng cho một số lƣợng lớn ngƣời dùng. Hơn nữa, hệ tƣ vấn này không yêu cầu mô tả
nội dung tƣờng minh mà chỉ sử dụng đánh giá của ngƣời dùng để ƣớc lƣợng, do đó
những hệ này có khả năng tƣ vấn phong phú và thƣờng tạo ra những tƣ vấn bất ngờ
cho ngƣời dùng. Với phƣơng pháp này, sở thích của ngƣời dùng là đầu vào duy nhất
để quyết định kết quả tƣ vấn.
Hình 1.3. Phƣơng pháp lọc cộng tác
1.4.4. Phương pháp tiếp cận dựa trên nhóm mặt hàng
Phƣơng pháp tiếp cận dựa trên nhóm mặt hàng dựa vào sở thích của ngƣời dùng
để xác định các mặt hàng thƣờng đƣợc tìm thấy với các mặt hàng mà ngƣời dùng đã
chọn, hoặc có sự quan tâm trong quá khứ. Một nhóm mặt hàng có thể là tập hợp các
mặt hàng đƣợc đánh giá tƣơng tự nhƣ cho cùng một mặt hàng cụ thể, hoặc xuất hiện
đồng thời ở các mặt hàng mà ngƣời dùng yêu thích hoặc mua chung. Nhóm mặt hàng
sau đó có thể đƣợc sử dụng để tƣ vấn các mặt hàng cho ngƣời sử dụng. Ví dụ: dự đoán
đánh giá của ngƣời dùng cho một mặt hàng có thể dựa trên điểm số đánh giá của ngƣời
dùng thu đƣợc ở các mặt hàng tƣơng tự trƣớc đó.
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 21
1.4.5. Phương pháp tiếp cận dựa trên nhân khẩu học
Cách tiếp cận này tƣ vấn các mặt hàng cho một ngƣời dùng dựa trên sở thích
của ngƣời dùng khác với thông tin nhân khẩu học tƣơng tự. Thông tin nhân khẩu học
là các đặc điểm của ngƣời dùng ví dụ nhƣ: độ tuổi, giới tính, thu nhập, trình độ giáo
dục Không giống nhƣ các phƣơng pháp tiếp cận tƣ vấn khác, một hệ thống tƣ vấn
dựa trên nhân khẩu học thƣờng tạo ra các tƣ vấn ở cấp độ tổng quát hơn nhƣ cho một
giới tính hay độ tuổi cụ thể. Nhƣ vậy, phƣơng pháp này liên quan đến việc nghiên cứu
và lý luận các mối quan hệ giữa các thông tin nhân khẩu học và sở thích của ngƣời
dùng. Phƣơng pháp này ƣu tiên các mặt hàng có nguồn gốc từ sở thích cá nhân, thông
tin cơ bản đã nêu trƣớc đó từ đó phân cấp danh mục các mặt hàng.
1.4.6. Phương pháp tiếp cận dựa trên danh tiếng
Cách tiếp cận này tập trung vào việc xác định tên tuổi ngƣời dùng nổi bật ở một
khía cạnh nào đó hay không và sau đó sử dụng các ý kiến của các cá nhân của ngƣời
dùng đó để làm cơ sở tƣ vấn. Tƣ vấn dựa trên danh tiếng bắt nguồn từ việc thực tiễn xã
hội quan tâm đến sự nổi bật, uy tín, tên tuổi của một số thƣơng hiệu cụ thể nào đó. Nó
nắm bắt thông tin các lĩnh vực khác nhau, từ đó xác định các thƣơng hiệu danh tiếng,
tên tuổi nguời dùng nổi bật cùng các sản phẩm, mặt hàng tƣơng ứng đi kèm để đƣa ra
các tƣ vấn dựa trên chính các ý kiến đó. Đây là một trong những cách giúp cho việc
đánh giá và đƣa ra tƣ vấn cho ngƣời dùng một cách tổng quát hơn là việc trực tiếp so
sánh sở thích từng ngƣời dùng rồi đƣa ra tƣ vấn.
1.4.7. Phương pháp lai
Hệ tƣ vấn đƣợc dựa trên sự kết hợp của trên các kỹ thuật đã đƣợc đề cập. Một
hệ thống lai kết hợp kỹ thuật tiếp cận dựa trên nội dung và lọc cộng tác cố gắng sử
dụng lợi thế của kỹ thuật tiếp cận dựa trên nội dung để sửa chữa những nhƣợc điểm
của kỹ thuật lọc cộng tác. Ví dụ, phƣơng pháp lọc cộng tác gặp vấn đề với các mặt
hàng mới, nó không có thể tƣ vấn đối với các mặt hàng mà không có xếp hạng. Điều
này lại đơn giản đối với phƣơng pháp tiếp cận dựa trên nội dung khi việc dự đoán cho
các mặt hàng mới dựa trên mô tả của ngƣời dùng là tính năng có sẵn và khá dễ dàng.
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 22
Với hai (hoặc hơn) kỹ thuật tƣ vấn cơ bản, một số cách đã đƣợc đề xuất cho việc kết
hợp chúng để tạo ra một hệ thống lai mới.
1.5. Ứng dụng và đánh giá
Hệ thống tƣ vấn đang đƣợc thực hiện với sự chú trọng về thực hành với các ứng
dụng thƣơng mại. Nhƣ vậy, nghiên cứu hệ tƣ vấn liên quan đến những khía cạnh thực
hành áp dụng đối với việc thực hiện của các hệ thống này. Các khía cạnh đó liên quan
đến các giai đoạn khác nhau trong vòng đời của một hệ tƣ vấn, cụ thể là, thiết kế hệ
thống, cài đặt và bảo trì hệ thống trong quá trình hoạt động.
Dựa trên các lĩnh vực ứng dụng cụ thể, chúng ta có các lĩnh vực tổng quát cho
các ứng dụng phổ biến nhất trong hệ thống tƣ vấn:
Giải trí: tƣ vấn cho phim ảnh, âm nhạc, và IPTV.
Phân loại nội dung báo chí cho ngƣời đọc: tƣ vấn tài liệu, tƣ vấn các trang web,
các ứng dụng e-learning và bộ lọc e-mail.
Thƣơng mại điện tử: tƣ vấn các sản phẩm cho ngƣời tiêu dùng mua nhƣ sách,
máy ảnh, máy tính
Dịch vụ: tƣ vấn các dịch vụ du lịch, các tƣ vấn của các chuyên gia tƣ vấn, tƣ
vấn nhà ở hoặc cho thuê, các dịch vụ mai mối…
Một vài hệ tư vấn nổi tiếng:
Phim / TV/ âm nhạc: MovieLens - MovieLens là một trang web giới thiệu
phim. Ngƣời dùng cho hệ thống biết phim bạn thích và không thích. Hệ thống
sử dụng thông tin đó để tạo ra tƣ vấn cá nhân cho các phim khác mà ngƣời
dùng có thể sẽ thích hoặc không thích. MovieLens sử dụng công nghệ lọc cộng
tác để tƣ vấn các bộ phim. Nó hoạt động bằng cách kết hợp những ngƣời sử
dụng có ý kiến tƣơng tự về phim. Mỗi thành viên trong hệ thống có một "vùng
lân cận" những ngƣời sử dụng tƣơng tự. Đánh giá từ những ngƣời láng giềng
đƣợc sử dụng để tạo ra các tƣ vấn cá nhân hóa cho ngƣời sử dụng.
NGHIÊN CỨU PHƢƠNG PHÁP LỌC CỘNG TÁC CHO HỆ THỐNG TƢ VẤN PHIM
NGUYỄN THÙY TRANG – K43 TIN HỌC KINH TẾ Trang 23
Tin tức / báo chí: GroupLens - GroupLens là một phòng thí nghiệm nghiên cứu
tại Khoa Khoa học Máy tính và Kỹ thuật tại Đại học Minnesota, tiến hành
nghiên cứu trong một số lĩnh vực, bao gồm:
- Hệ thống tƣ vấn.
- Cộng đồng trực tuyến.
- Công nghệ di động và công nghệ phổ biến.
- Thƣ viện kỹ thuật số.
- Hệ thống thông tin vùng địa lý.
Sách / Tài liệu: Amazon.com - Thành lập năm 1994, bắt đầu online vào tháng
7/1995. Từ Lĩnh vực kinh doanh ban đầu là sách cho đến nay Amazon đã mở
rộng kinh doanh sang nhiều mặt hàng khác nhƣ băng đĩa, đồ điện tử, game
Tính đến tháng 7-2005, hãng cung cấp 31 chủng loại hàng tại 7 nƣớc. Hiện
Amazon đã cung cấ ặt hàng khác nhau với mục tiêu thực sự trở
thành một siêu thị bán lẻ khổng lồ trên Internet theo đúng nghĩa của nó hơn là
một cửa hàng bán sách và DVD trực tuyến nhƣ trƣớc đây. Amazon.com là một
địa chỉ hết sức lôi cuốn mà ngay ngày đầu thành lập đã trở thành địa điểm tham
khảo cho bất cứ ai muốn bán mặt hàng của mình. Hiện nay có hơn 900.000 đại
lý bán lẻ bên thứ 3 cung cấp mặt hàng của họ lên trang Amazon.
Khi hệ thống tƣ vấn trở nên phổ biến và đƣợc quan tâm hơn, nó sẽ đánh thức
tiềm năng lợi thế trong các ứng dụng mới. Các nhà phát triển hệ tƣ vấn cho một ứng
dụng nhất định phải hiểu rõ các các mặt cụ thể của ứng dụng, yêu cầu của nó, thách
thức ứng dụng và hạn chế. Chỉ sau khi phân tích những yếu tố này, ngƣời ta có thể lựa
chọn thuật toán tƣ vấn tối ƣu và thiết kế một sự tƣơng tác giữa con ngƣời với máy tính
có hiệu quả.