Tải bản đầy đủ (.pdf) (59 trang)

Tìm hiểu phương pháp lọc cộng tác trong thương mại điện tử

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.26 MB, 59 trang )

TRƯỜNG ĐẠI HỌC QUẢNG BÌNH
KHOA KỸ THUẬT – CƠNG NGHỆ THƠNG TIN
-----------

HỒNG VĂN LONG

KHĨA LUẬN
TỐT NGHIỆP ĐẠI HỌC
TÌM HIỂU PHƯƠNG PHÁP LỌC CỘNG TÁC
TRONG THƯƠNG MẠI ĐIỆN TỬ

GIẢNG VIÊN HƯỚNG DẪN: TS. PHẠM XUÂN HẬU

NGÀNH: CÔNG NGHỆ THÔNG TIN
HỆ ĐÀO TẠO: LIÊN THƠNG CHÍNH QUY

Quảng Bình, năm 2019


LỜI CẢM ƠN
Lời đầu tiên, cho phép em gửi lời cảm ơn đến TS. Phan Xuân Hậu, mặc
dù rất bận rộn trong công việc nhưng thầy đã luôn quan tâm giúp đỡ, hướng dẫn,
chỉ bảo tận tình giúp em hồn thành khóa luận này.
Em xin chân thành cảm ơn Quý Thầy Cô trong Khoa Kỹ Thuật - Công
Nghệ Thông Tin trường Đại học Quảng Bình vì những kiến thức mà q Thầy
Cơ truyền đạt cho em trong suốt q trình học tập tại trường.
Xin chân thành cảm ơn các anh chị em lớp đại học CNTT Liên thông K59
và các bạn đồng nghiệp đã luôn bên cạnh, động viên, khuyến khích em trong
suốt thời gian học tập và thực hiện đề tài.
Cuối cùng, em xin gửi đến gia đình, chính từ sự hỗ trợ và động viên từ
phía gia đình mà em yên tâm học tập tốt và hoàn thành khóa luận.


Xin chân thành cảm ơn!
Người thực hiện

Hồng Văn Long

i


MỤC LỤC
LỜI CẢM ƠN ....................................................................................................... i
MỤC LỤC ............................................................................................................ ii
DANH MỤC BẢNG ........................................................................................... iv
DANH MỤC HÌNH ẢNH ................................................................................... v
PHẦN MỞ ĐẦU .................................................................................................. 1
1. Lý do chọn đề tài ............................................................................................ 1
2. Mục đích nghiên cứu ...................................................................................... 2
3. Đối tượng và phạm vi nghiên cứu.................................................................. 2
4. Phương pháp nghiên cứu................................................................................ 2
5. Ý nghĩa khoa học và thực tiễn của đề tài ....................................................... 2
PHẦN NỘI DUNG .............................................................................................. 3
Chương 1: TỔNG QUAN VỀ HỆ THỐNG TƯ VẤN ..................................... 3
1.1. Phương pháp lọc tin. ................................................................................... 3
1.1.1. Lọc thơng tin là gì?. .............................................................................. 3
1.1.2. Kiến trúc tổng quát của hệ thống lọc thông tin. .................................... 4
1.1.3. Lọc thông tin và truy vấn thông tin. ..................................................... 5
1.2. Hệ thống tư vấn. .......................................................................................... 6
1.2.1. Giới thiệu chung.................................................................................... 6
1.2.2 Ứng dụng của hệ thống tư vấn. .............................................................. 8
1.3. Bài toán tư vấn. ........................................................................................... 8
1.4. Phân loại hệ thống tư vấn............................................................................ 9

1.4.1. Phương pháp tư vấn dự trên nội dung. ............................................... 10
1.4.2. Phương pháp tư vấn dự trên lọc cộng tác. .......................................... 15
1.4.3. Phương pháp tư vấn dựa vào lọc nội dung. ........................................ 15
1.5. Kết luận chương 1. .................................................................................... 17
Chương 2: HỆ THỐNG LỌC CÔNG TÁC DỰA TRÊN SẢN PHẨM ....... 19
2.1. Lọc cộng tác dựa trên sản phẩm................................................................ 19
2.1.1. Lọc cộng tác dựa trên sản phẩm sách. ................................................ 19
2.1.2. Đánh giá phương pháp lọc cộng tác. .................................................. 21
ii


2.2 Các thuật tốn tính độ tương tự................................................................. 21
2.2.1 Độ tương tự Cosine. ............................................................................. 21
2.2.2. Độ tương tự dựa theo khoảng cách Euclidean điều chỉnh. ................. 23
2.2.3 Độ tương tự tương quan. ...................................................................... 25
2.2.4 Độ tương tự cosine điều chỉnh. ............................................................ 25
2.3 Kết luận chương 2. ..................................................................................... 27
Chương 3: TÌM HIỂU HỆ THỐNG BÀN HÀNG CỦA AMAZON HIỆN
NAY .................................................................................................................... 28
3.1. Giới thiệu , lịch sử hình thành Amazon.com. ........................................... 28
3.2. Hệ thống khuyến nghị của Amazon. ......................................................... 29
3.3. Sản phẩm, dịch vụ của Amazon.com. ....................................................... 30
3.3.1. Các dòng sản phẩm chính của amazon hiện nay. ............................... 30
3.3.2. Các dịch vụ của Amazon. ................................................................... 31
3.4. Chiến lược kinh doanh. ............................................................................. 32
3.4.1. Tìm hiểu thị trường. ............................................................................ 32
3.5. Tiến hành mua sản phẩm. ......................................................................... 34
3.6. Hình thức thanh tốn của Amazon.com. ................................................... 39
3.6.1.Hình thức thanh tốn của Amazon.com............................................... 39
3.6.2. Hình thức thanh toán tại việt nam. ...................................................... 40

3.7. Chiến lược cạnh tranh ............................................................................... 40
3.7.1. Chiến lược trọng tâm hoá.................................................................... 40
3.7.2. Chiến lược khác biệt hóa sản phẩm. ................................................... 41
3.7.3. Chiến lược chức năng. ........................................................................ 42
3.8. Chiến lược và định hướng chiến lược phát triển. ..................................... 47
3.9. Kết luận. .................................................................................................... 50
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ....................................................... 51
TÀI LIỆU THAM KHẢO ................................................................................ 52

iii


DANH MỤC BẢNG
Bảng 2.1: Bảng đánh giá người dùng với các sản phẩm ..................................... 20
Bảng 2.2: Bảng tính độ tương tự theo công thức Cosine .................................... 22
Bảng 2.3. Bảng dự đốn và tư vấn theo phương pháp tính trung bình dự đốn 23
Bảng 2.4: Bảng tính độ tương tự theo cơng thức Euclidean Điều Chỉnh ........... 24
Bảng 2.5: Bảng tính độ tương tự theo công thức tương quan ............................. 25
Bảng 2.6: Bảng tính độ tương tự theo cơng thức cosine điều chỉnh ................... 27

iv


DANH MỤC HÌNH ẢNH

Hình 1.1. Kiến trúc tổng qt của hệ thống lọc thơng tin. .................................... 4
Hình 1.2: Minh họa hệ thống tư vấn sách cho người đọc ..................................... 7
Hình 1.4: Minh họa phương pháp tư vấn dựa trên lọc nội dung ......................... 10
Hình 1.5. Tư vấn dựa trên nội dung .................................................................... 16
Hình 3.1: Sơ đồ thiết kế của hệ thống khuyến nghị ............................................ 29

Hình 3.2: Sơ đồ tương tác của hệ thống khuyến nghị ........................................ 30

v


PHẦN MỞ ĐẦU
1. Lý do chọn đề tài
Sự phát triển của Internet đã mở ra cho con người rất nhiều cơ hội mới,
nhưng cũng đầy thách thức. Với Internet, con người có cơ hội được tiếp cận với
nguồn thơng tin gần như vô hạn và vẫn đang tăng lên một cách nhanh chóng mỗi
ngày. Tuy nhiên, việc chọn được đúng thơng tin cần thiết từ nguồn tin khổng lồ
đó khơng hề đơn giản. Con người càng ngày càng mất nhiều thời gian vào việc
tìm kiếm và chọn lọc thơng tin. Vấn đề được đặt ra là người dùng cần có những
tư vấn để có thể tìm được thơng tin như mong đợi một cách nhanh chóng.
Từ khi thương mại điện tử ra đời, nó đang ngày càng phát triển mạnh mẽ,
hầu hết tất cả các mặt hàng đều được trao đổi mua bán trên Internet. Điều này
khá thuận lợi cho khách hàng lựa chọn, tuy nhiên đó cũng tạo ra những khó
khăn. Với mỗi từ khóa được tìm kiếm, khách hàng vẫn phải lựa chọn trong danh
sách hàng trăm thậm chí hàng nghìn sản phẩm có vẻ phù hợp. Do đó khách hàng
cần có một sự trợ giúp nào đó để có thể tìm kiếm được sản phẩm phù hợp với
mình nhất, do đó hệ thống tư vấn ra đời. Ngày nay, hệ thống tư vấn không chỉ
phát triển trong thương mại, nó cịn được nghiên cứu và áp dụng trong lĩnh vực
như tư vấn phim, tư vấn âm nhạc, tư vấn sách.
Tư vấn lựa chọn là một trong những phương pháp lọc thông tin được quan
tâm nhiều nhất. Hệ thống tư vấn lựa chọn là những hệ thống có thể hiểu được
người dùng và có thể đưa ra được những gợi ý cho người dùng.
Đầu những năm 90 của thế kỷ XX, một hướng nghiên cứu mới cho các hệ
thống tư vấn lựa chọn, đó là lọc cộng tác. Ngay từ khi ra đời, các hệ thống tư
vấn dựa trên lọc cộng tác đã thể hiện được những ưu điểm cùng tính kinh tế của
mình. Nó nhanh chóng thu hút được sự quan tâm nghiên cứu và đã được ứng

dụng thành công trong khá nhiều hệ thống thương mại như www.amazon.com,
www.ebay.com,... Do nhu cầu cao như vậy nên các phương pháp xây dựng giải
thuật tư vấn nhận được nhiều sự quan tâm trong giới nghiên cứu.
Trong phạm vi khóa luận, em chọn đề tài “Tìm hiểu phương pháp lọc
cộng tác trong thương mại điện tử”.
1


2. Mục đích nghiên cứu
Mục tiêu đặt ra của khóa luận trong đề tài này là: Tìm hiểu tổng quan về hệ
thống tư vấn, các phương pháp được sử dụng trong hệ thống tư vấn, quy trình
thực hiện tư vấn, ứnng dụng của hệ thống tư vấn mua hàng ở trang Amazon.com
trong thực tiễn .
3. Đối tượng và phạm vi nghiên cứu
Nghiên cứu các phương pháp tính độ tương tự, và dự đoán trong hệ thống
tư vấn lọc cộng tác dựa trên sản phẩm (item) với các tập dữ liệu phim trên hệ
thống Group Lens.
4. Phương pháp nghiên cứu.
Nghiên cứu lý thuyết, phân tích q trình thực hiện, mơ phỏng.
5. Ý nghĩa khoa học và thực tiễn của đề tài
Hệ thống tư vấn là những công cụ cung cấp các gợi ý về các sản phẩm cho
người dùng. Một vấn đề quan trọng và phổ biến trong kỹ thuật tư vấn là sử dụng
các phương pháp tư vấn nhằm tăng chất lượng tư vấn và thời gian tính tốn để
áp dụng trong các lĩnh vực: kinh doanh thương mại, dịch vụ. Phương pháp lọc
cộng tác dựa trên sản phẩm sử dụng các giải thuật tính tốn độ tương tự các sản
phẩm để đưa ra các tư vấn cho người dùng.
Đề tài nghiên cứu các bước trong quá trình tư vấn, các giải pháp khắc phục
các yếu tố ảnh hưởng đến chất lượng, nhằm cải thiện được kết quả tư vấn sản
phẩm phù hợp với yêu cầu thực tế của người dùng.
Với mục tiêu trên, khóa luận được chia làm ba chương:

Chương 1: Các kiến thức tổng quan.
Chương 2: Phương pháp tư vấn lọc cộng tác dựa trên sản phẩm.
Chương 3: Tìm hiểu hệ thống bàn hàng của amazon hiện nay.

2


PHẦN NỘI DUNG
Chương 1
TỔNG QUAN VỀ HỆ THỐNG TƯ VẤN
1.1. Phương pháp lọc tin
1.1.1. Giới thiệu lọc thông tin?
Lọc thông tin (Information Filtering) [1] là lĩnh vực nghiên cứu các q
trình cung cấp thơng tin thích hợp, ngăn ngừa và gỡ bỏ thơng tin khơng thích
hợp cho mỗi người dùng. Thơng tin được cung cấp (cịn được gọi là sản phẩm)
có thể là văn bản, trang web, phim, ảnh, dịch vụ hoặc bất kỳ dạng thông tin nào
được sản sinh ra từ các phương tiện truyền thông. Phạm vi ứng dụng của lọc
thông tin trải rộng trong nhiều ứng dụng thực tế khác nhau của khoa học máy
tính. Ứng dụng tiêu biểu nhất của lọc thông tin được kể đến là lọc kết quả tìm
kiếm trong các máy tìm kiếm (Search Engine), lọc e-mail dựa trên nội dung thư
và hồ sơ người dùng, lọc thông tin văn bản trên các máy chủ để cung cấp thông
tin cho tập thể hoặc cá nhân thích hợp, loại bỏ những trang thơng tin có ảnh
hưởng khơng tốt đối với người dùng. Đặc biệt, lọc thơng tin có vai trị quan
trọng cho các hệ thống tư vấn (RS) ứng dụng trong thương mại điện tử.
Các hệ thống lọc thơng tin có thể khác nhau về nguyên lý, phương pháp, kỹ
thuật, phạm vi ứng dụng nhưng đều thực hiện mục tiêu cung cấp cho người dùng
những thông tin cần thiết nhất, loại bỏ những thông tin khơng có giá trị hoặc
khơng thích hợp đối với người dùng. Nguyên lý phổ biến được dùng trong lọc
thông tin là nguyên lý dựa vào dữ liệu (Data-Based) và nguyên lý dựa vào tri
thức (Knowledge-Based). Các phương pháp lọc có thể được thực hiện dựa vào

nội dung thơng tin sản phẩm hoặc lọc dựa trên thói quen sở thích người dùng.
Các kỹ thuật lọc được phát triển dựa trên nền tảng từ lĩnh vực truy vấn thông tin
(Information Retrieval), tách thông tin (Information Extraction), phân loại thông
tin (Information Classificarion). Phạm vi ứng dụng của các hệ thống lọc được áp
dụng cho tất cả các mơ hình thương mại điện tử thực tế: Khách hàng - Khách
hàng (Customer to Customer), Nhà cung cấp - Khách hàng (Business to
Customer), Nhà cung cấp - Nhà cung cấp (Business to Business) [2].
3


1.1.2. Kiến trúc tổng quát của hệ thống lọc thông tin.
Một hệ thống lọc thông tin tổng quát bao gồm bốn thành phần cơ bản [2]:
- Thành phần phân tích dữ liệu (Data Analyser Component).
- Thành phần mơ hình người dùng (User Model Component).
- Thành phần học (Learning Component) .
- Thành phần lọc (Filtering Component).
Thành phần
mơ hình
người dùng

Người dùng

Thành phần
học

Thành
phần lọc

Nhà cung
cấp thơng tin


Thành phần
tích dữ liệu

Hình 1.1. Kiến trúc tổng quát của hệ thống lọc thông tin.
- Thành phần phân tích dữ liệu (DAC) có nhiệm vụ thu thập dữ liệu về sản
phẩm từ các nhà cung cấp thông tin (ví dụ tài liệu, thư điện tử, sách, báo, tạp chí,
phim, ảnh...). Dữ liệu về sản phẩm được phân tích và biểu diễn theo một khn
dạng thích hợp, sau đó chuyển đến bộ phận lọc như Hình 1.1.
- Thành phần mơ hình người dùng (UMC) có thể “hiện” hoặc “ẩn” dùng để
lấy thông tin về người dùng, như giới tính, tuổi, nơi sinh sống và thơng tin người
dùng đã truy vấn trước đó để tạo nên hồ sơ người dùng. Hồ sơ người dùng sau
khi tạo ra được chuyển đến thành phần học để thực hiện nhiệm vụ huấn luyện.
- Thành phần học (LC) thực hiện huấn luyện trên tập hồ sơ và phản hồi của
người dùng theo một thuật toán học máy cụ thể. Thuật toán học lấy dữ liệu từ
thành phần mô tả người dùng, lấy dữ liệu về sản phẩm đã được biểu diễn từ
thành phần lọc kết hợp với thông tin phản hồi người dùng để thực hiện nhiệm vụ
4


huấn luyện. Kết quả quá trình học được chuyển lại cho bộ phận lọc để thực hiện
nhiệm vụ tiếp theo.
- Thành phần lọc (FC) là thành phần quan trọng nhất của hệ thống, có
nhiệm vụ xem xét sự phù hợp giữa hồ sơ người dùng và biểu diễn dữ liệu sản
phẩm để đưa ra quyết định phân bổ sản phẩm. Nếu dữ liệu sản phẩm phù hợp
với hồ sơ người dùng, sản phẩm sẽ được cung cấp cho người dùng đó. Trong
trường hợp ngược lại, hệ thống loại bỏ sản phẩm khỏi danh sách những sản
phẩm phân bổ cho người dùng. Người dùng nhận được những sản phẩm thích
hợp, xem xét, đánh giá, phản hồi lại cho thành phần học để phục vụ q trình
lọc tiếp theo [2].

1.1.3. Lọc thơng tin và truy vấn thơng tin
Có thể nhìn nhận lọc thông tin và truy vấn thông tin như hai mặt của cùng
một vấn đề. Chính vì vậy, nhiều đặc trưng cơ bản của lọc thơng tin có thể tìm
thấy trong lĩnh vực truy vấn thông tin (IR). Tuy nhiên, ta có thể phân biệt sự
khác biệt giữa hai hệ thống này thông qua việc so sánh một số đặc trưng cơ bản
dưới đây [3].
- Kiểu người dùng. Hệ thống truy vấn thông tin đáp ứng nhu cầu cho tất
cả người dùng tại mọi thời điểm mà không cần quan tâm đến họ là ai. Trái lại,
lọc thông tin quan tâm đến những người dùng thường xuyên sử dụng hệ thống
dùng, có hồ sơ rõ ràng, có mối quan tâm dài hạn đối với hệ thống và luôn nhận
được thông tin thích hợp từ hệ thống ở mọi thời điểm.
- Biểu diễn nhu cầu thông tin. Hệ thống truy vấn thông tin biểu diễn nhu
cầu người dùng bất kỳ dưới dạng một câu truy vấn. Lọc thông tin biểu diễn nhu
cầu người dùng lâu dài hệ thống dưới dạng một hồ sơ người dùng. Hồ sơ người
dùng không chỉ ghi lại các đặc trưng thơng tin cá nhân, mà cịn bao hàm các đặc
trưng liên quan đến lịch sử truy cập hay thói quen sử dụng thơng tin của người
dùng này.
- Mục tiêu hệ thống: Hệ thống truy vấn thông tin quan tâm đến các
phương pháp cung cấp thơng tin thích hợp cho mỗi người dùng phù hợp với truy
vấn của người dùng này. Lọc thông tin quan tâm đến các phương pháp gỡ bỏ dữ
5


liệu hơn là việc nỗ lực tìm kiếm thêm dữ liệu. Cũng vì lý do này, lọc thơng tin
được xem là phương pháp giảm tải thơng tin chính được quan tâm nhất hiện nay.
- Cơ sở dữ liệu: Hệ thống truy vấn thông tin thực hiện cung cấp thông tin
trên các cơ sở dữ liệu tĩnh. Lọc thông tin cung cấp thơng tin trên cơ sở dữ liệu
động, có cấu trúc khác nhau và thường xuyên biến đổi.
- Phạm vi tương tác: Hệ thống truy vấn không quan tâm đến sự tương tác
giữa những người dùng khác nhau. Lọc thông tin quan tâm đến sự tương đồng

theo sở thích, thói quen hay những đặc trưng xã hội, tự nhiên khác nhau của tập
người dùng. Hệ thống ln có một mơ hình người dùng để giữ lại những đặc
trưng cần thiết cho mỗi người dùng.
1.2. Hệ thống tư vấn
1.2.1. Giới thiệu chung
Hệ thống tư vấn (Recommender Systems -RSs) là những công cụ hay kỹ
thuật phần mềm cung cấp các gợi ý về các sản phẩm (items) cho người dùng
(users). Các gợi ý này liên quan đến quá trình ra quyết định, như sản phẩm cần
mua, loại âm nhạc cần nghe, hoặc tin tức cần đọc, [2].
"Items" là một thuật ngữ chung được sử dụng để chỉ những gì mà hệ thống
tư vấn cho người dùng. Một hệ thống tư vấn thường tập trung vào một loại sản
phẩm cụ thể (ví dụ, đĩa CD, tin tức, dịch vụ …) và do đó sự thiết kế, giao diện
đồ họa (GUI) và kỹ thuật cốt lõi được sử dụng để tạo ra tư vấn có thể tùy chỉnh
để cung cấp các gợi ý hữu ích và cụ thể về một loại sản phẩm. Trong phạm vi
khóa luận này, thuât ngữ “sản phẩm” sẽ được dùng thay thế cho từ “item”.
Vào giữa thập niên 1990, hệ thống tư vấn được xem như là một lĩnh vực
nghiên cứu độc lập khi bắt đầu tập trung vào những vấn đề liên quan đến tư vấn
mà phụ thuộc rõ ràng những cấu trúc trọng số. Trong hầu hết các trường hợp, tư
vấn được đưa về việc đánh giá trọng số cho những sản phẩm mà người dùng
chưa chọn lựa.
Trong hình thức đơn giản nhất, các tư vấn mang tính cá nhân hóa cung cấp
một danh sách các sản phẩm đã được xếp hạng. Để thực hiện việc xếp hạng này,
hệ thống tư vấn cố gắng dự đoán các sản phẩm hoặc dịch vụ phù hợp nhất dựa
6


trên sở thích của người dùng. Để hồn thành một công việc như thế, hệ thống tư
vấn thu thập sở thích của các người dùng, bằng cách dựa trên các xếp hạng của
họ về các sản phẩm hoặc được suy diễn từ các hành động của người dùng. Ví dụ,
một hệ thống tư vấn có thể xem xét việc một người dùng xem thông tin trên

website của một trang sản phẩm như là một dấu hiệu ngầm định về sở thích của
người đó đối với sản phẩm trên trang đó.
Ví dụ minh họa hoạt động của 1 hệ thống tư vấn: Một người dùng đăng
nhập vào một hệ thống website đọc sách, người này cần xem 1 quyển sách về
văn học nhưng không biết là nên xem quyển sách nào, hệ thống website cần tư
vấn cho người đó xem một hoặc vài quyển sách mà dự đoán rằng người này sẽ
thích quyển sách mà được hệ thống tư vấn. Để tư vấn được cho người dùng, hệ
thống cần thu thập các thông tin về người dùng và các người dùng khác, thơng
tin các quyển sách. Có một vài cách tư vấn truyền thống đơn giản nhất như,
chọn những quyển sách được nhiều người ưa thích nhất, hoặc chọn những quyển
mới nhất để tư vấn. Tuy nhiên để nâng cao chất lượng của tư vấn cho người
dùng, hệ thống tư vấn cần sử dụng các thông tin của tất cả những người dùng và
thông tin của tất cả các sản phẩm, sử dụng các thuật toán để đưa ra tư vấn phù
hợp nhất cho người dùng.

Hình 1.2: Minh họa hệ thống tư vấn sách cho người đọc

7


1.2.2 Ứng dụng của hệ thống tư vấn
Phạm vi ứng dụng của hệ thống tư vấn lựa chọn là rất rộng. Trong thương
mại điện tử, hầu hết các hệ thống này là các hệ thống bán sách, giới thiệu phim,
tin tức, đĩa CD ca nhạc, các trang Web [2].
 Phim: Firefly, MovieCritic, MovieLens, Mangarate, Morse
 Âm nhạc: Firefly, CdNow
 Sách: Amazon, Barnes&Noble
 Web: Webwatcher, Webfilter, Webwasher, Select, Webdoggie, Gustos
 Thư viện/Bảo tàng: ScienceIndex, Active Web Museum,
 BIRD, ChaffAway

 Tin tức: Shift, Infoscan, NewsSieve, Borger, RAMA, GroupLens.
 Tài liệu: Fab
 Thương mại điện tử: TripMatcher (du lịch), ShopMatcher, E-Markets
 Các ứng dụng khác…
1.3. Bài toán tư vấn
Bài toán tư vấn được các tác giả Adomavicius và Tuzhilin [7] mô tả như
sau:
Gọi U = (u1,u2,u3...,um ) là tập hợp tất cả người dùng trong hệ thống tư vấn,
I = (i1,i2,i3,...,in) là tập tất cả các sản phẩm có thể tư vấn. Một hàm g = U x I
→ R trong đó R là một tập hợp có thứ tự, được dùng để đo sự phù hợp của sản
phẩm in với người dùng um. Như vậy, với mỗi người dùng um thuộc vào U, hệ tư
vấn cần chọn ra các sản phẩm 𝑖 𝑚𝑎𝑥,𝑈𝑚 𝜖 𝐼,chưa biết với người dùng um sao cho
hàm g đạt giá trị lớn nhất.
∀ um ϵ U, i 𝑖 𝑚𝑎𝑥,𝑈𝑚 = arg max g(um ,in )
Trong các hệ thống tư vấn, mức độ phù hợp của sản phẩm thường được
biểu diễn theo đánh giá thang điểm (rating), phụ thuộc vào từng ứng dụng, các
đánh giá này có thể được thực hiện trực tiếp bởi người dùng hoặc được tính tốn
bởi hệ thống. Mỗi người dùng thuộc khơng gian ngươi dùng U được xác định
bởi một hồ sơ (user profile), những thơng tin lưu trong hồ sơ này có thể bao gồm
các thơng tin như giới tính, tuổi, quốc gia, tính trạng hơn nhân, … hay cũng có
8


thể bao gồm các thơng tin về sở thích, mối quan tâm của họ. Tương tự như vậy,
mỗi sản phẩm cũng được mô tả bởi tập hợp các đặc trưng của chúng.
Ví dụ, trong hệ thống tư vấn phim, các đặc trưng của một bộ phim có thể là
tên phim, thể loại, đạo diễn, diễn viên chính,… Một cách khát qt tiến trình tư
vấn có thể được mơ tả như sau:

Hình 1.3. Các thành phần chính của hệ thống tư vấn

Đầu tiên, bộ phận học hồ sơ người dùng phân tích các sở thích ngươi dùng.
Một khi hệ thống hiểu được người dùng quan tâm đến điều gì, nó thực thi một
thuật toán tư vấn, so sánh, tổ hợp giữa các hồ sơ người dùng hoặc giữa hồ sơ
người dùng với các đặc trưng sản phẩm, sau đó chọn ra tập hợp những sản phẩm
người dùng có thể ưa thích và gửi kết quả tư vấn về sản phẩm, hiển thị tự động
cho người dùng.
1.4. Phân loại hệ thống tư vấn
Có rất nhiều cách để dự đốn, ước lượng hạng/điểm cho các sản phẩm như
sử dụng học máy, lí thuyết xấp sỉ, các thuật toán dựa trên kinh nghiệm. Theo các
hệ thống tư vấn thường được phân thành ba loại: [3].
 Tư vấn dựa trên nội dung: Người dùng sẽ được tư vấn những sản phẩm
tương tự với những sản phẩm đã được người dùng đó ưa thích trước đây.
 Tư vấn dựa trên cộng tác: Người dùng sẽ được tư vấn những sản phẩm
được ưa chuộng xuất phát từ những người dùng có cùng thị hiếu và sở thích với
mình.

9


 Tư vấn dựa trên cách tiếp cận kết hợp: Kết hợp hai phương pháp tiếp
cận dựa trên nội dung và cộng tác.
1.4.1. Phương pháp tư vấn dự trên nội dung
Với phương pháp tư vấn dựa trên nội dung, độ phù hợp r(u,i) của sản phẩm
i với người dùng u được đánh giá dựa trên độ phù hợp r(u,i’) trong đó i’  I và
“tương tự” như i. Ví dụ, để gợi ý một bộ phim cho người dùng u, hệ thống tư
vấn sẽ tìm các đặc điểm của những bộ phim từng được u đánh giá cao như diễn
viên, đạo diễn …); sau đó chỉ những bộ phim tương đồng với sở thích của u mới
được giới thiệu.
Hướng tiếp cận dựa trên nội dung bắt nguồn từ những nghiên cứu về thu
thập thông tin (Information Retrieval) và lọc thông tin (Information Filtering).

Do đó, rất nhiều hệ thống dựa trên nội dung hiện nay tập trung vào tư vấn các
đối tượng chứa dữ liệu văn bản như tin tức, website. Những tiến bộ so với
hướng tiếp cận cũ của IR là do việc sử dụng hồ sơ về người dùng (chứa thơng
tin về sở thích, nhu cầu,..). Hồ sơ này được xây dựng dựa trên những thông tin
được người dùng cung cấp trực tiếp (khi trả lời khảo sát) hoặc gián tiếp (do khai
phá thông tin từ các giao dịch của người dùng).

Hình 1.4: Minh họa phương pháp tư vấn dựa trên lọc nội dung
Giả sử ta xem Content(i) là một thông tin riêng của sản phẩm, nghĩa là một
tập các đặc tính đặc trưng cho sản phẩm i. Nó thường được tính tốn thơng qua
việc trích rút từ tập các đặc tính của sản phẩm i (nội dung của nó) và ứng với
10


mỗi mục đích tư vấn sẽ xác định ra sản phẩm thích hợp. Dễ dàng nhận thấy
những hệ thống tư vấn dựa trên nội dung thường thiết kế cho hầu hết những sản
phẩm được tư vấn dựa trên text (văn bản) và nội dung của những hệ thống này
được mô tả như là một từ khóa (keyword). Chẳng hạn, thành phần của hệ thống
Fab.com dựa trên nội dung tư vấn trang Web cho người dùng, trình bày nội dung
trang Web đó với 100 từ quan trọng nhất..“Tầm quan trọng” (việc cung cấp
nhiều thông tin) của từ kj trong tài liệu dj được xác định bằng độ đo trọng số wij
định nghĩa qua một vài phương pháp khác nhau.
Một trong những thước đo phổ biến để xác định mức độ quan trọng của từ
khóa trong việc truy vấn thơng tin là đo tần suất xuất hiện của mục từ trong tài
liệu (Term Frequency ) và tần số nghịch đảo của tần suất xuất hiện các tài liệu
(Inverse Document Frequency) được định nghĩa như sau: Giả sử N là tổng số tài
liệu được tư vấn cho người dùng và từ khóa kj xuất hiện trong ni của chúng (ni
là tổng số tài liệu có từ khóa k). Giả sử fi,j là số lần từ khóa ki xuất hiện trong tài
liệu dj. TFi,j là tần số xuất hiện từ khóa ki trong tài liệu dj:
TFi , j 


f i, j
max z f z , j

Trong đó: max z f z , j là số lần xuất hiện cao nhất của từ khóa kz trong tồn
tập tài liệu dj. Tuy nhiên, những từ khóa xuất hiện trong nhiều tài liệu có thể
khơng được phân biệt với nhau giữa tài liệu liên quan và không liên quan. Vì
vậy, tần số nghịch đảo tần suất xuất hiện của các tài liệu IDFi được đưa ra để
phân biệt giữa các từ khóa này và thường dùng kết hợp với tần suất xuất hiện
của từ khóa (TFi,j mang lại tầm quan trọng cho từ khóa):
IDFi  log

N
ni

Vậy sự kết hợp của TF và IDF sẽ xác định mức độ quan trọng của từ khóa
ki cần xét.
wi , j  TFi , j  IDFi

Và nội dung của tài liệu dj được xác định như sau:
Content (d j )  ( w1 j ,...,wkj )
11


Như đã nói ở trên, hệ thống dựa trên nội dung thường được dùng để tư vấn
những những sản phẩm đã được người dùng đó trước đây ưa thích. Cụ thể,
những sản phẩm được tiến cử đem so sánh trọng số với các sản phẩm mà người
dùng trước đây đã sử dụng và từ đó tìm ra sản phẩm phù hợp nhất để tư vấn.
ContentBasedProfile(u) là hồ sơ cá nhân của người dùng u chứa những thị
hiếu và sở thích của người dùng. Hồ sơ cá nhân thu được thông qua việc phân

tích nội dung của những sản phẩm và trọng số do người dùng đánh giá trước đó,
nó thường được xây dựng bằng cách sử dụng kỹ thuật phân tích từ khóa từ việc
truy vấn thơng tin. Chẳng hạn, ContentBasedProfile(u) có thể được định nghĩa
như là một véc-tơ của những mức độ quan trọng (wu1, …., wuk) , mỗi mức này sẽ
biểu diễn tầm quan trọng của từ khóa ki với người dùng u và nó có thể được tính
tốn từ các véc-tơ nội dung đã được đánh trọng số cụ thể thơng qua các kỹ thuật
khác nhau. Ví dụ một vài phương pháp tính trung bình cộng, tính tốn
ContentBasedProfile (u) như là một véc-tơ “trung bình” từ những véc-tơ nội
dung cụ thể. Mặt khác, sử dụng phân loại Bayes để đánh giá khả năng giống
nhau của tài liệu.
Trong những hệ thống dựa trên nội dung, hàm tiện ích r(u,i) thường được
định nghĩa như sau:

r (u, i)  score (ContentBase Pr ofile(u), content (i))
Dựa trên việc truy vấn thông tin để tư vấn các trang Web, Web sites URLs
hoặc các thơng điệp tin tức Usenet, thì cả ContentBasedProfile (u) của người
dùng u và Content (i) của tài liệu i đều có thể được trình bày như các TF-IDF


w của các từ khóa quan trọng. Hàm r(u,i) được biểu diễn trong


việc truy vấn thông tin thường được xác định theo véc-tơ w và w .
véc-tơ


w

u




i

u

i

Ví dụ, nếu user u đọc nhiều bài báo trực tuyến về chủ để Tin Sinh Học thì
kỹ thuật tư vấn dựa trên nội dung sẽ có khả năng tư vấn những bài báo khác về
tin sinh học cho user u nếu nó có nhiều thuật ngữ liên quan đến tin sinh học hơn
vì vậy ContentBasedProfile (u) sẽ được xác định bằng véc-tơ


w

u

mô tả các

thuật ngữ kj với mức độ quan trọng cao wju. Hơn nữa, hệ thống tư vấn này còn
12


sử dụng cosine hoặc thước đo mức độ tương đồng để gán giá trị hàm r(u,i) cao
cho những bài báo i có nhiều thuật ngữ tin sinh học và giá trị hàm hàm r(u,i)
thấp cho những bài báo có ít thuật ngữ tin sinh học hơn thông qua véc-tơ


w.

i

Bên cạnh phương pháp truy vấn thông tin mà cơ sở là dựa trên các hàm
heuristic truyền thống, tư vấn dựa trên nội dung còn sử dụng các kỹ thuật khác
như phân loại Bayes và nhiều kỹ thuật máy học khác bao gồm phân cụm, cây
quyết định, và mạng nơ-ron nhân tạo. Những kỹ thuật này khác với phương
pháp dựa trên việc truy vấn thơng tin, ở đây chúng tính tốn hàm tiện ích khơng
dựa trên hàm heuristic giống như việc đánh giá độ tương quan bằng hàm cosine
mà nó dựa trên các mơ hình được biết từ dữ liệu phía dưới nhờ sử dụng các kỹ
thuật máy học và thống kê. Chẳng hạn, dựa trên tập các trang Web được đánh
trọng số thể hiện mức độ liên quan đến người dùng, sử dụng kỹ thuật phân loại
Naïve Bayes để phân loại các trang Web không được đánh trọng số. Hơn nữa,
kỹ thuật phân loại Naïve Bayes thường được dùng để đánh giá xác suất trang pj
có thuộc lớp Ci khơng (có quan hệ hay khơng có quan hệ) dựa vào tập các từ
khóa k1,j ,……,kn,j trong trang đó:
Mặc dù giả thuyết các từ khóa độc lập với nhau khơng nhất thiết phải áp
dụng ở nhiều ứng dụng nhưng kết quả thực nghiệm đã chứng minh kỹ thuật
phân loại Naïve Bayes vẫn đưa ra độ chính xác cao về mức độ phân loại. Hơn
nữa cả P (kx,j| Ci) và P (Ci) có thể được đánh giá từ dữ liệu hướng dẫn phía dưới.
Với mỗi trang pj, xác suất P (Ci| k1,j & …& kn,j) được tính tốn ứng với mỗi lớp
Ci và trang pj sẽ được gán cho lớp Ci nếu nó có xác suất lớn nhất.
Khi việc cung cấp kỹ thuật tư vấn khơng rõ ràng thì tập truy vấn văn bản
sẽ đưa ra một vài kỹ thuật thường được sử dụng trong những hệ thống tư vấn nội
dung. Một trong số đó là kỹ thuật lọc thích ứng; nó tập trung vào việc nhận biết
các tài liệu liên quan cũng như là quan sát từng tài liệu trong những luồng tài
liệu tiếp theo để tăng thêm độ chính xác. Một ví dụ khác là đặt ngưỡng
(threshold setting). Nó tập trung vào việc xác định phạm vi tài liệu ăn khớp với
những câu truy vấn được đưa ra liên quan đến người dùng.

13



Theo như nhận xét trong [6] hệ thống tư vấn hướng dựa trên nội dung đưa
ra một số những giới hạn sau:
- Giới hạn trong phân tích nội dung: Nếu hai sản phẩm khác nhau được
biểu diễn cùng một tập đặc trưng thì chúng khơng thể phân biệt được. Vì vậy khi
những tài liệu dựa trên văn bản thường được biểu diễn dưới những từ khóa quan
trọng, thì những hệ thống dựa trên nội dung không thể phân biệt được cái nào
hợp, cái nào không hợp nếu chúng cùng sử dụng một thuật ngữ.
- Q chun mơn hóa (overspecialization): Khi hệ thống chỉ có thể tư
vấn những sản phẩm có trọng số cao dựa trên những thông tin của người dùng,
thì người dùg sẽ bị giới hạn trong việc tư vấn những sản phẩm khác có liên quan
sản phẩm trên mà đã được đánh trọng số. Chẳng hạn, một người khơng có kinh
nghiệm với các món ăn của người Huế thì ngay cả những cửa hàng lớn nhất kiểu
Huế trong thành phố cũng không bao giờ được tư vấn. Đây là một vấn đề đã
được nghiên cứu trong nhiều lĩnh vực, nó thường được ấn định bằng việc giới
thiệu một cách ngẫu nhiên. Chẳng hạn, việc sử dụng những thuật toán di truyền
được đề xuất như là khả năng giải quyết các vấn đề về ngữ cảnh của việc lọc
thông tin. Thêm vào đó, vấn đề liên quan đến việc q chun mơn hóa cịn là
những hệ thống dựa trên nội dung không thể tư vấn những sản phẩm mà khác
với những gì mà người dùng đã biết trước đó. Trong trường hợp nào đó, những
sản phẩm khơng nên được tư vấn nếu chúng có quá nhiều điểm tương đồng với
những gì mà người dùng đã gặp, như một bài báo tin tức tuy là khác nhau nhưng
đưa về cùng một sự kiện. Vì vậy, một vài hệ thống tư vấn dựa trên nội dung
không chỉ lọc ra những sản phẩm có q nhiều điểm khác với sở thích của người
dùng mà cịn lọc cả chính những sản phẩm có quá nhiều điểm giống của người
dùng trước đó. Nói tóm lại, tính đa dạng của việc tư vấn thường là những đặc
điểm mô tả trong hệ thống tư vấn. Lý tưởng nhất là người dùng sẽ tự đưa ra
trọng số của những lựa chọn thay cho việc đưa ra một tập các khả năng lựa chọn.
Chẳng hạn, không phải là một ý kiến tuyệt vời nếu ta tư vấn tất cả các bộ phim

của Woody Allen tới người dùng mà chỉ ưa thích một trong số những bộ phim
đó.
14


- Vấn đề người dung mới: Người dùng phải đánh giá đầy đủ cho những
sản phẩm trước khi hệ thống tư vấn dựa trên nội dung có thể hiểu những sở thích
của người dùng và từ đó đưa ra cho người dùng những tư vấn tin cậy. Vì vậy,
với người dùng mới, thông tin về việc đánh trọng số rất ít nên khó có thể đảm
bảo việc tư vấn sẽ tốt.
- Vấn đề thông tin sản phẩm mới: Lọc nội dung phân tích các đặc điểm
của sản phẩm để so sánh với những sản phẩm mà người dùng đã đánh giá trước
đó, với những sản phẩm có thơng tin khơng đầy đủ hoặc quá đặc biệt, rất khó để
đưa ra 1 tư vấn chính xác với các sản phẩm như vậy.
1.4.2. Phương pháp tư vấn dự trên lọc cộng tác
- Phương pháp tư vấn dựa vào lọc nội dung (Content-Based Filtering) [1]
Hệ thống tư vấn cho người dùng những sản phẩm mới có nội dung tương tự với
một số sản phẩm họ đã từng mua hoặc từng truy nhập trong quá khứ.
- Phương pháp tư vấn dựa vào lọc cộng tác (Collaborative Filtering) [1]:
Người dùng sẽ được tư vấn một số sản phẩm của những người có sở thích giống
họ đã từng ưa thích trong quá khứ.
- Phương pháp tư vấn dựa vào lọc kết hợp [1]: Hệ thống tư vấn cho người
dùng những sản phẩm tương tự với một số sản phẩm họ đã từng mua hoặc từng
truy nhập trong quá khứ và sản phẩm của những người có sở thích giống họ đã
từng ưa thích trong quá khứ.
1.4.3. Phương pháp tư vấn dựa vào lọc nội dung
Hệ tư vấn dựa trên nội dung đưa ra các tư vấn dựa trên phỏng đốn rằng
một người có thể thích các sản phẩm có nhiều đặc trưng tương tự với các sản
phẩm mà họ đã từng ưa thích. Theo đó, độ phù hợp g(u,i) của sản phẩm i với
người dùng u được đánh giá dựa 6 trên độ phù hợp g(u, ij), trong đó ij ∈ I và

tương tự về nội dung i.
Ví dụ, để gợi ý một bộ phim cho người dùng u, hệ thống tư vấn sẽ nhận ra
sở thích của u qua các đặc điểm của những bộ phim từng được u đánh giá cao
(như thể loại, tên đạo diễn…); sau đó chỉ những bộ phim tương đồng với sở
thích của u mới được giới thiệu.
15


Hướng tiếp cận dựa trên nội dung bắt nguồn từ những nghiên cứu về thu
thập thông tin (IR - information retrieval) và lọc thông tin (IF - information
filtering) [1]. Do đó, rất nhiều hệ thống dựa trên nội dung hiện nay tập trung vào
tư vấn các đối tượng chứa dữ liệu text như văn bản, tin tức, website… Những
tiến bộ so với hướng tiếp cận cũ của IR là do việc sử dụng hồ sơ về người dùng
(chứa thông tin về sở thích, nhu cầu…). Hồ sơ này được xây dựng dựa trên
những thông tin được người dùng cung cấp trực tiếp (khi trả lời khảo sát) hoặc
gián tiếp (do khai phá thông tin từ các giao dịch của người dùng).

Hình 1.5. Tư vấn dựa trên nội dung
Để cụ thể hơn, đặt Content(i) là tập thông tin (hay tập các đặc trưng) về
sản phẩm i. Do hệ thống dựa trên nội dung được thiết kế chủ yếu để dành cho
các sản phẩm dạng văn bản hoặc có các mơ tả nội dung (metadata) dạng văn bản
nên phương pháp biểu diễn thường được lựa chọn là mơ hình khơng gian vector
(Vector Space Model ). Theo đó, nội dung sản phẩm được biểu diễn bởi các từ
khóa: Content(i) = (wi1,wi2,…,wik), với wi1,..wik là trọng số của các từ khóa (như
TF-IDF) từ 1 tới k trong khơng gian từ khóa được xây dựng từ trước.
Bên cạnh các phương pháp IR, hệ tư vấn dựa trên nội dung còn sử dụng
nhiều phương pháp học máy khác như: phân lớp Bayes, cây quyết định, mạng
nơron nhân tạo… Các phương pháp này khác với các phương pháp của IR ở chỗ
nó dựa trên các mơ hình học được từ dữ liệu nền. Ví dụ, dựa trên tập các trang


16


web đã được người dùng đánh giá là “thích” hay “khơng thích” có thể sử dụng
phân lớp Bayes để phân lớp các trang web chưa được đánh giá.
Một số hạn chế của hệ thống tư vấn dựa trên nội dung
Theo cơng trình khảo sát các hệ tư vấn của Adomavicius và Tuzhulin [8],
các hệ thống tư vấn dựa trên nội dung có một vài hạn chế sau đây:
- Sự phân tích nội dung bị hạn chế (Restricted content analysis): Tính hiệu
quả của hệ tư vấn này phụ thuộc vào việc mô tả một cách đầy đủ các đặc trưng
nội dung của sản phẩm. Vì vậy, nội dung sản phẩm phải hoặc có thể được trích
xuất tự động bởi máy tính hoặc dễ dàng được trích xuất bằng tay. Có nhiều
trường hợp, u cầu này rất khó thực hiện, ví dụ trong miền ứng dụng tư vấn dữ
liệu đa phương tiện như ảnh đồ họa, phim, âm thanh,… Trích xuất tự động đặc
trưng nội dung của các đối tượng dữ liệu này là một bài tốn khó, và việc trích
xuất bằng tay là khơng khả thi do chi phí lớn.
- Sự lạm dụng nội dung chuyên môn (Content over-specialisation): Sự tư
vấn chỉ được tạo ra từ phân tích nội dung các sản phẩm đã từng được người
dùng ưa thích, trong khi các những đánh giá của người dùng khác có thể được sử
dụng để tư vấn những sản phẩm mới (thậm chí khác loại), những tư vấn dựa trên
nội dung chỉ có thể đưa ra những sản phẩm tương tự với những gì họ đã từng
đánh giá cao trước đây. Trong nhiều trường hợp, những sản phẩm không nên
được tư vấn nếu nó quá giống với các sản phẩm đã được đánh giá từ trước. Một
ví dụ điển hình là trong các hệ thống tư vấn tin tức, những tin tức tư vấn được
đánh giá cao hơn nếu nó khơng phải là một bản trích dẫn hoặc có nội dung thơng
tin trùng lặp.
- Vấn đề người dùng mới (new user problem): Người dùng cần đánh giá
một lượng sản phẩm đủ lớn trước khi hệ thống tư vấn có thể thực sự hiểu sở
thích của họ, và đưa ra những tư vấn đáng tin cậy.
1.5. Kết luận chương 1

Trong chương này, khóa luận đã trình bày một số khái niệm và kiến thức
cơ sở về hệ thống tư vấn, bài toán tư vấn, các phương pháp tư vấn. Qua đó cho
ta thấy thế nào là hệ thống tư vấn, việc cần thiết phải làm là làm thế nào để tư
17


vấn có độ chính xác cao, độ phức tạp thấp, thời gian tính tốn nhanh. Tuy nhiên,
ta phải giải quyết bài toán tư vấn với dữ liệu lớn, so sánh đánh giá mối liên hệ
giữa hệ giữa sản phẩm và người dùng, giữa người dùng và những người dùng
khác, giữa sản phẩm với những sản phẩm khác?

18


Chương 2
HỆ THỐNG LỌC CÔNG TÁC DỰA TRÊN SẢN PHẨM
2.1. Lọc cộng tác dựa trên sản phẩm
Giải thuật tư vấn dựa trên sản phẩm nhằm đưa ra các dự đoán cho người
dùng bởi đối tượng được xét ở đây là sản phẩm. Quá trình tư vấn bằng phương
pháp lọc cộng tác dựa trên sản phẩm sẽ tính tốn độ tương tự các sản phẩm, sau
đó lựa chọn k sản phẩm tương tự {i1, i2,…ik}. Khi những sản phẩm có độ tương
tự nhất được tìm hết, dự đốn được tính tốn dựa trên trung bình của đánh giá
người dùng trên những sản phẩm tương tự. Cụ thể quá trình tư vấn bằng phương
pháp lọc cộng tác dựa trên sản phẩm như sau: [1].
- Bước 1: Xây dựng Ma trận đánh giá: Hàng là các người dùng, Cột là các
sản phẩm.
- Bước 2: Tính độ tương tự của 2 sản phẩm, xây dựng Ma trận tương tự của
các sản phẩm.
- Bước 3: Tính dự đốn của người dùng đối với sản phẩm dựa trên những
sản phẩm lân cận với sản phẩm dự đoán và đưa ra tư vấn.

2.1.1. Lọc cộng tác dựa trên sản phẩm sách
Giả sử sản phẩm ở đây là sách, và người dùng là các sinh viên đăng nhập
vào 1 hệ thống Webstie để mượn sách. Mỗi người dùng được lưu trữ trên hệ
thống với các hồ sơ bao gồm thông tin cá nhân, và các đánh giá của người dùng
đó với các loại sách, đánh giá theo thang điểm từ 1 sao đến 5 sao, với ý nghĩa là
đánh giá càng cao thì người dùng càng thích loại sách đó.
Cơng việc của hệ thống tư vấn là: Khi một người dùng đăng nhập vào hệ
thống, hệ thống cần tư vấn những loại sách cho người dùng đó và những loại
sách được tư vấn đó được dự đốn là người dùng sẽ đánh giá cao. Bằng cách hệ
thống xem xét các loại sách mà người dùng chưa xem, so sánh độ tương tự giữa
loại sách đó với những sách khác. Độ tương tự 2 loại sách được tính dựa trên
những người dùng từng đánh giá trên cả 2 loại sách đó theo 1 thuật tốn tính xác
suất. Bước cuối cùng của hệ thống tư vấn là dự đoán đánh giá của người dùng

19


×