Tải bản đầy đủ (.docx) (62 trang)

Nghiên cứu hệ đề xuất thời trang dựa trên kỹ thuật thừa số hóa ma trận

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (676.7 KB, 62 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DUY TÂN

--------------

LÊ XUÂN TRƯỜNG

NGHIÊN CỨU HỆ ĐỀ XUẤT THỜI TRANG DỰA
TRÊN KỸ THUẬT THỪA SỐ HÓA MA TRẬN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

ĐÀ NẴNG, 2024

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DUY TÂN

--------------

LÊ XUÂN TRƯỜNG

NGHIÊN CỨU HỆ ĐỀ XUẤT THỜI TRANG DỰA
TRÊN KỸ THUẬT THỪA SỐ HÓA MA TRẬN

Chuyên ngành: Khoa học máy tính
Mã số: 848 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS. Lê Thanh Long


ĐÀ NẴNG, 2024

i

LỜI CẢM ƠN

Đầu tiên, tôi xin bày lòng cảm ơn chân thành và sâu sắc nhất đến TS Lê Thanh
Long vì sự hướng dẫn và chỉ bảo tận tình của Thầy trong suốt quá trình em theo học
và làm luận văn tốt nghiệp. Những định hướng, những lời khuyên và những kiến
thức vô cùng quý giá của Thầy đã giúp em rất nhiều trong quá trình hoàn thành luận
văn tốt nghiệp.

Tôi xin được gửi lời cảm ơn sâu sắc nhất tới các Thầy Cơ trong khoa Khoa
học Máy Tính – trường Đại học Duy Tân đã tận tình giảng dạy, trang bị cho tôi
những kiến thức quý báu trong suốt q trình tơi học tập tại khoa. Đây cũng chính là
tiền đề giúp tơi hồn thiện luận văn thạc sĩ.

Cuối cùng, tôi cũng xin được gửi lời cảm ơn chân thành đến các anh chị em
đồng nghiệp cũng như gia đình, bạn bè, người thân đã giúp đỡ tôi cả về vật chất
lẫn tinh thần để tơi hồn thành được luận văn này.

Mặc dù đã rất cố gắng nhưng luận văn chắc chắn khơng tránh khỏi những
thiếu sót, tôi rất mong nhận được những ý kiến nhận xét và đánh giá từ phía các
Thầy Cơ để luận văn được hồn thiện hơn.

Tơi xin chân thành cảm ơn!

Đà Nẵng, ngày tháng năm 2024
Học viên


ii

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn “Nghiên cứu hệ đề xuất thời trang dựa trên kỹ
thuật thừa số hóa ma trận” được thực hiện dưới sự hướng dẫn của TS Lê Thanh
Long. Tham khảo từ những nghiên cứu liên quan đều được trích dẫn một cách rõ
ràng trong danh mục tài liệu tham khảo. Khơng có việc sao chép tài liệu, cơng trình
nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo.

iii

MỤC LỤC
LỜI CẢM ƠN...........................................................................................................i
LỜI CAM ĐOAN....................................................................................................ii
DANH MỤC CÁC TỪ VIẾT TẮT.........................................................................v
DANH MỤC CÁC HÌNH VẼ................................................................................vi
MỞ ÐẦU..................................................................................................................1

1. Tính cấp thiết của đề tài.....................................................................................1
2. Mục tiêu của đề tài............................................................................................2
3. Đối tượng và phạm vi nghiên cứu.....................................................................3
4. Các đóng góp của đề tài.....................................................................................3
5. Bố cục của đề tài...............................................................................................3
Chương 1. TỔNG QUAN VỀ HỆ ĐỀ XUẤT........................................................5
1.1. Khái niệm hệ đề xuất......................................................................................5
1.2. Lợi ích của hệ thống đề xuất...........................................................................6
1.3. Các lĩnh vực ứng dụng của hệ đề xuất............................................................7
1.4. Phát biểu bài toán đề xuất...............................................................................8
1.5. Qui trình xây dựng hệ đề xuất........................................................................8

1.6. Các hướng tiếp cận xây dựng hệ đề xuất......................................................10

1.6.1. Lọc cộng tác..........................................................................................10
1.6.2. Lọc dựa trên nội dung...........................................................................11
1.6.3. Hệ thống đề xuất lai (Hybrid recommender systems)............................13
1.6.4. Phản hồi rõ ràng và phản hồi ngầm......................................................15
1.6.5. Các kỹ thuật không cá nhân hóa...........................................................16
1.6.6. Deep learning trong hệ thống đề xuất:..................................................16
1.6.7. Hệ thống đề xuất tin tức........................................................................17
1.7. Những vấn đề khi áp dụng phương pháp lọc cộng tác.........................................18
1.8. Tình hình nghiên cứu trong và ngoài nước.............................................................18
Chương 2. CƠ SỞ LÝ THUYẾT KỸ THUẬT THỪA SỐ HÓA MA TRẬN.......20
2.1. Giới thiệu Kỹ thuật thừa số hóa ma trận.................................................................20

iv

2.1.1. Giới thiệu........................................................................................................20
2.1.2. Ưu điểm và nhược điểm của Kỹ thuật thừa số hóa ma trận....................20
2.2. Mơ hình Phân rã Ma trận............................................................................................23
2.3. Hệ Số Bias......................................................................................................................26
2.4. Phương Pháp Giảm Gradient Ngẫu Nhiên (Stochastic Gradient Descent).....27
2.5. Regularization................................................................................................................28
2.6. Xây dựng biểu diễn tf.SparseTensor của Ma trận xếp hạng...............................29
2.7. Tính toán lỗi...................................................................................................................30
Chương 3. XÂY DỰNG HỆ ĐỀ XUẤT THỜI TRANG DỰA TRÊN KỸ
THUẬT THỪA SỐ HÓA MA TRẬN..................................................................32
3.1. Khám phá dữ liệu Clothinglens.................................................................................36
3.1.1 Người dùng......................................................................................................36
3.1.2 Sản phẩm thời trang (Clothing)...................................................................38
3.2. Đào tạo mơ hình phân rã ma trận..............................................................................40

3.2.1 Lớp trợ giúp CFModel (Mơ hình lọc cộng tác)..........................................40
3.3.2 Đào tạo mô hình phân rã ma trận................................................................43
3.3. Kiểm tra việc nhúng.......................................................................................44
KẾT LUẬN............................................................................................................51
4.1. Kết luận...........................................................................................................................51
4.2. Hạn chế của ứng dụng:................................................................................................51
4.3. Một số hướng mở rộng đề tài.....................................................................................52
TÀI LIỆU THAM KHẢO
QUYẾT ĐỊNH GIAO ĐỀ TÀI (Bản sao)

v

DANH MỤC CÁC TỪ VIẾT TẮT

Ký hiệu Tiếng Anh Tiếng Việt
NMF Non-negative Matrix Factorization Phân rã ma trận không âm
DB Database Cơ sở dữ liệu
UI User Interface Giao diện người dùng

RS Recommendation System Hệ thống đề xuất
RMSE Root-mean-square error
Căn bậc hai trung bình bình
CF Collaborative Filtering phương sai số

Hệ thống đề xuất - lọc cộng
tác

Số hiệu vi Trang

hình DANH MỤC CÁC HÌNH VẼ 6

1.1 Tên hình 8
1.2 9
1.3 16
1.4 25
2.1 37
3.1 39
3.2 40
3.3 44
3.4

1

MỞ ÐẦU

1. Tính cấp thiết của đề tài
Hệ thống đề xuất được sử dụng rộng rãi trong ngành công nghiệp và phổ biến

trong cuộc sống hàng ngày của chúng ta. Các hệ thống này được sử dụng trong một
số lĩnh vực như trang web mua sắm trực tuyến (ví dụ: Amazon.com, Shopee, Tiki,
…), trang web dịch vụ âm nhạc / phim (ví dụ: Netflix và Spotify), cửa hàng ứng
dụng di động (ví dụ: cửa hàng ứng dụng IOS và google play), trực tuyến quảng cáo.
Mục tiêu chính của hệ thống đề xuất là giúp người dùng khám phá các mục có liên
quan như thời trang để mua, tin nhắn văn bản để đọc hoặc sản phẩm cần mua, để tạo
ra trải nghiệm người dùng thú vị. Hơn nữa, hệ thống đề xuất là một trong những hệ
thống máy học mạnh mẽ nhất mà các nhà bán lẻ trực tuyến triển khai để tăng doanh
thu. Hệ thống đề xuất là sự thay thế của các cơng cụ tìm kiếm bằng cách giảm nỗ
lực tìm kiếm chủ động và gây ngạc nhiên cho người dùng với các đề nghị mà họ
chưa bao giờ tìm kiếm. Nhiều cơng ty đã cố gắng đặt mình trước các đối thủ cạnh
tranh với sự trợ giúp của các hệ thống đề xuất hiệu quả hơn. Do đó, hệ thống đề
xuất khơng chỉ là trung tâm trong cuộc sống hàng ngày của chúng ta mà còn rất cần

thiết trong một số ngành công nghiệp.

Hệ đề xuất (Recommender System) được xem như một hệ thống lọc tích cực,
có chức năng hỗ trợ đưa ra quyết định, nhằm mục dích cung cấp cho người sử dụng
những gợi ý về thông tin, sản phẩm và dịch vụ phù hợp nhất với yêu cầu và sở thích
riêng của từng người tại từng tình huống (ngữ cảnh). Cụ thể, hệ đề xuất cung cấp
một giải pháp giảm tải thông tin bằng cách đưa ra dự đốn đánh giá mức độ sở thích
của người dùng với sản phẩm mới và cung cấp một danh sách ngắn các sản phẩm
(trang web, shop thời trang, bản tin, phim, video…) mà nhiều khả năng người dùng
sẽ quan tâm [1]. Trên thực tế, hệ đề xuất không chỉ hướng đến vấn đề giảm tải
thông tin cho mỗi người dùng mà nó cịn là yếu tố quyết định đến thành cơng của
các hệ thống thương mại điện tử.

2

Hệ đề xuất dang ngày càng trở thành một lĩnh vực nghiên cứu quan trọng từ
sau khi xuất hiện bài báo đầu tiên về lọc cộng tác vào giữa những năm 90 [1]. Ðã có
rất nhiều cơng việc được thực hiện cả trong ngành công nghiệp và nghiên cứu hàn
lâm để phát triển các hệ đề xuất trong hơn thập kỷ qua. Về cơ bản hệ đề xuất được
chia thành hai hướng tiếp cận chính [2] tùy thuộc vào cách khai thác các thông tin
đầu vào khác nhau phục vụ cho mục đích đề xuất, đó là: 1) Hệ đề xuất với cách tiếp
cận truyền thống; 2) Hệ đề xuất mở rộng cách tiếp cận truyền thống. Trong đó, cách
tiếp cận truyền thống sử dụng một trong ba phương pháp lọc tin chính (Lọc cộng
tác, lọc theo nội dung và lọc kết hợp) lên ba loại thông tin đầu vào phổ biến (Thông
tin người đùng, thông tin sản phẩm và phản hồi của người dùng về sản phẩm). Cách
tiếp cận mở rộng đề cập ở đây được biết đến với một số hướng như: Hệ đề xuất theo
ngữ cảnh (Context-aware Recommender Systems) [4][5], hệ đề xuất dựa trên mạng
xã hội (Social-based Recommender Systems) [6], hệ đề xuất dựa trên mối quan tâm
(Attention-based Recommender Systems) [7] hoặc phát triển các phương pháp lọc
kết hợp. Theo đó, bên cạnh các loại thơng tin điển hình của hệ đề xuất theo cách

truyền thống, cách tiếp cận mở rộng này cho phép tích hợp thêm đa dạng các nguồn
thông tin đầu vào (Thông tin ngữ cảnh, liên kết từ mạng xã hội, mối quan tâm …)
nhằm cải thiện chất lượng của hệ đề xuất thực tế.

Trong quá trình nghiên cứu và ứng dụng, mặc dù đã có nhiều nghiên cứu đề
xuất được đưa ra để giải quyết bài toán đề xuất theo hai hướng tiếp cận trên [8], tuy
nhiên, một số vấn đề mang tính đặc thù đối với thông tin đề xuất như vấn đề dữ liệu
thưa, người dùng mới, sản phẩm mới, vấn đề sở thích thay đổi theo thời gian, yêu
cầu kết hợp các dạng thơng tin khác nhau, làm việc với dữ liệu kích thước lớn được
cập nhật thường xuyên… luôn là những vấn đề có tính thời sự và thu hút được sự
quan tâm của cộng đồng trong việc nghiên cứu và triển khai vào thực tế.
2. Mục tiêu của đề tài

Ðề tài “Xây dựng hệ đề xuất dựa trên kỹ thuật Thừa số hóa ma trận” được
thực hiện trong khuôn khổ chuyên ngành khoa học máy tính nhằm góp phần giải
quyết các vấn đề:

3

- Tìm hiểu các hệ đề xuất (recommendation systems).
- Tìm hiểu các khái niệm, phương pháp xây dựng 1 hệ đề xuất.
- Nghiên cứu hệ đề xuất dự trên kỹ thuật Thừa số hóa ma trận.
- Xây dựng hệ thống Đề xuất thời trang dựa trên kỹ thuật thừa số hóa ma trận.
Trong bài luận văn này, chúng tôi sẽ giới thiệu sơ lược về hệ thống đề xuất và
vấn đề dự đoán xếp hạng (rating prediction) trong hệ thống đề xuất. Trong bài luận
văn này cũng sẽ giới thiệu những nhóm kỹ thuật chính được sử dụng phổ biến nhất
trong RS, sau đó đi sâu vào tìm hiểu chi tiết một kỹ thuật nổi trội nhất (state-of-the-
art) hiện nay trong RS – chính là kỹ thuật phân rã ma trận (matrix factorization –
MF) (Koren, 2009) và các biến thể của nó. Bên cạnh đó, chúng tơi cũng trình bày
các lĩnh vực ứng dụng chính của RS, kèm theo một số kết quả minh họa cho từng

lĩnh vực.
3. Đối tượng và phạm vi nghiên cứu
Hệ thống này được sử dụng trong một số lĩnh vực như trang web mua sắm
trực tuyến (ví dụ: Amazon.com, Shopee, Tiki, …), cửa hàng ứng dụng di động (ví
dụ: cửa hàng ứng dụng IOS và google play), trực tuyến quảng cáo. Mục tiêu chính
của hệ thống đề xuất là giúp người dùng khám phá các mục có liên quan như thời
trang để mua, tin nhắn văn bản để đọc hoặc sản phẩm cần mua, để tạo ra trải
nghiệm người dùng thú vị.
4. Các đóng góp của đề tài
- Đóng góp thứ nhất của đề tài là Nghiên cứu kỹ thuật Thừa số hóa ma trận.
- Đóng góp thứ hai của đề tài là Xây dựng hệ Đề xuất thời trang dựa trên kỹ
thuật thừa số hóa ma trận.
5. Bố cục của đề tài
Đề tài được tổ chức thành ba chương, trong đó:
Chương 1. Tổng quan về hệ đề xuất
Nội dung chính của chương này trình bày những nghiên cứu cơ bản về hệ đề
xuất, các phương pháp tiếp cận phổ biến trong xây dựng hệ đề xuất kèm theo những

4

vấn đề cần tiếp tục nghiên cứu và xu hướng. Trên cơ sở đó xác định rõ hướng
nghiên cứu của đề tài.

Chương 2. Cơ sở lý thuyết kỹ thuật thừa số hóa ma trận
Trình bày mơ hình phân rã ma trận. Xây dựng biểu diễn ma trận. Đồng thời,
trình bày phương pháp xây dựng và đào tạo mơ hình phân rã ma trận.
Chương 3. Xây dựng hệ đề xuất thời trang dựa trên kỹ thuật thừa số hóa
ma trận
Trình bày dữ liệu thực nghiệm shop Blue, Nhúng người dùng và nhúng thời
trang. Cuối cùng là kết quả đề xuất thời trang, một số kết luận và hướng nghiên cứu

tiếp theo.

5

Chương 1: TỔNG QUAN VỀ HỆ ĐỀ XUẤT

Trong chương này, tôi sẽ trình bày các nguyên tắc cơ bản và tiến bộ của hệ
thống đề xuất, cùng với việc khám phá một số kỹ thuật cơ bản phổ biến để xây dựng
hệ thống đề xuất với các nguồn dữ liệu khác nhau có sẵn và việc triển khai chúng.
Cụ thể, hệ thống dự đốn xếp hạng người dùng và có thể đưa ra cho một mặt hàng
tiềm năng, cách tạo danh sách đề xuất các sản phẩm và cách dự đoán tỷ lệ nhấp từ
các tính năng phong phú. Những tác vụ này là phổ biến trong các ứng dụng thế giới
thực. Bằng cách nghiên cứu chương này, chúng ta sẽ có được kinh nghiệm thực tế
liên quan đến việc giải quyết các vấn đề đề xuất trong thế giới thực không chỉ bằng
các phương pháp cổ điển mà còn cả các mơ hình dựa trên học sâu nâng cao hơn.

Mục tiêu chính của chương này trình bày những vấn đề tổng quan về hệ đề
xuất, các phương pháp tiếp cận phổ biến trong xây dựng hệ đề xuất, phân tích rõ
những vấn đề cần phát triển hệ đề xuất trong những năm gần đây. Trên cơ sở những
nghiên cứu cơ bản, xác định rõ hướng nghiên cứu cụ thể của đề tài. Những kết quả
nghiên cứu của đề tài sẽ được trình bày trong các chương tiếp theo của đề tài.
1.1. Khái niệm hệ đề xuất

Với sự gia tăng nhanh chóng của thơng tin trên Web thì cần thiết phải có cơng
cụ giúp người dùng lựa chọn các thơng tin trực tuyến phù hợp với mình. Khi cần
tìm thơng tin về một sản phẩm nào đó, giải pháp được hầu hết người dùng sử dụng
là đưa câu hỏi vào máy tìm kiếm (Search engine) thay vì tìm đến những trang Web
hoặc diễn đàn chuyên ngành. Máy tìm kiếm tiến hành tìm kiếm thơng tin dựa trên
các từ khóa (Keyword) được người dùng gõ vào và trả về một danh mục của các
trang Web có chứa từ khóa mà nó tìm được. Do vậy, việc sử dụng máy tìm kiếm sẽ

hiệu quả khi người dùng biết họ thực sự muốn tìm cái gì [10]. Trong trường hợp khi
người dùng khơng xác định được chính xác cái mình muốn tìm thì u cầu về lọc
thơng tin một cách có hiệu quả và tin cậy là rất cần thiết. Ðể đáp ứng nhu cầu này,
các hệ thống đề xuất đã ra đời, ví dụ một số hệ đề xuất đã được thương mại hóa và
triển khai thành cơng, tiêu biểu là hệ đề xuất của các hãng Amazon, eBay, Netflix,
Youtube …

6

Hệ đề xuất, tiếng anh là Recommender System hoặc Recommendation
System, là những hệ thống được thiết kế để hướng người dùng đến những đối tượng
quan tâm, yêu thích, khi lượng thông tin quá lớn vượt quá khả năng xử lý của người
dùng.

Theo Ricci và cộng sự [5], hệ đề xuất là những công cụ phần mềm, kỹ thuật
cung cấp đề xuất các đối tượng có thể hữu ích với người dùng. Những đề xuất liên
quan đến quyết định của người dùng như: sản phẩm nào nên mua, bài hát nào nên
nghe, hay tin tức nào nên đọc... Ví dụ giao diện hệ đề xuất sách của Amazon:

Hình 1.1. Minh họa hệ Đề xuất của Amazon
1.2. Lợi ích của hệ thống đề xuất

1. Tăng trải nghiệm người dùng: Mục tiêu chính của hệ thống đề xuất là cải
thiện trải nghiệm người dùng bằng cách cung cấp các đề xuất phù hợp. Điều này
bao gồm việc giảm thời gian tìm kiếm và tăng cường khả năng phát hiện ra những
sản phẩm, dịch vụ hoặc nội dung mà người dùng có thể quan tâm.

2. Tăng tỷ lệ chuyển đổi và doanh số bán hàng: Trong môi trường thương mại
điện tử, mục tiêu của hệ thống đề xuất là tối đa hóa tỷ lệ chuyển đổi từ người dùng
xem sản phẩm đến việc mua hàng. Bằng cách đề xuất các sản phẩm phù hợp, hệ

thống có thể tăng doanh số bán hàng.

3. Tăng tính cá nhân hóa: Một mục tiêu quan trọng khác của hệ thống đề xuất

7

là cung cấp đề xuất cá nhân hóa. Bằng cách hiểu sở thích riêng của từng người dùng
và cung cấp các đề xuất phù hợp, hệ thống tạo ra trải nghiệm cá nhân hóa giúp
người dùng cảm thấy được quan tâm và hiểu rõ hơn.

4. Tăng tương tác và thâm nhập sâu hơn: Mục tiêu khác của hệ thống đề xuất
là tăng cường tương tác và thâm nhập sâu hơn của người dùng vào nền tảng. Bằng
cách cung cấp các đề xuất hấp dẫn và thú vị, hệ thống có thể kích thích sự quan tâm
và tương tác liên tục của người dùng.

5. Tối ưu hóa hiệu suất hệ thống: Mục tiêu cuối cùng là cải thiện hiệu suất của
hệ thống đề xuất. Điều này bao gồm việc sử dụng các thuật toán và phương pháp tối
ưu để tạo ra các đề xuất chính xác và hiệu quả với tốc độ xử lý cao.

Các mục tiêu này có thể thay đổi tùy thuộc vào ngữ cảnh cụ thể của hệ thống
đề xuất. Chẳng hạn, trong ngành giải trí, mục tiêu có thể là giúp người dùng tìm
kiếm phim, âm nhạc hoặc sách mà họ thích. Trong trường hợp truyền thơng xã hội,
mục tiêu có thể là tạo ra nhiều tương tác và tham gia từ người dùng. Điều quan
trọng là cân nhắc và cải thiện từng mục tiêu để đảm bảo rằng hệ thống đề xuất đáp
ứng được nhu cầu và mục tiêu kinh doanh của mình.
1.3. Các lĩnh vực ứng dụng của hệ đề xuất

Hiện tại hệ đề xuất được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau,
điển hình như:


- Thương mại điện tử: Đề xuất những sản phẩm hoặc dịch vụ mua bán trực
tuyến. Ví dụ hệ thống của Amazon – amazon.com, Ebay – ebay.com.

- Giáo dục: Đề xuất nguồn tài nguyên học tập như sách, bài báo, khóa học, địa
chỉ Web cho người học. Ví dụ hệ thống của Foxtrot, InfoFinder.

- Giải trí: Đề xuất bài hát cho người nghe (Ví dụ hệ thống của LastFM -
www.last.fm), đề xuất phim ảnh (Ví dụ hệ thống của Netflix, MovieLens,
EachMovie), đề xuất các video clip (Ví dụ hệ thống của YouTube -
www.youtube.com).

- Du lịch: Đề xuất điểm đến, hoạt động du lịch. Ví dụ hệ thống của Dietorecs,
LifestyleFinder [11].

8

- Chăm sóc sức khỏe: Đề xuất sản phẩm y tế. Ví dụ hệ thống mạng xã hội sức
khỏe – www.patientslikeme.com.

- Truyền thông xã hội: Đề xuất các hoạt động xã hội. Ví dụ hệ thống của
Facebook, Twitter, LinkedIn.

- An uống: Đề xuất nhà hàng, địa điểm ăn uống. Ví dụ hệ thống của Adaptive
Place Advisor, Polylens, Pocket restaurant finder.

Bên cạnh đó, hệ đề xuất đã và đang được các nhà khoa học, các tổ chức, doanh
nghiệp rất quan tâm nghiên cứu ứng dụng hệ đề xuất cho đa dạng các lớp bài toán ở
các lĩnh vực khác nhau của cuộc sống [12][13][14].
1.4. Phát biểu bài toán đề xuất


Cho tập hợp hữu hạn gồm N người dùng U(u1, u2,..,uN) và M sản phẩm P(p1 ,
p2 ,..,pN). Mỗi người dùng u U(u1, u2,..,uN) . Các đặc trưng tq thông thường là thông
tin cá nhân của mỗi người dùng. Mối quan hệ giữa tập người dùng và tập sản phẩm
được biểu diễn thông qua ma trận đánh giá R={rx}

Hình 1.2. Ma trận đánh giá người dùng- sản phẩm
1.5. Qui trình xây dựng hệ đề xuất

Qui trình tổng qt để giải quyết bài tốn đề xuất thơng thường gồm có 3 giai
đoạn chính được thể hiện trong Hình 1.3 sau.

9

Hình 1.3. Qui trình tổng qt giải quyết bài tốn đề xuất
Giai đoạn 1: Thu thập thông tin

Ba loại thơng tin chính thường được thu thập cho hệ đề xuất, gồm có: (user"s
profile) nhằm lưu trữ lại dấu vết các đặc trưng nội dung sản phẩm đã từng được sử
dụng bởi người dùng. Sản phẩm (Item) biểu diễn thông qua các đặc trưng là thông
tin về sản phẩm. Thông qua biểu diễn này, hệ thống cho phép xây dựng hồ sơ sản
phẩm (item"s profile) nhằm lưu trữ lại dấu vết các đặc trưng người dùng đã từng sử
dụng sản phẩm. Phản hồi của người dùng với sản phẩm (Feedback), biểu diễn thông
qua các giá trị đánh giá của người dùng với sản phẩm.
Giai đoạn 2: Xây dựng mơ hình

Giai đoạn xây dựng mơ hình đề xuất có thể thực hiện bằng nhiều hướng tiếp
cận khác nhau nhằm so sánh, đánh giá mối liên hệ giữa các thông tin thu thập được
ở giai đoạn 1. Một số hướng tiếp cận điển hình được biết đến như: dựa vào kinh
nghiệm (heuristics), học máy, lý thuyết xấp xỉ. Mỗi hướng tiếp cận sẽ khai thác
thông tin đầu vào theo những cách khác nhau hình thành những phương pháp đề

xuất khác nhau.
Giai đoạn 3: Dự đoán đánh giá / Đưa ra đề xuất

Dữ liệu đầu ra của giai đoạn 2 sẽ được dùng dể dự đoán các đánh giá của
người dùng với các sản phẩm chưa có đánh giá trước đó và chọn ra sản phẩm mới

10

phù hợp nhất đối với người dùng hiện thời để gợi ý cho họ.
1.6. Các hướng tiếp cận xây dựng hệ đề xuất

Có nhiều đề xuất khác nhau để giải quyết bài tốn đề xuất theo “Qui trình xây
dựng hệ đề xuất”. Tuy nhiên về cơ bản thì hệ đề xuất được chia thành hai hướng
tiếp cận tùy vào việc lựa chọn loại thơng tin, mơ hình học và dự đốn sản phẩm mới
cho người dùng [2][3], đó là:

1) Hệ đề xuất với cách tiếp cận truyền thống;
2) Hệ đề xuất mở rộng cách tiếp cận truyền thống.
Trong đó:
- Cách tiếp cận truyền thống khai thác 3 loại thông tin đầu vào gồm người
dùng, sản phẩm và phản hồi của người dùng về sản phẩm. Dựa vào cách xác định
dự đoán đánh giá cho các sản phẩm đối với người dùng, hệ đề xuất thường được
chia thành ba loại: đề xuất dựa vào phương pháp lọc cộng tác (Collaborative
Filtering Recommendation), đề xuất dựa vào phương pháp lọc theo nội dung
(Content-Based Filtering Recommendation) và đề xuất dựa vào phương pháp lọc
kết hợp (Hybrid Filtering Recommendation) [3][8].
- Cách tiếp cận mở rộng từ hệ đề xuất truyền thống cho phép tích hợp thêm
các nguồn thông tin khác (Ngữ cảnh, thông tin trong mạng xã hội, ...) hoặc cải tiến
các phương pháp lọc tin truyền thống trong hệ đề xuất (Các phương pháp lọc kết
hợp, các phương pháp lọc dựa trên mối quan tâm…). Từ đây hệ đề xuất được chia

thành một số loại điển hình: Đề xuất dựa vào ngữ cảnh (Context-Aware
Recommendation), đề xuất dựa vào mạng xã hội (Social Network-Based
Recommendation), đề xuất dựa vào các phương pháp lọc kết hợp (Hybrid Filtering
Recommendation).
1.6.1. Lọc cộng tác
Khái niệm quan trọng trong hệ thống đề xuất - lọc cộng tác (CF), lần đầu tiên
được đặt ra bởi hệ thống Tapestry, đề cập đến "mọi người cộng tác để giúp đỡ lẫn
nhau thực hiện quá trình lọc để xử lý một lượng lớn email và tin nhắn được đăng lên
các nhóm tin". Thuật ngữ này đã được làm giàu với nhiều giác quan hơn. Theo

11

nghĩa rộng, nó là q trình lọc thông tin hoặc mẫu bằng cách sử dụng các kỹ thuật
liên quan đến sự cộng tác giữa nhiều người dùng, tác nhân và nguồn dữ liệu. CF có
nhiều hình thức và nhiều phương pháp CF được đề xuất kể từ khi nó ra đời.

Nhìn chung, các kỹ thuật CF có thể được phân loại thành: CF dựa trên bộ nhớ,
CF dựa trên mơ hình và kết hợp của chúng. Kỹ thuật CF dựa trên bộ nhớ đại điện là
CF dựa trên hàng xóm gần nhất như CF dựa trên người dùng và CF dựa trên sản
phẩm. Các mơ hình nhân tố tiềm ẩn như thừa số hóa ma trận là ví dụ của CF dựa
trên mơ hình. CF dựa trên bộ nhớ có những hạn chế trong việc xử lý dữ liệu quy mô
lớn và thưa thớt vì nó tính tốn các giá trị tương tự dựa trên các mục chung. Các
phương pháp dựa trên mơ hình trở nên phổ biến hơn với khả năng tốt hơn trong việc
giải quyết sự thưa thớt và khả năng mở rộng. Nhiều phương pháp tiếp cận CF dựa
trên mơ hình có thể được mở rộng với mạng nơ-ron, dẫn đến các mơ hình linh hoạt
hơn và có thể mở rộng với khả năng tăng tốc tính tốn trong học sâu. Nói chung, CF
chỉ sử dụng dữ liệu tương tác giữa người dùng-sản phẩm để đưa ra dự đoán và đề
xuất. Bên cạnh CF, các hệ thống đề xuất dựa trên nội dung và dựa trên ngữ cảnh
cũng hữu ích trong việc kết hợp các mơ tả nội dung của các sản phẩm - người dùng
và các tín hiệu theo ngữ cảnh như dấu thời gian và vị trí. Rõ ràng, chúng ta có thể

cần phải điều chỉnh các kiểu / cấu trúc mơ hình khi có sẵn các dữ liệu đầu vào khác
nhau.

1.6.2. Lọc dựa trên nội dung
Một cách tiếp cận phổ biến khác khi thiết kế hệ thống recommender là lọc nội
dung. Phương pháp lọc dựa trên nội dung dựa trên mô tả về mặt hàng và hồ sơ về
các tùy chọn của người dùng.
Trong hệ thống đề xuất dựa trên nội dung, từ khóa được sử dụng để mô tả các
mục và hồ sơ người dùng được xây dựng để chỉ ra loại mục mà người dùng này
thích. Nói cách khác, các thuật tốn này cố gắng đề xuất các mục tương tự với các
mục mà người dùng đã thích trong quá khứ (hoặc đang kiểm tra trong hiện tại). Cụ
thể, các mục đề cử khác nhau được so sánh với các mục được đánh giá trước đây
bởi người dùng và các mục phù hợp nhất được đề xuất. Cách tiếp cận này có nguồn

12

gốc từ việc thu thập thông tin và nghiên cứu lọc thông tin .
Để tóm tắt các tính năng của các mục trong hệ thống, một thuật tốn trình bày

mục được áp dụng. Một thuật toán được sử dụng rộng rãi là biểu diễn tf – idf (còn
được gọi là biểu diễn không gian vectơ).

Để tạo hồ sơ người dùng, hệ thống chủ yếu tập trung vào hai loại thông tin:
1. Một mơ hình ưu tiên của người dùng.
2. Lịch sử tương tác của người dùng với hệ thống đề xuất.
Về cơ bản, các phương thức này sử dụng một hồ sơ mặt hàng (ví dụ, một tập
hợp các thuộc tính và tính năng rời rạc) mơ tả mục trong hệ thống. Hệ thống tạo hồ
sơ dựa trên nội dung của người dùng dựa trên vectơ trọng số của các đối tượng địa
lý. Trọng số biểu thị tầm quan trọng của từng tính năng đối với người dùng và có
thể được tính từ các vectơ nội dung được xếp hạng riêng lẻ bằng nhiều kỹ thuật.

Các phương pháp đơn giản sử dụng các giá trị trung bình của vector hạng mục trong
khi các phương pháp phức tạp khác sử dụng các kỹ thuật máy học như Bayesian
Classifiers , phân tích cụm , cây quyết định và mạng thần kinh nhân tạo (artificial
neural networks) để ước tính xác suất người dùng sẽ thích mục đó.
Phản hồi trực tiếp từ người dùng, thường dưới dạng nút thích hoặc khơng thích
, có thể được sử dụng để gán trọng số cao hơn hoặc thấp hơn về tầm quan trọng của
các thuộc tính nhất định (sử dụng phân loại Rocchio hoặc các kỹ thuật tương tự
khác).
Một vấn đề quan trọng với lọc dựa trên nội dung là liệu hệ thống có thể tìm
hiểu các tùy chọn của người dùng từ hành động của người dùng liên quan đến một
nguồn nội dung hay không và sử dụng chúng trên các loại nội dung khác. Khi hệ
thống bị hạn chế đề xuất nội dung cùng loại với người dùng đang sử dụng, giá trị từ
hệ thống đề xuất thấp hơn đáng kể so với các loại nội dung khác từ các dịch vụ khác
có thể được đề xuất. Ví dụ: giới thiệu các bài viết tin tức dựa trên việc duyệt tin tức
hữu ích nhưng sẽ hữu ích hơn nhiều khi bạn có thể đề xuất âm nhạc, video, sản
phẩm, cuộc thảo luận, v.v. từ các dịch vụ khác nhau dựa trên duyệt tin tức.


×