Tải bản đầy đủ (.pdf) (12 trang)

Phản hồi ẩn trong hệ thống gợi ý nội dung

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.23 MB, 12 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐỖ THẾ CHUẨN

PHẢN HỒI ẨN TRONG HỆ THỐNG GỢI Ý NỘI DUNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐỖ THẾ CHUẨN

PHẢN HỒI ẨN TRONG HỆ THỐNG GỢI Ý NỘI DUNG

Ngành: Công nghệ thông tin
Chuyên ngành: Khoa học máy tính
Mã số: 60480101

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Nguyễn Việt Anh

Hà Nội - 2015


Lời cảm ơn
Đầu tiên, tôi xin gửi lời cảm ơn chân thành tới TS. Nguyễn Việt Anh. Sự chỉ bảo


và hướng dẫn tận tình của thầy trong suốt thời gian tôi nghiên cứu đã giúp tôi hoàn thành
luận văn tốt nghiệp này.
Nguồn hỗ trợ và cổ vũ lớn lao nhất đối với tôi chính là sự động viên, khích lệ của
hai bên bố mẹ, vợ và em trai tôi. Thiên thần bé nhỏ sắp chào đời của hai vợ chồng chúng
tôi cũng là nguồn động lực rất lớn để tôi tập trung cho quyển luận văn này.
Ngoài ra, tôi cũng cảm ơn tất cả các thầy cô, anh chị, các bạn đồng nghiệp, các bạn
cùng khoá học đã cùng chia sẻ, giúp đỡ tôi trong suốt thời gian học tại Trường đại học
Công nghệ - ĐHQGHN.
Chúc tất cả mọi người có sức khỏe tốt, gia đình hạnh phúc và gặt hái được nhiều
thành công trong cuộc sống.

Học viên

Đỗ Thế Chuẩn


Lời cam đoan
Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm được trình bày trong luận
văn này do tôi thực hiện dưới sự hướng dẫn của TS. Nguyễn Việt Anh.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một
cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn, không có
việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu
tham khảo.

Tác giả

Đỗ Thế Chuẩn


1


Mục lục
Danh mục hình vẽ ................................................................................................. 3
Danh mục bảng ..................................................................................................... 4
LỜI NÓI ĐẦU ....................................................................................................... 5
Chương 1: Đặt vấn đề ........................................................................................... 6
1.1. Bài toán ........................................................................................................6
1.2. Nội dung và phương pháp nghiên cứu .........................................................6
1.3. Phạm vi nghiên cứu .....................................................................................7
1.4. Kết quả đã đạt được .....................................................................................7
Chương 2: Các nghiên cứu liên quan.................................................................. 8
2.1. Hệ thống gợi ý .............................................................................................8
2.2. Phân loại các hệ thống gợi ý ........................................................................9
2.2.1. Hệ thống gợi ý dựa vào nội dung..........................................................9
2.2.2. Hệ thống gợi ý dựa vào cộng tác ........................................................11
2.2.3. Hệ thống lai .........................................................................................13
2.3. Hồ sơ đối tượng nội dung ..........................................................................13
2.4. Mô hình người dùng ..................................................................................14
2.5. Phản hồi của người dùng trong hệ thống gợi ý nội dung...........................17
2.5.1. Phản hồi tường minh ...........................................................................17
2.5.2. Phản hồi ẩn..........................................................................................17
2.6. Kỹ thuật phân rã ma trận............................................................................18
2.7. Một số hệ thống gợi ý nội dung .................................................................19
2.7.1. Google Tin tức ....................................................................................19
2.7.2. Trang web Báo Mới ............................................................................20
2.7.3. Trang báo điện tử VietNamNet ..........................................................21


2


Chương 3: Xây dựng hệ thống gợi ý tin tức sử dụng phản hồi ẩn ................. 23
3.1. Kiến trúc hệ thống......................................................................................23
3.1.1. Mô tả kiến trúc hệ thống .....................................................................23
3.1.2. Nguyên lý hoạt động của hệ thống .....................................................24
3.2. Hồ sơ đối tượng tin tức ..............................................................................25
3.3. Module phản hồi ẩn ...................................................................................27
3.3.1. Phương pháp biễu diễn dữ liệu ẩn ......................................................27
3.3.2. Giải thuật sử dụng cho hệ thống gợi ý sử dụng phản hồi ẩn ..............30
Chương 4: Thực nghiệm và đánh giá ................................................................ 32
4.1. Thực nghiệm và đánh giá...........................................................................32
4.2. Hướng nghiên cứu tiếp theo.......................................................................35
Danh mục công trình khoa học của tác giả liên quan đến luận văn .............. 36
Kết luận ................................................................................................................ 37
Tài liệu tham khảo .............................................................................................. 38


3

Danh mục hình vẽ
Hình 2.1: Ma trận biểu diễn xếp hạng của người dùng đối với các tin tức ..... 8
Hình 2.2: Kỹ thuật phân rã ma trận ................................................................. 18
Hình 2.3: Giao diện hệ thống Google Tin tức................................................... 19
Hình 2.4: Giao diện Trang cá nhân của Báo mới ............................................ 20
Hình 2.5: Giao diện cuối một tin tức của báo VietNamNet ............................ 21
Hình 3.1: Giao diện trang chủ hệ thống xenoNews ......................................... 23
Hình 3.2: Kiến trúc hệ thống của xenoNews .................................................... 24
Hình 3.3: Sơ đồ hoạt động của hệ thống ........................................................... 25
Hình 3.4: Quá trình thu thập tin tức ................................................................. 26
Hình 3.5: Quá trình tạo hồ sơ đối tượng tin tức .............................................. 26
Hình 3.6: Biểu diễn dữ liệu trong hệ thống gợi ý dưới dạng nhị phân .......... 27

Hình 3.7: Biểu diễn dữ liệu Ds dạng so sánh cặp ............................................. 28


4

Danh mục bảng
Bảng 4.1: Thử nghiệm hệ thống qua các tuần.................................................. 33
Bảng 4.2: Số lượng tin tức và tỉ lệ so với tuần đầu người dùng đã đọc ......... 34
Bảng 4.3: Số liệu sau mỗi tuần huấn luyện (tính trung bình tất cả người
dùng) ............................................................................................................................. 34


5

LỜI NÓI ĐẦU
Nhờ vào năng lực xử lý mạng máy tính ngày càng cao và giá thành Internet luôn
giảm xuống mà các hệ thống báo điện tử và trang thông tin điện tử ngày càng nở rộ giúp
độc giả cập nhật được thông tin nhanh nhất với nguồn nội dung cực kỳ phong phú và đa
dạng. Chính sự phong phú và đa dạng này khiến tổng số lượng nội dung mà độc giả tiếp
cận trong một khoảng thời gian ngắn rất lớn dẫn đến các nội dung có thể bị lặp đi lặp lại
nhiều lần từ nhiều nguồn cung cấp tin khác nhau. Ngoài ra, nhiều thông tin không cần
thiết, không hấp dẫn đối với bản thân người dùng lại được đưa ra khá nhiều dẫn đến việc
dư thừa thông tin và khó kiểm soát quá trình theo dõi nội dung của người đọc. Để khắc
phục các vấn đề đó, các hệ thống tổng hợp và gợi ý nội dung đã ra đời với mục tiêu phân
loại nội dung, lọc nội dung phù hợp với sở thích cá nhân của mỗi người dùng.
Quá trình xây dựng và biểu diễn mô hình nội dung, hồ sơ người dùng, cách lựa
chọn nội dung để hiển thị và mô hình người dùng đối với mỗi hệ thống là khác nhau.
Việc cập nhật mô hình người dùng thường xuyên rất quan trọng đối với hệ thống để biểu
diễn nội dung và tìm các nội dung phù hợp. Luận văn được thực hiện theo hướng tìm
hiểu các phương pháp thu thập phản hồi ẩn của người dùng để cập nhật vào mô hình

người dùng, từ đó đưa ra các nội dung phù hợp trong các hệ thống nội dung và áp dụng
thử nghiệm vào hệ thống gợi ý tin tức tiếng Việt.
Nội dung luận văn bao gồm 4 phần chính:
Chương 1: Mô tả bài toán về xây dựng hệ thống gợi ý nội dung sử dụng các phản
hồi ẩn của người dùng bao gồm: mục tiêu, nội dung và phương pháp nghiên cứu, các
kết quả đã đạt được.
Chương 2: Trình bày lý thuyết về các hệ thống gợi ý, hồ sơ đối tượng nội dung, hồ
sơ người dùng, mô hình người dùng và giới thiệu về các phản hồi của người dùng. Kỹ
thuật phân rã ma trận và một số hệ thống gợi ý nội dung cũng được giới thiệu.
Chương 3: Dựa trên lý thuyết cùng với một số hệ thống được giới thiệu và tìm
hiểu, luận văn trình bày một hệ thống gợi ý tin tức sử dụng các phản hồi ẩn của người
dùng. Quá trình thiết kế, xây dựng nên hệ thống gợi ý tin tức cũng sẽ được trình bày một
cách cụ thể trong chương.
Chương 4: Trình bày kết quả của quá trình thử nghiệm để đánh giá hoạt động của
module phản hồi ẩn đã xây dựng ở chương 3 trong quá trình hoạt động chung của hệ
thống gợi ý tin tức.
Phần kết luận: Tóm tắt các nội dung đã trình bày trong luận văn và hướng nghiên
cứu tiếp theo để cải tiến hệ thống gợi ý tin tức sử dụng phản hồi ẩn.


6

Chương 1: Đặt vấn đề
1.1. Bài toán
Hiện nay, các hệ thống gợi ý đã được phát triển và ứng dụng rất mạnh mẽ [1]. Bộ
lọc nội dung đóng vai trò trung tâm để đưa ra gợi ý phù hợp với người dùng. Tất cả các
hệ thống gợi ý đều yêu cầu một mô hình người dùng [2]. Hướng tiếp cận phổ biến để
xây dựng mô hình người dùng là thông qua các phản hồi của người dùng. Chính vì vậy,
các phản hồi của người dùng đối với hệ thống ngày càng trở nên quan trọng.
Hệ thống gợi ý tin tức tiếng Việt xenoNews của tác giả Nguyễn Thạc Huy [3] đã

xây dựng mới chỉ dừng lại ở mức bước đầu của việc xây dựng dịch vụ gợi ý. Đối với
người dùng, hệ thống chủ yếu chỉ dựa vào nội dung mà người dùng đã đọc, ngoài việc
thu thập về thời gian đọc tin “time-code” gần như hệ thống không có tương tác để thu
thập được các thông tin cần thiết về sở thích của người dùng đối với hệ thống cũng như
tương tác với các tin tức mà người dùng đang đọc.
Để khắc phục nhược điểm của hệ thống xenoNews, tôi đặt ra bài toán cải tiến hệ
thống xenoNews bằng cách sử dụng hệ thống xenoNews làm nền tảng và xây dựng
module thu thập các thông tin ẩn của người dùng khi tương tác với hệ thống, đặc biệt là
các tin tức mà người dùng đang đọc, từ đó cập nhật lại hồ sơ của người dùng trên hệ
thống giúp hệ thống có gợi ý tốt hơn đối với người dùng trong các lần truy cập sau.
Luận văn đưa ra những lý thuyết về mô hình hóa người dùng, công thức và ứng
dụng của các phản hồi ẩn sử dụng kỹ thuật phân rã ma trận cho các hệ thống gợi ý nội
dung từ các nghiên cứu trước đây. Mục tiêu cần đạt được là tổng hợp kiến thức về các
hệ thống gợi ý nội dung sử dụng phản hồi ẩn, từ đó cài đặt và đánh giá một hệ thống gợi
ý tin tức tiếng Việt sử dụng phản hồi ẩn.

1.2. Nội dung và phương pháp nghiên cứu
Để đạt được mục tiêu đã đề ra, trước tiên, tôi tìm hiểu về các hệ thống gợi ý và mô
hình người dùng.
Tiếp theo tôi tiến hành tìm hiểu về các cơ chế phản hồi trong hệ thống gợi ý nội
dung và kỹ thuật phân rã ma trận. Từ những lý thuyết trên, tôi tìm hiểu thêm về một số
hệ thống gợi ý nội dung đã và đang được sử dụng ở Việt Nam.
Sau khi nghiên cứu kỹ lý thuyết và tham khảo một vài hệ thống, tôi tiến hành
nghiên cứu các thuật toán và xây dựng module thu thập phản hồi ẩn của người dùng.


38

Tài liệu tham khảo
[1]


[2]

[3]

[4]
[5]
[6]
[7]
[8]

[9]

[10]

[11]
[12]
[13]
[14]

[15]

[16]

L. Chen, G. Chen, and F. Wang, "Recommender systems based on user reviews:
the state of the art," User Modeling and User-Adapted Interaction, vol. 25, pp.
99-154, 2015.
G. Jawaheer, M. Szomszor, and P. Kostkova, "Comparison of implicit and
explicit feedback from an online music recommendation service," presented at
the Proceedings of the 1st International Workshop on Information Heterogeneity

and Fusion in Recommender Systems, Barcelona, Spain, 2010.
N. T. Huy, "Chọn lọc thông tin dựa trên nội dung ứng dụng xây dựng hệ thống
gợi ý tin tức theo nhu cầu người dùng,," Luận văn Thạc sĩ, Trường Đại học Công
nghệ, Đại học Quốc gia Hà Nội, 2013.
D. Goldberg, D. Nichols, B. M. Oki, and D. Terry, "Using collaborative filtering
to weave an information tapestry," Commun. ACM, vol. 35, pp. 61-70, 1992.
F. Ricci, L. Rokach, B. Shapira, and P. B. Kantor, Recommender Systems
Handbook: Springer-Verlag New York, Inc., 2010.
R. A. Baeza-Yates and B. Ribeiro-Neto, Modern Information Retrieval:
Addison-Wesley Longman Publishing Co., Inc., 1999.
N. J. Belkin and W. B. Croft, "Information filtering and information retrieval:
two sides of the same coin?," Commun. ACM, vol. 35, pp. 29-38, 1992.
A. S. Das, M. Datar, A. Garg, and S. Rajaram, "Google news personalization:
scalable online collaborative filtering," presented at the Proceedings of the 16th
international conference on World Wide Web, Banff, Alberta, Canada, 2007.
J. S. Breese, D. Heckerman, and C. Kadie, "Empirical analysis of predictive
algorithms for collaborative filtering," presented at the Proceedings of the
Fourteenth conference on Uncertainty in artificial intelligence, Madison,
Wisconsin, 1998.
M. Claypool, A. Gokhale, T. Miranda, P. Murnikov, D. Netes, and M. Sartin,
"Combining content-based and collaborative filters in an online newspaper,"
presented at the Proceedings of the ACM SIGIR '99 Workshop on Recommender
Systems:
Algorithms and Evaluation, Berkeley, California, 1999.
M. J. Pazzani, "A Framework for Collaborative, Content-Based and
Demographic Filtering," Artif. Intell. Rev., vol. 13, pp. 393-408, 1999.
D. Jannach, M. Zanker, A. Felfernig, and G. Friedrich, Recommender Systems:
An Introduction: Cambridge University Press, 2010.
K. Goldberg, T. Roeder, D. Gupta, and C. Perkins, "Eigentaste: A Constant Time
Collaborative Filtering Algorithm," Inf. Retr., vol. 4, pp. 133-151, 2001.

D. Kluver, T. T. Nguyen, M. Ekstrand, S. Sen, and J. Riedl, "How many bits per
rating?," presented at the Proceedings of the sixth ACM conference on
Recommender systems, Dublin, Ireland, 2012.
Y. Hu, Y. Koren, and C. Volinsky, "Collaborative Filtering for Implicit Feedback
Datasets," presented at the Proceedings of the 2008 Eighth IEEE International
Conference on Data Mining, 2008.
G. Adomavicius and Y. Kwon, "Overcoming Accuracy-Diversity Tradeoff in
Recommender Systems: A Variance-Based Approach," in Proceedings of the
18th Workshop on Information Technology and Systems (WITS’08), Paris,
France, 2008.


39

[17]
[18]
[19]

[20]

[21]

[22]
[23]

D. M. Nichols, "Implicit rating and filtering," Proceedings of the 5th DELOS
Workshop on Filtering and Collaborative Filtering, 1997.
D. W. Oard, "Implicit feedback for recommender systems," Proceedings of the
AAAI Workshop on Recommender Systems, 1998.
D. W. O. a. J. Kim, "Modeling information content using observable behavior,"

Proceedings of the 64th Annual Conference of the American Society for
Information Science and Technology, 2001.
S. Rendle, C. Freudenthaler, Z. Gantner, and L. Schmidt-Thieme, "BPR:
Bayesian personalized ranking from implicit feedback," presented at the
Proceedings of the Twenty-Fifth Conference on Uncertainty in Artificial
Intelligence, Montreal, Quebec, Canada, 2009.
L. Bottou, "Stochastic learning," ed. O. Bousquet, and von U. Luxburg:
Advanced Lectures on Machine Learning, Lecture Notes in Artificial
Intelligence, Springer Verlag, Berlin, 2004, pp. 146-168.
N. T. Nghe and N. T. Phong, "Xây dựng hệ thống gợi ý bài hát dựa trên phản hồi
tiềm ẩn," Tạp chí Khoa học Trường Đại học Cần Thơ vol. 34, pp. 81-91, 2014.
N. Thai-Nghe, Z. Gantner, and L. Schmidt-Thieme, "Cost-sensitive learning
methods for imbalanced data," in Neural Networks (IJCNN), The 2010
International Joint Conference on, 2010, pp. 1-8.



×