ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN
KHOA CƠNG NGHỆ PHẦN MỀM
NGUYỄN HỮU ĐẠT
KHĨA LUẬN TỐT NGHIỆP
KHUYẾN NGHỊ CỘNG TÁC
DỰA TRÊN TIẾP CẬN HỌC SÂU
DEEP LEARNING FOR
COLLABORATOR RECOMMENDATION
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM
TP. HỒ CHÍ MINH, 2020
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
NGUYỄN HỮU ĐẠT – 15520104
KHÓA LUẬN TỐT NGHIỆP
KHUYẾN NGHỊ CỘNG TÁC
DỰA TRÊN TIẾP CẬN HỌC SÂU
DEEP LEARNING FOR
COLLABORATOR RECOMMENDATION
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM
GIẢNG VIÊN HƯỚNG DẪN
TS. HUỲNH NGỌC TÍN
TP. HỒ CHÍ MINH, 2020
DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ………………
…… ngày ……………….. của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
1.
2.
3.
4.
…………………………………………. – Chủ tịch.
…………………………………………. – Thư ký.
…………………………………………. – Ủy viên.
…………………………………………. – Ủy viên.
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC
Độc Lập - Tự Do - Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
TP. HCM, ngày tháng năm 2020
NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ HƯỚNG DẪN)
Tên khóa luận:
Khuyến Nghị Cộng Tác Dựa Trên Tiếp Cận Học Sâu
Nhóm sinh viên thực hiện:
Cán bộ hướng dẫn:
Nguyễn Hữu Đạt
TS. Huỳnh Ngọc Tín
15520104
Đánh giá Khóa luận:
1. Về cuốn báo cáo:
Số trang
Số chương
Số bảng số liệu
Số hình vẽ
Số tài liệu tham khảo
Sản phẩm
Một số nhận xét về hình thức cuốn báo cáo:
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
2. Về nội dung nghiên cứu:
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
3. Về chương trình ứng dụng:
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
4. Về thái độ làm việc của sinh viên:
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
Đánh giá chung:
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
Điểm từng sinh viên:
Nguyễn Hữu Đạt: ………../10
Người nhận xét
(Ký và ghi rõ họ tên)
Huỳnh Ngọc Tín
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC
Độc Lập – Tự Do – Hạnh Phúc
CÔNG NGHỆ THÔNG TIN
TP. HCM, ngày tháng năm 2020
NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ PHẢN BIỆN)
Tên khóa luận:
Khuyến Nghị Cộng Tác Dựa Trên Tiếp Cận Học Sâu
Nhóm sinh viên thực hiện:
Nguyễn Hữu Đạt
Cán bộ phản biện:
15520104
Đánh giá Khóa luận:
1 Về cuốn báo cáo:
Số trang
Số chương
Số bảng số liệu
Số hình vẽ
Số tài liệu tham khảo
Sản phẩm
Một số nhận xét về hình thức cuốn báo cáo:
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
5. Về nội dung nghiên cứu:
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
6. Về chương trình ứng dụng:
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
7. Về thái độ làm việc của sinh viên:
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
Đánh giá chung:
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
Điểm từng sinh viên:
Nguyễn Hữu Đạt: ………../10
Người nhận xét
(Ký và ghi rõ họ tên)
LỜI CẢM ƠN
Trước hết, em xin gởi lời cảm ơn đến quý thầy cô Khoa Công nghệ phần
mềm trường Đại học Công nghệ Thông tin – ĐHQG TP.HCM. Sau hơn 4 năm tròn
học tập tại trường, em đã được trang bị các kiến thức cơ bản, các kỹ năng để có thể
hồn thành Khóa luận tốt nghiệp của mình.
Đặc biệt với thầy Huỳnh Ngọc Tín, em xin cảm ơn thầy vì đã nhiệt tình,
quan tâm, hướng dẫn và truyền đạt những kiến thức và kinh nghiệm cho em trong
suốt thời gian thực hiện Khóa luận tốt nghiệp của mình. Bên cạnh đó, em cũng
muốn gửi lời cảm ơn đến bạn bè, anh chị thuộc công ty VCGroup đã động viên, tận
tình giúp đỡ trong lúc em thực hiện khóa luận tốt nghiệp.
Tuy nhiên, việc vấp phải sai sót trong hồn tất Khóa luận tốt nghiệp là điều
khơng tránh khỏi, em mong nhận được sự góp ý của quý thầy và các bạn để được
hoàn thiện hơn.
Một lần nữa, em xin chân thành cảm ơn.
Thành phố Hồ Chí Minh, 31 tháng 07 năm 2020
Sinh viên
Nguyễn Hữu Đạt
MỤC LỤC
DANH MỤC HÌNH
DANH MỤC BẢNG
DANH MỤC TỪ VIẾT TẮT, THUẬT NGỮ
State-of-the-art
Neuron Network
: Hiện đại
: Mạng nơron dùng trong phương pháp
học sâu
TÓM TẮT KHÓA LUẬN
− Tổng quan: Trong nghiên cứu khoa học, việc cộng tác đem lại nhiều lợi ích
cho các nhà nghiên cứu khi chung tay thực hiện cơng trình nghiên cứu của
mình. Dần theo thời gian, kho dữ liệu bài báo khoa học trở nên khổng lồ
và kích thước tăng đáng kể. Do đó, bài tốn khuyến nghị cộng tác dần
nhận được quan tâm bởi các nhà khoa học. Tuy nhiên, các phương pháp
khuyến nghị phổ biến thường gặp khó khăn, thách thức khó giải quyết
như: phương pháp khuyến nghị nội dung phải phân tích nội dung của số
lượng khổng lồ bài báo để thực hiện khuyến nghị; Khuyến nghị lọc cộng
tác lại phải đối mặt với thách thức của chính phương pháp đó, ma trận
thưa; Ngồi ra, phương pháp tương tự đỉnh chỉ giới hạn bởi tìm kiếm lân
cận theo duy nhất nguyên tắc liên kết Homophily; Các phương pháp học
máy phải tìm đặc trưng bằng phương pháp thủ công mà vốn điều này ảnh
hưởng đến kết quả tiên đốn của mơ hình. Sự ra đời phương pháp học sâu
Node2vec đã giúp giải quyết tồn bộ những khó khăn đang vướng phải của
các phương pháp phổ biến. Bên cạnh đó, Node2vec có một số cơng trình
nghiên cứu kế thừa giải quyết thách thức và khó khăn mà Node2vec còn
bỏ ngỏ. Sự khác biệt và những kế thừa của Node2vec khiến việc ứng dụng
Node2vec vào khuyến nghị cộng tác là cần thiết. Khóa luận được thực
hiện nhằm phục vụ cộng đồng học thuật trong việc nghiên cứu phương
pháp ứng dụng cho khuyến nghị cộng tác. Đồng thời, so sánh Node2vec
với một số phương pháp truyền thống khi giải quyết bài toán khuyến nghị
cộng tác sẽ làm nổi bật ưu nhược điểm của Node2vec so với các phương
pháp truyền thống. Nhờ vào đó, các nghiên cứu viên/ nhà phát triển có thể
chọn lựa sử dụng giữa Node2vec và phương pháp truyền thống trong
khuyến nghị cộng tác.
13
1 TỔNG QUAN ĐỀ TÀI
1.2.
Dẫn nhập
Khuyến nghị cộng tác trong nghiên cứu khoa học là việc khuyến nghị một
danh sách nghiên cứu viên có khả năng cộng tác với một nghiên cứu viên bất kì.
Trong nghiên cứu khoa học, các nghiên cứu viên thường cộng tác để thực hiện
nghiên cứu. Việc cộng tác sẽ giúp nghiên cứu viên giảm bớt chi phí về thời gian,
vốn đầu tư và kết hợp nhiều chuyên môn, lĩnh vực nhằm đem lại chất lượng cho
cơng trình nghiên cứu. Do đó, việc tìm thơng tin như thông tin bài báo, lý lịch tác
giả nhằm mục đích cộng tác viết báo khoa học là yêu cầu thiết yếu. Tuy nhiên,
lượng thông tin khổng lồ và sự tăng đột ngột sẽ dẫn đến việc chọn lọc thông tin
trở nên khó khăn. Với những nhà nghiên cứu chưa dày dạn kinh nghiệm, họ phải
đối mặt với lượng thông tin dày đặc làm việc chọn nghiên cứu viên khác để cùng
nghiên cứu khoa học là thách thức khó[1]. Đối với những nhà nghiên cứu dày dạn
kinh nghiệm, lượng thông tin tăng với số lượng chóng mặt sẽ làm họ bị quá tải
thông tin[1]. Theo báo cáo của DBLP, số lượng bài báo khoa học ngành khoa học
máy tính đã cán mốc 5,075,794 vào 12/05/2020 (Hình 1-1). Số liệu này cho thấy
số lượng bài báo khoa học là rất lớn. Chỉ với 3 năm trước đó, tức năm 2017, số
lượng bài báo chỉ đạt 4,011,685 bài báo. Điều đó đặt ra thách thức với các nhà
nghiên cứu là sự tăng đột biến, hơn một triệu bài báo khoa học đã được công bố
chỉ trong vài năm. Vậy, các nhà nghiên cứu rất cần danh sách nhà nghiên cứu có
tiềm năng cộng tác (từng nghiên cứu chung, đồng tác giả viết báo khoa học,
chung loại đề tài nghiên cứu) để cộng tác (cùng nghiên cứu, hay rõ hơn, đồng tác
giả báo khoa học).
14
Hình 1-1: Sự gia tăng của kho dữ liệu khoa học dựa trên Cơ sở dử dữ liệu khoa
học DBLP
(Nguồn: />truy cập lần cuối 13/05/2020)
Đối đầu với thách thức đó, một số hệ thống khuyến nghị nghiên cứu học
thuật ra đời như ResearchGate ( ScientDirect
( Ngồi ra, có nhiều nghiên cứu về phương pháp
khuyến nghị cộng tác viết báo khoa học như: Maximum Path based Relation
Strength và Relation Strength Similarity[1]; tác giả Khang và cộng sự đã đề xuất
số đo theo quốc gia và theo lĩnh vực chuyên môn kết hợp với số đo tương tự đỉnh
phổ biến[2]; phương pháp dựa trên sự tương tự giữa hồ sơ người dùng giữa các
tác giả của tác giả Gollapalli và các cộng sự[3]. Tuy nhiên, các phương pháp
khuyến nghị phổ biến thường gặp nhiều khó khăn khi giải quyết bài tốn khuyến
nghị cộng tác. Phương pháp khuyến nghị lọc dựa trên nội dung phải đối mặt với
15
số lượng bài báo khổng lồ để thực hiện phân tích và khuyến nghị[4]. Hơn thế nữa,
phương pháp này chỉ phụ thuộc vào đối tượng khuyến nghị dạng văn bản[1,4,5].
Còn với khuyến lọc cộng tác, nghiên cứu viên chưa cộng tác với nhiều nghiên
cứu viên khác khiến hệ thống phải đối mặt với thách thức về ma trận thưa[1], [4],
[5]. Các phương pháp khuyến nghị dựa trên độ tương tự đỉnh quá phụ thuộc vào
nguyên tắc liên kết Homophily và không thể linh hoạt với xu hướng cộng tác của
các nghiên cứu viên trong mạng đồng tác giả. Nếu sử dụng các phương pháp
khuyến nghị phổ biến bằng cách kết hợp mơ hình học máy, việc ánh xạ sang
khơng gian vectơ đặc trưng là điều cần thiết để huấn luyện nhưng lại phải xây
dựng bằng cách thủ công.
Vậy, phương pháp học sâu Node2vec ra đời đã giải quyết được toàn bộ
khó khăn thách thức của các phương pháp khuyến nghị truyền thống trên. Năm
2016, tác giả A.Grover và cộng sự kế thừa phương pháp Word2vec[4,5] – phương
pháp học sâu cũng giới hạn bởi việc phân tích đối tượng dạng văn bản –để cho ra
đời cơng trình nghiên cứu của mình, Node2vec[8]. Node2vec linh hoạt với nhiều
tham số nhằm tiên đoán liên kết giữa nút cho trước trong mạng bất kì (khơng
hướng/ có hướng, khơng trọng số/ có trọng số) dựa vào chính những nút liên kết
trực tiếp/ gián tiếp (thơng qua nút khác) với nút đó[8]. Chính điều này đã khiến
các nhà nghiên cứu hướng sự quan tâm bằng việc tiếp tục kế thừa và đề xuất
phương pháp so sánh/ cải tiến Node2vec. Chỉ trong từ 2017-2019, lần lượt các bài
báo khoa học đề xuất nhiều phương pháp so sánh với Node2vec gồm: tác giả
B.Adhikari và cộng sự công bố phương pháp Sub2vec kế thừa Word2vec phân
cụm các nút trong mạng[9]; A.Narayanan và những cộng sự đã công bố phương
pháp Graph2vec nhằm để so sánh với Sub2vec[10]; Hơn thế nữa, Z.Xu và các
cộng sự đề xuất Seren2vec nhằm tăng tính mới lạ trong danh sách đối tượng
khuyến nghị[11]. Ngoài các phương pháp kể trên, bản thân Node2vec cũng có
nhánh kế thừa gồm: dynnode2vec, được đề xuất bởi tác giả Mahdavi và cộng sự
nhằm giải quyết thách thức thời gian học mơ hình khi mạng có sự thay đổi[12];
tác giả Fu và cộng sự đã đề xuất phương pháp HIN2Vec nhằm nắm bắt cấu trúc
16
khi có nhiều loại liên kết trong mạng [13]; tác giả Dong và cộng sự còn đề xuất
phương pháp vượt trội hơn cả là metapath2vec và metapath2vec++ nhằm nắm bắt
cấu trúc mạng mà trong đó nút và liên kết thuộc vào nhiều loại khác nhau [14].
Khóa luận nghiên cứu Node2Vec nhằm giải quyết khó khăn thách thức mà
các phương pháp khuyến nghị phổ biến đang gặp phải. Song song đó, so sánh,
đánh giá Node2vec với các phương pháp phổ biến trong việc giải quyết khó khăn
và thách thức mà bài tốn khuyến nghị cộng tác đặt ra. Ngồi khó khăn về dữ liệu
lớn (dữ liệu khoa học hiện rất lớn, điển hình là dữ liệu khoa học máy tính dblp),
bài tốn khuyến nghị cộng tác cũng có thách thức về độ chính xác về kết quả
khuyến nghị. Vậy, khóa luận này đặt ra mục tiêu là nghiên cứu, thử nghiệm và
đánh giá phương pháp học sâu đang được quan tâm, cụ thể là Node2Vec cho
khuyến nghị cộng tác. Không dừng lại ở đó, phương pháp Node2Vec sẽ được so
sánh với các phương pháp khuyến nghị phổ biến bằng cách cùng thực nghiệm với
bài toán khuyến nghị cộng tác nhằm làm rõ ưu, nhược và những thách thức giữa
phương pháp state-of-the-art và một số phương pháp phổ biến.
1.3.
Mục tiêu đề tài
− Một là, nhằm nghiên cứu, thử nghiệm và đánh giá phương pháp học sâu stateof-the-art cho khuyến nghị cộng tác.
− Hai là, so sánh phương pháp học sâu state-of-the-art với một số phương pháp
khuyến nghị phổ biến trong khuyến nghị cộng tác.
1.4.
Nội dung thực hiện
− Tìm hiểu bài tốn khuyến nghị cộng tác
− Tìm hiểu một số phương pháp khuyến nghị phổ biến và state-of-the-art cho
khuyến nghị cộng tác.
− Thực nghiệm, đánh giá, so sánh
− Xây dựng tool demo
− Viết báo cáo tổng kết
17
1.5.
Phạm vi, đối tượng nghiên cứu
− Lĩnh vực bài báo: Khoa học máy tính.
− Tiếp cận học sâu: phương pháp Node2vec
− Phương pháp khuyến nghị phổ biến:
o Chung lân cận
o Adamic Adar
o Jaccard Coefficient
o Content-based
− Loại hình mạng: Mạng đồng tác giả.
1.6.
Kết quả đạt được
− Hiểu bài toán khuyến nghị cộng tác.
− Hiểu một số phương pháp khuyến nghị cộng tác phổ biến.
− Hiểu và áp dụng phương pháp học sâu, cụ thể là Node2Vec cho khuyến
nghị cộng tác
− Đánh giá, so sánh Node2Vec với các phương pháp khuyến nghị phổ biến.
− Công cụ demo.
− Báo cáo tổng kết
1.7.
Bố cục của khóa luận
Khóa luận được bố cục như sau:
− Danh mục hình.
− Danh mục bảng.
− Danh mục từ viết tắt, thuật ngữ.
− Chương 1: Giới thiệu tóm tắt về lý do, mục tiêu, nội dung thực hiện và
những kết quả đạt được sau khi thực hiện khóa luận.
− Chương 2: Giới thiệu về bài toán Khuyến nghị cộng tác và sơ lược một số
nghiên cứu liên quan.
− Chương 3: Giới thiệu về phương pháp Node2Vec.
− Chương 4: Thực nghiệm, đánh giá và so sánh phương pháp Node2Vec với
những phương pháp khuyến nghị phổ biến.
− Chương 5: Tổng kết những thành quả đạt được và hướng phát triển trong
tương lai.
− Tài liệu tham khảo.
18
Chương 2. BÀI TOÁN KHUYẾN NGHỊ CỘNG TÁC VÀ MỘT SỐ
NGHIÊN CỨU LIÊN QUAN
2.1.
Mở đầu
Chương này sẽ tập trung tìm hiểu bài toán khuyến nghị cộng tác và một số
phương pháp phổ biến nhằm giải quyết bài toán khuyến nghị cộng tác.
2.2.
Bài toán khuyến nghị cộng tác
Bài toán khuyến nghị cộng tác trong khoa học là bài toán liệt kê danh sách
nghiên cứu viên tại đầu ra tương ứng với từng nghiên cứu viên trong tập cho trước
tại đầu vào. Những nghiên cứu viên ở danh sách đầu ra là những nghiên cứu viên có
tiềm năng cộng tác với nghiên cứu viên tại đầu vào. Một số hệ thống khuyến nghị
nghiên cứu học thuật lớn ra đời giải quyết bài tốn này như ResearchGate
( ScientDirect ( Bên
cạnh đó, bài tốn gần đây còn nhận được nhiều sự quan tâm của cộng đồng học
thuật. Tài liệu [1] đã đề xuất phương pháp tương tự đỉnh Maximum Path based
Relation Strength và Relation Strength Similarity nhằm khuyến nghị cho nghiên
cứu viên có ít nhất một bài báo khoa học trong mạng đồng tác giả. Cũng với tương
tự đỉnh, tác giả Khang và cộng sự đã đề xuất số đo theo quốc gia và theo lĩnh vực
chuyên môn kết hợp với số đo phổ biến cũng cho cùng loại nghiên cứu viên này[2].
Một nghiên cứu khác của Gollapalli và các cộng sự đã đề xuất cách tính sự tương
tự giữa các hồ sơ người dùng của từng nghiên cứu viên trong mạng đồng tác giả[3].
Trong báo cáo khóa luận này, bài tốn khuyến nghị cộng tác trong nghiên
cứu khoa học được trình bày như sau:
19
Đầu vào:
• : Tập gồm nghiên cứu viên với là số nghiên cứu viên có sẵn trong hệ thống.
Đầu ra: , lấy danh sách nghiên cứu viên để khuyến nghị cho nghiên cứu viên
Bảng 2-1 Bài toán khuyến nghị cộng tác
2.3.
Tiếp cận dựa trên nội dung
2.3.1. Giới thiệu
Những cách tiếp cận phổ biến được chia thành 2 loại lớn: tiếp cận dựa trên
nội dung và tiếp cận lọc cộng tác[1]. Với tiếp cận dựa trên nội dung, hệ thống thực
hiện tìm sở thích của người dùng (hay cịn gọi là xây dựng hồ sơ người dùng) dựa
trên việc phân tích đối tượng dạng văn bản mà người dùng tương tác (mục 2.3.2.1).
Với bài toán khuyến nghị cộng tác, những đối tượng này thường là nội dung các bài
báo mà nghiên cứu viên đã cơng bố, bài mơ tả tóm tắt từng nghiên cứu của nghiên
cứu viên hoặc bài mô tả hoạt động nghiên cứu của nghiên cứu viên trong quá
khứ[3]. Tuy nhiên, nguồn dữ liệu có được (trình bày tại 4.2.1) chỉ chứa tên bài báo
nên em thực hiện lấy tên bài báo thay cho nội dung bài báo nhằm xây dựng hồ sơ
người dùng.
2.3.2. Một số thuật ngữ
1 Phân tích nội dung bài báo
Với tập bài báo , nội dung bài báo sẽ được chuyển về dạng vectơ và được
biểu diễn như sau:
(1)
20
Trong đó,
• : Thường là số từ phân biệt có được từ tập bài báo [1,14]. Tuy nhiên, với
trường hợp nguồn dữ liệu không chứa nội dung bài báo, em lấy tên bài báo
làm nội dung bài báo. Do vậy, việc tách từng từ trong tựa đề bài báo sẽ vơ
nghĩa nếu bị tách nhỏ nên tồn bộ tên bài báo trở thành cụm từ. Theo đó, sẽ
•
là số bài báo trong tập cho trước.
: Thường đại diện cho từ trong bài báo[1]. Giá trị có thể là số lần xuất hiện
của từ thứ trong bài báo hoặc có thể biểu diễn sự tồn tại có hay khơng việc
xuất hiện của từ thứ trong bài báo . Giá trị của dựa vào việc xây dựng hồ sơ
người dùng. Trong bài báo của Gollapalli và các cộng sự dùng tần suất xuất
hiện từ thứ biểu diễn hồ sơ người dùng nên trọng số phải tương ứng là tần
suất xuất hiện từ thứ từ thứ của tập [3]. Ở đây, với điều kiện tập dữ liệu như
đã trình bày, đại diện cho tựa đề của bài báo thứ trong tập bài báo và .
mang giá trị 1 nếu là vị trí của bài báo tương ứng trong tập bài báo, ngược
lại, mang giá trị 0.
Hình 2-1 Biểu diễn nội dung bài báo
2.3.2.1.
Xây dựng hồ sơ người dùng
Thơng qua phân tích nội dung của bài báo, với mỗi người dùng, hệ thống
thực hiện tìm sở thích người dùng (hay cịn gọi là hồ sơ người dùng) thông qua nội
dung bài báo mà người dùng tương tác/ công bố. Thật vậy, với nghiên cứu viên
nằm trong tập chứa nghiên cứu viên , tức , hồ sơ người dùng được biểu diễn như
sau:
(2)
• : như tại 1.
21
• : Thường đại diện cho từ phân biệt thứ từ tập bài báo. Trong bài báo [3], giá
trị là tần suất xuất hiện của từ thứ của tập trong bài mô tả hoạt động của
nghiên cứu viên nếu hàm được tính theo phương pháp Okapi BM25. Với
nguồn dữ liệu như trình bày tại 4.2.1, . Trong đó, mang giá trị 1 nếu nghiên
cứu viên công bố bài báo , ngược lại, mang giá trị 0.
Hình 2-2 Biểu diễn hồ sơ người dùng
2.3.3. Thuật toán
Phương pháp tiếp cận lọc dựa trên nội dung sẽ được chia thành 2 loại[1,14]:
− Phương pháp tiếp cận lọc dựa trên nội dung theo bộ nhớ.
− Phương pháp tiếp cận lọc dựa trên nội dung theo mơ hình.
2.3.3.1.
Dựa trên bộ nhớ
Hệ thống khuyến nghị sử dụng phương pháp loại này thường phải trải qua 2 bước
chính như sau:
Phương pháp: Khuyến nghị lọc dựa trên nội dung theo bộ nhớ
Bước 1: Học
Đầu vào:
• : Tập gồm nghiên cứu viên.
• : Tập gồm bài báo.
Đầu ra: , tìm
22
Thực hiện:
1. , tạo theo cơng thức (1).
2. , tìm theo cơng thức (2)
Bước 2: Khuyến nghị cộng tác
Đầu vào:
• : Tập gồm nghiên cứu viên,
Đầu ra: , lấy danh sách nghiên cứu viên để khuyến nghị cho nghiên cứu viên
1. , , , tính :
(3)
Trong đó:
− thể hiện độ dài của vectơ
2. , lấy danh sách nghiên cứu viên để khuyến nghị cho nghiên cứu viên thông
qua hàm .
Bảng 2-2 Thuật toán khuyến nghị lọc dựa trên nội dung theo bộ nhớ
2.3.3.2.
Dựa trên mơ hình
Ngồi việc tính giá trị của hàm hữu ích như phương pháp dựa trên bộ nhớ
(mục 2.3.3.1), hệ thống cịn huấn luyện mơ hình để phân biệt nghiên cứu viên khác
thành loại sẽ cộng tác hay sẽ chưa cộng tác[1]. Việc thực hiện khuyến nghị sẽ theo
từng bước như sau:
23
Phương pháp: Khuyến nghị lọc dựa trên nội dung theo mơ hình (tổng qt)
Bước 1: Học
Đầu vào:
• : Tập gồm nghiên cứu viên.
• : Tập gồm bài báo.
Đầu ra: Mơ hình học máy.
Thực hiện:
1. , tạo theo cơng thức (1).
2. , tìm theo cơng thức (2)
3. Huấn luyện mơ hình dựa trên
Bước 2: Khuyến nghị
Đầu vào:
: Tập gồm nghiên cứu viên,
Đầu ra: , lấy danh sách nghiên cứu viên để khuyến nghị cho nghiên cứu viên
1. , khuyến nghị nghiên cứu viên qua hàm hữu ích được tính thơng qua mơ
hình
Bảng 2-3 Thuật tốn khuyến nghị lọc dựa trên nội dung theo mơ hình
2.3.4. Lợi thế
2.3.4.1.
Khởi động lạnh – bài báo mới
Điểm nổi bật của khuyến nghị dựa trên nội dung là giải quyết được trường
hợp “khởi động lạnh”. Đó là, với bài báo mới, hệ thống khuyến nghị sẽ rút trích nội
dung bài báo này và mơ hình hóa lại hồ sơ người dùng của tác giả để tính hàm hữu
ích[1,14].
2.3.4.2.
Khai phá định dạng văn bản thuần túy
Nhờ vào phân tích nội dung bài báo, định dạng văn bản thuần túy như báo,
trang mạng sẽ khơng trở thành khó khăn với hệ thống khuyến nghị tiếp cận lọc dựa
trên nội dung[1].
2.3.4.3.
Kết quả khuyến nghị tốt và dễ xây dựng
Tuy phương pháp rất dễ xây dựng nhưng không đồng nghĩa với kết quả
khuyến nghị không tốt. Ngược lại, theo như kết quả trình bày tại 4.5, khuyến nghị
24
bằng lọc dựa trên nội dung cao gấp 2 lần các phương pháp tương tự đỉnh và cả
Node2vec.
2.3.5. Bất cập
2.3.5.1.
Giảm đi tính mới lạ và cả tính đa dạng
Theo tác giả [5], tính mới lạ (novelty) được thể hiện khi danh sách đối tượng
được khuyến nghị gồm nhiều đối tượng mà người dùng chưa từng thấy trong quá
khứ. Điều này sẽ không xảy ra với hệ khuyến nghị tiếp cận lọc dựa trên nội dung vì
tồn bộ thuật tốn sẽ dựa trên bài báo được công bố hoặc bài mô tả hoạt động của
một nghiên cứu viên để khuyến nghị danh sách tương ứng với nội dung của bài báo
hoặc bài mơ tả hoạt động của nghiên cứu viên đó[1,3,14].
2.3.5.2.
Xử lý trên tập dữ liệu khổng lồ hơn
Dữ liệu công bố bài báo vốn đã khổng lồ thì giờ đây, với khuyến nghị dựa
trên nội dung, hệ thống phải đối mặt thêm với dữ liệu về nội dung bài báo. Việc này
vốn thực sự là thách thức của bài toán khuyến nghị cộng tác.
2.4.
Khuyến nghị lọc cộng tác
2.4.1. Giới thiệu
Khác với tiếp cận lọc dựa trên nội dung, hệ thống khuyến nghị thuộc loại này
sẽ tiên đoán/ ước lượng mức độ đánh giá cộng tác của cặp nghiên cứu viên bất kì để
thực hiện khuyến nghị.
1 Một số thuật ngữ
2.4.1.1.
Ma trận đánh giá
Với khuyến nghị cộng tác, không gian nghiên cứu viên ma trận đánh giá
kích thước chứa giá trị thể hiện khả năng cộng tác được đánh giá bởi nghiên cứu
viên cho . Các giá trị của thuộc vào khoảng từ giá trị 1 (không thể cộng tác) đến
giá trị 5 (cộng tác rất hữu ích)[1,14]. Ngồi ra, có thể mang giá trị -1 (không thể
cộng tác) hoặc giá trị 1(cộng tác rất hữu ích)[5]. Tuy vậy, ma trận sẽ tồn tại các giá
25