ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
DƯƠNG XUÂN HIỆP
NGUYỄN THỊ TUYẾT NHUNG
KHÓA LUẬN TỐT NGHIỆP
KHUYẾN NGHỊ TIN TỨC LIÊN QUAN DỰA TRÊN
TIẾP CẬN HỌC SÂU
RELATED NEWS RECOMMENDATION USING DEEP
LEARNING APPROACH
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM
TP. HỒ CHÍ MINH, 2021
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM
DƯƠNG XUÂN HIỆP - 16520376
NGUYỄN THỊ TUYẾT NHUNG - 16520899
KHÓA LUẬN TỐT NGHIỆP
KHUYẾN NGHỊ TIN TỨC LIÊN QUAN DỰA TRÊN
TIẾP CẬN HỌC SÂU
RELATED NEWS RECOMMENDATION USING DEEP
LEARNING APPROACH
KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM
GIẢNG VIÊN HƯỚNG DẪN
TS. HUỲNH NGỌC TÍN
TP. HỒ CHÍ MINH, 2021
THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định
số ……………………ngày……………………của Hiệu trưởng Trường Đại học Công
nghệ Thông tin.
1. Chủ tịch.
2. Thư ký.
3. Ủy viên.
4. Ủy viên.
ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC
CÔNG NGHỆ THÔNG TIN
TP. HCM, ngày ... tháng ... năm 20....
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc Lập - Tự Do - Hạnh Phúc
NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ HƯỚNG DẪN)
Tên khóa luận:
Khuyến nghị tin tức liên quan dựa trên tiếp cận học sâu
Nhóm SV thực hiện: Cán bộ hướng dẫn: Dương Xuân Hiệp 16520376 TS. Huỳnh
Ngọc Tín Nguyễn Thị Tuyết Nhung 16520899
Đánh giá khóa luận
1. Về cuốn báo cáo:
Số trang 67 Số chương 5 Số bảng số liệu 9 Số hình vẽ 34 Số tài liệu
tham khảo 11 Sản phẩm 1
Một số nhận xét về hình thức cuốn báo cáo:
………………………………………….………………………………………….……
………………………………………….………………………………………….……
………………………………………….………………………………………….…… 2.
Về nội dung nghiên cứu:
………………………………………….………………………………………….……
………………………………………….………………………………………….……
………………………………………….………………………………………….…… 3.
Về chương trình ứng dụng:
………………………………………….………………………………………….……
………………………………………….………………………………………….……
………………………………………….………………………………………….…… 4.
Về thái độ làm việc của sinh viên:
………………………………………….………………………………………….……
………………………………………….………………………………………….……
………………………………………….………………………………………….……
Đánh giá chung:
………………………………………….………………………………………….……
………………………………………….………………………………………….……
………………………………………….………………………………………….……
Điểm sinh viên:
Dương Xuân Hiệp:............/10
Nguyễn Thị Tuyết Nhung:............/10
Người nhận xét
(Ký và ghi rõ họ tên)
LỜI CẢM ƠN
Nhóm xin chân thành cảm ơn tới giảng viên hướng dẫn Huỳnh Ngọc Tín đã tận tình chỉ
dẫn cho chúng em trong quá trình thực hiện đề tài này. Nhóm cũng xin gửi lời cảm ơn tới
anh Trần Văn Tùng - sinh viên khóa 10 và bạn Ngơ Trung Hiếu - sinh viên khóa 11 trường
đại học Cơng nghệ Thơng tin đã góp ý, giúp đỡ chúng em thực hiện đề tài một cách tốt
nhất. Cảm ơn công ty VCCorp đã cung cấp nguồn dữ liệu tin tức phong phú để nhóm thực
hiện các thực nghiệm và đánh giá trên dữ liệu thực tế. Một lần nữa, nhóm xin chân thành
cảm ơn.
ĐỀ CƯƠNG CHI TIẾT
TÊN ĐỀ TÀI: Khuyến nghị tin tức liên quan dựa trên tiếp cận học sâu
Cán bộ hướng dẫn: TS. Huỳnh Ngọc Tín
Thời gian thực hiện: Từ ngày 10/03/2021 đến ngày 26/06/2021.
Sinh viên thực hiện:
Dương Xuân Hiệp – 16520376
Nguyễn Thị Tuyết Nhung - 16520899
Nội dung đề tài: (Mô tả chi tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện, kết
quả mong đợi của đề tài)
1. Lý do chọn đề tài:
- Chúng ta đang sống trong thời đại bùng nổ thông tin, đặc biệt là các nguồn thông tin
trực tuyến từ Internet. Hàng ngày có hàng ngàn bản tin được viết và đưa lên Internet, đòi
hỏi phải được nắm bắt kịp thời. Đặc biệt là trong hệ thống báo online với số lượng thông
tin khổng lồ. Làm sao chúng ta có thể tiếp cận được những tin tức mới nhất mà đúng với
chủ đề chúng ta quan tâm ?
- Những nhu cầu như vậy xảy ra rất thường xuyên với đa số mọi người, đòi hỏi một hệ
thống khuyến nghị tự động, giúp gợi ý những nội dung phù hợp nhất với mỗi người là
nhu cầu hết sức phổ biến và cần thiết.
2. Phạm vi nghiên cứu:
- Tập trung tìm hiểu các thuật tốn gợi ý tin tức, các kỹ thuật hỗ trợ khuyến nghị
- Triển khai, đánh giá độ chính xác dựa trên dữ liệu thử nghiệm
- Xây dựng ứng dụng gợi ý tin hướng đến người dùng Việt Nam
3. Đối tượng nghiên cứu:
Các công nghệ:
+ Backend: Python
+ Frontend: Django
+ Database: Mysql, Redis
- Hệ thống machine learning giúp gợi ý tin tức
- Đối tượng trong phạm vi đề tài hướng đến:
+ Các website báo: cafef, cafebiz, ...
+ Người đọc báo online
4. Mục tiêu:
- Hiểu được Machine Learning cơ bản. Tìm hiểu và so sánh một số cách tiếp cận
khuyến nghị tin tức liên quan.
- Xây dựng hệ thống khuyến nghị tin tức liên quan dựa trên các kiến thức đã tìm hiểu.
5. Phương pháp thực hiện:
- Lên kế hoạch thực hiện, trao đổi với giảng viên hướng dẫn để được định hướng đúng
về đề tài.
- Nghiên cứu, đọc các bài báo, tài liệu về kiến thức liên quan.
- Tìm hiểu về các hệ thống khuyến nghị và kỹ thuật áp dụng.
- Đánh giá thuật tốn và tính “kịp thời” khi triển khai thực tế.
6. Kết quả mong đợi:
- Hiểu được bài toán khuyến nghị và kiến thức liên quan.
- Xây dựng thành công hệ thống khuyến nghị các tin liên quan đến tin đang đọc.
Kế hoạch thực hiện:
STT Công việc Thời gian thực hiện
1 - Lựa chọn đề tài
10/03/2021
- Tìm hiểu đề tài, phát biểu bài tốn
12/03/2021
2 - Tìm hiểu bài tốn khuyến nghị tin liên quan
13/03/2021
- Tìm hiểu các kỹ thuật phổ biến đã được áp dụng
20/03/2021
3 - Nghiên cứu kiến thức học sâu
21/03/2021
- Tìm hiểu mơ hình khuyến nghị
15/04/2021
4 - Tìm hiểu thư viện hỗ trợ Deep Learning (Tensorflow) 16/04/2021 30/04/2021
5 - Xây dựng hệ thống khuyến nghị 01/05/2021 15/06/2021
6 - Hồn tất báo cáo, slide thuyết trình, hệ thống demo
16/06/2021
- Chuẩn bị phản biện và báo cáo
26/06/2021
TP. HCM, ngày 08 tháng 03 năm 2021
Xác nhận của CBHD
Sinh viên 1
(Ký tên và ghi rõ họ tên)
(Ký tên và ghi rõ họ tên)
Dương Xuân Hiệp
TS. Huỳnh Ngọc Tín
Sinh viên 2
(Ký tên và ghi rõ họ tên)
Nguyễn Thị Tuyết Nhung
MỤC LỤC
DANH MỤC HÌNH VẼ
DANH MỤC BẢNG
DANH MỤC MỘT SỐ THUẬT NGỮ
DANH MỤC CÁC CHỮ VIẾT TẮT
TÓM TẮT KHÓA LUẬN 1 Chương 1: TỔNG QUAN ĐỀ TÀI 2 1.1. Dẫn nhập 2 1.2.
Mục tiêu 2 1.3. Nội dung thực hiện 3 1.4. Phạm vi thực hiện 3 1.5. Bố cục báo cáo 3 1.6.
Kết quả đạt được 4 1.7. Kết chương 5 Chương 2: MỘT SỐ NGHIÊN CỨU LIÊN
QUAN 6 2.1. Mở đầu 6 2.2. Bài toán khuyến nghị tin liên quan 6 2.2.1. Thực trạng 6
2.2.2. Phát biểu bài toán 6 2.3. Một số hướng tiếp cận 6 2.3.1. Tiếp cận Convolutional
Neural Network and Cosine Similarity [4] 6
2.3.2. Tiếp cận Content-based via Shortest Entity Distance over Knowledge Graphs
[5] 7
2.3.3. Tiếp cận dựa vào mơ hình nhận thức học sâu (Deep Knowledge-aware
Network) [7] 9
2.4. Kết chương 11
Chương 3: KHUYẾN NGHỊ TIN TỨC LIÊN QUAN DÙNG MƠ HÌNH NHẬN
THỨC HỌC SÂU (DEEP KNOWLEDGE-AWARE MODEL) 12
3.1. Mở đầu 12 3.2. Phương pháp truyền thống 12 3.3. Tiếp cận sử dụng Deep Model 12
3.3.3. Mơ hình nhận thức học sâu DKN (Deep Knowledge-aware Network) [7] 13 3.3.4.
Knowledge-aware convolutional neural network (KCNN) 16 3.3.4.1. Biểu diễn bài báo
dùng Word2Vec 17 3.3.4.2. Biểu diễn bài báo dùng đồ thị tri thức (Knowledge Graph) 17
3.3.5. Attention Network 21 3.4. Phương pháp thực hiện 21 3.4.1. Giai đoạn tiền xử lý 21
3.4.2. Hiện thực hóa đồ thị tri thức 22 3.4.3. Biểu diễn nội dung bài báo 22 3.4.4. Tính xác
suất đọc tin sử dụng Attention Network 23 3.5. Kết chương 23 Chương 4: HIỆN THỰC
HỆ THỐNG 24 4.1. Mở đầu 24 4.2. Yêu cầu hệ thống 24 4.3. Kiến trúc hệ thống 24
4.3.1. Kiến trúc tổng quan 24 4.3.2. Knowledge-aware convolutional neural network
(KCNN) 25 4.3.3. Tính xác suất đọc tin 30 4.3.4. Xây dựng hệ thống khuyến nghị 31 4.4.
Thiết kế API 31 4.5. Thiết kế giao diện 33 4.6. Triển khai hệ thống 33
4.7. Kết chương 35 Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 36 5.1. Mở đầu 36
5.2. Dữ liệu thực nghiệm (Dataset) 36 5.2.1 Dữ liệu word embeddings 36 5.2.2 Dữ liệu đồ
thị tri thức 36 5.2.3 Dữ liệu mơ hình DKN 37 5.3. Phương pháp đánh giá 38 5.3.1. Các độ
đo 38 5.3.2. Độ đo AUC 38 5.3.3. Độ đo CTR (Click-Through Rate) 40 5.3.4. Độ đo TOS
(Time One Site) 40 5.3.5. Độ đo TOR (Time On Read) 41 5.3.6. Độ đo TOP (Time On
Page) 41 5.4. Thiết lập thực nghiệm 41 5.4.1. Thiết lập thực nghiệm Offline 41 5.4.2. Thiết
lập thực nghiệm Online 41 5.5. Khả năng chịu tải 43 5.5.1. Yêu cầu hệ thống 43 5.5.2.
Thuật toán DKN 43 5.6. Kết quả thực nghiệm 44 5.6.1. Kết quả đánh giá Offline 44 5.6.2.
Kết quả đánh giá Online 44 5.6.2.1. Độ đo CTR 45 5.6.2.2. Độ đo TOS 45 5.6.2.3. Độ đo
TOR 46 5.6.2.4. Độ đo TOP 47
5.7. Phân tích lỗi 47 5.8. Nhận định 47 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 49 Kết
luận 49 Hướng phát triển 49 TÀI LIỆU THAM KHẢO 51 PHỤ LỤC 52 Phụ lục 1: Bài
báo cho hội nghị Khoa học trẻ và Nghiên cứu sinh năm 2021 52 Phụ lục 2: Word
Embeddings 62 Phụ lục 3: Convolutional Neural Network 66
DANH MỤC HÌNH VẼ
2.1. Minh họa cơ chế khuyến nghị sử dụng mạng CNN và Cosine Similarity
2.2. Minh họa cơ chế khuyến nghị sử dụng mạng SED
2.3. Minh họa cơ chế khuyến nghị tin theo mơ hình nhận thức học sâu
3.1. Quy trình biểu diễn tiêu đề bài báo sử dụng deep model
3.2. Tổng quan mơ hình nhận thức học sâu (DKN)
3.3. Cơ chế hoạt động mạng Knowledge-aware convolutional neural network (KCNN)
3.4. Mơ hình hóa đồ thị tri thức
3.5. Quy trình trích xuất thơng tin thực thể từ đồ thị tri thức
3.6. Mô tả các phương pháp trích xuất thơng tin thực thể (TransE và TransH)
3.7. Cơ chế hoạt động mạng Attention
4.1. Kiến trúc tổng quan hệ thống khuyến nghị tin liên quan
4.2. Luồng xử lý mạng KCNN
4.3. Quy trình biểu diễn bài báo dùng Word embeddings
4.4. Tokenize nội dung bài báo
4.5. Tiền xử lý bài báo dùng đồ thị tri thức
4.6. Huấn luyện mơ hình biểu diễn nội dung bài báo dùng đồ thị tri thức
4.7. Phương pháp hợp nhất ngữ cảnh bài báo sử dụng mạng KCNN 4.8.
Quy trình tính xác suất đọc tin sử dụng mạng Attention
4.9. Luồng xử lý service khuyến nghị
4.10. Thiết kế API cho hệ thống khuyến nghị
4.11. Giao diện demo cho hệ thống khuyến nghị tin
5.1. Phân phối dữ liệu (Positive, negative) do mơ hình phân loại
5.2. Mô tả trực quan độ đo AUC qua các ngưỡng
5.3. Mô tả trực quan độ đo Time On Site (TOS)
5.4. Mô tả kỹ thuật A/B Testing
5.5. Giá trị độ đo CTR khi triển khai thực tế trong 2 tuần
5.6. Giá trị độ đo TOS khi triển khai thực tế trong 2 tuần
5.7. Giá trị độ đo TOR khi triển khai thực tế trong 2 tuần
5.8. Giá trị độ đo TOP khi triển khai thực tế trong 2 tuần
5.9. Kiến trúc mạng tổng qt của mơ hình Word2Vec
5.10. Ý tưởng thực hiện mơ hình Skip-gram
5.11. Kiến trúc mạng của mơ hình Skip-gram
5.12. Kiến trúc mạng của mơ hình CBOW
5.13. Kiến trúc tổng quát của mạng tích chập
DANH MỤC BẢNG
2.1. Nhận định chung về các nghiên cứu trong bài toán khuyến nghị
5.1. Mô tả các loại quan hệ trong đồ thị tri thức
5.2. Mô tả tập dữ liệu cho đồ thị tri thức
5.3. Mơ tả tập dữ liệu cho mơ hình nhận thức học sâu (DKN) 5.4.
Mô tả nội dung đánh giá Online sử dụng kỹ thuật A/B Testing 5.5.
Thông tin chịu tải của hệ thống
5.6. Khả năng chịu tải mà service khuyến nghị tin đáp ứng được
5.7. Kết quả đánh giá Offline mơ hình qua các độ đo khác nhau
5.8. Số liệu đánh giá Online trong 2 tuần
DANH MỤC MỘT SỐ THUẬT NGỮ
Attention Network
Mạng Attention
Clustering
Phân cụm
Deep Knowledge-aware Network
Mơ hình nhận thức học sâu
Entity
Thực thể
Knowledge-aware Convolutional Neural Network
Mạng tích chập tri thức
Knowledge Graph
Đồ thị tri thức
Multi-relational Data
Dữ liệu đa quan hệ
Relation
Mối quan hệ
Related News Recommendation
Khuyến nghị tin liên quan
Translating Embeddings
Phương pháp rút trích quan hệ từ đồ
thị tri thức
Tokenize
Tách từng từ
DANH MỤC CÁC CHỮ VIẾT TẮT
CNN
Convolutional Neural Network
DKN
Deep Knowledge-aware Network
KCNN
Knowledge-aware Convolutional Neural
Network
KG
Knowledge Graph
W2V
Word2Vec
TÓM TẮT KHÓA LUẬN
Hiện nay, các trang báo thường tổng hợp tin từ nhiều nguồn khác nhau với sự đa dạng về nội
dung và hình thức. Do đó, hệ thống khuyến nghị tin đóng vai trị quan trọng trong việc hỗ trợ
người đọc tìm kiếm tin liên quan tới chủ đề họ quan tâm, giúp tiết kiệm thời gian, qua đó
tăng sự tương tác của người đọc trong các trang báo. Vậy làm sao để xây dựng một hệ thống
khuyến nghị hiệu quả, tự động đề xuất nội dung liên quan đến vấn đề người đọc quan tâm.
Để giải quyết vấn đề này, nhóm chúng tơi đã xây dựng hệ thống khuyến nghị các tin liên
quan dựa trên bài báo đang đọc. Phương pháp được sử dụng là Deep Knowledge-aware
Network (DKN) và Attention Network. DKN là một mô hình học sâu tận dụng quan hệ thực
thể từ đồ thị tri thức trong việc khuyến nghị. Mơ hình cho phép tận dụng ngữ nghĩa bài báo ở
hai cấp độ chính: quan hệ giữa các từ ngữ lân cận trong nội dung và quan hệ tri thức ẩn trong
các liên kết thực thể. Sau khi biểu diễn bài báo dưới hai cấp độ trên, chúng tôi sử dụng
Attention Network tính xác suất đọc tin và trả về danh sách tin liên quan. Nguồn dữ liệu
được dùng để thực hiện đề tài, nhóm đã thu thập bộ dữ liệu báo chí từ trang báo Cafebiz (sản
phẩm cơng ty VCCorp) trong 3 tháng. Kết thúc đề tài nhóm đã đạt được các kết quả, cụ thể:
● Học hỏi được các kiến thức về hệ thống khuyến nghị.
● Nắm bắt được các kiến thức máy học, học sâu.
● Xây dựng mơ hình nhận thức học sâu với độ chính xác cao.
● Xây dựng tập dữ liệu tiếng việt phục vụ cho quá trình kiểm thử và đánh giá. ● Xây
dựng service khuyến nghị tin liên quan và triển khai trên trang báo Cafebiz. ● Bài báo:
Khuyến nghị tin tức liên quan dựa trên mơ hình nhận thức thực thể kết hợp
phương pháp học sâu - Hội nghị Khoa học trẻ và Nghiên cứu sinh năm 2021 Trường
Đại học Công nghệ Thông tin (ĐHQG TP.HCM).
1
Chương 1: TỔNG QUAN ĐỀ TÀI
1.1. Dẫn nhập
Công nghệ số phát triển kéo theo sự biến đổi về thông tin. Cụ thể, thông tin phát triển với
khối lượng khổng lồ, biến đổi không ngừng về mặt nội dung. Đồng thời, thơng tin chiếm một
vị trí quan trọng trong sự tìm tịi, học hỏi của con người hiện nay. Có thể nói, bắt kịp thơng
tin là bắt kịp với thời đại. Tuy nhiên, với khả năng có hạn của con người, việc chọn lọc thông
tin từ hàng ngàn, thậm chí hàng triệu là điều khơng tưởng. Do đó, các hệ thống khuyến nghị
ra đời, hỗ trợ con người tiếp cận một cách nhanh nhất, nắm bắt kịp thời tình hình thế giới
hiện nay, hỗ trợ con người trong quá trình học hỏi, phát triển trong thời đại mới.
Trong các hệ thống khuyến nghị hiện nay, các phương pháp được áp dụng chủ yếu là: lọc
dựa trên nội dung (Content-based), lọc cộng tác (Collaborative Filtering), lọc theo chủ đề,...
Tuy nhiên, các phương pháp này đang phải đương đầu với một số khó khăn, thách thức như:
sự tăng nhanh về số lượng tin tức, sở thích của độc giả thay đổi thường xuyên do bị tác động
từ các yếu tố như thời gian, địa điểm, tin nóng, vấn đề cold-start, hồ sơ độc giả mới,... Từ đó,
hiệu suất khuyến nghị chưa đạt được kết quả mong đợi khi triển khai thực tế.
Trong bài viết này, chúng tơi đề xuất mơ hình nhận thức tiếp cận học sâu, nhằm khắc phục
các thách thức đã đề cập, đồng thời cải thiện hiệu suất khuyến nghị, thông tin một cách
nhanh nhất tới người đọc, giúp họ tiết kiệm thời gian trong việc chọn lọc, học hỏi, bắt kịp với
sự biến đổi của thời đại.
1.2. Mục tiêu
● Tìm hiểu các kiến thức cơ bản trong lĩnh vực học máy, từ đó làm bước đệm cho các
tiếp cận học sâu trong hệ thống khuyến nghị
● Tìm hiểu các nghiên cứu liên quan.
2
● Tìm hiểu về đồ thị tri thức và mơ hình nhận thức thực thể.
● Xây dựng hệ thống khuyến nghị tin liên quan dựa trên mơ hình nhận thức thực thể. ●
Đo đạc và đánh giá hiệu quả trong việc gợi ý tin.
1.3. Nội dung thực hiện
● Tìm hiểu về bài toán khuyến nghị tin liên quan
● Khảo sát các thuật toán: Nghiên cứu các thuật toán đã được triển khai trong hệ thống
gợi ý tin liên quan.
● Đo đạc, kiểm thử kết quả các các phương pháp khuyến nghị
● Chọn ra hướng tiếp cận phù hợp nhất cho bài tốn (Mơ hình nhận thức thực thể). ● Tìm
tịi, học hỏi các về kiến thức cần thiết nhằm tạo điều kiện thuận lợi trong việc triển khai
bài toán với hướng tiếp cận đã chọn.
● Thu thập và xử lý dữ liệu tin tức phục vụ cho quá trình đo đạc và kiểm thử. ●
Xây dựng service khuyến nghị tin phục vụ cho hệ thống công ty VCCorp. ● Xây
dựng giao diện tương tác người dùng.
● Kiểm thử và đánh giá hiệu suất hệ thống.
● Triển khai service khuyến nghị vào thực tế.
1.4. Phạm vi thực hiện
Trong phạm vi khóa luận này, chúng tơi mong muốn sử dụng mơ hình nhận thức thực thể vào
hệ thống khuyến nghị tin liên quan cho trang báo nổi tiếng: cafebiz. Việc xây dựng hệ thống
gợi ý giúp người đọc tiết kiệm thời gian trong việc tìm kiếm tin, qua đó tạo sự hứng thú cho
họ.
1.5. Bố cục báo cáo
Bố cục báo cáo gồm có 5 chương:
● Chương 1: Tổng quan đề tài. Giới thiệu bài toán khuyến nghị tin liên quan, đề ra
mục tiêu và phạm vi thực hiện, mô tả tổng quan hệ thống.
3
● Chương 2: Một số nghiên cứu liên quan. Mơ tả bài tốn khuyến nghị tin liên quan, các
thách thức, và đề ra hướng tiếp cận cho bài toán.
● Chương 3: Khuyến nghị tin liên quan. Mô tả phương hướng xây dựng hệ thống, nêu
rõ từng thành phần của phương pháp và cách hiện thực.
● Chương 4: Hiện thực hệ thống. Nêu rõ các bước xây dựng hệ thống, tiền xử lý dữ
liệu, hiện thực các thành phần con trong hệ thống, triển khai service và giao diện
người dùng.
● Chương 5: Thực nghiệm và đánh giá. Đo đạc và đánh giá hệ thống với tập dữ liệu đã
tạo, từ đó đưa ra phương án xử lý tiếp theo.
● Cuối cùng là phần tổng kết lại các kết quả đã đạt được và đề ra hướng phát triển. 1.6.
Kết quả đạt được
Về kiến thức
● Học hỏi được các kiến thức cần thiết qua việc tìm hiểu bài toán và các phương pháp
triển khai.
● Nắm bắt được các kiến thức cơ bản trong lĩnh vực học máy, học sâu và xử lý ngơn ngữ
tự nhiên.
● Tích lũy được kinh nghiệm trong việc triển khai và xử lý các hệ thống với dữ liệu lớn.
Về sản phẩm
● Xây dựng thành cơng mơ hình nhận thức học sâu với độ chính xác cao. ● Xây dựng
được tập dữ liệu tiếng việt phục vụ cho quá trình kiểm thử và đánh giá. ● Hoàn thiện API
cho hệ thống khuyến nghị liên quan và triển khai trên trang báo Cafebiz.
● Bài báo: Khuyến nghị tin tức liên quan dựa trên mơ hình nhận thức thực thể kết hợp
phương pháp học sâu - Hội nghị Khoa học trẻ và Nghiên cứu sinh năm 2021 Trường
Đại học Công nghệ Thông tin (ĐHQG TP.HCM).
4
1.7. Kết chương
Trong chương này, chúng tôi tập trung mơ tả tổng quan về bài tốn, phạm vi, hướng tiếp cận
và cách thức triển khai hệ thống.
Trong chương sau, chúng tơi sẽ mơ tả rõ hơn về bài tốn, các thách thức và các phương pháp
đã áp dụng trước đó.
5
Chương 2: MỘT SỐ NGHIÊN CỨU LIÊN QUAN
2.1. Mở đầu
Hiện nay, các trang báo thường tổng hợp tin từ nhiều nguồn khác nhau với sự đa dạng về nội
dung và hình thức. Do đó, hệ thống khuyến nghị tin đóng vai trị quan trọng trong việc hỗ trợ
người đọc tìm kiếm tin liên quan tới chủ đề họ quan tâm. Nhờ việc tiết kiệm thời gian trong
việc tìm kiếm và sự đa dạng về chủ đề bài báo được gợi ý, hệ thống tạo sự hứng thú cho
người đọc, đồng thời tăng sự tương tác của họ trong các trang báo.
Trong chương này, chúng tơi cũng trình bày các nghiên cứu đã được sử dụng cho bài toán
khuyến nghị tin liên quan, cũng như đánh giá hệ suất cho từng phương pháp.
2.2. Bài toán khuyến nghị tin liên quan
2.2.1. Thực trạng
Ngày nay, với sự phát triển mạnh mẽ của Internet, tin tức luôn được cập nhật và thay đổi liên
tục, do đó hệ thống khuyến nghị đóng vai trị quan trọng trong việc thơng tin sớm nhất tình
hình xã hội và các vấn đề mà người đọc quan tâm. Khuyến nghị tin là một bài tốn khơng
mới, qua dịng chảy lịch sử, hệ thống đã được áp dụng, cải tiến liên tục, từ việc gợi ý sử dụng
một số phương pháp truyền thống đến xa hơn là các kỹ thuật tiên tiến hơn. Cụ thể, trong
những năm gần đây, với sự phát triển của các mơ hình NLP làm tăng hiệu suất hệ thống cũng
như sự hứng thú của người đọc.
2.2.2. Phát biểu bài toán
Khuyến nghị tin liên quan là bài toán được triển khai trên các trang báo điện tử, bài toán
nhận đầu vào là một bài báo và đầu ra là danh sách các bài báo có chủ đề liên quan.
2.3. Một số hướng tiếp cận
2.3.1. Tiếp cận Convolutional Neural Network and Cosine Similarity [4]
Lấy ý tưởng việc biểu diễn các đặc trưng từ ảnh, tiếp cận Convolutional Neural Network
(CNN) nhận đầu vào là một cụm từ hoặc văn bản và trả về một vector đặc trưng. Vector
6
này đại diện cho các đặc trưng chính mơ tả bối cảnh hay chủ đề chính mà bài báo đang nói
tới. Sau đó, tiếp cận sử dụng phương pháp Cosine Similarity nhằm so sánh sự tương đồng
giữa các bài báo, từ đó đưa ra xác suất đọc và trả ra danh sách tin liên quan.
Kỹ thuật này hoạt động rất tốt với các tin có nội dung nói về nhiều chủ đề khác nhau như:
công nghệ, truyền thông, y tế… và áp dụng được cho cả các tin mới (chưa có lịch sử tương
tác của người đọc) nên phù hợp khi danh sách tin được cập nhật liên tục.
Nhờ khả năng mở rộng, tiếp cận đáp ứng được thời gian thực và xử lý nhanh; độ phổ biến và
thường xuyên của bài báo thay đổi liên tục theo thời gian.
Hình 2.1: Khuyến nghị sử dụng CNN & Cosine Similarity
2.3.2. Tiếp cận Content-based via Shortest Entity Distance over Knowledge Graphs [5]
Trong các hệ thống khuyến nghị hiện nay, việc thu thập mô tả chi tiết về độc giả hay phản
hồi của họ là một vấn đề nan giải. Do đó, địi hỏi một phương pháp tận dụng tốt nội dung,
chủ đề bài báo mà ít phụ thuộc vào hồ sơ độc giả. Các tiếp cận truyền thống như: TF IDF, ….
chỉ so sánh được sự liên quan của hai bài báo dựa vào tần suất xuất hiện của các từ trong bài.
Tuy nhiên, trong thực tế, hai tin giống nhau về mặt số từ có thể nói về các chủ đề khác nhau.
Điều này tạo ra sự kém hiệu quả trong việc khuyến nghị tin.
Trong mỗi bài báo, chủ đề chính thường được tóm tắt qua các thực thể và liên kết giữa
chúng. Tiếp cận Shortest Entity Distance (SED) so sánh sự tương đồng giữa các bài báo
7
thông qua sự giống nhau về cách tổ chức entity trong mỗi tin. Hình 2 đại diện cách tổ chức
thực thể trong mỗi bài báo, mỗi bài đại diện cho các cụm có màu sắc khác nhau và sự tương
đồng của các bài thể hiện khi các cụm gần che phủ “overlap" nhau.
Hình 2.2: Khuyến nghị tin sử dụng SED
Nhờ tận dụng tốt thông tin thực thể trong mỗi bài báo, tiếp cận giải quyết tốt các thách thức
phổ biến trong hệ thống khuyến nghị hiện nay. Điển hình là vấn đề cold-start khi độc giả mới
chưa có bất kỳ thơng tin đọc tin, từ đó nâng cao hiệu suất khuyến nghị.
8
2.3.3. Tiếp cận dựa vào mơ hình nhận thức học sâu (Deep Knowledge-aware
Network) [7]
Đối với hệ thống khuyến nghị hiện tại, thơng tin của một bài báo thường được rút trích nhờ
một số cách tiếp cận như: contextual-bandit [8], topic model [9], Fasttext [10]. Tuy nhiên,
các phương pháp này chỉ lấy được thông tin theo ngữ cảnh các từ lân cận hay phân cụm chủ
đề, dẫn đến tin được gợi ý thường ít liên quan tới chủ đề người đọc quan tâm, khơng tạo
được sự hứng thú cho họ. Do đó, chúng tơi đề xuất mơ hình nhận thức thực thể kết hợp
phương pháp học sâu nhằm hỗ trợ trích xuất quan hệ thực thể trong bài báo. Mơ hình này có
nhiệm vụ hợp nhất quan hệ thực thể từ đồ thị tri thức và quan hệ từ ngữ (ngữ cảnh các từ lân
cận) trong bài báo. Từ đó, nâng cao hiệu suất của hệ thống khuyến nghị tin.
Về các thách thức trong bài tốn khuyến nghị, mơ hình này giải quyết được các khó khăn
như:
● Ma trận thưa: phương pháp khơng xây dựng ma trận user-item, nên khơng gặp phải
khó khăn ma trận user-item thưa.
● Số lượng bài báo đăng tải nhanh: phương pháp liên tục biểu diễn các bài mới đăng tải
thành vector thời gian thực, những tin tức được biểu diễn thành vector đề được đề
xuất, giải quyết được khó khăn về lượng bài tăng nhanh.
● Độ hot của tin tức giảm theo thời gian: phương pháp chỉ đề xuất được những tin tức
đọc trong thời gian gần (trong vịng 2 tháng), do đó tránh đề xuất những tin tức cũ và
ít được đọc.
● Tin có chủ đề đa dạng: mơ hình tận dụng bối cảnh tin qua quan hệ từ ngữ lân cận và cả
tri thức đa dạng từ đồ thị tri thức. Do đó, sự đa dạng của nội dung tin được mô tả
thông qua liên kết tri thức giữa các thực thể.
● Sở thích người đọc thay đổi: phương pháp chỉ quan tâm đến tin đang đọc hiện tại, do
đó khơng gặp vấn đề sở thích thay đổi
9
Hình 2.3: Khuyến nghị theo mơ hình nhận thức học sâu
2.3.6. Nhận định về các nghiên cứu và tiếp cận cho bài toán khuyến nghị tin liên
quan
Nhìn chung, mỗi nghiên cứu liên quan sẽ gặp các khó khăn, thách thức riêng trong q trình
triển khai thực tế. Từ nhận định về các khó khăn của từng kỹ thuật khuyến nghị, chúng tôi
quyết định chọn sử dụng mơ hình nhận thức học sâu (Deep Knowledge-aware Network) [7]
làm hướng tiếp cận cho đề tài nghiên cứu. Chúng tôi hy vọng sau khi triển khai hệ thống
khuyến nghị với tiếp cận này, sẽ mang lại đánh giá khả quan đối với dữ liệu thực tế.
Thách thức trong lĩnh vực khuyến nghị tin
Phương pháp
Số lượng tin
Độ hot của
Sở thích
Mơ tả tri thức
tức tăng
tin giảm dần
người đọc
tiềm ẩn
nhanh
theo thời
thay đổi
(knowledge level)
gian
CNN & Cosine
X
X
X
Similarity
10
Shortest Entity
X
X
X
X
X
Distance over
Knowledge Graphs
Knowledge-
X
X
aware Network
Bảng 2.1: Nhận định chung về các nghiên cứu trong bài toán khuyến nghị
2.4. Kết chương
Trong chương này, chúng tôi giới thiệu về các nghiên cứu liên quan trong lĩnh vực khuyến
nghị, điểm nổi bật cũng nhưng khó khăn của chúng. Qua đó, chúng tơi đưa ra nhận định
chung về các nghiên cứu và đưa ra lựa chọn về hướng tiếp cận cho bài toán khuyến nghị tin
liên quan.
11
Chương 3: KHUYẾN NGHỊ TIN TỨC LIÊN QUAN DÙNG MÔ HÌNH
NHẬN THỨC HỌC SÂU (DEEP KNOWLEDGE-AWARE MODEL)
3.1. Mở đầu
Trong chương trước, chúng tôi đã đưa ra nhận định về các hướng tiếp cận cho bài tốn
khuyến nghị tin, từ đó chọn tiếp cận cho hệ thống khuyến nghị. Trong chương này, chúng ta
sẽ đi chi tiết hơn về hệ thống và công dụng của từng thành phần nhỏ trong hệ thống.
3.2. Phương pháp truyền thống
Trong các bài toán NLP, phương pháp biểu diễn văn bản chủ yếu là "bag-of-words", "bags of
ngrams",... Tuy nhiên, các phương pháp này thường bỏ qua thứ tự các từ trong câu và khơng
mã hóa tốt sự tương đồng giữa các từ hoặc cụm từ.
3.3. Tiếp cận sử dụng Deep Model
Nhằm hạn chế một số nhược điểm của phương pháp cũ, chúng tôi tiếp cận các mơ hình học
sâu, điển hình là sử dụng mạng CNN cho phép tận dụng tốt ngữ nghĩa văn bản. Từ đó, cải
thiện hiệu suất cho hệ thống gợi ý tin tức. Tiêu đề bài báo trước khi được đưa vào mạng được
tiền xử lý thành một ma trận ngữ nghĩa, sau đó, nhờ ưu điểm của mạng CNN, các đặc trưng
của ma trận này được rút trích và tổng hợp thành một vector mơ tả ngữ nghĩa nội dung bài
báo.
12
Hình 3.1: Biểu diễn tiêu đề bài báo
3.3.3. Mơ hình nhận thức học sâu DKN (Deep Knowledge-aware Network) [7]
Đối với hệ thống khuyến nghị hiện tại, thông tin của một bài báo thường được rút trích nhờ
một số cách tiếp cận như: topic model [9], semantic model [11]. Tuy nhiên, các phương pháp
này chỉ lấy được thông tin theo ngữ cảnh các từ lân cận, dẫn đến tin được gợi ý thường ít liên
quan tới chủ đề người đọc quan tâm, không tạo được sự hứng thú cho họ. Do đó, chúng tơi
đề xuất mơ hình nhận thức thực thể kết hợp phương pháp học sâu nhằm hỗ trợ trích xuất
quan hệ thực thể trong bài báo.
Deep Knowledge-aware Network (DKN) là một mơ hình học sâu tận dụng quan hệ thực thể
từ đồ thị tri thức trong việc khuyến nghị. Mơ hình nhận đầu vào là tin đang đọc và trả về
danh sách các tin khuyến nghị. DKN gồm 2 thành phần chính là mạng KCNN và Attention
Network. KCNN là một dạng biến thể của CNN, cho phép bổ sung thông tin tri thức về thực
thể trong việc biểu diễn ngữ nghĩa bài báo. Mạng KCNN nhận đầu vào là nội dung tin và trả
về vector đặc trưng cho tin đó. Bên cạnh đó, Attention Network tính xác suất đọc tin và trả về
danh sách tin khuyến nghị.
Các phương pháp phổ biến như: TransE [2] và TransH [3] được sử dụng trích xuất liên kết
thực thể trong bài báo tiếng anh và đã đạt được kết quả tích cực. Tiếp nối nghiên cứu của
13
họ, chúng tôi thử nghiệm các phương pháp này với bài báo tiếng việt, từ đó đưa ra đánh giá
tổng quan và chọn ra phương pháp phù hợp nhất để biểu diễn thông tin thực thể. Tiếp theo,
chúng tơi thử nghiệm mơ hình DKN [7] nhằm mơ tả đầy đủ nội dung của một bài báo, bao
gồm thông tin về quan hệ từ ngữ và quan hệ thực thể.
Hình 3.2: Mơ hình nhận thức thực thể
Nhằm phục vụ cho việc triển khai hệ thống khuyến nghị tin liên quan, chúng tôi đã hiệu
chỉnh một số thành phần chính trong kiến trúc mơ hình DKN, cụ thể:
● Thay đổi số lượng đầu vào của mơ hình: mơ hình nhận đầu vào là tin đang đọc và danh
sách các tin ứng viên (candidate news).
● Thay đổi tiêu chí chọn ứng viên: nhằm cải thiện hiệu suất trong việc khuyến nghị, các
tin ứng viên được phải có quan hệ ngữ cảnh với tin đang đọc. Do đó, chúng tôi sử
dụng tiếp cận cosine similarity [6] nhằm tận dụng sự tương đồng về ngữ cảnh:
14
(5)
● Mơ hình nhận thức (DKN) được thiết kế phục vụ bài toán gợi ý tin theo sở thích
người đọc. Do đó, để phù hợp với bài tốn hiện tại, chúng tơi đã thiết kế mạng
attention chỉ phục vụ cho việc tính xác suất được đọc của các tin ứng viên.
Knowledge-aware CNN: chúng tôi sử dụng mạng KCNN cho phép tổng hợp thông tin văn
bản ở cấp độ quan hệ từ ngữ và cấp độ tri thức nhờ liên kết từ các thực thể trong bài báo.
Theo kiến trúc của cách tiếp cận này, từ tiêu đề một bài báo, chúng tôi tạo ra ba ma trận:
word embedding (tiếp cận word2vec), entity embedding và context embedding (đồ thị tri
thức). Mỗi ma trận đại diện cho một cấp độ biểu diễn văn bản, đóng vai trị là một kênh của
ma trận đầu vào của mạng.
Vì các ma trận được tạo từ các phương pháp khác nhau, chúng tôi sử dụng một ma trận
chuyển đổi (M) nhằm khắc phục sự mất mát thông tin khi khác biệt về khơng gian vector.
Theo nghiên cứu [7], mơ hình đem lại kết quả thực tế tốt hơn khi sử dụng hàm phi tuyến tính.
Dựa vào ưu điểm hội tụ nhanh của hàm tanh khi so sánh với một số hàm Hyperbolic, điển
hình là hàm sigmoid. Chúng tơi thấy rằng đạo hàm hàm tanh thường có giá trị lớn hơn đạo
hàm sigmoid, do đó độ dốc của hàm tanh là lớn hơn và mơ hình hội tụ nhanh hơn. Từ những
nhận định trên, chúng tôi sử dụng lại công thức từ tiếp cận [7]:
X' = tanh(MX+b) (6)
Trong đó, X là ma trận gốc, b là hệ số huấn luyện bias và X’ là kết quả từ phép biến đổi ma
trận.