Tải bản đầy đủ (.pdf) (86 trang)

KHÓA LUẬN tốt NGHIỆP KHUYẾN NGHỊ TIN tức LIÊN QUAN dựa TRÊN TIẾP cận học sâu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.11 MB, 86 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM

DƯƠNG XUÂN HIỆP
NGUYỄN THỊ TUYẾT NHUNG

KHÓA LUẬN TỐT NGHIỆP

KHUYẾN NGHỊ TIN TỨC LIÊN QUAN DỰA TRÊN
TIẾP CẬN HỌC SÂU
RELATED NEWS RECOMMENDATION USING DEEP
LEARNING APPROACH

KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM

TP. HỒ CHÍ MINH, 2021


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM

DƯƠNG XUÂN HIỆP - 16520376
NGUYỄN THỊ TUYẾT NHUNG - 16520899

KHÓA LUẬN TỐT NGHIỆP

KHUYẾN NGHỊ TIN TỨC LIÊN QUAN DỰA TRÊN


TIẾP CẬN HỌC SÂU
RELATED NEWS RECOMMENDATION USING DEEP
LEARNING APPROACH

KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM
GIẢNG VIÊN HƯỚNG DẪN
TS. HUỲNH NGỌC TÍN

TP. HỒ CHÍ MINH, 2021


THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định
số ……………………ngày……………………của Hiệu trưởng Trường Đại học Công
nghệ Thông tin.
1. Chủ tịch.
2. Thư ký.
3. Ủy viên.
4. Ủy viên.


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN


TP. HCM, ngày ... tháng ... năm 20....

NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ HƯỚNG DẪN)

Tên khóa luận:
Khuyến nghị tin tức liên quan dựa trên tiếp cận học sâu
Nhóm SV thực hiện:

Cán bộ hướng dẫn:

Dương Xuân Hiệp

16520376

Nguyễn Thị Tuyết Nhung

16520899

TS. Huỳnh Ngọc Tín

Đánh giá khóa luận
1. Về cuốn báo cáo:
Số trang

67

Số chương

5


Số bảng số liệu

9

Số hình vẽ

34

Số tài liệu tham khảo

11

Sản phẩm

1

Một số nhận xét về hình thức cuốn báo cáo:
………………………………………….………………………………………….……
………………………………………….………………………………………….……


………………………………………….………………………………………….……
2. Về nội dung nghiên cứu:
………………………………………….………………………………………….……
………………………………………….………………………………………….……
………………………………………….………………………………………….……
3. Về chương trình ứng dụng:
………………………………………….………………………………………….……
………………………………………….………………………………………….……

………………………………………….………………………………………….……
4. Về thái độ làm việc của sinh viên:
………………………………………….………………………………………….……
………………………………………….………………………………………….……
………………………………………….………………………………………….……
Đánh giá chung:
………………………………………….………………………………………….……
………………………………………….………………………………………….……
………………………………………….………………………………………….……
Điểm sinh viên:
Dương Xuân Hiệp:............/10
Nguyễn Thị Tuyết Nhung:............/10
Người nhận xét

(Ký và ghi rõ họ tên)


LỜI CẢM ƠN
Nhóm xin chân thành cảm ơn tới giảng viên hướng dẫn Huỳnh Ngọc Tín đã tận tình chỉ
dẫn cho chúng em trong quá trình thực hiện đề tài này. Nhóm cũng xin gửi lời cảm ơn
tới anh Trần Văn Tùng - sinh viên khóa 10 và bạn Ngơ Trung Hiếu - sinh viên khóa 11
trường đại học Cơng nghệ Thơng tin đã góp ý, giúp đỡ chúng em thực hiện đề tài một
cách tốt nhất. Cảm ơn công ty VCCorp đã cung cấp nguồn dữ liệu tin tức phong phú để
nhóm thực hiện các thực nghiệm và đánh giá trên dữ liệu thực tế. Một lần nữa, nhóm xin
chân thành cảm ơn.


ĐỀ CƯƠNG CHI TIẾT

TÊN ĐỀ TÀI: Khuyến nghị tin tức liên quan dựa trên tiếp cận học sâu

Cán bộ hướng dẫn: TS. Huỳnh Ngọc Tín
Thời gian thực hiện: Từ ngày 10/03/2021 đến ngày 26/06/2021.
Sinh viên thực hiện:
Dương Xuân Hiệp – 16520376
Nguyễn Thị Tuyết Nhung - 16520899
Nội dung đề tài: (Mô tả chi tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện, kết
quả mong đợi của đề tài)
1. Lý do chọn đề tài:
- Chúng ta đang sống trong thời đại bùng nổ thông tin, đặc biệt là các nguồn thơng tin
trực tuyến từ Internet. Hàng ngày có hàng ngàn bản tin được viết và đưa lên Internet, đòi
hỏi phải được nắm bắt kịp thời. Đặc biệt là trong hệ thống báo online với số lượng thông
tin khổng lồ. Làm sao chúng ta có thể tiếp cận được những tin tức mới nhất mà đúng với
chủ đề chúng ta quan tâm ?
- Những nhu cầu như vậy xảy ra rất thường xuyên với đa số mọi người, đòi hỏi một hệ
thống khuyến nghị tự động, giúp gợi ý những nội dung phù hợp nhất với mỗi người là
nhu cầu hết sức phổ biến và cần thiết.
2. Phạm vi nghiên cứu:


- Tập trung tìm hiểu các thuật tốn gợi ý tin tức, các kỹ thuật hỗ trợ khuyến nghị
- Triển khai, đánh giá độ chính xác dựa trên dữ liệu thử nghiệm
- Xây dựng ứng dụng gợi ý tin hướng đến người dùng Việt Nam
3. Đối tượng nghiên cứu:
Các công nghệ:
+ Backend: Python
+ Frontend: Django
+ Database: Mysql, Redis
- Hệ thống machine learning giúp gợi ý tin tức
- Đối tượng trong phạm vi đề tài hướng đến:
+ Các website báo: cafef, cafebiz, ...

+ Người đọc báo online
4. Mục tiêu:
- Hiểu được Machine Learning cơ bản. Tìm hiểu và so sánh một số cách tiếp cận
khuyến nghị tin tức liên quan.
- Xây dựng hệ thống khuyến nghị tin tức liên quan dựa trên các kiến thức đã tìm hiểu.
5. Phương pháp thực hiện:
- Lên kế hoạch thực hiện, trao đổi với giảng viên hướng dẫn để được định hướng đúng


về đề tài.
- Nghiên cứu, đọc các bài báo, tài liệu về kiến thức liên quan.
- Tìm hiểu về các hệ thống khuyến nghị và kỹ thuật áp dụng.
- Đánh giá thuật tốn và tính “kịp thời” khi triển khai thực tế.
6. Kết quả mong đợi:
- Hiểu được bài toán khuyến nghị và kiến thức liên quan.
- Xây dựng thành công hệ thống khuyến nghị các tin liên quan đến tin đang đọc.
Kế hoạch thực hiện:

STT

Công việc

Thời gian thực
hiện

1

- Lựa chọn đề tài
- Tìm hiểu đề tài, phát biểu bài tốn


2

- Tìm hiểu bài tốn khuyến nghị tin liên quan
- Tìm hiểu các kỹ thuật phổ biến đã được áp dụng

3

- Nghiên cứu kiến thức học sâu
- Tìm hiểu mơ hình khuyến nghị

10/03/2021
12/03/2021
13/03/2021
20/03/2021
21/03/2021
15/04/2021


4

- Tìm hiểu thư viện hỗ trợ Deep Learning (Tensorflow)

16/04/2021
30/04/2021

5

- Xây dựng hệ thống khuyến nghị

01/05/2021

15/06/2021

6

- Hoàn tất báo cáo, slide thuyết trình, hệ thống demo

16/06/2021
-

- Chuẩn bị phản biện và báo cáo

26/06/2021

TP. HCM, ngày 08 tháng 03 năm 2021
Xác nhận của CBHD

Sinh viên 1

(Ký tên và ghi rõ họ tên)

(Ký tên và ghi rõ họ tên)

Dương Xuân Hiệp
TS. Huỳnh Ngọc Tín
Sinh viên 2
(Ký tên và ghi rõ họ tên)

Nguyễn Thị Tuyết Nhung



MỤC LỤC
DANH MỤC HÌNH VẼ
DANH MỤC BẢNG
DANH MỤC MỘT SỐ THUẬT NGỮ
DANH MỤC CÁC CHỮ VIẾT TẮT
TÓM TẮT KHÓA LUẬN

1

Chương 1: TỔNG QUAN ĐỀ TÀI

2

1.1. Dẫn nhập

2

1.2. Mục tiêu

2

1.3. Nội dung thực hiện

3

1.4. Phạm vi thực hiện

3

1.5. Bố cục báo cáo


3

1.6. Kết quả đạt được

4

1.7. Kết chương

5

Chương 2: MỘT SỐ NGHIÊN CỨU LIÊN QUAN

6

2.1. Mở đầu

6

2.2. Bài toán khuyến nghị tin liên quan

6

2.2.1. Thực trạng

6

2.2.2. Phát biểu bài toán

6


2.3. Một số hướng tiếp cận

6

2.3.1. Tiếp cận Convolutional Neural Network and Cosine Similarity [4]

6

2.3.2. Tiếp cận Content-based via Shortest Entity Distance over Knowledge
Graphs [5]

7

2.3.3. Tiếp cận dựa vào mơ hình nhận thức học sâu (Deep Knowledge-aware
Network) [7]

9

2.4. Kết chương

11


Chương 3: KHUYẾN NGHỊ TIN TỨC LIÊN QUAN DÙNG MÔ HÌNH NHẬN
THỨC HỌC SÂU (DEEP KNOWLEDGE-AWARE MODEL)
12
3.1. Mở đầu

12


3.2. Phương pháp truyền thống

12

3.3. Tiếp cận sử dụng Deep Model

12

3.3.3. Mô hình nhận thức học sâu DKN (Deep Knowledge-aware Network) [7] 13
3.3.4. Knowledge-aware convolutional neural network (KCNN)

16

3.3.4.1. Biểu diễn bài báo dùng Word2Vec

17

3.3.4.2. Biểu diễn bài báo dùng đồ thị tri thức (Knowledge Graph)

17

3.3.5. Attention Network

21

3.4. Phương pháp thực hiện

21


3.4.1. Giai đoạn tiền xử lý

21

3.4.2. Hiện thực hóa đồ thị tri thức

22

3.4.3. Biểu diễn nội dung bài báo

22

3.4.4. Tính xác suất đọc tin sử dụng Attention Network

23

3.5. Kết chương
Chương 4: HIỆN THỰC HỆ THỐNG

23
24

4.1. Mở đầu

24

4.2. Yêu cầu hệ thống

24


4.3. Kiến trúc hệ thống

24

4.3.1. Kiến trúc tổng quan

24

4.3.2. Knowledge-aware convolutional neural network (KCNN)

25

4.3.3. Tính xác suất đọc tin

30

4.3.4. Xây dựng hệ thống khuyến nghị

31

4.4. Thiết kế API

31

4.5. Thiết kế giao diện

33

4.6. Triển khai hệ thống


33


4.7. Kết chương
Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ

35
36

5.1. Mở đầu

36

5.2. Dữ liệu thực nghiệm (Dataset)

36

5.2.1 Dữ liệu word embeddings

36

5.2.2 Dữ liệu đồ thị tri thức

36

5.2.3 Dữ liệu mơ hình DKN

37

5.3. Phương pháp đánh giá


38

5.3.1. Các độ đo

38

5.3.2. Độ đo AUC

38

5.3.3. Độ đo CTR (Click-Through Rate)

40

5.3.4. Độ đo TOS (Time One Site)

40

5.3.5. Độ đo TOR (Time On Read)

41

5.3.6. Độ đo TOP (Time On Page)

41

5.4. Thiết lập thực nghiệm

41


5.4.1. Thiết lập thực nghiệm Offline

41

5.4.2. Thiết lập thực nghiệm Online

41

5.5. Khả năng chịu tải

43

5.5.1. Yêu cầu hệ thống

43

5.5.2. Thuật toán DKN

43

5.6. Kết quả thực nghiệm

44

5.6.1. Kết quả đánh giá Offline

44

5.6.2. Kết quả đánh giá Online


44

5.6.2.1. Độ đo CTR

45

5.6.2.2. Độ đo TOS

45

5.6.2.3. Độ đo TOR

46

5.6.2.4. Độ đo TOP

47


5.7. Phân tích lỗi

47

5.8. Nhận định

47

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN


49

Kết luận

49

Hướng phát triển

49

TÀI LIỆU THAM KHẢO

51

PHỤ LỤC

52

Phụ lục 1: Bài báo cho hội nghị Khoa học trẻ và Nghiên cứu sinh năm 2021

52

Phụ lục 2: Word Embeddings

62

Phụ lục 3: Convolutional Neural Network

66



DANH MỤC HÌNH VẼ
2.1. Minh họa cơ chế khuyến nghị sử dụng mạng CNN và Cosine Similarity
2.2. Minh họa cơ chế khuyến nghị sử dụng mạng SED
2.3. Minh họa cơ chế khuyến nghị tin theo mơ hình nhận thức học sâu
3.1. Quy trình biểu diễn tiêu đề bài báo sử dụng deep model
3.2. Tổng quan mơ hình nhận thức học sâu (DKN)
3.3. Cơ chế hoạt động mạng Knowledge-aware convolutional neural network (KCNN)
3.4. Mơ hình hóa đồ thị tri thức
3.5. Quy trình trích xuất thơng tin thực thể từ đồ thị tri thức
3.6. Mơ tả các phương pháp trích xuất thơng tin thực thể (TransE và TransH)
3.7. Cơ chế hoạt động mạng Attention
4.1. Kiến trúc tổng quan hệ thống khuyến nghị tin liên quan
4.2. Luồng xử lý mạng KCNN
4.3. Quy trình biểu diễn bài báo dùng Word embeddings
4.4. Tokenize nội dung bài báo
4.5. Tiền xử lý bài báo dùng đồ thị tri thức
4.6. Huấn luyện mơ hình biểu diễn nội dung bài báo dùng đồ thị tri thức
4.7. Phương pháp hợp nhất ngữ cảnh bài báo sử dụng mạng KCNN
4.8. Quy trình tính xác suất đọc tin sử dụng mạng Attention
4.9. Luồng xử lý service khuyến nghị
4.10. Thiết kế API cho hệ thống khuyến nghị
4.11. Giao diện demo cho hệ thống khuyến nghị tin
5.1. Phân phối dữ liệu (Positive, negative) do mơ hình phân loại
5.2. Mơ tả trực quan độ đo AUC qua các ngưỡng
5.3. Mô tả trực quan độ đo Time On Site (TOS)
5.4. Mô tả kỹ thuật A/B Testing
5.5. Giá trị độ đo CTR khi triển khai thực tế trong 2 tuần



5.6. Giá trị độ đo TOS khi triển khai thực tế trong 2 tuần
5.7. Giá trị độ đo TOR khi triển khai thực tế trong 2 tuần
5.8. Giá trị độ đo TOP khi triển khai thực tế trong 2 tuần
5.9. Kiến trúc mạng tổng qt của mơ hình Word2Vec
5.10. Ý tưởng thực hiện mơ hình Skip-gram
5.11. Kiến trúc mạng của mơ hình Skip-gram
5.12. Kiến trúc mạng của mơ hình CBOW
5.13. Kiến trúc tổng quát của mạng tích chập


DANH MỤC BẢNG
2.1. Nhận định chung về các nghiên cứu trong bài tốn khuyến nghị
5.1. Mơ tả các loại quan hệ trong đồ thị tri thức
5.2. Mô tả tập dữ liệu cho đồ thị tri thức
5.3. Mô tả tập dữ liệu cho mơ hình nhận thức học sâu (DKN)
5.4. Mơ tả nội dung đánh giá Online sử dụng kỹ thuật A/B Testing
5.5. Thông tin chịu tải của hệ thống
5.6. Khả năng chịu tải mà service khuyến nghị tin đáp ứng được
5.7. Kết quả đánh giá Offline mơ hình qua các độ đo khác nhau
5.8. Số liệu đánh giá Online trong 2 tuần


DANH MỤC MỘT SỐ THUẬT NGỮ

Attention Network

Mạng Attention

Clustering


Phân cụm

Deep Knowledge-aware Network

Mơ hình nhận thức học sâu

Entity

Thực thể

Knowledge-aware Convolutional Neural Network

Mạng tích chập tri thức

Knowledge Graph

Đồ thị tri thức

Multi-relational Data

Dữ liệu đa quan hệ

Relation

Mối quan hệ

Related News Recommendation

Khuyến nghị tin liên quan


Translating Embeddings

Phương pháp rút trích quan hệ từ đồ
thị tri thức

Tokenize

Tách từng từ


DANH MỤC CÁC CHỮ VIẾT TẮT

CNN

Convolutional Neural Network

DKN

Deep Knowledge-aware Network

KCNN

Knowledge-aware Convolutional Neural
Network

KG

Knowledge Graph

W2V


Word2Vec


TÓM TẮT KHÓA LUẬN
Hiện nay, các trang báo thường tổng hợp tin từ nhiều nguồn khác nhau với sự đa dạng về
nội dung và hình thức. Do đó, hệ thống khuyến nghị tin đóng vai trị quan trọng trong việc
hỗ trợ người đọc tìm kiếm tin liên quan tới chủ đề họ quan tâm, giúp tiết kiệm thời gian,
qua đó tăng sự tương tác của người đọc trong các trang báo. Vậy làm sao để xây dựng một
hệ thống khuyến nghị hiệu quả, tự động đề xuất nội dung liên quan đến vấn đề người đọc
quan tâm. Để giải quyết vấn đề này, nhóm chúng tơi đã xây dựng hệ thống khuyến nghị
các tin liên quan dựa trên bài báo đang đọc. Phương pháp được sử dụng là Deep
Knowledge-aware Network (DKN) và Attention Network. DKN là một mơ hình học sâu
tận dụng quan hệ thực thể từ đồ thị tri thức trong việc khuyến nghị. Mơ hình cho phép tận
dụng ngữ nghĩa bài báo ở hai cấp độ chính: quan hệ giữa các từ ngữ lân cận trong nội dung
và quan hệ tri thức ẩn trong các liên kết thực thể. Sau khi biểu diễn bài báo dưới hai cấp độ
trên, chúng tơi sử dụng Attention Network tính xác suất đọc tin và trả về danh sách tin liên
quan. Nguồn dữ liệu được dùng để thực hiện đề tài, nhóm đã thu thập bộ dữ liệu báo chí từ
trang báo Cafebiz (sản phẩm công ty VCCorp) trong 3 tháng. Kết thúc đề tài nhóm đã đạt
được các kết quả, cụ thể:
● Học hỏi được các kiến thức về hệ thống khuyến nghị.
● Nắm bắt được các kiến thức máy học, học sâu.
● Xây dựng mơ hình nhận thức học sâu với độ chính xác cao.
● Xây dựng tập dữ liệu tiếng việt phục vụ cho quá trình kiểm thử và đánh giá.
● Xây dựng service khuyến nghị tin liên quan và triển khai trên trang báo Cafebiz.
● Bài báo: Khuyến nghị tin tức liên quan dựa trên mơ hình nhận thức thực thể kết hợp
phương pháp học sâu - Hội nghị Khoa học trẻ và Nghiên cứu sinh năm 2021 Trường
Đại học Công nghệ Thông tin (ĐHQG TP.HCM).

1



Chương 1: TỔNG QUAN ĐỀ TÀI
1.1. Dẫn nhập
Công nghệ số phát triển kéo theo sự biến đổi về thông tin. Cụ thể, thông tin phát triển với
khối lượng khổng lồ, biến đổi không ngừng về mặt nội dung. Đồng thời, thơng tin chiếm
một vị trí quan trọng trong sự tìm tịi, học hỏi của con người hiện nay. Có thể nói, bắt kịp
thơng tin là bắt kịp với thời đại. Tuy nhiên, với khả năng có hạn của con người, việc chọn
lọc thơng tin từ hàng ngàn, thậm chí hàng triệu là điều khơng tưởng. Do đó, các hệ thống
khuyến nghị ra đời, hỗ trợ con người tiếp cận một cách nhanh nhất, nắm bắt kịp thời tình
hình thế giới hiện nay, hỗ trợ con người trong quá trình học hỏi, phát triển trong thời đại
mới.
Trong các hệ thống khuyến nghị hiện nay, các phương pháp được áp dụng chủ yếu là: lọc
dựa trên nội dung (Content-based), lọc cộng tác (Collaborative Filtering), lọc theo chủ đề,...
Tuy nhiên, các phương pháp này đang phải đương đầu với một số khó khăn, thách thức
như: sự tăng nhanh về số lượng tin tức, sở thích của độc giả thay đổi thường xuyên do bị
tác động từ các yếu tố như thời gian, địa điểm, tin nóng, vấn đề cold-start, hồ sơ độc giả
mới,... Từ đó, hiệu suất khuyến nghị chưa đạt được kết quả mong đợi khi triển khai thực
tế.
Trong bài viết này, chúng tơi đề xuất mơ hình nhận thức tiếp cận học sâu, nhằm khắc phục
các thách thức đã đề cập, đồng thời cải thiện hiệu suất khuyến nghị, thông tin một cách
nhanh nhất tới người đọc, giúp họ tiết kiệm thời gian trong việc chọn lọc, học hỏi, bắt kịp
với sự biến đổi của thời đại.
1.2. Mục tiêu
● Tìm hiểu các kiến thức cơ bản trong lĩnh vực học máy, từ đó làm bước đệm cho
các tiếp cận học sâu trong hệ thống khuyến nghị
● Tìm hiểu các nghiên cứu liên quan.
2



● Tìm hiểu về đồ thị tri thức và mơ hình nhận thức thực thể.
● Xây dựng hệ thống khuyến nghị tin liên quan dựa trên mơ hình nhận thức thực thể.
● Đo đạc và đánh giá hiệu quả trong việc gợi ý tin.
1.3. Nội dung thực hiện
● Tìm hiểu về bài toán khuyến nghị tin liên quan
● Khảo sát các thuật toán: Nghiên cứu các thuật toán đã được triển khai trong hệ thống
gợi ý tin liên quan.
● Đo đạc, kiểm thử kết quả các các phương pháp khuyến nghị
● Chọn ra hướng tiếp cận phù hợp nhất cho bài tốn (Mơ hình nhận thức thực thể).
● Tìm tịi, học hỏi các về kiến thức cần thiết nhằm tạo điều kiện thuận lợi trong việc
triển khai bài toán với hướng tiếp cận đã chọn.
● Thu thập và xử lý dữ liệu tin tức phục vụ cho quá trình đo đạc và kiểm thử.
● Xây dựng service khuyến nghị tin phục vụ cho hệ thống công ty VCCorp.
● Xây dựng giao diện tương tác người dùng.
● Kiểm thử và đánh giá hiệu suất hệ thống.
● Triển khai service khuyến nghị vào thực tế.
1.4. Phạm vi thực hiện
Trong phạm vi khóa luận này, chúng tơi mong muốn sử dụng mơ hình nhận thức thực thể
vào hệ thống khuyến nghị tin liên quan cho trang báo nổi tiếng: cafebiz. Việc xây dựng hệ
thống gợi ý giúp người đọc tiết kiệm thời gian trong việc tìm kiếm tin, qua đó tạo sự hứng
thú cho họ.
1.5. Bố cục báo cáo
Bố cục báo cáo gồm có 5 chương:
● Chương 1: Tổng quan đề tài. Giới thiệu bài toán khuyến nghị tin liên quan, đề ra
mục tiêu và phạm vi thực hiện, mô tả tổng quan hệ thống.

3


● Chương 2: Một số nghiên cứu liên quan. Mô tả bài toán khuyến nghị tin liên quan,

các thách thức, và đề ra hướng tiếp cận cho bài toán.
● Chương 3: Khuyến nghị tin liên quan. Mô tả phương hướng xây dựng hệ thống,
nêu rõ từng thành phần của phương pháp và cách hiện thực.
● Chương 4: Hiện thực hệ thống. Nêu rõ các bước xây dựng hệ thống, tiền xử lý dữ
liệu, hiện thực các thành phần con trong hệ thống, triển khai service và giao diện
người dùng.
● Chương 5: Thực nghiệm và đánh giá. Đo đạc và đánh giá hệ thống với tập dữ liệu
đã tạo, từ đó đưa ra phương án xử lý tiếp theo.
● Cuối cùng là phần tổng kết lại các kết quả đã đạt được và đề ra hướng phát triển.
1.6. Kết quả đạt được
Về kiến thức
● Học hỏi được các kiến thức cần thiết qua việc tìm hiểu bài tốn và các phương pháp
triển khai.
● Nắm bắt được các kiến thức cơ bản trong lĩnh vực học máy, học sâu và xử lý ngơn
ngữ tự nhiên.
● Tích lũy được kinh nghiệm trong việc triển khai và xử lý các hệ thống với dữ liệu
lớn.
Về sản phẩm
● Xây dựng thành cơng mơ hình nhận thức học sâu với độ chính xác cao.
● Xây dựng được tập dữ liệu tiếng việt phục vụ cho quá trình kiểm thử và đánh giá.
● Hồn thiện API cho hệ thống khuyến nghị liên quan và triển khai trên trang báo
Cafebiz.
● Bài báo: Khuyến nghị tin tức liên quan dựa trên mơ hình nhận thức thực thể kết hợp
phương pháp học sâu - Hội nghị Khoa học trẻ và Nghiên cứu sinh năm 2021 Trường
Đại học Công nghệ Thông tin (ĐHQG TP.HCM).

4


1.7. Kết chương

Trong chương này, chúng tôi tập trung mô tả tổng quan về bài toán, phạm vi, hướng tiếp
cận và cách thức triển khai hệ thống.
Trong chương sau, chúng tơi sẽ mơ tả rõ hơn về bài tốn, các thách thức và các phương
pháp đã áp dụng trước đó.

5


Chương 2: MỘT SỐ NGHIÊN CỨU LIÊN QUAN
2.1. Mở đầu
Hiện nay, các trang báo thường tổng hợp tin từ nhiều nguồn khác nhau với sự đa dạng về
nội dung và hình thức. Do đó, hệ thống khuyến nghị tin đóng vai trị quan trọng trong việc
hỗ trợ người đọc tìm kiếm tin liên quan tới chủ đề họ quan tâm. Nhờ việc tiết kiệm thời
gian trong việc tìm kiếm và sự đa dạng về chủ đề bài báo được gợi ý, hệ thống tạo sự hứng
thú cho người đọc, đồng thời tăng sự tương tác của họ trong các trang báo.
Trong chương này, chúng tơi cũng trình bày các nghiên cứu đã được sử dụng cho bài toán
khuyến nghị tin liên quan, cũng như đánh giá hệ suất cho từng phương pháp.
2.2. Bài toán khuyến nghị tin liên quan
2.2.1. Thực trạng
Ngày nay, với sự phát triển mạnh mẽ của Internet, tin tức luôn được cập nhật và thay đổi
liên tục, do đó hệ thống khuyến nghị đóng vai trị quan trọng trong việc thơng tin sớm nhất

nh hình xã hội và các vấn đề mà người đọc quan tâm. Khuyến nghị tin là một bài tốn
khơng mới, qua dịng chảy lịch sử, hệ thống đã được áp dụng, cải tiến liên tục, từ việc gợi
ý sử dụng một số phương pháp truyền thống đến xa hơn là các kỹ thuật tiên tiến hơn. Cụ
thể, trong những năm gần đây, với sự phát triển của các mơ hình NLP làm tăng hiệu suất
hệ thống cũng như sự hứng thú của người đọc.
2.2.2. Phát biểu bài toán
Khuyến nghị tin liên quan là bài toán được triển khai trên các trang báo điện tử, bài toán
nhận đầu vào là một bài báo và đầu ra là danh sách các bài báo có chủ đề liên quan.

2.3. Một số hướng tiếp cận
2.3.1. Tiếp cận Convolutional Neural Network and Cosine Similarity [4]
Lấy ý tưởng việc biểu diễn các đặc trưng từ ảnh, tiếp cận Convolutional Neural Network
(CNN) nhận đầu vào là một cụm từ hoặc văn bản và trả về một vector đặc trưng. Vector

6


×