Tải bản đầy đủ (.pdf) (73 trang)

Ứng Dụng Phương Pháp Họ Sâu Kết Hợp Đồ Thị Tri Thứ Để Phân Tíh Hành Vi Người Dùng Trên Mạng Xã Hội.pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.68 MB, 73 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

LUẬN VĂN THẠC SĨ
Ứng dụng phương pháp học sâu kết hợp
đồ thị tri thức để phân tích hành vi người
dùng trên mạng xã hội
NGUYỄN TIẾN ĐỒNG


Ngành Hệ thống thông tin

PGS. TS. Phạm Văn Hải
Viện:

Chữ ký của GVHD

Công nghệ thông tin và truyền thông

HÀ NỘI, 10/2020

Tai ngay!!! Ban co the xoa dong chu nay!!! 17061132203581000000


CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc

BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn: Nguyễn Tiến Đồng
Đề tài luận văn: Ứng dụng phương pháp học sâu kết hợp đồ thị tri thức để
phân tích hành vi người dùng trên mạng xã hội
Chuyên ngành: Hệ thống thông tin


Mã số SV: CBC19014

Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác
nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày
31/10/2020 với các nội dung sau:
1. Lỗi trình bày luận văn
STT

1

Yêu cầu của hội
đồng

Nội dung chỉnh sửa

Vị trí chỉnh
sửa

Sửa các lỗi

Đã rà sốt lại, đồng nhất các

Chỉnh sửa

chính tả và lạm

khái niệm tiếng việt, tiếng anh

trên tồn bộ


dụng tiếng anh

và sửa các lỗi chính tả

luận văn

Cắt giảm các đầu mục lý thuyết
2

Trình bày lý

ít liên quan đến luận văn: Bỏ

thuyết quá dài

phần giao dịch nội gián, random

Chương 2

walk, deep walk, node2vec
Tham chiếu tài
3

liệu tham khảo
như thế nào

Bổ sung và giải thích rõ nội
dung về GraphRec và HageRec
từ các tài liệu tham khảo trong


Trang 17,18

phần nghiên cứu liên quan

2


Sửa chú thích và
4

bổ sung tham

Bổ sung nguồn tham chiếu hình
ảnh từ 2.1 đến 2.8

chiếu hình ảnh

Trang 27, 29,
34, 35, 36,
38, 41

2. Bổ sung nội dung luận văn
STT

Yêu cầu của hội
đồng

Nội dung chỉnh sửa

Vị trí chỉnh

sửa
1.4 Đóng góp

1

Mơ tả đóng góp

Trình bày những đóng góp

của nghiên

chính

chính của luận văn

cứu – Trang
21

Đánh giá việc
kết quả tăng 1
2

chút ít có ý
nghĩa hay
khơng?

Bổ sung biểu đồ tỷ lệ cải thiện
kết quả qua từng mơ hình. So
sánh với tỷ lệ của mơ hình
GraphRec


4.4.1 Tổng
quan – Trang
55

Bổ sung về so sánh thời gian
3

Đánh giá hiệu
năng tính tốn

huấn luyện và thời gian chạy

4.4.5 Các

mơ hình trên từng cặp dữ liệu

thông số khác

với GraphRec và khả năng phù

– Trang 60

hợp với thực tế
Trình bày các
4

điểm chưa tốt
của mơ hình


Bổ sung nội dung trình bày
điểm yếu bao gồm về sinh dữ
liệu mạng xã hội ngẫu nhiên của
dữ liệu MovieLen.

5.2 Điểm cần
khắc phục –
Trang 64

3. Giải trình tên đề tài
Yêu cầu của hội đồng: Nội dung đề tài liên quan đến khuyến nghị sản phẩm
cho người dùng khác với tên đề tài phân tích hành vi người dùng trên mạng xã
hội.

3


Nội dung chỉnh sửa: phân tích hành vi người dùng liên quan đến việc dự
đoán đánh giá cho điểm sản phẩm của người dùng có kết nối mạng xã hội, với
số điểm từ 1 đến 5.
Vị trí chỉnh sửa: Mục 1.5 Trang 23
Ngày 26 tháng 11 năm 2020
Giáo viên hướng dẫn

Tác giả luận văn

PGS.TS Phạm Văn Hải

Nguyễn Tiến Đồng


CHỦ TỊCH HỘI ĐỒNG

PGS.TS Trần Đình Khang

4


LỜI CAM ĐOAN
Tôi - Nguyễn Tiến Đồng - cam kết luận văn này là cơng trình nghiên cứu của bản
thân tôi, dưới sự hướng dẫn của PGS.TS Phạm Văn Hải. Các kết quả công bố trong báo
cáo này là trung thực, không phải là sao chép của bất kỳ một cá nhân, hoặc tổ chức đã
được công bố nào khác. Tất cả các trích dẫn được tham chiếu rõ ràng.

Ngày 25 tháng 10 năm 2020
Tác giả luận văn

Nguyễn Tiến Đồng
Xác nhận của người hướng dẫn

5


LỜI CẢM ƠN
Đầu tiên, em xin được gửi lời cảm ơn chân thành đến các thầy giáo, cô giáo
thuộc trường đại học Bách Khoa Hà Nội. Đặc biệt là các thầy giáo, cô giáo thuộc
Viện Công nghệ Thông tin và Truyền Thơng. Chính các thầy cơ giáo đã trang bị
cho em những kiến thức quý báu trong thời gian em học tập và nghiên cứu tại
trường. Các thầy cô cũng ln tận tình giúp đỡ em trong cả q trình học tập,
nghiên cứu và hoàn thiện các thủ tục liên quan. Đồng thời em cũng xin được gửi
lời cảm ơn đặc biệt sâu sắc đến PGS.TS Phạm Văn Hải. Thầy là người đã chỉ dẫn

tận tình, chỉ cho em hướng đi cho toàn bộ đồ án, cho em những kinh nghiệm q
báu để em có thể hồn thành luận văn tốt nghiệp này cũng như các bài báo khoa
học liên quan. Thầy luôn động viên, giúp đỡ em trong những thời điểm khó khăn
nhất để hồn thành đến giai đoạn bảo vệ này.
Em xin gửi lời cảm ơn chân thành tới gia đình, bạn bè và các anh chị em
đồng nghiệp. Lời động viên tinh thần từ họ luôn là động lực to lớn để em tiến lên
phía trước, vượt qua mọi khó khăn và hồn thành bài luận án này.
Học viên: Nguyễn Tiến Đồng, CBC19014, khoá 2019B, lớp CLC2019B

6


TĨM TẮT NỘI DUNG LUẬN VĂN
Việc nghiên cứu thành cơng mơ hình phân tích hành vi người dùng sẽ mang
lại giá trị thực tiễn cao cho tất cả các doanh nghiệp. Hiện nay, các mơ hình chưa
thực sự đạt được kết quả mong muốn do được nghiên cứu trong một phạm vi hẹp
và chưa áp dụng nhiều khía cạnh của dữ liệu để phân tích được đầy đủ các hành vi
của người dùng. Việc mơ hình hóa dữ liệu người dùng, dữ liệu mạng xã hội và đồ
thị tri thức dưới dạng đồ thị sẽ giúp khai thác sâu hơn các quan hệ giữa người với
người, người với vật và vật với vật. Từ cơ sở kết hợp nhiều khía cạnh của dữ liệu
cùng với sự phát triển của kỹ thuật mạng học sâu trên đồ thị, mơ hình đề xuất hứa
hẹn sẽ mang lại cơ hội để gia tăng tính chính xác cho kết quả cũng như sát với mơ
hình dữ liệu thực tế hiện nay.
Luận văn sẽ trình bày đề tài nghiên cứu phân tích hành vi người dùng trên
mạng xã hội bằng phương pháp học sâu kết hợp đồ thị tri thức. Luận văn sẽ trình
bày những mơ hình đã có trong lĩnh vực này, đề xuất mơ hình mới áp dụng phương
pháp học sâu kết hợp đồ thị tri thức và mạng xã hội để phân tích hành vi của người
dùng, dựa trên khai thác các đặc trưng kết hợp với đánh giá thực nghiệm. Mục tiêu
đạt được các kết quả đạt như sau: Đưa ra kiến trúc mơ hình kết hợp phương pháp
học sâu kết hợp đồ thị tri thức và dữ liệu mạng xã hội, chứng minh tính hiệu quả

của mơ hình trong phân tích hành vi người dùng đánh giá sản phẩm trong hệ gợi
ý, chương trình thử nghiệm gồm bộ mã nguồn và dữ liệu có thể áp dụng ngay vào
các ứng dụng thực tế.

HỌC VIÊN

Ký và ghi rõ họ tên

7


MỤC LỤC
CHƯƠNG 1. GIỚI THIỆU ............................................................................... 16
1.1

Giới thiệu.................................................................................................. 16
1.1.1

Hành vi người dùng .................................................................. 16

1.1.2

Lợi ích ....................................................................................... 16

1.1.3

Khó khăn và các yếu tố ảnh hưởng ........................................... 17

1.1.4


Động lực nghiên cứu ................................................................. 18

1.2

Đặt bài tốn .............................................................................................. 19

1.3

Nghiên cứu liên quan ............................................................................... 21

1.4

Đóng góp của nghiên cứu ........................................................................ 25

1.5

Giải thích tên đề tài luận văn ................................................................... 25

1.6

Cấu trúc luận văn ..................................................................................... 26

CHƯƠNG 2. CƠ SỞ LÝ THUYẾT .................................................................. 27
2.1

2.2

2.3

Đồ thị tri thức ........................................................................................... 27

2.1.1

Đồ thị......................................................................................... 27

2.1.2

Ứng dụng................................................................................... 27

2.1.3

Đồ thị tri thức ............................................................................ 28

2.1.4

Ứng dụng của đồ thị tri thức ..................................................... 29

Mạng học sâu ........................................................................................... 31
2.2.1

Perceptrons ................................................................................ 31

2.2.2

Hàm Sigmoid ............................................................................ 33

2.2.3

Kiến trúc mạng nơ ron (Neural Network) ................................. 34

2.2.4


Lan truyền tiến (Feedforward) .................................................. 34

2.2.5

Học với mạng Neural Network (NN) ....................................... 35

2.2.6

Lan truyền ngược và đạo hàm ................................................... 35

Mạng học sâu trên đồ thị .......................................................................... 36
2.3.1

Khái niệm .................................................................................. 36

2.3.2

Nhúng nút (Node Embedding) .................................................. 40

2.3.3

Mạng tích chập trên đồ thị (GCN) ............................................ 41

2.3.4

GraphSage ................................................................................. 42

2.3.5


Hàm tập hợp (Aggregator function) .......................................... 43
8


CHƯƠNG 3. MƠ HÌNH ĐỀ XUẤT ................................................................. 45
3.1

Kiến trúc mơ hình ..................................................................................... 45

3.2

Xây dựng vectơ ẩn của người dùng ......................................................... 47

3.3

3.2.1

Tập hợp thông tin từ sản phẩm (Item aggregation) .................. 47

3.2.2

Tập hợp thông tin từ xã hội (Social aggregation) ..................... 48

3.2.3

Xây dựng vectơ ẩn của người dùng .......................................... 49

Xây dựng vectơ ẩn của sản phẩm............................................................. 50
3.3.1


Tập hợp thông tin từ người dùng (User aggregation) ............... 50

3.3.2

Tập hợp thông tin từ đồ thị tri thức (Knowledge aggregation) . 51

3.3.3

Xây dựng vectơ ẩn của sản phẩm ............................................. 53

3.4

Dự đoán đánh giá ..................................................................................... 53

3.5

Huấn luyện mơ hình ................................................................................. 54

CHƯƠNG 4. KẾT QUẢ THỰC NGHIỆM ..................................................... 56
4.1

Chuẩn bị dữ liệu ....................................................................................... 56

4.2

Cấu hình tham số, môi trường .................................................................. 57

4.3

So sánh, đánh giá ...................................................................................... 58


4.4

4.3.1.

Cơ sở đánh giá........................................................................... 58

4.3.2.

Nguồn so sánh ........................................................................... 58

Kết quả thực nghiệm ................................................................................ 59
4.4.1

Tổng quan ................................................................................. 59

4.4.2

So sánh với hệ đánh giá AUC, ACC ......................................... 62

4.4.3

Tác động của lớp tập trung trong mô đun tập hợp tri thức: ...... 62

4.4.4

Tác động của số lớp (hop) và số nút cố định của mỗi lớp ........ 63

4.4.5


Các thông số khác ..................................................................... 64

CHƯƠNG 5. KẾT LUẬN .................................................................................. 68
5.1

Kết luận .................................................................................................... 68

5.2

Điểm cần khắc phục ................................................................................. 68

5.3

Định hướng phát triển trong tương lai ..................................................... 69

9


DANH MỤC HÌNH VẼ
Hình 1.1: Dữ liệu đồ thị trong hệ khuyến nghị. Bao gồm đồ thị tương tác giữa
người dùng - sản phẩm (chính giữa), đồ thị quan hệ xã hội của người dùng (góc
phải) và đồ thị tri thức của sản phẩm (góc trái) ................................................... 21
Hình 1.2: Kiến trúc mơ hình GraphRec [22] ....................................................... 23
Hình 1.3: Kiến trúc dữ liệu trong mơ hình KGAT [8] ......................................... 24
Hình 1.4: Mơ hình tương tác 3 lớp trên đồ thị tri thức của HageRec [33]........... 25
Hình 2.1: Minh họa đồ thị tri thức của Microsoft (nguồn: microsoft.com) ......... 29
Hình 2.2: Nơ-ron sinh học (Nguồn: ........................... 31
Hình 2.3: Perceptron đơn giản của một nơ ron nhân tạo trong học sâu. (Nguồn:
32
Hình 2.4: Mơ hình Nơ ron (Nguồn: ............................ 33

Hình 2.5: Kiến trúc mạng nơ ron (Nguồn: .................. 34
Hình 2.6: Mạng học sâu trên đồ thị (Nguồn: site.google.com) ............................ 37
Hình 2.7: Vịng tự lặp Self-loop (Nguồn: wikipedia.org) .................................... 38
Hình 2.8: Đồ thị đồng nhất và đồ thị không đồng nhất (Nguồn: viblo.asia) ....... 38
Hình 2.9: Đồ thị hai phía (Nguồn : wikipedia.org) .............................................. 39
Hình 2.10: Mơ hình Word2Vec (Nguồn: viblo.asia) ........................................... 41
Hình 2.11: Cách hàm tập hợp tổng hợp dữ liệu từ các nút trong đồ thị (Nguồn:
blogs.oracle.com) ................................................................................................. 44
Hình 3.1: Sơ đồ kiến trúc tổng quan mơ hình đề xuất ......................................... 46
Hình 3.2: Sơ đồ kiến trúc mơ hình đề xuất KconvGraphRec .............................. 46
Hình 3.3: Vùng lân cận bậc 2 (nút xanh lá) của sản phẩm (nút xanh dương) trong
KG (bên trái). Cơ sở tính tốn tập hợp thơng tin của các nút lân cận về sản phẩm
(góc phải).............................................................................................................. 52
Hình 4.1: So sánh thời gian huấn luyện của ba mơ hình Ciao 2 hop, Epinion 2 hop
và Movie 2 hop giữa KconvGraphRec và GraphRec (đơn vị: giờ) ..................... 61
Hình 4.2: Biểu đồ tác động của lớp (hop) trên đồ thị tri thức đối với các mơ hình
trên tập dữ liệu Ciao ............................................................................................. 63
Hình 4.3: Biểu đồ tác động của số lượng nút cố định từ mỗi lớp trên đồ thị tri thức
đối với các mơ hình trên tập dữ liệu Ciao ............................................................ 64
Hình 4.4: Biến đổi mae, rmse của 2 bộ dữ liệu Ciao và Epinion qua từng epoch 65
Hình 4.5: Tác động của kích thước vectơ nhúng đối với hiệu quả của mơ hình trong
trường hợp của dữ liệu Epinion 2 hop ................................................................. 65
Hình 4.6: So sánh thời gian huấn luyện của ba mơ hình Ciao 2 hop, Epinion 2 hop
và Movie 2 hop giữa KconvGraphRec và GraphRec (đơn vị: giờ) ..................... 66
10


Hình 4.7: So sánh thời gian chạy mơ hình của ba bộ dữ liệu Ciao 2 hop, Epinion 2
hop và Movie 2 hop giữa KconvGraphRec và GraphRec (đơn vị: ms) ............... 67


11


DANH MỤC BẢNG
Bảng 4.1: Đặc điểm các bộ dữ liệu ...................................................................... 56
Bảng 4.2: Kết quả mơ hình đề xuất và so sánh với các phương pháp sử dụng MAE
và RMSE .............................................................................................................. 59
Bảng 4.3: So sánh tỷ lệ cải thiện mô hình của KconvGraphRec với GraphRec và
GraphRec với GCMC + SN ................................................................................. 60
Bảng 4.4: Kết quả so sánh với Ripple Net, KGCN và HAGERec bằng ACC, AUC
.............................................................................................................................. 62
Bảng 4.5: So sánh tác động của lớp tập trung trong mô đun tập hợp tri thức
(knowledge aggregation)...................................................................................... 62

12


DANH MỤC TỪ VIẾT TẮT

RS

Recommendation System

CF

Collarborative Filtering

GNN
NN
KGCN

KG

Graph neural network
Neural network
Knowledge graph convolution network
Knowledge graph

GCN

Graph convolutional network

MLP

Multi layer perceptron

GMF

Generalized Matrix Factorisation

KGE

Knowledge graph embedding

MLP

Multi-Layers Perceptron

NCF

Neural Collaborative Filtering framework


NeuMF

Neural Matrix Factorization

CNN

Convolutional Neural Network

GPU

Graphics Processing Unit

CUDA

Compute Unified Device Architecture

13


DANH MỤC KÝ HIỆU
Ký hiệu

Định nghĩa và mô tả



Giá trị đánh giá của người dùng với sản phẩm 




Vectơ nhúng của sản phẩm



Vectơ nhúng của người dùng



Vectơ nhúng đánh giá của người dùng với sản phẩm

r

Vectơ nhúng các quan hệ trong đồ thị tri thức



Số chiều dữ liệu



Tập sản phẩm mà người dùng đánh giá



Tập người dùng có quan hệ xã hội với người dùng 





Tập thực thể lân cận của nút sản phẩm 
Tập người dùng đánh giá sản phẩm 




Không gian sản phẩm của vectơ ẩn của người dùng



Không gian xã hội của vectơ ẩn của người dùng



Vectơ ẩn của người dùng



Hệ số tương tác giữa sản phẩm và người dùng 



Hệ số tương tác giữa người dùng  với sản phẩm 



Không gian người dùng của vectơ ẩn của sản phẩm




Không gian tri thức của vectơ ẩn của sản phẩm



Vectơ ẩn của sản phẩm



Hệ số tập trung của sản phẩm  trong không gian sản phẩm



Hệ số tập trung của người dùng  trong không gian xã hội
 trong



khơng gian người

dùng



Kết quả dự đốn đánh giá của người dùng với sản phẩm
 của mơ hình
Phép nối vectơ
Phép nhân từng phần ma trận element-wise

T


Đồ thị liên kết xã hội

R

Đồ thị tương tác người dùng-sản phẩm

W, b

Ma trận tham số và độ lệch (bias) của mạng nơ ron



Đồ thị tri thức




Quan hệ trong đồ thị tri thức
14







Đầu của bộ ba tri thức (knowledge triple)
Đuôi của bộ ba tri thức (knowledge triple)





Phép tập hợp các thực thể trong đồ thị tri thức của sản phẩm
v





Giá trị chuẩn của mối liên hệ người dùng-quan hệ

  Hàm tính toán hệ số liên hệ giữa loại quan hệ trong đồ thị
tri thức và người dùng u

15


CHƯƠNG 1. GIỚI THIỆU
1.1 Giới thiệu
Ngày nay, với sự phát triển của cơng nghệ, con người có thể tiếp cận một lượng
lớn dữ liệu từ mạng internet như tin tức báo chí, các video, phim, hình ảnh, … Bằng
các nền tảng như mạng xã hội, các trang thương mại điện tử, người dùng có thể
tương tác với các sản phẩm mà họ quan tâm như mua, bán, các tương tác cảm xúc
như u thích, ghét bỏ hay để lại bình luận cho sản phẩm đó. Tất cả hình thành lên
một khái niệm là hành vi của người dùng.
1.1.1

Hành vi người dùng

Hành vi người dùng là được định nghĩa là những tương tác qua lại của các yếu tố

sự kiện, hành vi, tri thức, ảnh hưởng từ môi trường tác động làm thay đổi nhận
thức, suy nghĩ, hành vi của con người. Từ đó nghiên cứu hành vi người dùng nghiên
cứu hành vi lựa chọn, mua, sử dụng, vứt bỏ sản phẩm, dịch vụ, trải nghiệm của
những cá nhân, nhóm, tổ chức nhằm làm thỏa mãn nhu cầu của họ. Nó đề cập tới
những hành vi của người mua hàng trên thị trường và những động cơ sâu bên trong
của những hành vi đó. Bằng việc hiểu được nguyên nhân dẫn đến những hành vi
mua và sử dụng các sản phẩm, doanh nghiệp có thể phân tích, lựa chọn, quyết định
sản phẩm nào đang có nguồn cầu cao trên thị trường, sản phẩm nào nên được trưng
bày cho khách hàng. Chính vì vậy, hiện nay, các doanh nghiệp đẩy mạnh việc phân
tích hành vi khách hàng, chính là phương pháp quan sát định tính và định lượng về
tương tác của khách hàng đối với sản phẩm, dịch vụ của công ty. Phân tích hành vi
khách hàng có thể khơng chỉ đích danh ai đang mua hàng, nhưng nó có thể cho biết
họ mua sắm như thế nào, họ có tới thường xun khơng, sản phẩm nào được ưa
chuộng, khách hàng đón nhận dịch vụ, cách truyền thông, bán hàng như thế nào và
cuối cùng là dự đoán hành vi tương lai của khách hàng để phát triển chiến lược
kinh doanh.
1.1.2

Lợi ích

Qua mục trên có thể thấy, dữ liệu về hành vi người dùng là vô cùng quan trọng
trong việc mang đến những kết quả tốt cho tất cả các doanh nghiệp. Những hiểu
biết về người dùng sẽ giúp mang đến thông tin hoặc sản phẩm chính xác mà người
dùng tìm kiếm, từ đó giúp tăng trải nghiệm người dùng, cuối cùng là nâng cao
doanh thu và lợi nhuận cho doanh nghiệp. Thị trường cạnh tranh ngày càng lớn,
khách hàng có vơ vàn lựa chọn với cùng một mặt hàng sản phẩm, nhà kinh doanh
phân tích được khách hàng càng kỹ càng, càng có nhiều cơ hội nắm bắt thị trường.
16



Khách hàng ngày càng có những nhu cầu cao trong lựa chọn sản phẩm, dịch vụ.
Cá nhân hóa trải nghiệm, nội dung tiếp cận với khách hàng có thể giúp tăng hiệu
quả tiếp thị lên tới 30%, tiết kiệm ngân sách tới 15%. Vậy làm thế nào để cá nhân
hóa nội dung? Chính nhờ cơng đoạn phân tích hành vi khách hàng làm kỹ lưỡng,
doanh nghiệp có thêm hiểu biết về đối tượng mục tiêu, phân nhỏ nhóm khách hàng
có hành vi tương đồng, từ đó cải tiến sản phẩm, dịch vụ, đưa ra những chính sách
phù hợp với từng đối tượng cụ thể.
Khả năng phán đốn, phân nhóm khách hàng tiềm năng, có giá trị chính là chìa
khóa thành cơng cho mỗi doanh nghiệp. Phân tích hành vi khách hàng đóng góp
phần khơng nhỏ trong định vị nhóm khách tiềm năng. Nhắm tới đúng đối tượng
với những phẩm chất, tính cách, hành vi phù hợp có thể nâng cao cơ hội bán hàng,
thu hút người mua và biến họ trở thành nhóm khách hàng trung thành.
Dữ liệu phân tích hành vi khách hàng chắc chắn sẽ giúp tối ưu chiến dịch tiếp thị
của doanh nghiệp. Phân khúc, thu hẹp nhóm khách hàng tiềm năng, hướng họ tới
những kênh truyền thông phù hợp. Nội dung tiếp cận đến khách hàng vào đúng
thời điểm, sẽ có nhiều cơ hội chốt được đơn hàng hơn.
Song song với thu hút khách hàng mới, giữ chân những khách hàng cũ cũng là một
công việc vô cùng quan trọng với mỗi nhà bán hàng. 5% tăng trưởng trong khả
năng giữ chân khách có thể tạo ra thêm 25% - 95% lợi nhuận cho doanh nghiệp.
Phân tích hành vi khách hàng nhằm biết được những đặc tính tốt của họ, giảm thiểu
tỷ lệ khách hàng rời bỏ thương hiệu.
1.1.3

Khó khăn và các yếu tố ảnh hưởng

Từ những dẫn chứng trên, có thể thấy việc phân tích hành vi người dùng là vô cùng
cấp thiết nhưng cũng vơ cùng khó khăn. Hành vi người tiêu dùng là một phạm trù
phức tạp, mỗi đối tượng có những hành vi riêng, chính đối tượng có trong nhiều
thời điểm cụ thể lại có hành vi khác nhau.
Có vơ số tác nhân bên ngoài lẫn bên trong ảnh hưởng tới hành vi khách hàng.

• Yếu tố con người: giới tính, độ tuổi, thu nhập, trình độ học vấn, tơn giáo,
chính trị
• Yếu tố tiếp thị: khuyến mãi, bao bì, thiết kế, giá cả, hình thức phân phối.
• Yếu tố tâm lý: động cơ mua sắm, những định kiến hay quan điểm về sản
phẩm hoặc thái độ hướng đến dịng sản phẩm
• Yếu tố hồn cảnh: yếu tố thời gian, khơng gian, xã hội quay quanh sản
phẩm.

17


1.1.3.1. Hành vi khách hàng luôn biến đổi
Phụ thuộc vào đặc tính tự nhiên của sản phẩm, dịch vụ hay chính bởi người tiêu
dùng. Các yếu tố như hồn cảnh, mức thu nhập, nhân tố tiếp thị có thể gây thay đổi
trong hành vi mua sắm của người dùng. Những đứa trẻ khi cịn nhỏ u thích những
loại giày ngộ nghĩnh, nhiều màu sắc, khi lớn hơn lại có xu hướng muốn sở hữu các
đôi giày thời thượng, càng nhiều tuổi sẽ càng theo phong cách tối giản.
1.1.3.2. Hành vi người dùng khơng giống nhau
Mỗi người tiêu dùng có hành vi, cách ứng xử khác biệt bởi những yếu tố từ bản
thân, cách sống hay văn hóa. Khơng thể áp đặt sở thích, xu hướng mua hàng của
người này cho người khác. Có những người ưa chuộng cơng nghệ và thường xuyên
“săn lùng” những món đồ mới, tuy nhiên có những người hồn tồn xa lánh các
thiết bị đó. Những khách hàng khác nhau có những hành vi khác nhau.
1.1.3.3. Đa dạng trong vùng miền, quốc gia
Hành vi khách hàng đa dạng, khác biệt ở mỗi vùng miền, quốc gia. Những người
ở nơng thơn có xu hướng ứng xử khác biệt với những người ở khu vực thành thị.
Sự khác biệt có thể đến từ phương pháp giáo dục, lối sống địa phương hay trình độ
phát triển kinh tế mỗi vùng miền.
1.1.3.4. Đa dạng trong mỗi loại sản phẩm
Mỗi đối tượng lại có hành vi khách nhau trong tiếp cận các loại mặt hàng khác

nhau. Người trẻ có xu hướng theo dõi, quan tâm đến những sản phẩm như thiết bị
điện tử hay thời trang, trong khi không mấy hứng thú với các sản phẩm thiết yếu.
Người lớn tuổi có thể ít quan tâm đến mặt hàng quần áo, tuy nhiên đầu tư nhiều
tiền hơn vào tiết kiệm, bảo hiểm, trợ cấp.
1.1.4

Động lực nghiên cứu

Từ những dẫn chứng trên, có thể thấy rằng việc nghiên cứu và phân tích hành vi
người dùng là mục tiêu vô cùng quan trọng của các doanh nghiệp và mang lại giá
trị thực tiễn cao. Đặc biệt hơn, trong thời đại số và sự phát triển của mạng xã hội,
việc phân tích hành vi người dùng càng trở nên đa chiều hơn do có thể khai thác
được những thông tin về quan hệ xã hội giữa người với người trên các nền tảng
như Facebook, Twitter, …Chính vì thế, khai thác các thơng tin trên mở ra cơ hội
khơng thể tốt hơn để dự đốn hành vi người dùng trong tương lai.

18


Gần đây, các mơ hình học máy và mạng nơ ron học sâu được phát triển vơ cùng
nhanh chóng và nghiên cứu ngày càng nhiều. Đã có nhiều mơ hình được xây dựng
cho phân tích hành vi người dùng tuy nhiên các mơ hình chỉ dừng lại các phương
pháp như dựa vào nội dung, dựa vào người dùng, dựa vào sản phẩm, phân tích ma
trận thành nhân tử hay mạng nơ ron nhưng chưa có mơ hình nào thực sự mang lại
kết quả khả quan. Việc này ngoài đến từ kiến trúc mơ hình, cịn xuất phát từ việc
chưa phân tích chưa đầy đủ các khía cạnh của dữ liệu, cụ là thể dữ liệu từ mạng xã
hội và với đồ thị tri thức. Việc mơ hình hóa dữ liệu người dùng, dữ liệu mạng xã
hội và đồ thị tri thức dưới dạng đồ thị sẽ giúp khai thác sâu hơn các quan hệ giữa
người với người, người với vật và vật với vật. Từ cơ sở kết hợp nhiều khía cạnh
của dữ liệu cùng với sự phát triển của kỹ thuật mạng học sâu trên đồ thị, việc nghiên

cứu sâu về phương pháp mạng học sâu trên đồ thị kết hợp đồ thị tri thức và mạng
xã hội sẽ mang lại cơ hội cho em nâng cao kiến thức cũng như xây dựng mơ hình
đề xuất giúp gia tăng tính chính xác cho kết quả cũng như sát với mơ hình dữ liệu
thực tế hiện nay.
1.2 Đặt bài tốn
Bài tốn phân tích hành vi người dùng trên mạng xã hội là một bài tốn rộng, vì
thế việc xác định rõ phạm vi bài tốn là vơ cùng quan trọng. Vì thế, trong luận án
này, phạm vi nghiên cứu của em cụ thể là phân tích và xây dựng hệ khuyến nghị
để dự đoán hành vi tương tác, cho điểm đánh giá của người dùng đối với các sản
phẩm (giá trị từ 1 đến 5) sử dụng dữ liệu từ đồ thị tri thức được khai thác từ Freebase
kết hợp dữ liệu mạng xã hội mô phỏng quan hệ bạn bè giữa những người dùng với
nhau.
Vấn đề thực tế là đối với một hệ thống dự đoán đánh giá của người dùng là số
lượng các sản phẩm là rất lớn. Vì vậy, để giảm bớt tác động của việc quá tải thông
tin, hệ khuyến nghị (Recommendation System) đưa ra đề xuất một số lượng nhóm
nhỏ các sản phẩm để đáp ứng sở thích được cá nhân hóa đối với mỗi người dùng
khác nhau.
Phương pháp truyền thống của hệ thống khuyến nghị là lọc cộng tác (collaborative
filtering) [1], dựa trên hành vi của các người dùng hoặc sản phẩm và mô hình hóa
sự tương tác giữa chúng bằng phân tích ma trận thành nhân tử (matrix factorization)
[2] hay mạng nơ ron (neural network). Tuy nhiên, các phương pháp dựa trên thường
chưa đạt được kết quả mong muốn do dữ liệu tương tác giữa người dùng và sản
phẩm rất ít dẫn tới sự thưa thớt trong ma trận tương tác đồng thời mơ hình cũng
chưa thể tận dụng hết các đặc trưng và mối quan hệ giữa chúng cũng như vấn đề
khởi động lạnh (cold-start) chung của hệ khuyến nghị.
19


Để giải quyết những vấn đề trên, đã có nhiều phương pháp mới như mơ hình hóa
đặc trưng của người dùng và sản phẩm thành các vectơ đặc trưng với số chiều và

phương pháp khác nhau, kết hợp với đồ thị tri thức hay ứng dụng mạng học sâu.
Hơn nữa những năm gần đây đã chứng kiến những bước phát triển vượt bậc trong
kỹ thuật mạng nơ ron cho dữ liệu đồ thị [3]. Các kiến trúc mạng nơ ron này được
gọi là mạng nơ ron đồ thị (GNN) [4], [5]. Mạng nơ rơn đồ thị tổng hợp các thông
tin cho nút (node) cũng như cấu trúc bản thể xung quanh và đã được chứng minh
là có tác dụng mạnh trong việc học biểu diễn cho nút [3], [6]. Về xây dựng các đặc
trưng, những nghiên cứu gần đây [7]–[9] không chỉ đơn thuần sử dụng các đặc
trưng riêng lẻ như thông tin của người dùng hay đặc trưng của sản phẩm mà còn
tiếp cận đến những liên kết giữa các nút với nhau tạo thành đồ thị tri thức
(Knowledge Graph - KG). Vậy đồ thị tri thức là gì? Đồ thị tri thức là một đồ thị
không đồng nhất và có hướng, trong đó các nút tương ứng với các thực thể. Thực
thể này có thể là biểu diễn của một sản phẩm, một người dùng, một sự vật kèm
thuộc tính của chúng. Các cạnh giữa các nút tương ứng với các quan hệ giữa các
thực thể với nhau, các quan hệ này cũng có các thuộc tính riêng. Ví dụ nút phim
‘Inception’ có quan hệ ‘được đạo diễn’ bởi đạo diễn ‘Cristopher Nolan’. So với các
phương pháp không có đồ thị tri thức, việc kết hợp đồ thị tri thức vào hệ khuyến
nghị mang lại lợi ích cho kết quả theo ba cách [10]: (1) Thứ nhất là mối liên quan
về mặt ngữ nghĩa, tương tác giữa các nút sản phẩm trong đồ thị tri thức giúp khám
phá các mối liên hệ tiềm ẩn của chúng, việc biểu diễn sản phẩm trở nên đa chiều
hơn từ đó sẽ cải thiện độ chính xác của kết quả và hiệu quả của mơ hình; (2) Thứ
hai là các loại quan hệ khác nhau trong một đồ thị tri thức hữu ích để mở rộng đặc
trưng của người dùng một cách hợp lý và tăng tính đa dạng của các sản phẩm được
đề xuất; (3) Thứ ba là đồ thị tri thức kết nối các sản phẩm được đề xuất và u thích
trước đây của người dùng, do đó mang lại khả năng giải thích về tính hợp lý cho
các hệ thống đề xuất. Mặt khác, dữ liệu trong hệ khuyến nghị hồn tồn có thể được
biểu diễn dưới dạng biểu đồ và đồ thị tri thức. Được minh họa trong Hình 1.1, các
đồ thị bao gồm biểu đồ quan hệ xã hội giữa người dùng với nhau, biểu đồ tương
tác giữa người dùng và sản phẩm và đồ thị tri thức của các sản phẩm. Cả ba đồ thị
đều giao thoa và kết hợp với nhau, từ đó giúp mạng nơ ron xây dựng biểu diễn đặc
trưng cho người dùng và sản phẩm dưới nhiều khía cạnh khác nhau và là chìa khóa

để xây dựng hệ thống khuyến nghị. Do đó, với những lợi thế của mình, mạng học
sâu trên đồ thị kết hợp với đồ thị tri thức là hoàn toàn khả thi đồng thời mang lại
cơ hội chưa từng có để nâng cao kết quả cho hệ khuyến nghị.

20



×